机器学习方法有哪些.docx

资源描述

机器学习方法有哪些.docx

《机器学习方法有哪些.docx》由会员分享，可在线阅读，更多相关《机器学习方法有哪些.docx（20页珍藏版）》请在冰点文库上搜索。

机器学习方法有哪些.docx

机器学习方法有哪些

数学基础

有无数激情满满大步向前，誓要在机器学习领域有一番作为的同学，在看到公式的一刻突然就感觉自己狗带了。

是啊，机器学习之因此相关于其他开发工作，更有门槛的根根源因就是数学。

每一个算法，要在训练集上最大程度拟合同时又保证泛化能力，需要不断解析结果和数据，调优参数，这需要我们对数据分布和模型基层的数学原理有必然的理解。

所幸的是若是可是想合理应用机器学习，而不是做相关方向高精尖的research，需要的数学知识啃一啃还是基本能理解下来的。

至于更高明的部分，恩，博主特别愿意认同自己是『数学渣』。

基本全部常有机器学习算法需要的数学基础，都集中在微积分、线性代数和概率与统计中间。

下面我们先过一过知识重点，文章的后部分会介绍一些帮助学习和牢固这些知识的资料。

微积分

微分的计算及其几何、物理含义，是机器学习中大多数算法的求解过程的中心。

比方算法中运用到梯度下降法、牛顿法等。

若是对其几何意义有充分的理解，就能理解“梯度下降是用平面来逼近局部，牛顿法是用曲面逼近局部”，能够更好地理解运用这样的方法。

凸优化和条件最优化的相关知识在算法中的应用随处可见，若是能有系统的学习将使得你对算法的认识达到一个新高度。

线性代数

大多数机器学习的算法要应用起来，依赖于高效的计算，这种场景下，程序员GG们习惯的多层for循环平常就行不通了，而大多数的循环操作可转变为矩阵之间的乘法运算，这就和线性代数有莫大的关系了

向量的内积运算更是随处可见。

矩阵乘法与分解在机器学习的主成分解析（PCA）和奇异值分解

（SVD）等部分表现刷屏状地出现。

概率与统计

从广义来说，机器学习在做的很多事情，和统计层面数据解析和挖掘隐蔽的模式，是特别近似的。

极大似然思想、贝叶斯模型是理论基础，朴素贝叶斯（Na?

veBayes）、语言模型（N-gram）、隐马尔科夫（HMM）、隐变量混杂概率模型是他们的高级形态。

常有分布如高斯分布是混杂高斯模型（GMM）等的基础。

典型算法

绝大多数问题用典型机器学习的算法都能解决，大概地列举一下这些方法以下：

办理分类问题的常用算法包括：

逻辑回归（工业界最常用），支持向量机，随机森林，朴素贝叶斯（NLP中常用），深度神经网络（视频、图片、语音等多媒体数据中使用）。

办理回归问题的常用算法包括：

线性回归，一般最小二乘回归

（OrdinaryLeastSquaresRegression），渐渐回归

（StepwiseRegression），多元自适应回归样条

（MultivariateAdaptiveRegressionSplines）

办理聚类问题的常用算法包括：

K均值（K-means），基于密度聚类，LDA等等。

降维的常用算法包括：

主成分解析（PCA）,奇异值分解（SVD）等。

模型交融（modelensemble）和提升（boosting）

bagging，adaboost，GBDT，GBRT

的算法包括：

其他很重要的算法包括：

EM算法等等。

我们多插一句，机器学习里所说的“算法”与程序员所说的“数据结构与算法解析”里的“算法”略有差异。

前者更关注结果数据的召回率、精确度、正确性等方面，后者更关注执行过程的时间复杂度、空间复杂度等方面。

。

自然，本质机器学习问题中，对效率和资源占用的考量是不能或缺的。

编程语言、工具和环境

看了无数的理论与知识，总归要落到本质着手实现和解决问题上。

而没有工具全部的资料和框架、逻辑、思路都给你，也寸步难行。

因此我们还是得需要合适的编程语言、工具和环境帮助自己在数据集上应用机器学习算法，也许实现自己的想法。

对初学者而言，Python和R语言是很好的入门语言，很简单上手，同时又活跃的社

区支持，丰富的工具包帮助我们完成想法。

相对而言，忧如计算机

相关的同学用Python多一些，而数学统计出身的同学更喜欢R一些。

我们对编程语言、工具和环境略加介绍：

python

python有着全品类的数据科学工具，从数据获得、数据冲刷到整合各种算法都做得特别全面。

网页爬虫:

scrapy

数据挖掘:

pandas：

模拟R，进行数据阅读与预办理。

numpy：

数组运算。

scipy：

高效的科学计算。

matplotlib：

特别方便的数据可视化工具。

机器学习:

scikit-learn：

远近闻名的机器学习package。

未必是最高效的，

但是接口诚意封装得好，几乎全部的机器学习算法输入输出部分格式都一致。

而它的支持文档甚至能够直接当作教程来学习，特别用

心。

关于不是特别高纬度、高量级的数据，scikit-learn胜任得特别好（有兴趣能够看看sklearn的源码，也很有意思）。

libsvm：

高效率的svm模型实现（认识一下很有好处，libsvm的系数数据输入格式，在各处都非经常有）

keras/TensorFlow：

对深度学习感兴趣的同学，也能很方便地搭建自己的神经网络了。

自然语言办理:

nltk：

自然语言办理的相关功能做得特别全面，有典型语料库，而且上手也特别简单。

交互式环境：

R最大的优势是开源社区，齐聚了特别多功能富强可直接使用的包，绝大多数的机器学习算法在R中都有完满的包可直接使用，同时文档也特别齐全。

常有的package包括：

RGtk2,pmml,colorspace,ada,amap,arules,biclust,cba,descr,doBy,e1071,ellipse等等。

别的，值得一提的是R的可视化收效做得特别不错，而这关于机器学习是特别有帮助的。

其他语言

相应资深程序员GG的要求，再补充一下java和C++相关机器学

习package。

Java系列

WEKAMachineLearningWorkbench相当于java中的scikit-learn

其他的工具如MassiveOnlineAnalysis（MOA）、MEKA、Mallet等也特别闻名。

更多详细的应用请参照这篇文章《25个Java机器学习工具&库》

C++系列

mlpack，高效同时可扩大性特别好的机器学习库。

Shark：

文档齐全的老牌C++机器学习库。

大数据相关

Hadoop：

基本上是工业界的标配了。

一般用来做特色冲刷、特色办理的相关工作。

spark：

供应了MLlib这样的大数据机器学习平台，实现了很多常用算法。

但靠谱性、牢固性上有待提升。

操作系统

mac和linux会方便一些，而windows在开发中略显力所不及。

所谓方便，主若是指的mac和linux在下载安装软件、配置环境更快捷。

基本工作流程

以上我们基本具备了机器学习的必要条件，剩下的就是怎么运用它们去做一个完满的机器学习项目。

其工作流程以下:

抽象成数学问题

明确问题是进行机器学习的第一步。

机器学习的训练过程平常都是一件特别耗时的事情，胡乱试一试时间成本是特别高的。

这里的抽象成数学问题，指的我们明确我们能够获得什么样的数据，目标是一个分类还是回归也许是聚类的问题，若是都不是的话，若是划归为其中的某类问题。

获得数据

数据决定了机器学习结果的上限，而算法可是尽可能逼近这个上限。

数据要有代表性，否则必然会过拟合。

而且关于分类问题，数据偏斜不能够过于严重，不同样类其他数据数量不要有数个数量级的差距。

而且还要对数据的量级有一个评估，多少个样本，多少个特色，能够估计出其对内存的耗资程度，判断训练过程中内存可否能够放得下。

若是放不下就得考虑改进算法也许使用一些降维的技巧了。

若是数据量实在太大，那就要考虑分布式了。

特色预办理与特色选择

优异的数据要能够提取出优异的特色才能真实发挥效力。

特色预办理、数据冲刷是很重点的步骤，经常能够使得算法的收效和性能获得显然提升。

归一化、失散化、因子化、缺失值办理、去除共线性等，数据挖掘过程中很多时间就花在它们上面。

这些工作简单可复制，收益牢固可预期，是机器学习的基础必备步骤。

精选出显然特色、摒弃非显然特色，需要机器学习工程师屡次理解业务。

这对很多结果有决定性的影响。

特色选择好了，特别简单的算法也能得出优异、牢固的结果。

这需要运用特色有效性解析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验概率、逻辑回归权重等方法。

训练模型与调优

直到这一步才用到我们上面说的算法进行训练。

此刻很多算法都能够封装成黑盒供人使用。

但是真实考验水平的是调整这些算法的（超）参数，使得结果变得更加优异。

这需要我们对算法的原理有深

入的理解。

理解越深入，就越能发现问题的症结，提出优异的调优方案。

模型诊断

如何确定模型调优的方向与思路呢?

这就需要对模型进行诊断的技术。

过拟合、欠拟合判断是模型诊断中至关重要的一步。

常有的方法如交织考据，绘制学习曲线等。

过拟合的基本调优思路是增加数据量，降低模型复杂度。

欠拟合的基本调优思路是提升特色数量和质量，增加模型复杂度。

差解析也是机器学至关重要的步。

通察差本，全面解析差生差的原因:

是参数的是算法的，是特色的是数据自己的⋯⋯

断后的模型需要行，后的新模型需要重新行断，是一个屡次迭代不断逼近的程，需要不断地，而达到最状。

模型交融

一般来，模型交融后都能使得收效有必然提升。

而且收效很好。

工程上，主要提升算法正确度的方法是分在模型的前端（特色冲刷和理，不同样的采模式）与后端（模型交融）上下功夫。

因他比准可复制，收效比定。

而直接参的工作不会很多，竟大量数据起来太慢了，而且收效以保。

上运行

一部分内容主要跟工程的相关性比大。

工程上是果

向，模型在上运行的收效直接决定模型的成。

不包括其准

确程度、差等情况，包括其运行的速度（复度）、源消

耗程度（空复度）、定性可否可接受。

些工作流程主若是工程践上出的一些。

其实不是每个目都包括完满的一个流程。

里的部分可是一个指性的明，只有大家自己多践，多累目，才会有自己更深刻的。

关于累目

初学机器学可能有一个区，就是一上来就坠入到各种高大上算法的追赶中间。

不就我能不能够用深度学去解决个

啊?

我可否是要用boosting算法做一些模型交融啊?

我素来拥有一个点，『走开和数据的算法是毫没心的』。

上按我的学，从一个数据源开始，即即是用最，已用多年的机器学算法，先完满地走完机器学的整个工作流程，不断各种算法深挖些数据的价，在运用程中把数

据、特色和算法搞透，真实积累出项目经验才是最快、最靠谱的学习路径。

那如何获得数据和项目呢?

一个捷径就是积极参加国内外各种数据挖掘竞赛，数据直接下载下来，依照竞赛的要求去不断优化，积累经验。

外国的Kaggle和国内的DataCastle以及阿里天池竞赛都是很好的平台，你能够在上面获得真实的数据和数据科学家们一起学习和进行竞赛，试一试使用已经学过的全部知识来完成这个竞赛自己也是一件很有乐趣的事情。

和其他数据科学家的谈论能广阔视野，对机器学习算法有更深层次的认识。

有意思的是，有些平台，比方阿里天池竞赛，甚至给出了从数据办理到模型训练到模型评

估、可视化到模型交融增强的全部组件，你要做的事情可是参加

竞赛，获得数据，尔后使用这些组件去实现自己的idea即可。

详细内容能够拜会阿里云机器学习文档。

自主学习能力

多几句嘴，这部分内容和机器学习自己没相关系，但是我们感觉这方面的能力关于任何一种新知识和技术的学习来说都是至关重要的。

自主学习能力提升后，意味着你能够跟据自己的情况，找到最合适的学习资料和最快学习成长路径。

信息检索过滤与整合能力

关于初学者，绝大多数需要的知识经过网络便能够找到了。

谷歌找寻引擎技巧——组合代替找寻重点词、站内找寻、学术文件找寻、PDF找寻等——都是必备的。

一个比较好的习惯是找到信息的原始出处，如个人站、公众号、博客、专业网站、书籍等等。

这样便能够找到系统化、不失真的高质量信息。

XX搜到的技术类信息不够好，建议只作为补充找寻来用。

各种找寻引擎都能够交织着使用收效更好。

学会去常有的高质量信息源中找寻东西:

stackoverflow（程序相

关）、quora（高质量回答）、wikipedia（系统化知识，比某某百科不知道好太多）、知乎（中文、有料）、网盘找寻（免费资源一大把）等。

将采集到的网页放到分类齐全的云端收藏夹里，并经常整理。

这样无论在公司还是在家里，在电脑前还是在手机上，都能够找到自己喜欢的东西。

采集到的文件、代码、电子书等等也放到云端网盘里，并经常整理。

提炼与总结能力

经常作笔录，并总结自己学到的知识是成长的不二法门。

其实主要的困难是懒，但是坚持

此后总能发现知识的共性，就能少记一些东西，掌握得更多。

笔录建议放到云端笔录里，印象笔录、为知笔录都还不错。

这样在坐地铁、排队等琐碎的时间都能看到笔录并连续思虑。

提问与求助能力

机器学习的相关QQ群、论坛、社区一大堆。

总有人知道你问题的答案。

但是大多数同学都很忙，没法像家庭教师那样手把手告诉你怎么做。

为了让回答者最快理解你的问题，最好该学会正确的问问题的方

式:

陈述清楚你的业务场景和业务需求是什么，有什么已知条件，在哪个详细的节点上遇到困难了，并做过哪些努力。

别人帮助你的可能性与你提问题的详细程度和重要性呈指数相关。

分享的习惯

我们深信：

“证明自己真的透彻理解一个知识，最好的方法，是给一个想认识这个内容的人，讲清楚这个内容。

”分享能够最充分地提升自己的学习水平。

这也是我们坚持长远分享最重要的原因。

分享还有一个副产品，就是自己在求助的时候能够获得更多的帮助机遇，这也特别重要。

其实不是全部的问题都合适用机器学习解决（很多逻辑清楚的问题用规则能很高效和正确地办理），也没有一个机器学习算法能够通用于全部问题。

我们先来认识认识，机器学习，终究关心和解决什么样的问题。

从功能的角度分类，机器学习在必然量级的数据上，能够解决以下问题：

1.分类问题

依照数据样本上抽取出的特色，判断其属于有限个种类中的哪一个。

比方：

垃圾邮件鉴别（结果种类：

1、垃圾邮件2、正常邮件）

文本感情褒贬解析（结果种类：

1、褒2、贬）

图像内容鉴别鉴别（结果种类：

1、喵星人2、汪星人3、人类4、草泥马5、都不是）。

2.回归问题

依照数据样本上抽取出的特色，展望一个连续值的结果。

比方：

星爷《佳丽鱼》票房

大帝都2个月后的房价

近邻熊孩子一天来你家几次，宠幸你多少玩具

3.聚类问题

依照数据样本上抽取出的特色，让样本抱抱团（周边/相关的样本在一团内）。

比方：

谷歌的新闻分类

用户集体划分

我们再把上述常有问题划到机器学习最典型的2个分类上。

分类与回归问题需要用已知结果的数据做训练，属于“督查学习”

聚类的问题不需要已知标签，属于“非督查学习”。

若是在IT行业（特别是互联网）里漫步一圈，你会发现机器学习在以下热点问题中有广泛应用：

1.计算机视觉

典型的应用包括：

人脸鉴别、车牌鉴别、扫描文字鉴别、图片内容鉴别、图片找寻等等。

2.自然语言办理

典型的应用包括：

找寻引擎智能般配、文本内容理解、文本情绪判断，语音鉴别、输入法、机器翻译等等。

3.社会网络解析

典型的应用包括：

用户画像、网络关系解析、欺诈作弊发现、热点发现等等。

文章的最后部分，我们连续放送干货。

其实机器学习的优异资源特别多。

博主也是翻遍阅读器收藏夹，也问同事取了取经，整合了一部分资源摆列以下：

入门资源

微积分相关

Calculus:

SingleVariable

MultivariableCalculus

线性代数

LinearAlgebra

概率统计

IntroductiontoStatistics:

DescriptiveStatistics

ProbabilisticSystemsAnalysisandAppliedProbability

编程语言

ProgrammingforEverybody:

Python

DataCamp:

LearnRwithRtutorialsandcodingchallenges:

机器学习方法

StatisticalLearning（R）

机器学习基石

机器学习技术：

林轩田老师的课相对更有深度一些，把作业做完会对提升对机器学习的认识。

自然语言办理:

斯坦福大学课程

平常阅读的资源

@爱可可-爱生活的微博

机器学习日报的邮件订阅等。

进阶资源

有源代码的教程

scikit-learn中各个算法的例子

《机器学习实战》有中文版，并附有python源代码。

《TheElementsofStatisticalLearning（豆瓣）》这本书有对应的中文版：

《统计学习基础（豆瓣）》。

书中配有R包。

能够参照着代码学习算法。

网盘中有中文版。

《NaturalLanguageProcessingwithPython（豆瓣）》NLP经典，其实主若是讲python的NLTK这个包。

网盘中有中文版。

《NeuralNetworksandDeepLearning》MichaelNielsen的神经网络教材，简易易懂。

国内有部分翻译，不全，建议直接看原版。

图书与教材

《数学之美》：

入门读起来很不错。

《统计学习方法（豆瓣）》：

李航经典教材。

《PatternRecognitionAndMachineLearning（豆瓣）》：

经典中教

材。

《统计自然语言办理》自然语言办理经典教材

《Appliedpredictivemodeling》：

英文版，侧重工程实践的机器学习教材

《UFLDL教程》：

神经网络经典教材

《deeplearningbook》:

深度学习经典教材。

工具书

《SciPyandNumPy（豆瓣）》

《PythonforDataAnalysis（豆瓣）》作者是Pandas这个包的作者其他网络资料

机器学习（MachineLearning）与深度学习（DeepLearning）资料汇

总:

作者太给力，量大干货多，有兴趣的同学能够看看，博主到此刻只看了一小部分。

展开阅读全文