机器学习报告Word文档下载推荐.docx

上传人:聆听****声音 文档编号:671619 上传时间:2023-04-29 格式:DOCX 页数:6 大小:52.18KB
下载 相关 举报
机器学习报告Word文档下载推荐.docx_第1页
第1页 / 共6页
机器学习报告Word文档下载推荐.docx_第2页
第2页 / 共6页
机器学习报告Word文档下载推荐.docx_第3页
第3页 / 共6页
机器学习报告Word文档下载推荐.docx_第4页
第4页 / 共6页
机器学习报告Word文档下载推荐.docx_第5页
第5页 / 共6页
机器学习报告Word文档下载推荐.docx_第6页
第6页 / 共6页
亲,该文档总共6页,全部预览完了,如果喜欢就下载吧!
下载资源
资源描述

机器学习报告Word文档下载推荐.docx

《机器学习报告Word文档下载推荐.docx》由会员分享,可在线阅读,更多相关《机器学习报告Word文档下载推荐.docx(6页珍藏版)》请在冰点文库上搜索。

机器学习报告Word文档下载推荐.docx

训练过程中使用的数据成为“训练数据”(trainingdata),其中每个样本称为一个“训练样本”(trainingsample),训练样本组成的集合称为“训练集“(trainingset)。

学得模型对应了关于数据的某种潜在的规律,因此亦称”假设“(hypothesis);

这种潜在规律自身,则称为”真相“或”真实“(ground-truth),学习过程就是为了找出或逼近真相。

模型有时也被称为”学习器“(learner),可看作学习算法在给定数据和参数空间上的实例化。

若欲预测的是离散值则此类学习任务被称为“分类”;

若欲预测的是连续值则此类学习任务称为“回归”;

对只涉及两个类别的“二分类”任务,通常称其中一个类为“正类”,另一个类为“反类”;

涉及多个类别时,则称为“多分类”任务。

模型是否准确依赖与数据。

如果我的数据越多,我的模型就越能够考虑到越多的情况,由此对于新情况的预测效果可能就越好。

这是机器学习界“数据为王”思想的一个体现。

一般来说(不是绝对),数据越多,最后机器学习生成的模型预测的效果越好。

机器学习里面有非常多的经典算法,每种算法都能形成一个模型。

下面在简要介绍一下机器学习中的经典代表方法。

重点介绍的是这些方法内涵的思想。

1、回归算法

在大部分机器学习课程中,回归算法都是介绍的第一个算法。

原因有两个:

一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。

二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。

回归算法有两个重要的子类:

即线性回归和逻辑回归。

线性回归一般使用“最小二乘法”来求解。

“最小二乘法”的思想是这样的,假设我们拟合出的直线代表数据的真实值,而观测到的数据代表拥有误差的值。

为了尽可能减小误差的影响,需要求解一条直线使所有误差的平方和最小。

最小二乘法将最优问题转化为求函数极值问题。

函数极值在数学上我们一般会采用求导数为0的方法。

但这种做法并不适合计算机,可能求解不出来,也可能计算量太大。

计算机科学界专门有一个学科叫“数值计算”,专门用来提升计算机进行各类计算时的准确性和效率问题。

例如,著名的“梯度下降”以及“牛顿法”就是数值计算中的经典算法,也非常适合来处理求解函数极值的问题。

梯度下降法是解决回归模型中最简单且有效的方法之一。

逻辑回归是一种与线性回归非常类似的算法,但是,从本质上讲,线型回归处理的问题类型与逻辑回归不一致。

线性回归处理的是数值问题,也就是最后预测出的结果是数字,例如预测一所房子大约可以买多少钱。

而逻辑回归属于分类算法,也就是说,逻辑回归预测结果是离散的分类,例如判断肿瘤是恶性还是良性等等。

实现方面的话,逻辑回归只是对对线性回归的计算结果加上了一个Sigmoid函数,将数值结果转化为了0到1之间的概率(Sigmoid函数的图像一般来说并不直观,你只需要理解对数值越大,函数越逼近1,数值越小,函数越逼近0),接着我们根据这个概率可以做预测,例如概率大于0.5,肿瘤就是恶性的等等。

2、神经网络

神经网络(也称之为人工神经网络,ANN)算法是80年代机器学习界非常流行的算法,不过在90年代中途衰落。

现在,携着“深度学习”之势,神经网络重装归来,重新成为最强大的机器学习算法之一。

神经网络的诞生起源于对大脑工作机理的研究。

早期生物界学者们使用神经网络来模拟大脑。

机器学习的学者们使用神经网络进行机器学习的实验,发现在视觉与语音的识别上效果都相当好。

在BP算法(加速神经网络训练过程的数值算法)诞生以后,神经网络的发展进入了一个热潮。

下图是一个简单的神经网络的逻辑架构。

在这个网络中,分成输入层,隐藏层,和输出层。

输入层负责接收信号,隐藏层负责对数据的分解与处理,最后的结果被整合到输出层。

每层中的一个圆代表一个处理单元,可以认为是模拟了一个神经元,若干个处理单元组成了一个层,若干个层再组成了一个网络,也就是”神经网络”。

图神经网络的逻辑架构

在神经网络中,每个处理单元事实上就是一个逻辑回归模型,逻辑回归模型接收上层的输入,把模型的预测结果作为输出传输到下一个层次。

通过这样的过程,神经网络可以完成非常复杂的非线性分类。

进入90年代,神经网络的发展进入了一个瓶颈期。

其主要原因是尽管有BP算法的加速,神经网络的训练过程仍然很困难。

因此90年代后期支持向量机(SVM)算法取代了神经网络的地位。

3、SVM(支持向量机)

支持向量机算法是诞生于统计学习界,同时在机器学习界大放光彩的经典算法。

支持向量机算法从某种意义上来说是逻辑回归算法的强化:

通过给予逻辑回归算法更严格的优化条件,支持向量机算法可以获得比逻辑回归更好的分类界线。

但是如果没有某类函数技术,则支持向量机算法最多算是一种更好的线性分类技术。

但是,通过跟高斯“核”的结合,支持向量机可以表达出非常复杂的分类界线,从而达成很好的的分类效果。

“核”事实上就是一种特殊的函数,最典型的特征就是可以将低维的空间映射到高维的空间。

上述机器学习算法均为监督学习算法。

监督学习,就是人们常说的分类回归,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出。

在人对事物的认识中,我们从孩子开始就被大人们教授这是猫啊、那是狗啊、那是桌子啊,等等。

我们所见到的景物就是输入数据,而大人们对这些景物的判断结果(是房子还是鸟啊)就是相应的输出。

当我们见识多了以后,脑子里就慢慢地得到了一些泛化的模型,这就是训练得到的那个(或者那些)函数,从而不需要大人在旁边指点的时候,我们也能分辨的出来哪些是猫,哪些是狗。

无监督学习则是另一种研究的比较多的学习方法,它与监督学习的不同之处,在于我们事先没有任何训练样本,而需要直接对数据进行建模。

这听起来似乎有点不可思议,但是在我们自身认识世界的过程中很多处都用到了无监督学习。

比如我们去参观一个画展,我们完全对艺术一无所知,但是欣赏完多幅作品之后,我们也能把它们分成不同的派别(比如哪些更朦胧一点,哪些更写实一些,即使我们不知道什么叫做朦胧派,什么叫做写实派,但是至少我们能把他们分为两个类)。

无监督学习里典型的例子就是聚类了。

聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。

因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。

那么,什么时候应该采用监督学习,什么时候应该采用非监督学习呢?

一种非常简单的回答就是从定义入手,如果我们在分类的过程中有训练样本,则可以考虑用监督学习的方法;

如果没有训练样本,则不可能用监督学习的方法。

但是事实上,我们在针对一个现实问题进行解答的过程中,即使我们没有现成的训练样本,我们也能够凭借自己的双眼,从待分类的数据中人工标注一些样本,并把他们作为训练样本,这样的话就可以把条件改善,用监督学习的方法来做。

然而对于不同的场景,正负样本的分布如果会存在偏移(可能是大的偏移,也可能偏移比较小),这样的话用监督学习的效果可能就不如用非监督学习了。

今天,在计算机科学的诸多分支学科领域中,都能找到机器学习技术的身影,尤其是在计算机视觉、语音识别、模式识别、自然语言处理等“计算机应用技术”领域,机器学习已成为最重要的技术进步源泉之一。

此外,机器学习还为许多交叉学科提供了重要的技术支撑比如说“生物信息学”。

可以说“计算机视觉=图像处理+机器学习“。

图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责从图像中识别出相关的模式。

计算机视觉相关的应用非常的多,例如百度识图、手写字符识别、车牌识别等等应用。

这个领域是应用前景非常火热的,同时也是研究的热门方向。

随着机器学习的新领域深度学习的发展,大大促进了计算机图像识别的效果,因此未来计算机视觉界的发展前景不可估量。

如果说“计算机视觉=图像处理+机器学习“,那么”语音识别=语音处理+机器学习“。

语音识别就是音频处理技术与机器学习的结合。

语音识别技术一般不会单独使用,一般会结合自然语言处理的相关技术。

目前的相关应用有苹果语音助手siri、微软小娜等。

“自然语言处理=文本处理+机器学习“。

自然语言处理技术主要是让机器理解人类的语言的一门领域。

在自然语言处理技术中,大量使用了编译原理相关的技术,例如词法分析,语法分析等等,除此之外,在理解这个层面,则使用了语义理解,机器学习等技术。

作为唯一由人类自身创造的符号,自然语言处理一直是机器学习界不断研究的方向。

按照百度机器学习专家余凯的说法“听与看,说白了就是阿猫和阿狗都会的,而只有语言才是人类独有的”。

如何利用机器学习技术进行自然语言的的深度理解,一直是工业和学术界关注的焦点。

谈到对数据进行分析利用,很多人会想到“数据挖掘”(datamining)。

数据挖掘领域在二十世纪九十年代形成,它受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。

数据挖掘是从海量数据中发掘知识,这就必然涉及对“海量数据”的管理和分析。

大体来说,“数据挖掘=机器学习+数据库“——数据库领域的研究为数据挖掘提供数据管理技术,而机器学习和统计学的研究为数据挖掘提供数据分析技术。

由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。

从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。

从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。

同时,数据挖掘还有自身独特的内容,即关联分析。

通过上面的介绍,可以看出机器学习是多么的重要,应用是多么的广泛。

现随着大数据(bigdata)概念的兴起,机器学习大量的应用都与大数据高度耦合,几乎可以认为大数据是机器学习应用的最佳场景。

例如经典的Google利用大数据预测了H1N1在美国某小镇的爆发、百度预测2014年世界杯结果从淘汰赛到决赛全部正确。

这实在太神奇了,那么究竟是什么原因导致大数据具有这些魔力的呢?

简单来说,就是机器学习技术。

正是基于机器学习技术的应用,数据才能发挥其魔力。

大数据的核心是利用数据的价值,机器学习是利用数据价值的关键技术,对于大数据而言,机器学习是不可或缺的。

相反,对于机器学习而言,越多的数据会越可能提升模型的精确性,同时,复杂的机器学习算法的计算时间也迫切需要分布式计算与内存计算这样的关键技术。

因此,机器学习的兴盛也离不开大数据的帮助。

大数据与机器学习两者是互相促进,相依相存的关系。

机器学习与大数据紧密联系。

但是,必须清醒的认识到,大数据并不等同于机器学习,同理,机器学习也不等同于大数据。

大数据中包含有分布式计算、内存数据库、多维分析等等多种技术。

单从分析方法来看,大数据也包含以下四种分析方法:

1.大数据,小分析:

即数据仓库领域的OLAP分析思路,也就是多维分析思想。

2.大数据,大分析:

这个代表的就是数据挖掘与机器学习分析法。

3.流式分析:

这个主要指的是事件驱动架构。

4.查询分析:

经典代表是NoSQL数据库。

也就是说,机器学习仅仅是大数据分析中的一种而已。

尽管机器学习的一些结果具有很大的魔力,在某种场合下是大数据价值最好的说明。

但这并不代表机器学习是大数据下的唯一的分析方法。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2