人工智能技术介绍PPT.pptx

上传人:聆听****声音 文档编号:10463890 上传时间:2023-05-26 格式:PPTX 页数:101 大小:55.34MB
下载 相关 举报
人工智能技术介绍PPT.pptx_第1页
第1页 / 共101页
人工智能技术介绍PPT.pptx_第2页
第2页 / 共101页
人工智能技术介绍PPT.pptx_第3页
第3页 / 共101页
人工智能技术介绍PPT.pptx_第4页
第4页 / 共101页
人工智能技术介绍PPT.pptx_第5页
第5页 / 共101页
人工智能技术介绍PPT.pptx_第6页
第6页 / 共101页
人工智能技术介绍PPT.pptx_第7页
第7页 / 共101页
人工智能技术介绍PPT.pptx_第8页
第8页 / 共101页
人工智能技术介绍PPT.pptx_第9页
第9页 / 共101页
人工智能技术介绍PPT.pptx_第10页
第10页 / 共101页
人工智能技术介绍PPT.pptx_第11页
第11页 / 共101页
人工智能技术介绍PPT.pptx_第12页
第12页 / 共101页
人工智能技术介绍PPT.pptx_第13页
第13页 / 共101页
人工智能技术介绍PPT.pptx_第14页
第14页 / 共101页
人工智能技术介绍PPT.pptx_第15页
第15页 / 共101页
人工智能技术介绍PPT.pptx_第16页
第16页 / 共101页
人工智能技术介绍PPT.pptx_第17页
第17页 / 共101页
人工智能技术介绍PPT.pptx_第18页
第18页 / 共101页
人工智能技术介绍PPT.pptx_第19页
第19页 / 共101页
人工智能技术介绍PPT.pptx_第20页
第20页 / 共101页
亲,该文档总共101页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

人工智能技术介绍PPT.pptx

《人工智能技术介绍PPT.pptx》由会员分享,可在线阅读,更多相关《人工智能技术介绍PPT.pptx(101页珍藏版)》请在冰点文库上搜索。

人工智能技术介绍PPT.pptx

人工智能技术介绍PPT,一、人工智能的基本概念,人工智能(ArtificialIntelligence),英文缩写为AI。

它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能技术概述,第一节,深度学习与智能围棋,第二节,人工智能3.0,第三节,目录content,人工智能的新革命,第一节,人工智能技术简述深度学习算法知识图谱,人工智能将引领人类第四次工业革命智能化,时间,18世纪末,工业1.0创造了机器工厂的“蒸汽时代”,20世纪初,电力广泛应用,蒸汽机,信息物联系统,1970年代初,今天,工业2.0将人类带入分工明确、大批量生产的流水线模式和“电气时代”,工业3.0应用电子信息技术,进一步提高生产自动化水平,自动化、信息化,工业4.0开始应用信息物理融合系统(CPS),复杂度,来悄临悄,互联网时代,终正,结在,人工智能机器人,交通工具(即无人机、无人驾驶等)VR(虚拟现实),AI将催生“无用阶层”吗?

人工/脑力劳动:

翻译、记者.人工/体力劳动:

保安、保姆.,什么是人工智能(AI)?

全面实施战略性新兴产业发展规划,加快人工智能等技术的研发和转化,做大做强产业集群把发展智能制造作为主攻方向,推进国家智能制造示范区、制造业创新中心建设,人工智能:

国家战略(2017年政府工作报告),人工智能(ArtificialIntelligence),英文缩写为AI。

它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

人工智能是对人的意识、思维的信息过程的模拟。

人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。

什么是人工智能?

人工智能有那些类型?

弱人工智能,包含基础的、特定场景下角色型的任务,如Siri等聊天机器人和AlphaGo等下棋机器人;通用人工智能,包含人类水平的任务,涉及机器的持续学习;强人工智能,指比人类更聪明的机器;,1956,1974,1980,1987,1993,2006,AI的诞生1956达特矛斯会议,“人工智能”正式诞生,孕育期电子计算机机器翻译与NLP图灵测试计算机下棋早期神经网络,搜索式推理聊天机器人乐观思潮,所有的AI程序都只是“玩具”运算能力计算复杂性常识与推理,专家系统知识工程五代机神经网络重生,未达预期削减投入,摩尔定律统计机器学习AI广泛应用,大数据计算能力应用增多,深度学习,人工智能,2016,人工智能发展历程,人机交互主要运用到的技术包括机器人学和模式识别技术,机器人可以模拟人的行为,而模式识别则能使用计算机模拟人类器官对外界的各种感知。

知识和数据智能处理知识处理时通常使用专家,技术,它能运用特定领域中专家提供的专门知识和经验,通过智能推理求和,便可解决只有专家才能解决的问题。

数据挖掘与分析面临大数据深度挖掘与分析时,通常采用机器学习,是基于人工神经网络的深度学习。

可针对海量数据进行分析计算,并创建相应模型。

核心技术,01,02,03,人工智能核心技术,模式识别是在多层神经网络发展的深度学习和深度神经网络的基础上,被运用于虹膜识别、,步态识别、身份识别等方面。

搜索及人机交互等。

自然语言处理主要目标是让机器能够识别、操作人类语言,主要包括信息抽取、机器翻译、摘要、,教育、服务等领域被广泛应用,如农业方面的作物病虫预测专家系统等。

和物体检测。

在围绕图像内容的信息检索、广告投放、用户分析、商品推荐等互联网应用在应用广泛。

专家系统图像识别在工业、农业、商务、科技、其两个核心问题是图像分类,四人、工人智能工应智用能领的域应用领域,手机中的AI,人工智能相关技术刚刚越过曲线高峰(处于狂热期),是推动透明化身临其境体验技术发展的主要动力涉及透明化身临其境体验的人本技术(如智能工作空间、互联家庭、增强现实、虚拟现实、脑机接口)是拉动另外两大趋势的前沿技术数字平台在曲线上处于快速上升期,其中的量子计算和区块链将在今后510年带来变革性的影响,AI处于什么阶段?

AIRoadmap,国人为什么要关注AI?

为什么人类能成为地球的主宰?

“符号语言”(口头语言和书面文字):

传递、保存、共享知识“集体知识”:

人类的大脑可以相互共享信息,交换知识,人类个体比其他动物没有多大优势,掌握了符号语言,人类社会的结构发生了突变,有了一个连接在一起的集体大脑。

这种物种之间相互关联、相互作用的方式,才是我们和其他物种的真正区别,脑容量:

历史上的“尼安德特人”和我们的祖先脑容量是一样的。

但后来尼安德特人就没留下来,只有我们这一支留下来了,时间地图:

大历史导论知识和创新是推动人类发展的动力基因:

人和大猩猩的基因,有98.4%都是完全一样的,只有1.6%有区别,AI学科结构,常识性推理演绎、问题求解,逻辑,心理学,知识的模型化和表示,认识论,心理学,AI系统和语言,系统程序设计,计算机语言,启发式搜索,现代控制理论,图论,运筹学,基本方法和技术,近期主要应用领域,近期主要应用领域,信息处理心理学,逻辑,控制理论,心理学,语言学,自然语言系统,机器视觉,光学,模式识别声学语音学,心理学图示学,机器人,工业自动化,控制理论,空间研究,自动程序设计,系统程序设计,算法分析,计算原理,自动定理证明,逻辑数学,逻辑学,教学、科学和工程辅助,博弈,管理科学,有关学科,符号操作,图示学,AI的几大门派,符号学派,联结学派行为学派,知识表示,神经网络机器人,模拟人的心智模拟脑的结构模拟人的行为,聪明的AI,有学识的AI,深度学习,知识图谱,感知,识别判断,思考语言推理,进化学派类推学派贝叶斯学派,人工智能产业生态的三层基本架构,基础资源层:

主要是计,算平台和数据中心,属于计算智能;,技术层:

通过机器学习建模,开发面向不同领域的算法和技术,包含感知智能和认知智能;应用层:

主要实现人工智能在不同场景下的应用。

基础资源支撑,AI生态逐步形成:

基础资源+技术+应用,人工智能系统的技术架构,智能终端,智能云平台,人工智能的新革命,第一节,人工智能技术简述深度学习算法知识图谱,推理期,知识期,机器学习期,人工智能的三个研究阶段,1950s,1970s,1980s,基于符号知识表示通过演绎推理技术,基于符号知识表示通过获取和利用领域知识建立专家系统,神经网络第二个高潮NP(non-deterministicpolynomial-time)难题中获重大进展助力大量现实问题,神经网络第一个高潮期,神经网络以深度学习之名再次崛起大幅提升感知智能准确率,2017,90s中期,统计学习登场并占据主流,支持向量机、核方法为代表性技术,提出支持向量、VC维等概念,统计学的研究成果经由机器学习研究,形成有效的学习算法,联结学派对大脑进行逆向分析灵感来自于神经科学和物理学产生的是“黑箱”模型神经网络可归置此类,符号学派将学习看作逆向演绎并从哲学、心理学、逻辑学中寻求洞见代表包括决策树和基于逻辑的学习,机器学习&深度学习,从以“推理”为重点到以“知识”为重点,再到以“学习”为重点机器可以自动“学习”的算法,即从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。

目前,机器学习=“分类”人工智能机器学习深度学习,用数据优化计算机程序的模型参数,通过经验自动改进的计算机算法,深度学习算法简介:

机器学习,机器学习的基本定理模型的出错率推论:

模型复杂-大样本样本小-简化模型,xF(x),y,Classlabel,(Classification),Vector(Estimation)深度学习是使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法深度学习是一种基于对数据进行表征学习的方法。

观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。

而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。

深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征,机器学习实施过程,特征提取,预处理,特征样本集,原始样本集样本数据样本数据样本数据,机器学习算法,训练,预测,输出,验证集,特征1特征1特征1,n目标n目标n目标,训练集特征1n目标特征1n目标特征1n目标,验证集特征1n目标特征1n目标特征1n目标,预测目标预测目标预测目标,评改价进,特征提取,特征提取,特征1,样本数据,样本数据,样本数据,原始样本集,目标,特征1,目标,特征1,特征样本集nnn,目标,统计分析,变换,特征运算,特征选取是成败的关键,低层信息,识别分类,人脑是通过分级的、多层网络模型来识别减少数据量,保留物体的有用信息对效果影响极大手动化特征工程非常耗时,预处理特征提取图像识别的一般流程,人脑识别图像的过程,第一个模型是一个线性模型,低度拟合,不能很好地适应训练集;第三个模型是一个四次方的模型,过度拟合,虽然能非常好地适应我们的训练集,但在新输入变量进行预测时可能会效果不好;中间的模型似乎最合适,经过算法预测的结果是一个连续的值,我们称这样的问题为回归问题。

算法能够学会如何将数据分类到不同的类里,我们称这样的问题为分类问题。

深度学习算法简介:

数学基础,当感知器用于两类模式的分类时,相当于在高维样本空间中,用一个超平面将两类样本分开神经网络的学习过程就是神经网络参数的设定过程一个神经元网络结构确定之后,需要对一系列参数(权重、阈值等)进行有效的设定。

这个过程叫做学习或训练过程,此时的方法叫学习算法,是一个由线性阈值元件组成的单层(或多层)神经元的神经网络当输入的加权和大于或等于阈值时,输出为1,否则为0模型假定神经元中间的耦合程度(即加权系数W)可变,这样,该模型可以学习,深度学习算法简介:

感知器,各种神经网络类型LogisticRBMAutoEncoderSparseCodingConvolutional(卷积),监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,从而也就具有了对未知数据进行分类的能力强化学习类似人类与环境交互的方式,智能系统从环境到行为映射的学习,以使奖励信号函数值最大。

环境对产生动作的好坏通过奖励信号作评价,而不是告诉强化学习系统如何去产生正确的动作。

强化学习不能立即得到标记,而只能得到一个反馈,因此可以说强化学习是一种具有“延迟标记信息”的监督学习,典型案例:

AlphaGo,深度学习的训练方法,2006年,GeoffreyHinton在科学上发表论文提出深度学习主要观点:

多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类深度神经网络在训练上的难度,可以通过“逐层初始化”(layer-wisepre-training)来有效克服,逐层初始化可通过无监督学习实现的在著名的ImageNet问题上将错误率从26降低到了15,并且输入没有用到其他任何人工特征,仅仅是图像的像素,迁移学习将从拥有大数据的源领域上学习到的东西应用到仅有小数据的目标领域上去,实现个性化迁移,即举一反三、触类旁通。

典型案例:

斯坦福学者使用卫星图像获取的灯光信息来分析非洲大陆的贫穷情况,深度学习的神经网络训练方法,LeNet-5:

卷积神经网络手写数字识别的应用卷积过程包括:

用一个可训练的滤波器fx去卷积一个输入的图像,然后加一个偏置bx,得到卷积层Cx。

子采样过程包括:

每邻域四个像素求和变为一个像素,加权再增加偏置,通过一个激活函数,产生一个缩小四倍的特征映射图,C1层:

输入图片大小:

卷积窗大小:

卷积窗种类:

32*325*56,输出特征图数量:

6输出特征图大小:

28*28(32-5+1),神经元数量:

连接数:

可训练参数:

4707(28*28)*6)12304(5*5+1)*6*(28*28)156(5*5+1)*6,局部感受-卷积,FeatureMap,池化,原理:

根据图像局部相关的原理,图像某个邻域内只需要一个像素点就能表达整个区域的信息常见的方法:

最大值池化(max-pooling),L2池化(L2pooling)均值池化(MeanPooling),LeNet-5,YannLecun,1989年用美国邮政系统提供的近万个手写数字的样本来训练神经网络系统,在独立的测试样本中,错误率只有5%,进一步运用CNN,开发出LeNet-5用于读取银行支票上的手写数字,这个支票识别系统在九十年代末占据了美国接近20%的市场,深度学习的训练方法,HintoninImageNet比赛140万图像,1000类图库1000万图像20000类7层CNN准确率74%-85%,深度学习的成功应用,AlphaGo战胜李世乭图像识别全面超越人类语音识别接近人类将声学模型中混合高斯模型替换为DNN模型获得30%+相对提升TeslaAutopilot投入商用GoogleTranslate投入商用它把原文例如中文词先翻成一个词向量,变成一个数字向量。

它对这个词向量再编辑,变成一个语义表示的方式。

再把它翻译成它的目标语言,例如英文。

人工智能的新革命,第一节,人工智能技术简述深度学习算法知识图谱,知识图谱(KnowledgeGraph),知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,一般用三元组表示知识图谱亦可被看作是一张巨大的图,节点表示实体或概念,边则由属性或关系构成,中国,国家,美国,日本,英国,北京,9,634,057平方公里,13.5404亿,2069.3万,北纬3856,东经11620,3.1525亿,华盛顿,9,629,091平方公里,北纬3853,西经7702,178平方公里,16410平方公里,1.26亿,377835平方公里,东京,2188平方公里,东经14050,北纬3544,人口,百科,书本,识证,基于人工规则的语义理解,神话是孙楠和谁合唱的?

文法解析,知识库查询,答案生成,孙楠和韩红合唱了神话,韩红,歌手6万歌曲260万专辑44万标签2000类,param:

singer孙楠#param:

song神话#predicate:

chorusWith神话是孙楠和谁合唱的,查询神话这首歌曲的演唱者,演唱者要包括孙楠,输出还包括的另外一个演唱者,文法,SPARQL查询语句生成规则,模板,歌手6万歌曲260万专辑44万标签2000类,互联网各种音乐相关信息,下载,融合,知识图谱的成功应用:

现代搜索引擎,半结构化信息抽取,半结构化数据,结构化数据,文本数据,实体对齐,异构数据整推理补充数据合,重要度计算,实体抽取属性抽取,属性值决策,关系建立,知立方数据,本体生成系统,索引生成,检索系统,实体识别,本体库,Pattern挖掘,标签消岐,SPARQL查询语句,排序,推理推荐,统计,Query,展现,面向知识图谱的Sogou搜索技术,GeneOntology,LOD,企业对知识图谱根据内部数据有大量的业务需求,从两方面来建设知识图谱体系:

知识实体,算法,企业知识图谱的建立,语义理解,智能检索与问答,数据关联探索,业务动态扩展,非结构化数据计算机难以理解,结构化数据,数据融合多元异构数据难以融合,自由扩展数据模式数据模式动态变迁困难,行业智能问答数据使用专业程度过高,业务需求,技术方案,数据挑战,知识图谱助力企业商业智能,通用知识图谱+行业知识图谱,通用知识图谱的广度,行业知识图谱的深度,相互补充,形成更加完善的知识图谱通用知识图谱中的知识,可以作为行业知识图谱构建的基础;而构建的行业知识图谱,再融合到通用知识图谱中,通用知识图谱,行业知识图谱,通用知识图谱,创投,专利,深度学习与智能围棋,第二节,从AlphaGoLee/Master讲起蒙特卡洛树式搜索AlphaGo的实现原理AlphaGoZero,01人机大战:

深度学习算法的标志性成果最复杂(注:

状态复杂度与博弈复杂度)的智力游戏:

看似简单,实为复杂,具有10的170次方状态复杂空间涉及逻辑推理,形象思维,优化选择等多种人类智能(注:

国际象棋只有逻辑推理,没有形象思维),02接近人类,公认是人工智能领域长期以来的重大挑战,03标志性,国际学术界曾经普遍认为解决围棋问题需要15-20年时间,04挑战,为什么做围棋AI?

创新性,投入力度,业内龙头,目前技术优势:

起步早,算法新,技术强,资源雄厚最近一年专注于强化学习研究拟于近期公布新论文和数据,并从此退出围棋AI领域,GoogleDeepmind,简介,深度学习与智能围棋,第二节,从AlphaGoLee/Master讲起蒙特卡洛树式搜索AlphaGo的实现原理AlphaGoZero,传统围棋AI算法MCTS(蒙特卡洛树搜索),动态博弈问题双人一人一步双方信息完备(棋类完全信息,牌类不完全信息)零和计算机下棋棋类要素的数字化恰当的数据结构棋盘、棋子、棋规(着法规则,胜负规则)用着法推演局面博弈树展开从有利局面选择当前着法博弈搜索局面评估指标定义与综合,展开深度为4的博弈树,本方,本方,本方,对方,对方,Ply1,Ply3,Ply4,Ply2,Ply0,根节点为当前局面叶节点为展开终点双方轮流出手偶数层为本方奇数层为对方,围棋落子蒙特卡洛数学模型及评估,围棋对弈过程可以看做一个马尔科夫过程:

五元组:

T,S,A(i),P(|i,a),r(i,a)T:

决策时刻S:

状态空间,S=iA(i):

可行动集合(可落子点)P(|i,a):

状态i下选择行动a的概率r(i,a):

状态i下选择行动a后课获得的收益从当前局面的所有可落子点中随机(或者给胜率高的点分配更多的计算力)选择一个点落子重复以上过程直到胜负可判断为止经多次模拟后(计算越多越精确),选择胜率最大的点落子,传统围棋AI算法数学模型MCTS(蒙特卡洛树搜索),基本思想与特点:

将可能出现的状态转移过程用状态树表示从初始状态开始重复抽样,逐步扩展树中的节点某个状态再次被访问时,可以利用已有的结果,提高了效率在抽样过程中可以随时得到行为的评价,选择-从根节点出发自上而下地选择一个落子点扩展-向选定的点添加一个或多个子节点,模拟-对扩展出的节点用蒙特卡洛方法进行模拟回溯-根据模拟结果依次向上更新祖先节点估计值,深度学习与智能围棋,第二节,从AlphaGoLee/Master讲起蒙特卡洛树式搜索AlphaGo的实现原理AlphaGoZero,PolicyNetwork(策略网络)13个卷积层,每层192个卷积核,每个卷积核3*3,参数个数800万+GPU3ms/步预测准确率57%,ValueNetwork(价值网络)在每个分支节点直接判断形势与Rollout随机模拟相结合,互为补充,MCTS(蒙特卡洛树搜索)给胜率高的点分配更多的计算力任意时间算法,计算越多越精确1、选取2、展开3、评估4、倒传,Rollout(随机模拟走子)通过随机模拟走子胜率来判定形势速度很快(1ms/盘)随机性与合理性的平衡,AlphaGo的实现原理,控制宽度(250),控制深度(150),基本算法,快速模拟,围棋是完全信息博弈,从理论上来说可以通过暴力搜索所有可能的对弈过程来确定最优的走法,PolicyNetwork策略网络:

落子棋感,深度神经网络的有监督学习,目标是获得在围棋盘面下的落子棋感学习职业棋手和业余高段棋手的棋谱(数十万份棋谱,上亿数量级的落子方式)把当前局面作为输入,预测下一步的走棋。

它的预测不只给出最强的一手,而是对棋盘上所有可能的下一着给一个分数用PolicyNetwork作为第一感,将计算力分配到最有希望的选点分枝数从上百个减少到几个优先计算PolicyNetwork分数高的点,计算力充沛时,适当分配到其他分值较低的点,PolicyNetwork输入特征,32242,48552,128272,20482048192132192132128132,20482048,19232,19232,3112,19232,19232,192132192132128132,128272,48524852,48552,1283212832,1000,局部感知域权重共享特征训练卷积层+池化层,模型结构13个卷积层,每层192个3*3卷积核数百万个参数训练数据KGS6d以上对局,17万,职业对局8万。

训练数据量5000万+训练时间几十天运算速度GPU,3ms预测准确率57%,左右互博,自我进化,强化学习(RL)Agent通过和环境s的交互,选择下一步的动作a,这个动作会影响环境s,给Agent一个reward,Agent然后继续和环境交互。

根据游戏结果迭代更新转移概率和评估函数神经网络结构与策略网络相同训练方法:

自我对局目标:

校正价值导向将策略网络权值作为初始值,自我对弈更新权值,从而提升棋力Pros:

棋艺更高(win80%ofthegameswithSLpolicynetwork)Cons:

走法集中,不适应MCTS多搜索范围的需求,Fast-Rollout快速走子,Rollout(随机模拟走子)通过随机模拟走子胜率来判定形势速度快随机性,合理性的平衡原因:

1.策略网络的运行速度较慢(3ms)快速走子在2us2.用来评估盘面。

在同等时间下,模拟走子速度快乃至使用随机走子,虽然单次估值精度低,但可以多模拟几次算平均值,效果未必不好。

提升棋力结构:

局部特征匹配+线性回归特征:

围棋专业知识,ValueNetwork:

胜负棋感,深度神经网络的增强型学习(DeepMind独创)通过自我博弈,学习不同盘面下的胜负情况(三千万盘自我对局)获取在围棋盘面的胜负棋感(注:

对每一个落子点给一个当时的快速的胜负感(估算),这个胜负估算并不是根据分析计算出来的,而是直觉)(通过AlphaGo几千万盘的训练学习得来的),形势判断:

-1:

白棋必胜0:

黑棋优势1:

黑棋必胜,ValueNetwork模型,模型结构13个卷积层,每层192个卷积核,每个卷积核3*3数百万个参数训练数据PolicyNetwork自我对弈棋谱。

3000万+特定盘面+胜负结果训练时间几十天运算速度GPU,3ms方法:

在每个分支节点,使用ValueNetwork直接判断形势与Rollout随机模拟相结合,互为补充效果:

职业水平,AlphaGo,MCTS在对局中实时搜索Step1:

基于策略网络落子,可能性大的落子拓展节点Step2:

对未来走势进行评估,同时使用估值网络和快速走子,综合两者预测未来走法Step3:

评估结果作为下一步走法的Q值。

重新模拟。

Step4:

结合下一步走法的Q值和策略网络进行再一次模拟。

如果出现同样走法,Q值起平均。

新分数=调整后的初始分+0.5*通过模拟(策略网络+快速走棋)得到的赢棋概率+0.5*估值网络的局面评估分Step5:

反复循环直到n次,或者timeout,选择被选择次数最多的走

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 考试认证 > 交规考试

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2