AI大语言模型的原理、演进及算力测算.pptx

资源描述

AI大语言模型的原理、演进及算力测算.pptx

《AI大语言模型的原理、演进及算力测算.pptx》由会员分享，可在线阅读，更多相关《AI大语言模型的原理、演进及算力测算.pptx（31页珍藏版）》请在冰点文库上搜索。

AI大语言模型的原理、演进及算力测算.pptx

人工智能、机器学习与神经网络简介,01,Transformer模型结构分析大规模语言模型算力需求测算（以GPT-3为例）产业链相关公司风险提示,02,03,04,目录,05,一、人工智能、机器学习与神经网络简介,人工智能（ArtificialIntelligence，AI）是研究、开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。

人工智能的最终目标是使计算机能够模拟人的思维方式和行为。

机器学习（MachineLearning，ML）是实现人工智能的一种途径，是一门专门研究计算机如何模拟或实现人类的学习行为、以获取新的知识或技能、重新组织已有的知识结构使之不断改善自身性能的学科。

机器学习包括数据、模型、算法三要素。

从实践上来看，机器学习是在大数据的支撑下，通过各种算法让机器对数据进行深层次的统计分析以进行“自学”（训练模型），使人工智能系统获得了归纳推理和决策能力。

机器学习作为一套数据驱动方法，已广泛应用于数据挖掘、自然语言处理、机器视觉、搜索引擎、医学诊断、生物特征识别、DNA序列测序、证券市场分析等领域。

机器学习是实现人工智能的途径之一,图：

机器学习训练与推理示意图,资料来源：

woshipm，国信证券经济研究所整理,图：

机器学习三要素,资料来源：

gitbook，国信证券经济研究所整理,模型及数据规模增加有利于提高深度神经网络性能,深度学习（DeepLearning，DL）是机器学习的子集，由人工神经网络（ANN）组成。

深度学习模仿人脑中存在的相似结构，其学习是通过相互关联的“神经元”的深层的、多层的“网络”来进行的。

典型的神经网络从结构上可以分为三层：

输入层、隐藏层、输出层。

其中，输入层（inputlayer）是指输入特征向量；隐藏层（hiddenlayer）是指抽象的非线性中间层；输出层（outputlayer）是指输出预测值。

深层神经网络即包含更多隐藏层的神经网络。

相比于传统机器学习模型，深度学习神经网络更能在海量数据上发挥作用。

若希望获得更好的性能，不仅需要训练一个规模足够大的神经网络（即带有许多隐藏层的神经网络，及许多参数及相关性），同时也需要海量的数据支撑。

数据的规模及神经网络的计算性能，需要有强大的算力作为支撑。

图：

不同深度的神经网络模型结构示意图图：

不同神经网络模型在不同数据量下性能曲线,资料来源：

Coursera，吴恩达深度学习，国信证券经济研究所整理,资料来源：

ShowMeAI，国信证券经济研究所整理,传统常见的神经网络模型包括卷积神经网络（CNN）和循环神经网络（RNN）等。

其中，卷积神经网络（ConvolutionalNeuralNetwork，CNN）多用于计算机视觉、自动驾驶、人脸识别、虚拟现实、医学领域、人机交互、智能安防等图像应用；相比于标准神经网络，CNN能够更好地适应高纬度的输入数据，卷积设计有效减少了模型的参数数量。

循环神经网络（RecurrentNeuralNetwork，RNN）常用于处理序列数据（例如含有时间成分的音频和文本），获取数据中的时间依赖性。

由于语言（无论是英语字母还是汉语汉字）都是逐个出现的，同时语言是时序前后相互关联的数据，因此语言作为最自然表达出来的序列数据，适合应用RNN进行语音识别、情感分类、机器翻译、语言生成、命名实体识别等应用。

循环神经网络（RNN）曾是自然语言处理的首选解决方案。

RNN能够在处理单词序列时，将处理第一个词的结果反馈到处理下一个词的层，使得模型能够跟踪整个句子而非单个单词。

但RNN存在缺点：

由于这种串行结构，RNN无法对于长序列文本进行有效处理，甚至可能当初始单词过远时“遗忘”相关信息。

CNN和RNN是常见的神经网络模,型,图：

卷积神经网络示意图,资料来源：

深度卷积神经网络的发展及其在计算机视觉领域的应用，国信证券经济研究所整理,资料来源：

深度学习（中文版），国信证券经济研究所整理,图：

循环神经网络示意图,二、Transformer模型结构分析,AttentionisallyourneedbyOpenAI,作为与传统的CNN、RNN不同的深度学习模型架构，Transformer模型最初是被用于基于上下文的机器翻译模型。

由于Transformer模型非串行结构，能够并行处理整个序列；同时引入“注意机制”（attention），能够在文本序列中正向和反向地跟踪单词之间的关系，适合在大规模分布式集群中进行训练。

Transformer以Encoder-Decoder架构为基础。

其中，编码组件由多层编码器（Encoder）组成。

解码组件也是由相同层数的解码器（Decoder）组成。

Encoder用于提取源端语言的语义特征，而用Decoder提取目标端语言的语义特征，并生成相对应的译文。

Transformer模型具有能够并行运算、关注上下文信息、表达能力强等优势。

Transformer模型以Encoder-Decoder架构为基,础,图：

Transformer最初用于机器翻译,图：

Transformer模型介绍,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,资料来源：

AttentionIsAllYouNeed，国信证券经济研究所整理,图：

Transformer以Encoder-Decoder架构为基础,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,词嵌入是NLP最基础的概念之一，表示来自词汇表的单词或者短语被映射成实数向量。

最早的词嵌入模型是word2vec等神经网络模型，属于静态词嵌入（不关注上下文）。

例如大模型诞生前常用的RNN模型所用的输入便是预训练好的词嵌入。

词向量能够将语义信息与空间,向量关联起来（例如经典的词类比例子：

king、queen、man、woman对应词向量的关系）。

词嵌入产生要素及步骤：

Vocabulary：

所有的token组成集合。

词向量表：

token与词向量的一一对应关系。

词向量可以由预训练产生，也可以是模型参数。

查表：

输入的token都对应一个固定维度的浮点数向量（词嵌入向量）。

位置编码：

表示序列中词的顺序，具体方法为为每个输入的词添加一个位置向量。

根据位置编码对应计算公式，pos表示位置，i表示维度。

位置编码能够让模型学习到token之间的相对位置关系。

Transformer模型结构分析词嵌入（Embedding）,图：

带有位置编码的词嵌入向量生成方法,图：

位置编码对应计算公式,图：

经典的词类比例子,资料来源：

TowardsUnderstandingLinearWordAnalogies，国信证券经济研究所整理,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,资料来源：

AttentionIsAllYouNeed，国信证券经济研究所整理,编码组件可由多层编码器（Encoder）组成，同样解码组件也由相同层数的解码器（Decoder）组成。

一般来讲，对于中间层的输出向量，底层Encoder输出的表示浅层含义，顶层Encoder输出的表示深层含义。

每个Encoder由两个子层组成：

Self-Attention层（自注意力层）和FeedForwardNetwork（FFN，前馈网络）组成。

对于每一层Encoder，词嵌入向量输入会首先进入Self-Attention层，Encoder对词向量进行编码时，会对整句输入的上下文均进行Attention操作，从而关注并使用到输入句子的上下文的信息。

Decoder端存在Cross-Attention层（Encoder-DecoderAttention层），用于解码时对输入部分的信息进行Attention关注。

经过Self-Attention层的输入进入前馈网络，前馈网络一般是全连接层网络（并经过非线性的激活函数，如ReLU函数）。

全连接层是最基本的神经网络，每一个结点都与上一层的所有结点相连。

ReLU函数：

即修正线性单元（Rectifiedlinearunit），又称线性整流函数，通常指以斜坡函数及其变种为代表的非线性函数。

激活函数：

为使神经网络具有拟合函数的能力而引入非线性；如不引入非线性，则无论多少层神经网络都相当于一个线性映射。

Transformer模型结构分析,Encoder,图：

数据在Encoder中流动示意图,下一个Encoder的输入是上一个Encoder的输出，以此类推。

图：

编码组件和解码组件均可由多层Encode/Decoder组成图：

Encoder由Self-Attention和FFN两个子层组成,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,Transformer模型结构分析Attention,Attention机制：

编码时，模型不仅能够关注当前位置的词语，同时能够关注上下文的词语。

Attention由Q（Query）、K（Key）、V（Value）三个矩阵实现（分别对应q、k、v三组向量；其中产生Q、K、V的三个权重矩阵W、W、W为模型参数，通过训练获得）。

对于计算某一词向量x1与其他词向量（包括自身）的注意力分数时，用该词向量的q1分别与其他词向量（包括自身）的k向量点积，得到注意力分数；以该注意力分数经过Softmax函数进行归一化处理后，得到对应权重，表示为该词向量x1与所有位置词向量的注意力权重。

以该权重对对应词向量的v向量进行加权求和，得到Self-Attention层在该位置的输出。

图：

以Q、K、V矩阵计算缩放点积Attention流程图图：

词向量进入Self-Attention层后q、k、v向量计算步骤图图：

以矩阵表示的Attention计算示意图,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,资料来源：

AttentionIsAllYouNeed，国信证券经济研究所整理,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,Transformer模型结构分析Multi-head,Attention,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理图：

Multi-headAttention计算方法与流程总结,Multi-headAttention即多头注意力机制，采用,图：

Multi-headAttention原理示意图,多组不同的线性变换对Q、K、V矩阵进行映射并分别计算Attention，再将不同的Attention结果拼接起来进行线性变换。

Multi-headAttention本质是在参数总量保持不变的情况下，将Q、K、V映射到高维空间的不同子空间进行Attention计算，防止过拟合。

资料来源：

AttentionIsAllYouNeed，国信证券经济研究所整理,图：

词嵌入矩阵与不同权重、矩阵运算,得到不同Q、K、V矩阵,图：

不同子空间Attention运算后得到对应输出结果图：

不同子空间输出进行整合运算的方法,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,训练时：

输入样本句子（即翻译后的正确结果）；推理时：

输入待定词（即mask）组成的句子。

Transformer模型结构分析,Decoder,Mask（掩码）分为PaddingMask和SequenceMask。

其中，PaddingMask用于填充输入序列长度，保持输入序列对齐；SequenceMask用于MaskedMulti-HeadAttention层中，使得Decoder不能获取未来的信息，从而在每个位置上仅能根据之前位置的输出结果及Encoder-DecoderAttention得到当前位置的输出。

当Decoder某一序列位置产生输出结果后，首先通过线性层将该输出向量映射成为维度数与vocabulary内的词数一致的向量，并通过Softmax层将每一维数字归一化为概率（即归一化后每一维数字代表对应token的概率）。

训练时，构造损失函数，训练模型参数使得衡量输出概率与样本概率分布之差的损失函数值最小。

推理时，根据概率采样（例如最大概率所对应）的输出词即为该位置的输出结果。

图：

Decoder数据输入与输出流程示意图图：

Decoder通过计算概率预测下一个token,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,资料来源：

TheIllustratedTransformer，GitHub，国信证券经济研究所整理,三、大规模语言模型算力需求测算（以GPT-3为例）,BERT（BidirectionalEncoderRepresentationsfromTransformer）能够生成深度双向语言表征，是采用有掩带码（mask）的大语言模型，类似于完形填空，根据上下文预测空缺处的词语。

结构上，BERT仅采用Transformer架构的Encoder部分。

GPT（GenerativePre-trainingTransformer）是生成式预训练的单向语言模型。

通过对大量语料数据进行无监督学习，从而实现文本生成的目的。

结构上，GPT仅采用Transformer架构的Decoder部分。

自2018年6月起OpenAI发布GPT-1模型以来，GPT更新换代持续提升模型及参数规模。

随着OpenAI于2022年11月30日发布ChatGPT引爆AI领域，海内外科技公司纷纷宣布发布大语言模型。

用户爆发式增长对大语言模型的算力需求带,BERT和GPT是基于Transformer架构的两种大规模语言模,型构建语言模型（LanguageModel，LM）是自然语言处理（NaturalLanguageProcessing，NLP）中最基本和最重要的任务之一，自然语言处理基于Transformer架构衍生出了两种主流大语言模型（LargeLanguageModel，LLM）BERT和GPT。

二者都是无监督预训练的大语言模型。

来挑战。

图：

2018年6月以来发布的模型BERT和GPT以Transformer架构为主,图：

基于Transformer架构的BERT和GPT模型示意图,资料来源：

AttentionIsAllYouNeed，国信证,券经济研究所整理,资料来源：

ShowMeAI，国信证券经济研究所整理,BERT,GPT,图：

国内外科技企业发语言模型发布情况,ImprovingLanguageUnderstandingbyGenerativePre-TrainingbyOpenAIGPT-1是生成式预训练模型，核心思想是“预训练+微调”的半监督学习方法，目标是服务于单序列文本的生成式任务。

生成式：

表示模型建模的是一段句子出现的概率，可以分解为基于语言序列前序已出现单词条件下后一单词出现的条件概率之乘积。

例如：

P（一颗苹果）=P

（一）P（颗|一）P（苹|一颗）P（果|一颗苹）；P（一苹颗果）=P

（一）P（苹|一）P（颗|一苹）P（果|一苹颗）。

预训练（无监督学习）：

在无标注语料上进行无监督的预训练，通过最大化似然函数从而得到标准的GPT模型。

微调（有监督学习）：

针对特定下游任务，采用特定的有标签数据进行微调，得到专用于情感分析、机器翻译等特定功能的模型。

GPT-1：

预训练+微调的半监督学习模,型,图：

GPT-1“预训练+微调”模型示意图,资料来源：

ImprovingLanguageUnderstandingbyGenerativePre-Training，国信证券经济研究所整理,四大常见应用：

分类、蕴含、相似、选择分类：

每段文本具有对应标号，将文本按标号进行分类蕴含：

给出一段文本和假设，判断该段文本中是否蕴含该假设相似：

判断两段文本是否相似（用于搜索、查询、去重等）选择：

对有多个选项的问题进行回答,LanguageModelsareUnsupervisedMultitaskLearnersbyOpenAI,预训练+微调的范式只能对于特定自然语言处理任务（例如问答、机器翻译、阅读理解、提取摘要等）使用特定的数据集进行有监督学习，单一领域数据集缺乏对多种任务训练的普适性。

GPT-2：

强调多任务的预训练模,型,图：

GPT-2在部分自然问题集上生成的答案及对应正误、概率情况,资料来源：

Bloomberg，国信证券经济研究所整理,GPT-2在预训练阶段便引入多任务学习机制，通过加入各种NLP任务所需要的数据集，在尽可能多的领域和上下文中收集属于对应任务的自然语言。

由此得到的GPT-2模型可以以zero-shot的方式被直接应用于下游任务，而无需进行有监督的精调。

GPT-2将多样化的的NLP任务全部转化为语言模型问题。

语言提供了一种灵活的方式来将任务，输入和输出全部指定为一段文本。

对文本的生成式建模就是对特定任务进行有监督学习。

即，所有NLP任务中的样本都能归结为一句自然语言文本。

例如，翻译训练样本可以写成序列“翻译为法语，英语文本，法语文本”。

同样，阅读理解训练的例子可以写成序列“回答问题，文档，问题，答案”。

GPT-3：

能够举一反三的大语言模,型,LanguageModelsareFew-ShotLearnersbyOpenAI相比GPT-2，GPT-3大幅增加了模型参数。

GPT-3是具有1750亿个参数的自回归语言模型，更能有效利用上下文信息。

对于特定的下游任务，GPT-3无需进行任何梯度更新或微调，仅需通过与模型交互并提供少量范例即可。

特点：

1、模型规模急剧增加（使得模型性能提升迅猛）；2、实现few-shotlearning。

in-contextlearning：

对模型进行引导，使其明白应输出什么内容。

Q：

你喜欢吃苹果吗？

A1：

我喜欢吃。

A2：

苹果是什么？

A3：

今天天气真好。

A4：

Doyoulikeeatingapples?

图：

zero-shot、one-shot和few-shot与传统微调形成对比,资料来源：

腾讯云开发者，国信证券经济研究所整理,采用prompt提示语：

汉译英：

你喜欢吃苹果吗？

请回答：

你喜欢吃苹果吗？

in-contextlearning三种方式：

不需要进行参数更新，仅需把少量标注样本作为输入文本的上下文仅提示zero-shot（0S）：

仅需给出任务描述一个范例one-shot（1S）：

仅需给出任务描述和一个示例多个范例few-shot（FS）：

仅需给出任务描述和少量示例图：

语言模型的元学习图：

一个简单任务中不同参数模型上下文学习性能资料来源：

LanguageModelsareFew-ShotLearners，国信证券经济研究所整理图：

GPT-1至GPT-3模型参数,资料来源：

LanguageModelsareFew-ShotLearners，国信证券经济研究所整理,资料来源：

LanguageModelsareFew-ShotLearners，国信证券经济研究所整理,TraininglanguagemodelstofollowinstructionswithhumanfeedbackbyOpenAI过往GPT模型存在的问题：

语料库偏差，继续使用无监督学习扩大模型无法达到使用目的（编造事实、有偏见文本等）。

GPT-3.5（ChatGPT）:

引入人类反馈强化学习机,制,资料来源：

Traininglanguagemodelstofollowinstructionswithhumanfeedback，国信证券经济研究所整理,GPT-3.5通过使用人类反馈的数据集进行监督学习（RLHF，即reinforcementlearningfromhumanfeedback），对GPT模型进行微调。

主要分为以下三步：

图：

GPT-3.5模型架构示意图1、根据人工标注的数据集构造示范样本，进行有监督的微调，训练出有监督的微调模型。

2、构造Reward模型，通过人工对输出结果标注并进行比较排序打分，训练Reward模型，学习对输出进行排序打分。

3、采用PPO（Proximalpolicyoptimization，近端策略优化，一种强化学习算法），通过不断与环境交互（如ChatGPT不断从训练集中抽取问题并生成解答）以训练GPT模型，使Reward模型打分最大化。

结果显示：

通过构建人类反馈的数据集，使用有监督学习微调模型，能够使得模型输出与人类意图一致。

算力有效性：

在4月GTIC2023中国AIGC创新峰会上，NVIDIA消费互联网行业,解决方案架构师负责人徐添豪提出，NVIDIA的NeMoFramework在训练GPT-3过程中能使得硬件算力有效性能达到50以上。

GPT-3模型参数量与样token数：

GPT-3参数量达1750亿个，训练样本token数达3000亿个。

训练时间要求：

假设GPT-3模型每次训练时间要求在30天完成。

推理访问次数：

按谷歌每日搜索量35亿次进行估计；假设每次访问提问4次，每次提问+回答需处理字数425字，平均每个字转换为token比例为4/3，则每日GPT-3需推理token数为79330亿个。

大语言模型带来的算力需求测算以GPT-3为例（假设部分）,训练所需CPU数=,训练样本token数单token训练所需运算次数单颗芯片最大算力算力有效性训练时间要求,推理所需CPU数=,推理访问次数单次访问处理字数字数与token转换倍数单token推理所需运算次数单颗芯片最大算力算力有效性,规定推理时间,图：

所需CPU数量计算公式,资料来源：

国信证券经济研究所整理,图：

算力测算参数假设,资料来源：

OpenAI官网，国信证券经济研究所整理,训练阶段：

考虑采用精度为32位的单精度浮点数数据进行训练,2592000秒），则对应GPT-3训练所需算力为,和推理。

以A100PCle芯片为例（H100PCle芯片同理），根据前述公式，GPT-3训练所需运算次数为：

样本token数3000亿个*6*参数量1750亿个=315*1021FLOPs；考虑训练时间要求在30天完成（训练时间为121528TFLOPS；结合A100有效算力78TFLOPS，得到所需GPU数量为1558个，对应AI服务器为195台。

推理阶段：

根据前述公式，GPT-3每日需推理token数为79330亿个，则推理所需运算次数为4760*1021FLOPs；考虑推理时间以每日为单位（推理时间为86400秒），则对应GPT-3推理所需算力为55*106TFLOPS；结合A100有效算力78TFLOPS，得到所需GPU数量为706315个，对应AI服务器为8.8万台。

大语言模型带来的算力需求测算以GPT-3为例（结论部分）,图：

训练阶段算力需求测算过程及结论,资料来源：

英伟达官网，国信证券经济研究所整理及预测,图：

推理阶段算力需求测算过程及结论,资料来源：

英伟达官网，国信证券经济研究所整理及预测,训练：

指利用大数据训练神经网络，通过大量数据确定网络中的权重和偏置的值，使其能够适应特定功能。

推理：

指利用训练好的模型，使用新的数据推理和判断出各种结论。

token：

语言模型

展开阅读全文