科技行业：AI大模型需要什么样的数据-华泰证券-2023.5.11-44页.pdf

资源描述

科技行业：AI大模型需要什么样的数据-华泰证券-2023.5.11-44页.pdf

《科技行业：AI大模型需要什么样的数据-华泰证券-2023.5.11-44页.pdf》由会员分享，可在线阅读，更多相关《科技行业：AI大模型需要什么样的数据-华泰证券-2023.5.11-44页.pdf（44页珍藏版）》请在冰点文库上搜索。

科技行业：AI大模型需要什么样的数据-华泰证券-2023.5.11-44页.pdf

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

1证券研究报告科技科技AI大模型需要什么样的数据大模型需要什么样的数据华泰研究华泰研究电子电子增持增持（维持维持）通信通信增持增持（维持维持）研究员黄乐平，黄乐平，PhDSACNo.S0570521050001SFCNo.AUZ066+（852）36586000研究员余熠余熠SACNo.S0570520090002SFCNo.BNC535+（86）75582492388联系人权鹤阳权鹤阳SACNo.S0570122070045+（86）2128972228联系人王珂王珂SACNo.S0570122080148+（86）2128972228行业行业走势图走势图资料来源：

Wind，华泰研究2023年5月11日中国内地专题研究专题研究数据是大模型竞争关键要素之一，关注中国数据是大模型竞争关键要素之一，关注中国AI大模型数据发展大模型数据发展AI的突破得益于高质量数据，我们认为数据是大模型竞争关键要素之一：

1）训练大模型需要高质量、大规模、多样性的数据集；2）优质中文数据集稀缺，数字中国战略将促进数据要素市场完善，助力数据集发展。

近期欧洲议会议员人工智能法案提案、网信办生成式人工智能服务管理办法（征求意见稿）对大模型训练数据的版权披露、合法性提出要求，对于数据产业链的投资机会，我们认为：

1）数据资产储备公司的商业化进程值得关注；2）行业数据价值高，具有优质数据和一定大模型能力的公司或通过行业大模型赋能业务；3）关注卡位优质客户、技术降低人力成本的数据服务企业。

海外开源数据集海外开源数据集积累丰富，合成数据或将缓解高质量数据耗尽隐忧积累丰富，合成数据或将缓解高质量数据耗尽隐忧我们梳理了海外主要的开源语言和多模态数据集，主要的发布方包括高校、互联网巨头研究部门、非盈利研究组织以及政府机构。

我们认为海外积累丰富的开源高质量数据集得益于：

1）相对较好的开源互联网生态；2）免费线上书籍、期刊的长期资源积累；3）学术界、互联网巨头研究部门、非盈利研究组织及其背后的赞助基金形成了开放数据集、发表论文-被引用的开源氛围。

然而，高质量语言数据或于2026年耗尽，AI合成数据有望缓解数据耗尽的隐忧，Gartner预测2030年大模型使用的绝大部分数据或由AI合成。

中文开源数据集中文开源数据集数量少、规模小数量少、规模小，看好数字中国战略激活数据要素产业链，看好数字中国战略激活数据要素产业链与国外类似，国内大模型的训练数据包括互联网爬取数据、书籍期刊、公司自有数据以及开源数据集等。

就开源数据集而言，国内外的发布方都涵盖高校、互联网巨头、非盈利机构等组织。

但国内开源数据集数量少、规模小，因此国内大模型训练往往使用多个海外开源数据集。

国内缺乏高质量数据集的原因在于：

1）高质量数据集需要高资金投入；2）相关公司开源意识较低；3）学术领域中文数据集受重视程度低。

看好数字中国战略助力国内数据集发展：

1）各地数据交易所设立运营提升数据资源流通；2）数据服务商链接数据要素产业链上下游，激活数据交易流通市场，提供更多样化的数据产品。

数据产业链投资机会：

关注数据生产数据产业链投资机会：

关注数据生产与处理环节与处理环节数据产业链包括生产、处理等环节。

我们认为数据生产可以分为通用数据和行业数据：

1）海外主要数据集的通用数据来自维基、书籍期刊、高质量论坛，国内相关公司包括文本领域的百度百科、中文在线、中国科传、知乎等，以及视觉领域的视觉中国等。

2）数据是垂直行业企业的护城河之一，相关公司包括城市治理和ToB行业应用领域的中国电信、中国移动、中国联通，CV领域的海康、大华等。

数据处理环节，模型研发企业的外包需求强烈，利好卡位优质客户、技术赋能降低人力成本的数据服务企业，如Appen、TelusInternational、ScaleAI。

隐私保护：

监管与技术手段并举隐私保护：

监管与技术手段并举个人数据的采集、存储和处理引发了对于AI时代数据隐私保护的关注。

隐私保护可从监管、技术角度着手：

1）监管：

全球各地区出台相关法律法规，例如中华人民共和国个人信息保护法、欧盟通用数据保护条例等。

2）技术：

隐私保护计算在不泄露原始数据的前提下，对数据进行处理和使用。

风险提示：

AI及技术落地不及预期；本研报中涉及到未上市公司或未覆盖个股内容，均系对其客观公开信息的整理，并不代表本研究团队对该公司、该股票的推荐或覆盖。

（13）5224057May-22Sep-22Jan-23May-23（%）电子通信沪深300免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

2科技科技正文目录正文目录AI大模型需要什么样的数据集大模型需要什么样的数据集.5数据将是未来AI大模型竞争的关键要素.5数据集如何产生.7他山之石#1：

海外主要大语言模型数据集.9数据集#1：

维基百科.9数据集#2：

书籍.10数据集#3：

期刊.10数据集#4：

WebText（来自Reddit链接）.11数据集#5：

Commoncrawl/C4.13其他数据集.13他山之石#2：

海外主要多模态数据集.14类别#1：

语音+文本.14类别#2：

图像+文本.15类别#3：

视频+图像+文本.16类别#4：

图像+语音+文本.17类别#5：

视频+语音+文本.17他山之石#3：

海外主要大模型数据集由何方发布.18高质量语言数据和图像数据或将耗尽，合成数据有望生成大模型数据.19数字中国战略助力中国数字中国战略助力中国AI大模型数据基础发展大模型数据基础发展.22中国AI大模型数据集从哪里来.22中国大模型如何构建数据集#1：

LLM.24中国大模型如何构建数据集#2：

多模态大模型.25中国开源数据集#1：

大语言模型数据集.26中国开源数据集#2：

多模态模型数据集.30国内数据要素市场建设逐步完善，助力优质数据集生产流通.32数据交易环节：

数据交易所发展进入新阶段，缓解中文数据集数量不足问题.34数据加工环节：

数据服务产业加速发展，助力中文数据集质量提升.35AI时代数据的监管与隐私保护问题时代数据的监管与隐私保护问题.37数据产业链投资机会数据产业链投资机会.39数据生产环节.39数据处理环节.40风险提示.40rQoNqNoOzRqNnMqMsNqQtO7N8Q6MpNpPnPoNiNpPsPkPmNnO9PpOqMxNsRsNuOtOmR免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

更高质量、更丰富的训练数据是GPT模型成功的驱动力；而除模型权重变化之外，模型架构保持相似.5图表2：

以数据为中心的AI：

模型不变，通过改进数据集质量提升模型效果.5图表3：

以数据为中心的AI：

工作流拆解.6图表4：

数据标注基本流程.7图表5：

数据采集三种常见方式.7图表6：

缺失数据的处理方法.8图表7：

三大类数据标注.8图表8：

各数据标注质量评估算法对比.9图表9：

大语言模型数据集综合分析.9图表10：

英文维基百科数据集分类.10图表11：

BookCorpus分类.10图表12：

ArVix官网.11图表13：

美国国家卫生研究院官网.11图表14：

WebText前50个域.12图表15：

C4前23个域名（不包括维基百科）.13图表16：

按有效尺寸划分的ThePile组成树状图.13图表17：

其他常见NLP数据集.14图表18：

多模态大模型数据集介绍.14图表19：

SEMAINE四个SAL角色化身.15图表20：

LAION-400M搜索“蓝眼睛的猫”得出的结果示例.16图表21：

LAION-5B搜索“法国猫”得出的结果示例.16图表22：

OpenViDial两个简短对话中的视觉环境.16图表23：

YFCC100M数据集中100万张照片样本的全球覆盖.17图表24：

CH-SIMS与其他数据集之间注释差异的示例.17图表25：

IEMOCAP有8个摄像头的VICON运动捕捉系统.18图表26：

MELD数据集对话中和对话前说话人情绪变化对比.18图表27：

常见大模型数据集发布方总结.19图表28：

低质量语言数据集数据或将于2030年耗尽.20图表29：

高质量语言数据集数据或将于2026年耗尽.20图表30：

图像数据存量为8.11e122.3e13.20图表31：

图像数据集数据趋势或将于20302060年耗尽.20图表32：

GPT-4技术报告中对合成数据应用的探讨.20图表33：

到2030年AI模型中的合成数据将完全盖过真实数据.21图表34：

NVIDIAOmniverse用户可使用Python为自动驾驶车辆生成合成数据.21图表35：

2021-2026中国数据量规模CAGR达到24.9%，位居全球第一.22图表36：

国内各行业数据量分布及增长预测.22图表37：

数据集分布及发展趋势.23图表38：

国内缺乏高质量数据集的主要原因.23图表39：

国内科技互联网厂商训练大模型基于的数据基础.24免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

4科技科技图表40：

中国大语言模型数据集构成.24图表41：

华为盘古大模型1.1TB中文文本语料库数据组成.25图表42：

WeLM大模型训练语料库统计.25图表43：

中国多模态模型数据集构成.25图表44：

M6预训练数据集构成.26图表45：

InternVideo预训练过程中使用的数据集统计.26图表46：

DuReader汉语六种题型示例（附英文注释）.26图表47：

WuDaoCorpora示例.27图表48：

CAIL2018示例.27图表49：

Math23K和其他几个公开数据集对比.28图表50：

Ape210K与现有数学应用题数据集的比较.28图表51：

DRCD的问题类型.28图表52：

不同汉语语法纠错语料库的对比.29图表53：

E-KAR与以往类比基准的比较.29图表54：

豆瓣会话语料库统计.29图表55：

ODSQA、DRCD-TTS、DRCD-backtrans的数据统计.29图表56：

MATINF中问题、描述和答案的平均字符数和单词数.30图表57：

MUGE数据集多模态数据示例.30图表58：

WuDaoMM数据集强相关性图像-文本对示例.30图表59：

Noah-Wukong数据集模型概述.31图表60：

Zero数据集示例.31图表61：

COCO-CN数据集示例.31图表62：

Flickr30k-CN数据集跨语言图像字幕示例.31图表63：

Product1M数据集多模态实例级检索.32图表64：

AIChallenger数据集示例.32图表65：

数据要素是数字中国发展框架中的重要环节之一.32图表66：

我国数据要素相关政策.33图表67：

我国数据要素市场规模及预测.33图表68：

数据要素流通产业链.34图表69：

国内大数据交易所建设历程.34图表70：

GPT3训练中各国语言占比.35图表71：

数据服务商在数据要素市场中的角色.35图表72：

国内各类型数据服务商企业统计样本数及占比.36图表73：

大模型数据隐私问题实例.37图表74：

各地区数据隐私相关法律.38图表75：

隐私保护计算的五大关键技术.38图表76：

国内外数据处理相关公司.40图表77：

全文提及公司列表.41免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

5科技科技AI大模型需要什么样的数据集大模型需要什么样的数据集数据将是未来数据将是未来AI大模型竞争的关键要素大模型竞争的关键要素人工智能发展的突破得益于高质量数据的发展。

人工智能发展的突破得益于高质量数据的发展。

例如，大型语言模型的最新进展依赖于更高质量、更丰富的训练数据集：

与GPT-2相比，GPT-3对模型架构只进行了微小的修改，但花费精力收集更大的高质量数据集进行训练。

ChatGPT与GPT-3的模型架构类似，并使用RLHF（来自人工反馈过程的强化学习）来生成用于微调的高质量标记数据。

图表图表1：

更高质量、更丰富的训练数据是更高质量、更丰富的训练数据是GPT模型成功的驱动力；而除模型权重变化之外，模型架构保持相似模型成功的驱动力；而除模型权重变化之外，模型架构保持相似资料来源：

DaochenZhaetal.”Data-centricArtificialIntelligence:

ASurvey”2023，华泰研究基于此，人工智能领域的权威学者吴承恩发起了“以数据为中心的AI”运动，即在模型相对固定的前提下，通过提升数据的质量和数量来提升整个模型的训练效果。

提升数据集质量的方法主要有：

添加数据标记、清洗和转换数据、数据缩减、增加数据多样性、持续监测和维护数据等。

因此，我们认为未来数据成本在大模型开发中的成本占比或将提升，主因此，我们认为未来数据成本在大模型开发中的成本占比或将提升，主要包括数据采集，清洗，标注等成本。

要包括数据采集，清洗，标注等成本。

图表图表2：

以数据为中心的以数据为中心的AI：

模型不变，通过改进数据集质量提升模型效果：

模型不变，通过改进数据集质量提升模型效果资料来源：

DaochenZhaetal.Data-centricArtificialIntelligence:

ASurvey2023，华泰研究类似的类似的模型结构模型结构4.8GB（未过滤）数据40GB人类过滤数据570GB过滤数据，来自45TB原始数据人工示范和标注XXX.YYY.ZZZ在一句话中解释上述内容15*67+6是多少？

“饮料做好了”是中性、负面还是正面？

“饮料做好了”是中性数据规模数据规模数据质量数据质量模型固定模型固定免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

6科技科技图表图表3：

以数据为中心的以数据为中心的AI：

工作流拆解：

工作流拆解资料来源：

DaochenZhaetal.Data-centricArtificialIntelligence:

ASurvey2023，华泰研究我们认为我们认为AI大模型需要高质量、大规模、多样性的数据集。

大模型需要高质量、大规模、多样性的数据集。

1）高质量：

）高质量：

高质量数据集能够提高模型精度与可解释性，并且减少收敛到最优解的时间，即减少训练时长。

2）大规模：

）大规模：

OpenAI在ScalingLawsforNeuralLanguageModels中提出LLM模型所遵循的“伸缩法则”（scalinglaw），即独立增加训练数据量、模型参数规模或者延长模型训练时间，预训练模型的效果会越来越好。

3）丰富性：

）丰富性：

数据丰富性能够提高模型泛化能力，过于单一的数据会非常容易让模型过于拟合训练数据。

免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

7科技科技数据集数据集如何产生如何产生建立数据集的流程主要分为1）数据采集；2）数据清洗：

由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题；3）数据标注：

最重要的一个环节；4）模型训练：

模型训练人员会利用标注好的数据训练出需要的算法模型；5）模型测试：

审核员进行模型测试并将测试结果反馈给模型训练人员，而模型训练人员通过不断地调整参数，以便获得性能更好的算法模型；6）产品评估：

产品评估人员使用并进行上线前的最后评估。

图表图表4：

数据标注基本流程数据标注基本流程资料来源：

蔡莉等数据标注研究综述2020，华泰研究流程流程#1：

数据采集。

：

数据采集。

采集的对象包括视频、图片、音频和文本等多种类型和多种格式的数据。

数据采集目前常用的有三种方式，分别为：

1）系统日志采集方法；2）网络数据采集方法；3）ETL。

图表图表5：

数据采集三种常见方式数据采集三种常见方式资料来源：

CSDN，Apache，Scrible，Python，GitHub，Scrapy，IBM，搜狗百科，华泰研究系统日志采集方法网络数据采集ETL构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；支持近实时的在线分析系统和分布式并发的离线分析系统；具有高可扩展性，也就是说，当数据量增加时，可以通过增加节点进行水平扩展；目前为止，运用较为广泛的有Flume、Chukwa、Scrible和Kafka。

通过网络爬虫或网站公开API方式获取大数据信息；网络爬虫工具包括python爬虫、分布式网络爬虫工具、Java网络爬虫工具、非Java网络爬虫工具。

分布式网络爬虫工具，如Nutch。

即Extract-Transform-Load，描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程；它是一个数据集成过程，将来自多个数据源的数据组合到一个单一的、一致的数据存储中，该数据存储被加载到数据仓库或其他目标系统中。

数据采集三种常见方式免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

8科技科技流程流程#2：

数据清洗是提高数据质量的有效方法。

：

数据清洗是提高数据质量的有效方法。

由于采集到的数据可能存在缺失值、噪声数据、重复数据等质量问题，故需要执行数据清洗任务，数据清洗作为数据预处理中至关重要的环节，清洗后数据的质量很大程度上决定了AI算法的有效性。

图表图表6：

缺失数据的处理方法缺失数据的处理方法资料来源：

邓建新等缺失数据的处理方法及其发展趋势2019，华泰研究流程流程#3：

数据标注是流程中最重要的一个环节。

：

数据标注是流程中最重要的一个环节。

管理员会根据不同的标注需求，将待标注的数据划分为不同的标注任务。

每一个标注任务都有不同的规范和标注点要求，一个标注任务将会分配给多个标注员完成。

图表图表7：

三大类数据标注三大类数据标注资料来源：

DevolShah“AStep-by-StepGuidetoTextAnnotation”2022，CSDN，景联文科技，华泰研究流程流程#4：

最终通过产品评估环节的数据才算是真正过关。

：

最终通过产品评估环节的数据才算是真正过关。

产品评估人员需要反复验证模型的标注效果，并对模型是否满足上线目标进行评估。

文本标注语音标注图像标注文本分类OCR转写实体标注情感标注意图标注语义标注发音校对语音清洗语音切割韵脚标注音素标注情绪判定矩形框标注3D立体框标注实例分割线段标注目标跟踪标注NLP标注免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

9科技科技图表图表8：

各数据标注质量评估算法对比各数据标注质量评估算法对比分类分类算法名称算法名称优点优点缺点缺点图像标注质量评估算法MV算法简单易用，常用作其他众包质量控制算法的基准算法没有考虑到每个标注任务、标注者的不同可靠性EM算法在一定意义下可以收敛到局部最大化数据缺失比例较大时，收敛速度比较缓慢RY算法将分类器与Ground-truth结合起来进行学习需要对标注专家的特异性和敏感性强加先验文本标注质量评估算法BLEU算法方便、快速、结果有参考价值测评精度易受常用词干扰ROUGE算法参考标注越多，待评估数据的相关性就越高无法评价标注数据的流畅度METEOR算法评估时考虑了同义词匹配，提高了评估的准确率长度惩罚，当被评估的数据量小时，测量精度较高CIDEr算法从文本标注质量评估的相关性上升到质量评估的相似性进对所有匹配上的词都同等对待会导致部分词的重要性被削弱SPICE算法从图的语义层面对图像标注进行评估图的语义解析方面还有待进一步完善ZenCrowd算法将算法匹配和人工匹配结合，在一定程度上实现了标注质量和效率的共同提高无法自动为定实体选择最佳数据集语音标注质量评估算法WER算法可以分数字、英文、中文等情况分别来看当数据量大时，性能会特别差SER算法对句子的整体性评估要优于WER算法句错误率较高，一般是词错误率的2倍3倍资料来源：

蔡莉等数据标注研究综述2020，华泰研究他山之石他山之石#1：

海外主要大语言模型数据集：

海外主要大语言模型数据集参数量和数据量是判断大模型的重要参数。

2018年以来，大语言模型训练使用的数据集规模持续增长。

2018年的GPT-1数据集约4.6GB，2020年的GPT-3数据集达到了753GB，而到了2021年的Gopher，数据集规模已经达到了10,550GB。

总结来说，从GPT-1到LLaMA的大语言模型数据集主要包含六类：

维基百科、书籍、期刊、Reddit链接、CommonCrawl和其他数据集。

图表图表9：

大语言模型数据集综合分析大语言模型数据集综合分析注：

以GB为单位，公开的数据以粗体表示，仅原始训练数据集大小资料来源：

AlanD.Thompson“WhatsinMyAI”2023，HugoTouvronetal.“LLaMA:

OpenandEfficientFoundationLanguageModels”2023，华泰研究数据集数据集#1：

维基百科：

维基百科维基百科是一个免费的多语言协作在线百科全书。

维基百科是一个免费的多语言协作在线百科全书。

维基百科致力于打造包含全世界所有语言的自由的百科全书，由超三十万名志愿者组成的社区编写和维护。

截至2023年3月，维基百科拥有332种语言版本，总计60,814,920条目。

其中，英文版维基百科中有超过664万篇文章，拥有超4,533万个用户。

维基百科中的文本很有价值，因为它被严格引用，以说明性文字形式写成，并且跨越多种语言和领域。

一般来说，重点研究实验室会首先选取它的纯英文过滤版作为数据集。

大模型维基百科书籍期刊Reddit链接CommonCrawl其他合计GPT-14.64.6GPT-24040GPT-311.42110150570753ThePilev1611824463227167825Megatron-11B11.44.638107161MT-NLG6.411877639831271374Gopher12.52100164.43450482310550LLaMA8385924162.24064828.2免责声明和披露以及分析师声明是报告的一部分，请务必一起阅读。

10科技科技图表图表10：

英文维基百科数据集分类英文维基百科数据集分类排名排名类别类别占比占比大小（大小（GB）Tokens（百万）（百万）1生物27.80%3.18342地理17.70%1.95313文化和艺术15.80%1.74744历史9.90%1.12975生物、健康和医学7.80%0.92346体育6.50%0.71957商业4.80%0.51448其他社会4.40%0.51329科学&数学3.50%0.410510教育1.80%0.254总计100%11.43000资料来源：

AlanD.Thompson“WhatsinMyAI”2023，华泰研究数据集数据集#2：

书籍书籍书籍书籍主要用于训练模型的故事讲述能力和反应能力主要用于训练模型的故事讲述能力和反应能力，包括，包括小说和非小说两大类小说和非小说两大类。

数据集包括ProjectGutenberg和Smashw

展开阅读全文