AI基础数据服务行业研究：新场景催化数据采标需求加速释放

（报告出品方：国金证券）

1. AI 基础数据服务脱胎于专业数据标注需求，2025 年国内百亿规模可期

1.1 产业图谱：AI 基础数据服务脱胎于专业数据采标分工需求

国内 AI 基础数据服务产业主要包括上游数据产生及产能资源、中游训练数据生产、下游 AI 算法研发三大产业环节。其中，部分产业环节重合度较高，AI 基础数据服务商主要脱胎于专业数据采标分工需求。

上游主要包括数据生产者和数据生产组织者，主要提供原料数据的采集服务。

中游主要由基础数据服务商构成，通过数据处理能力和项目管理能力完成训练数据集结构设计、数据加工和质量检测等工作，为下游客户提供训练数据产品和相关服务。 AI 基础数据服务整体可分为两大类，一种是具备自有的标注基地或全职标注团队，这类企业也参与产业上游部分直接提供产能资源，另一种是依靠众包或外包模式，专注于数据产品的开发与项目执行。

下游包括科技公司、行业企业、AI 公司和科研单位等，主要负责算法研发。部分下游 AI 公司拥有自主的标注工具，也可通过 AI 中台获取一些通用标注工具，少数数据需求大的企业还孵化了自主的数据服务团队。

1.2 发展历程：站在人工标注市场出清与机器标注迭代的十字路口

理论层面：数据工程系 AI 工程基础环节，核心在于高效的数据标注。AI 工程=数据工程+ 模型工程。其中，数据工程主要包括数据采集与数据标注，约占 AI 工程时长的 80%；模型工程主要包括模型训练与模型部署，约占 AI 工程时长的 20%。数据工程是 AI 工程的前置且基础环节，直接影响到模型的质量与精度。数据工程的核心在于高效的数据标注， Garbage in garbage out 效应显著。

实践层面：AI 模型训练数据需求规模大，训练数据质量不佳、效率低下情况普遍。据Dimensional Research 全球调研报告，72%的受访者认为至少使用超过 10 万条训练数据进行模型训练，才能保证模型有效性和可靠性，96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。为应对训练数据所带来的多方面挑战，AI 企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务。

AI 数据工程发轫于 AI 产业落地元年，系 AI 下游应用的基础且必备环节。目前行业处于市场格局渐趋清晰，新老技术面临迭代，下游需求加速释放的关键节点。

产业初生期（2010~2016）：2010 年语音识别和计算机视觉领域产生重大突破，国内开始萌生 AI 概念。后续数年，早期的 AI 基础数据服务门槛较低，质量参差不齐。

产生成长期（2016~2022）：近五年来，供给侧高烈度的业内竞争加速市场出清，需求侧对产业落地以及垂直场景的定制化数据采标需求逐渐凸显。最终引致行业头部企业浮出水面，行业格局逐渐清晰。

产业成熟期（2022~至今）：2022 年以来，AIGC 产品集中爆发，高 level 自动驾驶需求加速释放。传统人工标注的效率已不能完全满足算法需求，行业护城河转向自动化机器标注技术，预计产业将进入向技术要市场的新阶段。

1.3 市场规模：AI 快速落地叠加数据量指数级跃升，2025 年国内百亿规模可期

国内 AI 市场规模超百亿美金，约占全球市场 10%份额。目前，AI 已在金融、医疗、交通、安防等多个垂直场景深度落地，且应用场景拓展势能强劲，商业化进程加速。从全球市场看，据 IDC，2021 年全球 AI 产业规模达 885.7 亿美元，预计 2025 年将达到 2,218.7 亿美元，CAGR 高达 25.8%。从国内市场看，据 IDC，2022 年我国 AI 产业规模或达 116 亿美元，预计未来数年仍保持两位数增长。以 2021 年计，国内 AI市场规模约占全球 10%，国内市场成长潜力巨大，国内企业出海空间广阔。

全球数据量呈指数式增长，中国数据量增速跑赢全球。据 IDC，全球每年生产的数据量将从2018年的33ZB猛增至2025年的175ZB，其中结构化数据仅占到全部数据量的20%，其余 80%都是以文件形式存在的非结构化和半结构化数据，日志文件、机器数据等占非结构化数据的 90%，产生了源源不断的数据清洗与标注需求。相比之下，中国的数据量增速领跑全球，平均每年增速比全球快 3%。2018 年，中国的数据量为 7.6ZB，占全球总量的 23.4%，预计到 2025 年将增至 48.6ZB，占全球总量的 27.8%，CAGR 高达 30.4%。

中国 AI 基础数据服务行业市场规模 2025 年有望突破百亿。一方面，随着算法模型、技术理论和应用场景的优化和创新，AI 产业对训练数据的拓展性需求和前瞻性需求均快速增长；另一方面，随着业内对训练数据需求类型的增加以及对服务标准要求的提高，产业链的专业化分工将愈加清晰，专业化的训练数据服务提供商将扮演更加重要的角色。据艾瑞咨询，2019 年中国 AI 基础数据服务行业市场规模达 30.9 亿元，其中图像类、语音类、NLP 类数据需求规模占比分别为 49.7%、39.1%和 11.2%。预计 2025 年国内 AI 基础数据服务行业市场规模将突破 100 亿元，年复合增长率高达 21.8%。

1.4 政策支持：近五年国家政策加持国内 AI 产业发展

近五年国家系列政策推动国内 AI 产业蓬勃发展。《“十四五”规划》指出要加快数字化发展，建设数字中国，同时打造数字经济新优势，充分发挥海量数据和丰富应用场景优势，促进数字技术与实体经济深度融合，赋能传统产业转型升，催生新产业新业态新模式，壮大经济发展新引擎。在国家顶层设计的支持下，我国 AI 基础数据服务行业稳步发展，行业训练资源库等细分应用领域的产业价值逐步凸显。

2. AI 大模型催生高要求新需求，专业化数据集及 AI 训练师需求利好优质专业数据提供厂商

2.1 场景特质：AI 大模型时代无监督/半监督训练成为主流，RLHF 催生新兴需求

大模型时代无监督/半监督训练成为主流。AI 模型的训练方法主要包括监督学习和无监督学习两种典型方式，后随模型训练数据量的增加衍生出半监督学习方法。AI 训练方法的发展历经“监督-无监督-监督-无监督/半监督”4 个阶段，在目前的大模型阶段，无监督/ 半监督训练再次成为主流。监督学习与无监督学习的主要区别在于是否使用带有人工标注的数据集训练数据，半监督学习则是使用大量未标注数据+少量标注数据进行训练。

大模型时代“基础模型+微调”成为 AI 开发新范式，RLHF 微调技术催生更高要求的数据标注需求。AI 大模型由海量数据通过无监督学习训练得到，本身并不能直接应用于具体任务，必须经过微调才可投入应用。微调是指基于大规模基础模型，在现有训练得到的模型参数之上，针对特定任务类型、应用特定场景的数据对模型进行二次训练。通俗来说，大规模基础模型为AI提供了基础知识，而微调则是让AI获特定领域知识，并赋予其组织、应用知识的能力。以近日备受关注的 ChatGPT 为例，在其微调技术 RLHF（强人工反馈）系统当中：

第一步，预训练阶段。模型首先需要在标注完备的大数据集上进行预训练，得到监督学习模型。

第二步，交互奖励阶段。模型与专业的人工智能训练师进行交互，专业标注人员会对 ChatGPT 生成的回答进行标注、评估和反馈，给出一个针对回答的分数或者标签。这些标注数据可以作为强化学习过程中的“奖励函数”来指导 ChatGPT 的参数调整，得到奖励模型。

第三步，迭代优化阶段。基于奖励模型的奖励函数以 PPO（一种使用两个神经网络的强化学习算法）的方式微调监督学习训练出来的生成模型，基于强化学习 loss 持续迭代生成模型，最终帮助模型进行强化学习和不断优化。

2.2 场景需求：预训练阶段高质量专业数据集+交互奖励阶段人工智能训练师

伴随业界大模型市场竞争的白热化，RLHF 系统也将得到进一步的推广及迭代使用，从而带来两大类新兴数据标注需求。一是预训练阶段催生 AI 厂商对于标注完善、清洗完备的各类专业化场景数据集的需求；二是交互奖励阶段催生 AI 厂商对于具备专业的事实判断与规范的价值判断的人工智能训练师的需求。目前，上述两类新兴需求尚未得到充分有效的市场供给，利好海天瑞声这类优质专业数据解决方案提供商。针对 RLHF 预训练阶段需求，由于传统数据采标厂商的主流商业模式以销售工具系统和标注服务为主，所以普遍缺少自有数据，较少经营出售精准数据集的服务。针对 RLHF 交互奖励阶段需求，聚焦专业垂类的模型训练师则更为稀缺，市场蓝海亟待业务开拓。

2.3 场景价值：超大规模预训练模型推动训练数据数级跃升，市场需求持续延展

超大规模预训练模型推动训练数据指数级跃升。自 OpenAI 于 2020 年推出 GPT-3 以来，谷歌、华为、智源研究院、中科院、阿里巴巴等企业和研究机构相继推出超大规模预训练模型，包括 Switch Transformer、DALL·EMT-NLG、盘古、悟道 2.0、紫东太初和 M6 等。目前，预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长，继续通过增大模型和增加训练数据仍是短期内主流演进方向，RLHF 技术的推广使用或将推动训练数据市场需求持续延展。

3. 自动驾驶领域训练数据需求方兴未艾，海天瑞声发力布局

3.1 场景特质：自动驾驶客户需求全栈式闭环数据解决方案

自动驾驶场景对于 AI 数据服务需求较为刚性。自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等，需求方以科技公司、汽车厂商和高精地图厂商为主。 L3 级别以上的自动驾驶系统需对雷达、摄像头等传感器采集的点云和图像数据进行抽取、处理和融合，构建车辆行驶环境，为预测和决策做依据。目前自动驾驶的视觉技术主要应用有监督的深度学习，是基于已知变量和因变量推导函数关系的算法模型，需要大量的标注数据对模型进行训练和调优。近几年，汽车厂商在 ADAS 和自动驾驶方向的投入明显，对于数据的采集和标注需求也逐年增加，汽车厂商有望成为需求主力。

自动驾驶领域对于基础数据服务商提出更高要求，业内客户需要全栈式闭环数据解决方案。数据获取和处理能力是自动驾驶企业的核心竞争要素之一，自动驾驶能力取决于高效的数据闭环和数据的利用效率，并能利用大量有效数据训练智能驾驶算法。因此，自动驾驶客户要求数据服务商能够提供闭环数据解决方案，以满足智能驾驶业务数据处理量大、数据处理需求迭代频次高等特点，专业知识、服务经验及准入资质将成为衡量的重要标准。

3.2 场景需求：自动驾驶领域数据标注分为 2D 图像标注与 3D 点云标注

自动驾驶领域的数据可分为车载摄像头采集的 2D 图像数据和激光雷达采集的 3D 点云数据。一般而言，低 level 的自动驾驶技术以 2D 图像数据为主，3D 点云标注数据是中高 level 自动驾驶技术的基础训练数据，在自动驾驶领域中发挥着愈发重要的作用。3D 点云标注数据在自动驾驶领域的应用可以分为两个方面，一是基于场景理解和目标检测的实时环境感和处理，二是 SLAM（即时定位与地图构建）加强定位。

2D 标注：通过精确理解来自可见光摄像头的信息，寻找能够创建用于目标物体的可扩展边界框。

3D 点云标注：通过识别和跟踪场景中的对象，了解汽车前方和周围的场景。将点云数据和视频流合并到要标注的场景中。

视频对象和事件跟踪 3D 点云标注：锁定随时间移动的对象，并标注时间事件。在多帧视频和 LiDar 场景中跟踪进入和离开本体中的关注区域的对象（如其他汽车和行人）。在整个视频中，无论对象进入和离开视线的频率如何，都会保持对其特性的一致理解。

3.3 场景价值：自动驾驶训练数据市场方兴未艾，2025 年国内市场规模或达 25 亿元

自动驾驶约占我国 AI 基础数据服务市场规模的 35%，2025 年市场规模或达 25 亿元。自动驾驶的视觉技术主要应用于有监督的深度学习，需要大量的标注数据对模型进行训练和调优。目前该领域的数据采集和标注需求已成为AI基础数据服务的主要下游之一。据IDC， 2020 年我国自动驾驶领域占 AI 基础数据服务市场规模的 35%，系第一大下游场景。另据艾瑞咨询，2025 年我国自动驾驶 AI 基础数据服务市场规模或达 24.9 亿元，预计 18~25 年 CAGR 高达 23.2%，跑赢 AI 基础数据服务整体增速 21.8%。

4. 国内市场集中度趋势性收敛，海天瑞声具备领先优势

4.1 发展趋势：品牌商价值效应凸显，国内市场集中度持续收敛

品牌数据服务商未来将替代中小型供应商成为市场主要供应力量。我国 AI 基础数据服务行业主要市场主体包括需求方自建基础数据团队与基础数据服务商（品牌数据服务商、中小数据服务商）。截至 2019 年，中小数据供应商是主要供应力量，占比高达 47%。其中百度众包、海天瑞声分居 top2，占比分别为 11.0%、8.0%，2019 年行业 CR5 仅为 26.2%。结合本文 1.2 部分分析可知，近年间需求端垂直场景及专业化需求凸显，业务门槛提高；供给端竞争加剧挤压中低端业务利润空间，加速市场出清。预计当前我国 AI 基础数据服务行业市场主要以品牌数据供应商与需求方自建团队为主，行业龙头逐渐浮出水面，中小供应商份额显著下降。

业内品牌数据商包括海外巨头 Appen、国内领军厂商海天瑞声、慧听数据、标贝科技等：

Appen：1996 年成立于澳大利亚，面向机器学习和人工智能开发的高质量人工标注数据集，于 2015 年 1 月于澳大利亚证券交易所上市。Appen 在采集并丰富语音、文字、图像和视频等各种数据类型上积累多年经验，与全球技术、汽车和电子商务公司，以及政府部门建立了合作。

海天瑞声：成立于 2005 年，是国内领先的训练数据提供商。主要从事训练数据的研发设计、生产及销售业务。目前已成为同时具备核心技术、产品资源、优质客户为一体的本土训练数据提供企业。核心收入来源为数据资源定制服务。

慧听科技：成立于 2011 年，业务包括语音识别、语音合成、语音评测、语言文本类、多媒体类等多领域数据制作，以及语音合成、语音识别、输入法系统的研发等。公司提供服务涵盖语音训练数据制作、音乐数据制作标注、语音质量评测等，经营模式包括定制开发和自有训练数据产品销售。

标贝科技：成立于 2016 年，主要提供智能语音交互相关服务，包括语音合成整体解决方案，以及语音合成、语音识别、图像识别等数据服务，经营模式包括定制开发和自有训练数据产品销售。

4.2 竞争格局：业内主要玩家发展各有侧重，Appen 及海天瑞声具备领先优势

据 IDC，2021 年海天瑞声在国内 AI 基础数据服务行业市占率高达 12.9%，位居第一。其技术实力、语种/方言覆盖能力、专利及软著数量、成品训练集数量均位居行业前列。相比之下，Appen 在覆盖区域、语种/方言覆盖能力等方面更具优势。慧听科技与标贝科技则在音乐领域具备差异化业务覆盖能力。

在语音类数据产品中，海天瑞声在结构方面的差异主要体现在覆盖的噪声类型、录音通道数量、录音文本内容类型等方面。相比之下，海天瑞声的训练数据产品结构整体而言可覆盖更丰富的录音文本内容类型、噪音环境类型、录音通道数量，Appen 则在稀有语言覆盖数量上更胜一筹。

在自然语言训练数据产品中，不同自然语言训练数据产品的结构差异主要体现在文本来源、内容、标注属性等方面。Appen 具备更为丰富的产品数量与更为全面的语言覆盖能力，海天瑞声在上述指标上紧随其后。

在计算机视觉训练数据产品中，海天瑞声在结构方面的差异主要体现在人像识别检测相关数据产品领域。主要玩家均可覆盖不同类型的人脸、姿势、场景等，因计算机视觉数据产品个性化特征较强，各类训练数据产品在具体的人脸类型、姿势范围、场景等方面具备一定差异。与 Appen 相比，海天瑞声的 OCR 训练数据产品可覆盖更多语种的光学字符识别需要，具备广泛性、强适用性特征。

4.3 他山之石：Appen 发展复盘，全球 AI 基础数据服务巨头的崛起之路

Appen 系 AI 基础数据服务行业全球巨头，经历爆发式成长后收入利润短期双双回落。 Appen 成立于 1996 年，面向机器学习和人工智能开发的高质量人工标注数据集，于 2015 年于澳大利亚证券交易所上市。2015~2019 年，公司经历了爆发式成长期，营收增速一度冲高至 100%以上，同期净利率接近 10%。2020~2022 年，受到全球疫情及公司内生发展阶段调整影响，2022 年公司营收规模相较 2021 年回落 13.1%，净利率由 9.1%回落至 5.9%。

Appen 业务类型齐全，客户质量较高。Appen 主要业务类型包括数据采集、数据预处理与模型评价三大类。其中，数据采集环节基于公司预先标记完备的海量数据集为下游客户提供大量其所需的高质量数据，数据集语种覆盖范围领先优势较大。数据预处理环节，公司具备全类型数据标注能力。模型评价环节，公司通过用户测试及针对客户竞争对手的性能基准测试，诊断模型潜在问题，并为此提供能够优化模型的训练数据。公司主要客户质量较高，包括 Google、Amazon、Microsoft 等知名 IT 巨头。

Appen 位居同业员工量能及数据标注技术前列。全球范围来看，Appen 位居全球 AI 基础数据服务行业收入体量首位。其员工量能（数量及质量）与数据标注技术领先程度均位居行业头部，紧随之后的是 Telus 和 Lionbrigde。以数据堂、海天瑞声为代表的国内头部厂商距离 Appen 等海外大厂仍存在一定差距。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。

展开阅读全文

页面更新：2024-03-13

标签：场景需求基础数据服务行业模型阶段领域产业国内全球

1 2 3 4 5

AI基础数据服务行业研究：新场景催化数据采标需求加速释放

1. AI 基础数据服务脱胎于专业数据标注需求，2025 年国内百亿规模可期

2. AI 大模型催生高要求新需求，专业化数据集及 AI 训练师需求利好优质专业数据提供厂商

3. 自动驾驶领域训练数据需求方兴未艾，海天瑞声发力布局

4. 国内市场集中度趋势性收敛，海天瑞声具备领先优势

苹果Apple Watch数据表明：大多数人睡眠不足

疑似黑鲨6原型机曝光摄像头模组带有轨道设计图案

OPPOK9Pro，真·性能铁马

3万亿元？阿里的“真实身份”藏不住了，人民日报的提醒不能忘

阿里巴巴推广：企业融易收升级步骤流程详解

「防骗反诈」不注意移动支付习惯？小心你的钱包！

加密支付网关Alchemy Pay与ZD Group合作，共享其四张香港金融牌照

2K到6K全覆盖！盘点值得冲的3款新机，预算内入哪个都不亏

全线涨停！数字经济分支-国资云，拥抱核心趋势龙头

新华保险全新发布2023年客户服务十大承诺

和而泰与博格华纳签订18亿元供货合同将分9年履行

兴业银行济南分行组织开展“消保大家说”原创视频大赛

外籍记者看两会丨中国式创新快速崛起的秘诀，从二维码说起

南方日报报道｜广东·海南（徐闻）特别合作区：跨海逐梦腾飞在即

2023年3月13日钾肥行情

苹果Apple Watch数据表明：大多数人睡眠不足

甘肃平凉71个特色农业产业项目亮相泉州

贵安新区高端装备制造产业园标准厂房二期项目正加速建

对话新国企·扬帆开新局｜中国能建宋海良谈新能源新基建

火爆全网的ChatGPT中文移动版APP来喽（GTP3.5模型）（下载可

全国人大代表刘晓静：建议沿黄九省区联合建设沿黄旅游公

涂世平参加上海产业推介会签约合同15亿元

上海大学尹鑫茂首创光谱学方法，打开量子材料基础研究新

三年过去了，芯片热潮下入场的资本纷纷离场，半导体产业逆

中国2月动力电池装车量数据出炉：宁德时代、比亚迪拿下