AI基础数据服务行业研究:新场景催化数据采标需求加速释放

(报告出品方:国金证券)

1. AI 基础数据服务脱胎于专业数据标注需求,2025 年国内百亿规模可期

1.1 产业图谱:AI 基础数据服务脱胎于专业数据采标分工需求

国内 AI 基础数据服务产业主要包括上游数据产生及产能资源、中游训练数据生产、下游 AI 算法研发三大产业环节。其中,部分产业环节重合度较高,AI 基础数据服务商主要脱 胎于专业数据采标分工需求。

上游主要包括数据生产者和数据生产组织者,主要提供原料数据的采集服务。

中游主要由基础数据服务商构成,通过数据处理能力和项目管理能力完成训练数据集 结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关服务。 AI 基础数据服务整体可分为两大类,一种是具备自有的标注基地或全职标注团队, 这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专 注于数据产品的开发与项目执行。

下游包括科技公司、行业企业、AI 公司和科研单位等,主要负责算法研发。部分下 游 AI 公司拥有自主的标注工具,也可通过 AI 中台获取一些通用标注工具,少数数据 需求大的企业还孵化了自主的数据服务团队。

1.2 发展历程:站在人工标注市场出清与机器标注迭代的十字路口

理论层面:数据工程系 AI 工程基础环节,核心在于高效的数据标注。AI 工程=数据工程+ 模型工程。其中,数据工程主要包括数据采集与数据标注,约占 AI 工程时长的 80%;模 型工程主要包括模型训练与模型部署,约占 AI 工程时长的 20%。数据工程是 AI 工程的 前置且基础环节,直接影响到模型的质量与精度。数据工程的核心在于高效的数据标注, Garbage in garbage out 效应显著。

实践层面:AI 模型训练数据需求规模大,训练数据质量不佳、效率低下情况普遍。据Dimensional Research 全球调研报告,72%的受访者认为至少使用超过 10 万条训练数据 进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训 练数据质量不佳、数量不足、数据标注人员不足等难题。为应对训练数据所带来的多方面 挑战,AI 企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务。


AI 数据工程发轫于 AI 产业落地元年,系 AI 下游应用的基础且必备环节。目前行业处于市 场格局渐趋清晰,新老技术面临迭代,下游需求加速释放的关键节点。

产业初生期(2010~2016):2010 年语音识别和计算机视觉领域产生重大突破,国 内开始萌生 AI 概念。后续数年,早期的 AI 基础数据服务门槛较低,质量参差不齐。

产生成长期(2016~2022):近五年来,供给侧高烈度的业内竞争加速市场出清,需 求侧对产业落地以及垂直场景的定制化数据采标需求逐渐凸显。最终引致行业头部企 业浮出水面,行业格局逐渐清晰。

产业成熟期(2022~至今):2022 年以来,AIGC 产品集中爆发,高 level 自动驾驶 需求加速释放。传统人工标注的效率已不能完全满足算法需求,行业护城河转向自动 化机器标注技术,预计产业将进入向技术要市场的新阶段。

1.3 市场规模:AI 快速落地叠加数据量指数级跃升,2025 年国内百亿规模可期

国内 AI 市场规模超百亿美金,约占全球市场 10%份额。目前,AI 已在金融、医疗、交通、 安防等多个垂直场景深度落地,且应用场景拓展势能强劲,商业化进程加速。从全球市场 看,据 IDC,2021 年全球 AI 产业规模达 885.7 亿美元,预计 2025 年将达到 2,218.7 亿 美元,CAGR 高达 25.8%。从国内市场看,据 IDC,2022 年我国 AI 产业规模或达 116 亿美元,预计未来数年仍保持两位数增长。以 2021 年计,国内 AI市场规模约占全球 10%, 国内市场成长潜力巨大,国内企业出海空间广阔。

全球数据量呈指数式增长,中国数据量增速跑赢全球。据 IDC,全球每年生产的数据量将 从2018年的33ZB猛增至2025年的175ZB,其中结构化数据仅占到全部数据量的20%, 其余 80%都是以文件形式存在的非结构化和半结构化数据,日志文件、机器数据等占非 结构化数据的 90%,产生了源源不断的数据清洗与标注需求。相比之下,中国的数据量 增速领跑全球,平均每年增速比全球快 3%。2018 年,中国的数据量为 7.6ZB,占全球总 量的 23.4%,预计到 2025 年将增至 48.6ZB,占全球总量的 27.8%,CAGR 高达 30.4%。


中国 AI 基础数据服务行业市场规模 2025 年有望突破百亿。一方面,随着算法模型、技 术理论和应用场景的优化和创新,AI 产业对训练数据的拓展性需求和前瞻性需求均快速 增长;另一方面,随着业内对训练数据需求类型的增加以及对服务标准要求的提高,产业 链的专业化分工将愈加清晰,专业化的训练数据服务提供商将扮演更加重要的角色。 据艾瑞咨询,2019 年中国 AI 基础数据服务行业市场规模达 30.9 亿元,其中图像类、语 音类、NLP 类数据需求规模占比分别为 49.7%、39.1%和 11.2%。预计 2025 年国内 AI 基础数据服务行业市场规模将突破 100 亿元,年复合增长率高达 21.8%。

1.4 政策支持:近五年国家政策加持国内 AI 产业发展

近五年国家系列政策推动国内 AI 产业蓬勃发展。《“十四五”规划》指出要加快数字化发 展,建设数字中国,同时打造数字经济新优势,充分发挥海量数据和丰富应用场景优势, 促进数字技术与实体经济深度融合,赋能传统产业转型升,催生新产业新业态新模式,壮 大经济发展新引擎。在国家顶层设计的支持下,我国 AI 基础数据服务行业稳步发展,行 业训练资源库等细分应用领域的产业价值逐步凸显。

2. AI 大模型催生高要求新需求,专业化数据集及 AI 训练师需求利好优质专业数据提供厂商

2.1 场景特质:AI 大模型时代无监督/半监督训练成为主流,RLHF 催生新兴需求

大模型时代无监督/半监督训练成为主流。AI 模型的训练方法主要包括监督学习和无监督 学习两种典型方式,后随模型训练数据量的增加衍生出半监督学习方法。AI 训练方法的 发展历经“监督-无监督-监督-无监督/半监督”4 个阶段,在目前的大模型阶段,无监督/ 半监督训练再次成为主流。监督学习与无监督学习的主要区别在于是否使用带有人工标注 的数据集训练数据,半监督学习则是使用大量未标注数据+少量标注数据进行训练。


大模型时代“基础模型+微调”成为 AI 开发新范式,RLHF 微调技术催生更高要求的数据 标注需求。AI 大模型由海量数据通过无监督学习训练得到,本身并不能直接应用于具体 任务,必须经过微调才可投入应用。微调是指基于大规模基础模型,在现有训练得到的模 型参数之上,针对特定任务类型、应用特定场景的数据对模型进行二次训练。通俗来说, 大规模基础模型为AI提供了基础知识,而微调则是让AI获特定领域知识,并赋予其组织、 应用知识的能力。以近日备受关注的 ChatGPT 为例,在其微调技术 RLHF(强人工反馈) 系统当中:

第一步,预训练阶段。模型首先需要在标注完备的大数据集上进行预训练,得到监督 学习模型。

第二步,交互奖励阶段。模型与专业的人工智能训练师进行交互,专业标注人员会对 ChatGPT 生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。 这些标注数据可以作为强化学习过程中的“奖励函数”来指导 ChatGPT 的参数调整, 得到奖励模型。

第三步,迭代优化阶段。基于奖励模型的奖励函数以 PPO(一种使用两个神经网络 的强化学习算法)的方式微调监督学习训练出来的生成模型,基于强化学习 loss 持 续迭代生成模型,最终帮助模型进行强化学习和不断优化。

2.2 场景需求:预训练阶段高质量专业数据集+交互奖励阶段人工智能训练师

伴随业界大模型市场竞争的白热化,RLHF 系统也将得到进一步的推广及迭代使用,从而 带来两大类新兴数据标注需求。一是预训练阶段催生 AI 厂商对于标注完善、清洗完备的 各类专业化场景数据集的需求;二是交互奖励阶段催生 AI 厂商对于具备专业的事实判断 与规范的价值判断的人工智能训练师的需求。 目前,上述两类新兴需求尚未得到充分有效的市场供给,利好海天瑞声这类优质专业数据 解决方案提供商。针对 RLHF 预训练阶段需求,由于传统数据采标厂商的主流商业模式 以销售工具系统和标注服务为主,所以普遍缺少自有数据,较少经营出售精准数据集的服 务。针对 RLHF 交互奖励阶段需求,聚焦专业垂类的模型训练师则更为稀缺,市场蓝海 亟待业务开拓。


2.3 场景价值:超大规模预训练模型推动训练数据数级跃升,市场需求持续延展

超大规模预训练模型推动训练数据指数级跃升。自 OpenAI 于 2020 年推出 GPT-3 以来, 谷歌、华为、智源研究院、中科院、阿里巴巴等企业和研究机构相继推出超大规模预训练 模型,包括 Switch Transformer、DALL·EMT-NLG、盘古、悟道 2.0、紫东太初和 M6 等。 目前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,继续通过增大模 型和增加训练数据仍是短期内主流演进方向,RLHF 技术的推广使用或将推动训练数据市 场需求持续延展。

3. 自动驾驶领域训练数据需求方兴未艾,海天瑞声发力布局

3.1 场景特质:自动驾驶客户需求全栈式闭环数据解决方案

自动驾驶场景对于 AI 数据服务需求较为刚性。自动驾驶基础数据主要是道路交通图像、 障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精地图厂商为主。 L3 级别以上的自动驾驶系统需对雷达、摄像头等传感器采集的点云和图像数据进行抽取、 处理和融合,构建车辆行驶环境,为预测和决策做依据。目前自动驾驶的视觉技术主要应用有监督的深度学习,是基于已知变量和因变量推导函数关系的算法模型,需要大量的标 注数据对模型进行训练和调优。近几年,汽车厂商在 ADAS 和自动驾驶方向的投入明显, 对于数据的采集和标注需求也逐年增加,汽车厂商有望成为需求主力。

自动驾驶领域对于基础数据服务商提出更高要求,业内客户需要全栈式闭环数据解决方案。 数据获取和处理能力是自动驾驶企业的核心竞争要素之一,自动驾驶能力取决于高效的数 据闭环和数据的利用效率,并能利用大量有效数据训练智能驾驶算法。因此,自动驾驶客 户要求数据服务商能够提供闭环数据解决方案,以满足智能驾驶业务数据处理量大、数据 处理需求迭代频次高等特点,专业知识、服务经验及准入资质将成为衡量的重要标准。


3.2 场景需求:自动驾驶领域数据标注分为 2D 图像标注与 3D 点云标注

自动驾驶领域的数据可分为车载摄像头采集的 2D 图像数据和激光雷达采集的 3D 点云数 据。一般而言,低 level 的自动驾驶技术以 2D 图像数据为主,3D 点云标注数据是中高 level 自动驾驶技术的基础训练数据,在自动驾驶领域中发挥着愈发重要的作用。3D 点云标注 数据在自动驾驶领域的应用可以分为两个方面,一是基于场景理解和目标检测的实时环境 感和处理,二是 SLAM(即时定位与地图构建)加强定位。

2D 标注:通过精确理解来自可见光摄像头的信息,寻找能够创建用于目标物体的可 扩展边界框。

3D 点云标注:通过识别和跟踪场景中的对象,了解汽车前方和周围的场景。将点云 数据和视频流合并到要标注的场景中。

视频对象和事件跟踪 3D 点云标注:锁定随时间移动的对象,并标注时间事件。在多 帧视频和 LiDar 场景中跟踪进入和离开本体中的关注区域的对象(如其他汽车和行 人)。在整个视频中,无论对象进入和离开视线的频率如何,都会保持对其特性的一 致理解。

3.3 场景价值:自动驾驶训练数据市场方兴未艾,2025 年国内市场规模或达 25 亿元

自动驾驶约占我国 AI 基础数据服务市场规模的 35%,2025 年市场规模或达 25 亿元。自 动驾驶的视觉技术主要应用于有监督的深度学习,需要大量的标注数据对模型进行训练和 调优。目前该领域的数据采集和标注需求已成为AI基础数据服务的主要下游之一。据IDC, 2020 年我国自动驾驶领域占 AI 基础数据服务市场规模的 35%,系第一大下游场景。另 据艾瑞咨询,2025 年我国自动驾驶 AI 基础数据服务市场规模或达 24.9 亿元,预计 18~25 年 CAGR 高达 23.2%,跑赢 AI 基础数据服务整体增速 21.8%。

4. 国内市场集中度趋势性收敛,海天瑞声具备领先优势

4.1 发展趋势:品牌商价值效应凸显,国内市场集中度持续收敛

品牌数据服务商未来将替代中小型供应商成为市场主要供应力量。我国 AI 基础数据服务 行业主要市场主体包括需求方自建基础数据团队与基础数据服务商(品牌数据服务商、中 小数据服务商)。截至 2019 年,中小数据供应商是主要供应力量,占比高达 47%。其中 百度众包、海天瑞声分居 top2,占比分别为 11.0%、8.0%,2019 年行业 CR5 仅为 26.2%。 结合本文 1.2 部分分析可知,近年间需求端垂直场景及专业化需求凸显,业务门槛提高; 供给端竞争加剧挤压中低端业务利润空间,加速市场出清。预计当前我国 AI 基础数据服 务行业市场主要以品牌数据供应商与需求方自建团队为主,行业龙头逐渐浮出水面,中小 供应商份额显著下降。


业内品牌数据商包括海外巨头 Appen、国内领军厂商海天瑞声、慧听数据、标贝科技等:

Appen:1996 年成立于澳大利亚,面向机器学习和人工智能开发的高质量人工标注 数据集,于 2015 年 1 月于澳大利亚证券交易所上市。Appen 在采集并丰富语音、文 字、图像和视频等各种数据类型上积累多年经验,与全球技术、汽车和电子商务公司, 以及政府部门建立了合作。

海天瑞声:成立于 2005 年,是国内领先的训练数据提供商。主要从事训练数据的研 发设计、生产及销售业务。目前已成为同时具备核心技术、产品资源、优质客户为一体的本土训练数据提供企业。核心收入来源为数据资源定制服务。

慧听科技:成立于 2011 年,业务包括语音识别、语音合成、语音评测、语言文本类、 多媒体类等多领域数据制作,以及语音合成、语音识别、输入法系统的研发等。公司 提供服务涵盖语音训练数据制作、音乐数据制作标注、语音质量评测等,经营模式包 括定制开发和自有训练数据产品销售。

标贝科技:成立于 2016 年,主要提供智能语音交互相关服务,包括语音合成整体解 决方案,以及语音合成、语音识别、图像识别等数据服务,经营模式包括定制开发和 自有训练数据产品销售。

4.2 竞争格局:业内主要玩家发展各有侧重,Appen 及海天瑞声具备领先优势

据 IDC,2021 年海天瑞声在国内 AI 基础数据服务行业市占率高达 12.9%,位居第一。其 技术实力、语种/方言覆盖能力、专利及软著数量、成品训练集数量均位居行业前列。相 比之下,Appen 在覆盖区域、语种/方言覆盖能力等方面更具优势。慧听科技与标贝科技 则在音乐领域具备差异化业务覆盖能力。

在语音类数据产品中,海天瑞声在结构方面的差异主要体现在覆盖的噪声类型、录音通道 数量、录音文本内容类型等方面。相比之下,海天瑞声的训练数据产品结构整体而言可覆 盖更丰富的录音文本内容类型、噪音环境类型、录音通道数量,Appen 则在稀有语言覆 盖数量上更胜一筹。

在自然语言训练数据产品中,不同自然语言训练数据产品的结构差异主要体现在文本来源、 内容、标注属性等方面。Appen 具备更为丰富的产品数量与更为全面的语言覆盖能力, 海天瑞声在上述指标上紧随其后。


在计算机视觉训练数据产品中,海天瑞声在结构方面的差异主要体现在人像识别检测相关 数据产品领域。主要玩家均可覆盖不同类型的人脸、姿势、场景等,因计算机视觉数据产 品个性化特征较强,各类训练数据产品在具体的人脸类型、姿势范围、场景等方面具备一 定差异。与 Appen 相比,海天瑞声的 OCR 训练数据产品可覆盖更多语种的光学字符识 别需要,具备广泛性、强适用性特征。

4.3 他山之石:Appen 发展复盘,全球 AI 基础数据服务巨头的崛起之路

Appen 系 AI 基础数据服务行业全球巨头,经历爆发式成长后收入利润短期双双回落。 Appen 成立于 1996 年,面向机器学习和人工智能开发的高质量人工标注数据集,于 2015 年于澳大利亚证券交易所上市。2015~2019 年,公司经历了爆发式成长期,营收增速一 度冲高至 100%以上,同期净利率接近 10%。2020~2022 年,受到全球疫情及公司内生 发展阶段调整影响,2022 年公司营收规模相较 2021 年回落 13.1%,净利率由 9.1%回落 至 5.9%。

Appen 业务类型齐全,客户质量较高。Appen 主要业务类型包括数据采集、数据预处理 与模型评价三大类。其中,数据采集环节基于公司预先标记完备的海量数据集为下游客户 提供大量其所需的高质量数据,数据集语种覆盖范围领先优势较大。数据预处理环节,公 司具备全类型数据标注能力。模型评价环节,公司通过用户测试及针对客户竞争对手的性 能基准测试,诊断模型潜在问题,并为此提供能够优化模型的训练数据。公司主要客户质 量较高,包括 Google、Amazon、Microsoft 等知名 IT 巨头。

Appen 位居同业员工量能及数据标注技术前列。全球范围来看,Appen 位居全球 AI 基础 数据服务行业收入体量首位。其员工量能(数量及质量)与数据标注技术领先程度均位居 行业头部,紧随之后的是 Telus 和 Lionbrigde。以数据堂、海天瑞声为代表的国内头部厂 商距离 Appen 等海外大厂仍存在一定差距。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。

展开阅读全文

页面更新:2024-03-13

标签:场景   需求   基础   数据   服务行业   模型   阶段   领域   产业   国内   全球

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top