并购优塾 人工智能系列,NLP自然语言处理产业链跟踪梳理笔记

微信公众号:并购优塾(moneyC2C)首发,更多文章可微信关注我们的公众号:并购优塾产业链地图

微软曾表示“自然语言是人工智能皇冠上的明珠”。

自然语言处理(NLP,Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向,它是用计算机来处理、理解以及运用人类各种语言,又常被称为计算语言学。语言是人类区别于其他动物的重要标志。没有语言,人类的思维也就无从谈起,因此,自然语言处理一定程度上决定了人工智能的高度和境界。

12月1日,美国人工智能研究公司OpenAI推出人工智能聊天原型Chat-GPT,上线五天全球用户数量已突破百万,赚足了眼球。ChatGPT是一种专注于对话生成的语言模型,它能够根据用户的文本输入,产生相应的智能回答,主要运用的技术就是NLP。有人将ChatGPT比喻为“搜索引擎+社交软件”的结合体,能够在实时互动的过程中获得问题的合理答案。

那么,国内在NLP领域的研究进度和商业化情况如何?有哪些参与者?行业竞争的重点和难点在哪里?

带着这些问题,我们来看NLP这条产业链。

这条产业链各环节,包括:

1)上游:基础层——包括数据处理(数据清洗、标注、整理及分类)、算力基础设施(主要为GPU芯片、AI定制芯片,以及相关传感器等)。芯片代表厂商有英伟达、高通(GPU)、英特尔(FPGA)、谷歌、寒武纪等;云计算服务商代表有微软、亚马逊、阿里巴巴、百度等;

可运用于自然语言处理训练的数据集不断丰富,多数是由学术及研究机构承担建设的公共数据集,比如维基百科语料库、斯坦福大学问答数据集等。

2)中游:技术层——在数据及算力的基础上,进行相关算法研发,满足基础技术需求。按照细分场景,可分为:计算机视觉、语音识别、自然语言处理等领域,分别对应人类的视觉、听觉和阅读能力。

3)下游:各行业应用场景——是将技术层的基础技术与具体场景需求相融合,以解决实际的问题(如帮助企业提升运营效率或优化用户体验,帮助公安部门实现摄像头自动识别等)。具体包括:教育、医疗、安防、娱乐、汽车(自动驾驶)、智慧城市、工业自动化、企业数字化等具体场景。

图:产业链结构

来源:并购优塾

从产业链上的参与者近期的增长情况来看:

1)科大讯飞(安徽,合肥)——2022年三季报,实现营业收入126.6亿元,同比增长16.5%;实现归母净利润4.2亿元,同比增长-42.33%。

2)拓尔思(北京市)——2022年三季报,实现营业收入6.37亿元,同比增长4.95%;实现归母净利润1.04亿元,同比增长4.49%。

从机构对产业链景气度的预期情况来看:

图:机构一致预期

来源:Wind

(一)

我们先看各家的收入结构(2021年年报)。从收入总额来看:科大讯飞(183.14亿元)> 拓尔思(10.3亿元)。

一、科大讯飞——2021年,收入183.14亿元,其中34.03%来自教育领域(62.32亿元),22.14%来自智慧城市(40.55亿元),33.2%来自开放平台及消费者业务(60.81亿元),2.45%来自汽车领域(4.49亿元),5.01%来自政法业务(9.18亿元),1.07%来自智能服务(1.97亿元)。

图:科大讯飞收入结构

来源:并购优塾

科大讯飞的主要服务场景包括教育领域、消费者业务和智能开放平台。智能语音产品及服务包括听见会议系统及APP,讯飞输入法等。

图:科大讯飞业务全景图

来源:信达证券

二、拓尔思——2021年,收入10.3亿元,50.13%来自数据、软件及服务(5.16亿元),17.56%来自人工智能产品(1.81亿元),13.86%来自软件销售(1.43亿元),18.45%来自其他业务(1.9亿元)。

拓尔思前身易宝北信成立于1993年,由中国香港易宝、北信工程(北京信息科技大学)合资创办,根据客户需求提供大数据分析、门户网站搜索、舆情服务等,主要客户为各级机关、媒体等。具体来看:

图:拓尔思收入结构

来源:并购优塾

1)人工智能产品及服务:专注语义智能识别(NLP)领域,比如:利用自然语言处理技术加速处理开源情报中不断增长的非结构化文本,利用人工智能等新兴技术识别开源情报中的伪造信息以确保数据和情报的真实性等。当前,其主要为防务、公安、政务、金融场景下的终端用户提供AI相关服务。

2)大数据产品及服务业务:主要为金融、制造、能源等企业客户,机关,互联网和传媒出版等主要行业提供大数据产品及服务(大数据管理系统、网络信息雷达系统、智能媒体融合平台、专利和知识产权数据库等)。

从数据资源化的角度,其具备完全自主研发的大数据基础平台,可提供采集、清洗、标注、管理等完整的数据闭环服务,具体产品包括海蜘分布式采集系统、海汇社交视频采集系统、海聚数据融合系统、海贝搜索数据库等。

拥有来自境内外、各行各业的公开数据资产总量超1200亿,形成200多个行业知识库,并已具备数千亿数据量的数据索引、标记、查询、挖掘分析能力,日均亿级数据获取能力。

3)数据安全领域:子公司天行网安主要提供数据安全传输、交换产品及服务。

图:拓尔思产品矩阵

来源:年报

从商业模式来看,科大讯飞和拓尔思均具备TO G属性(科大讯飞属于TO G+TO C属性)。而从AI相关业务类型来看,二者主营业务有所差异,科大讯飞以智能语音业务为主,而拓尔思以AI(NLP)+大数据服务业务为主。

对相关的智能语音产业链,前段时间我们做过研究,详见优塾产业链报告库(扫描文末二维码可订阅)。

(二)

理清了业务构成,我们再来看过去10个季度的利润增长情况。


图:归母净利润增长(%)

来源:并购优塾

1)科大讯飞在2020Q1归母净利润大幅下滑,主要原因是卫生事件导致的市场销售以及现场交付工作限制,较大程度上延缓了一季度项目的实施、交付、验收等相关工作的进度,从而拖累了收入实现。

2)科大讯飞在2022上半年归母净利润大幅下滑,主要是其持有的三人行、寒武纪等资产波动导致公允价值变动收益较上年同期减2.73亿所致。

3)拓尔思2021年归母净利润下滑,主要受资产剥离影响。当年其收入不再包含成都子公司2020年的配套商业房产项目收入、和原控股子公司耐特康赛的互联网营销收入,收入同比下降21.44%,归母净利润2.45亿元,同比下降23%(不考虑资产剥离因素影响,主营业务利润实际同比增长33.28%)

然后,我们拉近视角,看看近期情况:

一、科大讯飞——2022年三季报,实现营业收入126.6亿元,同比增长16.5%;实现归母净利润4.2亿元,同比增长-42.33%。

2022年Q3,实现归母净利润1.42亿元,同比增长-54.17%,环比增长-15.03%。

图:近8个季度收入、利润增长情况

来源:并购优塾、Wind

归母净利润的下滑,主要由于持股的三人行、寒武纪等金融资产因股价波动导致公允价值变动收益金额减少所致。

2022年上半年数据来看,教育、政务、医疗场景是其业绩增长的主要驱动力,教育产品和服务实现营业收入22.05亿元,同比增长27.38%;医疗业务实现营业收入1.40亿元,同比增长 40.17%;数字机关行业应用实现营业收入4.44 亿元,同比增长66.01%。

二、拓尔思——2022年三季报,实现营业收入6.37亿元,同比增长4.95%;实现归母净利润1.04亿元,同比增长4.49%。2022年Q3,实现归母净利润0.29亿元,同比增长-34.56%,环比增长-45.71%。

收入增长缓慢,主要是主业大数据软件产品及服务受卫生事件等因素影响,项目交付推迟,收入下滑;但是,其基于语义智能的人工智能软件产品和服务收入同比增长88.99%,占总收入比重达19.81%。

利润下降,主要是可转债利息增加,且研发费用等增加。

图:近8个季度收入、利润增长情况

来源:并购优塾、Wind

2022年上半年,拓尔思与知识产权出版社签订《战略合作协议》,依托公司在AI、大数据、搜索引擎等领域的先进技术,以及知识产权出版社在专利信息服务应用场景及专利大数据等方面优势,拓展专利智能检索、专利分析、生物多样性基因库建设、国家十大战略行业知识产权数据库、能源和金融等领域。

综合来看,由于二者业务类型差异较大,导致收入增长的驱动力有所不同。科大讯飞主要受下游教育、智慧城市(政务)等场景驱动,而拓尔思主要由下游G端客户对于大数据服务、NLP技术需求驱动。

(三)

接下来,我们看一下各家现金流质量。

一、净现比:

两家净现比都比较高,拓尔思2020年净现比下降,主要是当年确认成都子公司西部总部基地配套商业用房销售净利,预收款减少。

图:净现比

来源:并购优塾

二、CAPEX与经营活动现金流量净额:二者近几年的经营活动现金流整体基本覆盖CAPEX。

图:经营活动现金流VS CAPEX

来源:并购优塾

(四)

看完各家的增长趋势之后,我们来看他们的利润率及费用率情况。

一、毛利率:

受主营业务差异影响,二者毛利率差异较大。其中,拓尔思(语义智能,大数据)的毛利率在55%-65%之间,而科大讯飞(以语音智能为主,包含语义智能、计算机视觉、以及录音笔、翻译笔、学习机等硬件产品)毛利率在45%左右。

2021年以来,拓尔思的毛利率有所抬升,主要原因是毛利率较高的人工智能及软件相关业务收入占比提升所致(毛利率73.75%,同比增长51.95%)


图:毛利率对比

来源:并购优塾

二、净利率:

二者净利率水平主要由毛利率水平所决定。拓尔思净利率水平波动较大,主要由于其业务2G属性较强,收入主要集中在四季度确认,而费用端开支较为刚性。

图:净利率对比

来源:并购优塾

二、期间费用率:

科大讯飞在研发投入(研发费用率)方面力度高于拓尔思。其财务费用率在2021年下半年上升较快,主要由于利息支出的提升(短期借款、应付债券占比提升),并且利息收入下降。

图:期间费用率对比

来源:并购优塾

四、投资回报率:

2021年,二者ROE、ROIC水平接近。

拓尔思销售净利率较高,主要由于毛利率较高(NLP、大数据服务软件属性较强,叠加2G业务属性)。

科大讯飞总资产周转率较高,主要由于存货周转率较高,拓尔思有部分地产业务;此外,其应付款项占比较高,导致经营杠杆较高(权益乘数较高)

图:投资回报率对比

来源:并购优塾

接下来,我们来重点研究一下行业需求和空间。

(五)

由于行业无法拆分,我们主要采用增速法预测。

一、什么是自然语言处理?

自然语言处理,是通过构建算法使计算机自动分析、表征人类自然语言的学科。

从运行模式来看,自然语言处理,是计算机理解(理解自然语言文本的思想和意图)和生成自然语言(计算机用自然语言文本表述思想和意图)的过程,也就是让计算机具有识别、分析、理解和生成语言文本(包括字、词、句和篇章)的能力。

与语音识别领域通过声波形态的数据化转换成文字信息不同,人类的语言是一个复杂系统,不同情境下的不同词语可能对应着不同的含义,因此自然语言处理的任务往往涉及到语言的理解能力。

而语言理解,是一个递进的过程,从词法分析→句法分析→语义分析→语用语境分析,层层递进,因此,NLP技术复杂程度要高于智能语音领域。

二、NLP的需求及应用场景有哪些?

根据弗罗斯特沙利文数据,截至2018年,自然语言处理市场营收规模仅为20.6亿元人民币,预计2021年达到75.6亿元,但自然语言处理技术商业化仍不够成熟,部分已实现商业化应用的自然语言处理技术相关产品,主要依托于软硬件产品的商业场景而存在,比如智能家居设备、智能机器人、智能助手等。

随着AI产业的深入发展,自然语言处理需求不断提升,众多类型智能应用需要NLP技术来实现。其中:

1)文本领域——搜索引擎、信息检索、机器翻译、自动摘要、文本分类、意见挖掘、舆情分析、自动判卷系统、信息过滤和垃圾邮件处理等应用

以金融领域为例,资讯信息极为丰富(如涉及标的公司重大新闻、公告、财务状况,金融产品信息、宏观经济状况、政策法规变化、社交媒体评论等),数据量庞大,这种情况下,舆情分析应用可以对海量数据自动摘要、归纳、缩简和抽取,为投研人员提供高效的信息展示。

在法律领域,自然语言处理应用可帮助法律从业人员进行案例搜索、判决预测、法律文书自动生成、法律文本翻译等,实现事件预处理,缩短案件处理时间。医疗领域,病历的辅助录入、医学资料的检索与分析、辅助诊断等医疗步骤可由相关自然语言处理应用辅助进行。

2)语音领域——语音助手、智能客服、聊天机器人、自动问答、智能解说和智能远程教学与答疑等应用,均需自然语言处理技术理解或生成自然语言

随着智能设备数量增长以及行业智能化业务处理水平要求的提高,自然语言处理市场有望得到进一步拓展,自然语言处理市场营收规模有望在2019-2023年间以48.2%的年复合增速实现快速增长,达到150.7亿元。

图:自然语言处理市场规模 来源:头豹研究院

但是,注意,从现有的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然需要更长期的努力,从而进一步打开更大的应用场景。

我们接下来从Chat-CPT来看较先进的自然语言处理技术,有哪些进步和亮点。

(六)

图:早期的Transformer模型

Chat-GPT由硅谷的初创公司OpenAI推出,OpenAI是一家具备实验室性质的半盈利组织,2015年由埃隆马斯克、美国创业孵化器Y-Combinator总裁阿尔特曼、PayPal联合创始人彼得·蒂尔等硅谷大佬创立,核心宗旨在于“实现安全的通用人工智能,使其有益于人类发展”。

OpenAI团队由300个来自计算机、数学、生物学、神经科学、化学、心理学等不同学科背景的研究者组成,跨学科的开放属性有利于基础理论模型的创新,而其非盈利属性(商业化压力相对较小),使得其有长期投入、和广泛试错的资本。

12月2日,Chat-GPT聊天机器人上线,五天内用户即突破100万,受到了广泛的关注。它既能完成包括写代码,修改bug,翻译文献,写小说,写商业文案,创作菜谱,做作业,评价作业等一系列常见文字和智力输出型任务,而且在和用户对话时,能记住对话的上下文,反应非常逼真。总而言之,它兼具兼具理解力、创造力和记忆力,凭实力出圈。

Chat-GPT,是将Instruct GPT模型(GPT-3.5)经过微调后开发出来的对话界面,由OpenAI在2022年神经信息处理系统大会会议期间在社交网络上公布。从GPT模型的技术迭代历程来看:模型能力的提高,与参数量、预训练数据量直接相关。

接下来,对Chat-GPT的迭代过程,NLP行业的核心增长驱动力,以及关键竞争要素,我们挨个来拆解:

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

以上,仅为本报告部分内容,保留一半内容,以供试读。

如需获取本文全文,以及其他更多内容,请订阅 :产业链尊享版产业链报告、专业版报告库、科技版报告库、。订阅咨询可添加微信:bgys2020

一分耕耘一分收获,只有厚积薄发的硬核分析,才能在关键时刻洞见未来。

【版权、内容与免责声明】1)版权:版权所有,违者必究,未经许可不得翻版、摘编、拷贝、复制、传播。2)尊重原创:如有引用未标注来源,请联系我们,我们会删除、更正相关内容。3)内容:我们只做产业研究,以服务于实体经济建设和科技发展为宗旨,本文基于各产业内公众公司属性,据其法定义务内向公众公开披露之财报、审计、公告等信息整理,不采纳非公开信息,不为未来变化背书,不支持任何形式决策依据,不提供任何形式投资建议。我们力求信息准确,但不保证其完整性、准确性、及时性,亦不为任何个人决策和市场变化负责。内容仅服务于产业研究需求、学术讨论需求,不提供证券期货市场之信息,不服务于虚拟经济相关人士、证券期货市场相关人士,以及无信息甄别力之人士。如为相关人士,请务必取消对本号的关注,也请勿阅读本页任何内容。4)格式:我们仅在微信呈现部分内容,标题内容格式均自主决定,如有异议,请取消对本号的关注。5)主题:鉴于工作量巨大,仅覆盖部分产业,不保证您需要的行业都覆盖,也不接受任何形式私人咨询问答,请谅解。6)平台:内容以微信平台为唯一出口,不为任何其他平台负责,对仿冒、侵权平台,我们保留法律追诉权力。7)完整性:以上声明和本页内容以及本平台所有内容(包括但不限于文字、图片、图表)构成不可分割的部分,在未详细阅读并认可本声明所有条款的前提下,请勿对本页面以及本平台所有内容做任何形式的浏览、点击、转发、评论。

展开阅读全文

页面更新:2024-04-24

标签:自然语言   人工智能   产业链   毛利率   净利润   收入   来源   领域   智能   笔记   系列   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top