Chatgpt:或将引爆人工智能主题投资!

一、新闻爆款现象,预计持续吸引眼球

1、惊艳出世

2022/12/1,OpenAI 发布了 NLP(自然语言识别)新模型 ChatGPT,一经面世就引发科技界的巨大关注。该模型是 OpenAI 基于先前推出的 NLP 预训练模型 GPT-3.5 之上的衍生产品,利用AzureAI 超级计算基础设施、通过有人类反馈的加强学习方法训练而成。ChatGPT,从其名字就可知,这是一个对话式的 AI 模型(chat 在英文中是聊天之意),使用简单,只需向 ChatGPT 文字提出需求即可。ChatGPT 可完成回答问题、书写代码、写诗、写小说等,对完成用户指令的响应度远强于两代前的 GPT-3。马斯克在推特上评价 ChatGPT 称:“ChatGPT 好得惊人。我们离强得可怕的 AI 不远了。”


相比过去的人机对话模型,ChatGPT 表现显著更优,能给出更具体的回答,并且可以直接完成详细指令,甚至主动驳回一些危险提问。ChatGPT 模型比以往的人机对话模型(例如 GPT3等)更强大,例如,其敢于质疑不正确的前提和假设、主动承认错误以及一些无法回答的问题、主动给拒绝不合理的问题、提升了对用户意图的理解以及结果的准确性。与之前的 GPT3 不过,相比于此前海量学习数据进行训练,ChatGPT 中,人对结果的反馈成为了 AI 学习过程中的一部分。除此之外,ChatGPT 甚至会主动驳回一些危险提问,例如:如果提问“如何霸凌 John”,上一代的模型 InstructGPT 会给出几种方法作为解答,而 ChatGPT 给出的答案则是“霸凌是不对的”。

2、搅动风云

2.1·“美版今日头条”buzzfeed跳涨3倍

新媒体网站Buzzfeed基于ChatGPT乃至OpenAI的大光环,咸鱼翻身,股价直接跳涨了三倍!起因仅仅是Buzzfeed宣布将用OpenAI提供的人工智能API——甚至不是被一些媒体误传的ChatGPT本身——来协助创作一些内容。


BuzzFeed 首席执行官乔纳·佩雷蒂(Jonah Peretti)在一封备忘录中表示:“到 2023 年,你会看到我们会把还在研发阶段的人工智能的内容,转变为我们核心业务的一部分,从而增强Quiz(测验)体验,为我们的头脑创意提供信息,并为我们的受众提供个性化的内容。”

相较于常规新闻网站,面向年轻人的Buzzfeed,就是以网络上各种测试知名,包括“测测你是迪士尼里的哪位公主”,“复仇者联盟里的哪位超级英雄最适合做的你的男朋友”之类。

而它此次和OpenAI的合作,就将主要应用在这类“快餐”内容的生产上。具体来说,BuzzFeed将会用OpenAI的人工智能技术,帮助生成网站上相关的测试问题,从而帮助绞尽脑汁的编辑来找到更好的创意。

一位发言人表示,BuzzFeed 目前不会使用人工智能来帮助撰写新闻报道。

2.2 考试达人

在沃顿商学院的商业管理课程考试中,ChatGPT表现更好,获得了B到B-的成绩。沃顿商学院教授克里斯蒂安·特维施(Christian Terwiesch)表示,ChatGPT在回答基本的运营管理和流程分析问题方面做得“非常出色”,但在处理更高级的提示时表现不佳,并在基础数学方面犯了“令人惊讶的错误”,有些错误甚至仅仅是小学数学的水平。


2.3 公司估值290亿美金

根据华尔街日报 1 月 6 报道,爆红的聊天机器人 ChatGPT 背后的研究实验室OpenAI 正在谈判以收购要约的形式出售现有股份,交易对该公司的估值达到 290亿美元左右,使其在没有什么收入的情况下成为账面上最值钱的美国初创公司之一,成为 AI 时代资本定价的标杆事件。


3、GPT4.0或2月面试

生成式预训练模型GPT-4预计将于2022年12月至2023年2月发布。

GPT-4相比于当前的文本模型会有大幅改进:

• 图灵测试:此前一些AI模型仅部分能力通过图灵测试,而GPT-4有望完全通过图灵测试;


• 成本下降:通常模型训练成本随着模型规模提升而提升,但GPT-4的训练成本或显著低于GPT-3,控制在100万美元的范围内,从而降低AI技术的使用门槛。


猜测:GPT-4或不再以“大”取胜,数据在精不在多,依靠提高模型效率和数据质量达成改进。

GPT-4的推出对商业应用的潜在影响:

1)模型能够生成更有“温度”的文字,对应AI客服、AI心理咨询、营销文本等场景;

2)模型能够生成更加“专业”的文字,对应金融、医学、新闻、工业等垂直行业应用。


二、商业应用潜力无限

1、近日,OpenAI发布了ChatGPT的付费版——「ChatGPT Pro」,每月42美元(约285人民币)。


2、ChatGPT 或将加入 Word、PPT 和 Excel。微软计划在 Word、PowerPoint、Outlook 等软件中,悉数加入 ChatGPT 等 AI。

3、微软或将ChatGPT应用于Bing,有望带来搜索引擎革新。据外媒TheInformation报道显示,微软可能会在2023年3月之前在Bing中应用ChatGPT,用人工智能来回答一些搜索查询。若Bing引入ChapGPT,有望以完整句子的形式呈现搜索结果,这一举措或将改变搜索引擎的运行模式,革新性地提升搜索引擎效率。

据 statcounter,2022-2023 年,谷歌搜索引擎市场占比为 92.08%,Bing 排名第二仅为 3.19%,考虑到微软与 ChatGPT 母公司 OpenAI 已有对话式编程工具 Copilot 的成果合作案例,将 Bing 集成 ChatGPT 预期进展顺利,Bing市场份额提升机会较大。谷歌当前已经开启“内部红色警戒”,围绕 ChatGPT 全面调整明年在 AI 领域的工作,足见ChatGPT 类生成式 AI 对搜索引擎市场的颠覆程度。

相比传统的搜索引擎根据用户提问,从而提供数千万个相关链接索引,ChatGPT 直接提供自己的搜索和信息综合的单一答案,让用户省去反复点击链接找寻答案的复杂度。若能过实现落地应用,ChatGPT 会面向传统搜索引擎发起挑战。

不过,ChatGPT 在搜索引擎领域的应用当前仍具有几大悬而未决的掣肘:

1)真实性无法保证。在学术、科研等严谨的应用场景中,ChatGPT 提供的答案并不一定都是正确的。解决 ChatGPT 输出的真实性将会是一项重大的挑战,由于 ChatGPT 只提供纯文本,不引用实际网站,目前并没有办法从 ChatGPT 的输出中分辨真伪,除非用其他来源(如 Google)来验证答案。

2)信息的实时性难以保证。搜索引擎的索引其实可以实时更新,也更为方便快捷一些,但对于大型语言模型而言,添加新的内容需要重新训练模型,成本昂贵。据外媒报道,基于 GPT3.5,ChatGPT 可能至少有 1750 亿个参数。由于没有可以适合该模型的单个硬件,因此必须将其分解并分布在多个处理器上,例如 A100GPU。设置和并行化这些处理器以训练和运行模型既是技术挑战,也是财务挑战。

3)商业模式问题。目前,ChatGPT 还处于测试阶段,并没有落地的商业模式。不过此前据 TechCrunch 估计,拥有 100 万用户的 ChatGPT 每天花费 100,000 美元,每月花费约300 万美元。若应用于 Bing 后经历高频度的搜索查询,商业运营成本极高。

其他:



三、技术原理

ChatGPT 的工作原理是使用人类反馈强化学习(RLHF)的训练方法,以最小化无益、失真或偏见的输出。该方法总体上包括三个步骤:

1)有监督的调优:预训练的语言模型在少量已标注的数据上进行调优,以学习从给定的 prompt 列表生成输出的有监督的策略(Supervised Fine-Tuning,SFT);

2)模拟人类偏好:标注者们对相对大量的 SFT 模型输出进行投票,创建一个由比较数据组成的新数据集,在此数据集上训练新模型,被称为训练回报模型(Reward Model,RM);

3)近端策略优化(Proximal Policy Optimization, PPO):RM 模型用于进一步调优和改进 SFT 模型,PPO 输出结果是策略模式。


ChatGPT 是从 GPT3.5 系列中的模型进行微调而诞生,此前 OpenAI 还设计了 GPT-1、GPT-2 和 GPT-3 模型。

1)GPT-1:无监督学习

2)GPT-2:多任务学习

3)GPT-3:海量参数

4)ChatGPT:人工标注数据+强化学习


深度学习的三要素包括算法、数据和算力,本文主要对算法的演进历程进行了回顾,认为深度学习底层算法被统一为 Transformer 之后发展放缓;而算法的行业落地应用、大数据的生成与处理、高算力芯片成为重点发展方向。

深度学习时代的开启依托于 2011 年 Relu 激活函数被提出、梯度消失问题被大幅缓解,此后深度学习算法和应用的发展均突飞猛进。最初卷积神经网络(CNN)通过对高层次特征的提取和压缩,擅长图像分类等任务;循环神经网络(RNN)通过对时序信息的提取,擅长文字、语音识别和理解等任务。2017 年 Transformer 的提出让深度学习进入了大模型时代、2020 年 Vision Transformer 的提出让深度学习进入了多模态时代。由于 Transformer 在大数据并行计算方面具备优势,且训练数据增长后对模型精度提升明显,自此各模态和各任务底层算法被统一为 Transformer 架构。

如 OpenAI 在多模态主干网络 CLIP 的基础上引入扩散模型,即训练出能完成语义图像生成和编辑的 DALL·E2,引发AIGC 浪潮;在 GPT-3 模型基础上引入了人类反馈强化学习方法(RLHF),训练出 InstructGPT 模型,并据此发布了对话机器人 ChatGPT,引起了互联网用户的注意。但随着 Transformer 基本完成底层算法统一之后,整个行业底层算法发展速度开始放缓,静待骨干网络的下一次突破。同时基于Transformer 对大数据的需求,催生了无监督学习、高算力芯片的发展。


2020 年,Google 提出 Vision Transformer(ViT)以解决计算机视觉问题,这标志着自然语言处理、计算机视觉两个最重要的深度学习领域实现了底层算法的统一。ViT 的核心思想是把图像当作文本处理,即将完整的图像划分为若干各个小块,把各个小块视为词语,把各个小块构成的完整图像视为语句,在此基础之上进行神经网络训练。

2021 年 1 月,OpenAI发布了图像和文本并行的大规模多模态模型 CLIP,该模型在超过 4 亿的图像-文本对上进行训练,优点在于使神经网络不仅关注特征之间的空间联系,而且还会关注特征之间的语义联系,使得神经网络对图像的理解能力迈向新高度。

据 Alchemy API、Lambda Labs 估计,不计前期训练成本,GPT-3 最终训练成本约 460-1200 万美元。Eleuther AI(致力于开源大模型的组织)在 22年推出的200亿参数GPT-NeoX-20B中使用96块A100芯片训练了三个月,据 The Next Platfrom 估计,最终一次训练成本大约 53-66 万美元。大模型研发逐渐成为资本和数据密集的业态。美国目前主要大模型包括 OpenAI 的GPT-3、英伟达与微软的 Megatron Turing-NLG、Meta 的 OPT 等。中国主要大模型包括百度文心 Ernie、华为盘古、商汤视觉模型等。今年 8 月以来,美国限制对华出口 A100 等高端 GPU,或影响中国大模型发展速度。


四、投资机会

ChatGPT聊天机器人概念股

大数据训练:

1.海天瑞声:这个公司生成的训练数据主要覆盖智能语言、计算机视觉和自然语言处理三大领域。

2.汉王科技:积极与武汉大学自然语言处理团队合作,该公司是人工智能领域的先行者,是数字产业化的参与方,利用业内领先的文本图像识别、自然语言处理、生物特征识别、智能视频分析、智能人机交互核心底层技术为行业客户的数字化、智能化提供数据要素。

3.科大讯飞:超大规模预训练模型是当前人工智能领域内的一个研究热点,国内外众多知名研究机构例如谷歌、微软、阿里、华为等纷纷跟进。科大讯飞同样针对这项技术在人工智能应用中进行了深入研究与探索。

聊天机器人业务:

1.科大国创:这个公司是做软件开发的,有聊天机器人系统。

2.福石控股:购买了资产快友世科技,AI智能客服平台以5G消息为承载,打造Chatbot平台,为企业客户提供AI智能聊天机器人。

3.高伟达:中国领先的金融信息化软件产品和综合服务提供商之一,在智能客服领域,聊天机器人正广泛应用在一些创新性的银行及泛金融机构。

4.神州数码:Jarvis帮助客户快速搭建自己的聊天机器人。

5.神州泰岳:铲哥发现这个公司有个叫鼎富智能的在线客服产品,主要聚焦人工智能自然语言处理方向,并将该技术结合不同的业务领域进行应用落地,目前不具备计算机视觉相关技术。

6.天源迪科:智能语音对话机器人分为开放领域对话系统和任务型对话系统两大类,天源迪科目前研发的是智能任务型对话系统,面向特定任务,比如银行电话客服,属于特定任务的人机交互,还不满足开放域的人机对话需求,比如人形机器人对话。

7.光云科技:AI技术已经在电商运营的多个领域落地并稳健发展,快麦小智是基于自然语言交互和个性化推荐技术搭建的对话式营销服务一体化智能客服机器人,已与周大福、九阳、宜婴等品牌达成合作。此外,公司参股的杭州实在智能科技有限公司聚焦大规模复杂工序流程的智能决策领域,通过AI+RPA技术打造广泛应用于各行业的智能软件机器人,即“数字员工”,助力银行、保险、电商客户提质、降本、增效


1、NLP语义处理

ChatGPT所基于的自然语言处理是AI的核心课题之一。自然语言处理(NLP,Natural language processing)主要包括自然语言理解类任务和自然语言生成类任务,其使得计算机可以理解和反馈自然语言;在NLP发展之前,人类只能通过固定模式的指令来与计算机沟通。自然语言处理(NLP)是研究人与计算机交互中的语义理解问题的技术,解决的是人机交互中“听得懂”的问题。是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。


当前国内领先的对话交互类AI算法企业主要包括两类:

– 以语音识别为核心业务的企业,延生到NLP领域,如科大讯飞,从语音识别延生到语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等算法,并在消费者、智慧教育、智慧城市、智慧司法、智能服务、智能汽车、智慧医疗、运营商等领域实现深度应用。

– 以NLP为核心业务,专注语义识别的企业,如拓尔思。拓尔思是国内最早从事自然语言处理(NLP)研发的企业之一,在语义智能领域具备自主可控的底层技术,可以提供预训练模型和阅读理解等技术成果。

2、人工智能公司

港股商汤-W,A股云从科技

3、标注数据集

海天瑞声

4、AI关联

法本信息、华宇软件


其他市面挖票:



补充资料:

OpenAI是ChatGPT的源头公司,公司主要历史如下:

– 2015年,马斯克和Sam Altman等人共同创立了OpenAI nonprofit,使命为确保通用人工智能(Artificial General Intelligence, AGI),即一种高度自主且在大多数具有经济价值的工作上超越人类的系统,将为全人类带来福祉。

– 2018年,由于特斯拉和AI技术的关联越来越深、外界越发担忧特斯拉将运用OpenAI的技术实现系统和产品升级,马斯克于2018年离开OpenAI的董事会,转变为赞助者和顾问。

– 2019年,在训练模型的高成本压力下,OpenAI划分出有利润上限的盈利性组织OpenAI LP。紧随其后,微软宣布为OpenAI注资10亿美元,并获得了将OpenAI部分AI技术商业化、赋能产品的许可,后续微软可能会将OpenAI的技术与搜索引擎、办公软件等相整合。


OpenAI 2022年营业收入约8000万美元,且据OpenAI预测,2023、2024年营业收入将分别达到2亿和10亿。(路透社)

• 目前,OpenAI董事会由董事长兼总裁Greg Brockman、首席科学家Ilya Sutskever和首席执行官Sam Altman等人组成。其中,首席科学家Ilya Sutskever是AI领域全球最有影响力的学者之一,文献引用量高达36万,单篇最高引用量12万,主导或参与了AlexNet,AlphaGo,GPT、CLIP、DALL-E和Codex的研发。

• OpenAI主要投资者包括微软、Reid Hoffman’s charitable foundation和Khosla Ventures。路透社称,微软希望向OpenAI追加投资100亿美元,如谈判达成,微软将持有OpenAI 49%的股权,OpenAI的非营利性母公司持有2%,其余投资者持有剩余49%。

展开阅读全文

页面更新:2024-03-21

标签:人工智能   自然语言   微软   机器人   算法   模型   领域   智能   主题   数据   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top