AIGC:智能创作时代

#头条创作挑战赛#

思维导图

代序 AIGC和智能数字化新时代

图0-1 内容生成的四个阶段


AIGC的核心技术价值是实现了“自然语言”与人工智能的融合


代表AIGC最新进展的是由OpenAI公司开发的ChatGPT(Chat Generative Pre-trained Transformer)。它完成了机器学习算法发展中,自然语言处理领域的历史性跨越,即通过大规模预训练模型,形成人工智能技术理解自然语言和文本生成能力,可以生成文字、语音、代码、图像、视频,且能完成脚本编写、文案撰写、翻译等任务


AIGC实现了机器学习的集大成。21世纪的机器学习演化到了深度学习(Deep learning)阶段。深度学习可以更有效地利用数据特征,形成深度学习算法,解决更为复杂的场景挑战。2014年生成对抗网络(GAN)的出现,加速了深度学习在AIGC领域的应用。


图0-2 机器学习常用算法


图0-3 人类生成内容向AIGC转换趋势

在自然语言处理(NLP)系统中,“Transformer”是一种融入注意力机制和神经网络模型领域的主流模型和关键技术。Transformer具有将所处理的任何文字和句子“向量”或者“矢量”化,最大限度反映精准意义的能力。


图0-4 多种重要、高效的Transformer的集合模型

021年8月,斯坦福大学联合众多学者撰写论文,将基于Transformer架构等的模型称为“基础模型”(Foundation model),也常译作大模型。Transformer推动了AI整个范式的转变(图0-5)。


图0-5 基础模型“Transformer”

AIGC形成的学习能力取决于参数的规模。GPT-2大约有15亿个参数,而GPT-3最大的模型有1 750亿个参数,上升了两个数量级。而且,它不仅参数规模更大,训练所需的数据也更多。根据媒体猜测但还未被证实的消息,GPT-4的参数可能将达到100万亿规模(图0-6)。


深度神经网络的学习能力和模型的参数规模呈正相关。人类的大脑皮层有140多亿个神经细胞,每个神经细胞又有3万多个突触。所以,大脑皮层的突触总数超过100万亿个。所谓的神经细胞就是通过这些突触相互建立联系。假设GPT-4实现100万亿参数规模,堪比人的大脑,意味着它达到与人类大脑神经触点规模的同等水平。


AIGC的算力需求呈现显著增长。数据、算法、算力是人工智能的稳定三要素。根据OpenAI分析,自2012年以来,6年间AI算力需求增长约30万倍(图0-7)。


图0-7 从AlexNet到AlphaGo Zero:30万倍的运算量增长

在可以预见的未来,在摩尔定律(Moore’s Law)已走向失效的情况下,AI模型所需算力被预测每100天翻一倍,也就是“5年后AI所需算力超100万倍”。造成这样需求的根本原因是AI的算力不再是传统算力,而是“智能算力”,是以多维度的“向量”集合作为算力基本单位。


AIGC的硬技术是AI芯片,而且是经过特殊设计和定制的AI芯片。AI芯片需要实现CPU、GPU、FPGA和DSP共存。随着AIGC的发展,计算技术的发展不再仅仅依靠通用芯片在制程工艺上的创新,而是结合多种创新方式,形成智能计算和计算智能技术。


满足日益巨大、复杂、多元的各种计算场景。其间,量子计算会得到突破性发展。


AIGC将为区块链、NFT、Web3.0和元宇宙带来深层改变。AIGC不可枯竭的创造资源和能力,将从根本上改变目前的NFT概念生态


没有悬念,在Web3.0的环境下,AIGC内容将出现指数级增长。


IGC领域正在加速形成三层产业生态并持续创新发展,正走向模型即服务(MaaS)的未来(图0-8)。


图0-8 AIGC产业生态

2B(to Business的简称)将是AIGC的主要商业模式,因为它有助于B端提高效率和降低成本,以填补数字鸿沟。


图0-9 AIGC产业规模生态分布

AIGC正在引领人类加速逼近“科技奇点”。现在,人工智能已经接管世界;世界正在经历一波人工智能驱动的全球思想、文化、经济、社会和政治的转型浪潮。AIGC呈现指数级的发展增速,开始重塑各个行业乃至全球的“数字化转型”

内容生产力大变革

第一节 从PGC、UGC到AIGC

生产力是推进社会变革的根本动力,而生产工具则是衡量生产力发展水平的客观尺度,也是划分经济时代的物质标志


表1-1 从PGC到UGC,再到AIGC的发展历程

20世纪90年代,伴随着万维网的诞生与推广,互联网领域迎来了投资创业的热潮,正式进入了Web1.0阶段


此时的互联网是静态互联网,大多数用户只能在网上浏览和读取信息,内容的创建与发布只掌握在极少数专家手中


PGC虽然具有高质量、易变现、针对性强等优势,但也存在着明显的不足。因为专业的质量要求往往导致这类内容创作门槛高、制作周期长,由此带来了产量不足、多样性有限的问题


21世纪初,众多社交媒体的出现迎合了这一需求,也宣告了互联网演化到了Web2.0形态——平台互联网。在Web2.0阶段,用户不仅是内容的消费者,也是内容的创作者,每一位用户的创造力都得到了前所未有的彰显


在用户创作时代,整个互联网的内容丰富度都大大提升。


UGC突出的内容优势也必然伴随着不可避免的痛点,极其丰富的内容背后存在着内容质量参差不齐的问题,平台方需要投入大量精力和成本去进行创作者教育、内容审核、版权把控等方面的工作。


但对于每个创作者个体而言,依然面临着内容质量、原创程度和更新频率的不可能三角,即上述三个方面不可能同时做到


完全由人工智能生成内容的创作形式被称为AIGC。正如人们最初眺望Web3.0时构想的“语义网”一样,未来的互联网应该是更加智能的互联网,它不仅能够读懂各种语义信息,还能从信息角度解放人类的生产力。


最初的AIGC通常基于小模型展开,这类模型一般需要特殊的标注数据训练,以解决特定的场景任务,通用性较差,很难被迁移,而且高度依赖人工调参。后来,这种形式的AIGC逐渐被基于大数据量、大参数量、强算法的大模型(Foundation Model)取代,这种形式的AIGC无须经过调整或只经过少量微调(Fine-tuning)就可以迁移到多种生成任务。


2022年下半年,两个重要事件激发了人们对AIGC的关注。2022年8月,美国科罗拉多州博览会上,数字艺术类冠军颁发给了由AI自动生成并经由Photoshop润色的画作《太空歌剧院》


2022年11月30日,OpenAI发布了名为ChatGPT的超级AI对话模型,再次引爆了人们对于AIGC的讨论热潮。ChatGPT不仅可以清晰地理解用户的问题,还能如同人类一般流畅地回答用户的问题,并完成一些复杂任务,包括按照特定文风撰写诗歌、假扮特定角色对话、修改错误代码等。


第二节 人工智能赋能内容创作的四大模态

2014年,在洛杉矶地震发生三分钟后,《洛杉矶时报》就立刻发表了一篇相关报道。《洛杉矶时报》之所以能够在这么短的时间内完成这一创作壮举,是因为公司早在2011年就开始研发名为Quakebot的自动化新闻生成机器人,它可以根据美国地质调查局产生的数据自动撰写文章


许多媒体机构已经开发了内部AI,比如英国广播公司(BBC)的“Juicer”、《华盛顿邮报》的“Heliograf”,而彭博社发布的内容有近三分之一是由一个叫“Cyborg”的系统生成的。


中国媒体在AI撰稿领域也有相关尝试。例如,2016年5月,四川绵阳发生4.3级地震时,中国地震台网开发的地震信息播报机器人在6秒内写出了560字的快速报道;2017年8月,当四川省阿坝州九寨沟县发生7.0级地震时,该机器人不仅翔实地撰写了有关地震发生地及周边的人口聚集情况、地形地貌特征、当地地震发生历史及发生时的天气情况等基本信息,还配有5张图片,全过程不超过25秒;在后续的余震报道中,该机器人的最快发布速度仅为5秒。


AI生成文本的未来:程序员、研究员、产品经理等涉及重复性工作的脑力劳动者可能都将被AI取代,这些职业可能都演变成了新的职业——提示词(Prompt)工程师,目的就是帮助人类更好地与AI互动。


现在流行的国外AI绘画工具Stable Diffusion、DALL·E 2、Midjourney等,以及国内AI绘画工具文心一格、意间AI绘画、AI Creator等,都会在创作时引导你输入“咒语”。如果你暂时缺乏灵感,有些平台也会提供“自动生成”选项,让AI帮你自主搭配,然后在其基础上进行你想要的修改


比如,我想得到一幅中国风的山水画,我可以这样输入提示词:水、林木、云雾、山石、溪流、山峦、霞光、水墨画、中国风、低饱和。AI成功读取了我的“咒语”,然后返回了我下面这幅画(图1-3)。


图1-3 中国山水画生成图像

想要CG(计算机动画)人物画,则可以加入代表性画师Artgerm、阮佳(Ruan Jia)的名字。为了方便读者直观地感受融入了特定风格生成画作的效果,我们利用Jasper.AI生成了具有张大千与梵高画风的画作(图1-4和图1-5)。


图1-4 “轻舟已过万重山”生成图像(张大千风格)

图1-5 “手捧玫瑰花的少女”生成图像(梵高风格)

AI的能力超乎你的想象,除了一键构图与风格调整,它甚至可以辨别2D与3D,满足用户的精细化定制需求。例如,当我们想在人物画上生成小狗时,DALL·E 2会把小狗画入画中,如图1-6所示。


图1-6 AI生成画中的二次元小狗

而当我们想要把一只3D小狗画在座位上的时候,DALL·E 2便生成了一只真实的、三次元的小狗,如图1-7所示。


图1-7 AI生成座位上的三次元小狗

AIGC技术思想

第一节 前AIGC时代的技术奠基

机器学习模型的训练过程可以分为以下四步。

  1. 数据获取:为机器提供用于学习的数据。
  2. 特征工程:提取出数据中的有效特征,并进行必要的转换。
  3. 模型训练:学习数据,并根据算法生成模型。
  4. 评估与应用:将训练好的模型应用在需要执行的任务上并评估其表现,如果取得了令人满意的效果就可以投入应用。


图2-3 简化版感知器结构示意图

老师把课程评价的考查维度划分为态度得分、能力得分、创新得分,这三个分数会根据前面的两次作业、一次考试以及两次报告进行特定的处理得出,而这三个分数经过特定计算后会输出为课程的结果


实际上这个中间的过程是由隐藏层自行决定节点是什么样子的(图2-4)。


图2-4 简化的人工神经网络结构示意图

如果在数据上存在误差,就相当于造成了损失,输出每个样本数据损失的函数叫作损失函数(Loss Function)。而所有的损失综合在一起的平均情况,会反应在代价函数(Cost Function)里,描述训练这一个模型产生的错误代价。


区别于监督学习和无监督学习,强化学习并不是要对数据本身进行学习,而是在给定的数据环境下,让智能体学习如何选择一系列行动,来达成长期累计收益最大化的目标。强化学习本质上学习的是一套决策系统而非数据本身


表2-1 监督学习、无监督学习和强化学习对比

图2-5 强化学习构成元素及其关系

整个强化学习的过程,是为了学到好的策略(Policy),本质上就是学习在某个状态下应该选择什么样的行动,在刚刚的例子中就相当于马里奥的通关秘籍,输入马里奥每次的状态,秘籍会输出告诉你马里奥应该采取的行动,如此循环往复就能通关。


强化学习就是让人工智能通过不断的学习试错,找到合适的策略去选择一系列行动,来达成目标


强化学习算法的工作过程。 ·观测环境,获取环境的状态并确定可以做出的行动:马里奥目前在一个悬崖边上,系统读取了所有元素的状态,马里奥可以左右移动或者跳起。 ·根据策略准则,选择行动:策略里面显示,这种状态下左右移动和跳起的价值差不多,在差不多的情况下,马里奥应该向右走。 ·执行行动:马里奥在人工智能的指挥下向右走。 ·获得奖励或惩罚:马里奥掉下了悬崖,游戏失败,被扣除一定的奖励。 ·学习过去的经验,更新策略:在这个悬崖边向右走的价值较低,获得奖励的概率更低,人工智能知道后应该倾向于操作马里奥跳起或左走。 ·重复上述过程直到找到一个满意的最优策略。


强化学习其实可以看作一个从试错到反馈的过程,通过不断地试错,来找到一个合适的策略


机器需要学习的并不是图片中的颜色数量、图形大小,或是句子里的词语数量等这种浅层次的特征,而是需要学习深藏在图片像素之间的复杂关系,或是句子中词语之间的上下文联系。人类无法自行处理这种深层特征的提取转换,而是需要由有深度的模型进行自动计算,采用的模型主要是复杂化了的神经网络,也被称为深度神经网络。


图2-6 深度学习与无监督学习、监督学习及强化学习的关系

深度神经网络和一般神经网络的四点区别: ·深度神经网络具有更多的神经元。 ·深度神经网络层次更多、连接方式更复杂。 ·深度神经网络需要更庞大的计算能力加以支持。 ·深度神经网络能够自动提取特征。


深度学习运用在计算机视觉(Computer Vision,简称CV)、自然语言处理等涉及复杂特征的领域,后文中各类AIGC模型的主体基本上都是深度学习模型。


第二节 早期AIGC的尝试:GAN

GAN(生成对抗网络)诞生于2014年,是早期广泛应用于AIGC的算法之一,有诸多衍生形式,并至今仍被诸多AIGC应用所采用。GAN综合了深度学习和强化学习的思想,通过一个生成器和一个判别器的相互对抗,来实现图像或文字等元素的生成过程。


学生画画的水平会越来越精湛,画作看起来越来越真实。而老师判别画作的标准也会越来越严苛,督促学生完善画技,这就是生成器和判别器对抗过程的基本思想(图2-7)。


图2-7 生成对抗过程示意图

表2-2 GAN的部分常见AIGC应用方式

第三节 AI绘画的推动者:Diffusion模型

Diffusion模型是一类应用于细粒度图像生成的模型,尤其是在跨模态图像的生成任务中,已逐渐替代GAN成为主流。在2022年美国科罗拉多州博览会艺术比赛中击败所有人类画家、斩获数字艺术类冠军的AI创作画作《太空歌剧院》的底层技术模型就涉及Diffusion模型。


GAN虽然已经能较好地完成与图像相关的生成任务,但依然存在以下诸多问题。


  1. 需要同时训练生成器和判别器这两个深度神经网络,训练难度较大。
  2. 生成器的核心目标是骗过判别器,因而可能会选择走捷径,学到一些并不希望被学到的特征,模型并不稳定,有可能会生成奇怪的结果。
  3. 生成器生成的结果通常具备较差的多样性,因为具有多样性的结果不利于骗过判别器。


老式电视机信号不好时屏幕上闪烁的雪花?这些雪花是随机、无序、混乱的,因而被称为噪声。当电视机信号不好的时候,屏幕上就会出现这些噪声点


既然任何一张图像都可以在不断添加噪声后,变成一张完全随机的噪声图像,那我们能不能将这个过程翻转,让神经网络学习这个噪声扩散的过程之后逆向扩散,把随机生成的噪声图像,逐渐转化为清晰的生成图像呢?Diffusion模型就是基于这个思想实现的。


图2-8 图片增加噪声的演变示意图

AI绘画的成功还归功于CLIP(Contrastive Language-Image Pre-Training,文本-图像预训练)模型。


许多公司在CLIP模型和Diffusion模型的基础上开发了模型变体的相关应用工具,其中,Stable Diffusion、DALL·E 2、Midjourney是最知名的工具,其发布时间和研发企业如表2-3所示。


表2-3 Stable Diffusion、DALL·E 2、Midjourney基本信息表

  1. Stable Diffusion对于生成当代艺术图像具有较强的理解力,善于刻画图像的细节,但为了还原这些细节,它在图像描述上需要进行非常复杂细致的说明,比较适合生成涉及较多创意细节的复杂图像,在创作普通图像时可能会略显乏力。
  2. DALL·E 2由其前身DALL·E发展而来,其训练量无比庞大,更适合用于企业所需的图像生成场景,视觉效果也更接近于真实的照片。
  3. Midjourney则使用Discord 机器人来收发对服务器的请求,所有的环节基本上都发生在Discord上,并以其独特的艺术风格而闻名,生成的图像比较具有油画感


图2-9 使用“下雨天,向日葵盛开于海边”生成图片对比

第四节 大模型的重要基建:Transformer

Seq2Seq(Sequence-to-Sequence,序列到序列)模型。Seq2Seq模型最早在2014年提出,主要是为了解决机器翻译的问题。Seq2Seq模型的结构包括一个编码器和一个解码器,编码器会先对输入的序列进行处理,然后将处理后的结果发送给解码器,转化成我们想要的向量输出


除了翻译外,许多自然语言处理的问题都可以使用Seq2Seq模型(虽然使用效果未必最佳),下面是一些实例。

  1. 聊天问答:输入一个问题序列,输出一个回答序列。
  2. 内容续写:输入一个段落序列,输出后续内容的段落序列。
  3. 摘要/标题生成:输入一个文章序列,输出一个摘要/标题序列。
  4. 文本转语音:输入一个文本序列,输出一个语音序列。


虽然Seq2Seq模型可以实现将一种语言翻译为另一种语言,但随着句子长度的增加,翻译的性能将急剧恶化,这主要是因为很难用固定长度的向量去概括长句子里的所有细节,实现这一点需要足够大的深度神经网络和漫长的训练时间。为了解决这一问题,学者们引入了注意力机制。


从数学的角度来说,可以将“注意力”理解为一种“权重”,在理解图片或文本时,大脑会赋予对于认知有重要意义的内容高权重,赋予不重要的内容低权重,在不同的上下文中专注不同的信息,这样可以帮助人们更好地理解信息,同时还能降低信息处理的难度。这就是注意力机制,这种机制被应用在人工智能领域,帮助机器更好地解决图像处理和文本处理方面的一些问题。


图2-14 Transformer结构简化图

表2-4 GPT系列模型的演进信息

ChatGPT完整的训练过程

  1. 收集示范数据并训练一个监督学习的策略。
  2. 收集对比数据并训练一个奖励模型。
  3. 使用强化学习算法优化针对奖励模型的策略。


图2-15 ChatGPT的训练过程示意图



ChatGPT的局限性

  1. 有时会写出看似合理但不正确或荒谬的答案。
  2. 对输入措辞的调整或多次尝试相同的提示很敏感。例如,给定一个问题的措辞,模型可以声称不知道答案,但只要稍作改写,就可以正确回答。
  3. 回答通常过于冗长并过度使用某些短语。
  4. 对于模棱两可的问题,模型通常会猜测用户的意图,而非让用户澄清问题。
  5. 模型有时会响应有害的问题或表现出有偏见的行为。
  6. 在数学和物理等需要进行数字推理的任务中仍然会出现一些错误。


BERT模型

  1. BERT(Bidirectional Encoder Representations from Transformers,变换器的双向编码器表示)模型由谷歌在2018年提出,其基本思想是既然编码器能够将语义很好地抽离出来,那直接将编码器独立出来也许可以很好地对语言做出表示
  2. BERT模型的训练过程也别出心裁,它设计了两个有趣的任务。 ·掩码语言模型:随机覆盖15%的单词,让BERT模型猜测掩盖的内容是什么,这有利于促进模型对语境的理解。 ·下句预测:输入成组的句子让BERT模型判定它们是否相连,让模型更好地了解句子之间的联系。
  3. 基于BERT模型还发展出了诸多变体,在AIGC领域大放异彩,奠定了BERT模型里程碑式的地位



AIGC的职能应用

AIGC的出现,可以帮助企业不同职能岗位上的员工有效地提升生产力,最终实现整个企业的降本增效

  1. 自动化处理烦琐和耗时的任务,减少人力需求,降低成本。
  2. 产生新的想法和问题的解决方案,如产品设计或营销策略。
  3. 快速、准确地分析大量数据,为决策生成有价值的见解。
  4. 提高任务的效率和准确性,减少出错的可能性,提高工作效率。
  5. 开发个性化和定制化的产品和服务,提高客户满意度。
  6. 提高组织的速度和敏捷性,使组织能够快速响应不断变化的市场条件和客户需求。
  7. 改善组织内部的协作和沟通,使团队能够更加高效地一起工作。

第一节 AIGC与产品研发

AIGC在产品研发方面主要有四种应用方式:


  1. 通过辅助编程提高代码生产效率。
  2. 生成应用直接将需求变成产品。
  3. 创建和维护文档注释,提高沟通效率。
  4. 测试代码,纠正错误


2021年夏天,GitHub和OpenAI联合研发并发布了知名的人工智能辅助编程工具GitHub Copilot,其命名来自许多头部科技公司研发团队的“结对编程”方法:两个程序员共同完成包括需求分析、代码创作和审查测试在内的某项功能的研发,以此提高生产效率和减少代码缺陷。整个结对编程的过程就好像在驾校练车,需要一个“驾驶员”去输入代码,还需要一个“观察员”去审查代码。


  1. 近年来被更多人所关注和使用的低代码与无代码开发工具Bubble就是很好的案例。使用Bubble这一开发工具意味着人们无需代码或者写很少量的代码就可以完成一个应用的开发
  2. 根据特定的输入或需求生成大量的设计选项,包括不同的设计元素、布局、配色方案和其他常用元素。Components.ai便是这样一个工具,而且在此基础之上它还可以帮助设计师生成所对应的前端代码
  3. 以Mintlify为代表的基于AIGC的工具则可以自动编写和更新每段代码的详细描述,大大减少文档创建和维护的成本
  4. 目前市场上众多围绕AIGC进行测试纠正的产品和正在被探索的应用场景,也主要集中在代码自动测试代码错误自动修复这两个场景中
  5. 市面上已经出现了以Tricentis为代表的众多AI自动测试工具



第三节 AIGC与管理协作

2021年夏天被Bizzabo收购的B轮创业公司X.ai便在开发这样的产品,它可以让AI成为每一个团队成员的会议助理。


除了安排会议,AIGC也可以通过自动创建报告辅助企业进行内部管理。AIGC工具可以分析来自不同来源的数据,比如销售数据、客户反馈和财务报告,使用这些信息自动生成详细和信息丰富的报告


人工智能可以通过学习历史文档和往期邮件,自动化生成针对性的电子邮件回复所收到的常见咨询或请求,训练识别和标记潜在的重要电子邮件或附件,从而确保重要信息不被遗漏


AIGC协助内部沟通的另一种方式是总结会议和文件中的要点。许多会议和文件包含大量信息,员工可能很难快速确定最重要的信息并采取行动。


国内使用最广泛的该类软件是字节跳动旗下的飞书妙记,它可以自动在线生成会议纪要,通过智能语音识别转化成文字,把会议交流沉淀为要点文档,从而让会议成员更专注,工作更高效。


通过AIGC工具,公司可以训练一个模型来自动地将这些数据组织成相关的类别,例如按部门、项目或主题分类。这将使员工更容易找到他们需要的信息,减少搜索所需的时间和精力,也减少跨部门协作时获得信息的阻力


AIGC也可以通过创建和维护跨团队项目协作计划来改善团队协作。通过AIGC可以自动生成特定项目的项目方案,包括工作流和任务分配计划


位于加利福尼亚州的Mem公司便在开发这样的自我管理的协作空间,通过AI帮助更多团队管理文件、流程和分工,从而提高团队协作的效率。Mem公司的产品也整合了大量前文提到的改善团队内部行政和沟通的功能。


AIGC还可以在筛选招聘人才、自动化人事管理流程以及评估员工工作表现等方面提高公司人力资源管理的效率和效果。通过分析大量的数据,包括线上申请材料、简历和社交媒体档案,AIGC算法可以快速而准确地识别具有特定职位所需技能和经验的个人


AIGC算法可以用来自动安排面试、发送合同,甚至处理新员工的入职和入职培训。这有助于简化人力资源流程,并确保有效率和有效力地完成这些流程。


AIGC工具在绩效管理方面也发挥了重要的作用。AIGC工具可以根据每个员工的个人优势、弱点和目标来生成更具体、更有针对性的绩效反馈


AIGC工具还可以帮助企业实现绩效评估过程的自动化,例如安排和跟踪员工评审,使人力资源经理和管理人员能够专注于更重要的任务。AI驱动型团队绩效管理工具Onloop就是这个领域的典型应用。

AIGC行业应用

第二节 AIGC影视行业应用

在海外,有些影视工作室已经在使用诸如Final Write、Logline等更加垂直的工具,而在国内,深耕中文剧本、小说、IP生成的海马轻帆公司已经收获了超过百万用户。


在剧本写作上,海马轻帆的AI训练集已经涵盖了超过50万个剧本,结合行业资深专家的经验,能够快速为创作者生成多种风格、题材的内容。而剧本完成后,海马轻帆也拥有强大的分析能力,可以从剧情、场次、人设三大方向,共300多个维度入手,全方面解析和评估作品的质量,并以可视化的方式进行呈现,为剧本的改进迭代提供参考


第三节 AIGC电商行业应用

随着元宇宙概念的推广与发展,虚拟主播开始成为许多电商直播间的选择。相较于真人直播,虚拟主播不仅能为用户带来新奇的体验,而且可以突破时间和空间的限制,24小时无间断直播带货。


第五章 AIGC的产业地图

整个AIGC的产业地图可以分为三类:上游数据服务产业、中游算法模型产业、下游应用拓展产业(图5-1)。


  1. 数据服务:作为智能机器的“食物”和数字经济世界的生产要素,数据在被“喂”给机器之前,常常会涉及查询与处理、转换与编排、标注与管理等前置步骤,而在整个数据的使用过程中也离不开治理与合规方面的管理工作。作为AIGC的源头,相关数据服务产业孕育了很大的商业机会。
  2. 算法模型:人工智能之所以能判断、分析、创作,主要是因为存在支撑这些功能的算法模型。因此,训练算法模型也就成为整个产业链中最“烧脑”、最具技术含量和最具商业潜力的环节。在数字世界,围绕着如何让算法模型更聪明的命题,诞生了包括人工智能实验室、集团科技研究院、开源社区等主要玩家,构成了整个产业链的中游环节。
  3. 应用拓展:经过数据训练后的算法模型最终会在下游应用拓展层完成“学以致用”的使命,根据应用场景的模态和功能差异诞生出文本处理、音频处理、图像处理、视频处理的各个细分赛道。每个细分赛道里都有许多创新企业在相互较量,这也是当前风险投资机构最热衷投资的环节。


图5-1 AIGC产业地图

第一节 产业上游:数据服务

图5-2 上游数据服务层产业地图

把来自四面八方的水源汇聚在一起,不作区分,这种存储架构被称为数据湖(Data Lake)。

将数据像瓜果一样收集后清洗好,然后在仓库里一个个摆放整齐,这种存储架构被称为数据仓库(Data Warehouse)。

近几年,在技术进步和商业发展的推动下,“湖仓一体”(Data Lakehouse)的数据存储模式开始出现。湖仓一体模式将数据湖的灵活性和数据仓库的易用性、规范性、高性能等特点融合起来,能够为企业带来降本、省时、省力等多种好处。


异步处理型公司

  1. 一是Databricks,当时的最新估值是380亿美元;
  2. 二是Starburst,当时的最新估值是33.5亿美元。


2013年,通用计算引擎Apache Spark的创始团队出于对Spark商业化的考虑成立了Databricks公司。自此,Databricks就像架在数据湖之间的桥梁,通过支持行业特定的文件格式、数据共享和流处理等方式,让数据的访问和预处理变得更加便捷。Databricks提供了一个名为Delta Sharing的开源功能,可以实现数据的跨区域共享,从而提高工作协同效率。


Databricks针对特定行业特定文件格式的数据处理需求,一直在探索有针对性的垂直产品。比如,针对不同医院的电子病历格式上会存在细微差异的问题,Databricks可以对电子病例的原始数据进行访问和预处理,从而形成格式统一的结构化数据。Databricks的首席测试官(CTO)马泰·扎哈里亚(Matei Zaharia)在2022年12月接受采访时表示:“Databricks在前三大超大规模数据中心里运行着超过5 000万台虚拟机,有1 000多家公司在使用Delta Sharing进行数据交互。”可以说,Databricks是一个联结数据湖仓架构的枢纽,而这份枢纽所带来的数据价值也收获了投资人的广泛认可。


Starburst是一家缘起于Facebook开源项目的数据分析公司。它提供了一种解决方案,可以让用户随时随地快速轻松地访问数据。Starburst的历史可以追溯到2012年Facebook的开源项目Presto。Presto最初是为了满足Facebook大规模数据快速查询的需求而建立的。2013年,Presto的初始版本在Facebook上线使用并开源,自此之后,包括亚马逊、奈飞和领英在内的其他科技公司也都开始使用。直到2017年,为了更大规模推动Presto的使用,Startburst得以成立,并在一段时间的发展中收获了资本市场的青睐。


2.实时处理型公司


  1. 一是ClickHouse,当时的最新估值是20亿美元;
  2. 二是Imply,当时的最新估值是11亿美元。

数据的处理主要包括提取(Extract,简称E)、加载(Load,简称L)和转换(Transform,简称T)三个模块,因此产业界通常将该环节称为ELT或ETL


  1. 本地部署型公司:一是帆软,二是Pentaho(主要关注其产品Kettle)
  2. 云原生型公司:一是Fivetran,当时最新估值是56亿美元;二是dbt Labs,当时最新估值是42亿美元。


基础型公司通常专注于数据标注与管理领域,并没有过多将业务延伸至算法模型等其他领域,虽然聚焦的环节附加值不高,但由于充分的专注度,基础型公司在该垂直领域形成了独特的竞争优势,Appen和云测数据就是这一类公司的典型代表。


Scale是从数据标注环节向其他环节扩张的典型公司。Scale在成立的最初四年还只是专注于给数据打标注,但从第五年开始逐步向下游扩展,目前已经开发了自有模型,从而进入更加具有技术含量和商业价值的环节。


典型的扩张型公司Labelbox也是从数据标注起家,逐渐拓展了数据管理、AI辅助标记、模型训练和诊断服务等相关业务,进而成为一个综合性的AI数据引擎平台。Burberry(巴宝莉)就曾利用 Labelbox来辅助它的营销策划。作为跨国品牌,Burberry在进行全球营销的过程中常常需要处理大量的营销图片。为了帮助高效决策,Burberry通常需要对成千上万张图片进行打标签和分类,进而在营销投放环节,根据品牌宣发需求进行精准的分渠道投放


第二节 产业中游:算法模型

图5-3 中游算法模型层产业地图

第三节 产业下游:应用拓展

图5-4 下游应用拓展层产业地图

AIGC未来

第二节 AIGC时代的参与主体

海外初创公司Jasper就提供了生成Instagram标题、编写TikTok视频脚本、编写广告营销文本等针对B端媒体场景的定制化服务。正如前文提及的,截至2021年,Jasper已经拥有超过7万客户,包括Airbnb、IBM等知名企业,并创造了4000万美元的收入。


附录

附录一 AIGC产业地图标的公司列表(部分)


附录二 AIGC术语及解释

附录三 AIGC大事记

资料来源:中国信息通信研究院联合京东探索研究院《人工智能生成内容(AIGC)白皮书(2022年)》,2022年9月2日发布

展开阅读全文

更新时间:2024-08-22

标签:马里奥   神经网络   人工智能   算法   深度   模型   图像   智能   时代   内容   数据   公司

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top