周鸿祎谈视频模型Sora:AGI实现不远了,中美AI差距将进一步拉大

近年来,随着科技不断革新与发展,人工智能(Artificial Intelligence,简称AI)逐渐崭露头角,成为社会各界关注的焦点话题之一。

其中,AI技术的发展成果之一便是我们所熟知的语音识别、图像处理等应用程序及相关硬件设备的普及和精进。

在这场科技革命中,最受瞩目的无疑是隶属于全球知名人工智能研究机构——OpenAI的对话式生成模型Sora。而此里程碑式的成就是否预示着AGI(通用人工智能)实现的时间即将大幅缩减?这引发了业界的广泛讨论。本文将就此进行探讨,以期为读者提供一些深入思考。

首先,不得不承认,OpenAI开发的Sora确实具备一定的实质性突破。这项技术与传统文本到语音(Text to Speech,简称TTS)或图像至语音转换(Image to Speech,简称ITS)的方式相比,具有更加自然流畅的表现形式以及良好的用户交互体验。


这种新型音频输出方式结合了情感计算技术,能够将文本表示为带有情绪变化的声音语言,从而在一定程度上提升AI产品的感知能力,让它更接近于人类的交流方式。但是,尽管Sora模型取得了显著进步,也不能说其能够直接推动AGI在短时间内实现。因为AGI的实现需要面对诸如逻辑推理、知识表达等诸多复杂问题,这些都不是仅仅通过改进现有AI算法或者模型结构能够解决的。


其次,周鸿祎董事长在社交平台上对Sora模型的评论引起了公众的热烈反响。他指出,AI不会很快颠覆所有行业,而是会激发更多人群的创新思维,进而引发出新的商业模式和产业方向。这里周董所提出的观点十分值得我们深思。


虽然AI可能无法完全取代人类劳动力,但是对于一部分工作内容较为简单重复且可以被数字化的岗位而言,AI已经展现出了强大的替代能力,这种情况下再去探讨AGI是否能够迅速发展,似乎有些偏颇。


尽管由诸多60秒片段构成的视频或电影内容,无疑为广告界、电影宣传片以及短视频制作等领域注入了新的活力和创新性,但是从目前来看,Sora未必能够在短期内超越其竞争对手并取得显著的市场份额,反而有望作为TikTok的创意支持工具,发挥自身独特的优势与作用。

此外,周鸿祎先生也明确表示,我国大型模型的开发水平虽然看似已接近于谷歌母公司Alphabet旗下的超大规模性能AI模型GPT-3.5,然而实际上,若要达到GPT-4.0的标准,仍需走过漫长且艰难的一年半路程。


什么是人工智能?

总的来说,人工智能的核心任务在于构建类似于人类意识与思维过程的模型,运用先进的机器学习技术和准确的数据分析策略,赋予机器高度模拟人类能力的可能性。

早自上世纪50年代,人工智能这一理念便已崭露头角。受限于当时计算机处理能力与算法的不足,使得人工智能并未得到充分的实践与广泛应用。

直至2006年“深度学习”神经网络算法应运而生,人工智能步入新时代,在诸如语音辨识、图像识别以及自然语言处理等多个领域取得了显著进展。这些成果再次向世人展示了人工智能解放人类劳动的巨大潜力。

当前,布局人工智能产业,推动其发展已经成为了世界各国国家级战略不可或缺的组成部分。


从整体角度来看,人工智能产业链可以细分为基础设施支持层、关键技术层以及应用层三个层次。

基础设施层主要负责提供强大的计算性能及基础设施支持,其内容涵盖了人工智能芯片、各类传感器、海量数据存储以及强大的云计算服务平台。

其中,人工智能芯片因其高度的技术壁垒,使其成为了这一层面的核心,目前学科的领先者主要包括Nvidia、Mobileye以及英特尔等国际知名科技巨头。相比之下,我国在这个领域的实力相对较为薄弱。

OpenAl再现秘密武器

Open Al应该持有某些尚未公开披露的强大工具,这些工具既可以覆盖像GPT-5这种先进模型,也包括机器自主学习自动生成内容(比如AIGC)等尖端技术。

显然,Open Al与奥特曼有着相似的战略智慧,懂得如何把握市场节奏,迄今为止只透露了部分技术,这使得一部分人推测中国在人工智能领域与美国的差距可能正在逐渐扩大。

根据腾讯研究院统计数据显示,截至2017年6月底,全球范围内的人工智能企业总数已经达到了惊人的2500余家,其中美国以1000家的庞大数量领先世界,而中国紧随其后,拥有的人工智能企业达到590多家。

相形之下,美国的人工智能企业不仅分布广泛,而且涵盖了整个产业链条中的每一环,包括基础层、技术层和应用层在内,全方位多层次地参与到人工智能产业的各个热点领域。

特别值得注意的是,美国在诸如算法、芯片和数据等关键元素方面,比如自然语言处理、语音识别、机器学习应用、计算机视觉与图像处理、技术平台构建、智能无人机设计、智能机器人研发、自动驾驶技术普及等等多个重要环节,均占有显著的技术优势,在某些关键领域超越了中国。

从投资层面看,美国在人工智能领域的资金投入远远超过了中国。具体来看,两国在投资领域也呈现出明显的分化现象:美国投资力量广泛覆盖了产业链的基础层、技术层和应用层;而在中国,投资主要聚焦于应用层。

在美国的人工智能初创企业中,排名靠前的三个热门领域是自然语言处理、机器学习应用以及计算机视觉与图像处理;相对应地,在中国的人工智能初创企业中,排名靠前的三个热门领域是计算机视觉与图像处理、智能机器人研发以及自然语言处理,呈现出中美两国在人工智能领域各具特色的发展态势。

当然,人工智能领域总体仍然主要由大型科技企业所主导,美国的苹果、谷歌、微软、亚马逊和脸书这五大科技巨头在人工智能领域均具备卓越的竞争力;相比之下,在中国,除BAT外,其他大型科技企业在该领域的表现尚显不足。

据推测,Open Al在训练这个模型时,将会利用大量的视频素材作为学习样本。由于使用了大体积的模型且采用了Diffusion技术,意味着它需要更深入地理解和感知我们生活的世界。因此,学习样本很可能更多地来自视频和摄像设备捕获的各种图像信息,这无疑将极大地丰富其知识储备和提高其认知能力。

一旦人工智能系统能够连接摄像头,并对包含在YouTube和TikTok在内的海量视频资源进行深度消化吸收,那么其对现实世界的敏锐感知力与理解程度,无疑将远远超出传统的文本学习方式。


Sora是什么东西?

Sora乃是一种广域推广模式,以繁复的噪声为发迹之源,从而具备了一次性创建整部影视作品或扩张影片时长的强大能力。这项技术的独特魅力体现在能够一气呵成地完成多帧画面的预测,确保了即便视界中主要场景短暂离去,影像主体仍然可以保持不变。

与通用参数模型(GPT)有着异曲同工之妙的是,索拉采用了变压器架构作为技术支持,展现出强大且可扩展性的发展优势。


在数据处理的环节中,OpenAI将视频及图像数据转化为犹如GPT模型中所使用的“标记”那样的处理单元——patch。

借由这种整齐划一的数据表达形式,我们得以在更丰富多元的视觉数据资源上对模型展开培训和调优,覆盖范围包括各种不同的持续时间、分辨率以及比例系数等因素。

Sora在借鉴以往对DALL·E和GPT模型深度探究的成果基础上茁壮成长。依照DALL·E 3所采纳的重述提示词策略,索拉能够为视觉训练数据生成极具艺术性的标示,从而使得模型能够更加精确无误地遵循使用者所下达的文本指令。

除此以外,带有这一模型进行工作时,不仅能够仅依据简洁明快的文本指令去生成相应的视频,同时更能够实时抓取当前存在的静止图像并迅速从中创作出新的视频作品,确保能让原本的图像内容鲜活起来,并关注到哪怕是微不足道的细枝末节。


更为值得称道的是,这一模型还能有效利用现有的视频素材,通过扩展或补充遗漏的画面帧,使之如同繁星点点的彩虹那样多姿多彩,这一特质可通过查阅技艺精湛的科技论文进一步深究更多相关详情。

索拉正是基于这样一种能够深入理解并模拟现实环境的模型构建而成,引领着全球人工智能领域前进的风向标。既然OpenAI坚信这一力作必将成为众人期待已久的实现AGI的重要里程碑,那么其辉煌的未来也就不言自明了。


OpenAI的Sora的厉害性让人难以置信!

需明确知晓的是,此前诸多研究皆通过各类尖端技术来搭建图像生成模型,如周期性神经网络、生成式对抗网络、自回归变压器及广义扩散模型等方法。

这些方法通常仅聚焦于某种特定类型的视觉数据、相对短暂的视频或固定尺度的视频。然而Sora却异乎寻常,作为一款可生成多种时长、宽高比例以及分辨率的视频和图像的通用性视觉数据模型,甚至包括长达一分钟的高清晰度视频。

有网友指出,“尽管Sora存在一定的不足之处(这些可被轻易检测出),诸如其物理表现效果明显体现为人为合成之物。然而,无可否认的是它将能够深远地变革众多行业发展。试想一下利用这种全新的技术生成形态生动、极具个性化的广告视频以实现精确定位,那必将是一个价值数万亿美元的庞大产业”!

为了深入评估Sora的实际效果,行业领袖GaborCselle将其与Pika、RunwayML以及StableVideo等业界知名工具进行了详细的对比测试。

首先,他使用了与OpenAI示例中所提供的相同输入指令。研究发现,其他主流工具所生成的视频长度基本上均在五秒左右,而Sora却能在包含长达17秒视频场景的情况下,保持住动作和画面的连贯性与协调感。

接下来,他调取并应用Sora的初始画面做为参照对象,通过不断精细化指令提示及控制摄像机运动,尽力使得其它模型产生与Sora相似的图像效果。相比之下,Sora在应对复杂且时长较久的视频场景时展现出了更为优越的性能表现。

鉴于此项技术所带来的惊人效应,行业内士无不感慨称道,Sora在 AI 视频制作领域无疑具备着里程碑式的革新意义。

Sora的出现带来的便利

随着Sora的亮相,公众预测文生视频(Vance Video)制作的技术门槛将会大幅度降低。这意味着,作家、画手或者其他拥有IP版权的创作者将更容易地把他们的小说、漫画或其他类型的作品转化成视频形式,甚至是具有连续性的电视剧集。

根据现有的Sora展示视频来看,该系统已具备生成包含复杂情境叙述的精准构图的能力。有可能的情况下,曾经花费数月时间进行制作的小说漫画视频,如今或许仅需几天便可完成。包括对于短剧、互动游戏以及大规模电视节目制作行业在内的所有行业来说,其技术门槛均有望大大降低。

以当前的视频为例,其主要情节围绕着一只猫咪试图唤醒沉睡中的主人,然而主人却故意视而不见,于是猫咪改变唤醒策略并最终达成目的的故事展开。

这个视频的效果非常出色,毫无疑问,这样高水平的文生视频应当能够满足广大短剧制作领域的需求。影视传媒公司可以看到相对明确的收益预期,然而对于演员们来说,无疑是迎来了新的挑战。

Sora模型的影响与挑战

该模型的问世与普及必将在视觉艺术领域引发广泛且深远的变革影响力。首先,该模型大幅度降低了视频制作的入门难度,极大地拓宽了行业准入渠道,使得包括专业艺术家及广大业余爱好者在内的更为广泛的人群皆有机会投身于视听盛宴的创建过程之中。

无论你是资深的创作者亦或是初涉此道的普罗大众,皆可借助该模型的强大功能轻而易举地锻造出精美的视频作品。这无疑将大力推动视频创作领域的蓬勃兴旺与繁荣昌盛。


其二,Sora模型显著提升了视觉创意的效率和品质。得益于高度自动化生成视频内容的优势,Sora模型能显著压缩制作流程,有效控制制作成本。同时,依托其卓越的语义理解能力以及高度自定义化特性,Sora模型能够生产出更为精确、更富动感的影像内容,从而极大地优化了观赏者的观影体验。

然而,当我们畅想并期待Sora模型所引领的未来之际,同样也要对可能随之而来的诸多问题与挑战保持警惕。首要问题便是版权保护问题。鉴于intooch model拥有自动生成视频内容的潜能,侵犯他人版权的隐患难免存在。故此,我们亟须强化版权保护意识,以治完善的律法体系和创新性的技术策略以确保产出之视频内容不触犯任何其他人的版权权益。

其次,Sora模型制造的视频作品亦可能包含误导性或者失真的成分。因为模型是依据海量数据进行学习与生成的,若其间存在误差或者偏差,则可能导致最终产出的影像内容出现误导性或者失实现象。这无疑会给用户和整个社会带来不良后果。因此,我们必须加紧审查和管控模型生成的视频内容,务必使其真实可靠。

除此之外,我们还需高度关注模型可能引发的隐私权和安全性问题。比如,若在运用model生成视频作品时无法避免搜集用户个人信息或其他敏感数据,则必须确保这些数据得以安全妥当地存储和利用,防止数据泄露和滥用情况发生。


OpenAI承认Sora的局限性并专注于检测误导性内容

尽管Sora在人工智能领域展现出了令人瞩目的发展成果,然而OpenAI从未忽视当前模型所存在的局限和弱点。具体来说,Sora面临着在准确模拟复杂环境下的物理特征以及深入理解特殊因果关系案例等问题时的重重困境。

比如说,当Sora在生成的视频中呈现某位人物咬一口饼干的情景时,很有可能无法在饼干表面留下清晰可见的咬痕。为了最大程度防范Sora被滥用以创作深度伪造或是危害社会的内容,OpenAI正全力以赴研发各种工具,用于识别并剔除那些具有误导性的信息,同时以确保这项人工智能工具能够得到负责任、合理且合规的应用与利用。

展开阅读全文

页面更新:2024-02-29

标签:模型   中美   视频   人工智能   美国   中国   图像   差距   领域   内容   数据   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top