从"下一个词预测"到"下一个镜头预测",AI开启影视制作新范式


咱今天要聊的这事,和现在特火的AI视频生成有关。

我觉得现在的AI生成单镜头视频,像人物特写、场景画面啥的,质量都挺高。

就说不久前的Sora2,生成10秒的视频那画面看着挺带劲。

但要是涉及到多镜头的长视频,问题就来了,镜头之间视觉风格不统一,叙事也不连贯,看着老是让人出戏。


不过最近,新加坡南洋理工大学联合香港中文大学、上海人工智能实验室的团队,搞出了个叫Cut2Next的框架,专门解决这些问题,可算是在AI生成多镜头视频这事上迈出了一大步。

Cut2Next有啥不一样的本事?

这个Cut2Next框架,核心是提出了"下一个镜头的预测",简称NSG。

咱都知道,语言模型里有"下一个词的预测",就是根据前面的词预测后面该接啥词,现在这个NSG就跟那原理有点像,只不过把对象换成了视频镜头。


团队里的刘子纬副教授说,他们把视觉当成一种语言,影视剧的镜头其实就是一种镜头语言,里面包含着人类的叙事智慧、情感表达,还有前后镜头的连接逻辑,甚至戏剧冲突的制造。

而Cut2Next就是要让AI理解这种镜头语言,生成符合电影级水平、叙事连贯的高质量镜头。

为了实现这一点,Cut2Next在技术上有不少新招。

一方面,它用了DiT和层次化提示策略,这里面有两个关键的提示,一个是关系提示,一个是个体提示。


这就好比AI同时兼任了导演和摄影师的角色,既能把握镜头之间的关系,比如怎么衔接、怎么体现叙事逻辑,又能关注单个镜头的细节,像角色、光照、色调这些视觉元素的一致性。

另一方面,它还有两个关键技术。

一个是上下文感知条件注入,能让模型知道在一个电影场景里,哪些元素是重要的。

从低层次的光照、角色样子,到高层次的镜头之间的连贯性,甚至场景里的情绪流动,模型都能感知到,这样就能生成像正反打镜头、切出镜头等符合电影叙事的编辑模式。

另一个是层次化注意力掩码,大家都知道,不管是语言模型还是视频模型,很多都依赖Transformer的注意力机制,但这个机制计算起来比较复杂,尤其是处理长视频的时候。

而层次化注意力掩码降低了计算复杂度,让模型在不增加新参数的情况下,能处理更多、更长、更丰富的信息,这样长视频的生成难题就得到了一定解决。


团队还构建了两个全新的数据集,RawCuts和CuratedCuts。

RawCuts用于预训练,里面有超过20万对镜头,让模型多“看”不同的视频,提升阅片量的多样性和丰富度。

CuratedCuts用于精调,都是精标注的数据集,提升模型的品位和审美。

实验结果也挺厉害,Cut2Next在视觉一致性、文本保真度和电影连续性等方面,都比现有的主流文生图模型表现好,算是填补了这个领域的空白。

Cut2Next能解决哪些现实问题?

咱再说说现在AI视频生成的困境。

刚才也提到了,单镜头生成不错,但多镜头就不行。


长视频生成的时候,模型容易出现漂移,就是生成着生成着就偏离主题了,出现一些不符合现实的内容。

而且视觉和叙事的一致性很难平衡,视觉上要保证角色、光照、色调等风格一致,叙事上要捕捉拍摄镜头、机位、运镜角度等,同时还要保证高质量的细节,这对现有模型来说都是挑战。

Cut2Next就针对这些问题给出了解决方案。

它借鉴语言模型的范式,提出的NSG让AI从理解单个镜头上升到理解镜头语言的整体叙事逻辑。

通过那两个数据集的训练,模型能更好地把握镜头之间的关系和单个镜头的细节。

那Cut2Next能用在哪呢?首先在影视行业,故事板生成是电影拍摄前的重要步骤,尤其是大成本电影,需要考虑很多细节,Cut2Next能帮忙生成故事板。


现在火爆的AIGC短剧,每集几分钟,十几个关键帧,用这个工具能快速生成不同风格的纯2D内容,效率可高了。

对于个人创作者来说,做电商直播、虚拟偶像直播的视频也方便了,能发挥更多创意。

在其他领域,比如互动游戏,能生成开放式互动游戏的仿真内容,让游戏场景和剧情更丰富。

在具身智能领域,能提供仿真数据,现在很多机器人的数据采集于实验室或工厂,比较单调,有了Cut2Next,未来机器人可能更能理解人类的生活甚至情感。

目前,研究团队还有不少计划。

他们打算开源模型、数据和前期发现,邀请跨领域学者一起探索怎么用Cut2Next进行创作和辅助研究。

还会和影视公司、短剧公司合作,了解市场需求,优化模型的速度和效率,不断迭代。

未来,他们可能会把技术推进到3D、4D层面,实现对世界更深的理解。

说实话,Cut2Next的出现确实给AI视频生成领域带来了新希望。

它解决了现有模型的痛点,在多个领域都有应用潜力。

不过,技术的发展是一个过程,虽然现在Cut2Next表现不错,但未来还有很多需要探索和改进的地方。

但不管怎么说,它已经为AI在视频生成领域的发展迈出了坚实的一步,让我们期待它能带来更多惊喜吧。

展开阅读全文

更新时间:2025-10-09

标签:科技   范式   影视制作   镜头   模型   视频   领域   语言   视觉   电影   连贯   数据   场景

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top