下一代人工智能:“MakeVideo”你应该知道的事

正当人工智能界为文本到图像系统的惊人进展而绞尽脑汁的时候,下一代人工智能即将到来:从文本到视频。

下面一起来看一下到底是怎么回事吧!

本文主要围绕以下三个问题展开:

  1. 人工智能是什么?
  2. 从文字转图片
  3. 从文字转视频

人工智能是什么?

AI

人工智能(Artificial Intelligence)简称为AI,也被称之为机器智能,指以最少的人工干预利用计算机模仿人类智力的行为, 人们普遍认为AI起源于机器人的发明。AI的目的就是使机器像人类一样思考并做出正确的决策, 以增强人类的智能。

像人一样思考的AI

AI经过数十年的发展, 研究热点由最开始的机器定理证明到模拟人类专家知识、经验以解决特定问题的专家系统, 再到目前以深度神经网络为代表的新一代AI。

AI研究大致进展

从文字转图片

将文字生成图像是近些年来比较具有挑战性的事情之一,早期的研究都是基于卷积生成器,直接对给定的文本合成图像,这种办法在处理已知的领域时,效果还可以,但是推广到一般领域,表现比较糟糕!

据报道,旧金山人工智能研究公司OpenAI已经开发了一种新系统,能根据短文本来生成图像。

由文本生成的图像

OpenAI在官方博客中表示,这个新系统名为DALL-E,新系统展示了“创造图像的能力”,OpenAI还发布了图像识别系统Clip。

Clip通用性比当前针对单个任务的系统更好,可以用网上公开的文字图像配对数据集来训练。如字节跳动研究小组提出了 CLIP-GEN架构,它是一种基于 VQ-GAN 的自监督方案,用于一般文本到图像的生成,其语言-图像先验因素从预训练 CLIP 模型中提取。

CLIP-GEN 架构

文本转图像

从文字转视频

上周晚些时候,Meta推出了Make-A-Video,这是一种人工智能,可以根据文本提示生成5秒的视频。下面是官方给的几个生成的例子!

比如生成那只狗狗的文字是:

A dog wearing a Superhero outfit with red cape flying through the sky.

文字转视频

再看一下其它由文字生成视频的例子:

A teddy bear painting a portrait(正在画肖像的泰迪熊):

正在画肖像的泰迪熊

Robot dancing in times square(机器人在时代广场跳舞):

机器人在时代广场跳舞

Cat watching TV with a remote in hand(猫拿着遥控器看电视):

猫拿着遥控器看电视

是不是觉得很有趣很神奇呢?更夸张的还在后面了,请接着往下看:

看一下由图片生成视频的例子:

输入图片:

输入图片

生成的视频:

生成的视频

输入图片:

输入图片

生成视频:

生成的视频

你以为由文字、图片生成视频就完了?

当然不止这些,最夸张的是可以为你的视频添加额外的创意,就是由原始视频到“有创意的视频”

输入以下视频:

输入的视频

生成的创意视频:

生成的创意视频

再来看一个“视频生视频”的例子:

输入原始视频:

原始视频

生成的创意视频:

生成的创意视频

这也太神奇有趣了吧!

总结:近些年来,AI经过了一系列的发展,也取得了巨大的成就,这一发展是生成性人工智能(generative AI)的一个突破,当然也导致了一些棘手的道德问题,这些都是社会需要面对的事情,根据文本提示创建视频比生成图像更具挑战性,也更昂贵,也是未来的发展趋势,Meta公司这么快就想出了一个办法,这令人印象深刻。

作者简介:曾任中国最先进战斗机生产公司工程师,现于某高校深造,科技自媒体撰稿人,写每一个人都能读得懂的科技文章!

展开阅读全文

页面更新:2024-03-31

标签:人工智能   创意   例子   图像   文本   人类   文字   系统   图片   视频

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top