GPT-4 即将发布,带来什么产业边际变化?

文章出自:计算机文艺

GPT-4即将发布,多模态趋势凸显。3月9日,微软德国CTO Andreas Braun 宣布GPT-4将在3.13-3.19日发布,将提供完全不同的可能性——如图像、视频。结合微软3月初发布多模式大型语言模型Kosmos-1,可以推断大模型包括GPT4将向多模态发展,多模态将成为下一波浪潮的核心。

Kosmos-1、Visual ChatGPT已铺垫GPT-4多模态模型。微软在多模态模型领域持续发力,2月28日发表论文推出了全能型人工智能模型——Kosmos-1,和局限于纯文本内容(LLM)的ChatGPT相比,Kosmos-1主干基于Transformer的因果语言模型,属于多模态大型语言模型(MLLM),除了自然语言任务,能同时理解文字与图像内容,未来会整合更多的输入模式,如音频、视频。




多模态是GPT系列发展的必然趋势,也是多元化应用落地的基础。当下,图像化应用已打开新型市场空间,3月8日微软开源了重量级的ChatGPT AI交互应用Visual ChatGPT,通过调用ChatGPT以及一系列视觉基础模型,实现了在聊天过程中发送和接收图像,以及动态对图像进行处理,在ChatGPT的基础上拥有了VQA(视觉问答)和AI作画的能力。Visual ChatGPT发布后短短一天,在Github就达到了4000星,文本生成图像功能已经如此引发市场追捧,GPT-4按照预期拓展到视频方向,文字生成视频、图像生成视频功能有望进一步奠定视觉方面应用落地,拓展市场格局。


图像端已有应用落地,视频等多模态的引入将打开下游行业应用空间。当前,不论是OpenAI的DALL-E2,还是AIGC领域的Stable Diffusion都已在图像领域进行了初步探索,并引起不小的反向。预计多模态短期内将在搜索引擎和聊天机器人上实现落地,为用户使用感带来巨大提升。考虑到当今信息数据有相当部分是以图像和视频的形式呈现,具有图像、视频处理能力的GPT-4对用户的反馈将从更完整的来源获得信息并以多媒体的形式呈现,有效地提高用户体验。远期看,多模态将打开视觉方向,图片生成、视频创作能力,将协助GPT-4在各类商业模式上实现进一步的拓宽,从而实现多媒体交互。


展开阅读全文

页面更新:2024-03-01

标签:微软   边际   模型   图像   文本   视觉   规模   参数   语言   产业   数据   视频

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top