“紫东太初”全模态大模型正式发布-持续探索可自主进化的通用人工智能

在人工智能框架生态峰会2023上,中国科学院自动化研究所正式发布“紫东太初”全模态大模型。图片由作者提供

“‘紫东太初’能否现场生成一幅竹林图片,以中国国画的形式。”一位观众临机提问。

几秒钟后,对话框里开始现场绘制一幅竹林水墨画,引来热烈掌声。

这是6月16日在上海举行的人工智能框架生态峰会上的一幕。会上,中国科学院自动化研究所发布了全模态大模型“紫东太初”2.0。

除了支持图像生成,“紫东太初”2.0还支持多轮问答、文本创作、3D理解、信号分析等跨模态任务,不仅可以透过《月光曲》畅谈贝多芬的故事,也可以在三维场景里实现精准定位,还能够通过图像与声音的结合完成场景分析。

升级打造的“紫东太初”2.0版本,是以中科院自动化研究所自研算法为核心,以昇腾AI及昇思MindSpore AI框架为基础,依托武汉人工智能计算中心算力支持,着力打造的全栈国产化通用人工智能底座。全新的版本突破了认知增强的多模态关联等关键技术,具备全模态理解能力、生成能力和关联能力。“紫东太初”2.0的开发,是对通用人工智能的又一次探索。

人类在认知世界时,往往同时涉及语音、图像、文字等信息。机器需要实现更高水平的智能,就需要像人一样,发展贯通图、文、音等更多模态的大模型。2021年9月,中科院自动化研究所成功打造“紫东太初”1.0多模态大模型,助推人工智能从“一专一能”迈向“多专多能”,在发展通用人工智能的道路上迈出坚实的一步。

迈入数字经济时代,数据的范畴不断拓宽,不仅包含人类自身产生的语音、图像、文字等数据,还有机器产生的大量结构化和非结构化数据。针对新需求与新趋势,“紫东太初”2.0在语音、图像和文本之外,加入了视频、传感信号、3D点云等更多模态,从技术架构上实现了结构化和非结构化数据的全模态开放式接入;突破了能对信息进行充分理解和灵活生成的多模态分组认知编解码技术,能融合多个任务的认知增强多模态关联技术等,大模型多模态认知能力大幅提升。

“紫东太初”2.0可以理解三维场景、传感信号等数字物联时代的重要信息,完成音乐、图片和视频等数据之间的跨模态对齐,能够处理音乐视频分析、三维导航等多模态关联应用需求,并可实现音乐、视频等多模态内容理解和生成。从1.0到2.0,“紫东太初”大模型打通了感知、认知乃至决策的交互屏障,使人工智能进一步感知世界、认知世界,从而延伸出更加强大的通用能力。

目前,“紫东太初”大模型已展现出广阔的产业应用前景,在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开始了一系列引领性、示范性应用。

在医疗场景,“紫东太初”大模型部署于神经外科机器人MicroNeuro,可实现在手术中实时融合视觉、触觉等多模态信息,协助医生对手术场景进行实时推理判断。中科院自动化研究所与北京协和医院合作,利用“紫东太初”具备的较强逻辑推理能力,尝试在人类罕见病诊疗这个挑战性医学领域有所突破。

该研究所所长徐波表示,他们以“紫东太初”大模型为基础,持续探索与类脑智能、博弈智能等技术路径的相互融合,最终实现可自主进化的通用人工智能,并将探索在更多领域发挥其赋能价值,为促进我国数字经济快速发展贡献力量。(董晓芙 鲁 宁 谢 安)

(解放军报)

展开阅读全文

页面更新:2024-02-24

标签:太初   人工智能   中国科学院   模型   认知   场景   图像   自主   研究所   能力   数据

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top