“紫东太初”全模态大模型正式发布-持续探索可自主进化的通用人工智能

在人工智能框架生态峰会2023上，中国科学院自动化研究所正式发布“紫东太初”全模态大模型。图片由作者提供

“‘紫东太初’能否现场生成一幅竹林图片，以中国国画的形式。”一位观众临机提问。

几秒钟后，对话框里开始现场绘制一幅竹林水墨画，引来热烈掌声。

这是6月16日在上海举行的人工智能框架生态峰会上的一幕。会上，中国科学院自动化研究所发布了全模态大模型“紫东太初”2.0。

除了支持图像生成，“紫东太初”2.0还支持多轮问答、文本创作、3D理解、信号分析等跨模态任务，不仅可以透过《月光曲》畅谈贝多芬的故事，也可以在三维场景里实现精准定位，还能够通过图像与声音的结合完成场景分析。

升级打造的“紫东太初”2.0版本，是以中科院自动化研究所自研算法为核心，以昇腾AI及昇思MindSpore AI框架为基础，依托武汉人工智能计算中心算力支持，着力打造的全栈国产化通用人工智能底座。全新的版本突破了认知增强的多模态关联等关键技术，具备全模态理解能力、生成能力和关联能力。“紫东太初”2.0的开发，是对通用人工智能的又一次探索。

人类在认知世界时，往往同时涉及语音、图像、文字等信息。机器需要实现更高水平的智能，就需要像人一样，发展贯通图、文、音等更多模态的大模型。2021年9月，中科院自动化研究所成功打造“紫东太初”1.0多模态大模型，助推人工智能从“一专一能”迈向“多专多能”，在发展通用人工智能的道路上迈出坚实的一步。

迈入数字经济时代，数据的范畴不断拓宽，不仅包含人类自身产生的语音、图像、文字等数据，还有机器产生的大量结构化和非结构化数据。针对新需求与新趋势，“紫东太初”2.0在语音、图像和文本之外，加入了视频、传感信号、3D点云等更多模态，从技术架构上实现了结构化和非结构化数据的全模态开放式接入；突破了能对信息进行充分理解和灵活生成的多模态分组认知编解码技术，能融合多个任务的认知增强多模态关联技术等，大模型多模态认知能力大幅提升。

“紫东太初”2.0可以理解三维场景、传感信号等数字物联时代的重要信息，完成音乐、图片和视频等数据之间的跨模态对齐，能够处理音乐视频分析、三维导航等多模态关联应用需求，并可实现音乐、视频等多模态内容理解和生成。从1.0到2.0，“紫东太初”大模型打通了感知、认知乃至决策的交互屏障，使人工智能进一步感知世界、认知世界，从而延伸出更加强大的通用能力。

目前，“紫东太初”大模型已展现出广阔的产业应用前景，在神经外科手术导航、短视频内容审核、法律咨询、医疗多模态鉴别诊断、交通违规图像研读等领域开始了一系列引领性、示范性应用。

在医疗场景，“紫东太初”大模型部署于神经外科机器人MicroNeuro，可实现在手术中实时融合视觉、触觉等多模态信息，协助医生对手术场景进行实时推理判断。中科院自动化研究所与北京协和医院合作，利用“紫东太初”具备的较强逻辑推理能力，尝试在人类罕见病诊疗这个挑战性医学领域有所突破。

该研究所所长徐波表示，他们以“紫东太初”大模型为基础，持续探索与类脑智能、博弈智能等技术路径的相互融合，最终实现可自主进化的通用人工智能，并将探索在更多领域发挥其赋能价值，为促进我国数字经济快速发展贡献力量。（董晓芙鲁宁谢安）

（解放军报）

展开阅读全文

页面更新：2024-02-24

标签：太初人工智能中国科学院模型认知场景图像自主研究所能力数据

1 2 3 4 5

“紫东太初”全模态大模型正式发布-持续探索可自主进化的通用人工智能

5G新一波应用要来了！

欧洲疾控中心：伊蚊活动扩张导致蚊媒疾病风险增加

腾讯两大国民APP账号又打通了？QQ悄然支持微信登陆

华为进军机器人产业链相关公司有望受益

开启数字尼山之旅，共赴数字文明之约

马斯克线上“约架”扎克伯格，被母亲取消

研究显示全球约九成过量碳排放源自美国等发达国家

OpenAI将推出AI模型应用商店，让开发者销售公司AI技术构建的模型

南航“选座费”被指吃相难看，增值服务也应有度

中国科学家发现河蚌铰链的耐疲劳秘密

山东省科学技术奖揭晓！新区这些项目获奖→

我科学家揭秘河蚌铰链为何耐疲劳将为未来新型柔性耐疲劳材料设计提供新思路

创新技术引燃ADA，聚焦“人工胰腺升级”和“AI算法助力糖尿病眼病风险预测”- 2023ADA

NFT的现状与未来发展

发布视觉大模型、发力B端，美图围绕AI求变

OpenAI将推出AI模型应用商店，让开发者销售公司AI技术构

发布视觉大模型、发力B端，美图围绕AI求变

模块化大模型来了！IBM公开WastonX核心架构技术细节

华为欧拉（openeuler）系统安装docker和人工智能计算环境

打造夜间消费新场景梅江南城市主题文化美食市集开幕

端午假期文旅消费场景丰富市场活力进一步激发

数据标注员：做人工智能的眼睛

孟晚舟：华为已自研数据库GaussDB

Midjourney 5.2震撼发布！原画生成3D场景，无限缩放无垠宇

科技周报-阿里换“帅”；盘古大模型新进展；端午迎出行高