中国科学院自动化研究所(中科院自动化所)6日发布消息说，该所以其多模态大模型“紫东太初”1.0为基础，目前正在和武汉人工智能研究院联合打造全模态大模型“紫东太初”2.0

　　近日，中国科学院自动化研究所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥研究员介绍，基于华为全栈国产化软硬件平台昇腾AI与开源AI框架昇思MindSpore，中国科学院自动化研究所和武汉人工智能研究院正在联合打造 “紫东太初”2.0全模态大模型，可实现文本、图片、语音、视频、3D点云、传感信号等不同模态的统一表征和学习，助推通用人工智能时代加速到来。

　　据悉，2019年开始，自动化所在语音、文本、图像等单模态大模型研究和应用基础上，瞄准多模态大模型领域开始联合攻关，并于2021年7月正式发布了全球首个千亿参数多模态大模型“紫东太初”，以多模态技术探索通用人工智能发展道路。

　　区别于当前以文本为主的大部分语言大模型，“紫东太初”大模型在研发之初即坚持以多模态技术为核心，利用图-音-文等更多类型数据进行跨模态的统一表征和学习，实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，使人工智能大模型的理解和生成能力更加接近人类，为贯通多模态人工智能行业应用提供了创新基础，向通用人工智能迈出关键一步。

　　在“紫东太初”1.0应用推广过程中，除了需要处理海量语音、图像和文本等互联网信息外，更需要处理多种传感器、3D点云及视频等物联网海量数据，才能满足现实生产力的提高。针对数字物联时代的新需求与新趋势，中科院自动化研究所研究探索全模态大模型体系架构和基础算法，持续推动“紫东太初”技术和应用发展。

　　在文本、图片、音频、视频的基础上，“紫东太初” 2.0可融入3D、视频、传感信号等更多模态数据，并优化语音、视频和文本的融合认知以及常识计算等功能，进一步突破感知、认知和决策的交互屏障，让人工智能从感知世界进化为认知世界。