中国工程院院士倪光南:AI+机器人将形成新的庞大生态系统
2025年8月12日
大小:16.54MB00:00:00/ 00:00:00

在2025世界机器人大会上,中国工程院院士倪光南发表了题为《“AI+空间计算”让机器看懂世界》的演讲。


他表示,“AI+空间计算”是连接物理与数字世界、推动二维向三维交互跃迁的关键桥梁,正重塑人机交互方式。倪院士还强调视觉是智能的基石,通过重构而非生成物理世界,该技术赋能机器人“看懂”环境。他结合制造业智能化升级的实例,系统阐述了如何通过构建“脑-眼-行动协同”的具身智能系统,将机器人提升至L4、L5级智能水平,最终形成强大的“AI+机器人”生态系统,以释放其作为新质生产力的巨大潜能。


以下为演讲全文:


尊敬的各位嘉宾,女士们、先生们,大家好。很高兴来参加2025世界机器人大会,我和大家分享的题目是《“AI+空间计算”让机器看懂世界》。


我们知道,“AI+空间计算”开启了二维交互向三维交互发展的一个新的方式,是物理世界和数字之间的桥梁,正在重塑人类机器和世界的交互方式,它是推动机器人落地的关键核心技术。


一、“AI+空间计算”:三维交互的新范式


历史上交互范式的改变推动了社会的进步,当前我们进入“语音+视频+空间”交互的新范式阶段,正是从二维交互向三维交互发展的重要时期,空间计算在其中起了重要的作用。


我们看到空间计算对于物理世界来讲,是对物理世界的重构,而不是生成。生成大语言模型目前引领着科技的发展,但是大语言模型不是我们世界的全部,生成式AI不能完全复制复杂的物理世界。空间计算和AI的融合,正以一种全新的方式重构三维物理世界,拓展了大模型通向物理世界的桥梁,促进了物理世界和数字世界之间的融合。所以我们认为,“AI+空间计算”是当前落实人工智能+行动的一项关键核心技术。


二、视觉:智能进化的基石


视觉是智能的起点。在生物进化史中,智能的起点就是物理性,在物理世界来讲,首先是视觉。视觉可以说是智能的起点,是物理空间感知的基础,是大脑与物理世界相互作用的“桥梁”。视觉几乎影响到整个大脑智能的进化,我们整个大脑都参与了来自外界的视觉信息处理。眼睛和智能进化相辅相成。


图灵奖获得者杨立昆教授有一个说法,就是一个典型大模型,其学习的信息量大概是10的14次方字节,就是后面14个0,相当于互联网上所有公开文本信息量的总和,这对一个人来讲,可能要花几十万年才可能学到。但是一个4岁的小孩,从他睁开眼睛到4岁的过程中,能学到的视频信息量大概也就是10的14次方。


这说明我们大语言模型训练所用的文本信息是不够的,我们要认识世界、理解世界还需要用到大量的视频信息,为此我们要重视眼睛。视觉是智能的起点,是物理世界控制感知的基础,是大脑和物理世界作用的桥梁。


三、应用场景:制造业的智能化革命


以一个“AI+机器人”工厂的实际工作情况为例,机器人这里有个绿色的小窗口,它看到的世界基本上和人眼看到的大体相当,但是机器人还加入了AR+空间数据进行理解和一些建模的过程。一个机器人由于有了“眼睛”,它就可以在移动环境中快速地观察环境,知道精确的位置。


以下表为例,我们来看制造业和机器人在不同的工业化时期中的变化。我们把这里分两个时期,一个是传统工业化,一个是新型工业化。德国传统工业化是工业4.0,而新型工业化相当于工业5.0。作为自动制造业的发展来讲,从自动化到智能化的发展,或者像现在“AI+工业制造”的发展,这是两个时期的发展。


undefined


对于工厂来讲,它的生产模式在过去,我们强调的是刚性化、标准化。那现在我们要融合什么?柔性制造,融合定制化。作为工厂的管理,过去是人被动地去安排作业,现在是工厂的大脑去自主决策。在过去,工业软件是很多一起应用,现在的情况更多是,工业软件会以工作流的方式渗透到整个的生产工作流程之中。


我们的数字世界、物理世界,在过去相当于是映射的关系,而现在我们要把数字和物理世界融合起来。


作为机器人来讲,要从自动化的工序变成一个智能化的主体。作为工厂的主体,它的控制方式在过去是实时操作系统,现在需要具身智能系统来进行控制。参照驾驶,过去来讲,相当于L1到L3是自动化的,现在我们希望L4、L5作为智能化的自主移动的机器人。同样我们的操作,以前用按键、键盘、鼠标、屏幕,而我们现在可以用自然语言,人可以和它交互,叫它工作,从人工编程发展到大模型编程,从固定工位发展到多工位的移动工作,同时我们不需要部署调整,可以即插即用,这样达到一个高精度的工作。在过去这要花很长时间,而现在移动工作可以做到非常快速,并且是用很低的代价就可以达到很高的精度。


总的来说,我们希望人和机器将来在工厂生产线上是协同的、取长补短的。


按照目前来看,我们认为机器人产业是未来的新兴产业,可能要达到万亿元的规模。在这样一个巨大的机会里面,我们要通过提高机器人产业,发挥它作为新质生产力的作用。


四、构建具身智能系统:脑、眼与行动的协同


机器人的智能一般来说可以分为三大部分:脑、眼和行动系统。这三部分组在一起变成一个具身智能系统,能够全面体现机器人的智慧,发挥它的作用。


就过去来讲,我们在机器人的“脑”和“眼”的方面投入不够,相对说是一个短板,需要特别予以加强,以此更好体现机器人的效能。


正像汽车一样,汽车可以分为L1到L5的不同等级,有些组织也对机器人进行了相似的分类。目前的机器人大体上是L1到L3,我们希望通过“眼睛”和“脑”的发展,把机器人整体的智能水平发展到L4、L5以上,这样的机器人才真正体现出它的能力,特别是在移动、自主、高精度上,能够让机器人在提升生产的效率方面发挥作用。


undefined


机器人要从“自动化工具”发展到“AI+机器人”,为了使机器人达到更高等级的智能,需要从“机器人操作系统”,发展到“机器人智能系统”,即融合环境感知、交互决策、运动控制三大具身智能,可操控机器人并作为机器人智能主体。


那么第一,机器人必须有自己的“大脑”,机器人的“大脑”就是基于大模型的,现在大模型正在引领各方面科技发展和生产的变革。对于机器人操作系统,我们也需要提升到智能系统的水平,进行架构性的变革。机器人有了“大脑”,再加上有了“眼睛”,以及行动的控制,它会在工厂之中发挥重大的作用,按照与人的要求接受指令、接受任务、自主规划,进行投产操作,适应各种场景的需求。


第二部分是“眼睛”,它是智能的起点。生物进化的历史表明,机器人的智能系统应该突出“眼睛”的作用。目前来看,采用“AI+空间计算”的方案,即用普通的单目摄像头加上神经网络学习组成,这种方案可以达到比较好的效果,具有很高的性价比,使得机器人拥有良好的、类似人的视觉,拥有适应性、好用、易用、实用这些特点。


同时我们也知道机器人要和自身本体,比如它的手脚轮子等发生交互,所以我们需要有一个操作系统。现在来讲,我们建议用开源的AGIROS来支撑机器人的行动,这个开源的操作系统是由中国科学院软件所支持的,AGIROS智能机器人操作系统开源社区是中国科学院软件所倡议发起,旨在通过凝聚智能机器人操作系统产学研用各方力量,共同推动智能机器人操作系统技术及生态的发展,全面推进智能机器人领域的开源开放协同创新,为智能机器人产业夯实基础。


目前有大批的单位以及开发者加入了这个社区,借助开源的力量,AGIROS将在全球机器人业界引领潮流大大增强机器人智能系统的竞争力。


综合起来,今后机器人不仅是一个操作系统,而是包含脑眼和行动协同的一个具身智能系统。自动化的机器人发展到人工智能时代的“AI+机器人”,能具有更好的智能,更好的性价比,还能发挥更大的竞争力和作用。


这里最后我们可以讲,我们的目标是要构建“AI+机器人”生态系统,历史上有一些大的生态系统,比如PC时代有“Wintel”,到了移动手机时代有“AA”(Android+ARM),“RV+OSS”(OpenHarmony、openkylin等),这都是人类智能体世界,而未来“AI+机器人”也将形成庞大的“AI+RV+脑-眼-行动”生态系统。


undefined


五、小结


我把今天的分享归纳为:第一,在当前人工智能引领变革的时代,在国家实施“人工智能+行动”的大形势下,我们要把自动化的机器人发展到 “AI+机器人”,更好地发挥它新质生产力的作用;第二,为了达到这个要求,关键在于提升机器人智能水平,我们要用“脑-眼-行动协同”的系统来提高机器人的智能水平,真正让机器人能够看见世界、理解世界、形容世界。


谢谢大家。







【新闻来源】腾讯科技 文|熊腿腿 https://news.qq.com/rain/a/20250810A0327400

(本网转发此文章,旨在为读者提供更多的信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。)