芯位科技 | AI赋能教育_智慧校园

请输入

中国工程院院士倪光南：AI+机器人将形成新的庞大生态系统

2025年8月12日

大小：16.54MB00:00:00/ 00:00:00

在2025世界机器人大会上，中国工程院院士倪光南发表了题为《“AI+空间计算”让机器看懂世界》的演讲。

他表示，“AI+空间计算”是连接物理与数字世界、推动二维向三维交互跃迁的关键桥梁，正重塑人机交互方式。倪院士还强调视觉是智能的基石，通过重构而非生成物理世界，该技术赋能机器人“看懂”环境。他结合制造业智能化升级的实例，系统阐述了如何通过构建“脑-眼-行动协同”的具身智能系统，将机器人提升至L4、L5级智能水平，最终形成强大的“AI+机器人”生态系统，以释放其作为新质生产力的巨大潜能。

以下为演讲全文：

尊敬的各位嘉宾，女士们、先生们，大家好。很高兴来参加2025世界机器人大会，我和大家分享的题目是《“AI+空间计算”让机器看懂世界》。

我们知道，“AI+空间计算”开启了二维交互向三维交互发展的一个新的方式，是物理世界和数字之间的桥梁，正在重塑人类机器和世界的交互方式，它是推动机器人落地的关键核心技术。

一、“AI+空间计算”：三维交互的新范式

历史上交互范式的改变推动了社会的进步，当前我们进入“语音+视频+空间”交互的新范式阶段，正是从二维交互向三维交互发展的重要时期，空间计算在其中起了重要的作用。

我们看到空间计算对于物理世界来讲，是对物理世界的重构，而不是生成。生成大语言模型目前引领着科技的发展，但是大语言模型不是我们世界的全部，生成式AI不能完全复制复杂的物理世界。空间计算和AI的融合，正以一种全新的方式重构三维物理世界，拓展了大模型通向物理世界的桥梁，促进了物理世界和数字世界之间的融合。所以我们认为，“AI+空间计算”是当前落实人工智能+行动的一项关键核心技术。

二、视觉：智能进化的基石

视觉是智能的起点。在生物进化史中，智能的起点就是物理性，在物理世界来讲，首先是视觉。视觉可以说是智能的起点，是物理空间感知的基础，是大脑与物理世界相互作用的“桥梁”。视觉几乎影响到整个大脑智能的进化，我们整个大脑都参与了来自外界的视觉信息处理。眼睛和智能进化相辅相成。

图灵奖获得者杨立昆教授有一个说法，就是一个典型大模型，其学习的信息量大概是10的14次方字节，就是后面14个0，相当于互联网上所有公开文本信息量的总和，这对一个人来讲，可能要花几十万年才可能学到。但是一个4岁的小孩，从他睁开眼睛到4岁的过程中，能学到的视频信息量大概也就是10的14次方。

这说明我们大语言模型训练所用的文本信息是不够的，我们要认识世界、理解世界还需要用到大量的视频信息，为此我们要重视眼睛。视觉是智能的起点，是物理世界控制感知的基础，是大脑和物理世界作用的桥梁。

三、应用场景：制造业的智能化革命

以一个“AI+机器人”工厂的实际工作情况为例，机器人这里有个绿色的小窗口，它看到的世界基本上和人眼看到的大体相当，但是机器人还加入了AR+空间数据进行理解和一些建模的过程。一个机器人由于有了“眼睛”，它就可以在移动环境中快速地观察环境，知道精确的位置。

以下表为例，我们来看制造业和机器人在不同的工业化时期中的变化。我们把这里分两个时期，一个是传统工业化，一个是新型工业化。德国传统工业化是工业4.0，而新型工业化相当于工业5.0。作为自动制造业的发展来讲，从自动化到智能化的发展，或者像现在“AI+工业制造”的发展，这是两个时期的发展。

对于工厂来讲，它的生产模式在过去，我们强调的是刚性化、标准化。那现在我们要融合什么？柔性制造，融合定制化。作为工厂的管理，过去是人被动地去安排作业，现在是工厂的大脑去自主决策。在过去，工业软件是很多一起应用，现在的情况更多是，工业软件会以工作流的方式渗透到整个的生产工作流程之中。

我们的数字世界、物理世界，在过去相当于是映射的关系，而现在我们要把数字和物理世界融合起来。

作为机器人来讲，要从自动化的工序变成一个智能化的主体。作为工厂的主体，它的控制方式在过去是实时操作系统，现在需要具身智能系统来进行控制。参照驾驶，过去来讲，相当于L1到L3是自动化的，现在我们希望L4、L5作为智能化的自主移动的机器人。同样我们的操作，以前用按键、键盘、鼠标、屏幕，而我们现在可以用自然语言，人可以和它交互，叫它工作，从人工编程发展到大模型编程，从固定工位发展到多工位的移动工作，同时我们不需要部署调整，可以即插即用，这样达到一个高精度的工作。在过去这要花很长时间，而现在移动工作可以做到非常快速，并且是用很低的代价就可以达到很高的精度。

总的来说，我们希望人和机器将来在工厂生产线上是协同的、取长补短的。

按照目前来看，我们认为机器人产业是未来的新兴产业，可能要达到万亿元的规模。在这样一个巨大的机会里面，我们要通过提高机器人产业，发挥它作为新质生产力的作用。

四、构建具身智能系统：脑、眼与行动的协同

机器人的智能一般来说可以分为三大部分：脑、眼和行动系统。这三部分组在一起变成一个具身智能系统，能够全面体现机器人的智慧，发挥它的作用。

就过去来讲，我们在机器人的“脑”和“眼”的方面投入不够，相对说是一个短板，需要特别予以加强，以此更好体现机器人的效能。

正像汽车一样，汽车可以分为L1到L5的不同等级，有些组织也对机器人进行了相似的分类。目前的机器人大体上是L1到L3，我们希望通过“眼睛”和“脑”的发展，把机器人整体的智能水平发展到L4、L5以上，这样的机器人才真正体现出它的能力，特别是在移动、自主、高精度上，能够让机器人在提升生产的效率方面发挥作用。

机器人要从“自动化工具”发展到“AI＋机器人”，为了使机器人达到更高等级的智能，需要从“机器人操作系统”，发展到“机器人智能系统”，即融合环境感知、交互决策、运动控制三大具身智能，可操控机器人并作为机器人智能主体。

那么第一，机器人必须有自己的“大脑”，机器人的“大脑”就是基于大模型的，现在大模型正在引领各方面科技发展和生产的变革。对于机器人操作系统，我们也需要提升到智能系统的水平，进行架构性的变革。机器人有了“大脑”，再加上有了“眼睛”，以及行动的控制，它会在工厂之中发挥重大的作用，按照与人的要求接受指令、接受任务、自主规划，进行投产操作，适应各种场景的需求。

第二部分是“眼睛”，它是智能的起点。生物进化的历史表明，机器人的智能系统应该突出“眼睛”的作用。目前来看，采用“AI＋空间计算”的方案，即用普通的单目摄像头加上神经网络学习组成，这种方案可以达到比较好的效果，具有很高的性价比，使得机器人拥有良好的、类似人的视觉，拥有适应性、好用、易用、实用这些特点。

同时我们也知道机器人要和自身本体，比如它的手脚轮子等发生交互，所以我们需要有一个操作系统。现在来讲，我们建议用开源的AGIROS来支撑机器人的行动，这个开源的操作系统是由中国科学院软件所支持的，AGIROS智能机器人操作系统开源社区是中国科学院软件所倡议发起，旨在通过凝聚智能机器人操作系统产学研用各方力量，共同推动智能机器人操作系统技术及生态的发展，全面推进智能机器人领域的开源开放协同创新，为智能机器人产业夯实基础。

目前有大批的单位以及开发者加入了这个社区，借助开源的力量，AGIROS将在全球机器人业界引领潮流大大增强机器人智能系统的竞争力。

综合起来，今后机器人不仅是一个操作系统，而是包含脑眼和行动协同的一个具身智能系统。自动化的机器人发展到人工智能时代的“AI＋机器人”，能具有更好的智能，更好的性价比，还能发挥更大的竞争力和作用。

这里最后我们可以讲，我们的目标是要构建“AI＋机器人”生态系统，历史上有一些大的生态系统，比如PC时代有“Wintel”，到了移动手机时代有“AA”（Android＋ARM），“RV+OSS”（OpenHarmony、openkylin等)，这都是人类智能体世界，而未来“AI+机器人”也将形成庞大的“AI+RV+脑-眼-行动”生态系统。

五、小结

我把今天的分享归纳为：第一，在当前人工智能引领变革的时代，在国家实施“人工智能＋行动”的大形势下，我们要把自动化的机器人发展到 “AI＋机器人”，更好地发挥它新质生产力的作用；第二，为了达到这个要求，关键在于提升机器人智能水平，我们要用“脑-眼-行动协同”的系统来提高机器人的智能水平，真正让机器人能够看见世界、理解世界、形容世界。

谢谢大家。

【新闻来源】腾讯科技文｜熊腿腿 https://news.qq.com/rain/a/20250810A0327400

（本网转发此文章，旨在为读者提供更多的信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。）