机器人进化之路到了“最后一公里”
摘要:未来,随着具身智能技术的不断突破与产业应用的逐步落地,我们有理由相信,一个更加智能、高效、和谐的人机共生社会即将到来。
从左到右依次是帕西尼感知科技首席技术官张恒第、上海交通大学人工智能研究院助理教授穆尧和复旦大学计算机科学技术学院教授、博士生导师肖仰华。
近日,一场聚焦具身智能的深度研讨引发了业界与学界的广泛共鸣。复旦大学教授肖仰华、上海交通大学教授穆尧及帕西尼感知科技CTO张恒第等三位行业权威专家共聚一堂,就具身智能的技术演进、产业落地挑战及社会影响等核心议题展开了深入剖析与前瞻探讨。此次对话不仅揭示了具身智能从概念验证到实际应用的艰难跨越,更为中国AI产业乃至全球智能科技的发展路径提供了深刻洞见。
技术飞跃:具身智能的“感知-决策-行动”闭环构建
具身智能领域正经历着从单一功能到全面智能化的深刻转型。穆尧指出,过去一年中,该领域在端到端大模型、数据采集技术及仿真技术三大方面取得了突破性进展。美国Physi-cal Intelligence公司推出的π系列模型,凭借其卓越的少样本学习能力,为机器人快速适应新环境并执行复杂任务提供了可能,标志着机器人智能水平从L2级向L4级奋力迈进。
同时,数据采集技术的革新成为推动具身智能发展的关键力量。ALOHA的主从臂遥操作、VR操控及光学动捕等技术的突破,不仅大幅提升了数据采集效率,更为行业提供了海量、高质量的真实世界交互数据。北京、上海等地发布的百万级真机数据集,如AGI Bot World项目,为机器人学习算法提供了丰富的训练素材。
在仿真技术方面,生成式模型的应用使得仿真效果从“视觉逼真”向“物理交互逼真”迈进。尽管完全真实的物理交互仿真仍面临挑战,但仿真技术已成为机器人训练不可或缺的重要支撑。张恒第从产业实践角度补充了触觉传感器的重要性:“触觉传感器的突破,使机器人能够精准感知温度、力度和滑落状态,这些实时交互数据对于提升模型的泛化能力和环境适应性至关重要。”帕西尼科技正积极推动从VLA(视觉-语言-动作)模型向VTLA(视觉-触觉-语言-动作)模型的演进,通过引入触觉模态,构建更加全面、鲁棒(强壮、可靠)的环境感知与决策系统。
模型架构之争:端到端与分层系统的融合创新
在模型架构层面,VLA已成为具身智能领域的主流范式,但底层架构的探索仍在进行中。Figure AI等公司从分层结构转向端到端模型的实践,引发了业界对模型架构未来发展方向的广泛讨论。穆尧强调,任务处理需要分级进行,短程任务适合采用端到端模型直接解决,而长程、复杂任务则需要引入深度思考机制,实现系统一(直觉反应)与系统二(理性思考)的协同工作。
肖仰华用人类认知的类比,深入阐述了系统一与系统二的互补性:“系统一负责快速、自动化的直觉反应,处理常规任务;系统二则负责慢速、深思熟虑的理性思考,解决复杂决策问题。完全依赖端到端的系统一虽然高效,但成本高昂且缺乏灵活性,需要系统二进行补充和调节。”他预测,未来具身智能将沿着“系统一+系统二”的融合路线发展,不断提升系统一的自主决策能力,同时强化系统二的深度思考与规划能力。
张恒第分享了产业实践中的经验:“在工厂环境中,我们仍然采用SOP(标准作业程序)与规则系统确保操作的可靠性与安全性。但这些经验正在被转化为专家数据,用于训练端到端模型,提升机器人在复杂环境中的自主决策与适应能力。”
数据挑战:真实世界与仿真环境的双向赋能
数据不完备是具身智能发展的核心瓶颈之一。肖仰华直言:“数据是智能的基石,如果有足量、高质量的数据,任何智能算法都能实现显著的性能提升。”然而,具身智能需处理物理世界交互的复杂数据,其规模与多样性远超传统语言模型,数据采集与标注成本高昂且效率低下。
仿真与真实世界之间的鸿沟成为制约具身智能发展的关键因素。张恒第展示了帕西尼与英伟达的合作案例:“我们将高精度触觉仿真器整合进Isaac机器人训练框架,但仿真数据与真实世界交互仍存在显著差异。尽管通过参数辨识等技术可以提升仿真精度,但逼真物理交互仿真仍存在算力消耗巨大且难以完全模拟真实世界的复杂性。”为此,帕西尼选择通过手套设备采集真实力道数据,结合仿真技术进行数据增强与模型训练,以更接近真实环境的方式提升机器人的感知与决策能力。
穆尧则指出,刚体仿真技术已相对成熟,但柔性体、流体等复杂对象的仿真仍是难点。他建议,先从刚体任务入手,逐步积累仿真与真实世界交互的经验,再向更复杂的对象与场景拓展。同时,他强调了互联网视频数据在机器人学习中的潜在价值:“互联网视频蕴含大量人类行为数据,但数据清洗与标注难度大,且缺乏动作标签和多视角信息。如何有效利用这些数据,是当前具身智能领域亟待解决的问题。”
产业落地:从“炫技”到“实用”的渐进式发展
尽管Demo环境可控且效果惊艳,但真实场景中的复杂性与不确定性让具身智能的落地充满挑战。张恒第坦言:“让机器人在真实场景中完成叠衣服等精细操作目前存在挑战。”Figure等公司的展示尚未达到生产线实用要求,当前落地主流仍是基于规则系统的简单任务执行。
穆尧提出务实建议:“不应追求一步到位的通用型家庭保姆机器人,而是先从特定场景入手,如扫地机器人加简单操作臂的组合,逐步增加捡拾衣物、整理物品等基础功能。”他强调,控制成本增加幅度是提高消费接受度的关键,若能在现有产品基础上增加少量功能而成本增加有限,将极大推动具身智能产品的市场化进程。
肖仰华则倡导差异化发展策略:“具身智能应走专业化、场景化路线,针对特定行业或场景进行深度优化与定制。扫地机器人只需专注扫好地,无需具备叠被子的能力;医疗机器人则需专注于精准操作与患者护理。通过专业化发展,提升产品性能与用户体验,逐步构建具身智能产品的生态体系。”
社会影响:人类价值的重新定义与教育体系的变革
具身智能的发展不仅是一场技术革命,更是对人类社会结构、经济形态及教育体系的深刻重塑。肖仰华警示:“AI正在动摇人类文明根基,如果机器人能提供全部产品和服务,传统经济学的前提将不复存在,人类需重新思考自身在经济活动中的角色与价值。”然而,他也看到技术带来的积极面:“技术始终在提升人类自由程度,机器取代无聊、重复劳作后,人类可更专注于探索、创造与情感交流等更高层次的活动。”
张恒第持乐观态度:“人类正从‘执行者’向‘决策者’与‘创新者’角色转变。未来可能出现‘AI公司’,人类负责战略规划与创意设计,AI承担所有执行与运营工作。这一变革将对人类技能需求产生深远影响,要求我们不断提升自身在创造力、批判性思维与情感智能等方面的能力。”
这一变革对教育体系提出了新要求。肖仰华指出:“AI倒逼人类成为‘终身学习者’与‘复杂问题解决者’,我们必须培养强大心理适应力与自主学习能力,革新教育体系,减少应试训练,加强美育、体育、德育及跨学科整合教育。”他强调,未来教育应更加注重培养学生的创新思维、团队协作能力及社会责任感,以适应智能时代对人才的新需求。
未来展望:人机共生的新文明形态构建
尽管具身智能仍在落地“最后一公里”的征程中摸索前行,但专家普遍认为,这为人类社会提供了宝贵的适应与准备时间。技术发展节奏可能较媒体宣传更为稳健,但方向已然明确:具身智能将与人类共同构建一个物质极度丰富、角色重新定义、价值体系重构的新时代。
肖仰华总结道:“‘有脑子’的AI(大模型)可能比‘有身体’的AI带来更深远革命,因为思想无边界,而身体注定是一种限制。但具身智能作为AI的物理延伸,将极大地拓展人类的能力边界与活动空间。”在这场变革中,人类既需要积极拥抱技术解放生产力,更要前瞻性思考如何在新文明形态中定位自身价值。从执行者转变为创造者、探索者和领导者,或许才是人类面对智能时代的根本出路。
未来,随着具身智能技术的不断突破与产业应用的逐步落地,我们有理由相信,一个更加智能、高效、和谐的人机共生社会即将到来。
(本文、图片来自腾讯研究院在上海举办的《仲夏六日谈》第四季第五期高端对话活动,中国发展改革报社报记者张守营编辑整理)
责任编辑:刘丹阳