为什么人类都执着于造“人形”机器人?
从波士顿动力机器人后空翻、众擎机器人的前空翻,到宇树机器人的侧空翻、波士顿动力的侧翻……
机器人都在往「更像人」的动作上,“内卷”。
似乎在众多形态各异的智能机器人中,人形机器人总是会让人感觉“更聪明”,更有可能成为真正和我们"玩到一块"的智能伙伴。
为啥就非得是人形?这要从三个"天生优势"说起:
天生适配人类环境。比如门把手总装在抬手就能拧到的位置、楼梯踏步刚好一步能跨上。
这类设计全是人类给自己开的"后门"“便利”。人形机器人就像拿到乐园通票,开冰箱、坐马桶、用手术刀都不需要改造设备,毕竟人类早把世界改造成了"自己人专属"游乐场。
偷师百万年的人类外挂。比如波士顿动力把人类落地时的膝盖缓冲"复制粘贴"给机器人,让它们从2米跳下能像猫一样稳当。
这些人类进化百万年的"生存经验包",也成了机器人“学习的捷径”。
在应用场景中与人类无缝衔接
当机器人递药片时肩膀倾斜差不到一根头发丝,78%老人会自然伸手去接,这个误差比眨眼还小的动作,像指纹解锁一样打开了人脑的信任系统。
就连迪拜商场的小偷见到巡逻机器人都会绕道走——直立行走的形态威慑力,可比轮式机器人强2.3倍。
当Atlas完成跳马动作,不仅是算法的胜利——它的髋关节结构暗合人类运动原理,身体记忆里还储存着人类体操运动员的数据遗产。
这种你中有我的共生关系,就像钢铁侠的贾维斯——既是AI管家,也是人类认知的延伸镜。
这篇文章我们就具体聊聊:为什么人形机器人是具身智能技术的最佳拍档?
“身体困境”与“人形破局”
认知科学的启示:身体即认知的边界
1980年代,意大利神经科学家在猕猴大脑中发现了一类特殊神经元——当猴子自己抓取食物或观察其他个体做相同动作时,这些神经元都会激活。这便是“镜像神经元”的首次发现,揭示了生物智能的核心规律:认知能力与身体形态密不可分,智能不是光靠脑子,得有个能动手干活的身体。
这一发现支撑了具身认知理论的核心观点:智能并非单纯依赖大脑计算,而是身体与环境互动的产物。
以人类婴儿学习为例,在学会直立行走前,他们的空间感知能力仅限于爬行时的低视角;而当能够站立后,视觉范围扩大50%,物体距离判断误差下降62%(《Developmental Science》2018年研究)。
这说明,身体形态直接决定了智能发展的边界。
▲图1|在上世纪90年代人们在科幻电影中就已经将具备智能的机器人设计为人形,星球大战中的机器人C-3PO可以说是最早期“具身智能+人形机器人”的荧幕形象
麻省理工学院(MIT)在2021年的突破性实验进一步验证了这一理论。研究者为相同AI算法配置了三种不同形态的机器人:轮式底盘、四足结构和类人双足。
在模拟家居场景中,双足机器人在开门、上下楼梯等任务中的学习速度比其他形态快3.2倍。原因在于其身体结构与人类环境的高度匹配,使得算法能直接调用人类行为数据进行预训练。
苏黎世联邦理工学院(ETH Zurich)2023年的对比实验更具说服力:在模拟家庭环境中,人形机器人完成取物、清洁等任务的成功率达82%,而四足机器人仅为47%。差距的核心在于前者可直接调用人类积累的十亿小时级动作数据——当机械臂长度与人类相仿时,抓取冰箱食物的运动轨迹可直接复用YouTube上700万条相关视频数据。
因此,在具身智能的发展路径中,人形结构不仅是效率最优解,更是实现人机认知对齐的必要条件。
真实物理世界的适配性
地球上99.6%的物理设施都是为人类身体设计的(数据来源:国际标准化组织ISO 2022年报告)。
从门把手的94-116厘米安装高度(对应成人肩部活动范围),到楼梯踏步的15-20厘米垂直间距(匹配人类步幅),这些参数构成了“人类中心主义”的技术壁垒。
▲图2|人形机器人在工厂工作:为方便人类工作设计的流水线车间,人形机器人可以“无缝”加入其中,无需为机器人调整流水线上的设置(如零部件的托举高度,使用的工具等等)
这种适配性,更体现在工具使用上。
人类工具的设计遵循“生物力学黄金比例”(在一些产品上也被称作人体工程学):螺丝刀握柄直径(28-32毫米)对应成人手掌抓握舒适区间,汽车方向盘倾斜角度(25-30度)匹配前臂自然弯曲弧度。
波士顿动力Atlas机器人正是基于这些参数设计手部结构,使其无需改造即可操控现存工具库。
这实质上是将人类20万年工具使用史转化为具身智能的预训练数据集,避免了四足或轮式机器人因形态差异产生的数据损耗(改造工具年均成本超120亿美元)。
因此,在具身智能发展进程中,人形结构不仅是效率最优解,更是突破人类技术生态壁垒的最大可行路径。
社会交互及情感需求为人形机器人打造具身基础
人类社交中,55%的信息通过肢体语言传递(Mehrabian定律)。
卡内基梅隆大学人机交互实验室发现:当机器人具备类人头部倾斜动作(15度内)和1.2米/秒的步行速度(接近人类日常步频)时,受试者对其指令的配合度提升30%。
这是因为这些参数触发了人脑中的“类人化认知模块”(可以理解为比起其它物种,人类更愿意与同类交流协作)。
文化行为,也依赖身体形态的兼容性。
日本早稻田大学在礼仪机器人研发中发现:实现15度鞠躬动作需要至少7个自由度(DOF)的腰部关节,而传统工业机器人仅具备3-4个DOF。
当机器人能准确复现人类礼仪动作时,老年受试者的心理接受度从41%跃升至79%。
▲图3|提到文化行为,没有什么比今年央视春晚的机器人扭秧歌更有代表性了
这些科学证据共同指向一个结论:人形机器人并非追求外观拟人化,而是通过形态的拓扑同构(topological isomorphism),突破具身智能在物理交互、数据获取和社会融入方面的根本性限制。
当机器人身体成为人类文明的“镜像接口”,智能进化的效率将实现量级跃升。
我们准备好迎接机器人了吗?
尽管具身智能给人形机器人找出了新的道路,让机器人的进化开始加速,但这个行业的发展仍处于早期,对未来趋势的判断也有不同观点。有的技术专家给出了7-10年机器人就可以实现通用能力的判断,有的则认为需要更长的时间。这是因为在机器人的大脑和本体层面,从业者之间都还存在技术路线的分歧。就“端到端”的架构而言,虽然其上限很高,但也存在有“不可解释性”的弊端,也就是人们常说的“黑箱”状态。因为不知道数据输入后,中间经历了什么样的计算过程,科学家们也无法解释机器人任务失败的原因。
在大部分场景下,人们能够容忍机器人犯一定的错误,但在某些场合下如果要求必须分析原因,找到解决办法,这会变得很棘手。中国科学技术大学计算机科学与技术学院教授、机器人技术标准创新基地主任陈小平说,这对机器人的落地应用是一个阻碍。“训的时候效果挺好,但用的时候又不好,不知道是怎么回事,也不知道怎么修改。有些用户可能就觉得心理没底,你到底要多少数据,你缺什么样的数据,这些都不明确,人家就很难配合你。”
而在数据的层面,到底需要需要什么样的数据,需要多大规模的数据,怎么获取这些数据,整个行业也分成了不同的流派。我们采访了不同的创业公司,有的公司认为真机数据最重要。真机数据通常是人类操作员通过遥控或辅助机器人进行任务操作而采集到的数据。所以这些公司会把机器人送进工厂,或者建设集中的数据采集场,部署大量的操作人员和机器人来采集数据。还有的公司相信仿真数据是解决问题的核心。仿真数据是在计算机模型中模拟真实场景,对机器人进行虚拟训练,最终得到的数据。
人形机器人发展如火如荼,大众情绪也烘托至此。我们能感觉到已经身处在一轮技术巨变的浪潮之中。但技术会把我们带向何方,我们并不清楚,这种讨论的声音也十分微弱。虽然国家科技部、工业和信息化部2019年就制定了《新一代人工智能治理原则》,中国国家机器人标准化总体组委托北京大学出版了《中国机器人伦理标准化前瞻2019》,国内一些高校和机构近年来也在开辟关于人工智能研究与治理的方向。但是,技术的演进和跃迁速度,往往迅速将专家们达成的原则、框架和共识甩在身后。
北京人形机器人创新中心有限公司推出的“天工”号机器人正在不同路面进行行走能力演示(蔡小川 摄)
人形机器人产业如今的发展,很大程度上还是基于技术和资本的逻辑,对于它可能带来的失业问题、安全和伦理风险等,都缺乏与技术发展相匹配的研究和共识。技术界和产业界忙着攻克机器人的技术难关,布局规模化生产能力,根本无暇顾及这些问题。而传统的研究伦理的人文社科学者,则对发展越来越快,越来越艰深的智能技术体系和产业缺乏深入的、足够丰富的经验,这对他们的研究和思考构成了阻碍。
北京大学刘哲教授在北大组织开设的“人工智能、机器人与伦理”课程,需要由五个院系的老师共同教授,而目前这样的课程尚不多见。他说,“人形机器人”的概念本身就值得反思,而伴随机器人的智能而来的自主性,已经给人类社会带来多重伦理困境,需要更多的社会资源和注意力投入其中进行研究。
如果能够实现所谓的通用能力,人形机器人将与人类历史上的蒸汽机、汽车、计算机、手机等所有的单一技术或工具都不一样,它会以具身方式进入人类的生产与生活场景,与我们直接进行物理的、乃至精神的接触,甚至在很多场景下接替人类的决策者身份。这将直接冲击人类的主体性地位,我们的道德经验、伦理规范和法律准则,可能都需要重新调整。
著名的科幻小说家艾萨克·阿西莫夫20世纪40年代提出了“机器人三原则”:
第一,机器人不得伤害人类,或坐视人类受到伤害;
第二,除非违背第一原则,机器人必须服从人类的命令;
第三,在不违背第一及第二原则下,机器人必须保护自己。
80年过去,社会和技术环境都发生了巨大变化,我们对这些机器人的认识似乎还没有超越这些原则,但今天的我们,越来越接近科幻小说里的情节
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。