发布日期:2026-05-21 08:51 点击次数:59



"你看过《机械姬》吗?阿谁会骗东说念主的艾娃,简直是 AI 吗?"
一又友瞬息的问题让我堕入想考。电影里,艾娃的每个见地、每句对白皆让东说念主触目惊心——她太像东说念主了,以至于不雅众理所诚然地以为,这便是 AI 的终极形态。
但现实是,艾娃跟咱们咫尺所说的 AI,根蒂是两码事。她的智力寄身于一个叫具身智能的认识。

具身智能并非更高档的 AI,而是一种十足不同的期间旅途:它不依赖大言语模子的法式定律,通过物理身体与环境互动,像婴儿相通学习寰宇。
但由于科幻片的兴起与传播,被误当成 AI 很多年。
今天,就让咱们抛开刻板印象,聊一聊:
为什么具身智能和 AI 不相通?以及咱们离真实的"艾娃",还有几公里?

《机械姬》等影视作品中的机器东说念主形象潜移暗化中强化了"具身智能 =AI "的证实。
但推行上,这是一种误读。
具身智能并不等同于 AI。
要贯通具身智能是什么,领先要分清具身和离身两个认识。
具身指存在或证实必须通过物理身体与环境的交互杀青,强调身体劝诫的基础性作用,如东说念主类;离身指存在或证实不错脱离物理载体孤立存在,强调空洞款式的自主性,如软件、算法。
肖似于 ChatGPT 相通的传统 AI 便是离身智能,不错脱离物理实体杀青记号逻辑的空洞推理,能存在于任何终局。大言语模子通过海量文本测验成立词汇有关性收罗,得出概率映射的最优解。关系词,这种臆造环境中研发出的智能衰退对物理寰宇的感知。它难以贯通提起水杯需要若何的力学截至,也不解白奈何避让瞬息出现的阻扰物。

具身智能则强调与物理寰宇的交互,将智能体的证实智力锚定在特定身体上,十分于"灵肉合一"。这个身体必须领有了了的鸿沟和自我证实:领先,它得是唯一无二的,我方能出动操控的;其次,它要不错与环境交互,并从中积累劝诫、习得司法。这种身体化学习(Embodied Learning)机制,让具身智能的进化旅途与纯数据驱动的 AI 千差万别。
而代表具身智能的东说念主形机器东说念主,更是与 AI 差了一万八沉。
领先,东说念主形机器东说念主必须领有能与现实寰宇互动的物理身体。这不单是是加个外壳那么肤浅,而是要成立一套完整的感知-行为闭环。
其次,这个身体要能动。要让机器东说念主的身体真实活起来,需要打破三浩劫关:精准的抓持截至,比如提起筷子大要豌豆;动态均衡,在山坡、楼梯等不屈坦说念路行走;多任务合作,边步辇儿边端盘子等。

况兼,要给他与寰宇交互的多模态感官。具身智能需要构建比 AI 更丰富的感官体系,不仅要能看(诡计机视觉),还要能听(声源定位)、触(力度响应),甚而闻(化学传感)。
临了,要一个比大言语模子更明智的大脑,基于法式定律的脑子深奥因果。东说念主形机器东说念主的大脑要走寰宇模子这条路,在与真实寰宇的交互中习得劝诫,越过概率,走向司法。
综上,东说念主形机器东说念主是多个顶尖级期间集成的复杂智能体。但这么一个复杂智能体,简直如网上营销的那般,离咱们唯有一步之遥吗?

哪怕翻遍统统最顶尖东说念主形机器东说念主公司的 demo,咱们也只可看到一个不断舞蹈、翻跟头、未必连苹果也拿不稳的东说念主形巨物。它的电板续航频频不够 5h,不时电量告急;复杂的动作需要东说念主工遥控,就跟小孩的遥控赛车一般。不外,小孩的赛车只消几百块,一款机器东说念主需要几十万。
不得不说,这是一个炫技大于实用的认识。
因为咱们假想中的东说念主形机器东说念主,那得是《机器东说念主女友》里能文能武、长得像绫濑遥相通好意思、偶尔清晰反差萌的完好"恋东说念主"才行。

逸想丰润,现实骨感,AI 发展已堕入固有期间设施论的池沼,咱们热衷于大言语模子、热衷于强化学习,却忽略了它们只教化 AI 如何效法,没教化 AI 如何贯通真实而复杂的物理寰宇。
而这恰正是东说念主形机器东说念主向强发展所需要克服的。
近日,图灵奖获取者杨立昆在巴黎 AI 峰会上发表不雅点,要连络东说念主类级 AI 就要不破不立,作念到三个撤废:撤废只会概率诡计的大言语模子、撤废宛如拼图游戏的对比学习、撤废驯狗般赏罚 AI 的强化学习。
东说念主形机器东说念主的脑子需要的是寰宇模子、诡量度法等能与环境交互的期间;东说念主形机器东说念主的身体需要接济素质的仿生枢纽、代表感官的传感器会通系统、肖似小脑的素质截至算法以及当作腹黑的高能量密度电板。
但这些期间恰如 2020 年之前的大言语模子一般,堕入了连络瓶颈。
一方面,是因为太难;另一方面,是成本太高。
举个例子,东说念主类使用器用的智力成立在数百万年进化变成的骨子感知系统上。东说念主类使用螺丝刀时,能通过触觉及时调整持力,并预判旋转时的扭矩变化。而机器东说念主要杀青同等操作,需要打破三浩劫关:0.1 牛顿级的力控精度、高灵敏的触觉分解,以及幸免自碰撞的素质诡计协同。

咫尺开首进的机器东说念主,仍难在不同场景中提起一个调换的苹果。统统科技公司放出的 Demo 简直皆是无杂物的光滑桌子大要空旷、后光足够的实验室环境,要是独揽多出一只梨子,大要苹果不提神滚落到地板,他们就可能束手无措。
另一方面,如波士顿能源 Atlas 的实验机东说念主形机器东说念主研发成本深广向上 200 万好意思元。特斯莱自研"大脑"主控芯片每个 3.2 万,一个贤达手 1.2 万元,当作感官的传感器系统系数 11 万元,接济素质的线性枢纽总成本约 15 万元,而即使杀青量产,后期也要一大笔资金干预维修和珍爱,因为东说念主形机器东说念主有 30 个傍边的枢纽,过程屡次测验磨损后会出现不灵便、卡壳等情况。
不丢丑出,发展东说念主形机器东说念主便是为了造东说念主而造东说念主。可是从工业场景来讲,双足的效果是不踏实的,远远低于轮式底盘和机械臂的组合;且期间不够纯熟,莫得发展旅途,实在称不上一门很合算的生意。
既然性价比如斯低,东说念主形机器东说念主的说法到底从何而来,又为什么如斯火热?

东说念主形机器东说念主是一个被成本炒熟的认识,亦然一场为了融资而造假的狂欢。
2024 年 1 月至 10 月巨匠东说念主形机器东说念主行业共发生 69 起融资事件,总金额向上 110 亿元。其中,有 56 起发生在中国,总金额向上 50 亿元,不少头部企业一轮就融超 10 亿。
可是,面前融资上升源于成本追捧而非期间纯熟,部分公司估值虚高。为了招引融资,企业络续在酬酢媒体上营销打拳、翻跟头等虚伪用的功能,同质化严重,价钱高、智力差、落地难,本质是脱离期间谈异日。
通晓后的成本热开动落潮。

一些企业坠落了。曾估值 30 亿好意思元的达闼科技被曝欠薪、裁人、资金链断裂堕入停摆危境;而素有东说念主形机器东说念主第一股之称的优必选五年亏超五十亿,市值挥发千亿港元。
一些投资方撤资了,朱啸虎批量撤出东说念主形机器东说念主,退出的公司包括星海图和松延能源。
这并非孤例,这个由成本催熟的认识,在历史上至少过程三次幻灭。
1970 年代,早稻田 WABOT-1 初次双足耸峙但动作冉冉、能耗极高,仅实验室展示;
1990 年,工作机器东说念主泡沫,成本高达 200 万好意思元的本田 ASIMO,仅能端茶倒水,2018 年隔断统统有关边幅;
2010 年代的酬酢机器东说念主外传软银 Pepper 因对话机械、价钱不菲、故障率高,在 2023 年停产;
2020 年代,AI 的爆火又一次叫醒了成本对东说念主形机器东说念主的狂欢。但这仍隐敝不了波士顿能源屡次易主谷歌、软银、当代的事实,另一家公司 Atlas 因炫技视频与推行落地脱节,融资越来越少。
回望历史,东说念主形机器东说念主的发展永恒跳不出一个轮回怪圈:老是始于惊艳的实验室 demo 招引成本追捧,继而催生估值泡沫,最终因交易化失败导致资金集体惧怕。
无数企业和资方盛极必衰地演绎着从但愿到幻灭的故事。而这个轮回反复出现,主要有三个原因:

领先,烧钱太猛,但莫得变成交易闭环,莫得找到市集过度依赖投资。造一个东说念主形机器东说念主动辄上百万,比工场里用的机械臂贵几十倍。投资东说念主砸再多钱,也很难找到餍足买单的客户。就像往常本田花 3 亿好意思元研发的 ASIMO,临了只可在科技馆里饰演端茶倒水。
其次,咫尺的期间其实不及以接济东说念主形机器东说念主的爆炸,还处于摸着石头过河的现象。面前 VLA(视觉-言语-动作)模子在动态环境中的造作率仍高达 40%,远未达到自主方案水平;高功耗导致大皆东说念主形机器东说念主仅能衔接职责不到 5 小时,远低于工业需求。
临了,地点跑偏了,文娱属性强、器用属性弱。为了招引投资而不断造假舞蹈、忽略实用性。无法在垂直场景轻松东说念主类职守进步总体效益的机器东说念主,催生了更大的泡沫。
脱离期间谈交易,只是幻梦成空。简直不错料定,即使此轮东说念主形机器东说念主不会落空,也一定像历史相通走向寥寂。毕竟,莫得东说念主餍足花几十万去买一个只会舞蹈的大型机械。但另一方面,值得红运的是,咱们离阿谁会运用东说念主类厚谊的"艾娃"还很远。
世博体育