Embodied AI Deep Research — 2026 Q1

具身智能全景深度研究报告

碳硅纪的黎明

Software 3.0走进了物理世界。这不是又一个AI概念的泡沫,是自互联网以来最大的技术范式迁移——只不过这一次,AI长出了手脚。

v2.0 · 2026年4月 · 数据截止 2026-04-14
向下滚动
01

具身智能的本质
Software 3.0走进物理世界

不是"更聪明的机器人",就像iPhone不是"更好的诺基亚"——这是一次范式跃迁

具身智能四层技术栈

这不是机器人升级,这是一个全新物种

编程语言在历史上经历了三次根本性变化。Software 1.0是人类用C、Python写明确的规则;Software 2.0是让神经网络通过数据自己学出规则——权重就是代码,数据集就是源代码,训练过程就是编译器;Software 3.0是用自然语言"编程"大模型。

而具身智能,本质上是让Software 3.0走出屏幕、走进物理世界。AI不再只是处理文本、图像、代码——它开始直接操作物理现实。这和之前所有AI技术的区别,就像"在纸上画飞机"和"真的造一架飞机"的区别。

具身智能的四层技术栈

Layer 1
感知层
视觉(摄像头、LiDAR)、触觉(力传感器、柔性皮肤)、本体感知(IMU、编码器)——让机器人"感受"物理世界。
Layer 2 · 大脑
认知层
大语言模型+世界模型的融合体,负责理解任务、推理规划、做出决策。这是目前最大的瓶颈。
Layer 3 · 小脑
控制层
将高层决策翻译成关节力矩、运动轨迹,以毫秒级速度闭环控制。技术成熟度已远超认知层。
Layer 4
执行层
伺服电机、减速器、灵巧手——把控制信号变成物理动作。中国供应链优势极为突出。

为什么是2026年?

三个关键变量的时间窗口在2024-2026年同时打开了:

变量一
大模型涌现能力
GPT-4级别的模型开始展现真正的"推理"能力,使机器人认知层第一次有了通用化的可能。
变量二
Sim2Real成熟
仿真到现实的迁移学习技术取得突破,训练成本和时间大幅下降——英伟达Isaac Gym功不可没。
变量三
中国供应链Ready
谐波减速器、力传感器、伺服电机的国产替代使得整机BOM成本降至商业化临界点。
02

七十年进化史
从Shakey到Optimus

不是一条平滑的曲线,而是一段被几次关键突破打断的长期沉寂

具身智能发展历史时间轴

四个纪元的跨越

纪元一 · 1950s—1990s
机械时代
1950年图灵提出"机器能否思考?",1966年MIT推出Shakey。本质上是预编程的机械装置,精密的钟表而非智能体。三大AI学派(符号主义、连接主义、行为主义)在此奠基,行为主义正是具身智能的思想源头。
纪元二 · 1990s—2010s
感知觉醒
1997年"旅居者号"火星着陆——可能是第一个真正的具身智能系统;2000年ASIMO震惊世界;2002年Roomba开启消费级元年;2013年波士顿动力Atlas亮相。核心突破:感知技术——机器人从"盲人"变成了"能看到世界的存在"。
纪元三 · 2010s—2020
AI融合
2016年AlphaGo击败李世石,2018年OpenAI Dactyl灵巧手学会旋转魔方。AI从"感知工具"升级为"决策引擎",人机交互从指令式转向协作式。
纪元四 · 2020—至今
大模型爆发
2022年Tesla发布Optimus,2024年Figure AI融资6.75亿美元创纪录,2025年全球出货量破万台,2026年Tesla量产+宇树IPO(募资42亿元)。核心变量:大模型——一个模型,理论上完成无限多的任务。
03

2026 Q1 五大技术突破
信号与噪音

在每周都有"突破性进展"的领域,区分真正的技术信号和市场噪音是最重要的能力

宇树机器人春晚表演

突破一:宇树G1春晚表演——技术一致性的胜利

2026年春晚,宇树科技H2人形机器人以全球首次高动态集群控制表演登场,呈现武术节目《武BOT》。多台G1机器人完成了后空翻、双截棍等高难度动作。

春晚表演是预编排的——但这恰恰证明了技术一致性。在高压舞台环境下(灯光变化、声音干扰、直播无容错),多台机器人稳定执行复杂动作序列,说明底层控制系统已达到工业级可靠性。

从march-of-nines的视角看:能在春晚直播不出错,意味着系统在"最坏场景"下的可靠性已经足够——从"实验室能跑通"到"产品级可部署"的标志。宇树IPO同步推进——拟募资42.02亿元,年收入超2亿美元。

宇树科技2026春晚《武BOT》完整表演

突破二:灵巧手SOTA——具身智能的"最后一公里"

Sharpa Wave灵巧手
Sharpa Wave灵巧手——荣获CES 2026创新大奖,10个主动自由度,指尖力控精度达0.1N级别

灵巧手是人形机器人最难也最关键的部件。人类90%的物理任务需要手部操作。一个能稳定行走但不能精细操作的机器人,应用场景极其有限。灵巧手的突破直接打开了工业装配、家庭服务、医疗辅助等高价值场景。从供应链角度看,灵巧手也是核心零部件中国产替代进展最慢的环节——掌握这一技术的企业将占据关键卡位。

突破三:英伟达WAM范式——Physical AI的新"编译器"

GTC 2026上,英伟达推进GR00T系列基础模型,核心概念是WAM(World Action Model)——世界动作模型。世界模型负责理解环境状态和预测变化,动作模型负责基于预测生成最优动作序列,两者形成端到端闭环。数据效率大幅提升,泛化能力显著增强。

创业机会:WAM的工具链目前严重缺失——垂直场景微调、EGO数据采集处理、场景化benchmark建设,都是空白地带。但要警惕:英伟达的叙事总是很宏大,Demo效果和部署可靠性是两回事。

突破四:银河通用打网球——动态感知的里程碑

银河通用人形机器人成功打网球——技术含量比表面看起来高得多。网球飞行速度快、每次球路不同、需要全身多关节实时协同——这是一个无法预编排的真实动态任务

银河通用人形机器人打网球完整Demo(B站)

局限性也要诚实面对:依赖外部摄像头、网球场是结构化环境、只验证了单一任务。但核心意义在于:先证明能做到,再谈怎么优化

突破五:波士顿动力电动Atlas——"超人形态"的设计哲学

CES 2026上,波士顿动力展示生产就绪版Atlas:全身仅两种旋转电机、腰部可360°旋转、左右腿可互换。设计哲学:性能冗余+结构极简——不追求"像人",而是追求"比人更适合干活"。

波士顿动力Atlas CES 2026 完整演示(B站)

对比Tesla Optimus的高自由度腱绳驱动方案,两条路线哲学差异巨大:波士顿动力走"性能冗余+极简结构",Tesla走"高度仿人+汽车供应链降本"。未来可能不同场景赢家不同——工业场景Atlas更合适,家庭场景Optimus更有亲和力。

04

产业链全景
从一颗减速器到一个通用机器人

三层闭环正处在剧烈的重构期——价值分布、竞争格局、技术路线都在快速变化

产业链全景图

上游:六大核心环节

关节/传动/执行器是最关键的环节。日本哈默纳科、纳博特斯克主导高端减速器市场,但国产替代正在加速——绿的谐波已进入Tesla Optimus供应链。

传感器领域,高端六维力/触觉传感器国产化率仍然很低,投资机会显著。算力芯片是争议最大的环节,英伟达高端垄断短期不可撼动,但端侧推理芯片竞争格局完全不同。

能源/电源正从锂电池向半固态切换;仿真设计英伟达Omniverse占主导;核心材料中国在稀土永磁、碳纤维等领域有资源禀赋优势。

中游:中美两种模式的较量

美国模式
算法领先 · 高端定制
代表:Tesla、Figure AI、波士顿动力。优势在算法原创性和品牌溢价。
中国模式
供应链整合 · 性价比为王
代表:宇树、优必选、智元。优势在成本控制和落地速度。

这和智能手机时代的"苹果 vs 安卓阵营"高度相似——大概率也会形成类似结果:美国赢高端,中国赢规模。

下游:六大应用场景

场景成熟度市场空间关键客户
工业制造★★★★千亿级汽车、3C、新能源
物流仓储★★★★千亿级电商、快递
商用服务★★★百亿级酒店、餐饮、零售
医疗康复★★★百亿级医院、养老机构
家庭消费★★万亿级(远期)家庭用户
特种作业★★★百亿级电力、消防、军工

国内28家核心玩家速览

人形/具身智能(10家):优必选、宇树科技、智元机器人、星动纪元、众擎机器人、逐际动力、傅利叶智能、达闼机器人、小米机器人、银河通用。

工业机器人(9家):新松、埃斯顿、汇川技术、埃夫特、节卡、拓斯达、珞石、勃肯特、钱江。

服务/移动/特种(9家):擎朗、普渡、云迹、极智嘉、海康机器人、九号、高仙、天智航、万勋。

05

大脑与小脑
一把越拉越大的剪刀

小脑准备好了,大脑没有——机器人能做后空翻,但不知道为什么要做后空翻

大脑与小脑功能对比

"剪刀差"——行业最突出的矛盾

大脑(认知决策层)负责高级认知——理解任务、逻辑推理、全局规划。处理速度慢但视野广,面对的是"理解世界"这个开放式问题。

小脑(运动执行层)负责底层物理操作——精准运动控制、动态平衡、实时反馈调节。以500Hz-1kHz频率闭环控制,面对的是"执行指令"这个相对封闭的问题。

宇树G1能做后空翻、银河通用能打网球、Atlas能做体操——运动执行能力已经相当惊人。但如果你问这些机器人"帮我整理一下客厅",它们几乎做不到。有手有脚,缺脑少魂。

为什么大脑比小脑难得多?

原因一
问题空间维度不同
小脑面对物理空间(有限维、有约束),大脑面对语义空间——意图理解、常识推理、因果判断,几乎无限维。
原因二
数据可获取性不同
小脑可以在仿真中1000倍速训练(Sim2Real),大脑需要真实场景多模态交互数据——只能在现实中缓慢积累。
原因三
评估标准不同
小脑好坏可量化(速度、稳定性、成功率),大脑"理解力"很难量化——真正理解了?还是表面匹配?

Sim2Real:英伟达Omniverse虚拟训练工厂

小脑之所以进化快,很大程度上得益于仿真训练(Sim2Real)的成熟。英伟达Omniverse + Isaac Sim构建了一个完整的"虚拟训练工厂"——机器人可以在高度逼真的物理仿真环境中以1000倍速度进行强化学习训练,然后将学到的策略直接迁移到真实硬件上。

这意味着一个机器人在仿真中"练习"一天,相当于在真实世界中练习了近3年。这种数据生产效率的差异,正是小脑远超大脑的核心原因之一。
NVIDIA Isaac Sim虚拟环境机器人训练完整演示(B站) 英伟达Isaac GR00T N1:人形机器人开源大模型(B站)

端侧算力:英伟达的创新者窘境

英伟达云端GPU太赚钱(利润率极高),导致端侧芯片内部资源分配天然弱势——给国产芯片打开了机会窗口。

地瓜机器人(地平线旗下)是最值得关注的玩家——2026年3-4月完成B1+B2两轮共2.7亿美元融资。滴滴、美团、高瓴联袂投资。自动驾驶端侧芯片经验可直接迁移到机器人场景,提供全栈方案。

06

世界模型 vs 大语言模型
具身智能的灵魂之争

LLM是人类精神的随机模拟,世界模型是物理规律的虚拟模拟器

世界模型与LLM对比

一个根本性的区别

维度LLM世界模型
核心逻辑预测下一个词(统计规律)预测下一个状态(物理规律)
训练数据互联网文本(海量、低成本)多模态感知+物理交互(稀缺、高成本)
物理理解没有。说错话只是尴尬有。预测错了可能撞墙
发展阶段成熟,商业化完善早期爆发,快速迭代

未来具身智能的大脑是二者的深度融合——就像人类大脑中处理语言的布洛卡区与处理空间的顶叶皮层协同工作。

世界模型创业潮:两位AI教父的押注

李飞飞的World Labs:空间智能的商业化先锋

2024年9月创办,聚焦空间智能(Spatial Intelligence)——让AI理解三维空间中"在哪里"以及"如何交互"。2025年11月完成10亿美元B轮融资,估值50亿美元(a16z、Google、NVIDIA投资)。

核心产品Marble世界模型——从单张2D图像生成可交互3D场景。如果机器人大脑内置精确的3D世界模型,它就能在"想象"中预演动作、评估风险——类似人类的"心理预演"。

杨立昆的AMI Labs:JEPA架构的产业化赌注

JEPA架构原理图
JEPA(Joint-Embedding Predictive Architecture)架构——在潜在空间中预测,而非像素/token空间

2025年6月创立,种子轮即获10.3亿美元融资(估值35亿美元),创AI种子轮历史纪录。技术基于JEPA——在潜在空间(latent space)中进行预测,意味着它预测的是"事物的本质特征"而非"表面表现"。

维度World Labs(李飞飞)AMI Labs(杨立昆)
核心概念空间智能JEPA世界模型
技术路线2D→3D场景生成与交互潜在空间预测与规划
代表产品Marble世界模型LeWorldModel(LeWM)
融资规模$10亿B轮(估值$50亿)$10.3亿种子轮(估值$35亿)
对具身智能3D场景理解→空间认知物理直觉→行为预测

两个项目并不矛盾——World Labs做的更像"视觉皮层"(看懂世界的结构),AMI Labs做的更像"前额叶皮层"(预测世界的变化)。未来最强的具身智能大脑,很可能需要同时整合这两种能力。

07

全球竞技场
谁在造机器人,谁在赢

中美双极,日韩欧跟随——"苹果 vs 安卓"格局的复现

全球格局

美国阵营
基础研究+大模型+高端算力
Tesla Optimus(年产能10万台目标)、Figure AI(估值26亿+)、波士顿动力(运动控制天花板)、Agility Robotics(亚马逊仓库试运行)。
中国阵营
供应链+制造成本+量产速度
供应链完整度全球第一,BOM成本比美国低30-50%,场景丰富度最高(全球最大制造业和服务业市场)。

中国企业三级梯队

梯队代表企业核心特征
第一梯队宇树科技、优必选、智元机器人技术+商业化双验证
第二梯队星动纪元、银河通用、逐际动力、傅利叶高速成长/技术突破型
第三梯队小米、达闼、众擎场景深耕/跨界入局

三种商业化路线

路线代表逻辑风险
垂直整合Tesla自研芯片+自造整机+自用场景组织复杂度极高
平台生态英伟达/波士顿动力提供平台工具,第三方造机器人平台粘性待验证
场景驱动中国企业群从具体场景切入,快速迭代难以形成通用能力
08

资本市场
泡沫的A面与B面

关键问题不是"有没有泡沫",而是"泡沫破裂时你持有的公司能不能活下来"

资本市场泡沫AB面

泡沫确实存在,但不全是坏事

中国估值超100亿的具身智能公司已超20家(大模型最热时只有四五家)。FOMO情绪明显。但互联网泡沫、移动互联网泡沫、AI泡沫——每一次都催生了伟大的公司。泡沫的核心功能是加速资源聚集

投融资数据总览

>$200亿
2024-2025全球融资总额
$6.75亿
Figure AI单轮最高纪录
42亿元
宇树IPO拟募资额
>40%
中国融资事件占比

宇树IPO的三重信号

信号一
行业成熟度标志
头部公司上市说明行业从"早期探索"进入"规模化"阶段。
信号二
估值锚定
宇树的上市估值将为其他公司提供基准参考。
信号三
退出渠道验证
早期投资者看到退出路径,资本循环链条闭合。
09

十个大胆猜想
碳硅纪的未来图景

不是确定性预测,而是一套思考框架——理解"具身智能将如何重塑世界"

碳硅纪未来愿景
猜想一
警惕智能沙文主义
过度崇拜AI能力、忽视人类主体地位是最值得警惕的倾向。AI是从人类数据中召唤出来的幽灵——有人类心理的投影,但没有人类的本能、具身性和生存压力。它是工具,不是主人。
猜想二
碳硅纪——生产力过剩时代降临
到2040年,全球制造业50%以上的物理劳动可能由具身智能完成。核心问题不再是"如何生产更多",而是"如何分配过剩"——碳硅纪或将催生一套"后稀缺经济学"。
猜想三
首位数理论——人类永远是那个"1"
人类是价值创造者、规则制定者、最终决策者。AI是后续的零——放大手段。1后面加再多零,价值都来自那个1。没有1,再多零等于零。
猜想四
"超级个体"时代——1人+N台机器人=1家公司
一位独立创业者用自然语言向"机器人团队"下达指令——大脑模型完成设计、3台人形机器人完成组装质检包装、配送机器人送达物流网络。这是Shopify+3D打印+ChatGPT生态的自然延伸。
超级个体时代
"超级个体"时代——一个人+N个机器人=一家完整的公司
猜想五
具身智能的"iPhone时刻"
价格曲线重演智能手机路径:2026-2027年<$10万(企业)→ 2028-2030年$2-5万(家用简化)→ 2032-2035年~$1万(成熟家用),全球年出货量破亿台。
猜想六
"机器人即服务"(RaaS)——具身智能的云计算时刻
从"卖硬件"转向"卖服务"。企业按小时/按任务付费租用机器人劳动力。RaaS需要三大基础设施:远程管理+OTA、标准化技能市场、可信计费体系。谁先建成RaaS平台,谁就可能成为"机器人时代的AWS"。
RaaS平台概念
Robot-as-a-Service平台——像叫网约车一样按需调度机器人劳动力
猜想七
具身智能军备竞赛
继核武器、半导体之后的第三大国家级战略资产。2030年代可能出现"具身智能出口管制","机器人外交"成为国际关系新维度。
猜想八
意识边界——当机器人"表演"情感
5-10年内,第一起全球讨论事件可能是有人声称与家用机器人建立了"真正的情感联结"——引发哲学、社会、法律三层争论。
猜想九
空间智能革命——机器人重塑物理世界
住宅内置机器人充电站;"无灯工厂"建在沙漠、极地甚至海底;到2040年代,可能出现第一座专为"碳硅混合居民"设计的城市。
猜想十
寒武纪物种大爆发
人形只是一种形态。未来数百种"机器物种"——蛇形管道机器人、蜘蛛型高楼清洁、鸟型农田巡查、水母型海洋清理——形成完整的"机器生态系统"。
寒武纪机器物种大爆发
寒武纪机器物种大爆发——数百种针对特定场景优化的"机器物种"共存于同一个生态系统
10

全球视角的投资与风险识别

三维度评估模型 × 四类风险矩阵——给投资者的系统化框架

市场规模与投资图

市场规模:多源数据交叉验证

维度2024年2025年2030年2035年来源
全球具身智能市场~$15亿$20-30亿$230亿MarketsandMarkets
全球人形机器人~$16亿$380亿Goldman Sachs
中国具身智能支出>$14亿$770亿IDC

复合增长率约50-60%。但不同机构2030年预测差异可达3-5倍,建议取中位数作为基准。

投资框架:三维度评估

维度一
技术壁垒深度
核心问题:有什么别人短期做不了的?不要被Demo迷惑——问"1亿次使用下会怎样?"尾部行为才是竞争力。
维度二
数据飞轮强度
有没有在真实场景积累数据的机制?部署量×运行时长×场景多样性。有飞轮指数级增长,没飞轮线性增长。
维度三
供应链控制力
核心零部件自研还是外购?硬件终极竞争力:"同等性能下成本更低"或"同等成本下性能更好"。

风险矩阵:四类风险

概率中高 · 影响高
技术风险
LLM"幻觉"的物理放大效应;长尾场景的指数级难度;Sim2Real鸿沟——仿真无法完全复刻真实物理世界。
概率中 · 影响中高
商业风险
成本下降不及预期;ROI验证周期长(6-12个月);硬件毛利低(20-30%),售后维护成本高。
概率中 · 影响高
社会风险
大规模就业替代;安全事故责任归属空白;隐私与数据安全——机器人是最强"数据采集器"。
概率中 · 影响高
地缘政治风险
芯片/算法出口管制;中美技术标准割裂;供应链"脱钩"推高成本。

投资配置建议

配置方向权重核心逻辑代表标的
上游核心零部件30-40%确定性最高,国产替代清晰减速器、传感器、端侧芯片
中游整机头部25-35%弹性最大,押注赢家头部3-5家整机公司
下游应用场景15-25%想象空间最广工业/物流/医疗集成商
基础设施/平台10-15%对冲单一企业风险算力平台、仿真工具

红线原则

不投没有实际产品和客户的"PPT公司" · 不投核心团队无硬件量产经验的企业 · 不投估值透支未来5年以上增长的标的 · 不过度集中于单一环节

参考资料与数据来源