具身智能全景深度研究报告
Software 3.0走进了物理世界。这不是又一个AI概念的泡沫,是自互联网以来最大的技术范式迁移——只不过这一次,AI长出了手脚。
Software 3.0走进了物理世界。这不是又一个AI概念的泡沫,是自互联网以来最大的技术范式迁移——只不过这一次,AI长出了手脚。
不是"更聪明的机器人",就像iPhone不是"更好的诺基亚"——这是一次范式跃迁

编程语言在历史上经历了三次根本性变化。Software 1.0是人类用C、Python写明确的规则;Software 2.0是让神经网络通过数据自己学出规则——权重就是代码,数据集就是源代码,训练过程就是编译器;Software 3.0是用自然语言"编程"大模型。
而具身智能,本质上是让Software 3.0走出屏幕、走进物理世界。AI不再只是处理文本、图像、代码——它开始直接操作物理现实。这和之前所有AI技术的区别,就像"在纸上画飞机"和"真的造一架飞机"的区别。
三个关键变量的时间窗口在2024-2026年同时打开了:
不是一条平滑的曲线,而是一段被几次关键突破打断的长期沉寂

在每周都有"突破性进展"的领域,区分真正的技术信号和市场噪音是最重要的能力

2026年春晚,宇树科技H2人形机器人以全球首次高动态集群控制表演登场,呈现武术节目《武BOT》。多台G1机器人完成了后空翻、双截棍等高难度动作。
春晚表演是预编排的——但这恰恰证明了技术一致性。在高压舞台环境下(灯光变化、声音干扰、直播无容错),多台机器人稳定执行复杂动作序列,说明底层控制系统已达到工业级可靠性。
从march-of-nines的视角看:能在春晚直播不出错,意味着系统在"最坏场景"下的可靠性已经足够——从"实验室能跑通"到"产品级可部署"的标志。宇树IPO同步推进——拟募资42.02亿元,年收入超2亿美元。
宇树科技2026春晚《武BOT》完整表演
灵巧手是人形机器人最难也最关键的部件。人类90%的物理任务需要手部操作。一个能稳定行走但不能精细操作的机器人,应用场景极其有限。灵巧手的突破直接打开了工业装配、家庭服务、医疗辅助等高价值场景。从供应链角度看,灵巧手也是核心零部件中国产替代进展最慢的环节——掌握这一技术的企业将占据关键卡位。
GTC 2026上,英伟达推进GR00T系列基础模型,核心概念是WAM(World Action Model)——世界动作模型。世界模型负责理解环境状态和预测变化,动作模型负责基于预测生成最优动作序列,两者形成端到端闭环。数据效率大幅提升,泛化能力显著增强。
银河通用人形机器人成功打网球——技术含量比表面看起来高得多。网球飞行速度快、每次球路不同、需要全身多关节实时协同——这是一个无法预编排的真实动态任务。
银河通用人形机器人打网球完整Demo(B站)局限性也要诚实面对:依赖外部摄像头、网球场是结构化环境、只验证了单一任务。但核心意义在于:先证明能做到,再谈怎么优化。
CES 2026上,波士顿动力展示生产就绪版Atlas:全身仅两种旋转电机、腰部可360°旋转、左右腿可互换。设计哲学:性能冗余+结构极简——不追求"像人",而是追求"比人更适合干活"。
波士顿动力Atlas CES 2026 完整演示(B站)对比Tesla Optimus的高自由度腱绳驱动方案,两条路线哲学差异巨大:波士顿动力走"性能冗余+极简结构",Tesla走"高度仿人+汽车供应链降本"。未来可能不同场景赢家不同——工业场景Atlas更合适,家庭场景Optimus更有亲和力。
三层闭环正处在剧烈的重构期——价值分布、竞争格局、技术路线都在快速变化

关节/传动/执行器是最关键的环节。日本哈默纳科、纳博特斯克主导高端减速器市场,但国产替代正在加速——绿的谐波已进入Tesla Optimus供应链。
传感器领域,高端六维力/触觉传感器国产化率仍然很低,投资机会显著。算力芯片是争议最大的环节,英伟达高端垄断短期不可撼动,但端侧推理芯片竞争格局完全不同。
能源/电源正从锂电池向半固态切换;仿真设计英伟达Omniverse占主导;核心材料中国在稀土永磁、碳纤维等领域有资源禀赋优势。
这和智能手机时代的"苹果 vs 安卓阵营"高度相似——大概率也会形成类似结果:美国赢高端,中国赢规模。
| 场景 | 成熟度 | 市场空间 | 关键客户 |
|---|---|---|---|
| 工业制造 | ★★★★ | 千亿级 | 汽车、3C、新能源 |
| 物流仓储 | ★★★★ | 千亿级 | 电商、快递 |
| 商用服务 | ★★★ | 百亿级 | 酒店、餐饮、零售 |
| 医疗康复 | ★★★ | 百亿级 | 医院、养老机构 |
| 家庭消费 | ★★ | 万亿级(远期) | 家庭用户 |
| 特种作业 | ★★★ | 百亿级 | 电力、消防、军工 |
人形/具身智能(10家):优必选、宇树科技、智元机器人、星动纪元、众擎机器人、逐际动力、傅利叶智能、达闼机器人、小米机器人、银河通用。
工业机器人(9家):新松、埃斯顿、汇川技术、埃夫特、节卡、拓斯达、珞石、勃肯特、钱江。
服务/移动/特种(9家):擎朗、普渡、云迹、极智嘉、海康机器人、九号、高仙、天智航、万勋。
小脑准备好了,大脑没有——机器人能做后空翻,但不知道为什么要做后空翻

大脑(认知决策层)负责高级认知——理解任务、逻辑推理、全局规划。处理速度慢但视野广,面对的是"理解世界"这个开放式问题。
小脑(运动执行层)负责底层物理操作——精准运动控制、动态平衡、实时反馈调节。以500Hz-1kHz频率闭环控制,面对的是"执行指令"这个相对封闭的问题。
小脑之所以进化快,很大程度上得益于仿真训练(Sim2Real)的成熟。英伟达Omniverse + Isaac Sim构建了一个完整的"虚拟训练工厂"——机器人可以在高度逼真的物理仿真环境中以1000倍速度进行强化学习训练,然后将学到的策略直接迁移到真实硬件上。
英伟达云端GPU太赚钱(利润率极高),导致端侧芯片内部资源分配天然弱势——给国产芯片打开了机会窗口。
地瓜机器人(地平线旗下)是最值得关注的玩家——2026年3-4月完成B1+B2两轮共2.7亿美元融资。滴滴、美团、高瓴联袂投资。自动驾驶端侧芯片经验可直接迁移到机器人场景,提供全栈方案。
LLM是人类精神的随机模拟,世界模型是物理规律的虚拟模拟器

| 维度 | LLM | 世界模型 |
|---|---|---|
| 核心逻辑 | 预测下一个词(统计规律) | 预测下一个状态(物理规律) |
| 训练数据 | 互联网文本(海量、低成本) | 多模态感知+物理交互(稀缺、高成本) |
| 物理理解 | 没有。说错话只是尴尬 | 有。预测错了可能撞墙 |
| 发展阶段 | 成熟,商业化完善 | 早期爆发,快速迭代 |
未来具身智能的大脑是二者的深度融合——就像人类大脑中处理语言的布洛卡区与处理空间的顶叶皮层协同工作。
2024年9月创办,聚焦空间智能(Spatial Intelligence)——让AI理解三维空间中"在哪里"以及"如何交互"。2025年11月完成10亿美元B轮融资,估值50亿美元(a16z、Google、NVIDIA投资)。
核心产品Marble世界模型——从单张2D图像生成可交互3D场景。如果机器人大脑内置精确的3D世界模型,它就能在"想象"中预演动作、评估风险——类似人类的"心理预演"。
2025年6月创立,种子轮即获10.3亿美元融资(估值35亿美元),创AI种子轮历史纪录。技术基于JEPA——在潜在空间(latent space)中进行预测,意味着它预测的是"事物的本质特征"而非"表面表现"。
| 维度 | World Labs(李飞飞) | AMI Labs(杨立昆) |
|---|---|---|
| 核心概念 | 空间智能 | JEPA世界模型 |
| 技术路线 | 2D→3D场景生成与交互 | 潜在空间预测与规划 |
| 代表产品 | Marble世界模型 | LeWorldModel(LeWM) |
| 融资规模 | $10亿B轮(估值$50亿) | $10.3亿种子轮(估值$35亿) |
| 对具身智能 | 3D场景理解→空间认知 | 物理直觉→行为预测 |
两个项目并不矛盾——World Labs做的更像"视觉皮层"(看懂世界的结构),AMI Labs做的更像"前额叶皮层"(预测世界的变化)。未来最强的具身智能大脑,很可能需要同时整合这两种能力。
中美双极,日韩欧跟随——"苹果 vs 安卓"格局的复现
| 梯队 | 代表企业 | 核心特征 |
|---|---|---|
| 第一梯队 | 宇树科技、优必选、智元机器人 | 技术+商业化双验证 |
| 第二梯队 | 星动纪元、银河通用、逐际动力、傅利叶 | 高速成长/技术突破型 |
| 第三梯队 | 小米、达闼、众擎 | 场景深耕/跨界入局 |
| 路线 | 代表 | 逻辑 | 风险 |
|---|---|---|---|
| 垂直整合 | Tesla | 自研芯片+自造整机+自用场景 | 组织复杂度极高 |
| 平台生态 | 英伟达/波士顿动力 | 提供平台工具,第三方造机器人 | 平台粘性待验证 |
| 场景驱动 | 中国企业群 | 从具体场景切入,快速迭代 | 难以形成通用能力 |
关键问题不是"有没有泡沫",而是"泡沫破裂时你持有的公司能不能活下来"

中国估值超100亿的具身智能公司已超20家(大模型最热时只有四五家)。FOMO情绪明显。但互联网泡沫、移动互联网泡沫、AI泡沫——每一次都催生了伟大的公司。泡沫的核心功能是加速资源聚集。
不是确定性预测,而是一套思考框架——理解"具身智能将如何重塑世界"
三维度评估模型 × 四类风险矩阵——给投资者的系统化框架

| 维度 | 2024年 | 2025年 | 2030年 | 2035年 | 来源 |
|---|---|---|---|---|---|
| 全球具身智能市场 | ~$15亿 | $20-30亿 | $230亿 | — | MarketsandMarkets |
| 全球人形机器人 | ~$16亿 | — | — | $380亿 | Goldman Sachs |
| 中国具身智能支出 | — | >$14亿 | $770亿 | — | IDC |
复合增长率约50-60%。但不同机构2030年预测差异可达3-5倍,建议取中位数作为基准。
| 配置方向 | 权重 | 核心逻辑 | 代表标的 |
|---|---|---|---|
| 上游核心零部件 | 30-40% | 确定性最高,国产替代清晰 | 减速器、传感器、端侧芯片 |
| 中游整机头部 | 25-35% | 弹性最大,押注赢家 | 头部3-5家整机公司 |
| 下游应用场景 | 15-25% | 想象空间最广 | 工业/物流/医疗集成商 |
| 基础设施/平台 | 10-15% | 对冲单一企业风险 | 算力平台、仿真工具 |