GEN-0诠释了具身的ScalingLaw,物理宇宙的通用智能并非鸡犬相闻,但它标好了不菲的价钱——那即是海量、高保真、包含物理知识的交互数据。数据的万般性(Diversity)和交互密度(InteractionRichness)远比单纯的Token数目逶迤,因此将来的竞争,是“高质地真机数据供应链”的比拼。

01小序:信仰与荒野
若是说大说话模子(LLM)的得手,是东谈主类知识在文本维度的“暴力压缩”;那么具身智能(EmbodiedAI)的终端,势必是物理宇宙在交互维度的“全息投影”。
从GPT-3到GPT-5,咱们见证了算力和数据堆叠带来的智能清晰。但在机器东谈主领域,这个公式似乎遭受了阻力。咱们不缺H100(算力),不缺Transformer(算法),致使也不缺钱。
咱们缺的是那把开放物理宇宙的钥匙——数据。
更准确地说,是“带有物理知识的高保真真机交互数据”。算作别称AI家具司理,今天我想和各人聊聊在通往通器具身智能的路上,对于“数据”的底层想考。
02维度诟谇:物理宇宙的Token在那处?
在LLM时间,互联网上万亿级的TextToken是自然的燃料。它们龙套、符号化,是东谈主类想维的高度概述。
但当你把眼神转向物理宇宙,情况变得极其复杂。机器东谈主的每一次执取、每一次转移,产生的不是龙套的Token,而是一条联结的流(Stream):要津的力矩、视觉的光流、指尖的触觉响应。
具身智能濒临着“维度的诟谇”:
文本是1D的;
具身数据是3D(空间)+1D(时分)+Force(力)的高维纠缠
咱们不错幽静用AI生成好意思满的文本,但咫尺很难生成绝对相宜真什物理定律(摩擦、形变、流体)的好意思满数据。因此,在好意思满的“物理宇宙模拟器”出现之前,高质地的真机数据(Real-worldData)依然是高出模子才能界限的唯独金桥。

03标杆解构:7B参数的“智商清晰”
近期备受存眷的GEN-0模子,其实是一次对于具身基座模子(EmbodiedFoundationModel)的大领域考说明验。它告诉了咱们要达到“通用智能”,门槛在那处。
GEN-0的实验揭示了一个枢纽论断:7B(70亿)参数是模子从“追溯”走向“泛化”的临界点。
<;7B参数:模子只是一个“轨迹拟合器”。它像个死记硬背的学生,自然在试验集上阐发好意思满,但换个环境就歇菜,出现了“模子钙化”(ModelOssification)表情。
≥7B参数:模子运转展现出对未知场景(OOD)的泛化才能,真的“深远”了物理知识。
但撑持这7B参数的,是27万小时的真实宇宙操作轨迹,涵盖了家庭、工场、荒漠等数千个非标场景。这个数据量级,是很多同类模子的几十倍。

其实在GEN-0精致提议前,GeneralistAI依然把“端到端+高频适度+双手贤达+跨本色”的中枢链路跑通。
2025-06-17:公开始到端模子在多具身与多任务上的早期收尾,强调高频适度、毫米级精度与跨开采泛化(如7-DoFFlexivRizon4

6-DoFUR5)。
2025-09-24:发布“一次示范拼装(one-shotassembly)”里面评测:东谈主类先搭一遍,机器东谈主纯端到端效法复刻,中间无任务特化工程与功令。

而GEN-0这个咫尺基于最大领域、场景最丰富真实数据集的基座模子背后的数据机要,中枢枢纽在于构建UMI的数据基建。
GEN-0配置了一个高大的DataInfrastructure(数据基建)。咫尺涵盖27万小时的真实宇宙操作轨迹,这不单是是存储,而是一套秘密家庭、工场、荒漠等非标场景数据蚁合网罗。而况每周新增特等1万小时数据,陆续为模子提供真什物理交互教育。

GeneralistAI还配置了相配便捷的数据可视化系统,搜索枢纽词即可看到不同场景下该手艺的数据。
有专科东谈主士展望,若是一个咫尺起步的玩家,1:1复刻GeneralistAI的数采方法和领域,算向前期数采的爬坡的时分,也需要至少特等半年,致使一年的时分。
04战国时间:真机数采的三大宗派
既然数据如斯逶迤,那么数据从哪来?放眼咫尺的具身智能领域,数据蚁合决策正处于“战国时间”。为了处置“在保证物理真实性的前提下罢了领域化”这一中枢矛盾,行业内繁衍出了三大宗派:
精密遥操作宗派(Teleop):不菲的“金法度”
代表:ALOHA,VisionProVR适度、动捕、外骨骼等。
逻辑:依靠东谈主指导动捕开采或操作东从机械臂,Human-in-the-loop。
评价:
弗成彭胀(Unscalable):1小时数据=1小时东谈主工+不菲硬件折旧。
场域收尾:很难把一套几十万的真机数采开采搬到星巴克/工场去采数据,导致数据额外缺少场景万般性。

视频宗派(Video):巨大的“暗物资”
代表:Ego4D。
逻辑:鼎力出遗迹,哄骗海量互联网视频数据(YouTube/Ego4D)进行Retargeting映射。
评价:领域巨大,但质地一般。视频数据唯独RGB,缺失了最中枢的Action(动作提醒)和Proprioception(本色感知/力响应)。就像看东谈主游水一万遍,我方下水可能如故会淹死。

便携式/手持蚁合宗派(Portable/UMI):破局的“游击队”
代表:UMI(UniversalManipulationInterface)。
逻辑:耗尽级GoPro+3D打印的机械夹爪+鱼眼镜头。绝对解绑机器东谈主本色,像拿自拍杆一样去蚁合。
评价:这是近两年最大的变量。极低成本(<;300好意思元)调换了极高的场景万般性(Diversity)。这是处置“机器东谈主出不了实验室”痛点的最好决策。

丁琰博士最近发布的FastUMI-Pro不错赶赴了解。
主流真机数采决策的多维对比:
为了更直不雅地看清各决策的优劣,从蚁合成果、数据质地、硬件成本、场景万般性等维度进行了对比分析:

05底层玄学:告别“停驻来想考”
除了数据蚁合,GEN-0在模子架构上引入的HarmonicReasoning(谐波推理)一样令我沉溺。
传统的机器东谈主往往是“串行”的:不雅察->;想考->;活动。但这有个致命伤:物理宇宙不会暂停,重力不会等你想考完再施展作用。
谐波推理让模子学会了“边想边作念”。感知流(Perception)和动作流(Action)像音乐的和声一样,异步但协同运行。它不需要生成完整的想维链(CoT)后再动,而是像东谈主类的小脑一样,在实施现时动作的同期,并行展望下一秒的物理现象。
这亦然为什么咱们需要“及时(Real-time)”致使“超及时”的数据,而不是那些慢吞吞的遥操作数据。因为唯独敏捷的数据,才能试验出敏捷的智能。这也侧面解释了咫尺大部分模子PR是需要视频加快处理的。
06结语:从输血到造血
具身智能的竞争,归根结底是“高质地真机数据供应链”的比拼。
现阶段,各人还在通过“老本雇佣分娩力”的方法(如数采厂),有益雇东谈主去蚁合数据,这是成本中心的运作模式,所以放浪分娩力为代价的数据得回政策,数据量的积累取决于资源,从施行上是不Scalable的。
但我深信,期望的终端是数据闭环:当机器东谈主的才能跨过阿谁临界点,它们将真的参预工场、家庭运转功课。其时的数据蚁合将是分娩进程的“副产物”,好比Tesla的影子模式——机器东谈主越多,数据越多;数据越多,机器东谈主越明智。

这,概况即是通盘具身智能从业者心荡神驰的时刻。