又一家清华系具身智能企业浮出水面:天使轮融资数千万元,打造具身数据Infra

对于具身智能而言,数据不再只是训练材料,而正在演变为一种新的基础设施。

作者|苏霍伊

编辑|王博

又一家清华系具身智能企业浮出水面。

「甲子光年」独家获悉,清华系具身智能企业灵御智能已完成数千万元天使轮融资。本轮融资由银河创新资本领投,国海创新资本、天鹰资本、厦门思明科创基金跟投,老股东英诺天使基金、华映资本、远镜创投持续加注。Maple Pledge枫承资本长期出任私募股权融资顾问。截至目前,灵御智能累计融资近亿元。

灵御智能联合创始人兼首席科学家莫一林是清华大学自动化系长聘副教授。莫一林师从美国工程院院士、机器人操作领域先驱Richard. M. Murray教授,谷歌学术引用超1万次,2021-2025连续五年获得Elsevier中国高被引用学者,在优化、控制、机器人领域发表高水平论文100余篇。

灵御智能联合创始人兼CEO金戈是清华大学自动化系学士、清华大学经济管理学院MBA,曾任远镜创投管理合伙人、奥量光子副总裁,在高科技领域有着多年的创业投资和企业管理经验。

莫一林(图左)与金戈(图右),图片来源:受访者

在具身智能领域,已有多家清华系企业崭露头角,包括星动纪元、星海图、千诀科技、自变量、松延动力、加速进化、流形空间、极佳视界等,业务和研究涵盖了机器人本体、具身智能模型、世界模型等。

灵御智能从清华走出,立足海淀开始创业,他们把业务和研究重点放在了数据上。在他们看来,具身智能卡在“数据荒”上,尤其是“高质量、长序列”的复杂操作数据十分缺乏。尽管这条路看起来有些“朴实”,但莫一林的观点是,具身智能能领域真正决定胜负的变量是——数据。

「甲子光年」认为,决定机器人能力的不只是本体、模型和算力,更重要的是一套新的基础设施——具身数据 Infra,这是一套用于规模化生产、管理和利用真实世界机器人交互数据的基础设施体系。谁能更高效地生产真实世界数据,谁就更有可能推动机器人智能的跃迁。

而灵御智能要打造的就是具身数据Infra

1.大规模、高质量的数据从哪里来?

如果说AI Infra是计算工厂,那么具身数据Infra就是数据工厂。

具身数据 Infra离不开数据采集母机,这指的是专门用于规模化采集真实机器人操作数据的“生产设备”或“数据工厂机器”。

它可以理解为一套能够持续、标准化、高效率地产生机器人操作数据的机器人系统平台,其核心使命就是为具身智能模型提供大规模、高质量的真实世界数据。

在大模型时代,人们习惯把“算力、算法、数据”视为AI的三大要素。但当AI进入物理世界,这个公式发生了微妙变化。对于具身智能而言,数据不再只是训练材料,而正在演变为一种新的基础设施。

原因很简单,大语言模型可以从互联网获得海量文本,而机器人需要学习的,是现实世界中人与物体交互的细节——抓取的角度、力的大小、物体的重量、失败后的调整路径。这些信息无法从网络抓取,只能通过真实机器人反复执行任务产生。

这也意味着,具身智能的数据生产方式与互联网AI完全不同。它不再依赖“数据爬虫”,而依赖数据采集母机。

灵御智能构建具身数据Infra的思路是研发TeleAvatar(本体)和TeleDroid(系统)。

TeleAvatar,图片来源:灵御智能

TeleAvatar专为遥操设计,具备多样化操作模式,可以应对不同复杂环境和任务需求,同时还支持与多种外部设备进行交互。在端侧,实时运动控制内核可以保证毫秒级响应与安全力控。

TeleDroid是一套软硬云一体化系统,其具备智能数据分析能力,可为用户提供深入的洞察和决策,同时确保数据在采集、传输和存储过程中的安全。这套系统部署在云侧,用户通过完整的数据采集、清晰、自动化标注平台,可实现数据资产的闭环管理。

两者合在一起,用户就可以持续沉淀真机数据,再用数据反哺模型、逐步提升自主能力,形成“部署即采集、采集即训练”的数据飞轮。

灵御智能的判断是,真正能驱动模型涌现的高质量数据,还是要从真实物理世界中磨出来。

“这也是过去特斯拉、‘蔚小理’、华为走过的道路。只有通过这种方式,才能采集到足够量的数据,而这些数据才能把AI真正‘喂养’出来。”金戈告诉「甲子光年」。

灵御智能参加第二届中关村具身智能机器人应用大赛,图片来源:灵御智能

虽然具身智能数据采集和自动驾驶数据采集存在一定的相似性,但是莫一林认为,两者之间是数量级的鸿沟。

自动驾驶本质上是一个二维空间、2自由度的问题,数据能被动采集,目前已积累超过百亿小时。但具身智能面对的是三维空间、20+自由度的操作问题,对重量、形状、摩擦、软硬等物理属性高度敏感,仿真难度大,现有开源数据集质量参差不齐,总量仅在十万小时级。

“如果我们认定机器人需要的数据量也在百亿到千亿小时级,今天业内处于严重的数据稀缺的情况下。尤其是机器人上肢操作的数据最为缺失,还不能依赖自建数采中心来填补,因为量级差太远了。”莫一林告诉「甲子光年」。

当前具身智能行业获取数据,主要有四种方式。

第一种是仿真数据,即在模拟环境中生成机器人操作数据,优点是成本低、规模几乎无限,可以快速训练模型的基础能力,但最大问题是“虚实鸿沟”:仿真环境很难准确还原现实世界的物理细节,例如摩擦、柔性物体、传感器噪声等,导致模型在仿真中表现良好,到了真实机器人上却容易失效。

第二类是人类行为数据,数据来源主要是视频,通过学习人类操作来训练机器人。这类数据规模巨大,但由于人类身体结构与机器人机械结构存在差异,往往难以直接映射到机器人动作,因此存在所谓的“构型鸿沟”。

第三类是人类示教数据,例如通过手持设备、动捕系统或拖动机械臂进行操作示教,这种方式可以获得较高质量的操作轨迹,但依然存在人类运动与机器人关节约束不完全一致的问题,同时采集效率有限。

第四类是真机遥操作数据,即由人类远程控制机器人完成任务并记录操作过程,可靠性强、训练效果好,但代价是采集成本高,需要大量设备、场地和操作人员,数据规模很难迅速扩展。

灵御智能瞄准的就是真机遥操作数据。

2.真远程遥操

机器人遥操作并不是一个新概念,但是遥操作并没有那么简单,也没有那么成熟。

跨越物理距离让机器“动起来”是一回事,但要让它做到顺滑、精准、低延迟且具备力控能力,则是另一回事。

具体难在哪里?

首先是延迟。

目前,行业通用的图像延迟普遍在150到200毫秒之间。虽然部分厂商标称能做到150毫秒,但莫一林指出,各家对延迟的定义和测量口径往往大相径庭。

为了挤掉水分,灵御采用的是G2G延迟(Glass-to-Glass Latency)标准。从光信号进入机器人摄像头,到最终呈现在操作员VR头显屏幕上的完整耗时,其图传延迟控制在100毫秒以内。动作控制端,人机之间的力/位混合控制响应被压缩至30毫秒以下,操作员与机器人的动作同步基本达到肉眼无感。

莫一林告诉「甲子光年」:“我们把这些延迟都已经压到最低了。”

第二个难点是处理空间维度上双臂高自由度的控制映射。

车辆遥操作本质上属于2自由度控制,往往只需在远端复制一套方向盘即可实现。相比之下,人体上肢7自由度远超车辆,两者的控制映射难度完全不在同一量级。

第三个难点是真远程。

目前行业大多数遥操作方案仍属于近场视距遥控:操作员须站在机器人身后1至2米处,以肉眼观察机器人动作,人必须到场,既无法实现跨地域劳动力套利,也无法支持一人多机的分时调度。

莫一林说:“大部分同行的遥操作更多是为了数据采集,操作者还是站在机器人旁边用眼睛看。而我们做的是另一件事——远程遥操,操作员在控制室,让机器人在2000公里外的现场。”

他和团队曾花大量了时间做不同遥操作方案的尝试和比较,最终团队研发出了TeleAvatar。

TeleAvatar本身是专为遥操作设计,配合软硬云一体化系统TeleDroid,端侧负责实时运动控制和安全力控,云侧负责数据采集、清洗和自动化标注,共同组成了“高效的数据采集母机”。

金戈描述操作体验:“戴上VR眼镜之后,完全是附身于机器人之上的感觉,得到的视觉信息和自己的感受非常接近,也不会眩晕。”

母机的尺寸与关节和人体完全同构,操作员可以零门槛上手。

“我们的硬件跟人是基本同构的,机械臂长度、手的长度都跟人类似,你够得到的东西机器人也够得到。”莫一林说,“我们可能是国内目前唯一在认真做真正远程遥操作的公司。”

灵御智能参加上海GDPS比赛,图片来源:灵御智能

灵御智能目前锁定了三类应用场景。

第一类是危险场景与跨地域劳动力套利。在核电站、化工厂这样存在一定危险性的环境中,遥操作本身就是价值所在。莫一林认为,这种“时空折叠”算的不是经济账,是人的生命价值。同时全球劳动力成本差异巨大,灵御的远程遥操方案可以让低成本地区的操作员通过机器人为高成本地区服务,覆盖零售、物流、酒店、仓储等行业。

第二类是一人多机的分时复用。很多工作频次不高但需要长时间待命。典型如夜间药店:单店来客频次低,但需要人全程值守。灵御智能的方案是多家药店部署机器人,1名操作员通过后台管理5到10个门店终端,按需切换。

第三类是半自主兜底。机器平时自主运行,遇到Corner Case瞬间切换人工接管。金戈将这称为“带保险的自动化”:95%的时间自动模式,5%的时间遥操模式。

尽管在技术上有了突破,但是他们还面临一个大问题——成本。

3.低成本跑出高精度

具身智能的数据采集成本,在行业里普遍被认为是当前最大的隐性成本之一。如果把一个具身智能公司的技术投入拆开,就会发现数据采集系统、操作人员、实验场地与设备维护,占据了相当比例的预算。

尤其是真机遥操作数据采集成本高的问题,困扰了很多企业,灵御智能没有回避这一问题,而是想办法从两方面同时压缩成本:一是提高机器人的运转时间和平均故障间隔;二是通过更优的遥操作方案大幅提升作业效率。

灵御智能将TeleAvatar的价格定在10万到20万元之间,仅为行业平均水平的三分之一到一半。想在在这个价位段保持极高的操控性能,他们的解题思路很明确:用算法弥补标准硬件在精度和力感知上的不足。

在硬件选型上,金戈放弃了昂贵的定制件,全部采用工业界成熟的量产元器件。这种做法压低了物料成本,且通用零部件经过了长期的工业验证,后期维修更加便利。但代价是,普通硬件天生带有精度差、延迟高、缺乏柔性等物理缺陷。

在底层工程设计上,莫一林也做了一些权衡。

以力觉感知为例,业内为了获得精准的力反馈,通常会给每个关节配备昂贵的谐波减速器和六维力传感器。而灵御智能只选用了低减速比的行星减速器,转而通过监测电机自身的电流变化来估算受力情况。莫一林坦言,电流反馈的绝对物理精度确实比不上专属传感器,但这可以通过软件算法来进行补偿。

配合500赫兹的控制频率,系统每两毫秒即可获取一次关节受力数据,使机械臂能够实时动态调整自身的刚度:遇硬则柔,遇软则刚。加上高精度的标定与全局逆解算法,这套平价的硬件组合最终实现了全柔性力控下的跨本体高空间绝对定位精度。

TeleAvatar,图片来源:灵御智能

在金戈看来,底层控制能力的缺失,是目前许多具身智能机器人的短板。他将控制系统比作人体的神经传导网络。如果控制层不过关,即便AI大模型再聪明,机器人也会因为“手笨”而无法完成精细的物理操作。

控制层之所以在今天变得更为重要,因为于机器人作业环境的改变。过去的传统工业机械臂大多处于开环控制,只需在封闭的产线上死板地执行预设代码;而如今的具身机器人被直接放进了未知的开放环境中,它必须像人类一样,通过视觉和触觉实时感知,并在不断的反馈闭环中高频修正自己的动作。

基于这种判断,灵御智能划定了自己的业务边界:做机器人和数据的提供方。

“我们的核心优势在于能把成本做得非常低,同时通过算法把机器人的性能做到最好。我们可以跟诸多具身大脑公司合作,为他们提供机器人和数据。”莫一林用英伟达做类比,“英伟达为大家提供算力,但不会下场做大模型,因为做了大模型之后GPU怎么卖给别人呢?应该让大家都加入到一个良好的生态里,我们为大家提供良好的服务和平台”。

虽然灵御智能2025年才入局具身智能,但他们认为这条赛道中的“先发优势”十分微弱。

莫一林打了一个比方,如果机器人需要的数据量在百亿到千亿小时级,那今天所有人都处于马拉松刚刚出发的状态,“可能先行者跑了25米,我们才刚开始跑,但对于一场马拉松而言,这种差距并没有早晚之分。真正决胜负的长跑可能还远远在后面。”