从互联网视频提取多模态具身数据、将数采成本降至行业千分之五,具身智能企业获数千万元融资
硬氪获悉,枢途科技(深圳)有限公司(以下简称“枢途科技”)近日完成数千万元天使轮融资,本轮由东方富海及兼固资本联合领投。融资资金将重点投入视频具身数据采集管线的持续训练与迭代,加速其为多家头部具身智能企业的数据商业化交付进程。
「枢途科技」是硬氪长期关注的企业。公司于2024年成立,专注多模态具身智能数据采集及模型技术的研发与应用,通过融合视觉、语言与环境交互系统,构建能够适应开放场景的通用具身数据平台,以推动具身智能技术在物流、制造与服务等领域的规模化落地。
当前,随着具身智能发展迈入应用阶段,训练数据的规模、质量与多样性已成为制约模型性能提升的核心瓶颈。
尽管端到端模仿学习在结构化场景中表现出较强的任务拟合能力,但其依赖大量高质量演示数据,且存在因果混淆与泛化脆弱等问题,难以适应动态开放环境。另一方面,基于遥操控的数据采集方式虽能获取人类直接操作信号,却受限于硬件成本高、操作效率低、场景覆盖窄等现实约束,成本高昂,难以实现规模化数据生产。
在此背景下,仅依靠有限规模的封闭数据集或高成本仿真平台,已无法满足下一代具身智能系统对更多模态、更长时序、更强交互数据的需求。行业亟需一种可扩展、低成本、高真实度的数据来源,以突破当前模型在泛化性、适应性与推理能力方面的天花板。
利用网络视频训练人形机器人动作(图源/企业)
针对这一普遍痛点,行业多家头部企业关注到了互联网视频这一数据来源:互联网视频的获取及生产成本低廉,并且来源于真实物理世界,嵌有客观世界的物理参数及自然规律等高质量、高维度信息。
今年8月初,马斯克在X上透露,特斯拉Optimus正在逐步放弃遥操作路线,预计未来几年将通过YouTube视频自主学习、掌握新技能;Figure也于此前9月中宣布,其Helix已实现完全基于人类自我视角视频训练,理解自然语言指令,并在真实、杂乱的环境中实现自主导航。
相比其他企业进行视频数据创新性处理、并仅服务于自有模型不同,「枢途科技」自主研发SynaData数据管线解决方案,实现了视频提取多模态具身数据并服务于第三方具身模型。
SynaData数据管线解决方案(图源/企业)
通过从互联网采集海量RGB视频,并基于视频数据升维、跨域retargeting等技术突破,枢途SynaData数据管线解决方案将视频转化为多模态、高精度的具身训练数据,为具身智能的大规模训练提供可持续的高质量数据来源,实现综合数采成本降为行业平均水平的千分之五。
比如在“拿取外卖袋”任务中,SynaData系统能够从普通人手取袋的日常视频中,批量提取包括手部运动轨迹、物体移动路径、物体三维表面网格等在内的多模态具身数据,并将其直接用于机器人抓取模型的训练。测试结果表明,基于该数据集训练的模型,对外卖袋的抓取成功率提升至88%,显示出极强的场景泛化能力。
展示提包的互联网视频转化为训练机器人拎包的数据(图源/企业)
目前,SynaData系统已完成全管线技术验证,累计处理数千小时覆盖室内外多种环境的视频内容,产出涵盖抓取、放置、精细组装等逾百种任务类型的标准化数据集。部分数据已在清华RDT、PI π0、智元UniVLA、EquiBot等主流开源视觉语言动作模型中应用。
而基于当前视频数据在精度、泛化性与标准化方面仍存在的瓶颈,「枢途科技」正围绕精度提升、泛化扩展、生态共建三大方向推进系统升级。比如在精度维度上,针对当前复杂交互场景中细节动作捕捉不足的痛点,公司将通过动态遮挡建模与多视角重建技术,将轨迹与姿态重建精度从毫米级推进至2毫米以内,为精细操作任务提供数据支撑。
泛化能力方面,为应对不同机器人本体在结构、自由度与控制方式上的差异,计划将适配本体类型扩展至100种以上,覆盖从人形机器人、灵巧手到各类移动底盘的全谱系硬件。
SynaData具身数据提取(图源/企业)
在生态构建层面,「枢途科技」预计于2025年第四季度推出业界首个基于真实场景视频的开源具身数据集,旨在打通数据生产-仿真训练-系统部署的全链路,与头部仿真环境伙伴共同构建下一代具身智能数据基础设施。
「枢途科技」CTO林啸告诉硬氪,数据决定上限,模型逼近上限,SynaData将解锁互联网上海量视频的“数据富矿”,帮助具身机器人从“手把手教学”走向“观看教学”,高效获取物理世界的交互数据,突破能力上限,为机器人进入千行百业提供核心数据支撑。