什么是 Helix?
Helix 是 Figure 推出的通用视觉-语言-动作(VLA)模型,专为人形机器人的控制而设计。Helix 的推出标志着机器人控制技术的重大突破,它首次实现了对机器人整个上半身(包括手腕、躯干、头部和手指)的高速率(200Hz)连续控制。这一创新使得机器人能够更精准地执行复杂的动作,同时支持多机器人协作,多个机器人可以共享同一组神经网络权重完成任务。Helix 的强大之处在于它能够基于自然语言指令拿起从未见过的物品,展现出卓越的泛化能力。此外,Helix 的训练完全采用端到端的方式,无需任务特定的微调,且能够在低功耗 GPU 上运行,具备商业部署的巨大潜力。
Helix 的主要功能
1. 全上身控制
Helix 能够对机器人整个上半身进行高速率(200Hz)的连续控制,实现高精度的动作协调。这意味着机器人可以更灵活地完成各种复杂的动作,如抓取、操作和移动物品。
2. 多机器人协作
Helix 支持多个机器人同时运行同一套神经网络权重,实现协作完成任务。例如,多个机器人可以共同搬运或整理物品,大大提高了工作效率。
3. 自然语言理解与执行
基于自然语言指令,Helix 可以让机器人完成各种任务。无论是拿起从未见过的物品,还是操作抽屉或冰箱,Helix 都能够轻松应对。
4. 强大的泛化能力
Helix 能够处理数千种形状、大小和材质各异的物品,展现出强大的泛化能力。这意味着机器人可以在各种不同的环境中灵活应用。
5. 商业部署能力
Helix 完全在低功耗嵌入式 GPU 上运行,适合大规模商业化应用。这一特性使得 Helix 在实际应用中具有极高的潜力和可行性。
Helix 的技术原理
1. 系统2(S2)
系统2(S2)基于 7B 参数的开源视觉语言模型(VLM),负责场景理解和语言理解。S2 的处理频率为 7-9Hz,用于“慢速思考”高级目标,将视觉和语言信息转化为语义表征。S2 将语义信息编码为连续的潜在向量,并传递给系统1。
2. 系统1(S1)
系统1(S1)基于 80M 参数的 Transformer 编码器-解码器架构,用于底层控制。S1 的处理频率为 200Hz,能够快速执行和调整动作。S1 将 S2 传递的潜在向量与视觉特征结合,转化为精确的机器人动作(如手腕姿态、手指控制、头部和躯干方向)。
3. 端到端训练
Helix 采用端到端训练方式,从原始像素和自然语言指令直接映射到连续动作输出。训练过程中引入时间偏移,模拟 S1 和 S2 的推理延迟,确保训练与部署的一致性。
4. 解耦架构
S1 和 S2 分别运行在不同的时间尺度上,S2 负责高级语义规划,S1 负责实时动作执行。这种解耦架构既保证了系统的泛化能力,又实现了快速响应。
5. 优化推理部署
在机器人上,S1 和 S2 分别运行在独立的 GPU 上,S2 异步更新潜在向量,S1 实时执行动作控制。这种优化推理部署方式进一步提升了系统的效率和性能。
Helix 的应用场景
1. 家庭服务
Helix 可以应用于家庭服务领域,如整理物品、收纳、操作家电等日常家务。机器人可以轻松完成这些任务,为家庭提供便利。
2. 多机器人协作
多个机器人可以共享同一套神经网络权重,共同完成搬运或组装任务。这种协作能力在工业和物流领域具有广泛的应用前景。
3. 物品抓取
基于自然语言指令,Helix 可以抓取从未见过的物品,适用于物流和仓储领域。这种泛化能力使得机器人在复杂环境中也能高效工作。
4. 工业自动化
Helix 可以用在复杂的人机协作任务中,如零部件装配和质量检测。这种高精度的控制能力使得机器人在工业自动化中发挥重要作用。
5. 服务行业
在酒店、餐厅等场所,Helix 可以提供引导、递送和清洁服务。这种多功能性使得机器人在服务行业中具有广泛的应用。