
从人脑看具身大脑
人脑结构拆解
了解机器人大脑之前我们不妨先了解一下我们人类的人脑。人脑由大脑、小脑、脑干以及间脑组成。其中大脑是人脑核心,其分为左右两个 大脑半球,二者由神经纤维构成的胼胝体相连。脑干又可分为中脑、脑桥及延髓三部分。
人脑结构与机器人大脑对应关系
依照低层次感知到高层次感知逐个来看,人脑的间脑与脑干在机器人中对应的主要是(1)各类传感器及执行器自身部署的嵌入式驱动及算法。 各类传感器及执行器包括旋转执行器、直线执行器、力传感器、温度传感器、姿态传感器等,此类部件一般内部配有MCU,其内部的嵌入式 驱动及算法监控部件的各类状态,保证机器人部件的基本运作能力。(2)传递信息的线束及网关,起到各个控制器,传感器信息交互通联的 作用。
人脑的小脑在机器人中对应的主要是动作学习模仿训练以及复杂动作的控制。而在机器人行业中,目前通常被称为机器人“大脑”,这主要 是因为相对于工业机器人,具有“大脑”的人形机器人对复杂运动的学习掌握能力明显增强,比如近期宇树、众擎、波士顿动力等公司在视 频中展示的人形机器人执行舞蹈,空翻高难度动作。至于对应人脑中的大脑的角色的硬件,目前人形机器人厂商多用中央控制器担任此角色, 但对于高级认知,信息处理能力尚未建立。展望未来,机器人大小脑有望实现分离,大脑算力进一步加强,小脑专注运动控制。
英伟达主导现有大脑方案
国内厂家现有高低配方案
根据宇树、众擎、松延动力等厂商官网说明,可以发现目前主流机器人厂商都会将算力模组分为高低两个版本提供用户,其中低配的基础算 力模组可以完成一些遥控的走路、跑步、跳跃等基础性动作,二次开发部署潜力较弱,起售价均在10万元以内。宇树、众擎使用英特尔 Core i5及N97作为基础算力模组CPU,其中i5为成熟民用CPU而N97为一款低功耗移动处理器,专为轻量级计算和嵌入式场景设计。如果极客开发 者、院校培训、创业者等需要对机器人进行二次开发,则需使用高算力模组的高配版本,整机价格可能会有数倍的价差。目前,绝大部分厂 商的高算力模组主要还是基于英伟达Jetson Orin平台进行开发。
英伟达边缘计算平台Jetson
英伟达 Jetson系列是专为机器人和嵌入式边缘AI应用设计的计算平台,由Jetson模组、JetPack SDK和生态系统组成,加速软件开发。 Jetson系列的主要成员包括Jetson Nano、Jetson TX2和Jetson AGX Xavier,适用于不同的应用场景。Jetson Nano是最小的设备,配备了 128核心GPU和四核ARM Cortex-A57 CPU。Jetson Xavier系列模组具有高达32 TOPS的AI性能,适用于自主机器的视觉测距、传感器融合、 定位和地图构建等应用。
大脑能力技术路线
算法方案技术路线
具身智能的算法方案分为分层决策模型和端到端模型两种路线。
训练方案技术路线
具身智能的训练方法可分为模仿学习和强化学习两种路线。
数据采集技术路线
具身智能的数据采集可分为基于仿真环境数据和基于真是世界数据两种路线。
国内外厂商大模型进展
银河通用抓取基础大模型 GraspVLA
2025年1月,银河通用发布抓取基础大模型GraspVLA。GraspLVA的训练包括预训练及后训练。其中预训练完全基于合成大数据,训练数据 达到了有史以来最大的数据体量——十亿帧「视觉-语言-动作」对,掌握泛化闭环抓取能力、达成基础模型;预训练后,模型可直接 Sim2Real 在未见过的、千变万化的真实场景和物体上零样本测试,全球首次全面展现了七大卓越的泛化能力,满足大多数产品的需求;而针 对特别需求,后训练仅需小样本学习即可迁移基础能力到特定场景,维持高泛化性的同时形成符合产品需求的专业技能。
Figure AI 人形机器人VLA通用大模型
2025年2月,Figure AI发布了人形机器人VLA通用大模型。为了解决视觉语言模型“通用、但不快速”,和机器人视觉运动策略“快速、但不 通用”的矛盾,Figure通过建立一套互补的系统进行权衡。两套系统通过端到端训练以进行通信。其中, 系统2是开源、开放权重的70亿参数量端侧互联网预训练视觉语言模型,用于理解场景和自然语言; 系统1是一个8000万参数量的快速反应视觉运动策略,将系统2理解的语义转化为每秒200次的精确连续机器人动作。
智元通用具身基座大模型GO-1
3月10日,智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM+ MoE组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规 划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执 行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,持续进化,将具身智能推上了一个新 台阶。
英伟达通用机器人大模型 GR00T N1
VLM模块主要功能是从图像和文本指令中提取特征,并为后续的动作生成提供上下文信息。GR00T N1使用Eagle-2 VLM作为其基础,该模型 在大规模互联网数据上进行了预训练。 输入处理:VLM模块接受图像观测和文本指令作为输入。图像被编码为224×224的分辨率,经过像素重排后生成64个图像token嵌入。这些嵌 入与文本嵌入结合,形成一个丰富的多模态表示。 特征提取:通过对图像和文本的共同编码,模型能够提取出具有高度相关性的特征。在策略训练过程中,任务的文本描述和可能的多张图像 会以对话格式传递给VLM,从而获得形状为(批量大小 × 序列长度 × 隐藏维度)的多模态特征。
与自动驾驶的训练获取较为简单相比,通用机器人模型数据规模少且存在“数据孤岛” 问题,因此无法建立互联网级统一数据集。对此,英 伟达将视觉语言动作(VLA)训练语料库构建成一个数据金字塔,整合异构数据源,构建覆盖不同抽象层次的训练数据体系。这个数据金字 塔共分为三层:(1)大量网络数据和人类视频构成金字塔的底层;(2)通过物理模拟生成和 / 或借助现成神经模型增强得到的合成数据形 成中间层;(3)在实体机器人硬件上收集的真实世界数据则构成顶层。金字塔的底层提供广泛的视觉和行为先验知识,而顶层确保模型能在 实体机器人执行任务时落地应用。
L4及L5具身智能应用展望
具身机器人智能化分级及能力展望
完整报告可扫描下方图片二维码进入社群查阅下载

(报告来源:浙商证券。本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

入群方式:添加助理微信【touzireport666】,发送「个人纸质名片」或「电子名片」审核后即可入群。