李想今天的直播内容里,透露了大量VLA的内容,做个简单的分析总结:
▲如何让普通人理解VLA? 为了更方便普通人理解,理想把VLA叫做「司机大模型」,整个语境也以人与司机的方式输出,你怎么跟代驾师傅交流,就可以用类似的方法与司机Agent交流。这也切合了通过语言(语音)方式,对VLA系统输入指令——类似于「开慢点」、「停在电梯门附近」、「我要去星巴克」等等,理想VLA的DEMO都有相关展示。
▲理想的VLA模型,是如何的设计的?
1、预训练VL基座模型,是一个32B云端模型,包括Vision语料、language语料,V+L的联合语料。车端推理模型,目前是接近4B的参数量(V+L是3.2B,加A之后接近4B)。
2、(猜测)对模型进行稀疏化设计,降低对推理算力的需求。采用MOE混合专家架构,完成多种能力扩容的同时,避免同时激活大量参数集。
3、精选训练数据配比,以3D数据和自动驾驶图文数据为主。
4、使用简短的思维链(CoT)模式,只有2-3步,以保证更低的时延。
5、利用 diffusion 模型,将 action token 解码成最终的驾驶轨迹。
6、使用人类反馈强化学习( RLHF) 与diffusion 结合,对齐人类行为(感受、驾驶习惯),交通规则,来提升安全。
VLA模型的构建上,进行了效率最优设计,这其中的挑战包括了3D训练数据质量,超级对齐的效果。理想也设计了用于训练的世界模型,来进行闭环的强化学习,以此提升基座模型的能力。
理想认为,VLA 是能力最强的架构,是最接近人类的架构,甚至有机会超过人类开车能力,但VLA范式需要一个成长的过程。
这个时间节点,理想用AI Agent的方式来讲自动驾驶真的很聪明,期待早日摸到实车。