为什么有了DeepSeek，理想还要自研基座模型[疑问] 李想:“核心在场景需

为什么有了DeepSeek，理想还要自研基座模型[疑问]

李想:“核心在场景需求不同,我们要做车载多模态交互，尤其是VLA（视觉语言行动模型）——需要3D/2D视觉融合，叠加汽车、交通、家庭场景的专业语料，这些垂直领域的数据和训练逻辑，是通用模型没覆盖的。”

当然，语言层会借鉴成熟技术，但从视觉接入到场景化训练，必须自己啃硬骨头。毕竟，车端智能的终极目标，是让技术真正服务于驾驶与用户体验，这道题，只能自己解。