为什么有了DeepSeek,理想还要自研基座模型[疑问]
李想:“核心在场景需求不同,我们要做车载多模态交互,尤其是VLA(视觉语言行动模型)——需要3D/2D视觉融合,叠加汽车、交通、家庭场景的专业语料,这些垂直领域的数据和训练逻辑,是通用模型没覆盖的。”
当然,语言层会借鉴成熟技术,但从视觉接入到场景化训练,必须自己啃硬骨头。毕竟,车端智能的终极目标,是让技术真正服务于驾驶与用户体验,这道题,只能自己解。
李想谈Deepseek理想汽车理想AI Talk第二季
为什么有了DeepSeek,理想还要自研基座模型[疑问]
李想:“核心在场景需求不同,我们要做车载多模态交互,尤其是VLA(视觉语言行动模型)——需要3D/2D视觉融合,叠加汽车、交通、家庭场景的专业语料,这些垂直领域的数据和训练逻辑,是通用模型没覆盖的。”
当然,语言层会借鉴成熟技术,但从视觉接入到场景化训练,必须自己啃硬骨头。毕竟,车端智能的终极目标,是让技术真正服务于驾驶与用户体验,这道题,只能自己解。
李想谈Deepseek理想汽车理想AI Talk第二季