Video-XL-2模型1.模型概述智源研究院联合上海交通大学推出Video-XL-2,开源轻量级超长视频理解模型。核心优势包括:•效果:在MLVU、Video-MME等评测中领先同规模开源模型。•长度:单卡支持万帧视频处理(80GB显存)。•速度:2048帧编码仅需12秒,效率显著提升。2.架构设计•视觉编码器:SigLIP-SO400M逐帧提取特征。•动态Token合成(DTS):融合时序信息,压缩视觉特征。•大语言模型:Qwen2.5-Instruct实现跨模态推理。3.训练策略四阶段渐进训练:1.DTS初始化与跨模态对齐。2.高质量视频/图像-文本对训练。3.大规模数据强化理解能力。4.指令微调提升复杂任务响应。4.效率优化•分段预装填:分块处理视频,降低显存开销。•双粒度KV解码:关键片段全KV,次要片段降采样,加速推理。5.性能与应用•评测表现:接近720亿参数大模型(如Qwen2.5-VL-72B)。•应用场景:影视分析、监控异常检测、直播内容总结等。资源链接•项目主页:•HuggingFace模型:•GitHub仓库: