新闻来了!
DeepSeek于2月24日发布了开源代码库FlashMLA,专为Hopper GPU优化,提升大语言模型解码速度。这个
DeepSeek于2月24日发布了开源代码库FlashMLA,专为Hopper GPU优化,提升大语言模型解码速度。这个优化方案能加速高性能AI任务,特别是实时生成任务,提高响应速度和吞吐量。MLA技术通过多头并行计算,提高模型对长序列的处理能力。