🚀介绍Qwen3-Next-80B-A3B——高效法学硕士的未来就在这里! 🔹80B参数,但每个令牌仅激活3B→比Qwen3-32B低10倍的培训,推理快10倍。(esp. @ 32K+ 上下文!) 🔹混合架构:Gated DeltaNet + Gated Attention → 最佳速度和召回 🔹超稀疏的MoE:512名专家,10名路由+1名共享 🔹多令牌预测→涡轮增压投机解码 🔹在性能上击败Qwen3-32B,在推理和长上下文上击败Qwen3-235B 🧠Qwen3-Next-80B-A3B-Instruct接近我们的235B旗舰。 🧠Qwen3-Next-80B-A3B-Thinking优于Gemini-2.5-Flash-Thinking。