切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
斯里兰卡资讯
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文 ...
菲龙网编辑部7
有 744 人收听 TA
155679
主题
155696
回复
182160
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/100
美联储宣布降息25个基点 对劳动力市场担忧加剧
0/72
东西问|史瀚文:东西方不同文化为何在敦煌融合交织而没有冲突?
0/85
西电东送再添动脉 雪域清洁电点亮大湾区
0/83
上海港集装箱单月吞吐量首次突破502万标准箱
0/78
九一八!为了不能忘却的纪念!
0/75
“九一八”殇!山河呜咽!警钟长鸣!
0/69
新《聊斋》火热来袭,宋祖儿版姥姥比聂小倩还美,这下看点有了!
0/73
开播20分钟飙升榜第一!连刷5集!我想说: 这部悬疑剧要火向全国
0/68
《灼灼韶华》手刃陈二顺,宋萍被扫地出门,他才是陈家最狠的人
查看TA的全部帖子>>
一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」
时间:2025-9-15 09:40
0
132
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
新智元报道
编辑:倾倾
【新智元导读】开源炸场!Qwen3-Next 80B,每次仅激活约3B;训练成本约1/10,32K以上长文本吞吐提升约10倍,原生256K。这才是开源最想看的答案。
AI狂飙,闭源大模型坚信「越大越强」、「大就是好」。
但一只80B的开源「小钢炮」却给了另一个答案:Qwen3-Next。
它用极稀疏MoE与混合注意力,把单次激活压到≈3B,训练成本约1/10、32K+长上下文、推理吞吐≈10×,在多项推理与长文场景逼近甚至反超闭源竞品。
小体量、低成本,却能硬刚巨头——这才是开源最想看的答案。
80B小体量,凭什么挑战235B巨头?
Qwen3-Next的混合架构。采用Gated DeltaNet+Gated Attention的混合注意力与高稀疏MoE,并通过zero-centered与weight-decayed LayerNorm等稳定化手段,提升大规模训练稳定性
极致稀疏MoE:512专家只激活3B
闭源大模型的常见逻辑是「越大越强」:参数从百亿到千亿一路狂飙,成本和门槛也被推到极高。
但Qwen3-Next给出了另一种答案——它只有
80B总参数
,却通过极致稀疏的MoE 架构,把「小体量」贯彻到了极致。
采用
极稀疏MoE(1:50)
:512专家中每个token仅激活10个专家+1个共享专家,激活参数≈3B(约3.75%)
这种「按需激活」的设计,不仅让计算资源利用率最大化,也在官方评测中跑出了接近
235B旗舰模型
的表现。
Qwen3-Next-80B-A3B-Base在多项任务中表现超越32B,接近235B,展现出极高的性价比
Qwen3-Next用更小的规模,撕开了闭源巨头的防线,证明了「不是越大才越强」,而是越聪明才越强。
混合注意力:效率与召回的平衡
在注意力机制上,Qwen3-Next采用了
75%Gated DeltaNet+25%标准
Attention
的混合方案。
前者负责提升长文本处理的效率,后者保证全局信息的召回,再加上输出门控和部分旋转位置编码,既能处理超长上下文,又能维持强大的in-context学习能力。
这套设计让它在复杂推理任务中,不仅超过了自家更高成本的30B、32B模型,还在多个基准测试中
超越了闭源Gemini-2.5-Flash-Thinking
。
更让人惊讶的是,部分关键指标已经接近Qwen3-235B-Thinking,尤其在
256k超长上下文
场景下,优势被进一步放大,成为开源阵营少见的「长文推理利器」。
稳定性优化:不怕大规模训练翻车
稀疏架构的难题一直是训练不稳。
Qwen3-Next在这一点上做了多重改造:
采用
zero-centered与weight-decayed LayerNorm
等稳定化手段,并在
MoE Router
上做归一化与初始化改进,保证高稀疏与RL后训阶段的
稳态收敛
。
在MoE router初始化时进行归一化,让各个专家在早期训练阶段就能公平参与。
结果是,模型在scaling up时依然能稳步收敛。
省钱更省心:效率才是杀手锏
Qwen3-Next并不是靠堆算力取胜。
它只使用了Qwen3语料的
15T tokens子集
,训练所需GPU资源甚至不到Qwen3-32B的
9.3%
。
在4K场景也有可观提升,而在 32K+ 长上下文下提升最为显著(约10×)。
训练更省,推理更快,这让「性价比」三个字,不再是宣传口号,而是能落到实处的硬指标。
原生MTP:快得有理由
效率的提升并不是凭空出现。
Qwen3-Next把
Multi-Token Prediction
原生集成进模型主干,一次前向就能预测多个token。
再结合多步一致训练,大幅提升了speculative decoding的接受率。
这意味着模型不仅能生成得更快,而且在长文本场景下依旧保持稳定。
换句话说,速度背后有机制,性能提升也能持久复现。
后训练见真章:Instruct与Thinking双线作战
如果说Base模型证明了Qwen3-Next的基本实力,那么Instruct和Thinking模型则展示了它在后训练阶段的全面爆发。
在Instruct模型上,Qwen3-Next-80B-A3B-Instruct的表现已经逼近Qwen3-235B Instruct,在部分任务上甚至反超。
无论是SuperGPQA、AIME25,还是Arena-Hard v2,都能看到80B模型与235B旗鼓相当,明显领先于Qwen3-30B、32B系列。
在对于长文本处理的对比下尤为突出,在RULER测试的256k上下文范围内,它甚至超过了235B,验证了混合架构在超长场景下的优势。
而在Thinking模型上,Qwen3-Next-80B-A3B-Thinking的突破更为亮眼。
在复杂推理任务中,不仅优于自家更高成本的30B、32B模型,Thinking版在多个基准上超过Gemini-2.5-Flash-Thinking:例如 IME25 87.8 vs 72.0、HMMT25 73.9 vs 64.2、LiveBench 76.6 vs 74.3、LiveCodeBench v6 68.7 vs 61.2、Arena-Hard v2 62.3 vs 56.7。
换句话说,开源社区第一次在推理能力上真正追上了闭源巨头,并在部分场景中完成了反超。
官方在X的发布中也给出了核心口径:80B总参但单token仅激活3B;训练约10×更省、在32K+上下文推理约10×更快。
长文稳定、综合均衡,网友:真香!
如果说Qwen3-Next的骨骼是极稀疏MoE与混合注意力,那它的「肌肉」就体现在长文本和综合基准里的硬指标。
原生256K的上下文不是纸面参数,在官方RULER测试中,
Qwen3-Next-80B-A3B-Instruct在256K点位拿到约93.5%的准确率
,全区间平均约91.8%。
也就是说,它不仅能「装下」超长材料,还能在长度翻倍之后依然保持理解力和稳定性,不是那种越长越糊的模型。
再看综合能力。放进自家旗舰和竞品横向比,Qwen3-Next给出的答卷同样惊喜:在
Arena-Hard v2
里拿到
82.7
分,已经和235B旗舰处于同一梯队;
在
LiveBench
这样的综合评测上,它更是以
75.8
的成绩追平甚至略超235B。
在
LiveCodeBench v6
上,它干脆以小博大,80B模型的
56.6
分超过了235B的
51.8
。
当然,在更吃知识冗余的数学/常识任务上,它与235B仍有半步差距,但考虑到成本对比,这已是一笔「稳赚」的交换。
除了官方成绩单,社区也有第一波体验者。
有网友实测发现,Qwen3-Next在生成长文时,版式会有一定波动,同一个prompt多次跑出的页面排版不尽相同,需要靠更严格的提示去约束稳定性;
在处理长代码时表现强势,一次性能吐出上千行逻辑,但在「整理网页信息」这样的场景里,模型偶尔会「偷懒」,直接把片段抄过来而不是生成完整逻辑。
尽管如此,这位网友最后还是下了结论
100B以内的模型已经够打,等到A100B+级别的新版本量产,会更值得期待。
百万Token之外,还有Qwen3.5
Qwen3-Next 并不是终点。
它原生支持26万token的上下文,在实际测试中,通过
YaRN技术
已经可以稳定扩展到
百万级
。
这意味着,无论是整本书的理解,还是跨月的长周期对话,都已经不再是实验室里的概念,而是真正可落地的能力。
更重要的是,团队已经在筹备
Qwen3.5
。
在Qwen3-Next打下的架构基础上,未来的版本将进一步强化智能水平和生产力表现。
对研究者和开发者来说,这不仅是一代模型的更新,更是开源社区与闭源巨头竞争的加速信号。
从80B小体量撕开235B的防线,到百万级上下文的突破,再到即将到来的Qwen3.5,Qwen系列正在不断刷新行业对性价比和可能性的认知。
参考资料:
https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
https://www.reddit.com/r/LocalLLaMA/comments/1nefmzr/qwen_released_qwen3next80ba3b_the_future_of/
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://x.com/Alibaba_Qwen/status/1966197643904000262
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
菲龙广场
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部