AI 中国网 https://www.cnaiplus.com
导读:IT之家 7 月 30 日消息,阿里通义千问今天(7 月 30 日)在 X 平台发布推文,宣布推出 Qwen3-30B-A3B 非思考模式的更新版本,命名为 Qwen3-30B-A3B-Instruct-2507。新模型主要提升指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力,官方表示在激活 3B 参数的情况下,性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。IT之家援引官方博文内容,Qwen3-30B- ......IT之家 7 月 30 日消息,阿里通义千问今天(7 月 30 日)在 X 平台发布推文,宣布推出 Qwen3-30B-A3B 非思考模式的更新版本,命名为 Qwen3-30B-A3B-Instruct-2507。
新模型主要提升指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力,官方表示在激活 3B 参数的情况下,性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。
IT之家援引官方博文内容,Qwen3-30B-A3B-Instruct-2507 模型的参数总量为 305 亿,但激活参数为 33 亿,非嵌入层数量为 299 亿,网络层数为 48 层,专家数为 128 个,激活专家数为 8 个,上下文长度原生支持 262144 个 tokens。
该模型仅支持非思考模式,在输出中不会生成块。同时,不再需要指定 enable_thinking=False。官方表示新模型大幅增加了多种语言的长尾知识覆盖,且在主观和开放式任务中与用户偏好更加一致,能够提供更有帮助的回答和更高质量的文本生成。
Deepseek-V3-0324GPT-4o-0327Gemini-2.5-Flash 非思考Qwen3-235B-A22B 非思考Qwen3-30B-A3B 非思考Qwen3-30B-A3B-Instruct-2507
知识
MMLU-Pro
81.2
79.8
81.1
75.2
69.1
78.4
MMLU-Redux
90.4
91.3
90.6
89.2
84.1
89.3
GPQA
68.4
66.9
78.3
62.9
54.8
70.4
SuperGPQA
57.3
51.0
54.6
48.2
42.2
53.4
推理
AIME25
46.6
26.7
61.6
24.7
21.6
61.3
HMMT25
27.5
7.9
45.8
10.0
12.0
43.0
ZebraLogic
83.4
52.6
57.9
37.7
33.2
90.0
LiveBench 20241125
66.9
63.7
69.1
62.5
59.4
69.0
编程
LiveCodeBench v6 (25.02-25.05)
45.2
35.8
40.1
32.9
29.0
43.2
MultiPL-E
82.2
82.7
77.7
79.3
74.6
83.8
Aider-Polyglot
55.1
45.3
44.0
59.6
24.4
35.6
对齐
IFEval
82.3
83.9
84.3
83.2
83.7
84.7
Arena-Hard v2*
45.6
61.9
58.3
52.0
24.8
69.0
创意写作 v3
81.6
84.9
84.6
80.4
68.1
86.0
WritingBench
74.5
75.5
80.5
77.0
72.2
85.5
代理
BFCL-v3
64.7
66.5
66.1
68.0
58.6
65.1
TAU1-Retail
49.6
60.3#
65.2
65.2
38.3
59.1
TAU1-Airline
32.0
42.8#
48.0
32.0
18.0
40.0
TAU2-Retail
71.1
66.7#
64.3
64.9
31.6
57.0
TAU2-Airline
36.0
42.0#
42.5
36.0
18.0
38.0
TAU2-Telecom
34.0
29.8#
16.9
24.6
18.4
12.3
多语言
MultiIF
66.5
70.4
69.4
70.2
70.8
67.9
MMLU-ProX
75.8
76.2
78.3
73.2
65.1
72.0
INCLUDE
80.1
82.1
83.8
75.6
67.8
71.9
PolyMATH
32.2
25.5
41.9
27.0
23.3
43.1
AI 中国网 https://www.cnaiplus.com
本文网址:




