来源:互联网2025-07-30 14:58:38 热度:

阿里通义千问更新 Qwen3-30B 非思考模型:AI 性能媲美 GPT-4o

AI 中国网 https://www.cnaiplus.com

导读:IT之家 7 月 30 日消息,阿里通义千问今天(7 月 30 日)在 X 平台发布推文,宣布推出 Qwen3-30B-A3B 非思考模式的更新版本,命名为 Qwen3-30B-A3B-Instruct-2507。新模型主要提升指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力,官方表示在激活 3B 参数的情况下,性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。IT之家援引官方博文内容,Qwen3-30B- ......

IT之家 7 月 30 日消息,阿里通义千问今天(7 月 30 日)在 X 平台发布推文,宣布推出 Qwen3-30B-A3B 非思考模式的更新版本,命名为 Qwen3-30B-A3B-Instruct-2507。

新模型主要提升指令跟随、逻辑推理、文本理解、数学、科学、编程和工具使用等通用能力,官方表示在激活 3B 参数的情况下,性能接近 GPT-4o 和 Qwen3-235B-A22B Non-Thinking。

阿里通义千问更新 Qwen3-30B 非思考模型:AI 性能媲美 GPT-4o

IT之家援引官方博文内容,Qwen3-30B-A3B-Instruct-2507 模型的参数总量为 305 亿,但激活参数为 33 亿,非嵌入层数量为 299 亿,网络层数为 48 层,专家数为 128 个,激活专家数为 8 个,上下文长度原生支持 262144 个 tokens。

阿里通义千问更新 Qwen3-30B 非思考模型:AI 性能媲美 GPT-4o

该模型仅支持非思考模式,在输出中不会生成块。同时,不再需要指定 enable_thinking=False。官方表示新模型大幅增加了多种语言的长尾知识覆盖,且在主观和开放式任务中与用户偏好更加一致,能够提供更有帮助的回答和更高质量的文本生成。

Deepseek-V3-0324GPT-4o-0327Gemini-2.5-Flash 非思考Qwen3-235B-A22B 非思考Qwen3-30B-A3B 非思考Qwen3-30B-A3B-Instruct-2507

知识

MMLU-Pro

81.2

79.8

81.1

75.2

69.1

78.4

MMLU-Redux

90.4

91.3

90.6

89.2

84.1

89.3

GPQA

68.4

66.9

78.3

62.9

54.8

70.4

SuperGPQA

57.3

51.0

54.6

48.2

42.2

53.4

推理

AIME25

46.6

26.7

61.6

24.7

21.6

61.3

HMMT25

27.5

7.9

45.8

10.0

12.0

43.0

ZebraLogic

83.4

52.6

57.9

37.7

33.2

90.0

LiveBench 20241125

66.9

63.7

69.1

62.5

59.4

69.0

编程

LiveCodeBench v6 (25.02-25.05)

45.2

35.8

40.1

32.9

29.0

43.2

MultiPL-E

82.2

82.7

77.7

79.3

74.6

83.8

Aider-Polyglot

55.1

45.3

44.0

59.6

24.4

35.6

对齐

IFEval

82.3

83.9

84.3

83.2

83.7

84.7

Arena-Hard v2*

45.6

61.9

58.3

52.0

24.8

69.0

创意写作 v3

81.6

84.9

84.6

80.4

68.1

86.0

WritingBench

74.5

75.5

80.5

77.0

72.2

85.5

代理

BFCL-v3

64.7

66.5

66.1

68.0

58.6

65.1

TAU1-Retail

49.6

60.3#

65.2

65.2

38.3

59.1

TAU1-Airline

32.0

42.8#

48.0

32.0

18.0

40.0

TAU2-Retail

71.1

66.7#

64.3

64.9

31.6

57.0

TAU2-Airline

36.0

42.0#

42.5

36.0

18.0

38.0

TAU2-Telecom

34.0

29.8#

16.9

24.6

18.4

12.3

多语言

MultiIF

66.5

70.4

69.4

70.2

70.8

67.9

MMLU-ProX

75.8

76.2

78.3

73.2

65.1

72.0

INCLUDE

80.1

82.1

83.8

75.6

67.8

71.9

PolyMATH

32.2

25.5

41.9

27.0

23.3

43.1

AI 中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容