阿里巴巴在开源人工智能市场树立新标杆——Qwen3-Coder在编码基准测试中超越GPT-4o

通过Qwen3-Coder,阿里巴巴首次提供了一种代理型开源模型,大大超越了GPT-4o和DeepSeek。

Eulerpool News

随着Qwen-3 Coder于2025年7月23日的推出,阿里巴巴跻身全球编码AI市场的前列。该模型在Apache-2.0许可证下可自由获取,结合了4800亿参数(其中每次查询激活350亿)和高达一百万个tokens的上下文深度,超过GPT-4o的两倍。

在7.5万亿个令牌中训练,其中约70%是代码,Qwen3-Coder专注于代理功能:除了用于可验证代码执行的强化学习,阿里巴巴还使用一个系统进行长期规划和跨多个交互步骤的调整。训练架构基于一个包含160个专家的专家混合方法,每个请求有八个专家激活。

在基准测试中,该模型表现出色。在SWE-bench Verified上,Qwen3-Coder获得了67.0%(标准)和69.6%(500-轮),而GPT‑4.1为54.6%,Gemini 2.5 Pro为49.0%。在MultiPL-E编程测试中,该模型以87.9稍逊于Claude Opus 4,但明显领先于DeepSeek(82.2)和GPT‑4o(82.7)。在AIME数学考试中,相关的姊妹模型Qwen3‑235B‑A22B甚至以70.3分大幅超越了竞争对手。

与现有开发环境的集成实现无缝衔接。阿里巴巴提供了一个具有结构化提示、Node.js 支持以及对 Claude Code、Ollama、LMStudio 或 llama.cpp 等系统支持的 CLI 工具。该模型可以在本地、通过兼容 OpenAI 的 API 或通过阿里巴巴云运行。定价结构透明:每百万个 Token(Prompt)收费 1 到 6 美元,具体取决于上下文深度——相比于闭源替代方案显著便宜。

来自开发者社区的初步反馈是明确的。Sebastian Raschka 称其为“迄今为止最好的编码模型”。Wolfram Ravenwolf 称之为“目前无与伦比”。Jack Dorsey 在与他的代理框架 Goose 结合时甚至认为它是一种“新类别”的智能软件开发。

该模型在商业上也已嵌入:Qwen3-Coder的精简版3B将在秋季驱动惠普在中国的智能办公助手小微慧。 该模型将成为企业环境中基于AI的文档和会议总结的核心基础设施组件。

阿里巴巴通过这一举措强调其在企业领域内构建开放的、代理性的、可扩展的人工智能生态系统的战略方向——明确目标是长期在技术上对抗来自美国的封闭系统。

一眼就能识别出被低估的股票

新闻