阿里巴巴在开源人工智能市场树立新标杆——Qwen3-Coder在编码基准测试中超越GPT-4o

通过Qwen3-Coder，阿里巴巴首次提供了一种代理型开源模型，大大超越了GPT-4o和DeepSeek。

Eulerpool News

随着Qwen-3 Coder于2025年7月23日的推出，阿里巴巴跻身全球编码AI市场的前列。该模型在Apache-2.0许可证下可自由获取，结合了4800亿参数（其中每次查询激活350亿）和高达一百万个tokens的上下文深度，超过GPT-4o的两倍。

在7.5万亿个令牌中训练，其中约70%是代码，Qwen3-Coder专注于代理功能：除了用于可验证代码执行的强化学习，阿里巴巴还使用一个系统进行长期规划和跨多个交互步骤的调整。训练架构基于一个包含160个专家的专家混合方法，每个请求有八个专家激活。

在基准测试中，该模型表现出色。在SWE-bench Verified上，Qwen3-Coder获得了67.0%（标准）和69.6%（500-轮），而GPT‑4.1为54.6%，Gemini 2.5 Pro为49.0%。在MultiPL-E编程测试中，该模型以87.9稍逊于Claude Opus 4，但明显领先于DeepSeek（82.2）和GPT‑4o（82.7）。在AIME数学考试中，相关的姊妹模型Qwen3‑235B‑A22B甚至以70.3分大幅超越了竞争对手。

与现有开发环境的集成实现无缝衔接。阿里巴巴提供了一个具有结构化提示、Node.js 支持以及对 Claude Code、Ollama、LMStudio 或 llama.cpp 等系统支持的 CLI 工具。该模型可以在本地、通过兼容 OpenAI 的 API 或通过阿里巴巴云运行。定价结构透明：每百万个 Token（Prompt）收费 1 到 6 美元，具体取决于上下文深度——相比于闭源替代方案显著便宜。

来自开发者社区的初步反馈是明确的。Sebastian Raschka 称其为“迄今为止最好的编码模型”。Wolfram Ravenwolf 称之为“目前无与伦比”。Jack Dorsey 在与他的代理框架 Goose 结合时甚至认为它是一种“新类别”的智能软件开发。

该模型在商业上也已嵌入：Qwen3-Coder的精简版3B将在秋季驱动惠普在中国的智能办公助手小微慧。该模型将成为企业环境中基于AI的文档和会议总结的核心基础设施组件。

阿里巴巴通过这一举措强调其在企业领域内构建开放的、代理性的、可扩展的人工智能生态系统的战略方向——明确目标是长期在技术上对抗来自美国的封闭系统。

一眼就能识别出被低估的股票

订阅费为2欧元/月

新闻

贴在左翼展示柜上的德国贴纸：国家安全机构在霍夫盖斯马尔展开调查

在黑森州的小城霍夫盖斯马尔，一项带有国色的贴纸行动引发了关注，并引发了国家安全局的调查。身份不明的人在左翼党的橱窗上贴满了数十个德国贴纸。

与其跳槽，不如“拥抱”工作——为何许多不满的员工不再辞职

劳动力市场的不确定性正在增加，与之一起增加的是一个无声的现象：越来越多的人留在让他们不快乐的工作中，因为害怕找不到更好的工作。

股市上涨——投资者期待鲍威尔和新经济数据

股市的上涨势头继续：Dax指数仍然接近其历史高点，而投资者今天在等待美国联邦储备主席杰罗姆·鲍威尔的新指示以及来自德国和美国的新经济数据。

美国锂热潮——美国关键矿产迎来可能突破

In den USA führt die Rückkehr des Rohstoffbooms zu neuer Dynamik im Lithiumsektor und rückt ein bisher wenig beachtetes Unternehmen plötzlich ins Rampenlicht.

一眼就能识别出被低估的股票

新闻

贴在左翼展示柜上的德国贴纸：国家安全机构在霍夫盖斯马尔展开调查

与其跳槽，不如“拥抱”工作——为何许多不满的员工不再辞职

股市上涨——投资者期待鲍威尔和新经济数据

美国锂热潮——美国关键矿产迎来可能突破

特朗普的中东转折：停火、希望——以及巨大的风险