阿里千问发布数学模型Qwen2-Math，最好的数学模型出现了？！

302.AI

2024-08-19

325

导读：阿里千问发布数学模型Qwen2-Math，最好的数学模型出现了？！

8月9日，阿里通义团队发布新一代数学模型Qwen2-Math，据官方称，Qwen2-Math 是一系列基于 Qwen2 LLM 构建的专门用于数学解题的语言模型，其数学能力显著超越了开源模型，甚至超过了闭源模型（如 GPT-4o），Qwen2-Math包含1.5B、7B、72B三个参数的基础模型和指令微调模型。

在一系列数学基准评测上，Qwen2-Math-72B-Instruct 超越了最先进的模型，包括 GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。

Qwen2-Math 的基础模型使用 Qwen2-1.5B、7B、72B 进行初始化，然后在精心设计的数学专用语料库上进行预训练。在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了 Qwen2-Math 基础模型。同时，还评估了三个中国数学基准 CMATH、高考数学完形填空和高考数学问答。所有评估都使用少量的思路链提示进行测试。

阿里通义团队基于 Qwen2-Math-72B 训练了数学专用奖励模型，并结合二进制信号通过 GRPO 进行强化学习。对 Qwen2-Math-Instruct 在英语和中文的数学基准评测上进行了评估。除了常用的基准评测，如 GSM8K 和 MATH 之外，还加入了更具挑战性的考试以全面检测 Qwen2-Math-Instruct 的能力。其中，Qwen2-Math-Instruct 在基准测试中表现最佳，证明了数学奖励模型的有效性。

在更复杂的数学竞赛评估（例如 AIME 2024 和 AMC 2023）中，Qwen2-Math-Instruct 在各种设置中也表现良好，包括 Greedy、Maj@64、RM@64 和 RM@256。

在官方文档中，千问团队也展示了一些竞赛题的示例，比如：

据了解，Qwen2-Math目前主要针对英文场景，中英双语和多语言模型正在开发中。另外，根据Qwen2-Math的许可协议，对于72B版本，如果每月活跃用户数超过1亿，是需要向千问团队申请许可。

然而，在302.AI的API超市中，已经更新了Qwen2-Math-72B的API。302.AI提供按需付费的付费方式，支持在线调试，通过302.AI的API超市，用户可以通过简单的API调用来集成复杂的功能，而且提供技术支持和帮助文档，帮助用户解决集成过程中遇到的问题。

值得一提的是，302.AI的聊天机器人也同步更新了Qwen2-Math-72B模型，为用户提供了一个更为便捷的使用途径，对于不熟悉API使用的AI爱好者，可以直接通过302.AI的聊天机器人来使用这一模型，同样是按需付费的模式，无需月费或捆绑套餐，使用户能够灵活地体验和应用这一先进的数学模型。

最后，用一个常用的数学问题来测试下Qwen2-Math-72B模型。结果显示，这道曾经让多个模型蒙圈的题目，不仅没有难倒Qwen2-Math-72B模型，且每一步的解释都比较清楚：

随着Qwen2-Math数学模型的推出，它不仅为数学教育和研究领域带来了新的发展机遇，更标志着人工智能技术的进一步融入我们的日常生活。数学模型的出现，其意义远超解决单一深奥数学题目的范畴，它为解题者提供了一种全新的思路和方法，通过展示解题过程，帮助用户逐步深入理解数学概念和原理，从而培养用户的逻辑思维和问题解决能力。未来，我们可以期待支持多语言的数学模型出现

文章来源：【302.AI】公众号

【声明】该内容为作者个人观点，大数跨境仅提供信息存储空间服务，不代表大数跨境观点或立场。版权归原作者所有，未经允许不得转载。如发现本站文章存在版权问题，请联系：contact@10100.com

AI赋能

AI生成

AI视频

302.AI

分享更新更全面的AI资讯。

内容 153

粉丝 1