紧随Meta发布 Llama 3.1之后,7月26日,法国AI初创公司Mistral AI发布了最新模型Mistral Large 2。与Mistral AI公司前代产品相比,Mistral Large 2 在代码生成、数学和推理方面的能力显著增强。它还提供了更强大的多语言支持和高级函数调用功能。
Mistral Large 2 模型拥有1230亿参数,宣称性能媲美OpenAI和Meta的最新尖端模型,尤其在代码生成、数学和推理方面表现出色。Mistral AI在官方网站中还提到,Large 2 在MMLU基准测试中实现了84.0%的准确率。
Mistral Large 2基于之前Codestral 22B和Codestral Mamba的经验,进行了大量代码训练,支持Python、Java、C、C++、JavaScript和Bash等80多种语言。其代码生成能力远超Llama 3.1 70B,接近Llama 3.1 405B。
除此之外,Mistral Large 2 投入了大量精力来增强模型的推理能力,在推理能力上,特别关注减少模型产生“幻觉”,即生成看似合理但实际不准确或无关的信息。通过对模型细致的微调,使模型在响应时表现得更加谨慎和敏感,确保输出的信息既可靠又准确。
同时,Mistral Large 2 在遵循精确指令和处理长时间多轮对话方面表现尤为出色。下面展示了 MT-Bench、Wild Bench 和 Arena Hard 基准测试中的表现,Mistral Large 2 的表现仅次于GPT-4o和Claude-3.5-sonnet:
如今,很大一部分业务用例涉及处理多语言文档。 Mistral Large 2 在大量多语言数据上进行训练的。以下是 Mistral Large 2 在多语言 MMLU 基准上的性能结果,与之前的 Mistral Large、Llama 3.1 模型以及 Cohere 的 Command R+ 进行了比较。
讲了这么多,那是不是Mistral Large 2就能完胜最新的Llama3.1模型了呢?小编认为要对比过才知道,接下来小编就和大家一起对比Llama3.1和Mistral Large 2的数学推理能力,看看到底谁会更胜一筹。
首先找到302.AI的模型竞技场,勾选Mistral Large 2、Llama 3.1 70B和Llama 3.1 405B。无论是Mistral Large 2还是Llama 3.1系列,都有提到在多语言能力上有提升,第一题就先用中文提问:“9.9和9.11哪个大?”
没想到这个数学题十分有效,屡试不爽,可以看到三个模型都答错了,我们试一试将问题切换成英语再次提问:
没想到的是,两极反转,全部模型都回答正确了,看来三个模型在中文理解能力上还有提升的空间。接下来换一题目考考逻辑能力,继续是用中文提问,先来看下题目:
来看下回答:
没想到的是,居然只有Llama3.1 70B回答正确,正确答案就是甲偷吃了鱼!最后一个问题来自弱智吧:“生鱼片是死鱼片吗?”,在以上三个模型的基础上增加了GPT-4o和Claude-3.5-Sonnet两个模型,共五个模型,看下表现怎么样:
可以看到,Claude-3.5-Sonnet的回答最详细最完整的;其次是GPT-4o,基本能够解释清楚生鱼片和死鱼片之间的关系;Mistral Large 2的解释没有回答到重要的点上,只是名词解释了生鱼片和死鱼片各自的意思,而Llama3.1的表现稍微差点,只从字面上去回答。
从以上的测试内容可以看出,302.AI的模型竞技场不仅在操作界面设计上做到了简洁明了、直观易用,更重要的是其模型更新的速度十分快,用户不需要为了尝试不同的AI模型而注册多个账号,节省了用户大量的时间和精力。并且!通过302.AI模型竞技场用户可以快速、方便地在不同模型间进行直观比较,清晰地了解各个模型的优势和特点。
除了模型竞技场,302.AI的聊天机器人和API超市也更新了Mistral Large 2模型。302.AI的聊天机器人支持按需付费,且能够一键分享机器人,收到分享链接的用户无需登录注册即可使用。另外,还能手动设置单日额度及总额度,更好的帮助用户控制管理预算成本。
302.AI的API超市支持在线调试API,不同模型的API更新速度迅速,不需要电脑配置和复杂部署,即使是小白也能轻松使用。
Mistral Large 2的发布无疑为AI领域注入了新的活力,也为行业竞争格局带来了新的变数。对于目前AI领域的内卷情况来看,无论是Mistral Large 2还是Llama 3.1,都难以在这场没有终点的技术马拉松中独占鳌头,但是,正是这种激烈的竞争,推动着AI技术以惊人的速度向前发展。我们可以期待看到更多突破性的模型问世,推动整个行业向前发展。