11月初,MINIMAX发布了新款abab7-preview模型,该模型支持245K上下文,相对于abab6.5系列模型在长文、数学、写作等能力有大幅度提升。
根据网上搜索到的关于abab7-preview模型的资料并不多,想要进一步了解这一模型,可以通过实测看看真实的表现。
> 在302.AI上使用
目前,302.AI已经提供了abab7-preview模型,用户可以通过302.AI直接获得模型使用,也可以通过API超市快速接入模型。以下是获取模型的具体步骤:
【聊天机器人】
1、进入302.ai,登录后在左侧菜单栏点击“使用机器人”——选择“聊天机器人”——模型中选择“abab7-preview”模型。
【API超市】
1、进入302.ai后——点击“使用API”——选择“API超市”——分类中点击“语言大模型”——然后选择“国产模型”。
2、下滑可以看到已经提供了模型abab7-preview的API,大家可以根据需求选择【查看文档】快速接入API或者选择【在线体验】测试模型的参数。
> 实测对比
实测1:逻辑常识测试
提示词:蒸1个包子要10分钟,蒸十个包子要多久?
分析:如果你以为这只是简单的数学题那就错了,其实这是一个典型的逻辑和常识问题,用来考察人们是否能够区分“并行”和“串行”任务的处理时间。蒸包子这个问题的答案取决于蒸锅的大小和蒸锅的工作原理,是一个考察逻辑思维和实际情况理解的问题。来看下三个模型的表现:
claude-3.5-haiku:分析合理,回答正确。
Nova Pro:分析很完整,根据题目设想多种场景并根据这些场景给出答案,回答正确。
abab7-preview:回答虽然没有Nova Pro这么详细,但是也是回答正确的。
提示词:
claude-3.5-haiku:分析不对,回答错误。
实测3:数学测试:
提示词:

claude-3.5-haiku:分析过程不长,最后的答案是错误的。
Nova Pro:Nova Pro也是回答错误。



实测4:大海捞针测试:
长文本测试还要用到大海捞针测试,大海捞针测试能够测试模型的文档理解和分析能力。
使用工具:302.AI的聊天机器人


实测5:编程测试
使用工具:302.AI的聊天机器人——Artifacts功能
提示词:用前端代码设计一个推箱子小游戏,将代码放在一起输出
abab7-preview:界面设计还算美观,但展示的为静止界面,游戏无法操作。
> 总结
通过以上实测,可以初步得出以下结论:
逻辑常识测试:对于逻辑常识问题,三个模型的都能合理进行分析,但是分析最完整的模型不是abab7-preview,而是Nova Pro。
推理测试:面对逻辑推理能力测试,abab7-preview在回答的准确性和分析的深度上表现还不错。
数学测试:对于难度较高的数学题目,abab7-preview在内的三个实测模型存在明显的不足。
编程测试:在编程测试中,abab7-preview虽然生成的界面美观度还不错,但是游戏无法操作,编程能力不足。