距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。
Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B则是中型模型,今天,小编就具体介绍一下Llama 3.2 11B和Llama 3.2 90B。
Llama 3.2 系列中最大的两个模型 11B 和 90B 支持图像推理用例,如文档级理解(包括图表和图形)、图像字幕以及视觉基础任务(例如基于自然语言描述在图像中精确定位对象)。
简单地理解就是,用户可以直接提问【企业去年哪个月的销售额最高?】然后 Llama 3.2可以根据可用的图表进行推理并快速提供答案。
除此之外,Llama 3.2 还能使用地图进行推理并帮助回答问题,比如用户提问【何时徒步旅行可能会变得更陡峭?】或者【地图上标记的特定路径的距离】。还有,Llama 3.2 11B 和 90B 模型可以通过从图像中提取细节、理解场景,制作一两句话作为图像字幕来帮助讲述故事,从而弥合视觉和语言之间的差距。
Meta官方通过评估表明,Llama 3.2 11B和Llama 3.2 90B在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美:
Llama 3.2 11B和Llama 3.2 90B是不是真的如官方所说的这么厉害?我们可以一起来试一试,想要快速体验Llama 3.2 11B和Llama 3.2 90B模型,但又不熟悉使用API的用户,可以选择302.AI,302.AI的聊天机器人和模型竞技场已经更新最新的Llama 3.2 11B和Llama 3.2 90B模型,而且提供按需付费的服务方式,可以有效控制预算,无需担心资源浪费。
既然官方在发布时候提到Llama 3.2 11B和Llama 3.2 90B模型的视觉理解能力能够与Claude-3-Haiku和 GPT-4o-mini相媲美,那接下来,小编就使用302.AI的模型竞技场对比Llama 3.2 11B、Llama 3.2 90B、Claude-3-Haiku和 GPT-4o-mini这4种模型在视觉理解方面表现:
首先,测试一下四个模型的图表的理解能力,根据以下图片进行提问:
第一个问题:“2015年人口自然增长率为多少?”
我们可以看到,根据以上图表可以看到人口自然增长率为绿色折线,其中2015年的自然增长率在5%上下。再来看以下四个模型的回答,首先GPT-4o-mini和Claude-3-Haiku都比较接近答案,而Llama 3.2 11B和Llama 3.2 90B均回答错误,Llama 3.2 11B回答的是14.07%更接近的是图表中2016年或者是2014年的人口出生率,而Llama 3.2 90B回答的9.2%来源无从考究。
第二题,根据地图提出问题:“请问图中红线连接两地的距离是?”,
这里通过地图测量工具测量出来的距离为5.1公里,所以答案小编认为接近5.1公里的答案都是正确的。
接下来看下四个模型的回答,首先GPT-4o-mini非常直接表示无法测量地图上的距离。而Claude-3-Haiku和Llama 3.2 11B给出答案都是6.5公里,尽管和正确答案5.1公里还有差距,但都是在四个模型中最接近正确答案的回答。而Llama 3.2 90B回答的10公里对比正确答案还是差得有点多。
最后,再让四个模型描述一下《泰坦尼克号》中的名场面。从回答来看,GPT-4o-mini和Claude-3-Haiku的回答只是根据图片直接描述所看到的画面,而Llama 3.2 11B和90B模型能够准确识别出《泰坦尼克号》的经典场景,并提供了较为详细的描述,小编认为这一点上是超越了GPT-4o-mini和Claude-3-Haiku。
根据以上的测试,可以得出在图表理解和地图测量方面,Llama 3.2系列模型还有一定的提升空间。特别是在处理具体数据时,两个模型的准确性还有待提高,但在图像描述和场景理解方面表现的确不错。
除此之外,302.AI的API超市也已经更新了Llama 3.2 11B和Llama 3.2 90B模型的API,开发者能快速通过302.AI的API超市在线调试API,更简单地将模型集成到自己的应用中,无需从头开始构建和训练模型,更重要的是,302.AI的API超市提供的按需付费模式,降低了初期尝试和集成的门槛,使得更多的开发者和企业能够轻松地使用各AI模型的API。
Llama 3.2系列的发布标志着AI技术在多模态理解方面又迈出了一步。多模态AI模型通过融合文本、图像等多种数据类型,为AI技术在理解和处理复杂任务方面开辟了新的可能性,尽管Llama 3.2系列还有上升的空间,但我们可以期待,随着AI技术的不断进步和应用场景的扩展,多模态AI模型在未来充满了无限可能。