1、Google大模型Gemini和Imagen 3相关介绍
随着人工智能技术的迅猛发展,机器学习平台服务(ML PaaS)已经成为企业数字化转型的关键工具。在这样的背景下,谷歌云的Vertex AI平台应运而生,它提供了一个强大的环境,让客户能够训练和部署机器学习模型以及AI应用,并支持自定义大型语言模型(LLM),以满足AI驱动应用的多样化需求。
客户对大模型的需求也与日倍增。近一年来,企业客户在Vertex AI上调用Gemini API的数据量激增了36倍,而Imagen 3的推出更是推动了Imagen API在Vertex AI上的数据增长达到5倍。全球范围内,中国出海企业的表现尤为引人注目。在Google Cloud的Top10客户中,中国企业已经占据了两个位置。
-
成本效益:Gemini-1.5-Pro-002的价格降低了50%以上,尤其是对于输入和输出token少于128K的提示。 -
性能提升:在数学、代码生成、长文本上下文和视觉任务上的性能提升显著,包括在MATH、HiddenMath等基准测试中提高约20%,视觉和代码应用提高2%-7%。 -
速率限制提高:1.5 Flash和1.5 Pro的速率限制分别从每分钟1000RPM和360RPM提高至每分钟2000 RPM和1000 RPM,使开发者能够更快构建和处理任务。 -
更快输出和更低延迟:输出速度提升2倍,延迟降低3倍,为更高效的应用场景提供支持。 -
更简洁的响应:响应风格更简洁、成本更低,输出长度缩短5%-20%,同时在许多话题上减少了拒绝和回避的次数,并保持高有用性。 -
多模态和长上下文支持:1.5 Pro的200万token长上下文窗口支持处理长文本和多模态任务,如1000页PDF或长视频的内容生成。 -
更新的过滤设置:模型的默认安全过滤器不再自动应用,开发者可以根据需要定制模型的安全设置。
2、Gemini和Imagen 3的核心能力介绍
YouTube分析:只需一个URL即可将YouTube视频导入Gemini,解锁多模态洞察。通过提供视频URL,直接从YouTube轻松分析视频,可以在Vertex AI Studio用户界面或通过API使用,与Batch API配合使用,分析大量视频并降低成本,使客户更容易从Gemini的多模态性中获益,非常适合用于收集产品反馈或竞争分析等场景应用。
多模态流媒体API:允许用户直接将音频和视频流传输给Gemini,以实现会话交互。目前仅在Gemini 1.5 Flash 002版本中提供,我们正在添加更多功能,以期最终完善。用户可以流式传输声音和视频至Gemini,并得到由VoiceLM技术支持的声音响应。
3、微调和定制Gemini和Imagen 3的路径
4. Model Evaluation:适用于所有模型的服务,通过评估模型在特定任务上的表现,用户可以了解模型的优缺点,并据此做出进一步的优化决策。
以下是这些能力的具体介绍:
1、Tune the prompt:
用户可以输入他们的需求以及原始的提示词,Google Cloud后台将依据众多案例所积累的能力,帮助用户生成更优的、经过修订的提示词。
2、Prompt Optimizer:
该工具能够自动围绕用户的提示词及其上下文进行优化。它采用类似于蒙特卡洛方法和AlphaGo技术的手段,为用户生成一系列种子提示词,随后对这些种子进行测试。最终,通过大量实验,工具将为用户提供在测试集上表现最佳的提示词。
3、Supervised Fine Tuning:
在某些业务场景下,如果现有解决方案仍无法满足需求, Google Cloud会提供业界领先的LLaMA技术进行轻量级的微调(Fine Tuning)来辅助客户优化模型。当然需要注意的是,这些模型必须是由Google提供的。用户可以利用几百个自行标注的数据样本,对模型进行适当的微调。该功能同时支持文本、图像和音频的多模态微调,并且用户只需为训练计算付费。
4、Distillation for Gemini:
除了简单的微调之外,Google Cloud还支持大型模型蒸馏技术。包括已经开源的Gemma模型,用户可以在Google Cloud上基于Gemma 2这种特别大的模型蒸馏出一些规模较小的模型,如Gemma 22B、9B、27B等,以适应自己的业务场景。在这个过程中,不需要大型标记数据集,并且可以自我托管目标模型以管理成本和延迟。
5、GenAI Eval Service:
若用户需对不同模型进行比较,包括Google Cloud上不同版本的Gemini以及市面上一些第三方模型,可以利用Vertex AI平台上的通用AI评估服务来对比这些模型在自己的测试集上的表现。
6、Controlled Generation for Gemini 1.5:
该服务旨在提高结构化输出的性能,使AI能够生成易于使用、机器可读的数据,减少繁琐的后处理和解析需求。此外,该服务还增加了结果的可预测性,允许用户可靠地预测AI模型产出数据的格式和结构,例如指定字段属性是否为枚举类型、列表项、可为空或必填等。
与市面上其他一些文本到图像的开源或商业解决方案相比,lmagen 3提供了更多的选择。例如,针对不同手机和平板厂商的大量使用需求,不再局限于1:1的传统比例,而是提供了3:4、4:3、9:16等多种不同的长宽比规格。此外,在图像中嵌入了DeepMind技术CCID,这使得在生成图像并获取水印后,能够在商业使用中避免许多潜在的版权问题。
此外,其具备非常灵活的编辑能力。lmagen 3图片编辑功能包括新增的“绘画特性”,允许用户通过遮罩或无遮罩技术快速添加或移除对象;以及“背景编辑特性”,让用户可以通过简单提示改变图像背景或调整图像的宽高比。