Genmo推出全球最大开源视频生成模型Mochi V1，实测效果到底行不行？

302.AI

2024-10-28

5772

导读：10月22日，Genmo推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的AsymmDiT架构，拥有高达100亿个参数，是迄今为止公开发布的最大视频生成模型。

10月22日，Genmo在社交媒体平台发布消息，推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的Asymmetric Diffusion Transformer（AsymmDiT）架构，拥有高达100亿个参数，是迄今为止公开发布的最大视频生成模型。

根据Genmo官方介绍，Mochi V1模型在提示词遵循和动作质量方面表现十分出色：

Mochi V1 能够准确地将文本提示转化为视频内容，确保视频中的角色、场景和动作与用户的文本指令高度一致。同时，Mochi V1在内部测评中，其准确遵循文本指令、高度忠实于用户意图的能力胜过Runway和Luma等模型。

Mochi V1 模型还具有非常出色的运动质量表现，能够做到以每秒 30 帧的速度生成流畅的视频，持续时间长达 5.4 秒，具有高时间连贯性和逼真的运动动态。从官方提供的运动质量Elo评分图中， Mochi V1 的得分基本与Kling持平，胜于Runway和Luma：

说了这么多优点，接下来要说说不足的地方。Genmo在官网关于Mochi V1模型的文章中提到，Mochi V1目前存在一些已知的限制，比如目前版本只能生成480p的视频，在某些极端运动的边缘情况下，还会出现轻微的扭曲和失真。Mochi V1还针对照片写实风格进行了优化，因此在动画内容方面表现不佳。

> 使用教程

优缺点都说了这么多，不如直接上手试一试实在。虽然Mochi V1模型开源，但文章的一开头也有提到，Mochi V1 拥有高达100亿个参数，如果想要部署调试使用，需要高性能的GPU和大量的内存来训练和运行模型，比较复杂，也需要耗费一定时间，而302.AI给大家提供了一个快捷、方便的优质选择，目前302.AI工具超市的AI视频生成器中已经更新了Mochi V1模型，而且提供按需付费的使用方式，用户能够有效控制成本预算：

302.AI的AI视频生成器为用户提供了丰富的视频模型选择，包括Luma、Kling、Runway、智谱、Minimax、Mochi V1等热门最新模型，用户可以根据自身需求选择合适的模型，而且302.AI的AI视频生成器操作界面十分简洁，即使是小白也能轻松上手使用。

选择好Mochi V1模型后，只需在视频内容输入框中键入文字，点击【生成视频】按钮，等待片刻后就可以在页面右侧看到生成的视频。

> 实测案例

接下来，按照以上使用教程分别选择Runway和Mochi V1模型，用同样的提示词生成长度为5秒的视频，对比两个模型的文生视频效果：

1、提示词：一位时尚女性走在东京的街道上，街道上到处都是温暖的霓虹灯和动画城市标识。她穿着黑色皮夹克、红色长裙和黑色靴子，手拿黑色手提包。她戴着太阳镜，涂着红色口红。她自信而随意地走着。街道潮湿而反光，五颜六色的灯光营造出镜面效果。许多行人走来走去。（原提示词为英文）

首先，这一提示词的信息内容非常多，从生成的视频效果来看，明显Runway更优、整体画面更加流畅，Mochi V1生成的视频中，仔细看会发现，在镜头上移的时候，人物的手部动作出现了几帧的卡顿扭曲现象，而且人物走路姿态略显僵硬，看起来有种不自然的机械感。

2、提示词：镜头跟随一辆带有黑色车顶行李架的白色老式 SUV，它在陡峭的山坡上沿着被松树环绕的陡峭土路加速行驶，轮胎扬起尘土，阳光照射在沿着土路飞驰的 SUV 上，为场景投下温暖的光芒。土路缓缓弯曲向远方延伸，看不到其他汽车或车辆。道路两旁的树都是红杉，中间散布着几片绿地。从后面看，这辆车轻松地顺着弯道行驶，让人觉得它好像正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉，头顶是晴朗的蓝天，上面飘着薄薄的云彩。

再来看看物体运动方面的效果，对比后是Mochi V1生成的视频更优。Runway生成的视频整体画面色彩很好看，但是却脱离了提示词。提示词描述的是汽车加速行驶，轮胎扬起尘土，但Runway生成的视频中汽车加速行驶并不明显，视频的镜头也并不是跟随汽车移动，而Mochi V1生成的视频效果相对更好，不仅汽车行驶时候扬起的尘土等细节都有实现，而且这些细节都符合现实世界的物理规律的，整个视频画面也非常连贯：

3、提示词：脸部特写,一个老奶奶在眨眼

除此之外，也有翻车严重的情况，例如在人物脸部特写环节，仅仅一个简单的眨眼动作，Mochi V1生成的视频中出现了人物脸部明显的扭曲情况，这与Runway生成的视频对比更加突出：

总结：通过简单的实测对比可以看到，Mochi V1模型在人物动作生成方面还是存在比较明显的不足，但是一些运动场景、运动镜头中的表现比较不错。同时，在对比以上实测视频后，可以看到Mochi V1模型在480P分辨率下生成的视频与Runway相比，在画质上存在明显的劣势。

> API调用

按照惯例，这次上新的Mochi V1模型，在302.AI的API超市也更新了，302.AI API超市提供的在线调试的功能，给开发者提供了一个强大、便捷、高效的开发环境，使得视频生成模型的集成和应用变得更加简单和快捷。

> 总结

Mochi V1模型使用的AsymmDiT架构，旨在通过轻量化文本处理和动态视觉生成，最大化计算资源的利用，专注于提升视觉细节和时间一致性。这一架构的出现，让更多用户看到了开源视频生成模型的在技术上的创新，尽管我们通过实测发现Mochi V1模型还没完全达到官方宣传的效果，但是就目前来看，Mochi V1模型只是Genmo在视频生成领域的开端，据Genmo公司透露，他们计划在不久的将来推出Mochi 1 HD版本，该版本将支持720P的高清视频生成，或许我们一起期待下！

302.AI也会持续关注最新的AI资讯动态，为用户提供更便捷的AI服务。

如果你觉得这篇文章对你有帮助，别忘了点赞支持一下哦！

扫下方二维码加入AI技术群，获得更多技术资讯！

文章来源：【302.AI】公众号

【声明】该内容为作者个人观点，大数跨境仅提供信息存储空间服务，不代表大数跨境观点或立场。版权归原作者所有，未经允许不得转载。如发现本站文章存在版权问题，请联系：contact@10100.com

视频平台

短视频平台

短视频

302.AI

分享更新更全面的AI资讯。

内容 105

粉丝 0