0
0

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

302.AI
2024-10-28
1079
shoptop 【建站扶持计划】

免订阅费,免费SEO与代建站,16大主流媒体免费开户

   立即查看>>

大数跨境
导读:10月22日,Genmo推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的AsymmDiT架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。

根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:

Mochi V1 能够准确地将文本提示转化为视频内容,确保视频中的角色、场景和动作与用户的文本指令高度一致。同时,Mochi V1在内部测评中,其准确遵循文本指令、高度忠实于用户意图的能力胜过Runway和Luma等模型。

Mochi V1 模型还具有非常出色的运动质量表现,能够做到以每秒 30 帧的速度生成流畅的视频,持续时间长达 5.4 秒,具有高时间连贯性和逼真的运动动态。从官方提供的运动质量Elo评分图中, Mochi V1 的得分基本与Kling持平,胜于Runway和Luma:

说了这么多优点,接下来要说说不足的地方。Genmo在官网关于Mochi V1模型的文章中提到,Mochi V1目前存在一些已知的限制,比如目前版本只能生成480p的视频,在某些极端运动的边缘情况下,还会出现轻微的扭曲和失真。Mochi V1还针对照片写实风格进行了优化,因此在动画内容方面表现不佳。

>  使用教程

优缺点都说了这么多,不如直接上手试一试实在。虽然Mochi V1模型开源,但文章的一开头也有提到,Mochi V1 拥有高达100亿个参数,如果想要部署调试使用,需要高性能的GPU和大量的内存来训练和运行模型,比较复杂,也需要耗费一定时间,而302.AI给大家提供了一个快捷、方便的优质选择,目前302.AI工具超市的AI视频生成器中已经更新了Mochi V1模型,而且提供按需付费的使用方式,用户能够有效控制成本预算:

302.AI的AI视频生成器为用户提供了丰富的视频模型选择,包括Luma、Kling、Runway、智谱、Minimax、Mochi V1等热门最新模型,用户可以根据自身需求选择合适的模型,而且302.AI的AI视频生成器操作界面十分简洁,即使是小白也能轻松上手使用。

选择好Mochi V1模型后,只需在视频内容输入框中键入文字,点击【生成视频】按钮,等待片刻后就可以在页面右侧看到生成的视频。

>   实测案例

接下来,按照以上使用教程分别选择Runway和Mochi V1模型,用同样的提示词生成长度为5秒的视频,对比两个模型的文生视频效果:

1、提示词:一位时尚女性走在东京的街道上,街道上到处都是温暖的霓虹灯和动画城市标识。她穿着黑色皮夹克、红色长裙和黑色靴子,手拿黑色手提包。她戴着太阳镜,涂着红色口红。她自信而随意地走着。街道潮湿而反光,五颜六色的灯光营造出镜面效果。许多行人走来走去。(原提示词为英文)

首先,这一提示词的信息内容非常多,从生成的视频效果来看,明显Runway更优、整体画面更加流畅,Mochi V1生成的视频中,仔细看会发现,在镜头上移的时候,人物的手部动作出现了几帧的卡顿扭曲现象,而且人物走路姿态略显僵硬,看起来有种不自然的机械感。

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

2、提示词:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV,它在陡峭的山坡上沿着被松树环绕的陡峭土路加速行驶,轮胎扬起尘土,阳光照射在沿着土路飞驰的 SUV 上,为场景投下温暖的光芒。土路缓缓弯曲向远方延伸,看不到其他汽车或车辆。道路两旁的树都是红杉,中间散布着几片绿地。从后面看,这辆车轻松地顺着弯道行驶,让人觉得它好像正在崎岖的地形上行驶。土路周围是陡峭的山丘和山脉,头顶是晴朗的蓝天,上面飘着薄薄的云彩。

再来看看物体运动方面的效果,对比后是Mochi V1生成的视频更优。Runway生成的视频整体画面色彩很好看,但是却脱离了提示词。提示词描述的是汽车加速行驶,轮胎扬起尘土,但Runway生成的视频中汽车加速行驶并不明显,视频的镜头也并不是跟随汽车移动,而Mochi V1生成的视频效果相对更好,不仅汽车行驶时候扬起的尘土等细节都有实现,而且这些细节都符合现实世界的物理规律的,整个视频画面也非常连贯:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

3、提示词:脸部特写,一个老奶奶在眨眼

除此之外,也有翻车严重的情况,例如在人物脸部特写环节,仅仅一个简单的眨眼动作,Mochi V1生成的视频中出现了人物脸部明显的扭曲情况,这与Runway生成的视频对比更加突出:

Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底行不行?

总结:通过简单的实测对比可以看到,Mochi V1模型在人物动作生成方面还是存在比较明显的不足,但是一些运动场景、运动镜头中的表现比较不错。同时,在对比以上实测视频后,可以看到Mochi V1模型在480P分辨率下生成的视频与Runway相比,在画质上存在明显的劣势。

>   API调用

按照惯例,这次上新的Mochi V1模型,在302.AI的API超市也更新了,302.AI API超市提供的在线调试的功能,给开发者提供了一个强大、便捷、高效的开发环境,使得视频生成模型的集成和应用变得更加简单和快捷。

>   总结

Mochi V1模型使用的AsymmDiT架构,旨在通过轻量化文本处理和动态视觉生成,最大化计算资源的利用,专注于提升视觉细节和时间一致性。这一架构的出现,让更多用户看到了开源视频生成模型的在技术上的创新,尽管我们通过实测发现Mochi V1模型还没完全达到官方宣传的效果,但是就目前来看,Mochi V1模型只是Genmo在视频生成领域的开端,据Genmo公司透露,他们计划在不久的将来推出Mochi 1 HD版本,该版本将支持720P的高清视频生成,或许我们一起期待下!

302.AI也会持续关注最新的AI资讯动态,为用户提供更便捷的AI服务。

如果你觉得这篇文章对你有帮助,别忘了点赞支持一下哦!

扫下方二维码加入AI技术群,获得更多技术资讯!

文章来源:【302.AI】公众号
【声明】该内容为作者个人观点,大数跨境仅提供信息存储空间服务,不代表大数跨境观点或立场。版权归原作者所有,未经允许不得转载。如发现本站文章存在版权问题,请联系:contact@10100.com
302.AI 分享更新更全面的AI资讯。
总阅读13.3k
粉丝0
内容85
主页
关注