谷歌最新的人工智能视频生成器能生成完美的虚拟场景动物视频

知新了了 2024-01-26 11:52:12

Lumiere 制作了五秒钟的视频,“描绘了逼真、多样和连贯的运动”。

周二,谷歌公布了一款名为“Lumiere”的人工智能视频生成器,并在相关的预印本论文中称其为“一种用于生成逼真视频的时空扩散模型”。它在制作可爱动物在荒谬、不合理、虚拟的场景中的视频方面做得非常好,比如动物们穿旱冰鞋、开车或弹钢琴。当然,它可以做得更多。它可能是迄今演示的最先进的文本到动物的人工智能视频生成器。

根据谷歌的说法,Lumiere利用独特的架构一次性生成视频的整个时间段。或者,正如该公司所说,“我们引入了一种时空U-Net架构,通过模型中的一次传递,可以立即生成视频的整个时间段。这与现有的视频模型形成对比,现有的视频模型合成远距离关键帧,然后是时间超分辨率,这种方法本质上使全局时间一致性难以实现。”

通俗地说,谷歌的技术旨在同时处理空间(视频中物体的位置)和时间(整个视频中物体的移动和变化)两个方面。因此,它不是通过将许多小部件或帧放在一起制作视频,而是可以在一个平滑的过程中从头到尾创建整个视频。

Lumiere也可以做很多派对技巧,在谷歌的演示页面上有很好的例子。例如,它可以执行文本到视频的生成(将书面提示转换为视频),将静止图像转换为视频,使用参考图像生成特定风格的视频,使用基于文本的提示应用一致的视频编辑,通过设置图像的特定区域的动画来创建电影,并提供视频修复功能(例如,它可以改变一个人穿着的衣服的类型)。

在Lumiere的研究论文中,谷歌的研究人员表示,人工智能模型输出的是5秒长的1024×1024像素的视频,他们将其描述为“低分辨率”。尽管有这些限制,研究人员进行了一项用户研究,并声称Lumiere的输出,比现有的AI视频合成模型更受欢迎。

至于训练数据,谷歌没有说明他们输入Lumiere的视频是从哪里获得的,并写道:“我们在一个包含3000万个视频及其文字说明的数据集上训练我们的T2V(文本到视频)模型。[原文如此] 视频长80帧,每秒16帧(5秒)。基本模型的训练速度为128×128。”

人工智能生成的视频仍处于原始状态,但在过去两年里,它在质量上取得了进步。在2022年10月,谷歌第一个公开发布的图像合成模型Imagen Video。它可以以每秒24帧的速度从书面提示生成简短的1280×768视频片段,但结果并不总是连贯的。在此之前,Meta推出了其人工智能视频生成器Make-A-Video。去年6月,Runway的Gen2视频合成模型可以根据文本提示制作两秒钟的视频片段,从而推动了超现实主义模仿广告的创作。11月,我们介绍了稳定视频扩散,它可以从静止图像中生成短片。

人工智能公司经常用可爱的动物来展示视频生成器,因为目前很难生成连贯的、不变形的人 —— 尤其是因为我们作为人类,很擅长注意到人体的任何缺陷或他们如何移动。只要看看人工智能生成的威尔·史密斯吃意大利面就知道了。

从谷歌的例子来看(我们自己并没有使用过),Lumiere似乎超越了其他人工智能视频生成模型。但由于谷歌倾向于将其人工智能研究模型保密,我们不确定公众何时(如果有的话)有机会亲自尝试。

一如既往,每当我们看到文本到视频的合成模型变得越来越强大时,我们就会不由自主地想到互联网连接社会的未来含义,这个社会以共享媒体人工制品为中心,并且普遍认为“逼真”的视频通常代表摄像机捕捉到的真实情况下的真实物体。未来比Lumiere更强大的视频合成工具将使欺骗性的深度伪造变得非常容易。

为此,在Lumiere论文的“社会影响”部分,研究人员写道:“我们这项工作的主要目标是使新手用户能够以创造性和灵活的方式生成视觉内容。然而,我们的技术存在被滥用创造虚假或有害内容的风险,我们认为,开发和应用检测偏见和恶意用例的工具,以确保安全和公平使用,这一点至关重要。”

如果朋友们喜欢,敬请关注“知新了了”!

0 阅读:163
评论列表
  • 2024-01-27 03:07

    二营长,我的意大利炮呢!?这个谷歌的人工智能视频生成器听起来不错啊!能够生成逼真的虚拟场景动物视频,真是让人惊叹啊!

知新了了

简介:专注于新知、科普及趣闻的传播,日耕不辍,天天新鲜。