Google发布“世界模型”Genie！可根据图像生成视频游戏

电子游戏最吸引人的地方在于它提供了一种逃避现实的方式，或是带领我们进入一个与现实迥异的幻想世界。现在，请想象一下，如果你能够创造出自己的世界会是怎样一番景象。

好消息是，谷歌DeepMind的研究人员已经开发出一项技术，让你能够创造出自己的虚构世界，这些世界与我们在高能量游戏中见到的奇异景观颇为相似。

谷歌DeepMind最近推出了Genie，这是一个全新的模型，能够仅凭一段文本或一张图片的提示，就生成互动视频游戏。而且，这一切都无需任何关于游戏机制（即构成游戏的规则、元素和过程）的事先训练。

Genie是什么？

根据谷歌DeepMind的官方博客文章，Genie是一个基于互联网视频资源训练的基础世界模型。该模型能够“从合成图像、照片乃至草图中，生成无尽变化的可玩（动作可控）世界”。

研究论文《Genie：生成式互动环境》指出，Genie是第一个以非监督方式从未标记的互联网视频中训练出来的生成式互动环境。就规模而言，Genie拥有11B个参数，包括一个时空视频标记器、一个自回归动力学模型，以及一个简单且可扩展的潜在动作模型。

这些技术规格使得Genie能够即使在缺乏训练、标签或任何其他特定领域要求的情况下，也能在生成的环境中逐帧进行动作。

Genie能做什么？

根据研究论文，Genie是一种新型的生成式AI，它使任何人——甚至是儿童——都能够想象并进入类似于人类设计的模拟环境的生成世界。尽管Genie仅接受视频数据的训练，但它能够生成多样化的互动和可控环境。

简而言之，我们已经看到了许多生成式AI模型，它们能够产生创意内容，包括语言、图像乃至视频。Genie的突破在于，它能够从单一图像提示中制作出可玩的环境。

试着回想《哈利·波特与魔法石》中的一幕，哈利和他的朋友们进入霍格沃茨城堡，前往格兰芬多公共休息室的途中。年轻的学生们看到一面充满画像的墙壁，每个角色都在画框中细腻地移动着。Genie实际上就是将静态图像赋予生命，为它们创造出自己的世界。

据谷歌DeepMind介绍，Genie可以使用它从未见过的图像作为提示，这包括现实世界的照片、草图，让人们与他们想象中的虚拟世界互动。这就是所谓的基础世界模型。

在训练方面，研究论文强调他们更多地关注2D平台游戏和机器人学的视频。Genie采用一种通用方法进行训练，使其能够在任何类型的领域中工作，并且能够扩展到更大的互联网数据集。

为什么它很重要？

Genie的突出之处在于它能够仅从互联网视频中学习并再现游戏角色的控制方式。这一点值得关注，因为互联网视频并没有关于视频中执行的动作的标签，甚至没有哪部分图像应该被控制的信息。

“Genie不仅学会了哪些观察部分通常是可控的，还推断出了在生成的环境中一致的多样潜在动作。注意，相同的潜在动作在不同的提示图像中产生了相似的行为，”Google发布的博客中这样说。

谷歌DeepMind表示，这个模型最独特的地方在于，它允许你从单一图像中创造出一个全新的互动环境。这开辟了许多可能性，特别是创造和进入虚拟世界的新方式。

为了证明这一点，研究人员使用文本到图像模型Imagen 2创建了一个图像，然后使用它作为提示来创建虚拟世界。同样的操作也可以用于草图。

有了Genie，任何人都将能够创造出自己完全想象出的虚拟世界。此外，该模型学习和开发新世界模型的能力，标志着朝着通用AI代理（一个通过感知其周围环境与环境互动的独立程序或实体）的重大跨越。

玩酷网