谷歌AI大牛蒋路加入字节跳动，发力视频生成

近日消息，原谷歌VideoPoet 的项目研究负责人、高级科学家蒋路将加入字节跳动旗下TikTok，负责视频生成AI的开发。

VideoPoet是谷歌在2023年12月30日发布的视频生成模型，与OpenAI最近发布的视频生成模型Sora类似。据谷歌介绍，该模型可以“零样本生成视频”，不仅支持常见的文生视频、图生视频，还支持视频编辑、风格化处理、视频扩展以及视频配乐。从谷歌提供的输出视频效果来看，VideoPoet确实较以往的AI视频大模型有了质的飞跃，也被认为是Sora的有力竞争对手。

目前，蒋路Google Scholar上资料显示已加入TikTok。

我们先来看这一大牛的履历：

据公开资料显示，蒋路不仅是谷歌高级科学家、 VideoPoet 的负责人，同时也是卡梅隆大学计算机学院的兼职教授（全美乃至全世界最大的计算机学院）。

此外，蒋路还是研究社区的活跃成员，美国国家种子基金(NSFSBIR)的 AI评审专家，并定期担任CVPR、ICML、ICCV、NeurIPS和 AAAI等著名会议的领域主席。

蒋路毕业于西安交通大学，此后又前往布鲁塞尔自由大学（位于比利时）、卡内基梅隆大学计算机学院学习。先后在微软亚洲研究院、雅虎和谷歌实习。

2017年毕业后，蒋路正式加入谷歌，并成为谷歌云AI的创始成员之一，也是李佳博士和李飞飞博士首次聘请的研究员。他的研究被曾被应用到谷歌多个产品，比如YouTube、CloudAutoML、Ads、Waymo 和 Translate，影响了全球数十亿用户的日常生活。

其参与的多任务视频生成方面的研究：MAGVIT:Masked Generative Video Transformer论文在CVPR 2023中以近乎满分。

蒋路也时常活跃在社交平台，2024年1月5日，在知乎，“2023年后，AI 还有什么研究方向有前景？”话题下蒋路进行了评论，其表示：

视频生成领域的“ChatGPT 时刻”预计会在24年底或25年中实现，到那个时候视频生成已经可以达到好莱坞样片级别的效果。放眼更长远的未来，视频生成研究更加终极的目标是追求 “visual intellegence”，人工通用智能也会在视频生成中实现。

就一个月多后，2月16日，OpenAI发布了视频生成大模型Sora，迅速“引爆”视频生成市场。吸引了包括马斯克、Yann LeCun（杨立昆，图灵奖获得者）等一众大佬的注意。

国内市场也开始沸腾。在OpenAI推出Sora以来，短短三日，就有超过14家券商发布逾19份相关研报。

券商纷纷给予Sora极高评价，国泰君安认为，Sora模型推动AI多模态领域飞跃式发展，AI创作等相关领域将迎来深度变革；天风证券研报称，2000亿美元的短视频创作生态有望率先被颠覆，下一个亿级用户的互联网平台雏形已然出现；招商证券指出，Sora显著领先于其他文生视频模型，推动AI视频生成进入了一个全新的时代；华泰证券认为，AI视频进入大规模应用前夜.......

与此同时，很多人也将视线转向了国内企业。在ChatGPT发布后，百度推出了文心一言，阿里推出通义千问、腾讯推出混元大模型、字节跳动云雀大模型。除了头部企业纷纷入局之外，也有不少大牛牵头成立相关研究公司，包括百川智能、月之暗面等。

这一次大家也同样如此。作为视频平台抖音和Tik Tok的母公司，字节跳动成为很多人首先关注的对象。

很快市场传闻：字节跳动在Sora引爆文生视频赛道之前，已经在研发“中文版Sora”：一款名为Boximator的创新性视频模型。它可以通过文本精准控制生成视频中人物或物体的动作。

消息刚出来，字节跳动相关人士就作出了回应称，Boximator是视频生成领域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

对于大规模研究字节跳动的确是认真的！

在2023年2月就有消息，字节跳动在大模型上已有所布局。当时的消息，大模型团队负责人的间接和直接汇报对象，均为Tik Tok产品技术负责人朱文佳。

紧接着3月份，又有消息，阿里M6大模型的前带头人杨红霞加入了字节AI Lab（人工智能实验室），参与语言生成大模型的研发。而杨红霞在阿里达摩院负责的就是超大规模多模态预训练模型M6的技术。

2023年8月31日，首批大模型产品陆续通过《生成式人工智能服务管理暂行办法》备案，字节的云雀大模型就是首批上线的8家大模型之一。

（首批备案大模型：百度文心一言、字节的云雀大模型、百川智能的百川大模型、清华系AI公司智谱华章旗下的智谱清言、中科院旗下紫东太初、商汤的“商量SenseChat”、MiniMax的ABAB大模型、上海人工智能实验室的书生通用大模型。）

不过相较于百度、阿里等公司，字节在这场大模型之战中显得略为“低调”。

相信很多人都不知道。在今年1月，字节跳动就已发布了MagicVideo-V2文生视频模型，通过文生图大模型先生成一张符合当前输入文本的图片，然后使用图片与文本描述利用图生成视频模型生成简单的视频。

据悉，该模型通过大规模用户评估，它表现出了优于Runway、Pika 1.0、Morph、Moon Valley 和 Stable Video Diffusion 模型等领先文本转视频系统的性能。不过与Sora几乎难辨虚拟与真实的视觉效果相比，还有不小差距。

MagicVideo-V2生成的视频截图

Sora生成视频截图

作为竞争对手的百川智能创始人王小川，对字节却非常看好，其曾表示，字节在这场争夺战应占有一席之地，”如果能够出现一个产品可以理解视频，基本就立于不败之地了。”

如今AI视频大模型之战已经一触即发，蒋路的加入对于字节跳动来说将是巨大的助力，同时也可以说AI大模型之战字节跳动已经加入，2024年可以期待一波了。

玩酷网

谷歌AI大牛蒋路加入字节跳动，发力视频生成

卓乎