AI要用起来,“最后一公里”的问题是老生常谈。
用AI重做千行百业,交付是重中之重:都知道,用户找PPT模板,不只为模板,而是为了产出工作、学习用的PPT;用户拍照,不只为拍照,而是为了记录、修图、发朋友圈;用户扫描文件,不只为扫描,而是为了存储、检查文件……
当下的AI赛道,人们早就发现了“最后一公里”的重要性,谁能一站式地用AI为用户完成更多的需求,谁就能更早用AI实现“超级生产力”,占上AI“超级入口”的山头。
道理都懂,但要走好这“最后一公里”,今天却还有许多阻碍。
一个,是当下纷繁复杂、功能各异的AI能力、智能体缺乏整合。
用户想要把AI用好,就不得不在各个产品、平台之间来回切换,消费—创作—再创作的各个环节被繁多的壁垒所割裂。
另一个,是现有不少AI产品,完成交付能力仍然存在瓶颈。
用户对交付的需求,往往既有图文、又有PPT、图表、音视频等多模态格式,甚至是上述诸多形式的组合。而大部分的AI产品,给用户交付的要么只有干瘪的文字,要么就是一些半成品,还需要用户重新进入Ps、Pr等工具中再次编辑。
怎么解决这两大痛点,百度文库和网盘是有想法的。
AI要无所不能、无处不在,关键不仅要AI更聪明、更能干活,还得要多个智能体可以协同解决问题,给用户更完整的交付。
其中的重中之重,用三个字概括,就是“全模态”。
4月25日,在百度Create2025大会上,文库和网盘双剑合璧,首发了“沧舟OS”——一个可以实现全模态输入—处理—输出的AI技术底座。
输入层,文库网盘支持全模态输入,无论从什么设备、什么客户端,用户都可以向大模型输入文字、语音、图片视频、Html等多种模态的内容,省去一步格式转化的操作,就大幅降低了使用大模型的复杂度,让用户体验提升了一个量级。
百度文库和网盘的全模态输入,值得多提一句。百度副总裁,文库事业部、网盘事业部负责人王颖提到,要做好全模态的输入,让用户和AI的交互能不受文件模态、格式的限制,百度是早有预谋。
“过去,AI键盘我们一直在做,AI麦克风我们也完成了一部分;今年,我们最主要的工作,是完成了百度网盘的AI相机——这样,文字、语音、图像、视频几个大模块的全模态输入基本就做完了。”王颖如是说道。
处理层,沧舟OS有着更智能高效的调度中枢,如同指挥塔拆解任务、发号施令,旗下多智能体精诚合作、各展所长,让AI的交付速度和效果均有提升。
文库是图文生产的起点,工具链完整打通,内容创作平台的定位也就能立得住。网盘要做除了图文、视频之外的全模态生产和消费,比如视频生成、混剪,网盘过去没有,百度下半年也要给用户这种能力。
AI产品的功能要越来越全,Agent也越来越多,MCP(模型上下文协议)以其更简单、更通用的标准,让AIAgent介入产品的门槛被大大降低,成了今天AI圈的“金手指”。
文库专精图文处理,网盘则擅长视频、图像等富媒体处理,两者本就互补,要在沧舟OS上完成全模态的全流程处理,文库和网盘不仅必须强强联手,而且还要广纳天下“英才”,一起丰富沧舟OS的生态——这就不得不提到MCP。
王颖说,MCP对于百度文库、网盘来说,是恰逢其时:“一开始我们做产品的时候,用的就是MOE(混合专家模型)架构,与MCP的设计就有相似性。在设计架构、做分层的时候,模型之间要互相通讯,我们内部就是希望通讯可以标准化——围绕着这个理念,我们转向MCP十分顺利。”
沧舟OS,要做到“无所不能”、就不能自己亲手打磨每一个能力,这样不仅不经济,也不能持续扩大规模。“我们希望更多Agent可以由行业共创,以前共创没有很好的协同机制,MCP则很好地补充了这一点。”王颖解释道。
而要做到无处不在,MCP对沧舟OS来说同样意义重大。在不同用户的场景中,多硬件、多App的生态,给AI应用的开发也带来了很多麻烦。而在MCP盛行的今天,越来越多手机厂商对其的态度也越发开放,沧舟OS的场景覆盖也就有了更多可能。
在全模态、多场景的高性能处理之外,背靠网盘的私域授权数据,和文库的公域专业数据,沧舟OS还会对用户的使用习惯与过往使用经历进行整理,为每个用户创造一个专有的记忆库,让AI可以更懂用户,让人机沟通变得更容易。
“猜你喜欢”奠定了上一代互联网的财富格局,而到了人机交互形式、用户需求更多样、更深层次的大模型时代,AI要怎样理解用户,从而才能真正“想用户所想”呢?
AI对用户使用习惯的记忆,和人脑本身的记忆方式差不多。
百度文库产品负责人钟昊介绍,他们AI记忆库中的记忆可以分为三层:
短时记忆,对应AI的上下文记忆;
长期记忆,对应用户在文库、网盘上的存储、下载、搜索、使用记录,在授权下被整理成用户专属的长时、全模态记忆库;
抽象记忆,对应技术侧和产品侧,百度对用户交互模式的解析和调优。
“过去,我们的算法推荐是基于群体的角度来看待用户,于是才有了使用标签、画像去给用户归类的操作。
“今天,我们对用户的理解更个人,每个人都有自己的记忆库,甚至我们未来有计划把这个记忆库显性化,让用户自己编辑和调整,这是很大的不同。”钟昊说道。
谈完了处理层,输出层,沧舟OS也支持端到端的完整交付,输出的内容格式同样支持全模态,能够涵盖工作学习、生活娱乐等多种场景,帮助用户满足更多元的需求。
全模态的系统化完整交付能力,对于AI产品有多大的价值?王颖如此解答道:
“随着Agent、场景、能力在市场上越变越多,我们不希望用户浪费大量时间,在各种产品上跳来跳去。本质上,我们希望用户能够不用换场景,能在沧舟OS的操作系统里,迅速得到解决方案。”
要支撑沧舟OS,技术才是最底层的能力保证。刚刚过去的Create大会,文库和网盘本就吸睛无数;一个多月过去,百度的“双子星”还在给市场和用户带来全新的惊喜。
刚刚提到的“AI相机”,是百度网盘新上的重点能力。
市面上,AI相机类的产品,自从妙鸭相机之后就层出不穷,不少中厂大厂也纷纷入局,引得市场好不热闹,好不拥挤——百度网盘的AI相机,牛X在哪?
首先,背靠网盘,百度网盘的AI相机天然拥有存储功能,杀死了传统手机相机“存储空间不足”带来的两难境地——“删”和“不删”再也不成问题——也同样简化了拍照后上传的步骤,一键拍摄,直传云端。
其次,网盘的AI相机,特点在于“全”。
全,不仅指网盘AI相机的功能全,智能美颜、风格滤镜、扫描文档、物品识别、试题整理、合同审核等等实用功能一应俱全;全,也是网盘AI相机覆盖了图像拍摄、处理的全流程,拍照、修图、存储、使用、管理、分享可以一站式完成,甚至还能打印到家,省去了用户在多个产品、平台上的“反复横跳”。
如此“全能”,才能配得上网盘心中“全场景、可冲印、能回忆”的“真·AI相机”。
百度网盘的AI相机之外,百度文库的“超能搭子”GenFlow也在近期正式公布了2.0版本的升级。
市场最关心的,是GenFlow仅仅发布了一个月,百度怎么如此迅速地更新了2.0版本?
先揭晓答案:为了提升交付的质量和速度,GenFlow2.0完成的是产品底层架构的全面升级。
对当下的AI产品、工作流,用户有哪些诉求?百度文库产品负责人钟昊收集了不少,他说:
“有用户反馈,做一个研究报告半个多小时,AI还卡在收集信息那儿;AI对着年中总结输出,憋了两个小时,最后生成失败了;还有一个朋友是深度AI工具收集,自己收藏了几十个工具,大部分都在吃灰,偶尔在用的就是普通的大模型或者是代码工具。”
“需求描述难”“交付结果差”“等待时间长”,共同组成了AI生产力交付的“三座大山”。
为了让GenFlow更懂用户,解决用户描述需求的困难,百度把刚刚提到的用户记忆库能力,植入到了GenFlow当中,让用户可以根据自己过往的使用经历与AI交流(比如用自己小朋友的照片定制生成绘本),让人机交流“心有灵犀”。
提升交付效果上,前面提到的全模态处理、输出的能力,GenFlow也全都用上了,钟昊举例,一个物理老师想要为学生备课,不仅需要整理教案、测验、PPT,甚至还想要一个可以实时互动的Html课件。用上GenFlow,这些在百度文库,全都可以一键生成。
而要生成这么多内容,AI自古“保质保量不能两全”——时间问题怎么破?百度文库还有黑科技。
一直以来,AI的思考结构都是“串型结构”,和人脑一样,一次只能完成一件任务,思维是“线性的”。一旦如此,任务就必须排队——一排队,效率肯定就高不了。
这次百度文库GenFlow2.0的架构升级,主要就升级在这里:类似人脑多任务处理的方式,GenFlow也可以在任务的队列里,高速地扫过多个任务,像一个扫描仪,在高速的信号切换当中,保证多任务的并发。
也是如此,刚刚提到的,物理老师的数种教辅材料,用上GenFlow,可以完成分钟级交付,把不可用的AI,变成了实打实的生产力。
结语:
老面孔,新朋友。百度文库和网盘,这对“双子星”的AI重构之路,放眼行业,走得也相当靠前。
“从文库网盘的视角来看,在AI领域,我们要去做先锋的地位,”王颖如是说道,“希望我们能够有幸走出一条自己想走的路。”
在先进AI能力的加持下,文库AI月活用户则达到了9700万;网盘在服务超10亿用户基础上,AI月活用户也超过了8000万。
大量的用户选择文库和网盘,作为他们今天AI生活的有力帮手,道理其实很简单:这两款产品,能用AI实打实地解决他们遇到的问题,帮他们走完了AI交付的“最后一公里”。
AI内容创作,文库和网盘可以做到全模态高质量输出;内容消费,两款产品同样背靠巨大用户基础,有着成熟的社交潜质;个人定制的知识库,更是在技术产品的领域领先行业,把用户体验又拔高了一个层次。
当下正火的深度思考,本身其实并不创造价值——能够走完交付的“最后一公里”,才是成为一款国民级“AI超级生产力”的必要条件。
一骑绝尘的百度文库和百度网盘,则正在用他们强大的交付能力,旗帜鲜明地告诉全世界:
“用AI,来文库网盘就够了。”