这是一期提前放送的播客节目,本来准备春节后发布的,谁想到AI行业也是风水轮流转,去年sora没有让中国人过好年,今年轮到DeepSeek让美国股市暴跌了。得,赶紧后期处理一下上线吧。
不过,虽然标题里有提DeepSeek,但抱歉,我和张教授更多探讨的是2024年这个产业在技术端和应用端都发生了什么,以及2025年我们可以期待些什么。相信我,听完/看完你一定会有所收获。
关于张奇教授的介绍:
张奇,复旦大学计算机科学技术学院教授、博士生导师。兼任上海市智能信息处理重点实验室副主任,中国中文信息学会理事、CCF大模型论坛常务委员、CIPS信息检索专委会常务委员、CIPS大模型专委会委员。复旦眸思大模型负责人。
主要研究方向是自然语言处理和信息检索,聚焦大语言模型、自然语言表示、信息抽取、鲁棒性和解释性分析等。在ACL、EMNLP、COLING、全国信息检索大会等重要国际国内会议多次担任程序委员会主席、领域主席、讲习班主席等。
近年来承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目,在国际重要学术刊物和会议发表论文200余篇,获得美国授权专利4项,著有《自然语言处理导论》和《大规模语言模型:理论与实践》,作为第二译者翻译专著《现代信息检索》。
获得WSDM2014最佳论文提名奖、COLING2018领域主席推荐奖、NLPCC2019杰出论文奖、COLING2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持,获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、ACM上海新星提名奖、IBMFacultyAward等奖项。
节目音频版请在小宇宙、苹果播客、喜马拉雅等播客平台收听,以下为DeepSeek总结的一个精简版,以及由于他打死不愿意帮我做全文的文字规整,所以我只好手动整理的两万五千字文字稿。
太长不看的DeepSeek总结版(细节其实有很多问题,但为保持原汁原味就不修改了):
从DeepSeek爆火聊起:生成式AI的“里程碑”与“泼冷水”
2025年1月,国内大模型DeepSeek突然出圈。面对公众的狂热,复旦大学张奇教授却格外冷静:“它的底层逻辑依然是统计机器学习——喂数据、训练、输出结果。生成式AI的技术天花板就在那里,甚至因为它的‘深度思考’过程透明化,反而更让人看清它的本质——一个被训练出的智能模型,而非真正的‘智能体’。”
一个有趣的例子:当被问“strawberry有几个r”时,DeepSeek需要反复思考50秒才能给出正确答案。“它能解决复杂问题,却在简单场景中暴露局限性。这说明AI的能力边界取决于场景和数据,而非通用智能。”
AI编程:从“搭架子”到“体力活终结者”
谈到AI工具的实际应用,张奇以编程场景为例:“比如用Cursor写代码,AI能帮你生成80%的框架,但需要你调整剩下的20%。它真正的价值是‘降低切换成本’——比如从Python转写Rust时,AI能快速生成基础代码,省去从头学习一门语言的精力。”
但张奇也强调,AI无法完全替代程序员:“编程中真正的创造性工作仍需要人类。AI擅长的是规范性、重复性任务,比如补全注释、调整格式。它像是个‘体力活终结者’,但脑力活还得自己来。”
场景化是王道:为什么ChatGPT赢不了垂类工具?
“AI的核心是场景,而非垂直行业。”张奇反复提到这一观点。
场景化的本质是“用数据拟合相关性”:
Grammarly专攻语法纠错,积累的语料让它比通用模型更精准;
学术写作中,AI能快速生成论文的“衔接段落”,但核心论点仍需人类提炼;
客服领域,AI外呼的自然度已接近真人,但需结合行业知识库定制训练。
“ChatGPT看似万能,实则是无数场景的缝合。若想真正落地,必须聚焦细分需求。”
技术天花板:统计机器学习的“死胡同”?
张奇直言,当前AI的底层范式存在根本性局限:“它依赖统计相关性,而非因果逻辑。就像超市发现‘尿布和啤酒销量正相关’,AI能发现规律,却无法理解背后是‘爸爸们顺手买酒’的因果链。”
突破天花板需要数学革命:
现有技术将问题抽象为“空间中的分界线”,但无法模拟人类的归纳与推理;
因果性研究在数学上尚无成熟工具,学界仍在黑暗中摸索;
即便如OpenAI,也在尝试反思式推理(如GPT-4o的多路径思考),但本质仍是数据驱动的优化。
“除非出现爱因斯坦式的天才,推翻统计机器学习框架,否则AGI(通用人工智能)仍是遥不可及的幻想。”
2025年展望:Agent与行业洗牌
对于未来,张奇最看好“反思型Agent”:“比如Devin这类工具,能通过多轮试错完成任务,甚至替代初级程序员。25年我们会看到更多具备自主决策能力的Agent,它们将颠覆客服、研发、运营等场景。”
行业暗流涌动:
巨头碾压:阿里、字节等大厂靠工程能力与数据优势,对小公司降维打击;
垂类求生:创业公司需找到“非巨头赛道”,如医疗、法律等专业场景;
打工人危机:算法研究员首当其冲,“一个懂大模型的新人可能顶替十个传统NLP工程师”。
结语:AI的“银河帝国”还很远,但工具革命已到来
“AI替代的不是人类,而是重复劳动。”张奇总结道,“未来3年,20%的脑力劳动会被AI接管,比如填报表、写邮件、查资料。但创造性的部分依然属于人。”
技术狂欢之下,张奇的提醒格外清醒:“别被‘通用智能’的幻觉迷惑。AI的价值在于成为‘超级工具’,而非‘替代人类’。认清这一点,才能抓住真正的机会。”
两万五千字手工整理的文字稿:
大卫翁hello,大家好,欢迎来到我的播客节目起朱楼宴宾客,我是大卫翁,这期节目是1月中旬我回上海的时候和复旦大学的张奇教授录的一期关于AI行业的年度复盘。本来是准备春节之后再放出来的,因为春节期间大家可能也没什么时间听播客。
没想到这两天DeepSeek突然出圈,再不放还不知道AI行业会出什么大事,所以就赶紧在大年初一把后期处理完,准备放出来了。
不过实话实说,我在昨晚除夕夜还是很不好意思的打扰了张奇教授,问他DeepSeek新版本出来之后,有没有觉得我们的录制内容有什么需要修改的?没想到他大手一挥说没觉得有什么问题。
这当然说明我们的讨论是经得起考验的,但与此同时,这一期的很多内容可能也会给现在有点上头的市场对于DeepSeek的这种热情泼点冷水。
当然我也承认DeepSeek非常令人震撼。这点我在用它的上一个版本的API接入沉浸式翻译插件进行体验的时候就已经有所感觉了。我在节目里边也提到了,它的翻译效果甚至比公认的最适合翻译的DeepL模型都好了很多。
而到了这个新的版本,无论是普通人在使用中的体验感,还是模型本身训练量和算力要求的这种压缩,对于中国乃至世界AI行业来说,都绝对是具有里程碑式的这种意义。
另外,它也证明了我们在节目里面得出的几个结论,比如说Agent会成为2025年行业最有潜力实现跨越式发展的这种应用方向,因为DeepSeek里边体现出的这种反思和学习的能力,就很像是把一个agent应该具备的能力活灵活现的展现在我们的面前。
不过我在这几天使用DeepSeek的过程中,依然会经常回想起张教授在节目里边提出的一些观点。比如说,因为无论是哪个大模型,底层逻辑依然是喂数据、训练和运用统计机器学习的这种规律,所以这一轮生成式AI的技术天花板就在那里,我们是看得到的。
甚至因为DeepSeek加入了深度思考的功能,让我们可以更加清楚地看到它的整个思考过程,反而能够更明显地感觉到它是一个人工训练出来的智能模型,而不是一个真正具有自我意识级别的所谓智能体。
再比如说张老师在节目里面提出好几次的这个strawberry有几个r的这个问题,DeepSeek就足足花了50多秒去思考,翻来覆去的想了无数遍,当然好在最后还是犹犹豫豫的给了我一个正确答案。
所以骄傲是绝对值得骄傲的。但是是否因此就应该觉得世界大不同,我们直接拥有了一个OpenAI级别的核弹,具有颠覆性的这种成果?我觉得听完这期你可能会有一个自己的答案。
对我来说,张教授提供了一个目前中文博客圈相对少见的看待AI行业的这种视角,那在业界和投资界之外的学界的视角。
作为一个研究了自然语言处理20多年的学者,我觉得他对于这一轮生成式AI狂潮的很多总结和展望。至少对于我这样一个AI门外汉来说,是非常深入浅出,又具有很强的启发意义的。
好,七七八八说了这么多,那就让我们赶紧进入正题吧,祝大家在春节假期里收听愉快。
1
我跟张老师的认识也非常的凑巧,我们俩是一起拿了第一财经的一个奖,财经思想者大会的行业新锐,当时有幸跟张老师一起吃了一顿饭,就觉得您因为从事人工智能的研究已经20多年了,一方面是非常非常的有经验,但是同时很多的表达我觉得很深入浅出。
另外,因为现在虽然关于AI方面的播客节目挺多的了,但是绝大部分要么AI行业的从业人员,要么AI的媒体,还有一些可能是早期风险投资基金的一些投过AI项目的这些基金经理会出来聊一些关于AI行业的观察,就至少在我的视野里面挺缺少学界的一个视角的,学术界的朋友们可能还是比较对播客这种形式不是很熟悉,所以我特别想借这次这个机会可以补上这么一个视角。
张奇非常感谢有这个机会,我觉得因为学界可能对于这种新的媒体传播形式没有那么关注,但这个形式应该是非常的好,平时的交通和运动的过程当中去收听的话。
大卫翁
对,说起来非常的不好意思,我也是计算机专业毕业,工作之后第一份工作也是正儿八经的码农,做了两年的编程,但是后来去读了研究生就转入了金融行业,大概有接近20年没有碰过代码了。
所以这次的AI热潮说实话在一开始我也是非常的懵懵懂懂,甚至是抱着很强的质疑的。因为我在我金融行业的最后一份工作里面做过一些关于自然语言处理的尝试。
您可能也知道,现在的金融机构会发布很多的研究报告,它有大量的内容,但是都散布在几千几万篇研究报告,当时我在想能不能有一个方式去把这些报告里的内容抽出来?不同的机构他们在这个时间点关注的信息里什么是最是重要的,对吧?自然语言处理领域关于这方面有很多的研究。
但是后来发现打标签,相关的这个训练,就算我们找了一些外部的公司合作也非常不容易。如果是一个比较专业的语料库可能还好,但是因为金融机构的研究报告范围太广了,我们在聊几十个行业,在聊宏观的情况,各个国家的宏观,所以它的那种语句很难去把它给模型化,或者说怎么把这个非结构化变成结构化。
所以在那一波之后,我对于AI这个东西有了更多的怀疑。觉得这是不是一个噱头?直到我这两年在日本生活,ChatGPT是我现在用的最多的一个AI的应用。所以我们在正式开始之前,想跟张老师来聊一聊现在自己在用的一些AI的应用。
那我用的最多就是ChatGPT了。我请他帮我做的最多的事情是写日文的邮件,或者回一个日文的信息。因为生成式AI做这种事情太牛了,比起之前我们常用的Googletranslate或者其他方式来说,它的语言的表达自然了很多,而且也不用一字一句的把内容告诉他,就告诉他我大概想写一个什么内容,他就能很好的把它表达出来。
而且日文因为里面有大量的敬语,有一些特别的格式,他就可以非常好的模拟你现在的状况。比如说我是给服务行业写的东西,跟我给一个长辈写的东西,他所用的语言是非常不一样的。那我只要把我的这个角色告诉他,就可以很好的写出来。
而且他还有记忆功能,我这一次给他回了,我下一次告诉他上次我回了一个什么邮件,我现在需要再给他一个回复,AI是完全可以记住你之前做了什么的。我觉得这个就特别的方便,他就真的成为了我在日常生活中非常必不可少的一个工具。
所以我不知道张老师您在这两年,特别是2024年有没有大量的使用什么样的应用,或者是看到比较有意思的应用,我们可以先聊一聊。
2
张奇
我自己主要做自然语言处理,前面20年都是做自然语言处理。就像刚才您说的,核心点从非结构化文本到结构化的这样的一个工作。
没有大模型之前,自然语言处理是不能做生成的,除了机器翻译之外。机器翻译也是有本可依的,你是有一个原来的语言,到一个新的语言。但是即便是这种情况下,就像您说的,它翻译出来的语言是很不自然的,因为生成能力非常弱。
所以在没有大模型之前,基本上自然语言处理的生成式的任务没有什么人敢碰,是非常难的一个工作。但是这次大模型出来之后,文本的生成能力可以做到非常的好,因为它建了大量的文本。
所以从这一点上,我们整个自然语言处理的研究领域就有了翻天覆地的变化。
回到您刚才说的这个使用上。因为我自己主要做自然语言处理,日常的工作写论文、读论文、做点PPT、做点报告这样子,所以我自己主要就这样几个方面:
第一个编程。编程的话可能之前是ChatGPT或者是Cloude,现在肯定是交互式的cursor会更方便一些,它的效果会更好。
当然这个我觉得主要是因为我们经常会要切换一些不同的领域,比如说之前用Python写这种神经网络的相关代码,在Pytorch上工作。可能你要做一个Demo,这demo并不复杂,比如说我们要实现我们在做4O的这种demo,还需要一个流式的交互,那这个东西对于我们做研究员来说可能就离得太远了,从来没有干过这事。但是你如果像过去,查文献等等的时间就会很长,那你可以让Cursor帮你生成个初版。
可能会有错误,但是在这个上面你就大概了解了整个的一个流程,那你可以非常快速在它这个版本上面做一些迭代,可能代码并不能够直接使用,但他给你的这个框架是非常好的。你有编程的基础,就可以快速的进行切换。
第二个,比如说可能我们现在在用一些rust语言,你原来都是写Python的,你没有接触过rust,让你从零写一个会非常难受,这个学习成本很高。但是仅仅是一段代码的话,语法基本上都是比较类似的,你根据他那个结果可以快速的进行一些调整。
所以我觉得编程上面,对于这种快速切换一个领域,换一个方向,不是特别深入的那种编程,Cursor可以降低你很大的这种工作量。
大卫翁
关于AI编程这块我能不能这样理解,他给你搭了个架子,你再在里面去精雕细琢一下。如果使用不同的语言,原来我们需要完整要学这种语言,那现在有了这样的一些AI的编程工具之后,相当于你就不用去学这门语言,就可以直接把相关的内容先生成出来。
张奇
你可以快速的入门。比如说我可能用rust仅仅是改一小段代码,我并不是要长期做rust开发,那这个时候你可以快速的进行一些入门型的工作。
比如我不是做前端的,那我可能就搭一个demo,它就可以给你做出来一个样子,你不需要在上面特别的精雕细琢,但你不是做这种专业性的前端开发,它可以快速的帮你切换过去,这是一个方面,快速的切换不同语言前后端的这种开发,或者你不熟悉的一个框架,它可以帮你快速去搭起来这个部分。
第二个方面,cursor是可以读你的project。你写代码的时候,有很多不是一个脑力劳动,它是体力活。因为你要完成规范性,要去写好comment,需要把这些东西都填上。这时候它可以根据你的project的历史文件,帮你快速的给它补全。
可能原来你需要打几十个字,现在一个Tab键就过去了,这个就会加速你的程序的写作。如果在你长期工作的项目上,它大概可以帮你节省了20%左右的时间,把这些不重要的体力活给省掉了。
大卫翁
明白,2024年cursor在公众这个层面出圈是因为诞生了几款APP,是完全由AI小白或者说编程小白,他们只是有一个想法,把这个想法给了这样一个平台,它就生成了这么一个APP。
当然我也问过一些真正的码农朋友们,他们说好像也没有那么简单。哪怕你说一个比较简单的要求,也不是cursor这个平台就可以全套都给你,还是要有一些怎么去把它打包,怎么样去把它部署等等的这样的步骤在里面。
但是不管怎么说,它还是帮助不懂编程的人能够完成从0到1的这么一个转化,这个跟之前的pilot,包括最早大家想用ChatGPT去帮忙改一些代码或者什么,是一个范式上的转变,或者模式上的转变。
张奇
对,或者可以这么说,cursor更聚焦于这样一个场景,那就是代码。那我把这一个场景按照不懂编程的人再进行细粒度的切分,根据这个部分做特定的训练,它就可以达到一个比ChatGPT更好的效果。
所以这也是我觉得从24年开始就我在各种报告里面都去强调的。AI核心是场景,并不是垂直。一个行业太大了,必须是场景,cursor就是一个非常好的例子。
我觉得cursor也许未来还会再有一个零编程版本,它可能纯纯的给小白,就完全不让你懂代码,那在这种范式下面怎么能够构造出来一个简单的demo。
还有一些可能是为了提升你整体编程效率,去给真正的码农去用。这两个场景我觉得还是很不一样,可以再切分。
大卫翁
嗯,特别专注于某一个场景的这种AI的辅助工具反而可能会更好用一些。
张奇
对于AI,我现在看到它的能力边界是针对场景。即便这种模型o1、o3出来,我依然觉得它实现不了通用化,它不是能力的提升,而是场景化的学习。
大卫翁
您说的是这一轮生成式AI的这种大都是如此?
张奇
我觉得现在的统计记忆学习范式,用数据驱动就达不到因果的一个逻辑,或者不能像人一样进行能力的提升。
比如说我可以让他考研的数学做到130分,但是依然数不了Strawberry里面有几个r。
因为如果我研究生考试,数学考试能考到130分,是非常高的一个分数,那我做小学应用题,就粗心错一两个,得个95分应该是分分钟的事。那如果你数strawberry里面有几个r这种事情,不可能做不对,人是这样的能力提升过程。
但是对于机器来说,这是两个完全不同的场景。考研是一个,甚至考研里面的题型都是。如果你这个题型没有见过,可能你就不会做。我微积分做得很好,我的初中数学题如果不给你训练你也做不对,甚至我只给你训练上海的考题,你换到山东的考题,你可能就从100分降到了40分。
因为它的训练数据不一样,它的偏重点不一样,老师的语言的表达风格不一样,那正确率就可能会有大幅度的下降。
所以我觉得从这种角度上来看,整个AI发展都是场景化来驱动的。只不过现在大家看到ChatGPT好像一个模型能完成很多功能,但每一个都是一个一个场景堆起来,因为是生成式的架构,所以它可以融合到了一起。
3大卫翁
嗯,您说的这个蛮有意思的,本来我是想放在后面关于底层这块再来聊,但既然反正聊到这个问题了,我觉得关于这一点可以再稍微深入一点。
因为站在一个小白的角度,或者说是一个普通人的角度,会觉得这一轮生成式AI跟之前最大的区别,就它好像变成万能型的了,我问他什么,他都能给我一个快速的回复,对吧?
我打开一个对话框,那国内可能是豆包或者是Kimi,那海外是ChatGPT,我有任何问题都可以扔给他。
但是就像您说的,如果用多了的人就会发现,第一他还是会有一些幻觉,当然现在的幻觉比原来要好很多,第二你没有办法100%的依赖它,经常会发现里面有一些莫名其妙的问题在里面。
你如果问它一个日常的问题可能还可以,但越是简单的问题,甚至是比如说下一个星期日是几号,类似这样的一个问题,经常的会胡编乱造。
所以您刚才说的这个场景化和通用化,在一些专业问题上表现的很好,但是在一些很通用的,在人类看来是特别基础的常识类的问题反而会出错,它的底层的原因是什么?
张奇
底层的原因就是训练数据没有往里面放。
比如说我们前面大概一年的时间都在研究一句话——2023年5月份GPT4发布的时候有个technicalreport,它里面有一句话说,我在模型训练之前,就能知道我的某一个评测集合它的准确率能达到多高。
我们觉得openai不仅仅是盲目炼丹,他知道了一些底层的理论。因为对于GPT4,大家通常认为是个1.75万亿的模型,那训练一次的成本是非常高的,可能大几千万美金,这还是如果完全正确的情况下。
所以他肯定不会盲目的一次次的做实验,这个资金成本跟计算资源都支撑不住,它一定有一些基础的公式来指导它。
我想把这个能力提到90分,应该在预训练阶段放什么数据,我在有监督微调阶段和强化学习阶段,我应该怎么做?它一定会有一个基础的理论在。所以它里面有专门写了一句话。
我们研究这个事情干了一年多了,现在我们也基本上可以得到那个公式。比如说我想让他去答题,首先这个模型有没有记住这样的一个事情?比如说复旦大学有几个校区,这个模型到底有没有学到这个知识点?你需要一种方式把它判定出来。
如果这个模型我们判定他记住了这个知识,让这个模型能够回答这类的问题,您猜我们放多少条训练数据就可以让这个模型就具备了这个能力?60条就可以。
但是如果我们准备的这个训练数据是这个模型没有记住的,他原来的模型通过预训练没有把这个知识点记住——可能是因为这个知识点出现次数太少了,还没有记住——那这个时候你就算在监督微调这个阶段放大量的训练数据,比如放2000条训练数据,它反而有可能会从60分降到20分,因为会把这个模型整体全部搞乱。
所以模型的知识来源就来源于预训练,所有的知识点全部是靠预训练数据来记住的。
但是它有一些特定的规范,不是说你给它一条它就能记得住,还有一定的要求。比如说它本身的出现次数要达到一定的数量。第二是说它要有一定的特异性。比如说中国第九长河,中国第一长河,这个第九和第一它之间就经常一起出现,那这个时候它模型就很难区分,但是第一长河出现的次数是远远高于第九长河的。
所以如果这个时候我们去问一个模型,不是让它走AIsearch,仅仅是模型自己本身,你会发现可能700亿的模型也问不出第九长河是谁?甚至我们说现在的6,000亿的DeepSeekV3我觉得也很难达到。我没测,但我估计从我们的计算上来看,基本上是答不对的,因为它根本记不住,它特异性不够高。(大卫翁注:文字稿整理到这里,我去问了一下DeepSeekR1,他比较顺利的推理出了中国第九长河的答案,而且思考过程比较严谨,非常棒)
所以这个模型的训练数据决定了它能记住什么知识。这仅仅还是知识这一个地方,还有别的任务,比如说Strawberry有几个r,它为什么数不对?因为这是一个数字的场景,那这个场景我就需要专门搞几十条训练数据放在这,那这样的场景太多了。
如果按这个切下去的话,可能有几百万个场景,每个场景我都需要特定的准备数据,这个事情我觉得是可以做的,但是问题是说,这样去做下去它是个无底的。
每个人都有自己不同的需求,那我可能是说让你数几个大写的r呢?你如果没有准备这个训练数据,你只能数小写的,大写的你就数不对。那我可能再去给你稍微变形一下任务,这种类是无穷无尽。
大卫翁
是的,这个就有点像自动驾驶,为什么到L4、L5大家觉得会有问题,就在于在实际的驾驶中会出现的场景也是无穷无尽的,而且那个可能会还涉及到生命安全,车辆的安全。
但是这样的话我听下来——当然可能我理解太浅薄了——生成式AI跟之前的最大的区别不是说你在已有的这种训练里面去找答案,而是他所谓的生成嘛?但如果你还是要用预训练的东西才能去得出一个答案的话,那跟这一波浪潮之前的AI岂不是还是挺像的?
因为我最早聊到最早做这个自然语言处理,它要打标签,要往里喂数据,那不还是这样吗?那跟之前的区别是什么?
4张奇我们发了MOSS之后,就开始做各种尝试,做真正的落地,所以我们一直都在思考它到底是什么。
我觉得24年我们把这件事情想清楚了。就我自己的感知,从我们的角度上来看,它和过去的模型最底层的逻辑是没有变的,但它变了什么呢?
第一个,长文本。原来的自然语言处理,你能处理的单词数只有512个token,那就意味着大概六七百个汉字,不能再长了。限制在这个长度下,就会发现像您刚才说的,历史我就看不到,那么这个单词在这个位置到底是人名、地名我不确定,因为他要看更长的历史才能知道这个位置,所以这是一个长度限制。
第二个是语言的限制。之前一个小模型只能处理一种语言,不能去切换。
第三个是任务的限制。比如说我这一个模型,只能让它识别人名、地名、机构名就完了。如果你想让它再去识别一个新东西,它不行,要再搞一个模型。那这个时候是小模型,一个一个的小模型,
第四个是不能生成。你只能是抽取,这里面有一个东西我抽出来,这时候就非常限制表达很多的关系。实体的种类还是受限的,就人名、地名、机构名这种实体类型就这么多,是一个封闭集合。但是关系,两个实体之间的关系那就无穷无尽了,所以关系这边你就不好抽,他就表达不出您要的那个语义,把这个非结构化转成结构化就很难。
所以这是过去。我觉得大模型的四个能力,可以确认的就是长文本,跨语言、多任务和生成。
为什么多任务很有意义呢?就像我们让这个模型既能够做翻译,又能够去抽取里面的实体,原来我们需要很多个模型,现在我们只需要一个,因为它都转化成了生成式任务。
原来我们必须要打标签,它是一个实体的开头,但现在不是了,我直接用自然语言告诉你,地址冒号一个名字,请帮我把下文当中的人名都找出来,他就会给你人名冒号,什么什么,所有的自然语言处理的任务都可以转换成一个语言的表达了。这样我就把所有的任务就都融合成了一个生成式的框架里面。
但是这并不意味着说就不需要训练数据了,也就是说,你让他数strawberry里面有几个r,那大写、小写、长短你都得给他。
大卫翁
这个底层逻辑没有变。
张奇
这个没有变。所以AGI用这套框架,我觉得就遥不可及。
大卫翁
对,这就对上了。一些OpenAI的科学家也意识到这样的问题,就这个框架它是有一个极限在那里的。
但是对于公众的感觉不同。因为具有了您刚才说的这几个多任务、生成式的这种能力,所以AI的整个表达会变得非常的自然,它似乎比原来像傻子一样的那些所谓AI聪明了很多。
但它的底层逻辑还是要喂语料,还是要预训练,所以导致它如果发现自己没有被训练的时候,就可能会出现一些胡说八道,出现幻觉。
张奇
对,但其实预训练这个阶段还好,预训的阶段只是让他见大量的数据,做很好的知识记忆,做了很好的表示学习。
最麻烦的是后面的后训练。原来大家设想说我这个模型足够大,从1千亿涨到1万亿,甚至涨到10万亿,我给他喂无穷的数据,他会有所谓的涌现,也就是这个能力没教给你,你自己就会了。
但如果我们再回头看。因为我们自己做了很多预训练,就这个能力我在有监督微调阶段没给你,他为什么就会答了呢?我们可以反过去看预训练数据,你会发现它的能力来源还是全部来源于预训练数据,还是在里面。
所谓的涌现也仅仅是预训练数据里面在一些情况下让它去反映出来了,但是这个的准确率有的情况下只有10,有的任务好一点,60%。它达不到一个可用程度。
如果你想让这个任务做得很准确,那你就一定要在后训练阶段放训练数据,那这个训练数据是有监督的,而且是需要你精挑细选的。
就像刚才跟您说的这个60条训练数据就能做到很好,但它并不是随便挑的。首先第一个是你得先探测这个模型记住了哪些知识点,第二个你针对它记住的知识点再来构造这60条训练数据,不是说你找专家把这个写出来就好了。
专家写的都是高质量的,但是如果专家写的那些知识点,我这个模型都没有记忆住,那对不起,你这些数据进去我模型就崩溃了,所以它要跟模型紧密匹配来构造一个模型的训练方法,这个东西就需要花很多的钱,很长的时间来摸索。
这个事情我们干了一年多,也仅仅是在问答这一件事情上相对比较准确的给出来了这样一个结论。那还有很多任务呢。翻译怎么做的?你的信息抽取怎么做的?这些都是需要挨个这样去摸索。所以这个时候我们看,后面的这些事情就有非常非常长的漫漫长路。
大卫翁
嗯,我觉得这期节目一开始先定了一个相对比较……也不说悲观,但是说这一轮的生成式AI肯定不是一个最终答案,我理解它是一个阶段性的东西。
它比起之前的小模型或者之前的AI阶段肯定是往前走了一大步,但因为它的底层逻辑没有变,所以它是有极限在那里的,而且极限可能现在都已经能够看到了,对吧?
张奇
是的,我觉得很多人看到了,所以对他的做法上就明显能够感知到不同。
大卫翁
对,所以我看一些媒体报道,像那个OpenAI的联合创始人,前首席科学家伊利亚,他不就在去年底,应该是在一个机器学习的顶级会议上说这个技术迭代正在放缓。
我们原来预计的ChatGPT5就一直就没有推出来,他们反而走向了不同的道路,比如O4,他们在尝试不同的路径在做这件事情。
5
但说回到我们最早在聊现在用的应用,就像我们引出这个话题的源是说现在的AI更适合用于场景,这个事儿我是在最近听一期节目,有了更深的感受。
有一档中文播客叫做硅谷101,他采访了好几个在美国上大学跟读博士,包括做科研的华人,问你们现在在用什么样的AI应用。那期节目的标题叫做《没有AI我会难受到要死》。
AI现在应用的普及率,特别是我觉得在学生里,因为他们更像是nativeAI,就跟我们可能用互联网是比较native,90后可能用移动互联网,那现在的00后就变成了AI。
他们用的AI工具眼花缭乱,给我的一个感觉,他们是在把AI应用像拼积木一样拼起来。我有一个什么样的需求,会用一个特定的工具。
比如说它里面有说这个叫GPTZero,是用来检测这个AI内容,看它的文本到底是由人类还是AI生成,有一个比较好的辨别能力。有一个叫Grammarly,是专门做这个在线语法和写作的辅助工具,语法纠错。
因为像我们这些不是AInative的这一代,我的习惯是我所有东西都是问GPT,我希望他给我所有的答案,我有什么任务都给他。但是好像这样做是不对的。
更合适,或者说如果你想把你的这个任务用的更好,不是我们原来说的你要学会怎么写prompt,只要你学会怎么写prompt了,他就能很好的帮助。
反过来是我们可以利用一些在垂类的这种AI应用,它在某一个场景已经打磨得很好了,你用它来做框架,你用它来改一下语法,你用它来做个什么,然后把它拼凑起来,能更好的辅助你现在的动作。
张奇
这就是场景化。刚才我们说到这个话题,因为cursor写代码,那他对这个部分单纯做优化,而它不仅仅是Prompt的优化。
您有没有感觉,24年是不是没人提Promptengineer这件事了?因为没有意义,2023年的时候大家觉得好像我优化一下很好,那是因为你不知道他是怎么被训练的。
我训练的时候用了ABCD,开头就让他做信息抽取,那模型就按照我的要求,我再说ABCD的时候他就开始给我做实体抽取。只是说我们训练的时候尽可能的满足大众,所以diverse的放进去,但如果你非不按我那个要求写,那你结果就差嘛。
所以其实和Prompt没有关系。那你像Cursor,他要单独针对代码的需求进行定制化的训练。再像你说的Grammarly他改错,他为什么能做的比GPT好呢?因为他做了这么多年的改错,有了大量的训练数据,他按照现有的这个方式,不管是在预训练阶段怎么做一些工作,还是在后训练阶段做一些什么工作,让他仅仅是针对这一个任务,这样可以做得很好。
再比如说AIsearch。你用ChatGPT做AIsearch,那他给你找出来的答案肯定没有perplexity这个东西做要好,那它就是根据这个场景单纯训练来完成的。
但你可能觉得perplexity还不能做deepsearch,可能不能满足日常代替Google的可能性,那是不是还有一个场景,有一个人专门做这样一件事情,他可以做得更深入的一些部分?
那对于我个人来说,可能我查论文,如果深入型的查找,会用GoogleScholar,那如果简单型的查找可能用perplexity去找。
如果我去改语法的错,我可能会用GPT帮我先生成个初稿去改一改,因为原来你写一个论文,语言改错我们是找美国的编辑帮我们改,要花钱的,一篇论文改下来可能三四百美金,现在肯定是拿ChatGPT给你改一遍,然后你还要反向修改。因为它会用很多优美的词汇,你要把它改成那种简单词汇,因为这种词汇,特别是对于形容词、副词,中国人的理解没有那么深刻,所以你要把它改成简单词。
大卫翁
否则看起来太像AI写的了。
张奇
对,太像AI写的,而且它用的那个形容词表达形式你还不一定确切的知道意思,所以要把它改成中国人习惯的那种简单的。
总体而言,写论文的速度我觉得比原来提高了非常多,减少5、60%的时间。
我最近那本大模型的书在写第二版,那我觉得60%的工作量都被省掉了,因为你只要把你的思想表达好,把段落组织起来,核心内容组织好,他会给你重组语言。语言重组完了之后,你再去把它放进去。
因为不是每段话里面全都是干货,他一定要有一个上下文的承接关系,要有一点肉在里面,那这个肉是可以让AI来做的事情。把核心观点搞好之后,这个时候原来可能60%的时间,甚至更多的时间都是在搞这个肉,要想上下文怎么串接。这事太难了,尤其是对于我们这种理工科的人。
你让我写论文,骨架型的很容易写,你让我去把它变成一个书,要丰满起来,太困难。那现在用GPT生成,你再去通读,再去把它按照你的这种表达形式稍微做一些更改,那就能省大量的时间。所以没有AI不可能啊。
大卫翁
是的,张老师您因为是做学术研究,你说到用它都是做学术这方面的丰满。那就像我最早讲的,我把它用在写日文邮件,它也是一种丰满。
您现在这样讲了,我就明白了,预训练或者喂入了足够多的语料之后,比如说它对日文邮件就知道这个场景应该是怎么写,用什么样的敬语,对吧?他只不过在根据你的这个需求,把它给生成出来。
我真正在日常会用到的AI工具都是非常垂类的,除了ChatGPT之外,我会用一个叫做沉浸式翻译的插件,我今年给很多很多的朋友推过,就他在翻译这件事情上做到了炉火纯青。
当然他背后会再去接入OpenAI,接入DeepL,你现在还可以付费去把DeepSeek的API放进去,我最近在尝试,确实它的效果会比号称是最好的做翻译的模型DeepL还要好。
这个插件的好处很多,比如说你看一个网页,它会一段英文或者一段别的语言的文字,一段中文,就给你直接把这个网页对照着把它这样拼起来,或者PDF的时候,也是给你左右变成左边是原文,右边是翻译文章,用起来就非常方便,我看起来就会特别的简单。而不是单纯的把一个网页全翻译成中文,这样的话如果想看一眼原文是什么样子,就看不到了。而且整个生成的速度也很快,使用感也很好。那我就愿意订阅他。
另外我觉得订阅制这个事情确实帮助很多的AI的垂直工具,可能第一天就可以得到比较好的盈亏平衡。一个月69块人民币,便宜是真的不便宜了,但是就像您刚刚说的,用了就离不开了。
对,我是能看懂英文没问题,但是我如果让它翻译成中文我再来看,那速度是原来的5倍、10倍。那如果中间我发现有一些细节,可能再去看一眼原文,对吧?但是大量的时间就被节省掉了。
当然这可能会带来一些其他的负面影响,我会非常的忧虑我的英文能力会退化,包括我不知道您现在有没有这样的忧虑,我现在会担忧我的写作能力会退化。到现在你让我真的从零开始写一个日文的邮件,我会发现我不知道该怎么抬笔,因为都是AI帮我把这个框架都分好,当然这就是另外一个话题了。
另外一个我会用的,因为我做播客,那播客我会用一个海外的初创公司的产品做播客的后期处理这一件事情。它可以把声音还原到类似像我们现在录的这个录音棚的这种声音,是非常简单的一键完成。你把音频导进去,一键它就把里边的一些毛刺,一些声音上的不平衡、白噪音、底层噪音全都去掉了,非常方便。我为他一个月要付十几美元。类似这样的一些非常垂类的场景,好像我感觉现在AI确实做的是非常非常好的。
张奇
AI就应该这样子。因为现在的大模型还是基于深度学习,本质上也是统计机器学习。那统计机器学习的核心逻辑就是针对一个场景,你给我足够多的数据,我来拟合,我学一个相关性,数据量越大就可以学得越好。
只是说现在大模型训练逻辑上有一些变化,但是你的预训练数据还是非常大,那它的核心逻辑并没有变,那我在一个场景下就可以打造得非常好。
大卫翁
或者说这一轮的AI浪潮就应该这个样子,以后可能还会有新的。就总有一天我觉得会诞生出更加通用化的,或者说它的底层的这个逻辑会变吗?
6
张奇
您说会不会变?我觉得一定会变。但是多少年呢?十年、二十年、五十年还是100年?
因为它是需要一个类似于爱因斯坦这样的人,他把底层的机器学习从统计机器学习这个架构转换成一个新的架构。那这个事情非常难,主要的原因是没有数学工具的支撑。
统计机器学习您可以简单这么理解,我们把所有的不管什么东西都表示成空间当中的一个点,就像我们在一个平面上,属于a类的是圆圈,属于b类的是叉号。统计机器学习干什么呢?就是学一条分界线,把圆圈跟叉号分隔开。这是统计机器学习的基本原理。
所以如果你的训练数据足够量大,那我就能学出来一个很好的分界面,把两个都分开了,我见到任何一个东西都可以这样去走,可以判断你是属于a类还是b类,这是基本原理。
但这个基本原理里面有一个最大的问题,他学不到因果性。
比如说我们最简单,在datamining里面经常举的一个例子。晚上美国的小超市的尿布销量跟啤酒销量呈现正相关性,我们把啤酒如果往尿布那边放一放,它会销量更好。那这个是沃尔玛或者小超市都在做的datamining的工作,大数据分析的工作。
但是你给他再大的数据,你把美国几十年、几百年,把中国、日本的数据都给他,他也得不到为什么。这个背后的为什么是因为美国晚上去买尿布,他一定是应急使用。肯定是男生去。男生去买尿布的时候,旁边有个啤酒顺手拎一打,这是一个非常自然的动作,那他当然会得到一个正相关的销售。
但是这件事情你靠数据驱动,我觉得是永远学不出来的,它一定要回归到一个因果。我们人的能力提升是建立了一个又一个的因果联系,最后串在一起得到了。
所以我们的逻辑是你要有归纳能力,你要有使用归纳好的这个部分来做推理的能力,那这个部分如果模型建立不起来,我觉得他就没有办法像人一样按照能力进行提升,它只是一个小场景一个小场景这样去做。
所以您说它会不会实现?我觉得可能会实现,但是我觉得这个时间点会非常非常的遥远。因为它没有一个底层的数学的工具支撑了,因为因果这件事情在数学上都没有,我们现在的统计机器学习所依赖的都是概率学。
大卫翁
相当于我们不能指望AI行业自己把这个东西给改革了或者颠覆了,我们需要自然科学,需要数学进一步的发展才有可能。
张奇
或者是互相影响。也许搞AI的人他原来数学背景很好,他发明了一套新的数学理论,新的数学框架能够支撑。
大卫翁
现在在学界,或者是您看到在业界,有这方面的尝试或者是努力吗?
张奇
我觉得可能有尝试,但我也没有看到,因为这种事情它真的是0到1,而且它不是一年、两年、三年,它是一个没有期限的,没有目标的,也许灵光一现,明天就出现了。也许搞了几十年,一辈子都没有任何的产出。
就像亨特如果在没有imagenet之前,他前面的20年非常悲惨,就连他创建的会议都不收他的稿件了,我们现在最好的机器学习会议NIPS,这个名字前面是neural,就是神经网络相关的会议,有很多年他的论文是被拒稿的。因为从一九九几年开始神经网络热潮消退,一直到03年左右,这个期间没有人相信神经网络能做什么事情,只有他在坚持,没有资金支持,没有国家的大钱的资金支持,只有学校里那点小的资源,就这样干。
后来他赶上了几个优势,第一个是Imagenet,李飞飞搞了一个大的标注集合。第二个是GPO的支持,GPO虽然没有CUDA这样的部分,但是有一些通用化的编程的这样一个结果出来了,有CUDA出来可以来做一些通用编程,定向性的开发一些部分,具备了加速的可能性。那在imagenet,在图像上大家看到了它的效果非常好,才一路起来。像亨特这样的,在现在这个时刻,可能我觉得只有极其牛的投资人能在1990年看到亨特后来能够发展。
所以我觉得这个很难很难,非常难,因为做这样事情的人本来就非常少,他能不能做成也是一个巨大的风险。
7
大卫翁
说回到我们在过去这一年看到的变化。
至少从2023年ChatGPT出现,到去年在应用这个领域感觉百花齐放,大家都非常的兴奋,觉得还有很多很多的事情可以做。
我们且不去看遥远的那个极限的地方的话,在您看来,除了我们刚才聊了AI编程,聊了辅助的一些工具相关的事情,还有没有什么让你觉得很兴奋?或者说,原来这个东西现在可以做到这个地步了的一些应用或者是服务?
张奇
我觉得有几个。第一个是视频的生成。
最早的Sora在24年年初——反正过年也不让我们好好过。我觉得视频的生成,不论是时长还是质量,包括图像,去年还是非常大的这样一个进步。因为这个也是你从原理上来看它可能并不复杂,但是它的训练数据量级是非常大的。
在没有ChatGPT的这种突破之前,我觉得大家应该没有人敢去投这么大的资源,就几个亿、十几个亿的这样的一个成本来训练这种模型。大家看到了在文本上面取得这样大的成功之后,大家才愿意投这种资源。当然在方法层面和训练层面也是有很多艰苦的工作要去做的,但是你能看到它的效果确实提升了非常多。
大卫翁
对,而且到年底的时候,大家好像已经觉得Sora也不过如此,对吧?包括中国自己也诞生了一些非常好的这方面的大模型。
张奇
是的,就这一年在AI图像生成这块,确实感觉是翻天覆地的一个变化,还是很惊艳的这样的一种长进。
大卫翁
这个变化之所以在中国会有这样的突破,是不是还是因为中国现在预训练有优势,相当于它的这个数据库足够的大了——因为我们看到很多是由抖音和快手诞生的这种产品,那它背后是有大量的数据支持的。
张奇
对,我觉得第一个是说大家对预训练,大量的训练数据能够产生好的结果这件事情在很多领域上是不需要质疑的。它有信念了。
那在图像生成上更是这样子。我都见过了,你给我一个图片去往后推理,它的训练模式非常明确,因为我有图像,有这个视频,一帧一帧的。那我给了你前一帧,你给我推后一帧。只是说我需要花一些时间对图像和视频进行一些文字性的标注,因为你要由prompt进入,所以它需要一些资源。
第二个是在训练方法上。经过了从2020年开始,到了2023年相对稳定,模型的训练框架大家也已经都掌握了,你也有了足够多的卡,那我觉得对于这种能够看得到的情况,对中国人来说这是最快的。只要你有demo,前面的路径都是通的,所以搞工程那肯定是搞不过我们拿一堆资源搞工程。
有目标之后,堆资源搞工程,这绝对是中国人的最强项,可以非常快速的来超越。包括现在豆包生成的那个解决文字的情况。因为如果你直接让模型生成,文字基本上会出错,都是乱码。那现在我们可以靠rag做字的生成,可以跟图的生成分开。可以先生成一个字的样式,再去走,当然他没有公开,但我猜测是这个逻辑。
你看百度做的那个你说一个prompt,一个人名,让他产生个图片。之前那个人他就经常出错,那现在它也是靠rag,我先找到一个人脸的照片作为一个reference,再生成,那这个效果就好很多。
所以像这种级别的创新在国内比较容易的。所以Sora并没有在这个12天的发布里面没有引起什么浪潮,因为它效果确实也就那个样子。
当然你想再去大幅度提升,去理解物理世界,那可能另外的话题了。但是在这个层面上我觉得是做得很不错的,国内国外还是很惊艳。
另一个让我兴奋的变化是o1,o3的这种范式。这种范式的改变看上去可能不大,它怎么实现我们可能不知道,但是我觉得有几条路径。
第一个是我在推理的时候,可能有一个模型在旁边监控它,它输出了错误的结果,我就让它去更改,从表面上是有这么一个反思的过程。第二个我在推理的时候可能会有多个路径,这个改变看上去不是很大,但它对推理这件事情上来说是一个翻天覆地的变化。
因为我们来看在GPT4o、GPT4这样的一些部分上,它所有的推理都是试图一次性做对,但是这个难度是很大的,咱们自己做数学题也是这样子,你不可能一次性的全都做,你一定是这里做错了,回去再走。
那这个时候,你把这样的一个反思的路径加上去,就可以使得推理的过程有了更大的容错机会,所以就可以使得我们的推理有一个大幅度提升。我们自己也做了一些相关的这种实验,MAS上面,数学题上面你加不加推理,可能会有20%的一个提升,量级是很大的。
所以这个东西的推出,我觉得是OpenAI的一个非常大的贡献,别人至少没有从0到1给出来这样一个部分。
其实这一个点我觉得也是花了好多钱,各种尝试,甚至我觉得这还是伊利亚的遗产,在环境交互下去走,还是沿他那条道路去走的。伊利亚肯定相信AGI,还是想去做AGI这个逻辑的。但是o1这个部分,我觉得在学术界和在应用,特别在推理这条路径上,我觉得非常关键。
这种范式下,不再要求模型一次性成功了,而是我可以在中间去改,也有agent的思想在。你当然可以有外部的工具调用,memory等等,但是这个东西本身就带了反思,那反思是原有的大模型不具备的范式,它是一种agent自己plan的这样一个过程。
所以我觉得这个思想对未来影响会很大,很多工具都会从这个角度上来进行更改,它未来把很多的之前只能做到七八十分的东西,可能都会推到90分甚至更高。
大卫翁
有一点就像最早聊的,加入了人类这个能力提升时候需要的一个阶段,那就是反思。
张奇对,有一点人的这个样子在里面了。就比如说咱们现在做rag、做知识问答,看上去很简单,但是一般只能做到一个七八十分。这里面有很多个点,比如搜索词可能就不对。那加入反思之后就不一样了,原来都让模型一次性把这个搜索词给出来,他如果不对呢?
咱们人用搜索引擎也是这样子,我先输了一个query,你发现可能不对,后面在某一页看到了另外一个相关的词语,那我就改我的搜索词,这个过程就是一个反思的过程。这个反思的过程如果引入RAG系统,马上就会使得RAG结果有大幅度提升。
所以这个的引入我觉得在很多很多地方,整个这样的一个部分都会有大的这种改变。但是怎么训练等等,大家还都在探讨,各种部分都在复现,我们也写了一篇综述,搞他的路径,也在去做一些实际的工作。
大卫翁
相当于OpenAI把这个东西发出来了,但他没有把底层的逻辑告诉大家。
张奇
那当然,它现在应该是closeAI,这么核心的东西他是不会说的。因为这个我觉得还是做了非常非常多的工作,各种尝试。这个0到1,人工智能很难。
你看这么简单的一点,我觉得他可能两三个亿美金打不住。因为他试了各种条道路,真正试成了,你c抄起来就很快,因为他只要给了你长相,那你反推起来就容易多了,而且你也敢试。
大卫翁
反向工程,又是中国人比较擅长的东西。
张奇
对。所以很麻烦。这东西给出来之后,你的技术的领先性可能半年,也许快一点,慢一点。你看他推出来o1、o3之后,国内多少家都在推出,效果上我们不谈,但是反正各种路径应该也在这个范围之内跑不了。所以我觉得这个o1,o3是一个大的范式变化。
大卫翁
虽然我们看,好像本来以为会有GPT5或者什么的,结果没有往那个方向发展。但它推出的这两个东西证明了一些不同范式的存在。
张奇
是的,我觉得是证明了什么呢?证明了OpenAI并不是一味的坚持scalinglaw。当时GPT4发完,我们对它的预估和预测把所有的模态都放进去,把理解和生成都放进去。所以基本上现在拿到的信息来看,GPT5确实在走这条路。
那4O把音频引进来了,但是没有把生成引进去,所以我们当时推测GPT5把所有的模态输出混合成一个,但是这个东西的训练真的太难了,你看Sora自己本身训练都很难,如果把生成都合在一起是非常困难。我觉得这是他在scaling上要走的一条道路,一直在坚持,应该是在训,或者之前已经尝试过非常多次,但效果并不是很好。
但是你会看到说他并不是盲从这个scalinglaw,他是在去探测不同的步骤。微软12月底发了一篇论文,他公开了,说GPT4o的参数量。那个里面就能够看到,比如说GPT4是1.75万亿,GPTo1Preview可能3,000亿,GPT4o的Mini只有80亿,我觉得这个值是大概率可信,因为微软跟OpenAI还是有紧密联系的。我觉得这个数据应该被这篇论文的实习生没有经过严格审核放出来了。
所以你可以看到说,他在完成不同的场景和任务的时候,他在测试各种各条的道路,他在不停的推进这件事情。所以他的目标是明确的,要完成很多工作,他要解决的难题也是明确的,但它并不是说我就上1万亿模型,上2万亿模型不行,咱们上10万亿模型,并不是,我觉得他们一定看到了有一些基础的公式,他们一定看到了一些limitation,所以在不停的各种路径上面去探索,所以我觉得他们的技术功底和深厚度还是非常强的。
8
大卫翁
关于2024,还有一点想跟张老师探讨。国内的这个公司里面有一个,我不知道您关注没有,DeepSeek。
因为它诞生于我们这个行业,金融行业的幻方。因为幻方也是我很早就跟他们有一些交流,包括他量化领域做得也非常的好,但是没有人想到他会突然在24年杀出来,在生成式AI领域闯出一片天地,当然这背后有一些底层的逻辑在。
我现在看到一些报道就说DeepSeek最出众的地方是它用比较小的这种训练量,用中国企业能接受的一个规模里面做出了相对比较惊艳的结果,但是它在包括底层范式或者其他方面并没有特别多的突破,事实上是这样的吗?
张奇
事实上是这样。我觉得第一个现在这种MOE架构,你看到的是一个6,000多亿的模型,更惊艳的是说他用了500万美元来完成这一轮的训练。主要是因为之前别人来做这种大规模的这种模型,没有MOE架构的情况下,它的训练速度是很慢的。
然后6,000亿的模型他用了256个expert,所以它每次激活只激活300亿模型,那所以它的训练成本就基本上等同于一个300亿模型的训练成本,或者再高一倍,比300亿模型再高一倍,因为它占用显存还是比较高的。
第二个是从人员配置上来看,他们有很多是阿里的团队,过去在阿里工作过。阿里的特色是会把工程做到极致,所以它在训练上面一定会有极致性的一些办法来降低,比如说开源的Pytorch每秒钟可能只能跑10个token,但是在他们这边,可以优化到50甚至100。那这个时候它的训练成本会更进一步的降低。所以我觉得这个是没有问题的,追求极致化的工程,极致化的这个部分,去搞一个比较好的MOE的这种架构来得到一个结果。
但是预训练只是万里长征第一步,后面的后训练是非常非常困难的。而且预训练是有开源的,也有从20年开始的GPT3,也有训练数据,可能90%的东西你都是知道的,不知道的可能就是那个模型的退火的过程等等这些配比,但是基本上大家也都摸得差不多了。
但是后训练是完全没有论文,openai自己没有公开,那这个时候怎么搞?后面我觉得也是漫漫长路,就像刚才说的这个CBQA,就是问答这个任务,只需要60条训练数据。但你有几百个任务,每个任务都这么摸下去,你得花多少钱,多长时间你才能把每个任务都摸清楚?很困难,而且任务很难穷尽。
即便是我只做高频的任务,几百个,这么搞下去也很恐怖的,需要的时间成本、量的成本,我觉得可能范式上还会发生一些迭代和变化,每一步都是需要大量探测。
在这个层面上来说,并不是说我们能力上的不行,我觉得是时间上跟成本上。就我们可能知道GPT4o的,不是他后面的后训练阶段,而是在强化学习——我们看LLAMA这篇论文,这是公开报道——我们不听小道消息,我们只看公开的——公开报道LLAMA3在后面的强化学习阶段是标注了400万条训练数据,但还这仅仅是开源版本,那我相信OpenAI可能会更多。
这400万条标注数据看上去量很小,但是400万条标注数据是每条标注要花一个小时,也说他花了400万小时的成本,400万小时。
而且这个标注它不是说随便找个人懂语言就可以了。比如说是儿科的问题,模型给了一个答案,你得找儿科医生对他进行判定,如果是个小学生的作文题目,你就得找小学语文老师来改卷,那这个成本就直线增长了。你可以认为大概在国内,可能一条要100到200块人民币,那400万条数据就8个亿干进去了。
而且这些标注还不能复用。这个模型,它是模型输出了两个答案,如果我把预训练改了,有监督微调改了,到强化学习之后,模型输出的结果就不对了,又变了,变了之后你还得再去标注,这成本是多大。国内有多少的模型公司,六小龙公司能出得起十几个亿在一个模型的一个阶段的迭代来完成。我觉得这是一个非常恐怖的数字。而如果你达不到这样的一个标注,达不到这样的一个质量,你模型的架构再一致、再好也没有用,因为他根本没有见过。
然后别人是这么多年,从20年GPT3开始,发展到这个GPT4,它GPT4的架构22年就给出来了,那中间这段过程的摸索。如果我们再去翻看OpenAI的历史,他在GPT2完成之后,做GPT3的时候就已经引入了刚才说的这种强化学习,甚至他都已经养活了一个小龙skill。skill这个公司就做标注,他当时给的要求是每周要标100万条数据,就我的模型输出了两个结果,你找人给我标a好还是b好,延迟不能超过30分钟,每小时要达到5,000条吞吐量,一周100万条标注。多大的恐怖的量级,那这是多少钱砸进去才学到了这些经验?但是你复现它的时候,你什么错都不犯,你的成本可能都已经是二三十亿了,这个成本上我觉得在国内可能很难承担。
但是你不投到这个程度,你的生成的能力就上不去。如果别人是100分的话,那我们很容易的做到80。但提到90都很难,那90再去覆盖到100,那个钱指数级往上涨,非常恐怖。所以这个时候你80分花了1000万了,你要不要花10个亿去追那100分呢?所以这个时候很难权衡,我觉得这个难度上也非常大。
9大卫翁对,这个正好可以过渡到我们下一趴,就聊关于商业、关于公司这一块的。
因为听起来确实生成式AI这个事情是一个非常烧钱的生意。张老师您刚才提到了国内有所谓的六小虎,之前是四小龙。四小龙主要是做AI视觉,现在已经基本上掉队掉得七七八八了。他们也是在某一个场景,在那个视觉安防场景深耕下去,但是你发现那个东西很难复用到其他的场景里面去。
说到烧钱这个事儿,我听下来现在在国内,是不是只有像字节这样的公司烧得起您刚才说的这样规模的钱。是不是只有他们在做这样的事情?
张奇
我觉得从烧钱这个角度,可能还有一个阿里。因为你看阿里在千问上面还是投了非常大的资源去做的。开源版本上的发布,我们也能看到。不仅仅是国内,国外千问的使用量级也非常高。
因为这个预训练的成本还是非常大的,即便是模型一次性训练可能一两千万美金,这还是小钱,你前面准备预训练数据呢?18个t的token就意味着一个PB的接近一个180T的原始文本。180T,咱们普通的笔记本是一个T的存储,180个笔记本的存储的文本文件。纯文本,不是PDF,纯text文件。这180个T的文件是从几个PB里的数据洗出来的?你需要多少的工程师?多少的这个算法研究员?
这还是光洗这个数据。那你还要调模型架构,没有准确数据,没有公开报道,大概估计也是几万张卡在跑,那这个成本量级是非常贵的。那这样投下去看,只有这样体量的公司,可能字节阿里才敢这么去烧。
所以这个是一个非常非常耗钱的过程。这仅仅是预训练,咱们说到后面的这个有监督训练的时候,后训练阶段标这个数据,研究它的过程,那更花钱,因为你可能真正标注就标60条,但是我研究是哪60条数据,三个博士生干了一年多。我们体量小,这也是几十张卡陪着跑啊。那这还仅仅是干这一件事情。
大卫翁
所以在你看来,六小虎,或者说除了字节阿里这样的巨头之外的AI公司,他们可能的发展方向是什么?
张奇
我觉得挺难的。因为第一个是融资,已经融到这个规模了,因为你基本上都是200~300亿了,我本来觉得他们手里拿到的现金应该在26年可能才会有人不干了,因为这个钱数比较高。
但是李老师的零一现在就把预训练团队卖掉了,我觉得很好,因为他手里现在能够卖的东西最值钱的是什么?是他手里这些人。做预训练的团队和他前面这些经验,把它卖掉是值钱的,可能再过两年,这些人也不值钱了,因为这个技术都散播出去了,或者是大家觉得预训练也不重要了。那现在这个时刻把它早点卖掉止损,这挺好的。留下来团队做ToB或者做toc产品,那我觉得零一就已经选择了,就我就不再做预训练了,我做产品。至于做ToB的产品还是做toc产品,那我觉得可能李老师就更有经验,这个方向上他不管ToB、toc、tog,之前各种公司都有布局。
百川最早一上手就在说他要做医疗,因为之前小川可能一直都有做医疗的这样的一个梦想,那从搜狗卖掉之后就一直开始做医疗相关的部分,在搜狗里面也在做这种数字家医等等,就做得非常好。但是医疗这个场景下,就要去考虑怎么变现,怎么能够支撑住一个200亿估值的公司,这是一个大问题。
大卫翁
现在的医院也比较没有钱。对,整个医疗行业都比较……
张奇
对,医疗行业也很多方向,比如说你是to医院,还是to病人,还是to家属,可能都不一样。或者是to医生。因为很多产品是给医生服务的。
就像美国有一个公司做这种口语的病例的书写,因为美国人看病时间比较长,要30分钟,前前后后问他的这个病例都要输进去。他卖给医生就大概卖一万,有一万个医生用,那他一年营收有1,000万美元。那百川选择什么方向呢?做一个产品给谁用呢?这个可能是百川要去思考的问题。
但是估值在这里都不好做。因为你现在200亿估值,这一轮如果再进投资人,他目标肯定希望1,000亿上市,如果你是个400亿上市,他觉得可能都要赔钱了。那这个估值的情况下,你做什么业务能支撑住200亿、300亿的估值?那200亿、300亿的估值,我不管你赔多少钱,你一年给我拿10个亿的营收,应该算是一个比较低的值了。或者是说按照正常的算法,可能你要拿20亿的营收……
大卫翁
市销率10~20倍,对于这种所谓的新质生产力的公司是比较合适的。
张奇
那你至少10个亿的营收,这个时候难度是很大的。10个亿的营收我想在中国的上市公司里面也不多,比例也是很top的一个值了。所以那怎么能够支撑住?我觉得都是一个难题。
大卫翁
所以反过来看,像海外这种订阅制已经深入人心的商业模式可能还是更好的。如果从ToC端的话,每个月的会员,或者是每年的会员大家愿意付这个钱。就像我听刚才说的那个硅谷101的节目,真的大家平均每个人会订阅3~5个AI的这种工具,每个月你一个人可能就付出几十美元,但如果你的基础量是几百万的用户的话,这个营收就上来了,但中国的这个订阅的习惯始终没有培养起来。
张奇
是的,但是您看他们都不是做通用的公司。是因为做通用公司的话,你的投入就在这放着。OpenAI在ChatGPT出来之前烧了40亿美金,我们把它前面犯错的成本全刨掉,只做ChatGPT,你算一算,可能也需要花个15亿美金,可能没有10亿美金很难烧出来和它一样的。这个钱就已经70亿人民币了,还不算后面的推广各个部分。所以我觉得钱是一个很大的问题,就一定要有很厚的资本量才能推着你往前去走。
大卫翁
说回来我觉得这些巨头对于所谓的六小虎或者是这种公司来说,是一个巨大的降维打击。就有点像汽车行业。当华为跟小米进来的时候,原来所谓的新势力会变得非常的艰难。因为你面对的是跟你不在一个维度上的竞争。那些巨头他有一些别的业务可以去支撑他在这个上面去打这场仗,让这些原来只能在这个赛道上挣钱的公司变得举步维艰,就有点这种感觉。
10
那过去这段时间您有看到什么相对更加小而美,或者是有自己的一些独到之处的,AI方面的一些创业公司也好,或者是海内外都可以。有没有一些这种案例?
张奇
我前面也仔细思考了一下,AI方向的创业跟它的应用,我觉得是两个方面。
第一个是现有的公司。最近这些的报告演讲,我都是有一个观点,25年对现有的公司可能是一个巨大的机会。因为如果你的公司里面有一些业务可以非常好的使用AI,并且能够带来一个体验感上的巨大提升的话,这个时候一二三排序的这些公司,是老大、老二、老三重新抢市场份额的一个机会了。
比如说客服。之前可能中国对于NA客户就那么两三家大公司来进行服务。他想迁移很难,功能都差不多。但是大模型出来之后,特别是语音出来之后,是完全不一样了。我可以外呼,原来是非常机械的,它现在是可以很自然的,接电话也可以很自然,那这个时候它是对客服领域的一个巨大提升。并且我迁移成本很低,我做了a公司,迁到b公司,可以非常快速。原来的那个迁移太累了,那基本上你给a公司做的70%的工作量给b公司要重干,它是项目制,根本就没办法做产品。
但是这次不一样,大模型可以在客服上比较好的做产品,可能只需要迁移10%的工作量就可以迁过去,而且它在用户的使用体验感上非常好。现在我接到很多信用卡的分期的,就已经能够知道它是机器人打过来的,但是非常非常像,如果你不是做这个行业的,可能不注意都听不出来。
大卫翁
过去一年在社交媒体上最火的,比如说海外,有很多把ChatGPT调教成跟自己聊天的对象,你听起来就是一个非常甜蜜的男朋友女朋友的声音,对吧?
您刚说到外呼,我就想起现在这个服务先在游戏用上了。现在有一些恋爱游戏,会让这个游戏里的角色可以打电话给你。这个吸引了非常多年轻人去利用这么一个功能。
现在确实,虽然我接到这种一听是机器人的电话,会立刻把它给挂掉,但如果它能变得更加的自然,让你听起来真的就是一个人在给你打电话,很多时候你真的很难辨别。咱就不说广告服务了,至少客服是很好的一个应用场景,大家现在这个需求是非常大的。
张奇
对,所以从客服这个行业来说,小公司是进不去的。因为它不仅仅是一个电话外呼这一个模型而已,它有前前后后各种部分,它要有管理端,转移端等等,它有很多工程量,所以小公司是不用想做客服这件事情的,只有原来在客服领域的老大、老二、老三,谁先能做到最好的体验,那这个时刻就可以抢份额了。
原来你老二只有百分之30,那现在如果老大没有做好,你在这一年的时间之内,那就可能抢下来很多单子,就占住了这个市场。
大卫翁
相当于一些传统的这种行业,因为AI的加持,对原有的行业格局会发生比较大的变化,这个变化很可能在2025年出现。
张奇
我觉得是的。因为这个地方就要明确的是说,第一个是场景要适合他,不是随便去找一个就能完成,第二个是说这个场景它一定能带来非常大的体验感的不同,不是简单的这种小的升级。它要是能让你惊艳的这种效果,这个时候我觉得就有可能性。
客服一定是,像to海外的客服也能看到。比如对一带一路国家的销售,别人说印尼语,还有时差,你能从国内找到多少人说印尼语马来语的客服,成本也很高,你受不了。
但是你现在越来越下沉,并不仅仅是对他们的经销商,你现在可能就要直面他的客户。那这个时候,现在做出海SAAS平台的这些,他们面向的是小b,提供了一些工具,可以让你直接去发布你的产品,上架售卖等等这些。下一步谁能抢到AI客服这个部分,那就使得你原有的产品的份额就会有大幅度的变化。
因为大家上限下限都差不多,分析工具也就这个样子,但如果我可以有一个很好的客服,你没有,那我的销售份额一定有巨大空间,这是这些厂家25年一定要紧盯的一个部分。
但是这个市场就不是创业公司进的。创业公司能进入的一定是创新型的产品,这个产品之前是没有的,但是它要完整的利用大模型的四个能力,长文本、跨语言,多任务,还有一个生成,就这四个能力。如果你能利用的好,那它就一定是全新的这样一个部分。
比如说AI搜索就非常好,这个场景非常好,因为它完整的利用了大模型的能力,之前的小模型做不了,绝对做不了,效果很烂。但是有了这个东西之后,它就能做得非常好,而且是一个新的物种。大卫翁但是AIsearch为什么不是这些传统的搜索巨头能够去做的?张奇您问这个问题特别好,我觉得大公司它有自己天生的惯性。大卫翁那还是左右互搏的问题。张奇嗯,左右互搏很严重的,对于百度来说,这边文心一言一上去,百度搜索量级就会下来。大卫翁那竞价排名的这个收入怎么办?张奇对啊,怎么办?你的曝光量一小,本来所有人都在做AI搜索,都在抢我搜索的份额,我自己再抢走一些,那我这边的搜索的本身怎么做?没法弄。
但是对于豆包,为什么可以干?字节一直在做搜索,不管在抖音里面,还是在头条里面,搜索都是嵌入进去的,只是没有一个品牌独立出来。那我既然没有搜索的品牌,那我无所谓,我肯定大量的上。
Google也是这种状态,我自己上,到底怎么上呢?我原来也是有竞价排名的,你现在这边的Gemini还是没有收入的,收入逻辑现在还不清楚,如果我大量再去上,这个也是一个需要非常大的决心。
大卫翁
自我革命始终是难的。
11好,那最后一块我们就来聊一聊2025。
刚才张老师已经涉及到一部分了,关于这个2025,对于很多商业服务,传统的领域会有一个比较大的机会。因为这AI的加持,原有的行业格局可能会洗牌。那除了商业这个领域之外,包括像底层的技术,或者是其他的一些领域,您看到2025我们可以期待什么样的一些AI方面的进展?
张奇
我觉得2025明确的肯定是agent。因为从o1o3这套范式出来之后,就原来243年大家谈的agent更多的是workflow,人写好的这样一个东西往下去跑,我觉得那不是agent,那东西和传统的RPA没有什么区别,只是说里面某些点上用大模型来实现。
我觉得因为有了o1o3这套范式,真正的agent才会在25年开始出现。也就是说自己会有反思的机制,做了一个东西之后,我靠自我进行修正,这样一个智能体它是做自我决策。o3这样子,他在做自我决策,那这个时候我觉得它就会带来很多应用上的一些变化了。
比如像荣耀手机agent,可能让他去选择某一个设置,它可能一步过不去,这一步走错了,那就需要反思,再过去,这个过程就会变得更智能化。它可以帮你完成很多的一些事情,订机票、规划行程,这个反反复复多次才能搞好。
大卫翁
就真正所谓的助手这个事儿,25年应该是可以期待的。
这块咱们在录之前我也说过,我昨天听十字路口,也是一个AI方面的一个播客节目,他们就在聊到说2024年在海外,那个叫Devin的这么一个agent的平台,或者说工具。首先很贵,一上来就要大量的付费,但是有做风险投资基金的人士就真的花500美金先买了,拿来用就发现他确实至少可以抵几个实习生。而且因为他是可以多任务的,可以学习的,有反思的,所以他会越用越好。
因为传统的AI工具跟你招实习生的区别在于实习生可能上来笨笨的,但是他慢慢的会知道这个公司的规则,他就会变得越来越好用——虽然这么说有点物化人,但是确实是这么一个感觉。传统的AI的工具跟agent之间的差异就是它缺少这样的一个过程。
现在这个平台上来之后发现,唉,确实有了一些这种能力,至少能看到可能性。那您认为在2025我们会看到这块有更快的一个进展。
张奇
我觉得会有,因为这种范式大家看到了,并且效果上,无论从OpenAI的,还是别的公司,还是学术界,从各种小的方面都做了一些这种证明,使用上的证明,或者是说研究上的一些复现,所以我觉得在应用上面大家一定会能够看到,就这要看创业公司的场景怎么去选择、怎么去想了。就像您说Devin这种,他应该怎么去进化?但我觉得一定会有很多,所以这个上面应该是确定性的。
大卫翁
就类似2024年AI图像生成从年初到年末有一个这样大的发展,可能2025是agent。
张奇
我觉得会的,所以AI很难搞,太快了,年初和年尾的这种使用上的结果上,您看就会有非常大的变化。
大卫翁
每个月都在变化。
张奇
对,所以做AI很苦的,哈哈哈。
大卫翁
但是从您从事人工智能这个研究20多年来看,它是一直变化这么快吗?还是最近这几年有一个突然的加速?
张奇
原来也在加速,特别是在深度学习出来之后,是在不停的加速,但是也绝不到现在这个程度。加速的原因主要是使用范围变广了。
原来的时候像自然语言处理只能用在极个别公司的极个别岗位,但是从Bert出来之后,它已经可以用在绝大部分公司的里面了。可能也是小部分隐藏在后面,但是绝大部分的公司都需要自然语言处理的人了。这个时候研究的热点公司的关注,使得这个技术就在不停的突飞猛进。
到了ChatGPT就更不一样了,变成了一个全社会的焦点,大量的资金涌入,那一定会使得这个结果疯狂的往上涨。所以我觉得这个加速的速度实在是太快了,这个完全受不了。
大卫翁
所以听您演讲说,最可能先下岗的是这个AI研究员。
张奇
一定是。25年一定是。原来一个搜索引擎公司里面上千个研究员、算法研究员,而且都是做自然语言处理的,他们在干什么?一个用户的检索词进来,我先要识别里面有没有人名、有没有地名、有没有机构名,有没有医学名词,这些东西都是一个一个的小模型,每两个小模型你就得派一个研究员盯着。
一个搜索引擎背后可能有上千个模型,那我就得搞三五百个研究员盯着这1,000多个模型不停的升级改造。虽然可能每年进步很小,但你得找人盯着他。那这些人你可以想象,可能从300人一下降到30。
这种一线大厂的、高端的研究员的快速裁员很恐怖,我觉得可能在25年,26年就会出现。因为它不像是工程架构的人。就像支付宝最近出现这种P0的事故工程架构的人,大家不太敢动的,因为你是有技术积累的。我从一点点涨上来,这个东西哪里出错,有经验的人一眼就知道。但是算法研究员是说,你过去学的Bert没有用了,我现在全换成大模型了。你不懂?那我不如招一个刚毕业的学生,他懂。他的工资还低,他一个人能顶你们十个人。那我干嘛不把你们十个干掉?作为老板一定会这样。
大卫翁
我突然想到跟这个相对应的,像现在大量的互联网公司都有所谓的审核团队吗?这部分的是不是也可以比较快的用AI替代?
张奇
但是他们成本不高啊。研究员成本多高啊?明显能够看到,大模型研究员的工资水平现在是涨得非常高,这种顶尖的研究员的工资水平就非常非常高。
大卫翁
算法工程师本来是一个非常火热的职业,非常值钱的职业。结果可能一夜醒来变天了,是吧?
张奇
可能两三年这个事就完成了。他不会那么快,但是我觉得25、26年,可能晚一点,26年,快一点激进一点的公司25年就会开始搞了。因为他们不需要了,所以这个是挺恐怖的。
大卫翁
是,所以本来我在来录这期节目之前,作为一个AI方面的门外汉,我会觉得因为AI行业在加速度的发展,会不会很快我们就可以见到真正的AGI,见到可以涌现的这种AI的出现。
但是今天张老师给我上的很重要的一课就是这个范式,或者说底层逻辑,所谓的生成式模型跟之前没有特别大的变化,导致了那个极限在那里。而这个极限如果想突破它的话,必须得在AI之外的地方,在数学或者是在自然科学这块儿有突破,或者是两者互相影响,带来一个突破之后,才可能从现在的这个阶段走向下一个阶段,而目前好像还没有看到这个迹象。
张奇
对,当然这是我的个人观点啊。我觉得确实是这样的,您总结的非常到位,极限就在这,天花板就在这。这四个能力如果你想做推理也没问题,但它一定要限制在一个非常小的场景,而且这个场景里面你要有大量的训练数据。
所以为什么大家愿意做数学题目?我可以搞了上亿道,我还可以生成一些,那它就可以把它做到一个90分、80多分,但是别的这种领域的推理你搞不到这么多训练数据,它的结果就很难提升,所以它的天花板放在这个位置了,突破的难度是我感觉很大。
大卫翁
所以这个我觉得对于学术界的研究,甚至是业界研究,肯定是存在心头的一个大石。但是对于普罗大众,对于普通人来说,接下来几年可能会看到更加百花齐放的AI应用出来。
这个事情很像互联网到移动互联网的这个过程。在诞生iPhone之前,你没有办法有很多的移动APP出来,那么iPhone的诞生又是因为了种种种种的原因,对吧?很多的因素集合起来,互联网才开始向移动互联网这块切换。现在生成式大模型对于AI来说,就像是当年的Iphone时刻。
张奇
对,因为我们看人的工资是整个社会成本里最高的一个部分,或者比较高的一个部分。人工智能做什么?替代人。
那如果我把整个总量的20%的脑力劳动里的体力活都给你代替掉——这个部分是有可能的,而且大模型就有可能在这个边界上做到——是10%还是20%?可能不好说,也许是30%,但是只要你是脑力劳动中的体力活,比如整理一下文件,填个报表,这些事情都可以给你干掉了。那干掉了就意味着AI具备这一块的价值,它可以把这20%的代替了。如果我就用10%的钱来代替,它的价值是非常大的。
大卫翁
是的,所以我很喜欢的那套书《银河帝国》的时代还没有到来,但是让AI来帮助我们做很多事情的这个时代已经到来了,以及接下来这两年可能我们会看到在非常多的领域,就像张老师说的,在垂直场景上的一个深入,会是未来两年我们会看到很多变化的地方。