数据才是LLM发展的核心驱动力？科技博主Jack Morris提出了一个挺有意

数据才是LLM发展的核心驱动力？科技博主Jack Morris提出了一个挺有意思的观点：真正推动AI性能提升的，可能不是算法架构本身，而是被解锁的海量数据。具体是怎么回事呢？咱们一起来看看Jack Morris的这篇博客的重点提要：一、AI发展的四大范式突破当我们回顾AI发展的四大范式突破，每一次所谓的“新”架构，其实都是解锁了新的大规模数据源：深度神经网络（DNNs）（2012，AlexNet）→ 解锁 ImageNet 等图像数据。 Transformer + LLMs（2017，《Attention Is All You Need》）→ 解锁互联网文本数据。 RLHF（人类反馈强化学习）（2022，InstructGPT）→ 解锁“优质文本”数据。推理能力（2024，如 OpenAI O1、DeepSeek R1）→ 解锁可验证数据（如计算器、编译器）。这些突破很多时候都是在老技术（比如监督学习、强化学习）上做的文章，但核心点都在于找到了新的数据源。一旦有了新数据，大家就疯狂地研究，怎么把数据榨干，或者用新方法更有效率地利用现有数据。二、数据才是AI能力真正的推手就算当年没发明AlexNet，可能也会有别的算法能搞定ImageNet；就算没有Transformer，我们可能也会用LSTM或者SSM，或者别的办法从网上那些海量数据里学东西。我们一直在努力改进算法、优化模型结构、调整各种参数，但真正让AI能力突飞猛进的，往往是数据的变化。举个例子：有研究者尝试用非Transformer架构开发类似BERT的模型。他们花了大约一年时间，对架构进行了数百次调整，最终开发出一种状态空间模型（SSM）。当使用相同数据训练时，这种模型的性能与原始Transformer相当。这一发现意义深远，因为它可能告诉了我们一个残酷的事实：从特定的数据集里能学到的知识，是有上限的。不管你算法多花哨，模型多先进，数据能提供的信息量就是那么多，不会变多。三、下一个范式转变从何而来？很明显，AI的下一次突破，不会是哪个强化学习的新玩法，也不是哪个炫酷的新神经网络。它会来自那些还没被开发或没被充分利用的数据源。现在大家都在盯着的一个“大宝藏”就是视频。YouTube每分钟上传约500小时的视频，远超整个互联网的文本总量。视频里可不光有文字，还有说话的语气、物理世界的互动、文化信息，比纯文本丰富多了！可以预见，一旦模型效率或算力足够，Google一定会开始用YouTube数据训练模型。另一个潜在的“下一个大范式”是具身化数据收集系统，简单说就是机器人。目前我们还没法有效地处理摄像头和传感器采集到的数据，让它们能被GPU训练。但如果能开发出更智能的传感器或者提升计算能力，这些数据就能派上大用场了。虽然现在我们都沉浸在语言模型的浪潮里，但实话实说，语言数据也快被“榨干”了。如果想推动AI进步，或许我们该停止寻找新算法，转而寻找新数据。对此，你怎么看？

玩酷网

数据才是LLM发展的核心驱动力？科技博主Jack Morris提出了一个挺有意

热门分类

数据才是LLM发展的核心驱动力？ 科技博主Jack Morris提出了一个挺有意

猜你喜欢

热门分类

数据才是LLM发展的核心驱动力？科技博主Jack Morris提出了一个挺有意