字节跳动本周公布了一项测试结果,几家全球领先的人工智能模拟应考2025年中国高考的成绩:在理科方面只有谷歌的 Gemini 2.5 Pro 能在某些省份(如上海、青海)压线进入清华大学;而在文科方面,字节跳动的Seed 1.6-Thinking 取得了优异的成绩。
根据目前公开信息,2025年高考理科最高分为河南省物理类考生取得的724分(裸分),而AI组的第一名为谷歌 Gemini 2.5 Pro,得分为655分,字节跳动 Seed 1.6-Thinking 得分648分排名第二。根据清华大学的近年来的录取分数,估计只有谷歌 Gemini 2.5 Pro 能在某些省份能压线进入清华大学。
在文科方面,各AI大模型的表现比理科要好得多。字节跳动 Seed 1.6-Thinking 取得了683分的高分,妥妥地进入清北;但DeepSeek-R1-0528 只获得了631分,想要进入清北还得看运气。
有意思的是,所有AI大模型在单一学科中均未获得满分。那么人工智能在哪些科目最擅长?又在哪些邻域“露馅”?
数学:虽说各大AI模型的平均分高达138分,但考虑到AI号称“建立在数学和逻辑之上”,这种表现只能说是基本合格。
英语:AI模型最擅长的领域。所有模型在这门都拿下高分(140+),显示出AI强大的语言处理能力。字节跳动 Seed 1.6-Thinking 竟超过了各大美国AI模型以144分排名第一,让人意外。
语文:AI模型的“软肋”。最高成绩为字节跳动Seed 1.6-Thinking 的128分,其他模型普遍在110-125之间。可能是由于中文阅读理解中的模糊性、作文的文化内核、古文的语义歧义等因素,限制了AI得分空间。但DeepSeek-R1-0528 只得到了118分排在了谷歌 Gemini 2.5 Pro之后有点说不过去。
物理、化学、生物、地理仍为“难点”:无论是 Gemini 还是 Seed,在物理和化学中都没能突破90分,尤其是DeepSeek和Claude,物理直接跌到60分区间,当前AI在处理概念链条长、逻辑严谨度高、图像公式推理复杂的题目时,仍存在较大短板。这说明了一个问题:人工智能目前的“强”,是语言理解和大数据归纳意义上的强,而不是推理与概念建构上的强。