周日. 6 月 29th, 2025

ChatGPT作为一个智能人机对话应用,在推出后迅速风靡全球。仅仅一个月的时间,其用户数量已经突破了一亿大关。人们也用ChatGPT测试了很多考试项目,例如SAT、AP、GRE等。然而,如果让ChatGPT来参加我们中国的高考,会是怎样的一番光景呢?他会不会偏科呢?我们这些普通人又能否考得过ChatGPT呢?且看复旦大学和华东师大的同学们给大家带来的评测。

论文题目:

Evaluating the Performance of Large Language Models on GAOKAO Benchmark

论文链接:

https://arxiv.org/pdf/2305.12474.pdf

01

如何让ChatGPT解答高考题?

该论文采用零监督prompt的方式,将试题转化为ChatGPT的输入,如下图所示。对于不同的学科和题型,设计了不同的询问方式。对于数学题,则将公式转化为latex输入。

02

高考数据集

本文测试采用2010~2022年,一共13年间的全国A卷和全国B卷,每套试卷包含10门学科,即语数英物化生史地政,其中数学分为理科数学与文科数学。数据集一共包含2811道试题。具体题型这里就不展开,相信读者们对高考题还是十分了解的。在评估时,聘请上海市曹杨第二中学的高中老师批阅主观题。

03

验与分析

历年高考,ChatGPT取得的分数如下图所示。由于在计算分数时,将每科都归一化到100分,所以这个成绩无法和你我的高考成绩直接比较。但也可以看出,这个分数并不理想,估计无论是复旦还是华东师大都是考不上的。这是为什么呢?上图展示了ChatGPT在各个学科、以及主客观题上的表现。蓝色为客观题,黄色为主观题。分析发现,ChatGPT对客观题的成绩较好,尤其是英语阅读理解、单选、完形填空,分别取得了88.3%,78.1%,73.8%的准确率。但即使是客观题,理科数学的准确率还不到40%。数学是真的难呀~主观题上,ChatGPT的表现较差,物理、化学、生物和数学科目中,主观题的表现明显不如客观题。结合理科客观题分数也较差,或许ChatGPT偏向文科?根据阅卷人的评语,ChatGPT主要欠缺在:1.数学问题中的复杂方程难以正确解决,在解题过程中使用了错误的公式。2.阅读较长材料时理解和概括能力不足。

04

总结

ChatGPT在训练过程中可能没有使用中国高考题数据,因此其表现不受数据泄露的影响,具有较高的可信度。观察结果显示,与国外考试相比,ChatGPT在中国高考题方面的表现稍逊一筹。因此,国内的学生暂时无需过分担心无法考过ChatGPT。然而,文章中提到的长文本概括能力等在GPT4-32K中有显著改进,国产大模型也在中文数据上做了进一步的优化。因此,我们可以期待未来大模型高考题上取得更瞩目的表现。此外,用ChatGPT解高考题这个思路,或许可以回答网友们对哪个省的考题更难的争论?

END

讲座预告

6月2日上午10点,AI新青年讲座第211讲邀请到 CMU Robotics Institute在读博士胡亚飞,主讲《基于离线强化学习和在线自适应学习的机器人自主探索》,扫码报名!

你的每一个“在看”,我都当成了喜欢

Avatar photo

作者 UU 13723417500

友情提示:现在网络诈骗很多,做跨境电商小心被骗。此号发布内容皆为转载自其它媒体或企业宣传文章,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。---无意冒犯,如有侵权请联系13723417500删除!

声明本文由该作者发布,如有侵权请联系删除。内容不代表本平台立场!

发表回复

服务平台
跨境人脉通
选品平台
U选Market
展会&沙龙
群通天下