随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。
2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?
综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT
(相关资料图)
近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。
“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。
全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:
由伯克利加州大学等高校构建的多任务考试评测集MMLU;
微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
以及由复旦大学研究团队构建的高考题目评测集Gaokao;
实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。
“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。
虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果
MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。
细分科目结果如下表所示。
(图中粗体表示结果最佳,下划线表示结果第二)
AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。
这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。
下列表格中,带GK的是中国高考科目。
(图中粗体表示结果最佳,下划线表示结果第二)
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。
它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。
测试结果可以通过leaderboard获得。
Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。
在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。
分项评测:阅读理解、推理能力表现出色
为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。
结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。
知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。
阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。
中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。
多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。
数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。
编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。
此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。
(以上图片由商汤科技授权中国网财经使用)
-
上呼吸道感染如何治疗?呼吸道感染的症状有哪些?感冒通常是指上呼吸道感染,上呼吸道感染80%以上都是病毒感染。病毒感染的抗病毒疗效不确切,通常无需服药,而是多喝水、多休...
-
皮试阳性是什么意思?结核皮试阳性需要做进一步什么检查?皮试阳性临床有两种情况,最常见的是药物皮试,另外一种类型是对疾病的鉴别诊断。1、药物皮试:临床使用比较多的是青霉素皮试...
-
总二氧化碳高是怎么回事?二氧化碳高有什么症状和危害?总二氧化碳增高可能指两个含义,一个是动脉血气分析里的二氧化碳分压,另一个是血液生化检查里的二氧化碳结合率。动脉血气分...
-
肠胃感冒怎么缓解?胃肠型感冒是什么原因引起的?缓解胃肠型感冒的临床症状,可以从3个环节着手,具体如下:1、保暖:胃肠型感冒表现的都是胃肠道症状,由于是病毒感染,其抗...
-
支原体弱阳性是什么意思?支原体弱阳性一般怎么治疗最好?当正处在支原体感染,或者曾经有过支原体感染,支原体抗体检测可能呈阳性。支原体抗体弱阳性,只能说明曾经有过支原体感染。...
-
上呼吸道感染如何治疗?呼吸道感染的症状有哪些?
2023-06-01 11:06:38
-
皮试阳性是什么意思?结核皮试阳性需要做进一步什么检查?
2023-06-01 11:05:56
-
总二氧化碳高是怎么回事?二氧化碳高有什么症状和危害?
2023-06-01 11:05:08
-
肠胃感冒怎么缓解?胃肠型感冒是什么原因引起的?
2023-06-01 11:04:26
-
支原体弱阳性是什么意思?支原体弱阳性一般怎么治疗最好?
2023-06-01 11:03:30
-
AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型
2023-06-07 16:21:21
-
考场外的温情守候!陪考家长:希望孩子好好发挥 天天实时
2023-06-07 16:20:30
-
中建一局平顶山鹰创汇公租房项目送健康进工地-今热点
2023-06-07 16:18:30
-
Jefferies重申奇富科技买入评级,目标价28.1美元
2023-06-07 15:58:28
-
当前资讯!市政府与河南投资集团签订战略合作协议
2023-06-07 15:58:12
-
我市8家企业成功入选
2023-06-07 16:13:53
-
明天花园社区:助力高考 为学子保驾护航-天天观察
2023-06-07 15:57:57
-
【聚看点】中牟县广惠街街道:集中培训精党务 分工协同创“五星”
2023-06-07 16:00:23
-
鼓楼区抓实各项污染管控 保障高考期间良好环境
2023-06-07 16:05:21
-
驿城区委副书记、区长检查指导高考准备工作
2023-06-07 16:00:36
-
环球视点!【高考为何这样考】学习卡丨2023全国高考语文试题蕴含这些深意
2023-06-07 16:05:04
-
为学生创造更好的学习环境!焦作市龙源湖学校召开全体班主任工作会议
2023-06-07 16:07:27
-
全球快资讯:周口市图书馆开展爱心助考志愿服务活动
2023-06-07 16:18:43
-
市政府与河南投资集团签订战略合作协议
2023-06-07 16:16:40
-
彰显运动之美,迸发青春光彩——开封高中市运动会获佳绩
2023-06-07 15:58:04
-
每日观察!中国游客签证申请量恢复至2019年同期的35%
2023-06-07 16:12:29
-
驿城区委宣传部举行短视频制作评选活动 全球即时看
2023-06-07 15:58:51
-
当前焦点!擘画郑东新区新蓝图 携手共谱发展新篇章 郑东新区与豫信电科签署合作协议
2023-06-07 16:18:21
-
【世界独家】“B67,必录取!” 连续五年,郑州公交B67路为考生打CALL
2023-06-07 16:19:23
-
道德文明使者答好“助考答卷”
2023-06-07 16:02:49
-
热讯:金水区农委:成立服务站 助力“三夏”收麦
2023-06-07 16:15:24
-
光大证券收警示函 持续督导纳芯微帝科股份存4宗违规
2023-06-07 16:09:44
-
环球热议:巩义市财政局支付中心组织召开预算一体化业务交流座谈会
2023-06-07 16:06:10
-
热议:大雨积水!这个社区快速反应……
2023-06-07 16:09:30
-
线下+窗口+入户!新密市民政局打出社会救助政策宣传“组合拳” 世界新动态
2023-06-07 16:15:55
-
焦点播报:收获3项大奖!焦作市焦东路小学捷报频传
2023-06-07 16:08:06
-
【焦点热闻】宜阳县一考生家长晕倒 警民合力救助
2023-06-07 16:00:48
-
今日最新!法治护航 助力高考
2023-06-07 16:00:49
-
每日消息!波音公司回应787飞机发现问题:影响近期交付
2023-06-07 16:05:23
-
当前速讯:上街区济源路街道:开展“绿色阅读 放飞梦想”全民阅读系列宣传活动
2023-06-07 16:04:28