随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。
(相关资料图)
2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?
综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT
近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。
“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。
全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:
由伯克利加州大学等高校构建的多任务考试评测集MMLU;
微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
以及由复旦大学研究团队构建的高考题目评测集Gaokao;
实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。
“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。
虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果
MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。
细分科目结果如下表所示。
(图中粗体表示结果最佳,下划线表示结果第二)
AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。
这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。
下列表格中,带GK的是中国高考科目。
(图中粗体表示结果最佳,下划线表示结果第二)
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。
它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。
测试结果可以通过leaderboard获得。
Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。
在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。
分项评测:阅读理解、推理能力表现出色
为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。
结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。
知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。
阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。
中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。
多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。
数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。
编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。
此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。
(以上图片由商汤科技授权中国网财经使用)
关键词:
推荐内容
- AI考生今日抵达,商汤与上海AI实验室等发
- 什么叫金属材料工程师就业前景 环球滚动
- 岱勒新材:公司5月份处于满产状态,产销
- 狗狗币未来的升值空间
- 今日热文:华安证券:苹果开拓性MR新品发
- 天天快报!吉水县气象台发布雷电黄色预警
- 农发行安排1100亿元信贷资金全力支持夏粮
- 多项数据显示台湾经济成长压力仍在
- 武汉数字经济总量占全市GDP超四成
- 世界新资讯:电脑录屏软件哪个好用?讯什
- 香港首场VTuber演唱会「Virtual Fes 20
- 当前观点:给1291万高考生的手绘:愿属于
- 当前简讯:北京职工医保门诊可以报销吗:
- 【全球独家】分摊表模板_分摊
- 天天动态:网传被撞车辆为送考车?上海闵
- 环球速递!【中国那些事儿】英媒:下一轮
- 中信证券:激光雷达行业一季度整体承压
- 集邦咨询:第一季全球智能手机产量创近十
- 「Skorlife」完成 400 万美元种子轮融
- 【天天新要闻】端午假期火车票6月8日起开
- 奥克股份:公司专注于环氧衍生绿色低碳精
- 2023云南考古体验馆什么时候开放?
- 视点!美股开盘:三大股指小幅低开Coinba
- aql2.5是什么标准_aql2 5是什么意思
- 京城家校社共筑学生视力“健康墙” 开展
- 江西省吉安市2023-06-04 15:10发布雷电黄色预警
- 海南椰岛:涉未及时缴税、原材料采购纠纷
- 成都市与华润集团签署战略合作及系列投资
- 世界头条:友直友谅友多闻的出处_友直友
- 【播资讯】天猫运费险只赔付首重吗_天猫
- 澳优(01717)附属拟最高约3110万新西兰元
- 【世界时快讯】[快讯]美利信:长江证券承
- 当前报道:人民网评:“诚信高考”让青春
- 美国共和党总统候选人建议台湾家庭拥枪
- 美国共和党总统候选人建议台湾家庭拥枪
- 美国共和党总统候选人建议台湾家庭拥枪
- 今日热文:1998年世界杯法国队阵容(1998
- 仙人掌防辐射吗 电脑辐射怎么防护
- 火箭史诗交易方案!7换2得到老鹰的穆雷+
- 环球新资讯:苹果发布 iOS 17 系统,
- 共享充电宝行业回暖,捞金时刻在即? 天
- 河南26岁网红不幸离世,死因曝光,一个细
- 共享充电宝行业回暖,捞金时刻在即? 新
- 美国前驻欧洲陆军司令:北约还没准备好与
- 冷冻鸡腿鸡翅怎么红烧?_天天精选
- 2023年山东烟台高考成绩时间 6月26日前
- 外媒:微软支付1.4亿元了结儿童隐私官司|
- 幼儿园超人数太多能举报吗(幼儿园超员教
- 苹果混合现实头显价格太高?A股相关板块
- 环球今亮点!北京夏天(关于北京夏天的基
- 机智!11岁儿子“截胡”骗子,帮助爸爸止
- 天天新资讯:工伤认定可以撤销吗
- 腾讯控股(00700)6月6日回购4.01亿港元
- 突发!又跳水,4500个股下跌!原因是什么
- 广东新型储能将成标配 南网科技:积极发
- 世界快消息!这个视角看澄迈,过瘾!
- 芜湖农村土地动迁赔偿律师费用一般怎么计
- 全球新消息丨艾瑞昔布片说明书江苏恒瑞医
- 国内大宗商品供应持续增加 5月大宗商品
- 每日快看:暗黑破坏神45er1.0.2d更新补丁
- 奥克股份:公司专注于环氧衍生绿色低碳精
- 2023云南考古体验馆什么时候开放?
- 视点!美股开盘:三大股指小幅低开Coinba
- aql2.5是什么标准_aql2 5是什么意思
- 京城家校社共筑学生视力“健康墙” 开展
- 江西省吉安市2023-06-04 15:10发布雷电黄色预警
- 海南椰岛:涉未及时缴税、原材料采购纠纷
- 成都市与华润集团签署战略合作及系列投资
- 世界头条:友直友谅友多闻的出处_友直友
- 【播资讯】天猫运费险只赔付首重吗_天猫
- 澳优(01717)附属拟最高约3110万新西兰元
- 【世界时快讯】[快讯]美利信:长江证券承
- 当前报道:人民网评:“诚信高考”让青春
- 美国共和党总统候选人建议台湾家庭拥枪
- 美国共和党总统候选人建议台湾家庭拥枪
- 美国共和党总统候选人建议台湾家庭拥枪
- 今日热文:1998年世界杯法国队阵容(1998
- 仙人掌防辐射吗 电脑辐射怎么防护
- 火箭史诗交易方案!7换2得到老鹰的穆雷+
- 环球新资讯:苹果发布 iOS 17 系统,
- 共享充电宝行业回暖,捞金时刻在即? 天
- 河南26岁网红不幸离世,死因曝光,一个细
- 共享充电宝行业回暖,捞金时刻在即? 新
- 美国前驻欧洲陆军司令:北约还没准备好与
- 冷冻鸡腿鸡翅怎么红烧?_天天精选
- 2023年山东烟台高考成绩时间 6月26日前
- 外媒:微软支付1.4亿元了结儿童隐私官司|
- 幼儿园超人数太多能举报吗(幼儿园超员教
- 苹果混合现实头显价格太高?A股相关板块
- 环球今亮点!北京夏天(关于北京夏天的基
- 机智!11岁儿子“截胡”骗子,帮助爸爸止
- 天天新资讯:工伤认定可以撤销吗
- 腾讯控股(00700)6月6日回购4.01亿港元
- 突发!又跳水,4500个股下跌!原因是什么
- 广东新型储能将成标配 南网科技:积极发
- 世界快消息!这个视角看澄迈,过瘾!
- 芜湖农村土地动迁赔偿律师费用一般怎么计
- 全球新消息丨艾瑞昔布片说明书江苏恒瑞医
- 国内大宗商品供应持续增加 5月大宗商品
- 每日快看:暗黑破坏神45er1.0.2d更新补丁
- 这里的鱼体内,放射性物质竟超标180倍!
- 花垣:12345热线助力社会治理提质增效
- 【天天播资讯】普通话水平测试在线报名系
- 明年停产 雪佛兰科迈罗最终收藏版官图
- 不知道如何搭建帮助中心?这里有解决办法
- 环球实时:阿拉德之怒60版本无限点券_阿
- 2年级数学试卷北师大版(2年级数学试卷)
- 开启首次太空飞行 载荷专家在“天宫”究
- 6月6日盘前重要产业新闻
- 塞班系统(塞班5320)_焦点播报
- 澳大利亚《悉尼先驱晨报》:在法国,“晒
- 恒大物业2022年归母净利14.23亿 称正与
- 【世界时快讯】大师小试身手!皮尔洛国王
- 怀柔再添一座科技创新基地!_全球视点
- 全球短讯!安庆市社会捐助接收工作站
- 扭矩怎么计算_最大扭矩是什么意思
- 芸豆有什么营养
- 新方法发现驱动自身免疫的蛋白质
- 欧阳夏丹离开央视后成为艺考老师?机构回
- 一球成名3无删减版_一球成名3 天天报道