大语言模型“书生·浦语”多项专业评测拔头筹
最近,大语AI大模型测评火热,言模语多业评尤其在大语言模型领域,型书项专“聪明”的生浦上限被不断刷新。商汤与上海AI实验室等联合打造的测拔大语言模型“书生·浦语”(InternLM)也表现出色,分别在智源FlagEval大语言模型评测8月排行榜和中文通用大模型综合性评测基准SuperCLUE 7月评测榜两项业内权威大模型评测榜单中获得优异成绩。头筹
“FlagEval是知名人工智能新型研发机构北京智源人工智能研究院推出的大模型评测体系及开放平台。FlagEval大模型评测体系构建了“能力-任务-指标”三维评测框架,言模语多业评可视化呈现评测结果,型书项专总计600+评测维度,生浦包括22个主观、测拔客观评测数据集,头筹84433道评测题目。大语除知名的言模语多业评公开数据集 HellaSwag、MMLU、型书项专C-Eval外,FlagEval还集成了包括智源自建的主观评测数据集Chinese Linguistics & Cognition Challenge (CLCC),北京大学等单位共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。”
“SuperCLUE是由创立于2019年的CLUE学术社区最新发布的中文通用大模型综合性评测基准,包含SuperCLUE-Opt客观题测试、SuperCLUE-Open主观题测试、SuperCLUE-LYB琅琊榜用户投票的匿名对战测试三大基准组成。为更好地反映国内大模型与国际领先大模型间的差距和优势,SuperCLUE选取了多个国内外有代表性的可用模型进行评测,同时由于其数据集保密性高,对大模型来说是‘闭卷考试’,减少了模型训练数据混入评测数据的可能性。此外,SuperCLUE还通过自动化评测方式测试不同模型效果,可一键对大模型进行评测,相对更客观。”
“书生·浦语”:不仅善于考试,还是开源大模型中的佼佼者
“书生·浦语”,是商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学打造的大语言模型,具有千亿参数,在包含1.8万亿token的高质量语料上训练而成。
今年6月,“书生·浦语”联合团队曾选取20余项评测进行检验,包括全球最具影响力的四个综合性考试评测。结果显示,“书生·浦语”在综合性考试中表现突出,在多项中文考试中超越ChatGPT。
7月,“书生·浦语”正式开源70亿参数的轻量级版本InternLM-7B。(https://github.com/InternLM/InternLM)
后续又推出升级版对话模型InternLM-Chat-7B v1.1,成为首个具有代码解释能力的开源对话模型,能根据需要灵活调用Python解释器等外部工具,解决复杂数学计算等任务的能力显著提升。
此外,该模型还可通过搜索引擎获取实时信息,提供具有时效性的回答。
在北京智源人工智能研究院FlagEval大语言模型评测体系8月最新排行榜中, “InternLM-chat-7B”和“InternLM-7B”分别在监督微调模型(SFT Model)榜单、基座模型(Base Model)榜单中取得第一和第二名。
“InternLM-chat-7B”还刷新中英客观评测记录。
「什么是“基座模型”、“有监督微调模型”?」
基座模型(Base Model)是经过海量数据预训练(Pre-train)得到的,它具备一定的通用能力,比如:GPT-3。
有监督微调模型(SFT Model)则是经过指令微调数据(包含了各种与人类行为及情感相关的指令和任务的数据集)训练后得到的,具备了与人类流畅对话的能力,如:ChatGPT。
普遍的观点认为,基座模型在很大程度上决定了微调模型的能力。
因此,FlagEval大语言模型评测体系针对基座模型的评测主要从“提示学习评测”和“适配评测”两方面进行;针对有监督微调模型的评测则从“复用针对基座模型的客观评测” 进一步增加“引入主观评测”。
此次两个榜单中,“InternLM-chat-7B”和“InternLM-7B”均表现出优异的综合性能,超越备受关注的Llama2-chat-13B/7B和Llama2-13B/7B。
特别在SFT Model测试中,InternLM-chat-7B中文能力大幅领先同时,英文能力也与对手保持在相近水平,展现出更强的实用性能。
SuperCLUE评测从基础能力、专业能力、中文特性能力三个不同维度对国内外通用大模型产品进行评价,考察大模型在70余个任务上的综合表现。
“书生·浦语”InternLM-chat-7B在7月公布SuperCLUE评测榜单中表现出色,在SuperCLUE-Opt开源大模型榜单拔得头筹。
作为SuperCLUE综合性三大基准之一,SuperCLUE-Opt评测基准每期有3700+道客观题(选择题),由基础能力(10个子任务)、中文特性能力(10个子任务)、学术专业能力(50+子任务)组成,采用封闭域测试方式。
相比第二名ChatGLM2-6B,InternLM-chat-7B主要在学术专业方面取得较大领先,同时全面领先于第三名Baichuan-13B-Chat。
雷峰网(公众号:雷峰网)
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
8
-
浏览
29199
-
获赞
3459
热门推荐
-
adidas x 曼联队全新联名系列发售详情正式公布,鞋款服饰一并登陆
潮牌汇 / 潮流资讯 / adidas x 曼联队全新联名系列发售详情正式公布,鞋款服饰一并登陆2019年07月19日浏览:4933 英超豪门 Manchester U福建福州发布《餐饮经营申请预先告知书》
中国消费者报福州讯记者张文章)为规范餐饮经营市场秩序,提升行业管理水平,1月17日,福建省福州市市场监管局发布《餐饮经营申请预先告知书》,提醒各餐饮经营申请人必须具备保障食品安全的加工制作场所,并接受我院召开警医联动打击“号贩子”专题沟通会
为营造公正有序就医环境,进一步强化警医联动,2024年4月26日下午,我院联合成都市武侯公安分局在水塔楼二会见室召开警医联动打击“号贩子”专题沟通会。成都市武侯公安分局吴昊政委、陈刚副局长、交警一分局心形纪念币又来了!网友:买了送对象吗?
心形纪念币又来了,先睹为快!中国人民银行5月13日对外宣布,将于2024年5月20日发行2024吉祥文化金银纪念币一套。其中,两枚心形纪念币引人关注。中国人民银行发布的公告称,该套纪念币共8枚,其中金爷爷服装时尚图片女装(爷爷衣服简笔画)
爷爷服装时尚图片女装爷爷衣服简笔画)来源:时尚服装网阅读:1727人老心不老,年轻潮流衣服,老年人如何驾驭?1、④建议选择中性色彩 中性色是那些色彩柔和不那么明亮耀眼的颜色。饱和度低,最常见的三大中性2013年日本东京春季礼品展会2013年日本工艺品展会 收藏资讯
2013年日本东京春季礼品及家庭用品展会/2013年日本消费品展会参展观展报名电话:021-31392766欢迎不参展的企业随团参观考察2013年日本东京国际春季礼品展Tokyo Internatio时尚服装店t台,t台创意服装
时尚服装店t台,t台创意服装来源:时尚服装网阅读:671三开门服装店装修图片1、总的来说,三开门服装店的装修设计充满活力和创意,给人一种时尚前卫的感觉。装修图片、灯光设计、空间布局和舒适感的考虑,都使苏格兰欧洲杯遭狂虐,全队被炮轰:这是耻辱
欧洲杯揭幕战,德国5-1大胜苏格兰,苏格兰媒体对全队的表现进行了严厉批评。苏格兰在比赛中表现糟糕,全场0射正,控球率不到30%,毫无抵抗之力。苏格兰虽然拥有罗伯逊、麦克托米奈等名将,但他们的表现却远远中信建投期货:消息面清淡 金银震荡运行
汇通财经APP讯——贵金属:上周五消息面相对清淡,美元小幅回落,美债收益率反弹,贵金属波动有所减弱。欧元区 11 月 CPI 初值同比升 2.3%,高于前值 2%和欧洲央行 2%的目标,但符合预期,数对话邵佳一:相信李铁相信国足 应该给武磊更多耐心
对话邵佳一:相信李铁相信国足 应该给武磊更多耐心_足球www.ty42.com 日期:2021-10-20 20:01:00| 评论(已有308108条评论)菲里希转会德国队?解约金高达2000万欧
6月18日消息,德国天空体育记者FlorianPlettenberg爆料,关于菲里希的解约金条款成为了近期热议的话题。这位球员的解约金高达2000万欧元,特别针对德国俱乐部而言。FlorianPlet英格兰队内氛围和谐:球员友谊打破俱乐部隔阂
6月18日,据《电讯报》报道,英格兰队目前氛围融洽,球员间的友谊已经打破了俱乐部隔阂,形成了紧密的团队精神。在今年的欧洲杯上,英格兰队的球员们已经抛开了俱乐部的身份,建立了深厚的友谊。贝林厄姆和阿诺德滕哈格:如今优秀的球员都想加盟曼联
据每日镜报消息,曼联主帅滕哈格谈球队的引援:“去年夏天当我们致电和接触球员时,会有很多质疑,现在情况完全不同。”“今年他们球员)看到了我们计划中的壮志雄心,很多优秀球员都想来。”标签:福州市台江区全力保障群众“菜篮子”安全
中国消费者报福州讯记者张文章)为进一步保障食品安全,2021年以来,福建省福州市台江区市场监管局严格按照“四个最严”要求,坚持实施“三个保”保菜源、保价格、保安全),强化食品安全监管,全力保障群众“菜比利时青训教练揭秘:阿扎尔在皇马未达预期,自律不足成关键
近日,比利时青训教练LucEymael在接受采访时,谈及了前皇马球星阿扎尔的职业生涯。他表示,尽管阿扎尔在皇马期间赢得了众多奖杯,但他的赛场表现远未达到外界的期待。Eymael首先指出,皇马对阿扎尔来