中国最接近GPT-4的大模型:12项评测成绩超过GPT-4

商汤科技联合上海人工智能实验室等多家科研机构研发的ai大语言模型“书生·浦语”(internlm-123b)在12项权威评测中超越gpt-4,综合性能全面超越gpt-3.5-turbo。 

今年8月,新模型internlm-123b完成训练,参数量提升至1230亿。这个新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集(包括mmlu、agieval、arc、ceval、race、gsm8k等)共计30万道问题集合上,测试成绩整体排名全球第二,超过gpt-3.5-turbo以及meta公司新发布的llama2-70b等模型。 

据介绍,internlm-123在主要评测中,有12项成绩排名第一。其中,在评测集综合考试中的agieval分数为57.8,超越gpt-4位列第一;知识问答commonsenseqa的评测分数为88.5,排名第一;internlm-123b在阅读理解的五项评测中成绩全部居榜首;此外,在 推理的五项评测中成绩排名第一。

中国最接近GPT-4的大模型:12项评测成绩超过GPT-4


© 版权声明

相关文章

暂无评论

暂无评论...