C-Eval – 一个适用于大语言模型的多层次多学科中文评估套件

C-Eval – 一个适用于大语言模型的多层次多学科中文评估套件

排行榜 | Github

📄网站涵盖了 52 个不同学科的 13948 个多项选择题,分为四个难度级别,并且网站根据这些评估套件对模型做了个排行榜

毫无意外的 GPT-4 获得了最高分!

排行榜由上海交通大学和清华大学的学生提供支持

温馨提示: 本文最后更新于2025-05-09 23:24:24,某些文章具有时效性,若有错误或已失效,请在下方 留言或联系 Macfun-A very interesting site
© 版权声明
THE END
喜欢就支持一下吧
点赞6赞赏 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情图片快捷回复

    暂无评论内容