FlagEval

3个月前发布 44 0 0

FlagEval作为一个专业的语言模型评估平台,为用户提供了一个可靠、标准化的评测环境。通过这个平台,研究人员和开发者可以全面了解模型的性能,推动语言模型技术的不断进步和创新。

语言:
zh,en
收录时间:
2025-01-19
FlagEvalFlagEval
FlagEval

这个项目是FlagEval(天秤)大模型评测体系及开放平台由智源研究院推出旨在建立科学、公正、开放的评测基准、方法、工具集协助研究人员全方位评估基础模型及训练算法的性能同时探索利用AI方法实现对主观评测的辅助大幅提升评测的效率和客观性。

目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调/压缩算法等三大评测对象包括自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

FlagEval的核心优势包括科学、公正、权威、开放。科学方面智源研究院是全球最早系统化布局大模型的科研机构之一基于深厚的技术积累推出“智源评测体系”多维度考察大模型认知能力覆盖自然语言处理、视觉与多模态等多领域大模型对全球开源和商业闭源模型进行全面的、系统化评测。公正方面作为非营利性科研机构智源研究院有着业内稀缺的中立视角。评测方法上客观评测保证在统一环境中进行规范“起跑线”;主观评测集高频迭代、严格校准打分标准同时构建大量原创、非公开评测集防止数据泄露。权威方面智源研究院参与和牵头制定大模型评测相关的国内及国际标准力求推动业内达成“大模型评测方法和规范”共识;并率先与权威教育部门合作以人类认知能力的发展阶梯为基准横向对齐大模型所能达到的认知水平。开放方面智源正在与十余家研究机构合作开展评测数据集和评测工具建设未来将秉持“开源开放”的精神以“评测”为抓手联结更多大模型研发团队、评测研究团体以及大模型产业应用企业共同促进大模型技术优化、应用落地、生态共享。

FlagEval的应用场景包括基础模型、预训练算法、微调/压缩算法等三大评测对象以及自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。

相关项目包括语言大模型评测、多语言文图大模型评测及文图生成评测等工具以及对广泛的语言基础模型、跨模态基础模型实现的评测。

数据统计

相关导航