新浪科技讯 6月9日上午消息,2023北京智源大会上,智源研究院院长黄铁军宣布推出FlagEval (天秤)大语言模型评测体系,力求从“能力、任务、指标”三维评测角度,600多个维度对大模型进行全面测评,建立科学、公正、全面的大模型技术评价体系。
据介绍,天秤大模型的任务维度当前包括22个主观、客观评测数据集,评测题目多达84433道。目前正在探索运用人工智能技术进行科学评测,力求减少更多的主观评测。同时也正在探索通过大模型评价,辅助大模型预训练。(文猛)
海量资讯、精准解读,尽在新浪财经APP
责任编辑:韦子蓉
VIP课程推荐
加载中...
APP专享直播
热门推荐
收起
新浪财经公众号
24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)