SuperCLUE

中文通用大模型综合性测评基准

产品概述:SuperCLUE是中文大模型综合性测评基准,是大模型时代背景下CLUE基准的发展和延续,专注于评估国内外中文大模型的综合能力。

核心功能:提供SuperCLUE智能指数作为模型综合表现的评价指标;涵盖数学推理、科学推理、代码生成、智能体能力、精确指令遵循、幻觉控制六大任务;支持多维度模型对比和可视化图表下载;提供月度更新的评测榜单。

适用场景:全面评估中文大模型的综合能力;研究机构进行模型能力对比分析;企业选型时评估模型的中文处理能力。

用户群体:大模型研究人员、中文NLP领域从业者、企业技术选型团队。

主要用途:为中文大模型提供客观、可复现的评测标准,促进中文大模型技术的发展。