five

CULTURALBENCH|文化知识数据集|语言模型评估数据集

arXiv2024-10-04 更新2024-10-05 收录490
文化知识
语言模型评估
1,227条
资源简介:
CULTURALBENCH是由华盛顿大学开发的用于评估大型语言模型(LLMs)文化知识的数据集。该数据集包含1227个高质量的人工编写和验证的问题,涵盖45个全球区域,包括孟加拉国、津巴布韦和秘鲁等代表性较弱的地区。问题涉及17个多样化的文化主题,如饮食偏好和问候礼仪。数据集的创建过程结合了AI辅助的红队测试和人工质量检查,确保了数据的多样性和挑战性。CULTURALBENCH旨在解决LLMs在跨文化知识评估中的不足,提供一个有效的基准来测试和改进模型的文化敏感性。
原始地址:
提供机构:
华盛顿大学
开放时间:
2024-10-04
创建时间:
2024-10-04