CULTURALBENCH|文化知识数据集|语言模型评估数据集

arXiv2024-10-04 更新2024-10-05 收录490

文化知识

语言模型评估

1,227条

资源简介：

CULTURALBENCH是由华盛顿大学开发的用于评估大型语言模型（LLMs）文化知识的数据集。该数据集包含1227个高质量的人工编写和验证的问题，涵盖45个全球区域，包括孟加拉国、津巴布韦和秘鲁等代表性较弱的地区。问题涉及17个多样化的文化主题，如饮食偏好和问候礼仪。数据集的创建过程结合了AI辅助的红队测试和人工质量检查，确保了数据的多样性和挑战性。CULTURALBENCH旨在解决LLMs在跨文化知识评估中的不足，提供一个有效的基准来测试和改进模型的文化敏感性。

原始地址：

https://hf.co/spaces/kellycyy/CulturalBench

提供机构：

华盛顿大学

开放时间：

2024-10-04

创建时间：

2024-10-04