five

FineTuneBench|大型语言模型数据集|微调评估数据集

收藏
arXiv2024-11-11 更新2024-11-18 收录
大型语言模型
微调评估
下载链接:
https://github.com/kevinwu23/StanfordFineTuneBench
下载链接
链接失效反馈
资源简介:
FineTuneBench数据集由斯坦福大学创建,旨在评估商业化大型语言模型(LLMs)微调APIs在新知识注入和现有知识更新方面的效能。该数据集包含625个训练问题和1075个测试问题,覆盖新闻、虚构人物、医疗指南和代码更新四大领域。通过对比分析OpenAI和Google的五个前沿LLMs,包括GPT-4o和Gemini 1.5 Pro等,FineTuneBench揭示了微调服务在知识注入方面的显著不足。该数据集的创建过程基于最新新闻文章、虚构人物信息、医疗指南更新和代码框架变更,通过精心设计的问答对来测试模型的泛化能力。FineTuneBench的应用领域广泛,尤其适用于评估和改进LLMs在特定领域的知识更新和应用能力。
提供机构:
斯坦福大学
创建时间:
2024-11-11
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集