FineTuneBench|大型语言模型数据集|微调评估数据集
收藏arXiv2024-11-11 更新2024-11-18 收录
下载链接:
https://github.com/kevinwu23/StanfordFineTuneBench
下载链接
链接失效反馈资源简介:
FineTuneBench数据集由斯坦福大学创建,旨在评估商业化大型语言模型(LLMs)微调APIs在新知识注入和现有知识更新方面的效能。该数据集包含625个训练问题和1075个测试问题,覆盖新闻、虚构人物、医疗指南和代码更新四大领域。通过对比分析OpenAI和Google的五个前沿LLMs,包括GPT-4o和Gemini 1.5 Pro等,FineTuneBench揭示了微调服务在知识注入方面的显著不足。该数据集的创建过程基于最新新闻文章、虚构人物信息、医疗指南更新和代码框架变更,通过精心设计的问答对来测试模型的泛化能力。FineTuneBench的应用领域广泛,尤其适用于评估和改进LLMs在特定领域的知识更新和应用能力。
提供机构:
斯坦福大学
创建时间:
2024-11-11
