SciQ|科学教育数据集|考试评估数据集
收藏数据集概述
数据集名称
- SciQ
数据集内容
- 包含13,679个众包科学考试问题,涉及物理学、化学和生物学等多个科学领域。
数据集来源
- 可从Kaggle或Huggingface下载。
数据集用途
- 用于训练
flan-t5-base
模型,以回答科学相关问题。
模型训练
训练环境
- 使用
Nvidia Tesla T4
GPU,具有16GB
VRAM,在Google Colab Free Tier
上进行训练。
训练参数
batch size
: 初始为8,后调整为32learning rate
: 3e-4epochs
: 初始为3,后调整为1
训练结果
training loss
: 1.3092validation loss
: 0.9788ROUGE-1
: 0.4977ROUGE-2
: 0.1207ROUGE-L
: 0.4972ROUGE LSUM
: 0.4968
模型部署
- 经过微调的模型
flan-t5-base-sciq
已上传至Huggingface模型库,可从此处访问。

stock_predicted
该数据集可用于循环神经网络的学习,股票预测数据集通常包含与股票市场相关的各种数据,目的是用于训练和测试机器学习模型,以预测股票价格或市场趋势。以下是一些常见的特征和数据类型,通常会在股票预测数据集中找到: 1. 基本特征 日期:每个数据点的日期。 开盘价(Open):股票在交易开始时的价格。 收盘价(Close):股票在交易结束时的价格。 数据集下载链接见:http://t.csdnimg.cn/VnnfE 代码学习也可见博主海里有太阳
阿里云天池 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
高质量多领域客服对话数据集
高质量多领域客服对话数据集,包含了电子商务、金融服务、电信支持等多个领域,包含丰富的问答对。旨在提供多样化的客户服务场景下的自然语言交互样本。高质量多领域客服对话数据集在大模型领域的应用能够解决以下几个关键问题: 1)聊天机器人训练:通过使用丰富的对话数据,可以训练出更加自然、流畅且能理解复杂用户意图的聊天机器人。 2)智能客服助手:能够提升客服系统的自动化水平,有效解答常见问题,减少人工客服的工作负担,提高服务效率和客户满意度。 3)多轮对话系统开发:支持构建能够进行连贯、上下文相关的多轮对话系统,使得机器能够在对话中保持话题一致性,提供更个性化的交互体验。 4)智能推荐系统:利用对话数据中的用户偏好和行为模式,改进推荐算法,实现更精准的内容和服务推荐。 5)知识库构建:有助于自动或半自动地构建和维护企业或特定领域的知识图谱,为用户提供准确的信息查询服务。 6)语言模型预训练:可以作为预训练数据,帮助语言模型学习多样化的语言结构和表达方式,增强模型的语言理解和生成能力。
北京市数据知识产权 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录