Recorded Crime: Borough Rates|犯罪分析数据集|区域比较数据集
收藏数据集概述
数据来源
- 数据集是从London data网站抓取的。
数据内容
- 包含记录的犯罪数量及每千人口的犯罪率,按财政年度和行政区划分。
- 犯罪率以每千人口计算,使用财政年度前半年的年中人口估计。
- 数据涉及“可通知犯罪”,即英格兰和威尔士所有警察部队必须向内政部报告的犯罪类别。
- 由于没有人口数据,希思罗机场的犯罪率不可用。
数据注意事项
- 自2012年4月起,警方记录的犯罪分类有所变化,因此在比较2012/13年与之前年份的犯罪数据时应谨慎。
- 自2011年4月起,Action Fraud开始代表个别警察部队记录欺诈犯罪,到2013年3月已全面实施,因此在比较此过渡期与早期年份的数据时应谨慎。
数据文件
- 输出数据位于
data
目录下,包含两个CSV文件:crime-rates.csv
recorded-offences.csv
许可证
- 数据集遵循开放政府许可证(Open Government Licence),允许自由且灵活地使用和再利用信息,仅附带少数条件。

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
用于陆面模拟的中国土壤数据集(第二版)
本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。
国家青藏高原科学数据中心 收录
Lifan-Z/Chinese-poetries-txt
这个数据集从《全唐诗》和《全宋诗》中提取了四种不同风格的诗歌,包括五绝(5x4)17521首、五律(5x8)60896首、七绝(7x4)84485首和七律(7x8)71818首。每行数据对应一首诗,适用于文本生成任务。
hugging_face 收录