five

Baby Names in The USA from 1880 to 2022|名字趋势数据集|文化研究数据集

收藏
github2023-07-18 更新2024-05-31 收录
名字趋势
文化研究
下载链接:
https://github.com/acohenstat/datasets
下载链接
链接失效反馈
资源简介:
该数据集包含从1880年到2022年的近200万个名字,由美国社会保障局提供。包含以下变量:年份、性别、名字、当年该性别下名为name的婴儿数量。

This dataset comprises nearly 2 million names from 1880 to 2022, provided by the United States Social Security Administration. It includes the following variables: year, gender, name, and the number of babies of that gender named 'name' in the respective year.
创建时间:
2019-07-29
原始信息汇总

数据集概述

1. Baby Names in The USA from 1880 to 2022

  • 数据集名称: bbnames.csv
  • 数据来源: 美国社会保障局
  • 数据量: 约200万个名字
  • 时间范围: 1880年至2022年
  • 变量:
    • year: 出生年份
    • sex: 性别(Female或Male)
    • name: 婴儿名字
    • n: 该年份该性别下名为"name"的婴儿数量

2. Pilot Certification Data

  • 数据集名称: pilotsCertFAA2023.csv
  • 数据来源: 美国联邦航空管理局(FAA)
  • 获取时间: 2023年6月
  • 内容: 飞行员认证记录
  • 变量:
    • Pilot ID: 飞行员ID
    • CertLevel: 认证级别(Airline, Commercial, Student, Sport, Private, Recreational)
    • STATE: 美国州份
    • MedClass: 医疗级别
    • MedExpMonth: 医疗证书到期月份
    • MedExpYear: 医疗证书到期年份
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集‘Baby Names in The USA from 1880 to 2022’由美国社会保障局提供,涵盖了从1880年至2022年的近200万个婴儿名字数据。数据集的构建基于每年的出生记录,详细记录了每个名字在特定年份和性别下的出现次数。通过这种方式,数据集不仅反映了名字的流行趋势,还揭示了社会文化变迁对命名习惯的影响。
特点
此数据集的显著特点在于其时间跨度长、数据量大且信息详尽。它包含了四个主要变量:年份、性别、名字以及该名字在当年特定性别中的出现次数。这种结构使得研究者能够进行多维度的分析,如名字的流行趋势、性别命名差异以及特定年份的文化特征等。
使用方法
该数据集适用于多种研究场景,包括但不限于社会学、人口统计学和数据分析。用户可以通过筛选特定年份、性别或名字来获取详细数据,进行趋势分析或比较研究。此外,数据集的CSV格式便于导入各种数据分析工具,如Python、R等,进行进一步的统计分析和可视化展示。
背景与挑战
背景概述
美国婴儿姓名数据集(Baby Names in The USA from 1880 to 2022)是由美国社会保障局提供的一个涵盖1880年至2022年间的婴儿姓名数据集,包含了近200万个姓名记录。该数据集的核心研究问题在于揭示美国社会在过去一个多世纪中婴儿命名趋势的变化,以及性别在命名选择中的影响。通过分析这些数据,研究人员可以探索文化变迁、社会趋势以及语言演变对命名习惯的影响,为社会学、语言学和人口统计学等领域提供了宝贵的研究资源。
当前挑战
该数据集在构建和分析过程中面临多项挑战。首先,数据的时间跨度长达140多年,涵盖了多个社会、文化和政治变革时期,这使得命名趋势的分析变得复杂。其次,数据中包含的变量如性别和年份,虽然简单,但在实际应用中需要进行精细的分类和处理,以确保分析结果的准确性。此外,数据集的规模庞大,处理和存储这些数据对计算资源提出了较高要求。最后,如何从海量数据中提取有意义的模式和趋势,并将其转化为可解释的洞见,是该数据集面临的主要分析挑战。
常用场景
经典使用场景
Baby Names in The USA from 1880 to 2022数据集的经典使用场景主要集中在社会学、人口学以及文化研究领域。研究者可以利用该数据集分析美国婴儿名字的流行趋势,探讨不同年代、性别以及社会文化背景对名字选择的影响。例如,通过分析特定年份的名字流行度,可以揭示社会变迁、文化潮流以及人口结构的变化。
实际应用
在实际应用中,Baby Names in The USA from 1880 to 2022数据集被广泛用于市场营销、教育以及娱乐产业。例如,父母在选择婴儿名字时,可以参考该数据集来避免选择过于流行或不常见的名字。此外,该数据集还被用于开发名字推荐系统,帮助用户根据流行趋势和个人偏好选择合适的名字。
衍生相关工作
基于该数据集,研究者们开展了多项经典工作,包括名字流行趋势的预测模型、性别角色与名字选择的关联研究,以及跨文化名字比较分析。这些研究不仅丰富了社会学和人口学的理论框架,还为相关领域的实证研究提供了重要的数据支持。此外,该数据集还激发了多个跨学科的研究项目,如结合历史数据和现代社交媒体数据,探讨名字在数字时代的演变。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

中国地质调查局: 全国1∶200 000区域水文地质图空间数据库

全国1∶200 000区域水文地质图空间数据库以建国后在全国范围内(本次未在香港特别行政区、澳门特别行政区和台湾省开展工作) 30个省开展的1∶200 000区域水文地质普查工作所取得的区域水文地质普查报告、综合水文地质图等地质资料为数据源,在制定的“1∶200 000区域水文地质图空间数据库图层及属性文件格式标准”的基础上,建成了一个全国性的、大型的区域水文地质学空间数据库。该数据库总共采集、处理了全国范围内1∶200 000图幅的<number>1 017</number>幅全要素综合水文地质图信息,全部数据量约50 GB。数据库涵盖了以1∶200 000国际标准图幅为管理单位的水文地质要素空间数据图层,内容包括:地理要素(交通层、水系层、行政区划层等),基础地质要素(地层分区层、断裂构造层),水文地质要素(地下水类型层、地下水富水性层、地下水迳流模数层,地下水水质层、水文地质特征层、地下水利用规划层),专题要素(综合水文地质柱状图,水文地质剖面图) 四大类近30个要素图层。空间数据库主要采用MapGIS地理信息系统格式存储,形成了目前国内覆盖范围最广、包含信息最完整的区域水文地质图空间数据库成果,是地质领域全国性最重要的基础信息资源之一。

DataCite Commons 收录