Dynamic PDB|蛋白质结构数据集|分子动力学数据集
收藏Dynamic PDB 数据集概述
概述
Dynamic PDB 是一个大规模数据集,通过整合动态数据和额外的物理属性,增强了现有的静态3D蛋白质结构数据库(如Protein Data Bank,PDB)。该数据集包含约12.6k个经过筛选的蛋白质,每个蛋白质都经过全原子分子动力学(MD)模拟,以捕捉构象变化。
关键进展
- 扩展的模拟时长:每个蛋白质的模拟时长可达1微秒,有助于更全面地理解显著的构象变化。
- 更细粒度的采样间隔:采样间隔为1皮秒,允许捕捉更详细的全局路径。
- 丰富的物理属性:在MD过程中捕捉到的物理属性,包括原子速度和力、势能/动能、模拟环境的温度等。
数据集内容
数据集包含以下属性:
文件名 | 属性 | 数据类型 | 单位 |
---|---|---|---|
{protein_id}_T.pkl |
轨迹坐标 | float数组 | Å |
{protein_id}_V.pkl |
原子速度 | float数组 | Å/ps |
{protein_id}_F.pkl |
原子力 | float数组 | kcal/mol·Å |
{protein_id}_npt_sim.dat |
势能<br>动能<br>总能量<br>温度<br>盒子体积<br>系统密度 | float<br>float<br>float<br>float<br>float<br>float | kJ/mole<br>kJ/mole<br>kJ/mole<br>K<br>nm³<br>g/mL |
此外,MD模拟过程中还存储了以下数据:
文件名 | 描述 |
---|---|
{protein_id}_minimized.pdb |
最小化后的PDB结构 |
{protein_id}_nvt_equi.dat |
NVT平衡信息 |
{protein_id}_npt_equi.dat |
NPT平衡信息 |
{protein_id}_T.dcd |
轨迹坐标的DCD格式 |
{protein_id}_state_npt1000000.0.xml |
MD延长状态文件 |
数据集下载
可以通过以下命令从ModelScope仓库下载数据集: shell git lfs install git clone https://www.modelscope.cn/datasets/fudan-generative-vision/dynamicPDB.git dynamicPDB
数据集的组织结构如下:
text
./dynamicPDB/
|-- 1ab1_A_npt1000000.0_ts0.001
| |-- 1ab1_A_npt_sim_data
| | |-- 1ab1_A_npt_sim_0.dat
| | -- ... | |-- 1ab1_A_dcd | | |-- 1ab1_A_dcd_0.dcd | |
-- ...
| |-- 1ab1_A_T
| | |-- 1ab1_A_T_0.pkl
| | -- ... | |-- 1ab1_A_F | | |-- 1ab1_A_F_0.pkl | |
-- ...
| |-- 1ab1_A_V
| | |-- 1ab1_A_V_0.pkl
| | -- ... | |-- 1ab1_A.pdb | |-- 1ab1_A_minimized.pdb | |-- 1ab1_A_nvt_equi.dat | |-- 1ab1_A_npt_equi.dat | |-- 1ab1_A_T.dcd | |-- 1ab1_A_T.pkl | |-- 1ab1_A_F.pkl | |-- 1ab1_A_V.pkl |
-- 1ab1_A_state_npt1000000.0.xml
|-- 1uoy_A_npt1000000.0_ts0.001
| |-- ...
| -- ...
-- ...
应用
轨迹预测
扩展了SE(3)扩散模型,以结合序列特征和物理属性进行轨迹预测任务。具体任务是给定蛋白质的初始3D结构,预测下一时间步的3D结构。
数据准备
数据准备包括以下步骤:
- 提取蛋白质的PDB文件和节点/边特征。
- 处理蛋白质轨迹数据。
- 提取Cα原子的力和速度。
准备训练和测试蛋白质列表的CSV文件,格式如下:
name | seqres | release_date | msa_id | atlas_npz | embed_path | seq_len | force_path | vel_path | pdb_path |
---|---|---|---|---|---|---|---|---|---|
16pk_A | EKKSIN... | 1998/11/25 | 16pk_A | ./DATA/16pk_A/16pk_A_new_w_pp.npz | ./DATA/16pk_A/16pk_A.npz | 415 | ./DATA/16pk_A/16pk_F_Ca.pkl | ./DATA/16pk_A/16pk_V_ca.pkl | ./DATA/16pk_A/16pk.pdb |
... |
训练与推理
- 训练:使用
run_train.sh
脚本进行训练。 - 推理:使用
run_eval.sh
脚本进行推理。
