PDB⽂件的格式
PDB⽂件⾥⾯的信息有严格的格式的。
各⾏数据,如标识、原⼦名、原⼦序号、残基名称、残基序号等,不仅要按照严格的顺序书写,⽽且各项所占的空符串长度,及其所处的各⾏的位置都是严格规定的。
有关PDB⽂件的格式的全部说明可以在⽹站上查询。
对于使⽤分⼦模拟⽽⾔,最需要关⼼的是记录着原⼦坐标的信息。
⼀个PDB⽂件可以是按着这样的格式写的:
Example
1 2 3 4 5 6 7 8 12345678901234567890123456789012345678901234567890123456789012345678901234567890
ATOM 32 N AARG A -3 11.281 86.699 94.383 0.50 35.88 N
ATOM 33 N BARG A -3 11.296 86.721 94.521 0.50 35.60 N
ATOM 34 CA AARG A -3 12.353 85.696 94.456 0.50 36.67 C
ATOM 35 CA BARG A -3 12.333 85.862 95.041 0.50 36.42 C
ATOM 36 C AARG A -3 13.559 86.257 95.222 0.50 37.37 C
ATOM 37 C BARG A -3 12.759 86.530 96.365 0.50 36.39 C
ATOM 38 O AARG A -3 13.753 87.471 95.270 0.50 37.74 O
ATOM 39 O BARG A -3 12.924 87.757 96.420 0.50 37.26 O
ATOM 40 CB AARG A -3 12.774 85.306 93.039 0.50 37.25 C
ATOM 41 CB BARG A -3 13.428 85.746 93.980 0.50 36.60 C
ATOM 42 CG AARG A -3 11.754 84.432 92.321 0.50 38.44 C
ATOM 43 CG BARG A -3 12.866 85.172 92.651 0.50 37.31 C
ATOM 44 CD AARG A -3 11.698 84.678 90.815 0.50 38.51 C
ATOM 45 CD BARG A -3 13.374 85.886 91.406 0.50 37.66 C
ATOM 46 NE AARG A -3 12.984 84.447 90.163 0.50 39.94 N
ATOM 47 NE BARG A -3 12.644 85.487 90.195 0.50 38.24 N
ATOM 48 CZ AARG A -3 13.202 84.534 88.850 0.50 40.03 C
ATOM 49 CZ BARG A -3 13.114 85.582 88.947 0.50 39.55 C
ATOM 50 NH1AARG A -3 12.218 84.840 88.007 0.50 40.76 N
ATOM 51 NH1BARG A -3 14.338 86.056 88.706 0.50 40.23 N
ATOM 52 NH2AARG A -3 14.421 84.308 88.373 0.50 40.45 N
Record Format
COLUMNS DATA TYPE FIELD DEFINITION
-------------------------------------------------------------------------------------
1 - 6 Record name "ATOM "
7 - 11 Integer serial Atom serial number.
13 - 16 Atom name Atom name.
17 Character altLoc Alternate location indicator.
18 - 20 Residue name resName Residue name.
22 Character chainID Chain identifier.
23 - 26 Integer resSeq Residue sequence number.
27 AChar iCode Code for insertion of residues.
31 - 38 Real(8.3) x Orthogonal coordinates for X in Angstroms.
39 - 46 Real(8.3) y Orthogonal coordinates for Y in Angstroms.
47 - 54 Real(8.3) z Orthogonal coordinates for Z in Angstroms.
55 - 60 Real(6.2) occupancy Occupancy.
61 - 66 Real(6.2) tempFactor Temperature factor.
77 - 78 LString(2) element Element symbol, right-justified.
79 - 80 LString(2) charge Charge on the atom.
各⾏记录中,第1-6位记录的是该⾏的“标识”。
第7-11位记录的是序号(是serial,不是index,index=serial-1),PDB⽂件对分⼦结构处理为segment、chain、residue、atom四个层次(⼀般并不⽤到chain),因此这个数位限制只限定了⼀个残基中的原⼦最多只能为99999个,显然是完全⾜够了。
第13-16位为原⼦名称,但往往是从第14位开始写,占四个字符的原⼦名才会从第13位开始写。Discovery Studio总是从第14位开始写,对于四个字符的原⼦名则会将第四个字符写在第13位上,不注意则会引起⿇烦。我本科毕设的时候有过惨痛的教训。
pdb文件阅读器安卓第17位定义为可别定位符,尚未遇到这样的⽤法,不清楚作⽤为何。
第18-20位为残基名(resname),只有三个字符的长度,因此在定义⾃⼰的分⼦拓扑⽂件时要注意残基名称的长度。
第21位留空。
第22位是chainID。
第27位是iCode,不清楚⽤途。
第28-30位留空。
31-38,39-46,47-54位分别记录原⼦的x、y、z坐标,各是⼀个8位长度、带有3位⼩数的浮点数。
55-60为occupancy,没有⽤到过这个性质;61-66是温度因⼦,就是所谓的1/(kT)。都是6位长度、2位⼩数的浮点数。
73-76位在PDB的⽂档说明⾥⾯没有,VMD⾥⾯则⽤来记录segid。
77-78位记录元素符号。
79-80可以记录电荷,但实际上分⼦模拟中,电荷往往是要重新定义的,所以这⼀列往往也⽤不到。V
MD写出的PDB⽂件中,这⼀列就不存在了。
明⽩了⼀个PDB⽂件的格式,就可以利⽤程序或脚本批量处理⼤量的PDB⽂件了。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论