重庆医科大学
硕士学位论文
本地SNP数据库的构建和两序列相似性比对算法的改进
姓名:***
申请学位级别:硕士
专业:生物医学工程
指导教师:***
20050501
重庆医科大学
研究生学位论文独创性声明
本人申明所呈交的论文是我本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特
别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重庆医科大学或其他教育机构的学位或证书而使用过的材料,与我同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。数据结构与算法论文
申请学位论文与资料若有不实之处,本人承担一切相关责任。
学位论文作善签名:囱趸函日期:垃!:£:!!
学位论文版权使用授权书
本人完全了解重庆医科大学有关保护知识产权的规定,即:研究生在攻读学位期间论文工作的知识产权单位属重庆医科大学。本人保证毕业离校后,发表论文或使用论文工作成果时署名单位为重庆医科大学。学校有权保留并向国家有关部门或机构送交论文的复印俘和磁盘,允许论文被查阕和借阕。学校可以公布学位论文的全部或部分内容(保密内容除外),可以采用影印、缩印或其他手段保存论文。
论文作者签名
指导教师签名
日期
英文缩写CATH
CDS
DDBJ
DNA
DTS
EMBL
EST
FTP
Gb
GBFF
GDB
gl
HLA
HTML
MIPS
NCBI
NID
ODBC
OLAM
PAM
PIR
RFLP
RDB
RDBMS
PID
RM
RNA
SCOP
SQL
SNP
缩略词表
英文全称
C1aSS,Architecture,
Topology,Homologoussuperfami1Y
codingsequence
DNADataBankofJapan
deoxyribonucleicacid
Data—TransmiSSionSystem
EuropeanMolecular
BfelegyLaboratory
ExpressedSequenceTags
FileTransferProtocol
giIbert
GenBankftatfile
HumanGenomeDatabase
geninfoidentifier
human1eukocyteantigen
HypertextMarkupLanguage
MunichInformationCenterfor
ProteinSequences
NationalCenterfor
BiotechnologyInformation
geninfoidentifier
OpenDatabaseConnectiVitv
On—LineAnalyticalMining
PointAcceptedMutation
ProteinInformationResource
RestrictiOilFragment
LengthPolymorphism
RelationalDatabase
relationaldatabase
managementsystem
PositionsidentjfieF
RelationalModel
RibonucleicAcid
StructuralClassification
OfProteins
StructuredQueryLanguage
single-nucleotidepolymorphism
中文全称
蛋白质分类、结构、拓朴和同源
性关系数据库
编码序列
日本核酸数据库
脱氧核糖核酸
数据传输系统
欧洲分子生物学实验室
表达序列标记
文件传输协议
(磁通势单位)吉伯
基因库标识文件
人类基因组数据库
基因信息识别号
人类白细胞抗原
超文本链接标示语言
慕尼黑蛋白质序列信息中心
美国国家生物技术信息中心
基因信息标识符
开放式数据库连接性
联机分析处理
点接受突变
蛋白质信息资源
限制性长度片段多态性
关系数据库
关系数据库管理系统
位置标识符
关系模型
核糖核酸
蛋白质结构分类数据库
结构化查询语言
单核苷酸多态性
STRSTS
符号
GTU
Short
tandemrepeat
SequenceTaggedSites
短串联重复序列序列标签位点
碱基(核甘酸)的标准符号
英文全称
中文意义adenine腺嘌呤cytosiRe
胞嘧啶guanine
鸟嘌呤thymine
胸腺嘧啶uridiRe
尿嘧啶
英文全称
A1anineCysteineksparticAeidG1utamicAcidPhenylalanineG1vcineHistidineIsoleuciDe
LysilieLeucine
MethionineAsparagine
G1utamineProline
ArginineSerine
ThreoniReValine
Tryptophan
Tyrosine
氨基酸词汇表
中文意义丙氨酸半胱氨酸天冬氨酸谷氨酸苯丙氨酸甘氨酸
组氨酸异亮氨酸赖氨酸亮氨酸甲硫氨酸天冬酰胺谷氨酰胺脯氨酸精氨酸丝氨酸苏氨酸缬氨酸氨酸酪氨酸
;呦蝴劝㈨㈦m瑚岫曲叫砌神城蹦嘲m啪扪咖州
泻n@㈨∞㈣∞m“m
m似@①n幅“Ⅳ盯汀
爷A
DEFG
KLM
PR
WY
本地SNP数据库的构建和两序列相似性比对算法的改进
摘要
生物信息学是生命科学中非常活跃的领域之一,各类生物信息学数据库在近年不断出现,其规模呈爆炸趋势增长,几乎覆盖了生命科学的各个领域,最知名的是三大数据库GenBank、EMBL、DDBJ。
本文首先详细介绍了GenBank的数据结构,分析了GenBank中的单核苷酸多态性(SNP)数据库的数据字典、以及数据字典之间的相互关系,然后以GenBank提供的信息和生物数据为基础,构建了~个二级本地数据库一SNP数据库。本课题构建的SNP数据库中的所有数据来自于NCBI,通过对下载的原始数据进行整理和提取,全部导入本地数据库,以方便进…步研究使用。数据库的构建以大家熟悉的PCWINDOWS操作系统为系统平台,用中国现在使用最广的SQLSERVER2000软件构建。文中给出了构建数据库、数据字典、数据字典之间相互关系和数据更新的
部分代码,最后检索了一部分数据,并加以注释。
在生物信息数据的处理和分析方面,序列比对算法是生物信息学中重要的分析方法之一。本文对两序列相似性比对算法中用到的打分系统作出了进一步的改进,在氨基酸序列比对时不用固定的PAM250进化距离分值系统,而是根据比对序列的实际情况,动态地改变两比

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。