南京工业大学生物信息学
1、生物信息学的主要应用有哪些?
①生物信息学数据库:数据库建立、数据库整合和数据挖掘
②序列分析:序列比对、基因序列注释
③其他:比较基因组学、基因和蛋白质的表达分析、生物芯片大规模功能表达谱的分析、蛋白质结构的预测、蛋白质与蛋白质的相互作用、生物系统模拟、代谢网络建模分析、计算机进化生物学、生物多样性研究、合成生物学
2、生物学数据库有哪些特点?
①数据库的更新速度不断加快、数据量呈指数增长
②数据库使用频率增长更快
③数据库的复杂程度不断增加
④数据库网络化
⑤面向应用⑥先进的软硬件配置
3、一级数据库和二级数据库的区别是什么?有哪些一级数据库和二级数据库?
一级数据库属于档案数据库,库中的主要内容是来源于实验室操作所得到的原始数据结果;二级数据库则是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的
一级数据库:核酸序列数据库GenBank、EMBL、DDBL及蛋白质数据库PDB
二级数据库:NCBI的RefSeq数据库
4、数据库的Fasta、Flat file和XML格式各有何特点?
(1)FASTA 序列格式包括三个部分:(书上没有PPT第二章第19-20页)
1.在注释行的第一列用字符“>”标识,后面是序列的名字和来源;
2.标准的单字符标记的序列;
3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。
提供了从一个窗口到另一个窗口非常方便的拷贝途径,序列中没有数字或其他非字符。
从第二行开始是序列本身,标准核苷酸符号(大小写均可)或氨基酸单字母符号(大写)。
(2)平面文件格式—Flat File
纯文本文件、通用性好、检索复杂,冗余字段较多,大容量数据库难以处理
(3)XML格式(PPT第二章第29、32页)
一个XML文件代表一个嵌套的信息树。树中的每一个节点能包含像一串子节点或者一些属性这样的数据,并且一个XML文件始于根节点。一个XML文件有一个文本,在文本中每一个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似html。
网络前端需要学什么
5、GenBank数据库中的GenBank条目包含哪些内容?请结合GenBank中的具体的序列信息加以说明。
GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。
这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。
在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。
计算机程序中的序列条目位于标识符“ORIGIN”和“//”之间。这些字段提供的信息可以参见网页
bi.v/Sitemap/samplerecord.html
序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程。
用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。
GenBank序列格式通常需要改变以适应序列分析软件。
6.蛋白质序列数据库有哪些? SWISS-PROT、PIR
7、序列比对在什么情况下选择核苷酸序列?在什么情况下选择蛋白质序列?
核苷酸序列:①在确认给定DNA序列和DNA数据库中的序列的一致性时②在搜索多态性时③在分析所克隆的cDNA片段的一致性时蛋白质序列:由于蛋白质序列比DNA所含信息多,所以除以上情况外用蛋白质序列
8、请比较同源性、同一性和相似性三个概念。
同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,是质的判断
同一性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例
相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量
10、总结BLAST比对程序家族的主要程序,如何选择?
23、蛋白质结构预测方法有哪些?
蛋白质三级结构的预测方法:同源模建、折叠识别、从头计算法
蛋白质二级结构的预测方法:Chou-Fasman方法(简单的统计方法)、GORⅢ(复杂的统计方法)、PHD和PSIPRED(先进的机器学习方法)
11.解读BLAST程序的比对结果所代表的含义。
(1)该搜索的详细情况,包括BLAST搜索的类型、所搜索的数据库的描述、查询内容和分类连接(taxonomy reporter)
(2)显示的是数据库中与查询序列相匹配的项的简明图形。每一条彩带表示数据库中与查询序列相匹配的蛋白质或核酸序列,不同颜表示不同高低的得分。
(3)与查询序列相匹配的数据库中的序列列表。每一条序列包括其Score(bits)、E value及该序列在相应数据库中的链接。(4)查询序列与目标序列之间的双序列比对情况。Score为位记分分数;Expect为期望值;Positives为相似性分值;Identities 为同一性分值;Gaps为空位。
12、如何寻远缘相关的蛋白质?
PSI-BLAST是位点特异性迭代BLAST,用来寻远缘相关的蛋白质序列,对于蛋白质的相似序列的寻比常规blastp更敏感。PSI-BLAST工具的比对步骤为:(1)用blastp在目标数据库中进行比对搜索;(2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵PSSM;(3)用第二步获得的PSSM矩阵再一次搜索目标数据库;(4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行2~4步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时,可以停止比对循环。
13、如何利用BLAST来发现新基因?
首先从一个已知的蛋白质序列出发,搜索一个DNA数据库;到尚未注释的、与查询序列相关的序列匹配,得到新发现的基因和对应的蛋白质;采用多种措施来验证匹配结果,证实确实发现了新的基因。具体如下:(1)选取合适的蛋白质,(2)针对特定数据库进行tblast搜索,(3)检查比对结果,(4)对匹配结果进行验证

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。