一种用于预测线虫和酵母基因组中内含子、外显子和基因间序列的离散增量方法

一、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文文献综述）

吴苑^[1]（2020）在《人类五种DNA序列8-mer频谱和CpG岛序列结构单元分析》文中研究说明通过研究DNA序列k-mer频谱的内在规律来揭示DNA序列的组成规律和序列进化问题越来越受到国内外学者的关注。本文以人类全基因组序列、基因间序列、内含子序列、编码序列和CpG岛序列为研究对象,分析了这5类DNA序列中8-mer频谱特征。采用XY二核苷分类方法对总体8-mer进行分类,研究了XY子集8-mer频谱的分布规律。通过对所研究的5种DNA序列的8-mer子集频谱分析,进一步验证了独立选择规律的正确性。我们运用三个CG子集8-mer频谱的分离度和保守度定量表征了独立选择的强度。发现分离度和保守度之间存在正相关关系,由此给出了独立选择规律的第四个和第五个性质,即选择相关性和选择趋同性,进一步完善了独立选择规律。通过对比4种DNA序列的独立选择强度发现,基因间序列的独立选择强度最高,其次是内含子序列,编码序列的独立选择强度明显低于内含子序列,而CpG岛序列的独立选择强度最低。根据物种基因间序列、内含子序列和编码序列的序列进化过程,我们推测DNA序列的独立选择强度反映了DNA序列的进化程度。基于独立选择规律的性质,我们研究了CpG岛序列中的亚结构单元序列组成和亚结构的分布特点,给出了CG1和CG2子集的8-mer模体在人类CpG岛序列中的分布和组成,发现CpG岛序列中存在亚结构单元。出现最多的结构单元有5个,它们的尺度在16-20bp之间,分别代表5种最基本的结构模式,我们推演给出了这5种单元的序列结构。我们还统计分析了结构单元之间的距离分布,发现相邻结构单元之间最概然距离是20bp,多数在18-40bp之间。结果表明结构单元的分布是不均匀的,具有聚集性。研究还显示出:结构单元的尺度和相邻结构单元之间的距离与CpG岛序列的G+C含量无关。由此推测,G+C含量的变化体现在结构单元中功能模体的选择上,还体现在相邻结构单元之间连接序列的碱基选择上。这两类选择性反映了CpG岛序列具有功能的多样性。我们认为,不同类型DNA序列的差异不仅体现在三个CG子集8-mer频谱的分离度和保守度上,也必定会体现在每个CG子集中的8-mer使用频次上。基于这一思路,我们分析了基因间序列、内含子序列、编码序列和CpG岛序列三个CG子集中8-mer相对频次与全基因组序列的差异分布、偏好度和离散度。结果显示,不同DNA序列中,CG0、CG1和CG2子集8-mer使用频次的差别各不相同。与全基因组序列相比,CpG岛序列的差异最大,其次是编码序列。内含子序列和基因间序列的差异最小,但两者之间也显示出明显的区别。运用差异分布、偏好度和离散度指标,可以更加精细的区分不同序列的组成差别。该分析方法为基因组序列进化表征提供了新的思路。

王爱兰^[2]（2015）在《F-box基因在动物中的进化和群体遗传学研究》文中研究说明泛素–蛋白酶体系统（ubiquitin-proteasome system,UPS）是特异性降解蛋白的主要途径,参与了众多的细胞代谢过程。决定该系统中待降解蛋白特异性的是E3连接酶,其中研究较多的是SCF（SKP1–CUL1–F-box）复合体。该复合体中F-box蛋白是接头蛋白,负责特异性识别底物。F-box蛋白的共同特征是包含相对保守的F-box结构域。F-box基因的数目种间差别极大,从数十到上千。对F-box基因数目变化及其机制、结构和功能分化、选择压力模式的研究,利于深入了解基因组的进化,也为F-box蛋白的功能研究奠定基础。本论文主要研究了F-box基因在灵长总目和新杆状线虫属中的数目变化及其机制、结构和功能分化,以及E3和FBXO32基因分别在人和牛群体中的基因多样性。主要研究结果如下:第一部分:基于系统发育分析和自然选择检测等方法,研究了灵长总目进化过程中F-box基因的数目变化和所经历的选择压力模式。结果表明:（1）进化过程中,F-box基因发生了种系特异性地增加或丢失,致使研究所涉及的8个现存物种的F-box基因数目从66到81不等;（2）串联重复和半逆转录转座引起的F-box基因增加的方式均有发现,F-box结构域的突变是F-box基因数目减少的主要原因;（3）一些F-box蛋白识别底物的结构域内出现了正选择位点。结论:（1）在灵长总目的进化过程中F-box基因的扩张和缩减使其数目维持相对平衡,符合基因家族进化的生与死模型（birth-and-death model）;（2）F-box蛋白发生了种系特异性的适应性进化。第二部分:基于比较基因组学和转录组测序数据分析等方法,研究了新杆状线虫属F-box基因数目的种间差异及变化机制,探讨了重复基因的基因结构分歧和功能分化。结果表明:（1）新杆状线虫属的5个物种间F-box基因数目差异极大,从数十到数千,且主要通过串联重复方式产生;（2）一些F-box基因重复产生的拷贝在F-box结构域发生了较大的变异;（3）导致重复基因的结构分化的机制主要有:外显子/内含子数目的增减、外显子化/假外显子化、外显子内序列的插入和缺失、编码区序列的突变和内含子序列的显着加长;（4）Caenorhabditis elegans（C.elegans）和Caenorhabditis briggsae（C.briggsae）的并系同源组内的F-box基因的时期特异性表达模式发生了分化。结论:（1）多种基因结构分化机制共同导致了F-box重复基因结构的分化;（2）C.elegans和C.briggsae的F-box基因通过不同的发育阶段特异性表达模式发生了功能分化。第三部分:采用千人基因组计划数据研究了多个群体的E3基因的单核苷酸多态性（single nucleotide polymorphism,SNP）和进化过程中受到的选择压力。结果表明:（1）非洲群体的E3基因的单核苷酸多态性显着高于其他大洲的群体;（2）E3的结构域受到了非常强的负选择压力,尤其是与靶蛋白结合的结构域。结论:E3基因与靶蛋白结合的结构域在整条序列中最为保守。第四部分:采用DNA测序和限制性酶切片段多样性的实验方法,研究了7个牛群体的FBXO32的单核苷酸多态性以及对确定的SNP与生长性状进行了关联分析。结果表明:（1）发现了4个新的SNP（ss411628932、ss411628934、ss411628935和ss411628936）;（2）关联分析表明ss411628932和ss411628936位点均与南阳牛的24月龄的体斜长发育显着相关（P-value﹤0.05）;（3）4个位点的SNP频率构建的系统发育树表明7个牛群体的亲缘关系远近与地理距离远近一致。结论:（1）FBXO32的外显子3和内含子10之间可能存在重组热点;（2）位点ss411628932和ss411628936可以作为牛育种的基因组标记;（3）地理隔离影响了群体间基因交流。综上所述,本论文综合利用比较基因组学、系统发育、选择压力、生物统计学等方法对灵长总目和新杆状线虫属进化过程中,F-box基因数目变化及机制、所受选择压力模式、重复基因结构和功能的分化做了系统的研究。另外,用实验生物学的方法研究了F-box基因家族成员之一的FBXO32的SNP以及其对功能的影响。本论文为F-box基因的起源、进化和功能的研究奠定了坚实基础,同时也为其它基因家族进化的研究提供了新思路。

张晓磊^[3]（2014）在《基于数字信号处理理论和方法的外显子预测研究》文中认为快速、可靠而准确地预测真核生物DNA序列中的外显子位置,是生物信息学领域的一个重要问题。其中,准确预测短长度外显子的位置是准确预测外显子位置和数目的难点之一。在外显子预测中,有效地抑制由内含子区所产生的背景噪声对提高短长度外显子的预测准确度具有重要的作用。在真核生物的基因中,少量负责编码蛋白质的外显子被非编码的内含子间隔成许多不连续的片断,而且较大比例的外显子长度都很小。准确地预测短长度外显子受制于其所缺乏的明显特征,这使得预测工作十分困难。而且一些短长度外显子所包含的编码信息在肿瘤侵袭和转移等各个环节发挥重要作用。论文提出了两种外显子预测方法,从捕捉短长度外显子的特征和抑制内含子区背景噪声这两方面对短长度外显子的预测准确度进行了提升。目前针对外显子的预测方法,根据原理和特点的不同,主要可以归纳为基于数字信号处理和基于数据库的两大类外显子预测方法。论文利用小波变换模极大值的奇异点检测算法和经验模态分解,发展了两种外显子预测方法。论文整体工作概述如下：（1）基于小波变换模极大值奇异点检测算法的外显子预测方法。该方法首先构造了核苷酸分布序列,通过跟踪核苷酸分布序列的小波变换模极大值点沿尺度的传播特性,对外显子信号与内含子所产生的噪声进行有效地分离,并对短长度外显子所产生的信号突变点保持较高的重构精度,进而实现了对短长度外显子的准确探测。数据集HMR195和BG570是两个用于评估外显子预测方法性能优劣的通用数据集,论文利用这两个数据集对奇异点检测方法在预测短长度外显子中的性能以及整体预测性能进行评估。与现有主要的预测方法相比,奇异点检测方法对数据集HMR195和BG570中外显子预测所得到的预测结果主要体现在如下三个方面：1)在对长度小于等于50碱基对以及长度小于等于200碱基对的短长度外显子预测中,该方法对短长度外显子所得到的探测率分别至少有12%和8%的提高；2)在对整体外显子的预测中,该方法对外显子预测的所得到的准确率至少有6.8%的提高；3)在抑制内含子区背景噪声方面,该方法所得到的信噪比至少有74.5%的提高。（2）为扩大奇异点检测方法的应用范围,论文从数据库NCBI GenBank中随机选取了200组测试数据,其中每组测试数据包含一个短长度内含子以及被这个短长度内含子所分隔的两个相邻短长度外显子。在对这200组测试数据中外显子的预测中,与现有主要的预测方法相比,奇异点检测方法所得到的预测准确率至少有20.7%的提高。（3）基于经验模态分解和修改Gabor小波变换的外显子预测方法。该方法采用了基于DNA抗弯刚度的数值映射机制,利用经验模态分解将DNA数值序列分解为若干本征模态函数。然后,通过修改Gabor小波变换计算第一个本征模态分量的局部功率谱。鉴于经验模态分解是一种自适应的非平稳信号处理工具,因此该方法可以对传统方法无法观察到的短长度外显子特征进行探测。此外,由于只计算了第一个本征模态分量的局部功率谱,因此该方法在噪声抑制方面具有一定的优势。与现有主要的预测方法相比,该方法在对数据集HMR195中外显子的预测中,其预测结果主要体现在如下两个方面：1)该方法对外显子预测所得到的信噪比至少有20.8%的提高；2)在对长度小于等于50碱基对的短长度外显子预测中,该方法所得到的探测率至少有5.3%的提高。图60幅,表14个,参考文献120篇。

包通拉嘎^[4]（2013）在《核小体结合模体的预测及它们在人类基因功能位点附近的分布》文中指出基因调控的复杂模式和人类基因组的普遍转录以及丰富的非编码基因,“DNA元件百科全书”计划的这些发现使得人们对基因概念的认识更加广泛,对转录调控系统和调控机制产生了新的理解,并开创了人类认识基因组全部序列功能的新开端。最近,人们对挖掘非编码序列中可能存在的功能片段以及非编码序列的演化和进化方面做了大量的工作。75-90%的真核生物基因组都被组装成作为染色质基本重复单元的核小体。DNA序列上核小体的准确定位在基因转录,mRNA剪接,DNA复制和DNA修复中扮演着重要的角色。尽管有许多因素可以影响核小体的定位,但现有的核小体定位数据显示,核小体对特殊的DNA序列有高度的亲和力,DNA本身的序列在体内核小体定位中扮演很重要的角色。非编码序列在人类基因组中占绝大的比例,所以研究它们的特征和偏好模体对理解非编码序列的功能和核小体定位是非常重要的。很多理论和实验的分析指出,核小体在基因组上的分布是非均匀的,核小体分布在特定的功能位点附近表现特殊的形式。还有实验数据揭示在一个核小体中,组蛋白和DNA相互作用有三个作用很强烈的区域。所有这些信息暗示,DNA序列中存在一个与组蛋白相互作用的模体集合,我们称之为“核小体定位模体”。我们相信这些模体是核小体定位、分布和重塑的主要决定因素。转录调控是诸多因素相互作用的复杂过程,如特殊的转录因子,非编码调控元件和调节蛋白因子结合的核小体缺失区域等。核小体定位和动态的染色质重塑调节蛋白因子与DNA序列的可接近性,表明核小体定位是转录因子结合的普遍决定因素。核小体在基因转录调控和其他细胞过程中的重要作用,使得探索核心组蛋白与基因组DNA序列之间的相互作用成为目前分子生物学的热点课题。基于调研,其他研究者以前的一系列工作仅限于研究基因临近区域的核小体组装模式,这些与基因转录调控相关。但很少有研究者从全基因组水平上寻找与组蛋白相互作用的DNA模体。目前对核小体定位的实验研究是分散的,未完整的。采用穷举法来完善核小体定位研究是不现实的,必须借助系统的理论分析。已经发现人类基因组序列的k-mer分布是多峰分布。尽管人们对基因组序列的k-mer分布做了很多的研究,这些研究侧重于研究概率模型或频数最少和频数最多的模体,k-mer的调控作用等。但鲜见有人将它们与组蛋白相互作用和参与核小体形成的功能联系起来。所以从理论上研究DNA序列的k-mer构成与核小体的关系具有重要意义。基于这个指导思想,在论文中主要研究了以下几个方面的内容：1.运用统计理论,分析了人类基因间序列的k-mer构成和分布,预测了可能与组蛋白相互作用的所有DNA模体,模体集合共有23,880个8-mer。这个模体集合分为两类,分别命名为P1-mers和P2-mers,并统称为“核小体结合模体”集合。P1-mers共包含2,632个8-mer; P2-mers包含21,248个8-mer。通过分析发现这些模体具有较高的GC含量和柔性,在实验给出的核小体定位序列中,它们出现的频率非常显着。结合已有的理论和实验数据分析,验证了我们得到的模体集合就是核小体结合模体或与核小体紧密相关的模体。2.探索了这些预测的模体在人类编码基因和非编码基因不同功能位点附近的分布模式。分析的功能位点包括：转录起始位点,转录终止位点,起始密码子,终止密码子,内含子和外显子连接处等。核小体结合模体在这些功能位点附近表现出了特异的分布,且在上述五种功能位点附近模体分布形式各不相同,而且分布形式和他人的实验结果吻合。这给我们预测不同功能位点提供了新的思路。我们还分析了核小体结合模体在不同序列上的距离分布。分析的序列有：基因间序列、内含子序列和编码序列等。核小体结合模体在这三类序列上的平均距离依次减小,表明核小体在这三类序列上的平均密度也是依次降低的,这与他人的研究结果吻合。这些结果进一步证明了我们所预测的模体是核小体结合模体的观点,而且暗示核小体结合模体不但参与基因的转录调控,它们的分布可能参与不同类型的序列和不同功能位点的区分和识别。核小体结合模体特征和它们在不同功能位点附近序列上的偏好强度显示,P1-mers很可能参与核小体定位,P2-mers可能与核小体的重塑紧密相关。3.分析了人类看家基因功能位点附近的核小体结合模体的分布,并与Ensemble基因比较了它们之间的相同点和差异。看家基因和Ensemble基因功能位点附近的核小体结合模体分布图形相似,但它们在看家基因上的出现频数显着高于Ensemble基因。这个结果表明,看家基因功能位点附近的核小体定位和重塑信号比Ensemble基因强烈。看家基因转录边界和翻译边界区域,核小体结合模体在转录起始位点附近序列上出现频数最高。核小体结合模体出现频数统计显示,不同功能位点附近的序列对核小体结合模体的依赖程度有所差异。单条看家基因上核小体结合模体的精细分布表明核小体结合模体在DNA序列上分散分布,有利于支配核小体定位和重塑；而且不同核小体单元所包含的核小体结合模体密度有所差异。4.核小体结合模体在不同功能位点附近都表现出了偏好性。但对核小体结合模体的相对偏好性进行比较后发现,转录起始位点、转录终止位点、起始密码子和终止密码子附近±500bp的序列所包含的偏好的核小体结合模体模式数各不相同。转录起始位点区域包含的偏好模体模式数最多。转录起始位点序列和起始密码子做比较时,它们共有的偏好模体的数目为2,489；各自的特异偏好模体模式数分别为257、847。转录终止位点序列和终止密码子做比较时,它们共有的偏好模体的模式数1071；各自的特异偏好模体模式数分别为52、1,371。这些功能位点之间不但所偏好的核小体结合模体的模式数有所差异,具体的模体形式也有差异。核小体结合模体的相对偏好性差异表明,不同功能位点序列上的核小体定位和重塑特征不同。各个功能位点附近序列上核小体结合模体出现频率的相关性分析结果显示,P1-mers和P2-mers两类模体在多个功能位点附近序列上的出现频数呈现显着正相关性,表明强烈定位的核小体周围可能也存在较多的核小体重塑信号。

高智红,张利绒,罗辽复^[5]（2010）在《应用离散增量方法识别人类MicroRNAs前体序列》文中提出MicroRNAs（miRNAs）是一类约为21-26个碱基长度的非编码单链RNA.根据Mi-croRNAs前体序列（pre-miRNAs）的碱基保守特征和二级结构特征,应用多样性增量方法（ID方法）和支持向量机（SVM）分析,以内含子区（intron）、外显子区（exon）、基因间区（intergenic）三类序列分别作为负集,对人类的pre-miRNAs进行分析和预测.当以intergenic区和intron区序列为训练负集时,其以二级结构三联体、四联体和五联体（3-mer、4-mer、5-mer）为特征参量的敏感性、特异性、整体精度都在89%以上,相关系数在0.7以上.

高智红^[6]（2010）在《应用多样性增量方法识别人类基因组microRNA前体序列》文中提出microRNA是一类约为21-26个碱基长度的非编码单链RNA。microRNA在细胞生长和发育的过程中起着多种调节作用,参与生命过程中一系列的重要进程,包括发育、造血、器官形成、凋亡、细胞增殖、甚至肿瘤发生。microRNA对癌症、心脏病、艾滋病等各种疾病都有一定的影响。根据最近研究显示,RNA最初转录物（pri-RNA）分子经过RNaseⅢDrosha剪切,成为70-90个碱基大小、具有发夹结构的microRNA的前体（pre-microRNA）,再由Exportin-5将pre-microRNA从细胞核运输到细胞质中,经Dicer酶加工生成microRNA o pre-microRNA最显着的特点就是具有发夹结构。pre-microRNA特殊的发夹结构不仅能够使pre-microRNA与Exportin-5结合从而输出到细胞质,而且还是其与Dicer酶作用的必要结构。这两点就使得发夹结构对于microRNA和pre-microRNA都非常重要。根据microRNAs前体序列的碱基保守特征和二级结构特征,应用多样性增量方法（ID方法）和支持向量机（SVM）分析,以内含子区（intron）、外显子区（exon）、基因间区（intergenic）三类序列分别作为负集,对人类的pre-miRNAs进行分析和预测。当以intergenic区和intron区序列为训练负集时,其以二级结构三联体、四联体和五联体（3-mer、4-mer、5-mer）为特征参量的敏感性、特异性、整体精度都在89%以上,相关系数在0.7以上。

刘国庆^[7]（2009）在《减数分裂重组对二核苷偏好性及加工假基因分布的影响》文中研究说明进化论是整个生物学的指导思想。生命进化的物质基础是变异,而变异的主要来源是突变和重组。如果没有重组,只有突变发生时才能改变基因组,这无疑将大大降低生命进化的效率。减数分裂重组是真核细胞减数分裂过程中同源染色体之间遗传物质的交换。重组过程通过形成交叉对减数分裂期同源染色体的正确分离起到至关重要的作用。除此之外,重组可通过选择或突变的方式在基因组进化过程中扮演着很多重要角色。尽管随着许多真核基因组测序工作的完成和遗传图谱的不断完善,重组与序列之间的相互作用机理一直在被人们探索并发现,但由于重组与各种序列特征之间的相互影响在基因组这个大环境中显得尤为复杂,还有很多未知问题有待探索和解决。二核苷相对丰度谱是反映基因组整体水平上的选择压力或突变偏好性的“基因组指纹”,它在基因组进化研究、系统发生分析中发挥着独特而重要的作用。因此,揭示基因组指纹的形成与进化压力是基因组进化研究的重要内容之一。假基因是丧失蛋白质编码能力的基因拷贝,它从分子水平上记录了基因组序列数百万年的进化路线,为基因组动力学和进化研究提供了理想的材料。尤其,加工假基因由于其反转座起源而在基因组进化研究中备受青睐。揭示加工假基因分布中所蕴含的进化压力对基因组进化研究有重要意义。基于这一思路,本文主要研究了减数分裂重组对基因组序列二核苷偏好性及加工假基因分布和进化的影响,并对其机理性的问题进行了探讨。主要研究内容如下:1.在得到果蝇重组率数据的基础上,研究果蝇基因组中二核苷偏好性和重组率的相关性。结果发现,在整个基因组范围内编码和非编码序列的总体二核苷偏好性均与重组率显着正相关。我们给出了不同二核苷偏好性与重组率的关联模式,并讨论了重组与二核苷偏好性的相互作用机理。就重组如何影响二核苷偏好性这一问题,我们提出了一种新的解释模型,即重组可能通过一种在整个基因组范围内普遍存在的机制——依赖紧邻碱基的基因转换影响二核苷偏好性。2.利用高密度人类遗传图谱得到重组率数据的基础上,研究人类基因组中二核苷偏好性和重组率的关系。结果发现在整个基因组范围内编码序列的总体二核苷偏好性与重组率显着负相关,而对非编码序列来说却显着正相关。另外,给出了具体二核苷偏好性与重组率的关联模式,讨论了重组与二核苷偏好性的相互作用机理,并与果蝇基因组进行了比较。研究结果表明,重组对基因组指纹的形成与进化有着重要作用。3.传统的观点认为,加工假基因在染色体上的插入是随机的。然而,通过分析发现人类加工假基因密度与重组率负相关,这有以下几种可能的解释:重组抑制模型认为,加工假基因可能会通过降低同源染色体同源性的方式起到降低重组率的作用;有害插入模型认为,若加工假基因在染色体上的插入突变是有害的,则在低重组区由于Hill-Robertson干涉较多,选择效率降低,导致加工假基因偏好插入到低重组区;异位重组模型认为,加工假基因在低重组区的偏好分布是对高重组区同源加工假基因之间异位重组事件负选择的结果;弱选择模型认为,由于低重组区Hill-Robertson干涉较多,选择压力会使加工假基因偏好插入到低重组区来减少干涉,促进相邻基因或外显子之间的独立进化。我们还发现,加工假基因密度与基因密度正相关,有两种可能的解释:一、加工假基因在基因密区的插入可能具有选择优势,因为这种插入突变可能有助于提高弱选择位点间的重组频率,从而减少Hill-Robertson干涉并促进相邻基因或外显子的独立进化;二、相比基因分布稀少的区域,异位重组在基因密区较少发生,这可以导致加工假基因较多地保留在基因密区。4.重组抑制模型、有害插入模型、异位重组模型和弱选择模型均有可能解释人类加工假基因密度与重组率之间的负相关性。区分验证这些不同的模型具有重要意义。通过分析发现,相比其它加工假基因,具有异位重组潜能的加工假基因,即同源相邻加工假基因更加偏好分布于低重组区（0.0-0.4 cM/Mb）,差异检验也显示同源相邻加工假基因位点的重组率显着低于其它加工假基因重组率（P＜0.0001）,这表明同源相邻加工假基因的分布中存在异位重组效应。不具有异位重组潜能的加工假基因也具有偏好分布于低重组区的趋势,这表明加工假基因的分布中还存在与异位重组无关的效应。另外还发现较长的加工假基因更加偏好分布于低重组区的长度效应。

王芳平^[8]（2009）在《密码对的使用与基因组进化》文中研究说明密码子水平的生物信息学分析是研究基因组进化、蛋白质功能以及遗传和环境相互作用等课题中的一个重要环节。已知同义密码子的使用是非随机的。正如密码子的使用一样,两个紧邻的密码子,即密码对的使用也是高度偏好的,这种偏置现象在原核和真核生物中都广泛存在。为了探寻基因组中密码对使用的进化约束,本文分析了不同进化水平生物基因组密码对使用的规律,主要研究结果如下:1.以10种真核、60种细菌和40种古菌生物基因组为样本,分析了编码序列中密码对和基因间序列中三联体对的相对模式数随频数的分布（DNM）,验证了这种分布符合Γ（α,β）分布;通过研究Γ（α,β）分布的形状参数α值,发现其与生物基因组进化存在明显的相关性;编码序列与基因间序列的进化方式截然不同。对编码序列,从古菌、细菌到真核生物α值逐渐增大,即α值将生物分成三类:古菌,细菌,真核生物。对基因间序列,α值将生物分成两类:一类是细菌,另一类是古菌和真核生物。这个结果显示密码对上下文关系包含了生物进化的信息,暗示真核生物、细菌和古菌在调节基因组一级结构进化压力方面存在基本区别。2.提出了一种以密码对使用偏好性和密码对中二核苷酸频率分别构建系统发育树的基因组相似性分析方法。发现以40种模式生物基因组中密码对的二核苷酸频率构建的系统发育树,明显将生物按进化分成三类,即细菌,古菌,真核生物;用密码对使用偏好性为指标构建的系统发育树与基于密码对中二核苷酸频率的系统发育树基本一致。结果表明反映生命进化信息的密码对中二核苷酸组分是密码对偏好的决定因素之一。3.分析了基因组组分极其偏向的厌氧性粘菌和立克次氏体基因组中密码对的使用。发现它们前导链与滞后链密码对的使用偏好性存在差异。这表明密码对的搭配受到链的特异性影响。这些特性可能包括:基因方向性偏好、密码子使用偏好、密码子的前后文关系等。因此,造成以上两物种DNA双链间密码对使用不对称的原因可能是DNA链特异的突变偏好性和在复制、转录、翻译水平上的自然选择约束。4.鉴于伽玛分布的形状参数α值与基因组进化存在相关性,首先,以5种真核、15种细菌和10种古菌生物基因组为样本,对密码对使用偏好性指标,r与密码对随基因组进化的指标α之间作相关性分析,发现部分密码对的r值与α值之间有显着的线性关系。其次,分析了密码子第三位点与紧邻密码子第一位点的二核苷酸（cP3cA1）使用,结果表明这两个位点二核苷酸使用有显着差异。最后,分析了三类生物中密码对的偏好与稀有模式,发现它们都有各自偏好与稀有的密码对模式。以上结果进一步肯定了密码对的使用与基因组进化存在相关性。5.全面分析了厌氧性粘菌（Anaeromyxobacterdehalogenans2N-C）基因组中密码对的使用,发现其密码对的使用有很强的偏置,在全基因组中有5.2%的密码对模式是缺失的。分析结果表明其密码对的偏好性至少可能是三个方面的压力的结果:基因组局部及整体的GC含量,密码对中二核苷酸的组分,二肽的保守水平。

乌尼尔夫^[9]（2009）在《中国马业综合数据库的建立及马基因组序列预测》文中研究说明现代生物学的发展促进了生物信息学的产生。生物信息学是将信息学的理论技术应用于生物数据的管理和分析,是数学、物理学、计算机科学、化学、生命科学等多学科的交叉学科。生物信息学研究的范围十分广泛,其中数据库的构建就是一个重要方面。如何用理论和计算的方法识别和预测内含子和外显子也是目前生物信息学研究工作的重要任务。本课题通过自编程序建立了以中国马品种资源为主的中国马业综合数据库www.chinahorse.org.cn。并在建立数据库的基础上,初步实现了数据库应用,包括基于Web的文献数据库的网络化查询等。它将为建立马品种资源的科学研究平台打下基础。本研究的主要内容及结果如下:1.建立了专一化、系统化、完整化的马业科学数据库。序列数据库中以基因数据库和蛋白质数据库为主,非序列数据库以文献数据库和图片数据库为主。其中,马的基因数据库中的记录量超过了2万,马的蛋白质数据库的记录超过3万。2.建立了中国马物种资源数据库。涉及品种的外貌、类型、典型特征等多个性状,为从事中国物种品种遗传资源的利用与保护提供了参考。3.建立了马生物信息学研究平台。可以对基因和蛋白质进行相关生物信息学研究,对于进行科研和教学具有一定价值。4.建立了马业科学实验室网站与马业论坛。可以通过互联网进行数据库的检索,提高了数据库的应用效率。网站的建设还可以为数据库的更新带来方便,也为本研究领域内的交流与合作起到桥梁作用。本研究还通过对已发表的马全基因组序列的密码子使用频率做了初步的统计分析工作并对内含子和外显子进行了预测。基于各种序列组分的不同和序列首尾段的保守性,本研究利用离散增量结合支持向量机的方法对马基因组内含子和外显子序列进行识别。基于单碱基、二联体和三联体使用频率,我们能正确预测91%以上的内含子和外显子。

王炼红^[10]（2009）在《人工免疫优化与分类算法及其应用研究》文中研究表明人工免疫系统（AIS:Artificial Immune System）是一类基于生物免疫系统的功能、原理、基本特征以及相关理论免疫学说而建立的用于解决各种复杂问题的计算系统,是继人工神经网络、进化计算之后新的计算智能研究方向。本论文旨在深入探索和研究生物免疫系统中蕴含的进化学习机制,设计高效的人工免疫算法,并用其解决工业中的组合优化问题以及数据挖掘中的分类问题。本论文的主要研究工作包括以下几个方面:1.一般克隆选择算法（CSA）求解函数优化问题时,虽然表现出了比遗传算法更好的全局寻优能力,能有效克服遗传算法早熟现象。但是,在解决诸如背包问题等组合优化问题时收敛速度缓慢,解波动较大且难搜到最优解。为此,对一般克隆选择算法进行了改进,提出了带受体编辑的克隆选择算法（RECSA）。该算法受生物免疫系统机理的启发,不仅通过体细胞高频变异还引入了受体编辑操作实现亲和力的成熟,使抗体达到与抗原的高度匹配,同时增加一个历史至当前代最佳个体记忆单元防止种群退化。针对背包问题,采用贪婪策略和宽限边界值相结合的方式,对每代抗体群进行受体编辑操作。在对背包问题的两个算例求解中表明:与一般CSA算法和遗传算法相比,RECSA算法能提高种群质量和算法的收敛速度,在随机搜索期望最优值方面能力更强,而且算法更加稳定可靠,鲁棒性更好。2.针对组合优化问题,建立了一般CSA和RECSA算法的有限时齐马尔可夫链模型,定义了种群状态并构造了马尔可夫链的状态转移矩阵,然后采用马尔可夫链理论对两算法的收敛性进行了证明。理论推导表明,当迭代次数趋于无穷大时,马尔可夫链中的任意种群初始态是以概率1收敛到最优态,即至少有一个最优解能被寻到。最后,采用马尔可夫链平均吸收时间定理,证明了RECSA算法的平均收敛代数小于一般的CSA的平均收敛代数,从理论上说明了RECSA算法的收敛速度更快。3.为了说明RECSA算法解决组合优化问题的普遍有效性,我们将其用于组播路由问题当中。针对时延受限的组播路由,根据代价最小化原则和延时要求对个体的基因片段进行两次受体编辑,采用RECSA算法对其进行求解表明,在无需先求解备选路径的情况下能快速找到最优解,算法复杂度低且稳定可靠。本文还将RECSA算法用于解决组播路由的QoS问题,在首先满足延时约束的条件下,再综合考虑延时、带宽、代价这三个性能指标,引入了一个参数Q来衡量组播路由综合性能,使算法在这三者之间进行权衡约束,克服了目前传统的组播路由算法的一种性能参数的改善是以另一种或几种性能参数的退化作为代价,过于厚此薄彼的作法。仿真实验表明:该算法收敛速度快,能从整体上把握组播路由的综合性能,大大改善了组播路由的服务质量。将该算法用于长沙移动网的LAC优化中,实现了在不增减LAC区的情况下尽量减小LAC区边界处位置更新次数。4.从免疫进化网络理论着手,在研究了aiNET聚类模型和AIRS、AINMC等分类算法基础上,提出了基于免疫进化网络理论的分类器（IENC）。该算法主要采用记忆细胞池间与记忆细胞池内的两次网络抑制操作来改善网络结构,使记忆细胞在特异性与“通用性”之间得到平衡,从而提高分类准确率。对UCI中的Iris、Ionospere、Sonar和Pima的四个标准数据集的测试表明, IENC分类器比AIRS和AINMC更好,分类准确率更高。5.最后,将IENC分类器用于DNA序列和电能质量扰动分类中同样得到了比较满意的分类准确率。以上测试中,分类器的亲和力度量均采用常用的欧式距离。而在DNA序列的分类中发现, DNA序列的特征提取和亲和力度量方法对分类性能有较大影响。为此,对算法进行改进,采用离散增量度量亲和力,所获得的分类器泛化性能更好,能更好地衡量序列之间的相似性,将其用于线虫、酵母和拟南芥三类模式生物基因的识别中获得了更好的分类准确率。

二、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文提纲范文）

（1）人类五种DNA序列8-mer频谱和CpG岛序列结构单元分析（论文提纲范文）

摘要

abstract

第一章绪论

1.1 DNA序列中k-mer的研究进展

1.2 CpG岛序列

1.2.1 CpG岛序列的特征

1.2.2 CpG岛序列的研究现状

1.3 课题研究背景

1.4 论文结构安排

第二章人类基因组序列独立选择规律的定量化表征

2.1 数据集合

2.2 研究方法

2.2.1 8-mer频谱

2.2.2 XY二核苷分类方法

2.2.3 8-mer频谱的平均值和标准差

2.2.4 频谱分离度和保守度

2.3 人类全基因组序列8-mer频谱分布的内在规律

2.3.1 全体8-mer频谱

2.3.2 XY子集8-mer频谱

2.4 基因组中五类序列的8-mer频谱

2.5 独立选择现象的定量表征

2.6 总结与讨论

第三章人类CpG岛序列的结构单元分析

3.1 CpG岛序列数据集合

3.2 研究方法

3.3 CpG岛序列基本特征

3.3.1 CpG岛序列的长度分布

3.3.2 CpG岛序列的G+C含量分布

3.4 CpG岛序列中结构单元的尺度分布

3.5 CpG岛序列中结构单元之间的距离分布

3.6 总结与讨论

第四章人类五种DNA序列8-mer使用频率的差异分析

4.1 数据与研究方法

4.1.1 数据集合

4.1.2 相对频次

4.1.3 差异比较方法

4.2 不同序列中8-mer使用频次的差异分布

4.3 不同序列中8-mer使用频次的偏好度分布

4.4 不同序列中8-mer使用频次差异的离散度

4.5 总结与讨论

第五章总结与展望

5.1 总结

5.2 展望

参考文献

致谢

（2）F-box基因在动物中的进化和群体遗传学研究（论文提纲范文）

摘要

Abstract

第一章文献综述

1.1 泛素–蛋白酶体系统（ubiquitin–proteasome system,UPS）

1.1.1 泛素化信号通路

1.1.2 E3的种类

1.1.3 F-box蛋白的结构

1.1.4 F-box蛋白的分布

1.1.5 F-box蛋白的功能

1.2 重复基因的分子进化机制

1.2.1 基因重复在基因组进化中的重要作用

1.2.2 重复基因的产生方式

1.2.3 重复基因的分化方式

第二章灵长总目中F-box基因家族的进化

2.1 材料和方法

2.1.1 灵长总目的8个基因组中F-box基因的识别

2.1.2 系统发育分析

2.1.3 基因获得与丢失事件及其机制

2.1.4 选择压力分析

2.2 结果与分析

2.2.1 F-box蛋白及其结构域组成的确定

2.2.2 直系同源组的划分

2.2.3 F-box基因数目的变异和其机制

2.2.4 直系同源基因的序列分歧和区域、种系特异性的正选择

2.2.5 单个位点的分子适应性进化及其对功能的影响

2.3 讨论

2.3.1 F-box基因数目的进化保守性和变异

2.3.2 F-box蛋白C端结构域经历了适应性正选择

2.3.3 动植物中F-box基因的比较

第三章线虫属F-box基因家族的进化

3.1 材料和方法

3.1.1 数据下载

3.1.2 线虫属的基因组中F-box基因和所含结构域的预测

3.1.3 F-box基因同源关系的确定

3.1.4 F-box基因数目的变异及其机理的确定

3.1.5 F-box并系同源基因结构的分化

3.1.6 F-box基因功能的分化

3.2 结果与分析

3.2.1 线虫属中F-box基因的预测和蛋白结构域的确定

3.2.2 F-box基因并系同源组和直系同源组的确定

3.2.3 新杆状线虫属进化过程中F-box基因数目变化及其机制

3.2.4 F-box基因并系同源基因的基因结构分化

3.2.5 F-box基因功能的分化

3.3 讨论

3.3.1 新杆线虫属中F-box基因识别方法的评估

3.3.2 F-box基因数目在物种内和物种间的剧烈变化

3.3.3 新杆状线虫属F-box基因结构和功能的分化

第四章人类E3泛素连接酶的群体遗传学研究

4.1 材料和方法

4.1.1 人类基因组中E3泛素连接酶基因的预测和搜集

4.1.2 人类群体中E3基因包含的SNP数据的获得

4.1.3 E3基因所受选择压力的分析

4.2 结果与分析

4.2.1 人类基因组中E3基因的数目和所包含的结构域

4.2.2 人类群体中E3基因包含的SNP数目和分布

4.2.3 E3基因所受自然选择压力的分析

4.3 讨论

4.3.1 亚群间E3基因的单核苷酸多样性的差异

4.3.2 E3基因进化过程中受到的选择压力

第五章牛FBXO32基因的多态性及与生长性状的关联

5.1 实验材料和方法

5.1.1 基因组DNA样品和数据的获取

5.1.2 单核苷酸多态性的检测和基因分型

5.1.3 统计分析

5.2 结果和讨论

5.2.1 FBXO32基因在7个牛群体中的遗传多样性

5.2.2 连锁不平衡和单倍型分析

5.2.3 关联分析

第六章总结和展望

参考文献

附录

致谢

个人简历

（3）基于数字信号处理理论和方法的外显子预测研究（论文提纲范文）

摘要

Abstract

第一章绪论

第一节选题意义

第二节外显子预测研究现状

1.2.1 基于数据库的外显子预测方法

1.2.2 基于数字信号处理的外显子预测方法

1.2.3 外显子预测存在的问题

第三节主要内容与论文结构

第二章生物学背景和DNA的数值映射

第一节引言

第二节生物学背景

2.2.1 基因和遗传学的早期发展

2.2.2 了解基因组

2.2.3 DNA的分子基础

第三节 DNA的数值映射方法

2.3.1 DNA数值表达机制

2.3.2 论文采用的DNA数值映射方法

第四节本章小结

第三章基于DSP技术的外显子预测方法

第一节引言

第二节基于DSP的真核生物外显子预测方法

3.2.1 基于DFT的外显子预测方法

3.2.2 基于反陷滤波器的外显子预测方法

3.2.3 基于核苷酸分布的外显子预测方法

3.2.4 基于修改Gabor小波的外显子预测方法

第三节总结与讨论

3.3.1 DNA数值映射

3.3.2 窗口系统

3.3.3 分析工具

3.3.4 分类

第四节本章小结

第四章基于奇异点检测算法的外显子预测

第一节引言

第二节小波变换理论

4.2.1 从傅里叶变换到小波变换

4.2.2 小波变换

4.2.3 基于小波变换模极大值的奇异点检测

第三节基于奇异点检测算法的外显子预测

4.3.1 DNA序列的TBP功率谱与核苷酸在密码子位置上分布的关系

4.3.2 奇异点检测算法

4.3.3 基于奇异点检测算法的真核生物外显子的预测

4.3.4 实验结果与分析

第四节本章小结

第五章基于经验模态分解和修改Gabor小波的外显子预测

第一节引言

第二节经验模态分解的基本原理

第三节基于EMD与修改Gabor小波的外显子预测

5.3.1 准备工作

5.3.2 基于EMD-MGWT的外显子预测方法

5.3.3 实验结果与分析

第四节本章小结

第六章结论与展望

第一节结论

第二节展望

参考文献

致谢

个人简历、在学期间发表的学术论文与科研工作

（4）核小体结合模体的预测及它们在人类基因功能位点附近的分布（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 引言

1.2 研究背景

1.2.1 染色质及核小体结构

1.2.2 核小体定位

1.2.3 核小体绘制图谱的简明历史

1.2.4 核小体在基因组上的分布与基因转录调控

1.2.5 基因组序列的k-mer分布

1.3 论文结构

第二章研究方法

2.1 理论支持

2.1.1 正态分布

2.1.2 基因组序列k-mer的非正态分布

2.2 基因组序列的k-mer分布

2.3 相对频数的计算

2.4 模体偏好的定义

2.5 生物统计学方法

2.5.1 聚类分析

2.5.2 差异检验

2.5.3 相关分析

第三章核小体结合模体的理论预测

3.1 数据集

3.2 结果与讨论

3.2.1 基因组序列的k-mer分布

3.2.2 8-mer在基因组上的平均密度

3.2.3 模体的结构特征

3.2.4 与核小体定位实验数据的比较

3.2.5 部分模体的文献支持

3.2.6 结论

第四章核小体结合模体的分布

4.1 数据集

4.2 结果与讨论

4.2.1 转录起始位点附近的分布

4.2.2 转录终止位点附近的分布

4.2.3 起始和终止密码子附近的分布

4.2.4 内含子和外显子结合处附近的分布

4.2.5 功能位点附近GC和AG含量

4.2.6 非编码基因转录边界附近的分布

4.2.7 不同序列上的距离分析

4.2.8 酵母转录边界附近的分布

4.3 结论

第五章核小体结合模体在看家基因功能位点附近的分布

5.1 数据集

5.2 结果与讨论

5.2.1 核小体结合模体的分布

5.2.2 功能位点附近8-mer比例

5.2.3 核小体结合模体的频数统计

5.2.4 单条基因上的分布

第六章不同功能位点附近核小体结合模体的差异

6.1 数据集

6.2 结果与讨论

6.2.1 功能位点的偏好模体

6.2.2 功能位点的特异模体

6.2.3 模体出现频率的相关性

6.2.4 结论

第七章总结与展望

7.1 本文工作总结

7.2 工作展望

参考文献

附录

致谢

作者攻读博士学位期间发表和完成的论文目录

（5）应用离散增量方法识别人类MicroRNAs前体序列（论文提纲范文）

1 数据与方法

1.1 数据

1.2 方法与参数选取

1.2.1 参数选取

1.2.2 多样性增量方法 (ID方法)

2 结果

3 讨论

（6）应用多样性增量方法识别人类基因组microRNA前体序列（论文提纲范文）

摘要

ABSTRACT

第一章绪论

1.1 研究课题的背景

1.2 microRNA的生物学背景和生物学知识

1.2.1 microRNA的发现

1.2.2 microRNA的合成机制

1.2.3 microRNA的生物学特性

1.2.4 microRNA的作用机制

1.2.5 microRNA与siRNA

1.2.6 microRNA的功能

1.2.7 microRNA与肿瘤

1.3 microRNA的研究方法

1.3.1 microRNA的生物信息学分析

1.3.2 microRNA靶标的生物信息学分析

第二章理论预测模型与评价

2.1 多样性和多样性增量

2.1.1 多样性

2.1.2 多样性增量

2.2 支持向量机

2.3 预测结果的评价

第三章人类基因组中pre-microRNA序列的预测

3.1 数据库

3.2 参数定义

3.3 结果

3.4 讨论

3.5 展望

参考文献

致谢

攻读硕士学位期间发表的学术论文

（7）减数分裂重组对二核苷偏好性及加工假基因分布的影响（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 引言

1.2 研究背景

1.2.1 减数分裂重组

1.2.2 重组作用

1.2.3 二核苷偏好性

1.2.4 假基因

1.3 论文结构

第二章研究方法

2.1 遗传图谱与重组率

2.1.1 遗传图谱的构建

2.1.2 重组率计算

2.2 二核苷偏好性度量

2.3 加工假基因密度

2.4 密码子使用偏好性

2.5 基因表达水平

2.6 生物统计学方法

2.6.1 相关分析

2.6.2 差异检验

第三章果蝇基因组中重组对二核苷偏好性的影响

3.1 数据集

3.2 统计分析

3.3 结果与讨论

3.3.1 总体二核苷偏好性与重组率

3.3.2 具体二核苷偏好性与重组率

3.3.3 单链或双链二核苷偏好性

3.3.4 为何二核苷偏好性与重组率相关?

3.3.5 二核苷偏好性与重组率关系中的启示

第四章人类基因组中重组对二核苷偏好性的影响

4.1 数据集

4.2 统计分析

4.3 结果与讨论

4.3.1 二核苷偏好性与重组率

4.3.2 单链或双链二核苷偏好性

4.3.3 如何解释二核苷偏好性与重组率之间的相关性?

4.3.4 结论

第五章人类加工假基因分布、重组率和基因分布

5.1 数据集

5.2 统计分析

5.3 结果与讨论

5.3.1 加工假基因在染色体上的局域分布

5.3.2 加工假基因在不同染色体上的分布

5.3.3 加工假基因在X染色体和常染色体上的分布差异

5.3.4 加工假基因进化与重组率

5.3.5 加工假基因为何偏好分布在低重组区?

5.3.6 加工假基因为何偏好分布在基因密集区?

第六章异位重组模型的检验

6.1 数据集

6.2 研究方案

6.3 结果与讨论

第七章总结与展望

参考文献

附录

致谢

作者攻读博士学位期间发表和完成的论文目录

（8）密码对的使用与基因组进化（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 引言

1.2 研究背景

1.2.1 遗传密码的特点

1.2.2 同义密码子使用偏好性及其生物学基础

1.2.3 遗传密码子的集中研究

1.2.4 衡量同义密码子偏好性的指标

1.2.5 密码对偏好使用的研究现状

1.2.6 生物进化的二界论与三域学说

1.3 论文的研究内容与安排

第二章理论方法

2.1 密码对相对模式数随频数的分布和分布模型拟合理论

2.1.1 编码序列与基因间序列的选取方法

2.1.2 密码对的频数

2.1.3 三联体对的频数

2.1.4 密码对相对模式数随频数的分布(DNM)

2.1.5 密码对相对模式数随频数分布的拟合方法

2.1.6 伽玛分布函数

2.1.7 密码对和三联体对相对频数的定义

2.1.8 拟合优度检验

2.2 基于密码对使用模式的基因组相似性分析方法

2.2.1 两样本间距离的定义

2.2.2 类与类间距离的定义

2.2.3 系统聚类方法

2.3 密码对使用在DNA双链上的不对称性分析方法

2.3.1 密码对使用偏好性指标的定义

2.3.2 DNA双链密码对使用偏好性差异指标的定义

2.4 线性相关分析

第三章密码对的相对模式数分布与基因组进化

3.1 数据资料

3.2 分析方法

3.2.1 密码对(或三联体对)相对模式数随频数的分布

3.3 结果和讨论

3.3.1 密码对和三联体对相对模式数随绝对频数分布的拟合结果

3.3.2 密码对和三联体对相对模式数随相对频数分布的拟合结果

3.4 结论

第四章基于密码对使用的基因组相似性研究

4.1 数据资料

4.2 分析方法

4.2.1 基于密码对中二核苷酸的聚类

4.2.2 基于密码对使用偏好性的聚类

4.3 结果与讨论

4.3.1 基于密码对中二核苷酸频率的聚类结果

4.3.2 基于密码对使用偏好性的聚类结果

4.3.3 增加物种之后的聚类结果

4.4 总结

第五章 DNA双链密码对使用的不对称性

5.1 数据资料

5.2 分析方法

5.3 结果与讨论

5.3.1 前导链和滞后链上密码对使用偏好性的差异

5.3.2 前导链和滞后链上未出现的密码对模式

5.4 总结

第六章密码对的偏倚与基因组进化的线性相关分析

6.1 数据资料

6.2 分析方法

6.3 结果与讨论

6.3.1 密码对偏好性参数r值和基因组进化参数α值两者线性拟合结果

6.3.2 密码子第三位点与紧邻密码子第一位点的二核苷酸使用

6.3.3 古菌、细菌和真核三类生物密码对的偏好与稀有模式

6.4 总结

第七章厌氧性粘杆菌基因组中密码对的使用

7.1 数据资料

7.2 分析方法

7.3 结果与讨论

7.3.1 密码对的使用偏好性

7.3.2 密码对各个位点上二核苷酸的分布

7.3.3 密码子第三位点的GC含量与密码对的偏好性

7.3.4 偏好密码对与稀有密码对中二核苷酸使用

7.3.5 基因组中二肽的偏好性对密码对偏好性的影响

7.4 总结

第八章总结与展望

参考文献

附录

攻读博士学位期间发表和完成的论文目录

致谢

（9）中国马业综合数据库的建立及马基因组序列预测（论文提纲范文）

摘要

Abstract

1 绪论

1.1 马业科学简介

1.1.1 马属动物及其分类

1.1.2 马业科学及其研究内容

1.2 生物信息学概述

1.2.1 生物信息学的定义及其主要研究内容

1.2.2 生物信息学的发展

1.2.3 生物信息学的重要性

1.3 生物学数据库

1.3.1 数据库基本知识

1.3.2 数据库管理系统（DBMS）

1.3.3 数据库处理系统与文件处理系统的区别

1.3.4 关于数据库定义的说明

1.3.5 生物数据库的分类及其基本数据库

1.4 本研究的目的与意义

1.4.1 本研究的目的

1.4.2 本研究的意义

2 研究一中国马业综合数据库的建立

2.1 引言

2.1.1 www.chinahorse.org.cn—马业科学数据库的网络化实践

2.1.2 ASP

2.1.3 IIS

2.1.4 超文本传输协议

2.1.5 ASP 访问数据库

2.1.6 Microsoft SQL Server

2.2 材料与方法

2.2.1 中国马业综合数据库的栏目分类

2.2.2 马文献资料数据库的建立

2.2.3 马基因和蛋白质信息库数据库的建立

2.2.4 中国马遗传资源数据库的建立

2.2.5 中国马业综合数据库网站的建立

2.3 结果与分析

2.3.1 马业科学数据库大小

2.3.2 中国马遗传资源资源数据库

2.3.3 马业科学数据库的录入

2.3.4 马业科学数据库的检索系统

2.3.5 马业科学实验室网站

2.3.6 马生物信息学研究平台

2.3.7 马业论坛

2.3.8 数据的网络更新和提交

2.4 讨论

2.4.1 与此数据库的前身www.mayekexue.com.cn 的比较

2.4.2 马业科学数据库的安全

2.4.3 马业科学数据库的可扩展性和可维护性

2.4.4 马业科学数据库的应用前景及其功能作用

2.4.5 需要进一步研究和解决的问题

2.5 小结

3 研究二马染色体中碱基使用频率的分析及内含子和外显子序列特征分析与预测

3.1 数据集

3.1.1 马全基因序列的数据库的构建

3.1.2 马基因组内含子和外显子序列特征分析与预测数据集

3.2 碱基使用频率研究方法

3.2.1 单碱基使用频率定义

3.2.2 二联体使用频率定义

3.2.3 三联体使用频率定义

3.2.4 密码子偏好性定义

3.3 内含子和外显子预测方法

3.3.1 离散量与离散增量

3.3.2 支持向量机

3.3.3 预测成功率评价指标

3.4 结果

3.4.1 马染色体中碱基使用频率的分析

3.4.2 内含子和外显子预测结果

3.5 讨论

3.5.1 密码子的使用频率

3.5.2 关于马基因组内含子和外显子的预测

3.6 小结

致谢

参考文献

作者简介

（10）人工免疫优化与分类算法及其应用研究（论文提纲范文）

摘要

Abstract

插图索引

附表索引

第1章绪论

1.1 研究背景

1.1.1 人工免疫系统的发展

1.1.2 人工免疫系统与进化计算及人工神经网络的区别

1.1.3 人工免疫系统研究内容和现状

1.1.4 最优化与分类问题

1.2 课题目的与意义

1.3 研究的主要工作、方法和内容安排

第2章人工免疫系统的生物机理

2.1 生物免疫研究的发展历史

2.2 免疫学基本概念

2.3 免疫系统的组成与免疫应答

2.3.1 生物免疫系统的组成

2.3.2 免疫系统的应答

2.4 免疫系统机制与原理

2.4.1 阴性选择与自体耐受

2.4.2 克隆选择与扩增

2.4.3 免疫系统多样性

2.4.4 免疫系统形态空间理论

2.4.5 免疫独特型网络理论

2.4.6 免疫反馈

2.5 生物免疫系统的主要特点

2.6 AIS 中的免疫机理

2.7 本章小结

第3章带受体编辑的克隆选择算法

3.1 克隆选择算法

3.2 求解多模态函数优化的遗传算法

3.3 基于CSA 和GA 的多模态函数优化求解

3.3.1 多模态函数优化问题

3.3.2 仿真结果与分析

3.4 带受体编辑的克隆选择算法

3.4.1 RECSA 算法描述

3.4.2 RECSA 求解0-1 背包问题

3.5 算法收敛性分析

3.5.1 马尔可夫链

3.5.2 算法收敛性证明

3.5.3 收敛速度分析

3.6 本章小结

第4章 RECSA 在网络组播路由与无线网优中的应用

4.1 组播技术

4.1.1 组播概念

4.1.2 组播路由的特点

4.1.3 组播路由协议

4.2 组播树理论基础

4.2.1 Steiner 树的数学描述

4.2.2 Steiner 树在计算机网络中的应用

4.2.3 Steiner 树启发式算法

4.2.4 网络模型

4.3 QoS 组播路由问题

4.3.1 QoS 的定义

4.3.2 QoS 组播路由问题的数学模型

4.3.3 QoS 度量

4.4 RECSA 在时延受限组播路由中的应用

4.4.1 时延受限组播路由问题的数学描述

4.4.2 基于RECSA 的时延受限组播路由算法

4.5 基于RECSA 的整体优化组播路由算法

4.5.1 算法实现

4.5.2 算法仿真结果与分析

4.6 RECSA 在LAC 优化中的应用

4.6.1 位置区基本概念及问题

4.6.2 位置区寻呼容量与边界的划分

4.6.3 基于RECSA 的长沙网络LAC 优化

4.7 本章小结

第5章基于免疫网络理论的分类算法

5.1 aiNet 模型

5.2 AIRS 分类器

5.3 AINMC 分类器

5.4 基于免疫进化网络理论的分类器

5.4.1 IENC 分类器的构造

5.4.2 IENC 分类器与其它算法的区别

5.4.3 分类器测试

5.5 本章小结

第6章基于免疫进化网络理论分类器的应用

6.1 IENC 分类器在DNA 序列中的应用

6.1.1 数据准备与处理

6.1.2 仿真结果

6.2 分类器在模式生物基因序列识别中的应用

6.2.1 离散量与离散增量

6.2.2 基于离散增量的免疫分类器构造

6.2.3 基于离散增量的免疫分类器在模式生物中的应用

6.3 分类器在电能质量扰动分类中的应用

6.3.1 基于S 变换的电能质量扰动检测

6.3.2 特征值提取

6.3.3 仿真实验结果及分析

6.4 本章小结

结论

参考文献

致谢

附录 A 攻读博士学位期间发表的学术论文

附录 B 攻读博士学位期间参与的科研课题

四、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文参考文献）

[1]人类五种DNA序列8-mer频谱和CpG岛序列结构单元分析[D]. 吴苑. 内蒙古大学, 2020(01)
[2]F-box基因在动物中的进化和群体遗传学研究[D]. 王爱兰. 西北农林科技大学, 2015(01)
[3]基于数字信号处理理论和方法的外显子预测研究[D]. 张晓磊. 南开大学, 2014(07)
[4]核小体结合模体的预测及它们在人类基因功能位点附近的分布[D]. 包通拉嘎. 内蒙古大学, 2013(11)
[5]应用离散增量方法识别人类MicroRNAs前体序列[J]. 高智红,张利绒,罗辽复. 内蒙古大学学报(自然科学版), 2010(06)
[6]应用多样性增量方法识别人类基因组microRNA前体序列[D]. 高智红. 内蒙古大学, 2010(01)
[7]减数分裂重组对二核苷偏好性及加工假基因分布的影响[D]. 刘国庆. 内蒙古大学, 2009(04)
[8]密码对的使用与基因组进化[D]. 王芳平. 内蒙古大学, 2009(04)
[9]中国马业综合数据库的建立及马基因组序列预测[D]. 乌尼尔夫. 内蒙古农业大学, 2009(09)
[10]人工免疫优化与分类算法及其应用研究[D]. 王炼红. 湖南大学, 2009(01)

标签：基因组论文; 外显子论文; 基因结构论文; 假基因论文; 核小体论文;

一种用于预测线虫和酵母基因组中内含子、外显子和基因间序列的离散增量方法

一、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文文献综述）

二、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文提纲范文）

（1）人类五种DNA序列8-mer频谱和CpG岛序列结构单元分析（论文提纲范文）

（2）F-box基因在动物中的进化和群体遗传学研究（论文提纲范文）

（3）基于数字信号处理理论和方法的外显子预测研究（论文提纲范文）

（4）核小体结合模体的预测及它们在人类基因功能位点附近的分布（论文提纲范文）

（5）应用离散增量方法识别人类MicroRNAs前体序列（论文提纲范文）

（6）应用多样性增量方法识别人类基因组microRNA前体序列（论文提纲范文）

（7）减数分裂重组对二核苷偏好性及加工假基因分布的影响（论文提纲范文）

（8）密码对的使用与基因组进化（论文提纲范文）

（9）中国马业综合数据库的建立及马基因组序列预测（论文提纲范文）

（10）人工免疫优化与分类算法及其应用研究（论文提纲范文）

四、预测线虫和酵母基因组中内含子、外显子及基因间序列的离散增量方法（论文参考文献）

猜你喜欢