重叠群论文_胡庆一

导读:本文包含了重叠群论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:染色体,芥菜,油菜,数据,群组,算法,基因。

重叠群论文文献综述

胡庆一[1](2018)在《芥菜型油菜B03染色体黄籽基因区域BAC重迭群的延伸及全长测序》一文中研究指出黄籽油菜含油量更高,油质好,深受消费者喜爱,是目前育种家研究的热点,但其分子机理研究仍需进一步明确。本实验室对芥菜型黄籽油菜进行了多年相关研究,已将黄籽相关基因TT8定位在A09染色体和B03染色体。并构建了A09染色体BAC重迭群。为了进一步研究B03染色体黄籽区域,明晰其分子机理,对黄籽油菜育种提供参考。本研究以紫叶芥构建的全基因组BAC文库为材料,并构建了一、二、叁级BAC文库质粒混池,通过PCR法以定位在B03染色体上的SSR标记引物CB10298、TT8基因等标记为基点,以芥菜型油菜参考基因组序列和紫叶芥GSS序列为参考构建芥菜型油菜黄籽区域BAC重迭群,并对部分BAC进行了全长测序。取得了以下结果:1.利用标记CB10298,以及以上两个重迭群边缘的BAC末端序列开发的引物,同时利用芥菜型油菜参考基因组构建的紫叶芥GSS假分子每隔30~50Kb设计一个引物,进行BAC重迭群的延伸,累计设计引物350对,筛选BAC210个,构建了两个BAC重迭群,覆盖B03染色体3Mb。2.两个重迭群比对在芥菜型油菜参考基因组B03染色体56.5Mb~63.5Mb之间。其中黄籽性状相关基因TT8基因并没有组装到B03染色体上,而是比对在了00428scaffold上。通过分析参考基因组B03染色体的序列发现在59.1Mb~60.4Mb和60.5Mb~60.8Mb,以及61.5~62.7Mb的序列全部为N。以标记SY15_5263为起点延伸的重迭群,跨过了61.5~62.7Mb这段区域。3.挑选了两个重迭群中33个BAC进行全长测序,并进行了注释。为芥菜型油菜B03染色体黄籽区域基因挖掘与研究以及B03染色体参考基因组黄籽区域的精确组装提供了帮助。(本文来源于《湖南农业大学》期刊2018-06-01)

刘云[2](2016)在《不平衡数据的模糊聚类算法研究及在宏基因组重迭群分类中的应用》一文中研究指出不平衡数据集是指类与类之间的尺寸、样本个数以及样本密度等参数差别很大,这种数据类型存在于很多实际的问题中,例如医学疾病数据、网络异常数据、宏基因组数据等。对这些不平衡数据集,利用传统的无监督分类方法,如模糊c均值算法进行聚类,效果并不理想。到目前为止,绝大部分关于不平衡数据的分类研究都集中在有监督分类领域。因此,研究并改善传统的无监督分类方法对不平衡数据的聚类性能,对进一步完善不平衡数据的分类研究、扩大传统无监督分类方法的适用范围,具有十分重要的意义。本文以模糊c均值算法(fuzzy c-means method,FCM)为基础,重点研究利用该方法对不平衡数据进行聚类分析时所涉及的几个关键问题,并将研究成果应用于宏基因组DNA重迭群的无监督分类,具体研究内容如下:(1)提出一种基于聚类体量约束的模糊c均值算法传统FCM算法对不平衡数据聚类效果不理想的根本原因是其使用了一种平方和形式的代价函数,最小化该代价函数将使得聚类结果中各类间的样本数量相近。因此,在不平衡数据的聚类结果中,一部分来自多数类的样本会被误分到其相邻的少数类中。为了解决此问题,本文提出一种基于聚类体量约束的模糊c均值算法,该算法在考虑各个类的体量(类的体量是指所有样本对于某一类的隶属度值之和,可用来衡量类的大小)的基础上构造了一个新的代价函数,该代价函数在聚类结果中允许少数类的存在,从而改善了传统的FCM算法对不平衡数据的聚类性能。同时,对平衡数据,该算法具有与传统FCM算法相同的聚类性能。(2)提出一种基于聚类体量约束的模糊c-harmonic均值算法针对传统FCM算法因对初值敏感而易陷入局部最优的缺陷,在(1)中所提算法的基础上,结合c-harmonic均值算法,提出了一种基于聚类体量约束的模糊c-harmonic均值算法,该算法对初值不敏感,同时对不平衡数据具有良好的聚类性能。(3)提出一种新的适用于不平衡数据的聚类准则函数在无监督分类中,确定聚类个数十分重要。利用FCM算法进行聚类分析时,需要预先设定聚类个数。确定聚类个数的一般方法为:分别以不同的聚类个数运行若干次FCM算法,再用一个事先定义的函数从中确定最优的聚类结果,该函数一般称为聚类准则函数(clustering validity index,CVI)。现有的CVI一般是通过计算各个类内的聚合度以及类间的分离度来评价聚类结果。然而,在不平衡数据中,类间的尺寸会影响聚合度的评价效果。基于此,本文通过考虑聚类体量定义了一个新的类内聚合度,并结合传统类间分离度,提出一种新的聚类准则函数。该函数不仅可以有效地评价不平衡数据的聚类结果,而且对于平衡数据也具有良好的评价性能。(4)研究基于不平衡数据分析的宏基因组重迭群分类宏基因组学利用新一代测序技术在不经过实验室培养的情况下,能够获取环境中绝大部分的遗传物质。与传统的测序方法不同,宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重迭关系可以将这些零碎的短片段组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重迭群(contigs)。将这些重迭群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。然而,受宏基因组中不同物种间的丰度比、基因组长度等因素的影响,组装后属于不同物种的重迭群数量往往相差很多,因此,宏基因组重迭群数据是一种典型的不平衡数据集。如何对其进行有效地分类,是目前的一个研究难点。为了提高宏基因组重迭群的分类精度,本文利用上述研究成果对宏基因组重迭群进行基于不平衡数据的聚类分析。首先,根据已有细菌的全基因组长度以及宏基因组的平均覆盖率来估计宏基因组中的物种个数区间;其次,提取DNA重迭群的数字特征向量;最后,利用基于聚类体量约束的模糊c-harmonic均值算法和适用于不平衡数据的聚类准则函数完成重迭群的分类。与现有的重迭群无监督分类方法相比,该方法具有更好的分类效果。综上,本文进行了系统的面向不平衡数据的无监督分类研究,提出了从初值选取、无监督分类到聚类准则函数的完整的、适用于不平衡数据的算法体系,并将以上算法应用到宏基因组重迭群分类中,取得了比现有方法更好的分类效果。(本文来源于《吉林大学》期刊2016-12-01)

徐海鹏,刘显军,陆赢,马鹏,胡庆一[3](2016)在《芥菜型油菜B03染色体黄籽基因区域BAC重迭群的构建及分析》一文中研究指出在前人研究中,芥菜型黄籽基因被定位到B03连锁群的1.5 c M区域内。本试验利用与B03染色体控制黄籽基因区域紧密连锁的unigene(通过RNA_seq技术获得的芥菜型油菜种皮的非冗余基因)和BESs开发标记,并对芥菜型油菜作图群体亲本紫叶芥BAC文库(ZBju H BAC文库)进行筛选,由开发的320对引物共筛到BAC920个,对其中483个BACs进行了末端测序,返回序列860条。构建了6段芥菜型油菜B03染色体黄籽区域BAC重迭群,共计长约3.3 Mb;通过BES blast分析表明,在B03染色体黄籽区域与A03、A09染色体存在高度的重复序列。(本文来源于《作物研究》期刊2016年04期)

徐海鹏[4](2016)在《芥菜型油菜B03染色体黄籽基因区域BAC重迭群的构建及分析》一文中研究指出油菜根据其种皮颜色可分为黄籽油菜,黑籽油菜,褐籽油菜。相比较而言,在相同遗传背景下,黄籽油菜比黑籽油菜在油质,含油量,纤维素含量,蛋白质含量和菜饼饲用等方面更具有优势。所以黄籽油菜在现代油菜改良育种中占有重要位置。在先前研究中,已将芥菜型油菜黄籽基因定位到A09和B03两个连锁群。本试验通过已构建好的芥菜型油菜的基因组文库,利用与B03染色体黄籽基因区域紧密连锁的标记B15_33151,B15_3884,Ni4F11, B15_39736,ST8,SY15_5263等通过PCR步移筛选法构建芥菜型油菜B03连锁群黄籽基因区域的BAC重迭群。本试验利用测得目的基因区域的BAC末端序列设计了219对STS引物;另外,利用芥菜型油菜unigene(通过RNA_seq技术获得的芥菜型油菜种皮的非冗余基因)序列设计36对引物;利用芥菜型基因组Survey序列设计41对引物;另外还合成了15对IP标记引物。并用近等基因系对部分标记进行了多态性分析,检测标记是否与目的性状连锁通过筛选ZBjuH文库共计获得BAC克隆640个,对其中435个进行了末端测序,得到BAC末端序列866条。分别利用与芥菜型油菜B03染色体紧密连锁的标记B15_33151,B15_3884,B15_39736,SY15-5263以及与B03染色体控制黄籽基因紧密连锁的标记筛选到的BAC为支点,构建了六段芥菜型油菜B03染色体黄籽基因区域共计约3.3Mb的BAC重迭群。选取了5个BAC进行全长测序,得到的返回序列中确定2个BAC全长序列位于芥菜型油菜B03染色体黄籽区域,即ZBjuH036F18(138109bp)和ZBjuH090N23(125151bp)。经实验室注释分析,发现由这两个BAC组成的重迭群(长254376bp)编码12个基因,并包含转录因子基因TT8。通过标记分析及BAC末端测序分析验证,确定芥菜型油菜B03染色体和A09,A03染色体在目的区域存在重复区块和序列。该研究过程获得大批的黄籽基因连锁标记和芥菜型油菜序列,为揭示芥菜型油菜黄籽形成的分子机制奠定了基础,为黄籽辅助育种提供参考。(本文来源于《湖南农业大学》期刊2016-06-01)

王楷[5](2016)在《基于BWT的配对测序数据重迭群生成算法研究与实现》一文中研究指出自人类基因组计划完成以来,人们逐渐意识到获取生物完整基因序列对于探索生命本质的重要性,这促使生物信息学迅速发展。随着新一代测序技术的不断发展,现有测序数据不仅仍具备高通量、错误率较高等特点,还出现了读长变长,包含配对信息的变化。现有软件在序列拼接过程中对新增信息的利用不足。因此,针对目前测序数据特点开发一款新的序列拼接软件成为生物信息学迫切的要求。利用从头测序技术获取基因序列需要经历重迭群生成、支架组装两个过程,本文所探讨的是从头测序中重迭群生成的过程。重迭群的质量将直接影响最终序列拼接的结果,因而重迭群生成算法的研究具有十分重要的意义。本文提出了一种具有模糊匹配功能的重迭群生成算法。该算法首先利用BWT索引寻找有效交迭read集合,之后以聚类方式寻找区域最优k-mer,并利用决策树搜索策略将连续k-mer组建成模版read以完成重迭群延伸,最后充分利用配对信息保证重迭群质量。该方法选择的延伸read能够在一定程度避免测序错误干扰,并能够充分利用测序数据信息。最后,本文与已有的基于BWT的贪心方法及基于De Bruijn图的SOAPdenovo2程序进行对比。实验结果表明,本文相比原有的贪心方法,在拼接结果和效率上都有所提升。与SOAPdenovo2相比,本研究内存占用更低,产生的重迭群具有更高的可信度,将为后续基因拼接提供更为可靠的输入信息。(本文来源于《哈尔滨工业大学》期刊2016-06-01)

马云云[6](2016)在《新一代DNA测序数据的重迭群组装算法的研究与实现》一文中研究指出二十一世纪以来,新一代测序技术高通量、低成本的优点,极大地促进了生物信息学领域的发展。为了获取测序数据所包含的信息,基因组拼接组装算法成为了该领域研究的核心,许多优秀的基因组拼接组装算法应运而生。近几年,测序技术在原来的基础上不断改革创新,产生的新数据发生了变化,它们不仅具备原本数据的高通量、错误率高的特点,还拥有了新的特性:出现配对信息和读长变长。然而,原有的基因组拼接组装算法却无法利用这些新的特点,因此设计一种能够充分利用新一代数据特性的基因组拼接组装算法成为了基因组领域一个迫切需要解决的问题。全基因组拼接组装分为两个阶段:将read拼接生成重迭群的重迭群生成阶段以及将重迭群组装生成支架的重迭群组装阶段。本文研究的重迭群组装算法针对第二个阶段,在已有重迭群集合的基础上,利用配对数据,将其组装生成支架。通过重迭群组装,可以获取测序数据中的信息,还原得到目标生物的基因序列,具有十分重要的研究意义。本文针对新数据的特性,提出了一种新的重迭群组装算法。该算法首先利用插入距离较短的配对数据,寻找配对数据与重迭群之间的关联的关系,并根据这个关系设计关联关系评价方法,给出任意两个重迭群之间关联关系的得分,从而判定其相对位置关系。然后,针对组装过程中出现的位置关系进行处理,对组装结果进行优化;最后,利用插入距离较长的配对数据进行进一步的处理,最终输出组装生成的支架序列。本文提出的重迭群组装算法,充分利用了新一代数据的特点,将重迭群序列组装成支架。在本文最后,将利用本文算法产生的结果与目前广泛使用的两款软件SOAPdenovo2、Velvet产生的结果作比较,发现利用本文算法组装的支架序列准确性更高,综合性能更好,从而具有较高的可信度,为后续基因组的分析奠定良好的基础。(本文来源于《哈尔滨工业大学》期刊2016-06-01)

王乐[7](2016)在《小麦7DL染色体BAC重迭群物理图谱的构建》一文中研究指出普通小麦是全世界重要的粮食作物之一。作为全球分布范围最广,种植面积最大的粮食作物,小麦的持续增产稳产对保障世界粮食安全具有举足轻重的影响。21世纪,面对粮食需求的日益增长,全球气候的改变等困难,一个完整的,可供育种工作使用的小麦基因组更有助于解决以上困难。然而普通小麦是一个异源六倍体物种,拥有A,B,D叁个亚基因组。基因组大小达到了17个Gb,其中90%的序列为重复序列。这些困难使得利用全基因组测序的方法完成小麦基因组测序和组装变的难以实现。为克服小麦基因组自身多倍体,高重复的特点对全基因测序和组装的影响,国际小麦测序协作组织提出了利用流式细胞仪分离小麦染色体或染色体臂,对每一条染色体或染色体臂采用BACby BAC的方式构建物理图谱,然后测序组装,从而完成整个小麦基因组的测序工作。作为国际小麦测序协作组织成员,首先通过小麦遗传材料分离了普通六倍体小麦7DL染色体臂,并提取大分子DNA构建了的BAC文库,为小麦功能基因图位克隆提供了材料资源。其次对BAC克隆DNA提取的方法进行了比较和改进,建立了普通碱裂解法BAC克隆DNA提取体系。高质量的BAC克隆DNA获得为后续的DNA酶切反应分析奠定了基础。采用SNaPshot-HICF技术对整个小麦7DL臂染色体BAC文库50304个BAC克隆做了指纹印迹分析,其中有43486个BAC克隆产生高质量的指纹印迹可以用于后续的BAC组装。利用FPC组装软件将37361个BAC克隆组装为1614个BAC重迭群,剩余的6125个BAC克隆作为单体。组装的重迭群总长达到了468.4Mb,重迭群N50为348kb,重迭群L50为310。根据重迭群组装结果,利用FPC软件中MTP模块挑选出最短路径(MTP)BAC克隆4457个,为后续的测序提供候选的BAC克隆。重迭群定位采用了一种新的定位策略,根据小麦D组祖先供体粗山羊草(Aegilop tauschii)和小麦D组之前的同源性,以及粗山羊草的物理图谱的信息,采用了BAC克隆指纹印迹比对的方式,对7DL染色体臂重迭群进行了校正和定位,根据BAC克隆指纹印迹的比对,对7DL的BAC重迭群做手工校正后,获得1642个BAC重迭群,重迭群总长度为470.1Mb,重迭群N50为341kb,重迭群L50为374。定位的重迭群的个数为845个,定位总长为318Mb,占总的重迭群总长的67.6%。初步完了物理图谱中重迭群的锚定的工作。本研究完成的小麦7DL染色体臂的物理图谱,为随后的小麦7DL染色体臂的BACby BAC测序提供了可靠的数据和有用的信息。同时为以后普通六倍体小麦全基因组序列图的完成奠定了基础。小麦7DL染色体臂重迭群锚定采用的方法,相对于以前物理图谱重迭群锚定方法更加简洁高效,省去了大量费时费力的实验工作。此策略可以用于整个小麦D组染色体的物理图谱重迭群锚定。同时也适用于利用研究物种已有同源物种的物理图谱信息,锚定该研究物种的物理图谱BAC重迭群。(本文来源于《西北农林科技大学》期刊2016-05-01)

牛进保[8](2015)在《位置社会网络中重迭群组探测算法研究及并行化实现》一文中研究指出随着在线社交网络平台的涌现,网络用户之间的链接关系越来越丰富,群组探测作为链接挖掘的重要技术,越来越多的研究者将群组探测作为研究的重要方向。现有的群组探测算法主要考虑用户之间的链接关系、与用户相关的文本信息等;但是考虑位置信息的并不多。由于移动终端及Global Positioning System(GPS)技术的广泛应用,社交平台中包含丰富的位置信息,如何结合位置信息和链接关系进行群组探测,有着非常重要的实际意义。在真实的社会中,一个用户往往是属于多个群体的,这样的群组是交叉重迭的。同样,社会网络中也存在着交叉重迭的群组,因此结合位置信息进行重迭群组探测算法研究是具有重要的理论和实际应用价值的。为了探测出重迭的群组,采用链接群组的方法将群组定义成了边的集合,进而以边为基本单位进行群组划分。由于边与边可以共享一个节点,因此当共享节点的边属于不同的群组时,那么这个节点就会被划分到多个群组之中,从而得到重迭的群组结构。结合K-means算法和边划分的思想,提出基于边均值距离的可重迭群组探测算法。利用边的相似度对边进行划分,而边的相似度是基于组成边的节点的相似度进行计算的。计算节点的相似度时,综合考虑了节点的链接关系以及位置信息等因素;并且,算法中可以自动的对不同因素的权重进行调整,从而达到更好的效果。由于用户节点的数量庞大,随着边的增加,计算以及使用边的相似度时,算法的效率会大大的降低。为了克服这一难题,提出了Hadoop平台下基于边均值距离的并行重迭群组探测算法;从而提高算法的效率,并使得算法具有可扩展性。在真实的数据集上进行实验,利用模块度等指标对群组划分结果进行评价,与K派系算法及K-means算法进行对比分析,实验表明基于边均值距离的重迭群组探测算法要优于K派系和K均值算法。并使用加速比等指标对单机程序以及并行化程序进行对比分析,实验表明提出的并行化算法具有良好的可扩展性。(本文来源于《华中科技大学》期刊2015-05-01)

刘旭东,陆赢,刘显军,胡学芳,徐海鹏[9](2014)在《芥菜型油菜A09染色体BAC重迭群的构建及分析》一文中研究指出利用定位在芥菜型油菜A09染色体上的分子标记对芥菜型油菜(Brassica juncea)ZBjuH BAC文库进行PCR步移筛选。共筛选出725个BAC,测定了315个BAC的末端序列,获得564条BAC末端序列,BLAST分析表明这些末端序列对应白菜(Brassica rapa)基因组序列支架45、支架81、支架40,支架134、支架145和支架59的同源区域,构建了芥菜型油菜A09染色体大约6.3 Mb的BAC重迭群,为芥菜型油菜A09染色体物理图谱构建奠定了基础。(本文来源于《作物研究》期刊2014年03期)

刘旭东[10](2014)在《芥菜型油菜A09染色体短臂BAC重迭群的构建及分析》一文中研究指出A09染色体是芸薹属植物A基因组最长的染色体,具有控制种子大小、种皮颜色、硫苷合成、油脂合成等重要性状的基因,研究A09染色体的结构和组成具有重要的科学价值和实践意义。本研究利用已定位在A09染色体上的分子标记S121-Ⅰ-1、S121-Ⅰ-2、S59-6、S134-16、S121-Ⅱ-2、B021111-1、H016P07-2和Niab047对芥菜型油菜紫叶芥BAC文库即ZBjuHBAC文库进行筛选,作为重迭群构建的出发点,通过PCR步移筛选对重迭群进行双向延伸。本研究共筛选出725个BAC克隆,并对其中315个BAC末端进行了测序,获取有效BAC末端序列564条,利用BAC末端序列设计引物250对,此外,参考白菜基因组序列设计STS引物189对,参考芥菜型油菜四川黄籽种皮转录组测序获得的非冗余转录本(unigene)序列设计的STS引物21对,构建了芥菜型油菜A09染色体短臂端物理距离长约6.3Mb的BAC重迭群。已构建的重迭群比对在白菜45号81号、40号、59号、169号、134号和145号等7个白菜支架序列。尽管45号、81号、84号和40号支架序列在芥菜型油菜与甘蓝型油菜、白菜之间相对保守,表现出高度的共线性,但本研究所构建的物理区间与白菜A09染色体相应区间存在差异,跟甘蓝型油菜一样,除了134-145号支架序列区域发生了显着的重排外,59号支架序列的方向相对于白菜支架序列也发生了倒位,在59号支架序列的大末端还发现反向插入了一个未定位到染色体上的169号支架序列,说明在进化过程中,芥菜型油菜A09染色体序列可能发生了插入、易位等不同的结构重排。该研究为芥菜型油菜A09染色体完整物理图谱的构建和芸薹属植物A09染色体的进化分析提供了基础。(本文来源于《湖南农业大学》期刊2014-06-01)

重叠群论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

不平衡数据集是指类与类之间的尺寸、样本个数以及样本密度等参数差别很大,这种数据类型存在于很多实际的问题中,例如医学疾病数据、网络异常数据、宏基因组数据等。对这些不平衡数据集,利用传统的无监督分类方法,如模糊c均值算法进行聚类,效果并不理想。到目前为止,绝大部分关于不平衡数据的分类研究都集中在有监督分类领域。因此,研究并改善传统的无监督分类方法对不平衡数据的聚类性能,对进一步完善不平衡数据的分类研究、扩大传统无监督分类方法的适用范围,具有十分重要的意义。本文以模糊c均值算法(fuzzy c-means method,FCM)为基础,重点研究利用该方法对不平衡数据进行聚类分析时所涉及的几个关键问题,并将研究成果应用于宏基因组DNA重迭群的无监督分类,具体研究内容如下:(1)提出一种基于聚类体量约束的模糊c均值算法传统FCM算法对不平衡数据聚类效果不理想的根本原因是其使用了一种平方和形式的代价函数,最小化该代价函数将使得聚类结果中各类间的样本数量相近。因此,在不平衡数据的聚类结果中,一部分来自多数类的样本会被误分到其相邻的少数类中。为了解决此问题,本文提出一种基于聚类体量约束的模糊c均值算法,该算法在考虑各个类的体量(类的体量是指所有样本对于某一类的隶属度值之和,可用来衡量类的大小)的基础上构造了一个新的代价函数,该代价函数在聚类结果中允许少数类的存在,从而改善了传统的FCM算法对不平衡数据的聚类性能。同时,对平衡数据,该算法具有与传统FCM算法相同的聚类性能。(2)提出一种基于聚类体量约束的模糊c-harmonic均值算法针对传统FCM算法因对初值敏感而易陷入局部最优的缺陷,在(1)中所提算法的基础上,结合c-harmonic均值算法,提出了一种基于聚类体量约束的模糊c-harmonic均值算法,该算法对初值不敏感,同时对不平衡数据具有良好的聚类性能。(3)提出一种新的适用于不平衡数据的聚类准则函数在无监督分类中,确定聚类个数十分重要。利用FCM算法进行聚类分析时,需要预先设定聚类个数。确定聚类个数的一般方法为:分别以不同的聚类个数运行若干次FCM算法,再用一个事先定义的函数从中确定最优的聚类结果,该函数一般称为聚类准则函数(clustering validity index,CVI)。现有的CVI一般是通过计算各个类内的聚合度以及类间的分离度来评价聚类结果。然而,在不平衡数据中,类间的尺寸会影响聚合度的评价效果。基于此,本文通过考虑聚类体量定义了一个新的类内聚合度,并结合传统类间分离度,提出一种新的聚类准则函数。该函数不仅可以有效地评价不平衡数据的聚类结果,而且对于平衡数据也具有良好的评价性能。(4)研究基于不平衡数据分析的宏基因组重迭群分类宏基因组学利用新一代测序技术在不经过实验室培养的情况下,能够获取环境中绝大部分的遗传物质。与传统的测序方法不同,宏基因组测序得到的原始数据是大量的、长度较短的、来源于多种微生物的DNA片段。研究人员根据DNA片段之间的重迭关系可以将这些零碎的短片段组装成长度较长的DNA序列,生物信息学中称这种组装之后的DNA序列为重迭群(contigs)。将这些重迭群依据其物种归属进行分类是宏基因组数据分析中十分重要的一步。然而,受宏基因组中不同物种间的丰度比、基因组长度等因素的影响,组装后属于不同物种的重迭群数量往往相差很多,因此,宏基因组重迭群数据是一种典型的不平衡数据集。如何对其进行有效地分类,是目前的一个研究难点。为了提高宏基因组重迭群的分类精度,本文利用上述研究成果对宏基因组重迭群进行基于不平衡数据的聚类分析。首先,根据已有细菌的全基因组长度以及宏基因组的平均覆盖率来估计宏基因组中的物种个数区间;其次,提取DNA重迭群的数字特征向量;最后,利用基于聚类体量约束的模糊c-harmonic均值算法和适用于不平衡数据的聚类准则函数完成重迭群的分类。与现有的重迭群无监督分类方法相比,该方法具有更好的分类效果。综上,本文进行了系统的面向不平衡数据的无监督分类研究,提出了从初值选取、无监督分类到聚类准则函数的完整的、适用于不平衡数据的算法体系,并将以上算法应用到宏基因组重迭群分类中,取得了比现有方法更好的分类效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

重叠群论文参考文献

[1].胡庆一.芥菜型油菜B03染色体黄籽基因区域BAC重迭群的延伸及全长测序[D].湖南农业大学.2018

[2].刘云.不平衡数据的模糊聚类算法研究及在宏基因组重迭群分类中的应用[D].吉林大学.2016

[3].徐海鹏,刘显军,陆赢,马鹏,胡庆一.芥菜型油菜B03染色体黄籽基因区域BAC重迭群的构建及分析[J].作物研究.2016

[4].徐海鹏.芥菜型油菜B03染色体黄籽基因区域BAC重迭群的构建及分析[D].湖南农业大学.2016

[5].王楷.基于BWT的配对测序数据重迭群生成算法研究与实现[D].哈尔滨工业大学.2016

[6].马云云.新一代DNA测序数据的重迭群组装算法的研究与实现[D].哈尔滨工业大学.2016

[7].王乐.小麦7DL染色体BAC重迭群物理图谱的构建[D].西北农林科技大学.2016

[8].牛进保.位置社会网络中重迭群组探测算法研究及并行化实现[D].华中科技大学.2015

[9].刘旭东,陆赢,刘显军,胡学芳,徐海鹏.芥菜型油菜A09染色体BAC重迭群的构建及分析[J].作物研究.2014

[10].刘旭东.芥菜型油菜A09染色体短臂BAC重迭群的构建及分析[D].湖南农业大学.2014

论文知识图

人成体干细胞群来源部位[19]节点标准测试系统评估拼接好的基因组序列叁种平台测序数据的单碱基替换错误从...致病岛C309的致病岛分布于两个~...川西前陆盆地中侏罗统千佛崖组(SQ3)...

标签:;  ;  ;  ;  ;  ;  ;  

重叠群论文_胡庆一
下载Doc文档

猜你喜欢