光熙论坛第759期:面向高重复基因组的图结构索引与序列比对方法研究

主讲人:  张云翔 哈工大计算学部博士研究生
时间:2021年9月15日18:00-19:00
地点:哈尔滨工业大学科创大厦J2017会议室
研究方向:生物信息学
内容简介:
       基因组序列比对是还原测序数据在基因组上的实际位置的过程,是下游变异识别,基因表达量分析和选择性剪切分析等基因组数据分析的重要基础。由于基因组上的大量重复序列区域,日益增大的测序数据量以及测序技术的局限等因素,如何准确且快速地将大量测序数据比对到参考基因组面临巨大挑战。相较于传统的后缀树与哈希索引等线性表示模型,基因组的图结构索引支持基因组上大量重复序列有效组织和表达,实现了快速准确的序列比对。主要介绍内容有:(1)基于图索引的高重复基因组索引性能评价,基于图索引结构进行基因组序列的分析,统计索引中种子序列的分布,评估种子序列的统计指标,最终通过构建评价指标来判断高重复性基因组索引性能。(2)面向高重复基因组序列的图结构索引构建方法,提出一种基于BWT技术的高重复性序列的新型索引构建方法。(3)基于上面构建的索引结构,设计相应的序列比对方法。应用BWT结构存储图结构中的unipath唯一性序列,通过序列分块存储的特性,实现高重复区域上序列的快速比对。