Bioinformatics | 张国捷团队开发T2T基因组组装质量评估新工具
随着DNA长读长测序技术的迅猛发展和成本的不断下降,端粒到端粒完整组装(T2T)已逐渐成为衡量基因组组装质量的新标杆。然而,传统的组装连续性评价指标(如N50和auN等)缺乏连续性,容易达到其理论最大值,难以高效区分近似T2T与真正T2T的质量差异。此外,这些指标易受到手工校正影响,如直接去除缺口,造成这些指标值虚高。因此,在T2T时代,迫切需要一种高精度、能够真实反映基因组组装连续性的质量评估工具。
近日,浙江大学生命演化研究中心张国捷团队在生物信息学权威期刊Bioinformatics上发表了题为“GCI: a continuity inspector for complete genome assembly”的方法学文章。团队开发了基于长读长数据比对的基因组连续性检测工具GCI,可在单碱基分辨率下检测潜在组装缺口,并通过GCI Score量化组装完整水平。
该方法采用多种比对策略,将Pacbio HiFi或Oxford纳米孔长读长测序数据比对回组装序列。经过严格过滤、修剪和整合,利用高置信度比对结果,计算全基因组单碱基水平的修正覆盖深度(curated depth),将覆盖深度极低区域标记为潜在组装缺口。根据处理后的组装,计算修正N50值,结合缺口数量和位置,通过GCI分数量化修正组装与理论最大值(即T2T)的差异,综合评估全基因组或局部区域的组装连续性。
图 GCI基因组组装连续性评估框架
对真实数据和模拟数据的评估结果表明,相较于Contig N50及其衍生指标,GCI在评估组装连续性方面表现出更高的灵敏度。此外,与其他主流的组装问题检测工具(如CRAQ和人类首个T2T基因组CHM13组装质量检测工具T2T-polish)相比,GCI在报告组装错误准确性方面具有更低的假阳性率。
总的来说,GCI提供了一种全新的、基于比对的基因组组装连续性评估方法,尤其适用于对接近或达到T2T水平的组装质量评估。工具代码已开源(https://github.com/yeeus/GCI),欢迎相关科研人员使用并提出宝贵意见。
浙江大学竺可桢学院“强基计划”2021级本科生陈泉宇为该论文第一作者,浙江大学国际健康医学研究院/浙江大学生命演化研究中心张国捷教授、吴东亚博士为共同通讯作者。华大基因/浙江大学生命演化研究中心客座研究员杨琛涛给予了大量指导和帮助。本研究得到了浙江大学国际健康医学研究院科研项目经费、博新计划等的支持。
围绕演化与发育生物学、人类基因组学等方向,张国捷课题组长期欢迎对生命科学研究充满兴趣的优秀本科生加入团队进行科研训练,共同探索生命奥秘。更多信息欢迎咨询联系wudongya@zju.edu.cn或heyunqiu@zju.edu.cn。
原文链接:
https://doi.org/10.1093/bioinformatics/btae633
点击文末 阅读原文,查看文章链接。