首页 > 机构设置> 食用豆研究室

Plant Com | 高质量基因组组装和泛基因组研究助力绿豆遗传本底解析及品种改良

【字体:

2022年6月26日,河北省农林科学院粮油作物研究所田静团队联合长沙百奥云数据科技有限公司Plant Communications在线发表了题为High-quality genome assembly and pan-genome studies facilitate genetic discovery in mungbean and its improvement的研究论文。该研究组装了一个染色体级别的高质量绿豆参考基因组,构建了首个绿豆泛基因组和全基因组变异图谱,并首次利用高深度测序鉴定到的SNP和PAV对33个重要农艺性状进行全基因组关联分析,发掘出一系列与产量、品质、抗性等性状相关的重要候选位点,为绿豆的遗传本底解析和分子育种改良提供了重要的指导。

https://doi.org/10.1016/j.xplc.2022.100352

绿豆(Vigna radiata (L.) R. Wilczek)作为重要的豇豆属成员,具有抗旱、耐贫瘠和固氮能力,同时也是碳水化合物和优质蛋白质以及叶酸和铁等微量元素的重要来源。相对于大豆、菜豆等豆科作物而言,绿豆的基因组研究比较落后,这严重限制了绿豆分子育种的进展。虽然前人研究已经利用二代测序技术组装了一个绿豆基因组草图(VC1973A),并使用GBS等简化基因组测序策略鉴定了一些潜在功能位点。但对于绿豆基因组特征解析、高密度遗传标记、群体多样性差异以及重要功能基因挖掘等研究仍然不足,本研究较为系统地弥补了这些缺陷和空白。

研究首先利用Pacbio三代测序结合二代测序数据和Hi-C数据对该团队之前选育的绿豆优良栽培品种“冀绿7号”(Vrad_JL7)进行基因组从头组装,组装序列大小~ 475.19 Mb,约占估计基因组大小的99.13%,~98.72%的序列能挂载到11条假染色体上。基因组包含~53%的重复序列,共预测出40125个蛋白编码基因,其中~81.6%具有注释功能。Contig N50达10.34 Mb,远高于VC1973A基因组的48.83 Kb。99.66%的二代测序reads能够比对到参考基因组上,基因组和蛋白序列的BUSCO分别为98.02%和96.9%,LAI score为15.67。以上指标都充分证明了Vrad_JL7比VC1973A具有更高的完整性和连续性,这也是目前为止质量最高的绿豆参考基因组。

通过对13个近缘物种的基因家族聚类发现,绿豆有1532个特异的基因家族,包含了5482个基因,它们主要与淀粉和糖类代谢、氨基酸合成相关,这与绿豆中丰富的淀粉和蛋白含量是一致的。绿豆扩张的基因家族主要由串联重复造成,基因富集在异黄酮生物合成以及萜类合成等通路,这或许与绿豆中丰富的类黄酮物质,如牡荆素和异牡荆素有关。比较基因组显示,绿豆与豇豆属的小豆和豇豆具有很高的共线性,但豇豆的5号染色体分别比对到了绿豆和小豆的两条不同染色体上,说明绿豆、小豆在与豇豆分化后,可能经历了染色体重排事件。

图1 绿豆基因组组装与比较基因组

研究首次对217份绿豆种质进行全基因组重测序,平均测序深度12 x。~87%的材料来自中国,因此将材料分为中国育种品系(CBL)、中国地方种(CLR)和非中国育种系(NCL)。以Vrad_JL7为参考基因组,共鉴定到高质量的~2.23 M SNPs和~0.23 M Indels以及一系列CNVs和SVs。群体结构和PCA分析都能将材料明显地划分为三组,且SNP与gene PAV的结果高度一致(Mantel statistic r = 0.9612)。NCL Group的核酸多样性最高,来自中国低纬度的材料多样性高于高纬度材料,这可能是绿豆在中国由南方引入北方的适应过程中,遗传基础变窄所致。为了研究全球绿豆的遗传多样性,作者从已发表的GBS数据中选择533份绿豆材料,并以Vrad_JL7为参考基因组进行变异检测,最终与217份材料变异合并,共得到来自全球23个国家750份材料的5671个SNPs。群体结构显示东亚(EAG)与南亚(SAG)的绿豆材料具有明显差异。南亚材料的多样性最高,可大致分为SAG1和SAG2两个亚群,西亚材料介于二者之间。与之前绿豆起源于南亚的观点相吻合,作者推测绿豆可能通过丝绸之路由南亚引进到西亚和东亚,并在东亚形成独特的次多样性中心。这些研究为绿豆引种改良提供了重要的指导思路。

图2 绿豆全基因组变异图谱及群体遗传研究

与此同时,作者对217份绿豆种质分别进行组装,使用"Map-to-pan"策略构建了首个绿豆泛基因组,其大小~763 Mb,共43462个预测基因。绿豆泛基因组由76.5%的hardcore genes、6.6%的softcore genes、16.5%的shell genes和0.4%的cloud genes组成。核心基因的功能与基础生物学过程息息相关,可变基因则涉及生长发育调控、环境胁迫响应等功能,因此可变基因在绿豆适应不同环境过程中发挥着重要作用。而且,可变基因在基因组中的分布包含了某些热点区域,这些可能是绿豆适应性选择的重要潜在位点。根据基因在NCL、CLR和CBL中的分布频率,绿豆从国外到中国的适应过程(基因在NCL和CLR中的频率差异)中共有809个基因存在显著的频率差异,其中有利基因215个(CLR频率显著高于NCL),不利基因412个(CLR频率显著低于NCL),这些基因主要与开花调控和程序性细胞死亡有关。在开花调控的功能通路中,共有九个gene PAV事件。其中三个基因在大部分CLR和CBL中存在,在NCL中缺失,表型数据检验显示它们的存在能够促进春季早开花,夏季晚开花;其他六个基因在大部分CLR和CBL中缺失,在NCL中存在,表型数据检验显示它们的缺失在春季早开花,夏季晚开花。同时,这些gene PAV的附近区域都出现诸如LD升高、遗传多样性丢失等信号,进一步证明了此现象。

图3 绿豆泛基因组构建

研究进一步调查了217份材料的33个重要农艺性状在两地、两年和春夏两季共6个环境的表型,部分性状之间具有很高的相关性,不难理解GWAS显著关联位点会出现一因多效的情况。基于SNP的GWAS分析显示,几乎所有性状在至少一个环境中鉴定到显著关联信号(STAs),2912个STAs包含了位于转录区域的248个基因。多个性状的STAs聚集在1、4、7号染色体上的热点区域,它们可能与绿豆的驯化选择有关。这种现象称之为“agro-islands”,在鹰嘴豆、木豆等物种中已被发现存在。除了SNP GWAS,基于gene PAV的关联研究共鉴定到391个PAV显著关联事件(GPTAs),这些信号与STAs具有较高的一致性,能够作为SNP GWAS的有力补充。

图4 基于SNP和gene PAV的GWAS概览

最后,作者举了几个GWAS候选位点的具体示例。一个与绿豆粗淀粉含量最显著相关的STA(7_56810077_G_A)在多个环境中同时鉴定到,该位点位于jg24043的编码区。jg24043在大豆中的同源基因SWEET10已被证实与籽粒大小调控、脂肪和蛋白含量有关。与此同时,与绿豆蛋白含量显著关联的STA(7_56019040_T_C)同样在多个环境被鉴定,该位点与jg24043具有强LD关系。两个STAs不同单倍型对应的蛋白和淀粉含量存在极显著差异,说明jg24043可能同时调控了绿豆籽粒中的蛋白和淀粉含量。几个与颜色相关的性状在相同区域同时鉴定到STAs和GPTAs,该区间存在一个包含了11个连续基因(jg7009-jg7020)和jg7021部分区域在内的大小为136 Kb的PAV。该片段在185份材料中存在,花、花蕾、幼茎、叶柄等部位表现为紫色。在32份材料中缺失,表现为绿色或黄色。片段范围内的几个基因注释为转录因子MYB90-like,与大豆中调控花青素合成的R基因(Glyma.09G235100)具有很高的同源性,证明了它们与颜色密切相关。除此之外,分枝数、荚长、单株产量等产量性状,豆象抗性性状,以及开花期、株高、生长习性和裂荚性等驯化选择相关的性状均鉴定到一系列候选位点,并在大豆等近缘物种中能找到对应的同源基因。这些候选基因为绿豆分子育种改良提供了重要基础。

图片


图5 淀粉/蛋白和颜色相关性状的GWAS示例

河北省农林科学院粮油作物研究所刘长友研究员、王彦副研究员和长沙百奥云数据科技有限公司生物信息研发经理彭建祥为论文的共同第一作者。河北省农林科学院粮油作物研究所田静研究员和长沙百奥云数据科技有限公司创始人王冰冰博士为论文的共同通讯作者。该研究得到了国家重点研发计划“杂粮作物核心资源遗传本底评价和深度解析”(2019YFD1000700/2019YFD1000702)和国家食用豆产业技术体系(CARS-08-G3)等项目的资助。