XML 地图

全球首个棉花T2T图形泛基因组,解码陆地棉基因组“暗物质”,解锁棉花育种新密码

2026年4月14日    编辑:金莎官方网站js93

有限的泛基因组和模糊的基因组结构,限制了对棉花遗传变异的全面发掘。传统育种面临瓶颈,根本原因在于端粒、着丝粒、结构变异等“暗物质”难以精确解析,而这些恰恰可能蕴藏关键基因。解锁这些隐藏资源,是突破育种瓶颈的核心。因此,构建完整、无缺口的参考基因组和泛基因组,成为推动棉花遗传改良的迫切需求。

2026年3月20日,,在《自然·遗传学》(Nature Genetics)上发表了题为“A pangenome reference and population studies link structural variants with breeding traits in Gossypium hirsutum”的研究成果,成功组装了陆地棉优良品种NDM13(农大棉13号)的端粒到端粒(T2T)无缺口参考基因组序列,以及27份跨越近百年育种历史的代表性陆地棉种质的near-T2T无缺口基因组序列,构建了全球首个棉花T2T图形泛基因组(Graph-based pangenome)图谱,系统揭示了结构变异与关键育种性状的深层关联。

主要结论与研究意义

1.填补了棉花基因组“暗物质”的认知空白,建立了全球首个T2T图形泛基因组资源平台。研究首次完整呈现了端粒、着丝粒、45S rDNA等复杂区域的高分辨率结构,大片段重复(SD)占基因组的20.5%,远超人类的6.7%。28个无缺口基因组、51,551保守的一对一直系同源基因集、85,211个基因家族和33,715个非冗余结构变异(SV)构成了目前最完整的陆地棉泛基因组,SV基因分型精确率达0.92,为棉花遗传研究和分子育种提供了前所未有的“导航地图”。

2.揭示了结构变异作为育种“隐形推手”的分子机制,并提供了两个可直接应用的精准靶点。研究系统证明SV通过影响基因表达调控重要性状:202个SV热点区域中,At01热点聚集细胞壁代谢基因,Dt01热点聚集抗病相关基因。鉴定出的MHCKBL上游196 bp缺失导致纤维长度相差近3毫米,CRPK1基因2,845 bp缺失导致纤维强度下降0.76 cN/tex,两个SV均经群体验证和转基因功能验证,可直接作为分子标记应用于纤维品质遗传改良。

3.推动棉花育种从分子改良向精准设计的跃升。研究成果使育种家能够精确查找影响目标性状的结构变异,快速锁定优良等位基因。研究数据已向全球公开,为棉花基础研究和育种应用提供持续驱动力。

研究内容与结果

1.T2T

研究团队首先完成了对河北农业大学育成的优良品种“农大棉13号”(NDM13)的T2T基因组组装。通过整合PacBio HiFi长读长、ONT超长读长、Hi-C染色质构象捕获数据和Illumina双端测序数据,基于优化的“四步法”组装策略(金莎官方网站js93再添一作成果,组装新策略完成犬蝠基因组精细图谱并揭示食果蝙蝠免疫基因演化新机制)(图1),获得了2330.98 Mb的初始组装序列,并将其锚定到26条染色体上。随后利用ONT超长读长填补仅存在的5个缺口,并通过HiFi读段对端粒序列进行精准延伸,最终获得了2294.02 Mb的无缺口T2T基因组,contig N50高达108.32 Mb。

1 28个陆地棉T2T基因组组装流程

与先前发布的现代陆地棉参考基因组NDM8(农大棉8号,Nature Genetics 2021)相比,NDM13填补了总计18.39 Mb的所有组装缺口,新增93个此前缺失的基因。尤为重要的是,NDM13中片段重复(SD)区块的总长度达到NDM8的两倍以上,显著增强了对基因组结构变异的鉴定能力。研究首次完整呈现了着丝粒、端粒和45S rDNA等复杂区域的高分辨率结构(图2)。在染色体末端结构方面,NDM13所有染色体的端粒区域均富集典型的7-bp单元重复(CCCATAA/TTTAGGG);然而,染色体At09、Dt09和Dt07的短臂末端呈现独特结构——45S rDNA序列与端粒重复单元持续交错排列,为理解染色体末端的进化与功能提供了新见解。

2 NDM13的T2T基因组表征

 

2.27near-T2T

团队进一步从全球1,671份陆地棉种质资源中(图3),筛选出27份代表性种质,涵盖近百年育种历史(1910s—2020s),广泛覆盖中国、美国、前苏联、澳大利亚等主要植棉国家,并包含不同地理来源、育种用途和表型变异的核心种质。基于优化后的组装策略,研究完成了27个near-T2T级别的基因组组装,组装总长度平均为2294.90 Mb,展现出与NDM13相当的出色完整性和准确性。

3 1671份种质的系统发育树及28份种质的多样化农艺表型

基因组注释显示,28份陆地棉品种(系)平均每个基因组包含79,878个蛋白编码基因。结合15种组织的转录组测序(共420份样本),为基因结构与表达分析提供了系统数据支持。研究鉴定出51,551个在所有基因组中保守的一对一直系同源基因,并构建了包含85,211个基因家族的基因泛基因组(图4)。其中,核心基因家族45,115个(52.95%),非核心基因家族40,096个(47.05%),私有基因占比较低。随着样本数量增加,基因家族数在n=22时趋于稳定,表明所选种质具有良好代表性。

表达分析表明,核心基因的表达水平显著高于非核心和私有基因;同时,多数基因组中私有基因表达也高于非核心基因。功能上,核心基因主要参与生殖及物质代谢等关键过程。值得注意的是,约24,972个核心基因在纤维组织中显著高表达,并富集于纤维发育相关功能。总体来看,该研究揭示了陆地棉泛基因组的组成特征及其表达与功能分化规律。

4 28个棉花基于基因的泛基因组分析

3.rDNA

该研究基于28个高质量无缺口基因组,系统解析了棉花染色体复杂区域(端粒、着丝粒和rDNA)的结构特征及其功能关联(图5)。结果显示,除At09、Dt09和Dt07外,其余染色体端粒长度较为稳定,平均约11.4 kb,包含约1,470个7-bp重复单元,但不同染色体间仍存在一定变异。转录组分析表明,染色体末端0.5 Mb范围内基因表达水平最高,低表达或不表达基因比例最低,说明端粒邻近区域具有更高的转录活性。

在着丝粒方面,28个基因组均成功鉴定出完整区域,但其位置和长度存在显著差异。例如部分材料中At08染色体着丝粒发生约1 Mb位移,Dt08存在约300 kb扩张,这些变化主要由邻近区域倒位驱动。表达分析进一步发现,基因表达随与着丝粒距离减小而降低,表明着丝粒附近区域具有转录抑制效应。

rDNA分析显示,每个基因组平均含236个45S rDNA拷贝(1.18–1.88 Mb),分布高度不均,主要富集于At/Dt09等特定染色体,并在At09、Dt07和Dt09表现出更高结构变异,这些区域由45S rDNA与端粒重复交错构成复杂串联结构。相比之下,5S rDNA拷贝数更高(平均18,213个),且几乎全部集中于At09和Dt09染色体,呈现“45S较少、5S高度富集”的独特模式。

总体而言,该研究揭示了棉花复杂基因组区域在结构和功能上的显著异质性,表明端粒与着丝粒在转录调控中具有相反作用,同时rDNA的高度不均分布反映了基因组演化的特殊机制。

5 棉花复杂区域的景观和多样化

 

 

4.

该研究系统解析了棉花基因组中大片段重复(SD)及拷贝数变异(CNV)的特征及其功能意义。结果表明(图6),28个棉花基因组中SD序列平均长度达470.58 Mb,占基因组的20.5%,显著高于人类。SD以小片段为主(99.75%小于50 kb),且染色体间SD的数量和长度均为染色体内的两倍以上,呈现不同于人类的分布模式。从亚基因组来看,A亚基因组SD总量为D亚基因组的1.78倍,与其基因组大小比例一致,其中At06染色体SD最为丰富且高度保守。

功能上,约10.86%的SD与基因区域重叠,其中75%以上引发基因拷贝数变化,表明SD是驱动基因扩增与缺失的重要机制。典型案例显示,SD可显著增加特定基因(如SSL10、REM19-like)的拷贝数。表达分析进一步发现,SD区域基因整体表达水平显著低于非SD区域,且沉默基因比例更高,提示SD与基因表达抑制相关。

CNV层面,27个基因组相对于参考基因组平均检测到1,929个CNV,总计52,095个,整合为8,872个非冗余CNV,其中约70%长度大于1 kb。大量CNV与基因重叠,并涉及基因获得(CPG)或缺失(CPL),部分CNV同时影响多个基因,对基因结构和功能产生重要影响。典型如CNV6848,通过改变多个基因拷贝数引发基因获得或缺失,并导致差异表达。

总体而言,SD与CNV共同构成棉花基因组结构变异的重要来源,在基因创新、拷贝数调控及表达调节中发挥核心作用,是驱动基因组演化和性状变异的关键机制。

6 全基因组范围内结构变异与拷贝数变异模式

5.Graph-basepangenom

该研究以NDM13 T2T基因组为参考,整合27个near-T2T基因组,构建了首个棉花T2T级图形泛基因组,系统解析四类结构变异(SV):插入(INS)、缺失(DEL)、倒位(INV)和易位(TRANS)。结果显示(图7),每个基因组平均包含7,746个SV,总长度36.46 Mb,共整合获得33,715个非冗余SV(258.15 Mb),其中INS与DEL数量基本均衡,体现了组装质量的可靠性。

进一步分析发现,约6,928个INS/DEL位于基因或其侧翼区域,可能通过影响编码区或调控元件改变基因功能。表达分析表明,含INS或DEL的基因在15个组织中的表达水平显著高于无变异基因,提示其与表达增强相关。全基因组分析鉴定出202个SV热点区域,不同种质间分布差异明显,反映现代育种过程中SV的多样化。典型热点区域富集胁迫响应和抗病相关基因,表明其在适应性进化和性状改良中的重要作用。

在结构变异类型中,共鉴定81个INV,主要集中于特定染色体,并与SD高度重叠,提示其主要由非等位同源重组驱动。部分INV可引起基因获得或缺失,重塑基因组结构。共检测到664个TRANS,其中约三分之二为染色体间易位,约35%导致基因组成变化,并涉及RNA修饰、代谢及胁迫响应等功能基因。

总体而言,该研究揭示了棉花基因组中SV的全景分布及其功能效应,表明结构变异在基因表达调控、基因组结构重塑及适应性进化中发挥关键作用。

7 以NDM13为参考的27个基因组的结构变异及热点

6.SV

SV是作物驯化与改良的重要遗传基础,该研究将2000年以来中国育成的10个现代品种与基础种质岱字棉15号(COT9,1950年引入的美国棉花)和徐州209(COT22,1958年从美国棉花斯字棉2B中系统选育)进行比较,发现现代品种在纤维产量和品质性状上表现更优。所有现代品种中,分别鉴定到398个和433个与两个基础种质共享的SV,涉及基础代谢相关基因;同时检测到7,211个和7,930个分化的SV,其中393个和47个分别通过相关性分析和GWAS与纤维品质及产量性状显著相关。例如,Gh01D06G1145上游196 bp SV可能影响纤维长度,覆盖Gh01D11G3131的2,845 bp SV与纤维强度显著相关。

进一步分析位于基因体或调控区域内的分化SV,在10个现代品种中分别鉴定到6,677个和7,473个一对一直系同源SV基因,超81%在至少一个组织中表达。功能富集分析显示,这些基因显著涉及O-甲基转移酶活性、激素响应及UDP-葡萄糖4-差向异构酶活性等功能,提示其在胁迫响应及纤维发育中的潜在作用。同时,现代品种在15个组织中表现出大规模差异表达(上调与下调基因均超3,000个,图7h),表明分化SV显著影响基因表达调控。

7.

基于T2T图形泛基因组构建的32,970个INS和DEL变异图谱,研究对1,671份棉花材料进行SV分型,共鉴定30,840个SV,分型准确性稳定可靠(F1=0.87),覆盖率达93.54%,显示出良好的代表性。其中6,542个SV位于基因或调控区域,并可将材料划分为参考型(Ref)与变异型(Alt)。进一步分析发现,2,382个SV与纤维长度、强度及产量等性状显著相关。

结合纤维发育相关组织的转录组数据,鉴定到1,027个SV与基因表达显著相关,表明SV可通过调控表达影响表型。例如,Dt06上一个196 bp缺失位于MHCKBL基因上游334 bp处(图8),显著降低其表达并导致纤维长度缩短,该结论经PCR及功能实验验证。

此外,整合大、小SV进行GWAS分析,共发现2,768个与多性状相关的SV,定位多个新的功能区域。典型如Dt11上覆盖CRPK1基因的2845 bp缺失,导致基因缺失并显著降低纤维强度,进一步证实该SV通过基因缺失影响表型。总体而言,SV在调控基因表达和育种性状形成中发挥关键作用,为棉花精准育种提供了重要靶标。

8 控制纤维长度和纤维强度的重要关联结构变异的鉴定




Copyright@2011-2025 All Rights Reserved    版权所有:js93金莎|中国有限公司-官方网站    京ICP备15007085号-1

一对一业务咨询

联系方式

联系电话

400-658-1585

企业邮箱

service@novogene.com
XML 地图