生物育種智庫(kù)第四期 | Rice3K56 SNP芯片是水稻基因組遺傳研究和育種的高效工具
研究亮點(diǎn)
單核苷酸多態(tài)性(SNP)基因分型芯片是動(dòng)植物遺傳研究和分子育種的理想的高通量平臺(tái)。在本項(xiàng)由安徽農(nóng)業(yè)大學(xué)農(nóng)學(xué)院、中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所、三亞中國(guó)農(nóng)業(yè)科學(xué)院國(guó)家南繁研究院、華智生物技術(shù)有限公司的研究人員開(kāi)展的工作中,利用來(lái)自全球89個(gè)國(guó)家地區(qū)的3024份水稻材料的重測(cè)序數(shù)據(jù),基于Axiom基因芯片技術(shù)開(kāi)發(fā)了高質(zhì)量的包含56,606個(gè)標(biāo)記的定制化Rice3K56 SNP芯片,并在192份代表性水稻樣本中進(jìn)行了廣泛測(cè)試。與之前開(kāi)發(fā)的水稻SNP芯片相比,Rice3K56芯片具有高基因分型可靠性(99.6%),高且均勻的基因組覆蓋率(相鄰SNP之間平均距離6.7 kb),豐富的多態(tài)性信息和易于自動(dòng)化的特點(diǎn)。在水稻品種區(qū)分、群體多樣性分析、通過(guò)全基因組關(guān)聯(lián)分析(GWAS)對(duì)13個(gè)復(fù)雜性狀進(jìn)行基因定位以及重組自交系和多親本高級(jí)世代互交群體的基因組選擇中,Rice 3K56芯片的優(yōu)異性能得到了很好的驗(yàn)證。由于其強(qiáng)大的功能和巨大的應(yīng)用潛力,它將成為水稻遺傳研究和基因組育種的高效工具。
研究背景
開(kāi)發(fā)一個(gè)低成本、高通量、高靈活性和高效率的基因分型平臺(tái),對(duì)于加快植物功能基因組研究進(jìn)展與育種應(yīng)用的整合至關(guān)重要。
作為一種重要的基因分型技術(shù),SNP芯片(陣列)平臺(tái)比NGS更具成本效益,并能提供穩(wěn)定的數(shù)據(jù)分析流程。迄今為止,SNP芯片已越來(lái)越多地用于植物和動(dòng)物育種中的全基因組關(guān)聯(lián)研究(GWAS)、數(shù)量性狀位點(diǎn)(QTL)鑒定、遺傳多樣性測(cè)定、基因組選擇(GS)、基因挖掘、混合群體分離分析(BSA)和標(biāo)記輔助選擇(MAS)。
水稻因其較小的基因組大小、極其豐富的遺傳變異以及高質(zhì)量的基因組測(cè)序數(shù)據(jù)而被作為作物功能基因組研究的模式物種。目前已有一系列具有不同標(biāo)記數(shù)目和基因組覆蓋率的水稻SNP芯片,這些芯片是利用不同的技術(shù)設(shè)計(jì)和開(kāi)發(fā)的。然而,由于各種限制,如標(biāo)記密度不足、基因組覆蓋率不足、應(yīng)用穩(wěn)定性低等,這些芯片都沒(méi)有得到廣泛應(yīng)用。為了克服這些問(wèn)題,需要開(kāi)發(fā)一款高密度的SNP芯片,以覆蓋足夠的基因組變異,并以合理的成本確保特定和廣泛的應(yīng)用。新的Rice 3K56 SNP芯片包含>56K個(gè)標(biāo)記位點(diǎn),具有更好的基因組覆蓋率。通過(guò)對(duì)水稻多親本遺傳群體的品種區(qū)分、多樣性分析、遺傳作圖和基因組選擇,驗(yàn)證了該芯片的優(yōu)勢(shì)和效率。
研究方法
植物材料
本研究共選用了192份具有代表性的水稻材料,收集自33個(gè)國(guó)家和地區(qū)。
SNP挖掘與過(guò)濾
通過(guò)與粳稻Nipponbare(NipRef)和秈稻9311參考基因組的比對(duì),從3KRGP(3024份水稻材料)的NGS測(cè)序數(shù)據(jù)中挖掘了>18.9 M個(gè)高質(zhì)量的SNP(比對(duì)質(zhì)量>20,深度>2,MAF>0.001)和InDel位點(diǎn)。從中過(guò)濾出約2.5 M個(gè)多態(tài)性SNP位點(diǎn)用于基因芯片設(shè)計(jì)。
SNP挑選和驗(yàn)證
為了確保開(kāi)發(fā)的芯片能夠滿足水稻基因分型的多種應(yīng)用需求,選定了賽默飛Axiom基因芯片平臺(tái)進(jìn)行芯片的開(kāi)發(fā),因?yàn)樗峁┝撕?jiǎn)單的基因分型流程,具有極高的精度和重復(fù)性,并可以覆蓋從相近個(gè)體的準(zhǔn)確區(qū)分到復(fù)雜的全基因組分析的多種分辨率和應(yīng)用場(chǎng)景。
將初步篩選出的2.5 M個(gè)多態(tài)性SNP位點(diǎn)分別設(shè)計(jì)到4張Axiom篩選芯片上。為了測(cè)試這2.5 M個(gè)候選SNP位點(diǎn)的質(zhì)量,使用這4張Axiom篩選芯片對(duì)192份代表性水稻材料進(jìn)行基因分型,然后根據(jù)Axiom平臺(tái)的標(biāo)準(zhǔn)對(duì)基因分型結(jié)果進(jìn)行評(píng)估,從而挑選出高質(zhì)量的SNP位點(diǎn)。
圖1. Rice3K56 SNP芯片的開(kāi)發(fā)及192份樣品的遺傳多樣性分析。(A)單核苷酸多態(tài)性(SNP)位點(diǎn)的挖掘、過(guò)濾和挑選流程方案,用于Rice3K56基因芯片的開(kāi)發(fā)。簡(jiǎn)單地說(shuō),從3024份材料的重測(cè)序數(shù)據(jù)中確定了初始位點(diǎn)。然后,利用日本晴(粳稻)和9311(秈稻)的參考基因組挖掘了獨(dú)特的多態(tài)性位點(diǎn)。共挖掘出約2.5 M個(gè)多態(tài)性SNP位點(diǎn)設(shè)計(jì)了4張篩選芯片,并以192份代表性水稻材料作為測(cè)試樣本。最終挑選出56,606個(gè)高質(zhì)量SNP位點(diǎn)設(shè)計(jì)成Rice3K56芯片。(B)Rice3K56芯片的多態(tài)性信息量(PIC)。(C)SNP位點(diǎn)在整個(gè)水稻基因組中的分布,SNP位點(diǎn)包括了來(lái)自日本晴和9311參考基因組的位點(diǎn),每一行代表一條染色體,單個(gè)染色體的每個(gè)豎條表示每1Mb間隔內(nèi)的SNP位點(diǎn),右下角的不同顏色表示SNP位點(diǎn)的密度。(D)基于所有SNP位點(diǎn)構(gòu)建的NJ樹(shù)。(E)基于主成分分析(PCA)的192份測(cè)試材料的群體結(jié)構(gòu),其中PC1和PC2分別表示第一和第二主成分。
研究結(jié)果
Rice3K56芯片的特點(diǎn)
Rice3K56芯片共包含56,606個(gè)高質(zhì)量SNP位點(diǎn)(圖1A)。多態(tài)性信息量(PIC)在0.1-0.2的SNP位點(diǎn)占10.4%,0.2-0.3的占25.4%,0.3-0.4的占31.0%,0.4 - 0.5的占27.9%(圖1B)??偟膩?lái)說(shuō),該芯片在水稻基因組中的基因覆蓋率高,SNP位點(diǎn)均勻分布在全部12條染色體上,不同染色體上的SNP位點(diǎn)數(shù)目范圍為3400個(gè)SNP位點(diǎn)(10號(hào)染色體)到7158個(gè)SNP位點(diǎn)(1號(hào)染色體)之間,其中79.9%的SNP位點(diǎn)在整個(gè)基因組中間隔10 kb均勻分布(圖1C)。Rice3K56芯片中相鄰SNP位點(diǎn)之間的平均距離為6.7 kb,中位數(shù)為5.3 kb,只有0.13%的SNP間隔大于100 kb。不同染色體上的SNP位點(diǎn)數(shù)目與染色體長(zhǎng)度呈正相關(guān)(r = 0.96,P < 0.001)。在功能上,Rice3K56芯片分別有8916和3222個(gè)SNP位點(diǎn)位于注釋基因區(qū)域的3’UTR和5’UTR,5230個(gè)SNP位點(diǎn)位于基因內(nèi)含子區(qū)域,10,364個(gè)SNP位點(diǎn)位于基因間隔區(qū),6381個(gè)SNP位點(diǎn)位于基因上游2kb區(qū)域,940個(gè)SNP位點(diǎn)位于56個(gè)重要性狀基因的上游2kb、下游2kb或基因編碼區(qū)域。
Rice3K56芯片在品種鑒定中的應(yīng)用
為確定Rice3K56芯片在水稻品種鑒定中的有效性,利用Rice3K56芯片對(duì)一系列親緣關(guān)系較近的商品化粳稻品種(龍粳31、龍粳39、龍粳44、龍盾104、龍慶稻3號(hào)、龍生03011、龍花08752和龍糯98-325)進(jìn)行基因分型?;蚍中徒Y(jié)果表明,Rice3K56芯片對(duì)水稻品種(包括近緣水稻品種)的鑒別非常有效。
采用Rice3K56芯片通過(guò)全基因組關(guān)聯(lián)分析(GWAS)進(jìn)行基因/QTL定位
為了檢驗(yàn)Rice3K56芯片通過(guò)全基因組關(guān)聯(lián)分析(GWAS)進(jìn)行基因/QTL定位的有效性,研究中從192份水稻材料中選取了84份材料,初步鑒定出了影響13個(gè)重要農(nóng)藝性狀的基因/QTL,因?yàn)轭A(yù)測(cè)GWAS在小群體中定位QTL的有效性較低。共鑒定出影響13個(gè)相關(guān)性狀的108個(gè)位點(diǎn),分布在全部12條染色體上。這些結(jié)果清楚地表明,Rice3K56芯片是一個(gè)能夠有效用于全基因組關(guān)聯(lián)分析(GWAS)的工具。
圖2. Rice3K56芯片在全基因組關(guān)聯(lián)研究(GWAS)中的應(yīng)用
Rice3K56芯片在基因組選擇(GS)中的應(yīng)用
研究中采用9種預(yù)測(cè)模型對(duì)多親本高代互交系(MAGIC)群體DCI、DC2和8-way中株高(PH)和抽穗期(HD)兩個(gè)高遺傳力性狀的后代性能進(jìn)行了預(yù)測(cè)。9種預(yù)測(cè)模型分別為貝葉斯A、貝葉斯套索算法(BL)、貝葉斯嶺回歸(BRR)、EGBLUP、彈性網(wǎng)絡(luò)回歸算法(EN)、基因組最佳線性無(wú)偏預(yù)測(cè)(GBLUP)、套索回歸(LASSO)、再生核希爾伯特空間(RKHS)和嶺回歸(RR)??偟膩?lái)說(shuō),結(jié)果證明了Rice3K56芯片在基因組選擇(GS)中的有效性,盡管不同模型在GS中對(duì)不同目標(biāo)性狀的預(yù)測(cè)精度存在差異的原因仍有待闡明。
圖3. Rice3K56芯片在基因組選擇中的應(yīng)用
討論
目前,DNA標(biāo)記在動(dòng)植物育種中的應(yīng)用越來(lái)越廣泛。SNP作為最豐富的分子標(biāo)記,被廣泛用于遺傳研究和育種。與傳統(tǒng)分子標(biāo)記相比,包含大量SNP位點(diǎn)的高密度SNP芯片為大量樣品的高通量基因分型提供了理想的高通量平臺(tái),在復(fù)雜性狀的遺傳解析、群體結(jié)構(gòu)分析、分子標(biāo)記輔助選擇(MAS)和基因組選擇(GS)育種計(jì)劃中具有廣泛的應(yīng)用。此外,DNA測(cè)序技術(shù)正在迅速發(fā)展,成本也在下降。與NGS和GBS技術(shù)相比,SNP芯片的優(yōu)勢(shì)主要在于其用戶友好性,在SNP檢測(cè)時(shí)無(wú)需進(jìn)行復(fù)雜的生物信息學(xué)分析,并且在整合多個(gè)基因分型實(shí)驗(yàn)數(shù)據(jù)時(shí)具有極高的簡(jiǎn)便性和一致性。
與以往基于少量樣本測(cè)序而開(kāi)發(fā)的其它水稻SNP芯片相比,Rice3K56芯片是基于3024份水稻材料的大量樣本的重測(cè)序數(shù)據(jù)開(kāi)發(fā)的,因此具有以下優(yōu)勢(shì):首先,它具有高的基因分型可靠性(99.6%)、密度、基因組覆蓋率和均勻性。其次,Rice3K56芯片遺傳穩(wěn)定性高,重復(fù)性好,易于自動(dòng)化;因此,可以很方便地對(duì)多個(gè)基因分型實(shí)驗(yàn)的相同數(shù)據(jù)進(jìn)行聯(lián)合分析和比較。第三,由于它是基于最大的重測(cè)序數(shù)據(jù)集開(kāi)發(fā)的,因此具有很高的穩(wěn)定性和區(qū)分能力,適用范圍廣泛。第四,高通量,單個(gè)數(shù)據(jù)點(diǎn)成本低。最后,由于包含了2300多個(gè)水稻基因中的2-3個(gè)SNP位點(diǎn),以及56個(gè)水稻重要農(nóng)藝性狀基因區(qū)域中的940個(gè)SNP位點(diǎn),具有較高的多態(tài)性信息量(PIC),在水稻育種、基因/QTL定位和功能分析中具有很高的應(yīng)用價(jià)值。例如,使用Rice3K56芯片進(jìn)行SNP基因分型將提供平均56,379個(gè)有效數(shù)據(jù)點(diǎn),或是說(shuō)假設(shè)每份水稻材料的基因數(shù)量在40,000 - 45,000之間,那么提供的是每個(gè)基因約1.3個(gè)SNP位點(diǎn)的信息。
上述優(yōu)勢(shì)在我們的應(yīng)用中得到了清晰的證明,特別是通過(guò)全基因組關(guān)聯(lián)分析(GWAS)在84份小樣本量的水稻材料中鑒定出與13個(gè)性狀相關(guān)的108個(gè)高度顯著的SNP位點(diǎn),其中15個(gè)SNP位點(diǎn)被定位到包含11個(gè)克隆基因的相同或重疊的基因區(qū)域。這證明了Rice3K56芯片在基因/QTL鑒定中的有效性。綜上所述,本項(xiàng)研究中開(kāi)發(fā)的高密度Rice3K56芯片有望在各種水稻遺傳研究和育種項(xiàng)目中得到越來(lái)越多的應(yīng)用,包括作圖群體的連鎖圖譜構(gòu)建、QTL分析、不育系的區(qū)分、基因組選擇(GS)和種質(zhì)資源鑒定。
結(jié)論
本項(xiàng)研究中,基于先前的3024份水稻材料的重測(cè)序數(shù)據(jù)開(kāi)發(fā)了一個(gè)高通量的Rice3K56 SNP芯片。該水稻SNP芯片包含56,606個(gè)SNP位點(diǎn),這些SNP位點(diǎn)均勻分布在水稻全基因組中。大約80%的SNP位點(diǎn)在水稻基因組中間隔10 kb均勻分布,相鄰SNP位點(diǎn)之間的平均距離為6.7 kb。該芯片還包含了2300多個(gè)水稻基因中的2-3個(gè)SNP位點(diǎn)以及56個(gè)水稻重要農(nóng)藝性狀基因區(qū)域中的940個(gè)SNP位點(diǎn)。通過(guò)對(duì)192份水稻材料的測(cè)試,證明了Rice3K56 SNP芯片是一個(gè)高效的基因分型平臺(tái),在水稻群體結(jié)構(gòu)分析、商業(yè)化品種鑒定、全基因組關(guān)聯(lián)分析(GWAS)和基因組選擇(GS)等方面具有良好的應(yīng)用前景。
參考文獻(xiàn)
C.P. Zhang, M. Li, L.P. Liang, J. Xiang, F. Zhang, C.Y. Zhang, Y.Z. Li, J. Liang, T.Q. Zheng, F.L. Zhang, H. Li, B.Y. Fu, Y.Y. Shi, J.L. Xu, B.C. Tian, Z.K. Li, W.S. Wang, Rice3K56 is a high-quality SNP array for genome-based genetic studies and breeding in rice (Oryza sativa L.), The Crop Journal 11 (2023) 800–807
拓展閱讀
生物育種智庫(kù)第三期 | 小麥660K與55K SNP芯片在基礎(chǔ)與應(yīng)用研究領(lǐng)域的應(yīng)用
生物育種智庫(kù)第二期|全球用量最大的玉米基因芯片之一 :Maize6H-60K
世界人口日 | 生物育種智庫(kù)系列第一期:?NSECT 發(fā)布首個(gè)應(yīng)用于昆蟲(chóng)育種的高密度基因分型芯片