原核轉(zhuǎn)錄組知識大放送!一文帶你走進(jìn)原核轉(zhuǎn)錄組的世界
同為研究微生物產(chǎn)品的原核轉(zhuǎn)錄組,不同于擴(kuò)增子與宏基因組產(chǎn)品。16S/18S/ITS 統(tǒng)稱為擴(kuò)增子產(chǎn)品,是對特定目標(biāo)區(qū)域進(jìn)行擴(kuò)增后再進(jìn)行測序分析。宏基因組(Metagenome)也稱元基因組,是對微生物整個(gè)基因片段進(jìn)行測序的研究方法。要覆蓋微生物整個(gè)基因片段,所以宏基因組比擴(kuò)增子需要的數(shù)據(jù)量更多,有更完整的基因序列因此也可以進(jìn)行基因功能注釋分析。然而,原核轉(zhuǎn)錄組是一種單菌落微生物轉(zhuǎn)錄本測序,能夠獲得轉(zhuǎn)錄本的結(jié)構(gòu)信息及表達(dá)信息,基于NGS平臺,通過除核糖體RNA、構(gòu)建鏈特異性文庫,從基因序列水平和表達(dá)水平獲得原核生物在某個(gè)時(shí)期或者在某種環(huán)境條件下轉(zhuǎn)錄出來的所有轉(zhuǎn)錄本(包括mRNA,非編碼RNA等)的表達(dá)量差異信息及功能特征,找到關(guān)鍵的差異功能基因,揭示微生物不同表型形成的分子調(diào)控機(jī)制。
原核轉(zhuǎn)錄組結(jié)構(gòu)特征:原核生物是多順反子 mRNA,具有5''、3'' UTR,不具有 poly(A)尾巴,轉(zhuǎn)錄與翻譯同時(shí)進(jìn)行,壽命期短,具有可變操縱子結(jié)構(gòu)。
1、原核有參轉(zhuǎn)錄組
對于有參考基因組的物種,我們優(yōu)先選用原核有參轉(zhuǎn)錄組流程。分析主要包括數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)、參考基因組比對、基因組裝與結(jié)構(gòu)預(yù)測、基因表達(dá)水平分析、差異表達(dá)基因分析、非依賴 Rho 因子的終止子預(yù)測、sRNA 序列預(yù)測、SD 序列預(yù)測、GSEA、SNP等內(nèi)容。
2、原核無參轉(zhuǎn)錄組
對于基因組尚未測序和注釋的生物體,轉(zhuǎn)錄組需要利用測序數(shù)據(jù)重新組裝?;趨⒖嫉霓D(zhuǎn)錄組組裝和從頭轉(zhuǎn)錄組組裝都存在許多成熟的計(jì)算工具。然而,大多數(shù)工具主要是為真核轉(zhuǎn)錄組設(shè)計(jì)的,細(xì)菌基因組通常比真核基因組更密集,并且相鄰的細(xì)菌轉(zhuǎn)錄本經(jīng)常重疊,這使得區(qū)分相鄰細(xì)菌轉(zhuǎn)錄本的邊界具有難度。多順反子信息使細(xì)菌轉(zhuǎn)錄組組裝進(jìn)一步復(fù)雜化,特別是當(dāng)在不同條件下使用操縱子的不同啟動(dòng)子時(shí)。此外,真核生物中非編碼RNA的模型通常不適用于細(xì)菌中常見的小調(diào)節(jié)RNA。
Rockhopper 2[1]?軟件結(jié)合兩個(gè)數(shù)據(jù)結(jié)構(gòu),de Bruij 圖和 Burrows-Wheeler 指數(shù),使用類似于 RPKM 的測量來估計(jì)轉(zhuǎn)錄本豐度水平,該測量將轉(zhuǎn)錄本的讀段數(shù)相加,除以轉(zhuǎn)錄本的長度和歸一化因子。Rockhopper 2 使用更強(qiáng)大的上四分位數(shù)轉(zhuǎn)錄本表達(dá)歸一化,使用了高質(zhì)量的轉(zhuǎn)錄組組裝,并且在細(xì)菌數(shù)據(jù)組裝上優(yōu)于其他領(lǐng)先的組裝軟件如:Trinity、SOAPdenovo2。
原核無參轉(zhuǎn)錄組分析主要包括數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)、轉(zhuǎn)錄本組裝、基因表達(dá)水平分析、差異表達(dá)基因分析、GSEA等內(nèi)容。除轉(zhuǎn)錄本組裝外,與原核有參轉(zhuǎn)錄組分析結(jié)果基本重疊。
*如果沒有合適參考基因組,也可以搭配做三代測序的細(xì)菌小基因組組裝,獲得相對更精確、完整的基因組信息和注釋用于原核轉(zhuǎn)錄組分析。
實(shí)驗(yàn)提取樣品總 RNA,并進(jìn)行 RNA 質(zhì)量檢測,去除核糖體 RNA,在 cDNA 二鏈合成時(shí)以 dUTP代替 dTTP,然后連接不同接頭,再利用 UNG 酶法將含有 dUTP 的一條鏈進(jìn)行消化,只保留連接鏈不同接頭的 cDNA 一鏈,最后進(jìn)行 PCR 擴(kuò)增,使用測序儀進(jìn)行測序。
原核轉(zhuǎn)錄組實(shí)驗(yàn)流程
原核轉(zhuǎn)錄組分析流程(有參)
1、參考基因組比對
采用 Rockhopper 2 軟件進(jìn)行參考基因組比對分析,該軟件采用的比對算法類似 Bowtie2, 基于 BWT(Burrows–Wheeler_transform)數(shù)據(jù)轉(zhuǎn)化算法構(gòu)建參考基因組的 FM-index,使比對更加準(zhǔn)確快速。
Rockhopper2參考基因組比對分析原理
*對于無參考基因組的細(xì)菌微生物,采用 Rockhopper 2軟件 denovo 轉(zhuǎn)錄組組裝,將測序讀數(shù)與轉(zhuǎn)錄本對齊,從而估計(jì)轉(zhuǎn)錄本豐度水平。
Rockhopper 2 從頭轉(zhuǎn)錄組序列組裝原理
2、基因表達(dá)水平分析
用已知的參考基因序列做為數(shù)據(jù)庫,采取序列相似性比對的方法鑒定出各基因在各樣本中的表達(dá)豐度,使用 Rockhopper 2 軟件獲取每個(gè)樣本中比對到基因上的 reads 數(shù)以及計(jì)算基因的表達(dá)量 RPKM 值。RPKM法能消除基因長度和測序量差異對計(jì)算基因表達(dá)的影響。
PCA 可以從不同維度展現(xiàn)樣本間的關(guān)系。樣本聚類距離或者 PCA 距離越近,說明樣本越相似,各組樣本分布在二維或三維空間的不同區(qū)域,同組的樣本在空間分布比較集中。
PCA圖
3、差異分析
使用 DEseq2[2] 計(jì)算差異基因,其中可視化展示的火山圖可以了解差異表達(dá)基因的整體分布情況。
差異基因火山圖
4、富集分析
4.1、GO 富集分析?
GO 富集分析 top30 (篩選三種分類中對應(yīng)差異基因數(shù)目大于 2 的 GO 條目,按照每個(gè)條目對應(yīng)的 -log10pvalue 由大到小排序的各 10 條)條形圖展示如下:
GO富集條形圖
4.2、KEGG 富集分析
KEGG是有關(guān) Pathway 的主要公共數(shù)據(jù)庫,利用 KEGG 數(shù)據(jù)庫對差異蛋白編碼基因進(jìn)行 Pathway 分析(結(jié)合 KEGG 注釋結(jié)果),并用超幾何分布檢驗(yàn)的方法計(jì)算每個(gè) Pathway 條目中差異基因富集的顯著性。
KEGG富集氣泡圖
4.3 GSEA
基因集富集分析 (Gene Set Enrichment Analysis, GSEA) [3]是一種用于確定一組預(yù)先定義的基因是否在兩種生物狀態(tài)(例如表型)之間顯示出統(tǒng)計(jì)上顯著的或一致的差異的計(jì)算方法。其分為三個(gè)步驟,分別為計(jì)算富集分?jǐn)?shù)、估計(jì)富集分?jǐn)?shù)顯著性水平和矯正多重假設(shè)驗(yàn)證。GSEA 分析是基于全部檢出基因進(jìn)行分析,同時(shí)對基因集進(jìn)行了過濾,默認(rèn)的標(biāo)準(zhǔn)是基因集最小基因數(shù)量為 15、基因集最大基因數(shù)量為 500。
?GSEA 示例圖
基因分組聚類示例圖
5、高級分析
5.1、基因組裝與結(jié)構(gòu)預(yù)測
用 Rockhopper 2 軟件將測序結(jié)果得到基于序列比對數(shù)據(jù)獲得基因圖譜,將該圖譜與參考基因注釋進(jìn)行比較,鑒定邊界和新基因。
統(tǒng)計(jì)文件包括預(yù)測非反義轉(zhuǎn)錄本數(shù)目、預(yù)測轉(zhuǎn)錄本數(shù)目、預(yù)測多基因操縱子數(shù)目、預(yù)測反義 RNAs 數(shù)目、差異表達(dá)的蛋白編碼基因數(shù)目、5'' 端 UTR 數(shù)目、3'' 端 UTR 數(shù)目。
根據(jù)鑒定轉(zhuǎn)錄起始位點(diǎn)和轉(zhuǎn)錄終止位點(diǎn)以及注釋文件中的翻譯起始位點(diǎn)和翻譯終止位點(diǎn)預(yù)測得到 UTR 位置信息及其長度信息:
3'' 端UTR長度統(tǒng)計(jì)圖
5'' 端UTR長度統(tǒng)計(jì)圖
5.2、操縱子預(yù)測
原核生物功能上相關(guān)的幾個(gè)基因往往串聯(lián)在排列在一起,構(gòu)成操縱子結(jié)構(gòu)作為一個(gè)表達(dá)單位,用Rockhopper 2 軟件將操縱子預(yù)測算法從純序列特征發(fā)展到結(jié)合測序?qū)嶒?yàn)數(shù)據(jù)(即計(jì)算所得基因表達(dá)量),即聯(lián)合基因間距離和基因表達(dá)量相關(guān)性兩個(gè)特征用樸素貝葉斯分類器模型來預(yù)測操縱子。對預(yù)測得到操縱子進(jìn)行長度分布、包含的結(jié)構(gòu)基因數(shù)目和操縱子鏈分布進(jìn)行計(jì)算和可視化。
操縱子長度分布圖
操縱子結(jié)構(gòu)基因數(shù)目統(tǒng)計(jì)圖
操縱子鏈分布圖
5.3、反義基因預(yù)測
新預(yù)測的基因中如果基因與已知編碼基因重疊或包含,且位于不同的鏈上,則該基因判定為反義基因,使用 Rockhopper 2 軟件預(yù)測,反義基因分為三種類型:全部包含(enclosed),3'' 端重疊(convergent)和5'' 端重疊(divergent)。在測序數(shù)據(jù)來源于鏈特異文庫的條件下,可以預(yù)測反義基因位置、類型和數(shù)量。
反義基因統(tǒng)計(jì)圖
5.4、非依賴 Rho 因子的終止子預(yù)測
原核生物基因組中有轉(zhuǎn)錄終止信號,稱為終止子,部分基因轉(zhuǎn)錄終止需要輔助蛋白 Rho 因子,但其它基因核心酶本身即可終止轉(zhuǎn)錄。不依賴于 Rho 因子的轉(zhuǎn)錄終止子具有兩個(gè)重要結(jié)構(gòu)特征:DNA 順序有雙重對稱(dyad),位于 RNA 3'' 端之前 15-20 核苷酸處和 DNA 模板鏈中有一串約 6 個(gè) A,轉(zhuǎn)錄為 RNA ?3'' 端的U。雙重對稱的意義在于其基因能形成發(fā)夾結(jié)構(gòu)。采用 TransTermHP[4] 軟件預(yù)測不依賴于 Rho 因子的終止子序列。
轉(zhuǎn)錄終止子示意圖
5.5、sRNA 序列預(yù)測
原核生物 sRNA 是一類長度在 50-500 bp 的小 RNA 分子,用 Rockhopper 2 軟件預(yù)測 Novel 基因,RNAFold 分析其莖環(huán)結(jié)構(gòu),進(jìn)行二級結(jié)構(gòu)預(yù)測,使用 IntaRNA[5] 進(jìn)行靶基因預(yù)測,可綜合判斷 Novel 基因是否為潛在的 sRNA。
5.6、SD 序列預(yù)測
SD(Shine-Dalgarno)序列僅存在于原核生物中,SD 序列是一個(gè)存在于信使 RNA 上的核糖體結(jié)合位點(diǎn),通常位于起始密碼子上游。除引導(dǎo)翻譯過程外 SD 序列還有調(diào)控翻譯效率的作用。采用 RBSfinder[6] 軟件預(yù)測包含 SD 序列。
SD 序列示意圖
5.7、SNP 分析
SNP(Single Nucleotide Polymorphisms,單核苷酸多態(tài)性),是指在基因組上單個(gè)核苷酸的變異,包括置換、顛換、缺失和插入。以組裝好的轉(zhuǎn)錄本為模板序列,將原始序列與其進(jìn)行比對,利用 samtools 軟件進(jìn)行染色體坐標(biāo)排序、去重等處理,再用 samtools、bedtools 等軟件預(yù)測樣本中的 SNP 和 INDEL 位點(diǎn)。然后利用 snpEff 等軟件進(jìn)行功能注釋。為了降低 SNP&INDEL 檢測的錯(cuò)誤率,使用 QUAL (A quality score associated with the inference of the given allele) 大于等于 20,且 DP(combined depth across samples)大于等于 4 進(jìn)行過濾結(jié)果。對 SNP/INDEl 在基因組上各功能區(qū)域的分布進(jìn)行統(tǒng)計(jì)。
01
通過工程改造的冷營養(yǎng) 將半纖維素有效轉(zhuǎn)化為 2, 3-丁二醇:機(jī)制和效率
Efficient conversion of hemicellulose into 2, 3-butanediol by engineered: mechanism and efficiency
發(fā)表期刊:Bioresource Technology
影響因子:11.889
文章鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0960852422007829
02
AI-2/LuxS系統(tǒng)在冷藏鮮蝦生物保存中的作用:增強(qiáng)植物乳桿菌對營養(yǎng)物質(zhì)的競爭能力
The role of AI-2/LuxS system in biopreservation of fresh refrigerated shrimp: Enhancement in competitiveness of Lactiplantibacillus plantarum for nutrients
發(fā)表期刊:Food Research International
影響因子:7.425
文章鏈接:https://www.sciencedirect.com/science/article/abs/pii/S0963996922008961
03
蒙脫石對鎘誘導(dǎo)大腸桿菌耐藥基因的調(diào)控機(jī)制
Regulatory mechanism of montmorillonite on antibiotic resistance genes in Escherichia coli induced by cadmium
發(fā)表期刊:Applied Microbiology and Biotechnology
影響因子:5.56
文章鏈接:https://link.springer.com/article/10.1007/s00253-022-12075-x
04
比較轉(zhuǎn)錄組結(jié)合形態(tài)生理學(xué)分析揭示了嗜熱四膜蟲捕食誘導(dǎo)嗜水氣單胞菌抗噬菌體防御的分子機(jī)制
Comparative transcriptome combined with morphophysiological analyses revealed the molecular mechanism underlying Tetrahymena thermophila predation-induced antiphage defense in Aeromonas hydrophila
發(fā)表期刊:Virulence
影響因子:5.428
文章鏈接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9518995
以上就是原核轉(zhuǎn)錄組的相關(guān)介紹內(nèi)容,感興趣的老師可以聯(lián)系我們做進(jìn)一步詳細(xì)溝通。
參考文獻(xiàn)
[1].De novo assembly of bacterial transcriptomes from RNA-seq data. Brian Tjaden. Genome Biology, 16:1, 2015
[2].Love M I , Huber W , Anders S . Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2[J]. Genome Biology, 2014.?
[3].Aravind Subramanian, Pablo Tamayo, Vamsi K. Mootha. Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles[J]. PNAS, 2005
[4].C. Kingsford, K. Ayanbule and S.L. Salzberg. Rapid, accurate, computational discovery of Rho-independent transcription terminators illuminates their relationship to DNA uptake[J]. Genome Biology, 2007
[5].Martin Mann, Patrick R. Wright, and Rolf Backofen. IntaRNA 2.0: enhanced and customizable prediction of RNA-RNA interactions[J]. Nucleic Acids Research, 2017
[6].Chang TH, Huang HY, Hsu JB, Weng SL, Horng JT, Huang HD. An enhanced computational platform for investigating the roles of regulatory RNA and for identifying functional RNA motifs[J]. BMC Bioinformatics, 2013
上海歐易生物醫(yī)學(xué)科技有限公司(簡稱:“歐易生物”),成立于2009年,經(jīng)過十多年穩(wěn)健發(fā)展,已經(jīng)成長為擁有“晶準(zhǔn)生物”“鹿明生物”“青島歐易”三家全資子公司,近600名員工的生物科技領(lǐng)域集團(tuán)型企業(yè)。
歐易生物始終秉持著“硬數(shù)據(jù) · 好服務(wù)”的理念服務(wù)于大眾。為大生命科學(xué)、大健康相關(guān)研究領(lǐng)域,以及醫(yī)藥、食品及日化企業(yè)的客戶,提供從基礎(chǔ)研究到藥物靶點(diǎn)發(fā)現(xiàn)、藥理藥效及安全性評價(jià)、疾病分子標(biāo)志物篩選、致病菌及耐藥菌溯源等相關(guān)技術(shù)服務(wù),全力加速客戶研究與開發(fā)進(jìn)程,提升客戶研究與開發(fā)價(jià)值。
歐易生物攜手旗下子公司,實(shí)現(xiàn)了中心法則上、中、下游多層組學(xué)的串聯(lián),從基因組、轉(zhuǎn)錄組、表觀組、微生物組,到蛋白組、代謝組及近年熱門的單細(xì)胞&空間多組學(xué)技術(shù)服務(wù),為科研用戶提供全面的創(chuàng)新多組學(xué)技術(shù)服務(wù)。
歐易生物已先后獲得上海市科技小巨人企業(yè)、閔行區(qū)研發(fā)機(jī)構(gòu)、閔行區(qū)企業(yè)技術(shù)中心、產(chǎn)權(quán)管理體系認(rèn)證企業(yè)等資質(zhì)。擁有授權(quán)發(fā)明專利30+項(xiàng),在受理發(fā)明專利50+項(xiàng),軟件著作權(quán)150+項(xiàng)。