知組識(shí)譜 | 收藏!自建代謝物標(biāo)準(zhǔn)品數(shù)據(jù)庫指南,搞定代謝組學(xué)硬指標(biāo)!
如果把代謝組學(xué)比作最近大熱的ChatGPT,標(biāo)準(zhǔn)品數(shù)據(jù)庫就是ChatGPT訓(xùn)練模型的語料庫。假設(shè)訓(xùn)練ChatGPT的語料庫小且語病百出,那么輸出的內(nèi)容就像一個(gè)語言貧乏的AI在胡言亂語;同樣的,當(dāng)標(biāo)準(zhǔn)品數(shù)據(jù)庫不夠大或者信息不完善,與化合物相關(guān)的信息輸入到該數(shù)據(jù)庫中,便很有可能輸出不準(zhǔn)確的鑒定結(jié)果,導(dǎo)致代謝物的鑒定不準(zhǔn)確,那么基于該鑒定結(jié)果的后續(xù)分析也是白費(fèi)力氣。
目前代謝組學(xué)界達(dá)成共識(shí)的化合物鑒定等級(jí)可分為以下5個(gè)[1]:Level 1為通過參考標(biāo)準(zhǔn)品在相同分析條件下確證的化合物,包括匹配保留時(shí)間(RT)、一級(jí)(MS1)和二級(jí)(MS2),這也是唯一可以被認(rèn)為是確證的代謝物鑒定等級(jí);Level 2為通過文獻(xiàn)/公共庫檢索所得或者可能的斷裂方式推測(cè)所得化合物;Level 3為根據(jù)某類化合物的特定碎片所推斷的一類化合物;Level 4為根據(jù)質(zhì)譜信息(例如:加和離子、同位素峰、碎片信息等)推測(cè)出分子式的化合物;Level 5為分離得到、有精確質(zhì)荷比(m/z)且感興趣的未知化合物。
圖1. 代謝組學(xué)中代謝物鑒定的5級(jí)鑒定體系[1]
相比于基于公共庫或者參考文獻(xiàn)的Level 2鑒定,Level 1鑒定有著如下的優(yōu)勢(shì):(1)公共庫所使用的儀器平臺(tái)多樣,分析條件不一,呈現(xiàn)的譜圖也各異;再加上每臺(tái)儀器的背景噪聲不同、液相體系不同,同樣的儀器平臺(tái)和方法參數(shù)所獲得的譜圖并不相同。(2)同分異構(gòu)體,顧名思義,是分子式相同、結(jié)構(gòu)不同的化合物。相同的分子式導(dǎo)致他們的精確質(zhì)量數(shù)和同位素分布一致,而不同的分子結(jié)構(gòu)并不一定會(huì)在二級(jí)譜圖中存在明顯差異,這時(shí)就需要引入另一個(gè)維度——色譜分離。同分異構(gòu)體是代謝組學(xué)中十分常見也是不可避免的,拿葡萄糖(glucose)和甘露糖(mannose)舉例,他們擁有同樣的“馬甲”——化學(xué)式C6H12O6,但二者是差向異構(gòu)體(見圖2),通過質(zhì)譜圖,包括一級(jí)和二級(jí)很難將兩者區(qū)分開,但從色譜上(見圖3)看到兩個(gè)峰可以得到完全分離,可見RT是化合物鑒定非常重要的一環(huán)。
圖2. 葡萄糖與甘露糖在高分辨中的二級(jí)圖譜
圖3. 通過液相色譜,可以實(shí)現(xiàn)葡萄糖與甘露糖的色譜分離,從而利用保留時(shí)間完成精確鑒定
自建庫工作的第一步,就是購買需要的標(biāo)準(zhǔn)品并按照說明書對(duì)標(biāo)準(zhǔn)品進(jìn)行保存,易氧化的化合物需充氮?dú)饷芊獗4?,易光解的化合物需要避光保存,熱不穩(wěn)定的化合物則需要低溫保存。同時(shí)還建議在標(biāo)準(zhǔn)品入庫時(shí)進(jìn)行分類,入庫時(shí)間、保存位置和保存條件都建議登記存檔,以避免和方便回溯標(biāo)品過期、標(biāo)品保存條件不當(dāng)和標(biāo)品錯(cuò)位等導(dǎo)致的譜圖錯(cuò)誤問題。固體粉末的純標(biāo)需要通過說明書或檢索文獻(xiàn)查到對(duì)應(yīng)溶劑以完全溶解標(biāo)準(zhǔn)品并記錄溶劑,溶液標(biāo)品也需要記錄溶劑信息,用于母液逐級(jí)稀釋成中間工作液時(shí)的溶劑選擇。
圖4. 天津阿爾塔科技有限公司,是中國領(lǐng)先的具有標(biāo)準(zhǔn)物質(zhì)專業(yè)研發(fā)及生產(chǎn)能力的國家級(jí)高新技術(shù)企業(yè),助力凱萊譜多組學(xué)平臺(tái)自建代謝物標(biāo)品數(shù)據(jù)庫建設(shè)?
其次檢索化合物的基本信息,包括化合物名、分子式、精確質(zhì)量數(shù)、CAS ID、HMDB ID和KEGG ID等等。買過標(biāo)品的朋友這時(shí)候就比較好奇了,買標(biāo)品的時(shí)候商家至少會(huì)提供標(biāo)品名稱,為什么需要再查一遍化合物名?
來,我們看個(gè)例子。Pyridoxine hydrochloride是買到的標(biāo)品名稱,檢索得到的化學(xué)式為C8H12ClNO3,以此去提EIC圖會(huì)發(fā)現(xiàn)找不到對(duì)應(yīng)的峰,這是怎么回事呢?回過頭來再看一下Pyridoxine hydrochloride的分子結(jié)構(gòu)
發(fā)現(xiàn)它是吡哆醇以鹽酸鹽形式存在的標(biāo)品,進(jìn)入質(zhì)譜僅留下吡哆醇,分析的化學(xué)式也應(yīng)為C8H11NO3。現(xiàn)在能get到重新查一遍化合物信息的必要性了吧?回過頭再來看一下Pyridoxine hydrochloride和Pyridoxine所檢索信息的區(qū)別(見表1),名稱錯(cuò)誤還會(huì)導(dǎo)致CAS、HMDB、KEGG ID錯(cuò)誤,而這些ID對(duì)于通路分析十分重要,相對(duì)化合物名稱而言,ID的準(zhǔn)確性,是通路分析的唯一標(biāo)識(shí)。諸如此類,因合成工藝、保存條件和溶解性質(zhì)而使標(biāo)準(zhǔn)品以鹽酸鹽、氫溴酸鹽、硫酸鹽、鈉鹽水合物、馬來酸鹽等形式存在的情況在檢索時(shí)需要引起注意。此外,對(duì)只含有C、H、O、N的有機(jī)化合物還可以使用氮規(guī)則來檢查分子量是否正確。
表1 Pyridoxine hydrochloride和Pyridoxine檢索信息對(duì)照表
接下去到了上機(jī)采集的階段?;衔镌隗w內(nèi)的濃度不一,同一化合物使用相同分析條件在不同濃度下產(chǎn)生的二級(jí)碎片并不一致,因此,建庫時(shí)建議選擇3-5個(gè)濃度進(jìn)行。純?nèi)軇┎杉馁|(zhì)譜圖,無論是一級(jí)還是二級(jí),干擾少,而真實(shí)樣本基質(zhì)復(fù)雜,背景干擾多,所以補(bǔ)充基質(zhì)庫對(duì)于鑒定而言更為可靠。質(zhì)譜一般設(shè)置正、負(fù)兩種掃描模式,碰撞能量小編同樣建議設(shè)定3-5個(gè),這樣能夠更全面地看到化合物的碎片,使譜圖庫更為完整。此外,以O(shè)rbitrap為例,在保證質(zhì)譜儀質(zhì)量精度穩(wěn)定的前提下縮小isolation window能夠避免背景干擾出現(xiàn)在目標(biāo)物的二級(jí)譜圖中。
前文提到,色譜分離是化合物分離的另一維度,在建庫時(shí)建議使用液相色譜串聯(lián)質(zhì)譜,雖然會(huì)拉長數(shù)據(jù)采集時(shí)間,但這樣采集一方面可以區(qū)分同分異構(gòu)體,另一方面可以按照代謝組學(xué)日常做樣的方法參數(shù)采集數(shù)據(jù)從而得到可用的保留時(shí)間和對(duì)應(yīng)液相體系下的質(zhì)譜數(shù)據(jù),一舉兩得。目前常見的代謝組學(xué)方法為了提高覆蓋率,將親脂性化合物的反相液相色譜RPLC與水溶性化合物的親水相互作用液相色譜HILIC相結(jié)合已變得越來越普遍。
單純收集數(shù)據(jù)還不算完,還得通過數(shù)據(jù)質(zhì)控來判斷采集的譜圖是否穩(wěn)定可靠。向上機(jī)溶液中加入內(nèi)標(biāo)是常用的手段,它能夠通過記錄內(nèi)標(biāo)的“表現(xiàn)”來監(jiān)測(cè)色譜及質(zhì)譜的“行為”。選擇的內(nèi)標(biāo)應(yīng)穩(wěn)定,不影響待測(cè)組分且相對(duì)均勻地分布在色譜梯度上。標(biāo)品采集前使用內(nèi)標(biāo)進(jìn)行系統(tǒng)適應(yīng)性測(cè)試,標(biāo)品采集中使用內(nèi)標(biāo)實(shí)時(shí)監(jiān)控儀器狀態(tài),內(nèi)標(biāo)的“表現(xiàn)”主要有:保留時(shí)間偏差(<0.2 min)、響應(yīng)波動(dòng)(CV<15%)、質(zhì)量精度偏差(<10 ppm)和半峰寬(<0.03 mim)。另外柱壓的監(jiān)測(cè)也常用于判斷色譜漏液情況,提前避免保留時(shí)間出現(xiàn)較大偏差。要知道Level 1鑒定的化合物需要匹配RT、MS1和MS2,其中RT是最容易發(fā)生偏移且也是最難監(jiān)控的指標(biāo),如果沒有內(nèi)標(biāo)作“記號(hào)”,RT的偏移或柱效的變差會(huì)使互為同分異構(gòu)體的化合物鑒定錯(cuò)亂或無法分離。由此可見,只有嚴(yán)格的質(zhì)量控制才能保證建庫穩(wěn)定可靠,由此鑒定的化合物才不會(huì)出現(xiàn)假陽、假陰的情況。
到這里,大家可以稍微喘口氣了,數(shù)據(jù)采集告一段落。但,也僅僅是數(shù)據(jù)采集,最后還需要將采集的數(shù)據(jù)整理成數(shù)據(jù)庫。下機(jī)的數(shù)據(jù)還需要先根據(jù)前期查的精確質(zhì)量數(shù)算出[M+H]+和[M-H]-的m/z進(jìn)行提峰,但一些化合物,比如碳水化合物,它的加和形式的響應(yīng)要高于加氫、減氫峰,因此需要進(jìn)一步判斷出目標(biāo)物響應(yīng)高且穩(wěn)定的母離子。需要注意的是正離子掃描模式下的加鈉峰在建庫時(shí)不建議使用,因?yàn)榧逾c峰打出的二級(jí)碎片不夠穩(wěn)定。此外,許多化合物還會(huì)在離子源發(fā)生源內(nèi)裂解,產(chǎn)生中性丟失、自由基丟失等,小編將常見的母離子形式列出供大家參考(表2)。找到母離子后再根據(jù)m/z提出的色譜峰提取一級(jí)質(zhì)譜圖和二級(jí)質(zhì)譜圖,一級(jí)質(zhì)譜圖可以通過同位素峰的相對(duì)豐度對(duì)照化學(xué)式再次確認(rèn),而二級(jí)質(zhì)譜圖需進(jìn)行降噪處理,查看譜圖質(zhì)量。
表2 質(zhì)譜掃描常見母離子
小結(jié)
建立一個(gè)高質(zhì)量的自建代謝物標(biāo)準(zhǔn)品數(shù)據(jù)庫需要投入大量的金錢(標(biāo)準(zhǔn)品購買、檢測(cè)儀器機(jī)時(shí)等等)和時(shí)間(標(biāo)準(zhǔn)品處理、數(shù)據(jù)采集和整理、數(shù)據(jù)庫建立與維護(hù)等等),但是也能實(shí)現(xiàn)準(zhǔn)確可靠的代謝組鑒定。做代謝組學(xué)簡(jiǎn)單,做好代謝組學(xué)不簡(jiǎn)單,可靠的標(biāo)準(zhǔn)品數(shù)據(jù)庫是硬指標(biāo)。類似打羽毛球,準(zhǔn)確的標(biāo)準(zhǔn)品名稱、ID是標(biāo)準(zhǔn)品數(shù)據(jù)庫的“裝備”,擁有RT、MS1和MS2的信息是標(biāo)準(zhǔn)品數(shù)據(jù)庫Level 1鑒定的“功底”,嚴(yán)格的質(zhì)控要求是保證標(biāo)準(zhǔn)品數(shù)據(jù)庫穩(wěn)定可靠的“競(jìng)技規(guī)則”,譜圖的正確注釋和解析是標(biāo)準(zhǔn)品數(shù)據(jù)庫輸出的“落點(diǎn)”,做好以上幾點(diǎn)自然“得分”。小編和大家介紹標(biāo)準(zhǔn)品建庫的基本流程和化合物鑒定的注意事項(xiàng),希望廣大科研人不再踩坑,拿可靠的數(shù)據(jù)做可靠的科研!
圖5. 自建代謝物標(biāo)準(zhǔn)品數(shù)據(jù)庫基本流程
參考文獻(xiàn)
[1] Schymanski E. L. , Jeon, J. , Gulde, R. , Fenner, K. , Ruff, M. , Singer, H. P. , Hollender, J. Identifying small molecules via high resolution mass spectrometry: communicating confidence[J]. Environmental Science & Technology, 2014, 48(4), 2097.
●?往期推薦
學(xué)術(shù)成果 | 凱萊譜代謝組學(xué)平臺(tái)持續(xù)支持環(huán)境暴露因素對(duì)人群健康影響的隊(duì)列研究
世界防治結(jié)核病日 | 認(rèn)識(shí)結(jié)核,規(guī)范防治
新品發(fā)布 | 膽汁酸代謝研究解決方案
再續(xù)六年碩果,凱萊譜與SCIEX開啟新一輪戰(zhàn)略合作