視頻實操SCI作圖課(3):OPLS-DA分析,組間差異的挖掘神器
在上一場小工具講解中,小姐姐給大家介紹了PLS-DA的原理及用途,而在代謝組學(xué)數(shù)據(jù)分析中,除去PLS-DA以外,OPLS-DA分析也是非常常見的,僅一個字母之差,那二者到底有何差別,我們一起來一探究竟!
■?■■■■
?視頻解說教程
1
什么是OPLS-DA分析?
OPLS-DA分析,全稱正交偏最小二乘法判別分析(OrthogonalPartialLeast Squares-DiscriminantAnalysis),它結(jié)合了正交信號矯正(OSC)和PLS-DA方法,能夠?qū)矩陣分解成與Y相關(guān)和不相關(guān)的兩類信息,通過去除不相關(guān)的差異來篩選差異變量。
2
OPLS-DA分析的原理是什么???
OPLS-DA不同于PCA,它是一種有監(jiān)督的判別分析統(tǒng)計方法。運用偏最小二乘回歸建立代謝物表達量與樣本類別之間的關(guān)系模型,來實現(xiàn)對樣本類別的預(yù)測。OPLS-DA分析需要樣本變量矩陣和樣本分類矩陣兩個文件來確立樣本關(guān)系,如下所示:
X矩陣,樣本-變量矩陣
變量1
變量2
變量3
樣本1
n11
n12
n13
樣本2
n21
n22
n23
樣本3
n31
n32
n33
樣本4
n41
n42
n43
Y矩陣,樣本分類矩陣
分類1
分類2
樣本1
10
樣本2
01
樣本3
10
樣本4
01
OPLS-DA建模時,將X矩陣信息分解成與Y相關(guān)和不相關(guān)的兩類信息,其中與Y相關(guān)的變量信息為預(yù)測主成分,與Y不相關(guān)的變量信息為正交主成分。根據(jù)OPLS-DA模型分析代謝組數(shù)據(jù),繪制各分組的得分圖,進一步展示各個分組之間的差異(Thévenotet al., 2015)。
3
OPLS-DA分析有什么用???
OPLS-DA分析在實現(xiàn)降維的同時考慮了分組信息,因此它可以用于特征選擇以及分類,也就是在代謝組學(xué)數(shù)據(jù)分析中,可以用于篩選不同組之間的差異代謝物。通過OPLS-DA分析,每個代謝物可以得出一個VIP值,即變量重要性投影(VariableImportance inProjection,VIP),VIP值越大,代表該物質(zhì)對于區(qū)分兩組所具有的貢獻越大,因此我們在挑選差異代謝物時,通常會將VIP值作為其中一項重要的考察指標(biāo)。
4
OPLS-DA分析的結(jié)果怎么看???
OPLS-DA分析結(jié)果中最常用的圖就是OPLS-DA得分圖,圖中橫坐標(biāo)表示預(yù)測主成分,因此橫坐標(biāo)方向可以看出組間的差距;縱坐標(biāo)表示正交主成分,因此縱坐標(biāo)方向可以看出組內(nèi)的差距;百分比表示該成分對數(shù)據(jù)集的解釋率。圖中的每個點表示一個樣品,同一個組的樣品使用同一種顏色表示,Group為分組。
■?■■■■
OPLS-DA得分圖
除去得分圖以外,OPLS-DA分析還可以得到S-plot圖,S-plot圖的橫坐標(biāo)表示主成份與代謝物的協(xié)方差,縱坐標(biāo)表示主成份與代謝物的相關(guān)系數(shù)。S-plot圖一般用來挑選與OSC過程中主要成分的相關(guān)性比較強的代謝物,從另一方面同時也可以挑選與Y相關(guān)性強的代謝物。越靠近兩個角的代謝物重要度越強。S-plot圖中紅色的點表明這些代謝物的VIP值大于等于1,綠色的點表示這些代謝物的VIP值小于等于1。
■?■■■■
OPLS-DA的S-plot圖
5
如何評判OPLS-DA模型的好壞???
并非所有的數(shù)據(jù)都適合使用OPLS-DA模型進行分析,因此在模型建立之后,我們需要通過模型驗證來對模型質(zhì)量進行評價。
OPLS-DA評價模型的參數(shù)有R2X,R2Y和Q2,其中R2X和R2Y分別表示所建模型對X和Y矩陣的解釋率,Q2表示模型的預(yù)測能力,這三個指標(biāo)越接近于1時表示模型越穩(wěn)定可靠,Q2 >0.5時可認(rèn)為是有效的模型,Q2 >0.9時為出色的模型。
■?■■■■
OPLS-DA模型驗證圖
上圖為OPLS-DA模型驗證圖,圖中橫坐標(biāo)表示模型R2Y,Q2值,縱坐標(biāo)是模型分類效果出現(xiàn)的頻數(shù),即本模型對數(shù)據(jù)進行200次隨機排列組合實驗,若Q2?的p= 0.02,說明在此次Permutation檢測中共有4個隨機分組模型的預(yù)測能力優(yōu)于本OPLS-DA模型,若R2Y的p= 0.545,說明在此次Permutation檢測中共有109個隨機分組模型其對Y矩陣的解釋率優(yōu)于本OPLS-DA模型。一般情況下,p< 0.05 時模型最佳。
免費注冊
邁維代謝
武漢邁特維爾生物科技有限公司(簡稱“邁維代謝”)位于武漢國家生物產(chǎn)業(yè)基地--光谷生物城,專注于提供領(lǐng)先的代謝組學(xué)及多組學(xué)技術(shù)開發(fā)及服務(wù)。邁維代謝創(chuàng)新了"廣泛靶向代謝組"技術(shù),基于“代謝組+基因組+轉(zhuǎn)錄組”的技術(shù)路線,近年來以通訊作者身份在Cell、Nature Genetics、Nature Communications、PNAS、National Science Reviewzen等國際學(xué)術(shù)期刊發(fā)表多篇論文,引領(lǐng)基因組時代的代謝生物學(xué)研究新方向。
咨詢電話:027-62433042
咨詢微信:metware888
郵箱:support@metware.cn
網(wǎng)址:www.metware.cn
我就知道你“在看”