新一代測序技術的出現(xiàn),使研究人員能夠處理收集的大數(shù)據(jù)(例如,使臨床研究人員能夠處理收集自患者的上百個生物樣本),并進行如全基因組表達水平、甲基化水平或體細胞突變的分析,這里稱為高維組學數(shù)據(jù)(HDOD,high dimension omics data)。雖然可獲得的臨床樣品量通常有限,但由于每個樣本被觀測的變量的數(shù)目可以達到數(shù)千或數(shù)百萬,因此臨床研究的瓶頸,已經(jīng)從樣品采集轉(zhuǎn)移到了數(shù)據(jù)管理和數(shù)據(jù)分析上。利用HDOD連同其它臨床變量建立特定臨床結(jié)果的預測模型,已經(jīng)是生物醫(yī)學信息學的研究人員的眾多分析目標之一。
建立預測模型已經(jīng)成為一些學科的定量研究員共享的研究點。研究員一直在積極利用來自數(shù)據(jù)庫的大數(shù)據(jù)集進行預測模型的開發(fā),采用的方法包括機器學習算法、支持向量機和遺傳算法。此外,基于對數(shù)據(jù)庫技術和可視化工具的熟練掌握,研究員可以有效地構(gòu)建HDOD,通過縮放p計算分析HDOD,并使得HDOD衍生的結(jié)果可視化,從而使生物醫(yī)學研究人員可以對HDOD進行處理,并可以直觀地觀測結(jié)果。
構(gòu)建預測模型已經(jīng)是現(xiàn)有技術,通常是根據(jù)已知預測多變量的結(jié)果,構(gòu)建基于回歸的預測模型,且大多采用廣義線性模型(GLM)。Hastie和Tibshirani放寬了參數(shù)假設,描述了廣義相加模型(GAM),用非參數(shù)回歸方法結(jié)合幾十年的研究。近年來,統(tǒng)計學家一直在研究使用懲罰似然技術(包括LASSO、GBM和彈性網(wǎng)絡技術)來使HDOD自動的選擇協(xié)變量。這些方法是轉(zhuǎn)化研究中用于處理維度災難的主要工具。
雖然計算機科學與統(tǒng)計學之間存在交叉,但之間的基本區(qū)別在于,計算機科學通常從系統(tǒng)的角度探索帶有多變量的圖譜,而統(tǒng)計學傾向于遵循節(jié)省原則確定幾個協(xié)變量預測模型。統(tǒng)計學面臨的一個主要挑戰(zhàn)是如何控制根據(jù)HDOD選擇預測器的假陽性錯誤率的過度膨脹,其將導致“過度擬合”預測模型。與此相反,計算機科學或生物信息學中,則主要對HDOD圖譜感興趣,常常想要量化直觀的圖譜,重復生成圖譜獨立的數(shù)據(jù)集。
本發(fā)明保留這兩種分析方法的特點,提出一種混合算法,包括兩個步驟:在第一步驟中,要確定一組代表對象HDOD圖譜的“范例”,所述“范例”一般通過無監(jiān)督學習的聚類分析法獲得。為了代表集群圖譜,選擇單一集群的質(zhì)心作為范例。每個范例通過p個元素的HDOD向量分類。范例的數(shù)目(q)通常小于等于樣本量(n)。參照各范例,可以計算每個對象的相似性度量,生成具有維度(n×q)的相似性度量的矩陣,通常情況下,pn≥q。本步驟可以有效地將高維稀疏矩陣HDOD(n×p)轉(zhuǎn)換成“稠密數(shù)據(jù)矩陣”(n×q)。在第二步驟中,使用懲罰似然方法來選擇出那些符合預測結(jié)果的范例。由于維數(shù)從p大幅減小到q,懲罰似然方法可以很好地選擇出包含信息的范例,大大減少了懲罰計算的步驟。本過程首先基于“無監(jiān)督學習”的范例,然后通過“有監(jiān)督學習”選擇與結(jié)果關聯(lián)的包含信息的范例。由于結(jié)果回歸范例特異性的相似性,這種方法被稱為“面向?qū)ο蟮幕貧w”,或簡稱為OOR。
隨著新一代測序技術,一些生物技術學家/生物技術公司已經(jīng)將其創(chuàng)新研究轉(zhuǎn)向于生產(chǎn)人類基因組的完全分相二倍體,即,一對帶有多個單核苷酸多態(tài)性(SNPs)的分相單倍型。在功能基因內(nèi),多個分相SNP等位基因,連同所有單型核苷酸,代表可用于破譯官能轉(zhuǎn)錄物或蛋白序列的完全分相序列。實際上,目前這種雙等位基因多態(tài)性可以構(gòu)建成多等位基因多態(tài)性,能對遺傳分析提供更多的信息。最好的范例基因包括主要用于組織相容性復合體(MHC)的人類白細胞抗原(HLA)基因,位于染色體6上的6p22.1和6p21.3之間。例如,下面將要詳述的HLA*DRB1基因,由一對等位基因組成,各等位基因?qū)环窒嘈蛄小8鶕?jù)最近的計數(shù)統(tǒng)計(,HLA*DRB1擁有超過1868個等位基因,編碼1364個蛋白質(zhì)。雖然對它們的功能已經(jīng)進行了幾十年的研究,但其特殊的多態(tài)性對如I型糖尿病(T1D)等疾病的遺傳關聯(lián)性的研究,則是個新的課題。此外,因為與許多較不常見的等位基因關聯(lián)的樣本數(shù)量有限,以及多個等位基因測試的多重性的原因,阻礙了多態(tài)性從基礎研究到臨床應用的轉(zhuǎn)化。
為了克服上述問題,需要一個新的分析框架。在大多數(shù)科學事業(yè),如遺傳學中,通常采用簡化論方法進行分析,即專注于與單一染色體、基因、等位基因或核苷酸的疾病的關聯(lián)性。但這種簡化論方法在同時處理太多元素時受到挑戰(zhàn),不適于用于同時處理太多的元素。近年來組學研究中,越來越多的科學團體開始關注多基因及其與表型聯(lián)合關聯(lián)的“系統(tǒng)生物學”,即“整體”的方法。從“整體”方法的角度看,當兩個對象共享相同的疾病表型時,可能是因為兩者有相似的基因分布(所述基因分布是基于多基因的基因型進行分類的),這促進了上述面向?qū)ο蟮幕貧w(OOR)的應用和發(fā)展。
OOR的核心思想如下簡述:基于一組選定的基因/SNP,構(gòu)造一組以多基因/SNP的基因型分布為特征的范例。通過比較個體的基因型和范例,有效地將基因型的域轉(zhuǎn)化為相似性值的域。通過這些相似性度量,OOR評估疾病表型是否與每個范例的相似性度量相關聯(lián)。如果發(fā)現(xiàn)范例的相似性與表型顯著關聯(lián),意味著該范例的基因型代表一種風險/保護基因型的類別。
OOR實際上與一些統(tǒng)計文獻以及計算機科學中的機器學習文獻中的方法存在關聯(lián)。從根本上講,如果所有范例的基因型分布是由內(nèi)部衍生,并包括所有觀測到的基因型,可以認為上述OOR是基于Kimeldorf和Wahba(1971)所描述的表現(xiàn)定理中的核表示進行的改進。基于同樣的類比,OOR與核邏輯回歸和支持向量機也存在密切聯(lián)系。聯(lián)系到計算機科學的文獻,由于密切相關的“鄰居”傾向于擁有相同的表型,OOR與近鄰法擁有相同的動機。在處理復雜、稀疏、高維的數(shù)據(jù)時,通過“相似性度量”搜索數(shù)據(jù)庫,對數(shù)據(jù)挖掘是至關重要的。近年來,統(tǒng)計和數(shù)據(jù)挖掘的融合促進了核機器學習技術在文本挖掘、蛋白質(zhì)序列分析以及全基因組關聯(lián)分析方面的應用。
盡管OOR與核機器方法緊密聯(lián)系,但仍有區(qū)別。首先,比核機器學習方法先進的是,OOR的范例可以從外部獲得或從內(nèi)部數(shù)據(jù)衍生。其次,通過把所有計算得到的相似性度量作為協(xié)變量,OOR通過懲罰似然法使用“變量選擇算法”,如LASSO、脊回歸或彈性網(wǎng)絡,來側(cè)重于不同于零的有意義的項。第三,以“整體觀”對待復雜的變量,OOR提供了一種天然量化工具來發(fā)現(xiàn)和驗證復雜的變量之間的相互作用,所述復雜的變量之間的相互作用已成為在生物醫(yī)學研究和系統(tǒng)生物學的一個長期的研究課題。最后,從OOR分析得到的預測模型很適合于將基于相似性的搜索應用到大型數(shù)據(jù)庫。
在下文中,本發(fā)明第一部分示出了OOR的統(tǒng)計學動機,勾畫出了OOR框架,確定了選擇范例的方法,并構(gòu)建出預測模型。此外,本發(fā)明還介紹了從協(xié)變量轉(zhuǎn)換到相似性度量,然后建立預測模型的部分流程。除了詳細介紹了對范例以及預測器的選擇,還介紹了如何評估選擇懲罰參數(shù)的穩(wěn)定性以及如何通過自助法評估所含信息范例的一致性。為了說明OOR,應用部分介紹了I型糖尿病的研究,并說明了OOR在探索疾病與HLA基因的關聯(lián)以及構(gòu)建預測模型的應用。結(jié)果部分介紹了應用于HLA-DRB1基因以及八個HLA基因的所有結(jié)果。
首先,通過公式將所有對象X的HDOD回歸到質(zhì)心的協(xié)變量;其中Xi表示第i個對象,是回歸系數(shù),表示對應Xi的初始回歸系數(shù)表示對應Xi、第k的回歸系數(shù),X[k]表示第k個對象,εi是對應Xi的殘差向量;k表示t個質(zhì)心中的某個質(zhì)心;
然后,針對每個Xi估算來自上述線性回歸的殘差平方的總和(SRSi),并且計算由這些信息代表的殘差變化的分數(shù);當?shù)趇個對象Xi滿足公式i=argmax(SRSi/SRS0),subject to(SRSi/SRS0)≥f時,其加入到所述范例中;其中SRS0是不包含范例的SRS,f是一預先選擇的閾值。
本發(fā)明方法的范例可以從外部獲得或從內(nèi)部數(shù)據(jù)衍生。其次,通過把所有計算的相似性度量作為協(xié)變量,本發(fā)明方法可通過懲罰似然法使用“變量選擇算法”,如LASSO、脊回歸或彈性網(wǎng)絡,來側(cè)重于不同于零的有意義的項。第三,以“整體觀”對待復雜的變量,本發(fā)明方法提供了一種天然量化工具來發(fā)現(xiàn)和驗證復雜的變量之間的相互作用,所述復雜的變量之間的相互作用已成為在生物醫(yī)學研究和系統(tǒng)生物學的一個長期的挑戰(zhàn)。最后,根據(jù)本發(fā)明方法得到的預測模型很適合于通過基于相似性的搜索應用到大型數(shù)據(jù)庫。
圖1示出了面向目標的回歸的流程圖,其中a)協(xié)變量矩陣的高維組學數(shù)據(jù)(HDOD),b)通過無監(jiān)督學習方法組織HDOD,c)通過雙向聚類分析聚類的HDOD,以進行范例的確定,d)計算每個范例的相似性度量,將它們當作協(xié)變量,e)相似性度量的稠密協(xié)變量矩陣,可用于構(gòu)建預測模型,f)在廣泛線性模型下,使用懲罰似然來選擇包含信息的范例,g)在訓練集和驗證集上進行ROC分析,以檢查預測模型的有效性;
圖15示出了訓練集(頂部圖)和中驗證集(底部圖)的II類HLA基因(HLA-DRB1,-DRB345,-DQA1,-DQB1,-DPA1和-DPB1的T1D預測模型的評價,箱圖顯示了訓練集和驗證集的風險評分分布,ROC曲線示出了通過不同的懲罰參數(shù)下圖譜偏差函數(shù)的反復交叉驗證估算(上部區(qū)域的圖)得到的估算懲罰參數(shù)的經(jīng)驗分布;
圖17示出了1000個自助樣本的平均系數(shù)估算的成對XY坐標圖,其中X軸為一個懲罰值,Y軸為另一懲罰值(Y軸),懲罰參數(shù)對數(shù)值示于對角線示出了當懲罰參數(shù)固定為15個對數(shù)獨特系數(shù)之一時,通過LASSO選擇的范例的所有預測模型的ROC分析與選擇的范本由LASSO,計算在訓練集(彩色曲線)以及在驗證集(黑色虛線示出了懲罰參數(shù)固定為時1000個自助樣本的估算的LASSO估算系數(shù)的大小,顏色強度對應系數(shù)的大小,綠色表示正值,而紅色表示負值。
下面結(jié)合具體實施例進一步描述本發(fā)明,以更清楚的闡述本發(fā)明的優(yōu)點和特點。下述實施例僅為具體的范例,并不對本發(fā)明的保護范圍構(gòu)成任何限制。本領域技術人員應該理解的是,在不偏離本發(fā)明的精神和范圍下可以對本發(fā)明技術方案的細節(jié)和形式進行修改或替換,均落入本發(fā)明的保護范圍內(nèi)。
,…,xip),基于HDOD的典型特征,其中協(xié)變量的數(shù)目通常比樣品量大很多。在每個第i個對象上還觀測到對應的目標Yi的結(jié)果變量,它可以是二元的、分類的、連續(xù)的或截尾的(即,部分被觀測到的)。所有觀測到的數(shù)據(jù)的似然可寫成其中上述求和函數(shù)中是對n個對象求和(即i=1到n),f(YiX
)是條件均值,并且h(Xi,θ)是由未知參數(shù)θ索引的協(xié)變量函數(shù)。1.1.2、表現(xiàn)定理:Kimeldorf和Wahba(1971)已經(jīng)表明,當協(xié)變量函數(shù)是未知的并且未被限定,且已知觀測的樣品為(X1,X2,…,X
的相似性:當觀測到X與Xk相同時,所對應的項是θkK(X,Xk)=θk;當X與Xk完全不一樣,θkK(X,Xk)=0;當X與Xk是相同或幾乎相同,對應項可以合并為θkK(X,Xk)+θkK(X,Xk)≈(θk+θk)K(X,Xk)=αkK(X,Xk)。最后,可期望的是,如果第k個個體的協(xié)變量特性不與對應的結(jié)果相關聯(lián),系數(shù)θk很可能等于零,這里的系數(shù)θk是用于量化結(jié)果與第k個個體的相似性度量K(X,Xk)的關聯(lián)。Zhu和Hastie使用上述觀測中的一些情況,通過對一些K(X,Xk)項的分組來描述一向量機的輸入方法?,F(xiàn)今的理論基礎和相關研究提出了OOR方法,其可表示為其中sk(X
,Zk)是第i個對象Xi與第k個范例Zk的相似性度量,q是范例的數(shù)量(將在后文描述),并且(α,βk)是待被估算的未知回歸系數(shù)。當回歸系數(shù)βk不等于零時,意味著當所述Xi的HDOD的特性與Zk相似時,Xi通過上述OOR與結(jié)果關聯(lián)。OOR將結(jié)果回歸到對象X與范例的相似性,而不是作為協(xié)變量回歸到HDOD。正如預測的那樣,本例中的回歸系數(shù)是針對于與范例的相似性的,此類情況類似于計算機科學家經(jīng)常使用的數(shù)據(jù)查詢。正如預測的那樣,OOR是對范例特異性關聯(lián)的“整體解釋”,而不是對協(xié)變量特異性關聯(lián)的“整體解釋”。1.1.3、臨床直覺:OOR動機來源于臨床醫(yī)生的直覺。臨床醫(yī)生通常收集來自醫(yī)療記錄、體檢以及診斷實驗室測試的多方面的信息,這種信息即為一種HDOD數(shù)據(jù),然后基于這一信息加上他們掌握的過去的案例經(jīng)驗進行臨床判斷。一個有經(jīng)驗的臨床醫(yī)生會將新患者與先前治療的患者或教科書或文獻中的典型案例作比較,并且通過樣本量為1來減少比較的次數(shù),作出合理的臨床判斷??梢?,在本質(zhì)上,臨床醫(yī)生的過程也是OOR過程。1.2、OOR框架
圖1提供了OOR過程的示意圖。作為輸入數(shù)據(jù)的HDOD是一個關于多個單一、連續(xù)的元素的大型協(xié)變量矩陣(圖1a)。作為對于任何有意義的聚類分析的常規(guī)要求,過濾掉那些是噪聲信息或不可能包含信息的協(xié)變量是很重要的。當沒有結(jié)果數(shù)據(jù)時,OOR首先通過無監(jiān)督聚類分析來對HDOD確定范例Z
,...,Zq)的陣列。基于選定的相似性度量K(Xi,Zk)(見如下討論),可以計算每個第i個對象Xi與每個第k個范例Zk的相似性度量(圖1d)。通過把相似的度量作為協(xié)變量,可得到稠密協(xié)變量矩陣(圖1e)。在廣義線性模型下通過適當?shù)剡x擇關聯(lián)函數(shù),可以再選擇包含信息的范例,來形成預測模型(圖1f)。在下文中,通過訓練集的ROC分析,對OOR預測模型的敏感度和特異性進行初步估算,然后對驗證集進行ROC分析。下面的章節(jié)集中描述了OOR框架的重要組成部分。1.3、無監(jiān)督學習無監(jiān)督學習方法不參照結(jié)果數(shù)據(jù),其目的在于探索跨基因和跨對象的HDOD協(xié)變量的相關結(jié)構(gòu)。單純從統(tǒng)計框架來說,無監(jiān)督學習方法可以不參照結(jié)果數(shù)據(jù),利用對數(shù)似然函數(shù)的第二部分,基于HDOD的相關結(jié)構(gòu)來構(gòu)建HDOD。以往,聚類分析通過相關性組織基因和/或樣品,得到的樣品集群可以實現(xiàn)識別目標的質(zhì)心。因為聚類分析,故,質(zhì)心與該集群內(nèi)的樣本有相對高的相關性(或相似性),并作為示例來表示多個樣本。當處理HDOD時,通常會出現(xiàn)很多遠離集群的含有相對獨特的HDOD特性的對象,此類“獨特的對象”可定義為不易由質(zhì)心或它們的組合來表示其HDOD特性的對象。這種獨特的對象被作為范例時,可用下面的回歸方法來確定這些對象。假設預先已確定了一組起始的t個質(zhì)心作為范例,表示為[1],[2],...,and[t],首先,通過下式將所有對象的HDOD回歸到質(zhì)心的協(xié)變量,而不是回歸到那些由HDOD代表的集群:
/SRS0)≥f, [5]其中SRS0是不包含范例的SRS,f是一個預先選擇的閾值(例如,0.5)。需注意的是,由于該分析未參照結(jié)果選擇范例,故并不影響任何下游的監(jiān)督學習(參見下文)。并且,除了從內(nèi)部推導范例,還可以包括來自外部資源的范例。1.4、監(jiān)督學習
在確定范例之后的下一個步驟是,估算這些范例的相似性是否與目標結(jié)果以任何方式相關聯(lián)。這樣的關聯(lián)分析即稱為監(jiān)督學習(監(jiān)督學習的來由:計算機科學家創(chuàng)造該詞是出于對大眾的吸引力)。根據(jù)不同的結(jié)果函數(shù),如二元函數(shù)、分類函數(shù)、連續(xù)函數(shù)或斷尾函數(shù),監(jiān)督學習可以使用廣義線性模型(GLM)來估算與范例相似性結(jié)果的關聯(lián)。在選擇變量時,我們建議使用懲罰似然方法控制過擬合問題,特別是使用最不絕對收縮和某選擇算法(例如,LASSO)來選擇包含信息的范例。下面對單一結(jié)果(Y
是用于確保上述函數(shù)整合到相同單位的歸一化常數(shù)。上述功能可以通過下面邊際均值來充分限定通過上述回歸方程,便限定了與相似性度量關聯(lián)的邊際均值。一旦嵌入GLM,可以援引似然理論的整體含義來支持參數(shù)的估算和推斷。當應用GLM來選擇包含信息的范例時,可預測的是,許多范例可能不與結(jié)果相關聯(lián)。可以使用LASSO來選擇那些包含信息的范例,LASSO可以理解為是懲罰似然估算的一種版本,并在OOR模型中采用估算回歸系數(shù)使得以下懲罰似然函數(shù)最大化:
其中,對所有隨機樣本通過常規(guī)對數(shù)似然函數(shù)進行第一求和,對q個回歸系數(shù)的所有絕對值進行第二求和,λ用于確定那些非零回歸系數(shù)的懲罰幅度的調(diào)諧參數(shù),且,估算調(diào)諧參數(shù)λ可得到基于交叉驗證的最小預測誤差。其中,f表示密度函數(shù),Yi是對應第i個范例的要回歸的結(jié)果,Si是對應第i個范例的相似性度量值,á是截距,是回歸系數(shù),n是當前范例對應的樣本的個數(shù),q是所述范例的個數(shù),λ是調(diào)諧參數(shù)。
對于OOR,選擇合適的度量以及對象和范例之間相似性的程度來測量相似性是至關重要的,因為它決定了如何計算相似性、如何確定集群、如何確定范例。通常,所述度量的選擇取決于HDOD的特性和對于結(jié)果的解釋。本例中,下面介紹了幾種常見的相似性度量。按照慣例,該相似性度量是距離的倒數(shù),即1和0的相似性分別等于零距離和無窮大距離。
, [8]其中,·代表平方差的和的平方根。由平均值和標準差對協(xié)變量歸一化處理時,歐幾里得距離具有相關系數(shù)的單調(diào)關系,該單調(diào)關系通常用來測量相似性。最近,F(xiàn)rey和Dueck使用了負歐幾里得距離的平方,即-Xi-Xi
其中表示求兩個向量的內(nèi)積。如果將各個協(xié)變量視為“采樣值”,本式相似性度量值與兩個向量之間的相關系數(shù)相同。除了上述常用距離或相似性的度量,還有其它的域特異性的度量。在遺傳學的背景下,遺傳學家曾用“血緣同源”,“狀態(tài)同源”或親緣關系系數(shù)作為遺傳相似性的度量。當處理文字時,也存在很多用于語義相似性的度量。可靈活選擇最適用于給定的OOR中應用的相似性度量。
CSR的常規(guī)設計中,可以對結(jié)果與一個或多個協(xié)變量的關聯(lián)進行估算。CSR的理想特征是,在對回歸中的其它協(xié)變量進行控制后,可以將協(xié)變量特異性的關聯(lián)分離出來?;诖思捌渌?,過去幾十年中CSR一直是大部分統(tǒng)計應用的“主力”。然而,在“大數(shù)據(jù)”時代,CSR的應用遇到了一些挑戰(zhàn),首先,在處理HDOD時,由于pn,不能使用CSR的一個典型的應用來同時分析所有的協(xié)變量。第二,CSR假設的前提條件為,協(xié)變量對回歸模型具有影響。當包括多個相關協(xié)變量時,該假設可以使CSR的外推結(jié)果與很少或甚至沒有被觀測到的協(xié)變量進行關聯(lián)。當上述假設成立時,則可發(fā)揮CSR的作用,否則,CSR的外推可能會被誤導。第三,CSR適用于分析數(shù)值的HDOD協(xié)變量,而其在非結(jié)構(gòu)化數(shù)據(jù),如基因組序列的應用方面受到限制。
而提出OOR的主要目的就是克服上述限制。OOR將協(xié)變量矩陣(n×p)轉(zhuǎn)換為相似性打分矩陣(n×q),其中q比樣品量n要小得多(圖1)。這種轉(zhuǎn)換使得OOR能夠處理HDOD??梢?,OOR解決了不同于CSR的關聯(lián)問題,其主要目的不是為了確定哪些協(xié)變量與結(jié)果明顯關聯(lián),而是確定出哪個患者群體很可能與結(jié)果相關聯(lián)。通過使用相似性度量,OOR適用于將結(jié)果與任何維度的HDOD進行關聯(lián)。相對于多元“外推”的問題,OOR旨在估算涵蓋范例的范圍內(nèi)的參數(shù),自然緩解了外推的問題。
與其他癌癥相比,男性和女性由肺癌引起的死亡率均最高,占所有癌癥死亡率的28%左右。由于被診斷時大都已經(jīng)為晚期,因此肺癌預后很差。肺癌早期的預后會好些,五年存活率約為60%。即使在I期患者中,一些患者的存活期也都相對較短。預測I期患者的預后存活率成為了研究熱點,以便于腫瘤學家為較低存活率的患者可以設計更積極的治療計劃來改善預后。
為了解決這個問題,從Xena(下載了臨床表型數(shù)據(jù)和RNA-seq數(shù)據(jù)。截止2015年6月10日,該網(wǎng)站發(fā)布的數(shù)據(jù)總共包括1299個樣本。在對臨床表型數(shù)據(jù)和RNA-seq數(shù)據(jù)關聯(lián),并進行基本的質(zhì)量控制后,對1124個肺癌病例(571個腺癌病例和553例鱗狀細胞癌病例)進行了研究,在此說明的是,上述的臨床表型數(shù)據(jù)和基因表達數(shù)據(jù)都是完整的。將全部數(shù)據(jù)隨機分配到訓練集和驗證集,以用于下游的分析。圖2示出的訓練集和驗證集的所有患者的診斷年齡分布,表明了兩組患者具有類似的年齡分布。對于性別、腫瘤類型和分期進一步的研究發(fā)現(xiàn),訓練集和驗證集的頻率在很大程度上是類似的(見表1)。關于存活率,與四個協(xié)變量相關聯(lián)的估算Kaplan-Meier曲線在訓練集和驗證集間也是類似的(見圖3)。
在當前組合的數(shù)據(jù)集中,包括了腺癌和鱗狀細胞癌的患者,從數(shù)據(jù)來看,存活率并不與年齡(P值=0.143)、或者與性別(P值=0.605)、或與腫瘤類型(P值=0.444)顯著關聯(lián),存活率而與腫瘤分期(P值0.001)顯著關聯(lián)。首要目標是構(gòu)建一個預測模型,用于預測I期患者的預后存活率。在訓練集中,有296個I期患者。為了保持用于構(gòu)建預測模型的樣本量,并不會按腫瘤類型、性別或年齡將腫瘤樣本進行分類,因為這些并不與存活率顯著關聯(lián)。
2.4、基因篩選在進行OOR分析之前,先從訓練集的20531個基因列表中篩選出基因。為了保持這種經(jīng)驗的特性,將“分期”作為一個關鍵變量進行分析,這是因為分期與存活率具有明顯的關聯(lián),從I期到III期的變化示出了從早期癌癥到晚期癌癥的進展情況。正如預測的那樣,許多基因在癌癥進展中被上調(diào)或下調(diào)。據(jù)推測,甚至在早期的癌癥,癌癥也會出現(xiàn)進展,但它們的形態(tài)特征尚不能被觀測到。通過將基因表達水平與期(I期vs其它更高的期)相關聯(lián),計算每個基因的Z分數(shù)和相關聯(lián)的p值(圖4)。使用p值=0.05的閾值(選此閾值,是考慮到達到傳統(tǒng)顯著水平的所有單個基因),可選擇出831個基因。在去除一些高度關聯(lián)的基因后,最終可得到789個基因的列表,并作為OOR分析的輸入數(shù)據(jù)。
在于確定范例,故,用樣品(行)的等級聚類來表示存在的多個組,其中對7大聚類進行了突出顯示,由六條黃色線區(qū)分。由于視覺圖譜具有較強的定性化的印象,可直觀的顯示出多組對象具有的不同的基因表達特性。雖然將數(shù)據(jù)圖像化有其優(yōu)點,但對于使用合成數(shù)據(jù)來生成可重復的結(jié)果,也存在著挑戰(zhàn)。首先,視覺圖譜的感知因人而異。第二,呈現(xiàn)的視覺圖譜取決于所選擇的可視化參數(shù),如所選顏色、所選顏色深淺等。第三,在視覺上幾乎無法區(qū)別出系統(tǒng)圖譜和隨機圖譜。實際上,已經(jīng)隨機選擇了1000個基因進行聚類分析(未示出),并進行了“模擬實驗”。在這些實驗中,可以偶爾看到一些由雙向聚類所產(chǎn)生的圖譜??偟膩碚f,該圖譜與通常得到的圖譜(圖5)區(qū)別不太大。2.6、路徑分析除了采用圖譜所提供的視覺印象,還可以想到的是,選擇的基因包括生物學上有用的元素,該基因的選擇是基于I期的關鍵指示器所選擇的。當然,由于p值0.05是隨機選擇的,某些基因估計是純粹被隨機選中的。如果要分析被選中的這789個基因的生物學意義,可以采用一種關于路徑分析的網(wǎng)絡工具TargetMine,(進行路徑分析,所分析出的10個路徑包括對應于基因富集p值小于5%的基因(補充表S1)。表2的第一塊區(qū)域列出了這些路徑,包括細胞周期、有絲分裂的細胞周期、M期和減數(shù)分裂重組,所有這些都與癌細胞從I期到更高期的加速細胞生長相一致。更需注意是,除了輸卵管上皮細胞,所有相關的組織似乎與氣道的上皮細胞相關聯(lián)(表2)。如下補充表示出了各種組織的基因列表(表S1)。表S1各種路徑和組織的基因列表
如上確定范例的步驟完成后,可得到代表觀測到的集群或單體的273個范例??紤]到大多數(shù)范例都不太可能與預后存活率關聯(lián),因此進行邊際關聯(lián)處理,僅保留那些有邊際關聯(lián)的范例。通過關聯(lián)p值為0.05選出22個范例(該22個范例將被LASSO進一步進行選擇)。表4列出了邊際關聯(lián)分析的估算系數(shù)、風險比、標準誤差和p值。
由所選的22個范例,計算每個對象與每個范例的相似矩陣,生成“稠密協(xié)變量矩陣”,可參見圖1e所示。圖6示出了具有296行×22列的相似性矩陣?;疑?、黃色和紅色分別對應于對象與范例的弱、中等和強烈的相似性。通過聚類分析將296個對象和22個范例構(gòu)建為不同的子集。將22個范例分成三組,其中“列”中的彩條代表每個范例的邊際關聯(lián):紅色為保護關聯(lián),綠色為風險關聯(lián)。為了進一步深入了解預后存活率,此處創(chuàng)建了一個為期一年的存活率指標,該指標需要取存活的值(0和綠色)、死亡值(1和紅色)和斷尾值(丟失和黑色),并將彩條放入“行”中。為了方便觀測,圖中突出顯示了兩個高風險區(qū),所述高風險區(qū)包括與擁有風險表達特性的范例高度相似的多個對象。與此同時,圖中還突出顯示了具有更好的一年存活率的對象。
根據(jù)所選范例,先通過LASSO從“稠密協(xié)變量矩陣”選擇包含信息的范例。結(jié)果示于表3的最后一列,其中的11個范例被選為用于預后結(jié)果的包含信息的范例(圖7所示)。表中已列出估算的回歸系數(shù),而未選擇的范例其系數(shù)則設置為零??捎^測到的是,在第8列中的估算的回歸系數(shù)往往比其對應的第三列的來自邊際回歸分析的系數(shù)小,這可能反映了LASSO將邊際關聯(lián)分配給了與多個范例的關聯(lián),而懲罰一些例如第一范例那樣的不穩(wěn)定的范例(表示為例1)。
其中,是第k個包含信息的范例的估算系數(shù)。估算的目的在于,通過固定的范例和系數(shù)計算當前數(shù)據(jù)中的每個對象的風險評分。這種風險評分的含義是:與“基準個體”比較時對象的相對風險,所述“基準個體”與任何選定范例沒有相似性。為了估算所計算的風險評分與存活結(jié)果之間的關聯(lián),對風險評分進行存活結(jié)果的Cox回歸運算。表4的第一行顯示了估算的系數(shù)、風險比、標準差、Z分數(shù)和p值。正如預測的那樣,p值通過訓練處理而增大。更重要的是在進行驗證集的估算統(tǒng)計中,當p值=0.015時與風險評分的關聯(lián)比較明顯,這恰好支持了驗證,而外部驗證對明確驗證預測模型是很重要的。.
當應用OOR時,LASSO要求必須估算懲罰參數(shù)(λ),這個參數(shù)的選擇對變量的選擇產(chǎn)生深遠的影響。在真實值未知的情況下,常見的方法是使用交叉驗證法來估算這個懲罰。不幸的是,交叉驗證產(chǎn)生隨機估算懲罰參數(shù)所帶來的問題是“估算懲罰參數(shù)有多穩(wěn)定?”。出于這個目的,重復進行了1000次蒙特卡羅模擬實驗,在每次實驗時,使用Rglmnet包的cv.glmnet函數(shù)(通過10倍交叉驗證來估算懲罰參數(shù)。圖8示出了用對數(shù)比例來表示的估算懲罰參數(shù)值的經(jīng)驗分布情況。可見,共有20個不同的懲罰值,范圍從0.016到0.091。懲罰值越小,表示越多范例被選中。在當前的應用中,0.091的懲罰值對應沒有選定范例的空模型,可參見圖7的懲罰值(λ=0
考慮到懲罰參數(shù)值的范圍,預計所選定范例是可變的。為了估算選定范例的穩(wěn)定性,重復進行了1000次的自助分析。對每一個自助樣本,對其觀測到的基因表達值和對應的存活結(jié)果隨機采樣,然后放回該樣本,以確保與訓練集的分析數(shù)據(jù)集具有相同的樣本量。基于20個固定的懲罰值,通過LASSO從同一個分析數(shù)據(jù)集中選擇范例。表5列出了計算的Kappa值,Kappa值用來表示估算的選定范例與不同懲罰參數(shù)值的一致性,其中Kappa值的范圍從0(無一致性)到1(完全一致)。對應于上述1000次的自助分析,表5中上三角形的參數(shù)為Kappa平均值,表5中下三角形的參數(shù)為估算的平均Kappa值的標準差??梢姡噜彂土P值的一致性接近1,該一致性隨著相應的懲罰值的發(fā)散而減小。為了保證定量水平的一致性,根據(jù)上述1000次的重復分析結(jié)果,計算與所有22個范例相關聯(lián)的系數(shù)的平均估算值。然后,以成對的XY圖(圖9)進行顯示。同樣可見,一致性在定性和定量估算之間基本一致。其中,右上角的XY圖,除了有兩個極端的懲罰值,大多數(shù)范例的平均系數(shù)保持一致。表5:通過LASSO選擇的范例之間的Kappa平均值,其中右上方的三角區(qū)內(nèi)為不同的懲罰值,下面的三角區(qū)為1000個自助樣本的標準偏差。
如上所述,也可以使用CSR方法,并結(jié)合LASSO構(gòu)建預測模型。為了進行比較,選擇同一組的所篩選出的789個基因,對存活結(jié)果使用Cox回歸模型、并應用LASSO選擇預測器,可計算得到6個預測器。然后,對訓練集和驗證集的每一個對象進行預測值的計算,該預測值類似OOR的風險評分。將這些預測值與從OOR獲得的預測值繪制成如圖10所示。其中,來自CSR和OOR的兩組預測值在訓練集和驗證集中均彼此相關聯(lián)(r
對于數(shù)據(jù)科學家來說,無論他們的學術根基在生物醫(yī)學信息學、計算機科學或生物統(tǒng)計學,在轉(zhuǎn)化生物醫(yī)學研究中越來越多地使用組學技術是一個前所未有的挑戰(zhàn)。來自轉(zhuǎn)化研究的HDOD都有一個共同的特征,即樣本量相對較小,但協(xié)變量維度卻非常高。為了應對這一挑戰(zhàn),引入了面向?qū)ο蟮幕貧w(OOR)方法,其類似無監(jiān)督學習方法和監(jiān)督學習方法的結(jié)合。OOR關鍵點在于對范例的確定,該范例可理解為:由他們的HODO特性代表的多個集群對象,或者具有相對獨特的HODO特性的對象。參考這些范例,OOR估算每一個對象與范例的相似性,并側(cè)重于確定出包含信息的范例(即與感興趣的結(jié)果相關聯(lián)的范例)的特異性的相似性。除了探索范例與結(jié)果的邊際關聯(lián),OOR也可用于選擇包含信息的范例,并形成預測模型。相比傳統(tǒng)的協(xié)變量特異性預測模型,范例特異性預測模型看起來具有更大范圍的預測值(圖10)。為了說明OOR,將其以及從TCGA獲得的基因表達數(shù)據(jù)一起應用于肺癌研究,建立一預測模型,該模型用于分類已被診斷為I期肺癌但具有明顯不同存活時間的患者(無論是腺癌或鱗狀細胞癌)。首先確定來自訓練集的11個范例,并生成作為相似性測量的加權的和的風險評分,該風險評分可顯著地預測驗證集的存活率(p值=0.0145)。根據(jù)假設的預測模型,對驗證集的所有對象的預測風險評分進行計算,其分布可參見圖11左側(cè)區(qū)域所示。在右側(cè)區(qū)域中示出的與風險評分1、2、3、4相關聯(lián)的估算的存活曲線表明,隨著風險評分的增大,存活率逐步惡化。OOR雖有很多優(yōu)點,也有一潛在的弱點:用于衡量相似性的度量的選擇是有點武斷的。在關于聚類分析或無監(jiān)督學習的文獻中,使用了多種相似性度量,不同的相似性度量根據(jù)不同的應用環(huán)境各有優(yōu)缺點。從這個角度看,OOR提供的相似性度量的選擇具有一定的靈活度,適合于上述的應用。
OOR在概念上與其他分析方法相關聯(lián),k近鄰方法(KNN)即為相關聯(lián)的一種方法,KNN被廣泛用于計算機科學文獻的數(shù)據(jù)挖掘,其核心思想是,由某些特性定義的相對“親密鄰居”的對象往往有類似的結(jié)果。所述k近鄰方法可以不用于做任何建模假設,而用于構(gòu)建預測模型,因此也被稱為非參數(shù)預測模型。但是,k近鄰方法并沒有考慮到的一個事實是:許多鄰居具有同等的結(jié)果關聯(lián)(無論是無效假設或備擇假設)。在這方面,OOR可以被認為是k近鄰方法的延伸或回歸函數(shù)最近鄰的估算。
另一種密切相關的方法是成員等級分析法,簡稱為GoM。從概念上講,GoM通過引入一組潛在成員變量,假設該潛在成員變量的分布是合理的,GoM對結(jié)果的聯(lián)合分布以及協(xié)變量建模,在整合了所有GoM潛在成員變量后可計算似然。GoM參數(shù)可以理解為是與個體相關聯(lián)的屬性,而不是單一協(xié)變量的特定邊際。盡管GoM和OOR提取關于個體或?qū)ο蟮膶傩孕畔?,擁有相同的概念目標,但是OOR側(cè)重于觀測到的結(jié)果和協(xié)變量的經(jīng)驗觀測,而無需調(diào)用任何潛在隨機變量。
OOR使用的相似性度量的概念也與統(tǒng)計遺傳學中開發(fā)并使用的多種方法相關。雖然本文并不意圖追蹤這些聯(lián)系,但需注意,經(jīng)典和現(xiàn)代遺傳學旨在發(fā)現(xiàn)結(jié)果相關聯(lián)的易感基因,往往會導致相關個體中的相似性,所述相關個體中的相似性比無關個體具有更多遺傳變異體。在遺傳學的早期,隔離和聯(lián)系方法用于描述和發(fā)現(xiàn)家族聚集性基因。在現(xiàn)代遺傳學,一些研究小組提出,通過評估遺傳標記的相似性并使用相似性回歸來發(fā)現(xiàn)疾病基因。雖然有著相似的科學目標,但OOR使用相似性評分來發(fā)現(xiàn)哪些范例有更高的疾病風險,而不是發(fā)現(xiàn)哪些SNP(單核苷酸多態(tài)性)與疾病相關聯(lián)。
OOR與最近流行的被稱為序列核關聯(lián)測試(SKAT)方法,也存在著內(nèi)在的聯(lián)系,這是因為OOR和SKAT都采用表現(xiàn)定理作為理論基礎。在很大程度上,SKAT使用表現(xiàn)定理來表示所有SNP的組合和它們的作用,作出關于所有回歸系數(shù)的合理多變量假設,并根據(jù)無效假設測試他們的偏離。最近,Pan(2011)表明,SKAT測試本質(zhì)上等同于上述OOR提到的相似性回歸。而OOR比SKAT更進一步,其將結(jié)果回歸到相似性評分,而不是假設它們?yōu)殡S機變量。
上述已經(jīng)介紹了用于分析HDOD的新的分析框架。介紹了上述技術推導,以及與現(xiàn)有方法的各種關聯(lián),OOR給我們介紹了探索HDOD的“整體關系”與臨床結(jié)果的分析框架。協(xié)變量特異性研究已經(jīng)應用于“簡化論觀點”幾十年,上述方法是對協(xié)變量特異性研究的補充。在大數(shù)據(jù)和系統(tǒng)生物學的時代背景下,該整體的框架不僅會促進HDOD的系統(tǒng)研究,也會生成組學數(shù)據(jù)的“可重復結(jié)果”。
對從高維多態(tài)性基因研究產(chǎn)生的協(xié)變量數(shù)據(jù)進行分析。具體而言,包括將T1D和八個II類HLA基因(HLA*DRB1,*DRB3,*DRB4,*DRB5,*DQA1,*DQB1,*DPA1,*DPB1)(手稿:Zhao et al 2015,待提交)的病例進行對照研究。由于它們結(jié)構(gòu)的多態(tài)性,在任何單條染色體中只會出現(xiàn)HLA*DRB3,*DRB4和*DRB5等位基因其中的一個,因此,以下用HLA*DRB345表示所有這三個基因的基因型。其中,每個基因包含兩個等位基因,各等位基因代表一個完全分相核苷酸序列。當?shù)趈個基因具有mj個可能的序列變異時,如果一對等位基因處于哈迪—溫伯格平衡(HWE,即統(tǒng)計上獨立),該對等位基因的基因型可以具有m
+1)/2個可能的基因型多態(tài)性之一。在多個基因位點的基因型陣列被稱為基因型分布。如果這些基因處于連鎖平衡(LE,即統(tǒng)計上獨立)時,基因型分布的總數(shù)在理論上是其交叉乘積它可以輕易地超過大多數(shù)基于人群研究的典型樣本量。然而在實踐中,由于以下生物特性,所觀測的基因型分布的數(shù)目比理論總數(shù)小得多:1)HLA基因多態(tài)性由自然界在種群內(nèi)高度選擇,2)基因位點內(nèi)配對的HLA基因的等位基因傾向于偏離HWE,3)因為物理近鄰和基因-基因相互作用,多個HLA基因的基因型分布傾向于偏離LE,4)盡管包括“重組熱點”,MHC區(qū)域比基因組的剩余部分具有相對較低的重組率。這種遺傳現(xiàn)狀也導致了許多基因型分布比較神秘,這對HLA關聯(lián)分析提出了挑戰(zhàn)。典型關聯(lián)分析可理解為對一疾病與一種基因檢查其關聯(lián),或當對另一基因的基因型分層后調(diào)查其基因關聯(lián),或?qū)蓚€或更多個基因進行單倍型分析。雖然這些“簡化論方法”已經(jīng)可以為基本疾病關聯(lián)提供信息,但是當試圖研究基因-基因相互作用,分離基因特異性關聯(lián),或創(chuàng)建針對多個HLA基因的預測模型時,這些方法往往都是受到限制的。
將所觀測對象的基因型分布作為一個整體是上述方法的一種補充,并通過系統(tǒng)方法或整體方法研究它們與結(jié)果的關聯(lián),即,將所觀測的基因型分布作為范例,計算其他基因型分布與該范例的相似性,并評估與范例的相似性是否與疾病表型相關聯(lián)。已知種群研究的樣本量為n,從研究內(nèi)部可能獲得的范例總數(shù)最大為n,這樣既減少了數(shù)據(jù)維度,又沒有任何信息的缺失。如上所述,這些由八個II類HLA基因形成獨特的基因型分布的實際數(shù)目實際上小于樣本量n。如果將所有觀測到的基因型分布作為范例,則可以直接評估所有這些范例的對象的相似性度量與T1D的關聯(lián)。這些范例觀測的規(guī)范化也促進了OOR的提出。從形式上看,對基因型分布表示為的多個基因進行分析,其中所述多個基因是在第i個對象(i=1,2,...,n)上觀測到的。在所有對象中,識別獨特的基因型分布,并作為第k個范例(K=1,2,...,q)表示為基于觀測到的基因型,可以通過相似性函數(shù)測量對象與每個范例的相似性,所述相似性函數(shù)表示為該相似性函數(shù)在一些文獻中也被稱為核函數(shù)。已知OOR的分析對象與疾病表型遺傳關聯(lián),表示為(對照yi=0,病例y
其中,logit是對疾病的概率的典型logit變換,α是截距,回歸系數(shù)βk用于量化疾病與第k個相似性度量的關聯(lián),所述相似性度量為與范例的相似性度量。通過以上回歸的構(gòu)建,OOR可評估疾病與相似性度量的關聯(lián),所述相似性度量為每個對象與所有范例的相似性度量。當估算的系數(shù)非零(β
?。?)時,表示類似于第k個范例的對象疾病的風險無關緊要。通過研究范例相似性,只要它們的相似性可以被測量和定量,則可以通過上述回歸方法克服關于基因型的復雜性的挑戰(zhàn)。1.2、面向?qū)ο蟮幕貧w框架概述OOR的動機是直接的,而它的表現(xiàn)也非常簡單。目前,要使用OOR必須解決不同的三個方法學問題:1)相似性度量的選擇,2)范例的選擇,3)包含信息的范例的選擇(即非零βk系數(shù)),各種不同的選擇會導致生成不同版本的OOR框架。
1.2.1、相似性度量:單純從理論上考慮,相似性度量的選擇需要確保核函數(shù)是對稱和半正定的。在實踐中,大多數(shù)的相似性度量都比較合適,且與應用的場景相關。在此,使用適合于遺傳分析的相似性度量。假設是HLA基因位點的范例的基因型分布,則其中在第j個基因位點的基因型用一對等位基因來表示??墒褂孟旅娴暮瘮?shù),度量范例的相似性,
其中I(.)是一個指示函數(shù),并且每個作為遺傳分析中通用的“狀態(tài)同源”度量。上述相似性度量的值位于0到1之間,該區(qū)間的值對應從無相似性(0值)到同一性(1值)。然而,目前的度量并未體現(xiàn)單個基因或甚至單個等位基因的潛在不同的功能的顯著性。一種描述上述相似性度量的方法是在計算中引入基因特異性或等位基因特異性的權重。另一類相似性度量是使用“血緣同源”度量來度量對象之間的等位基因的相關性。
范例的選取方法有很多,主要取決于所要分析的目標。第一種方法,鑒于這些HLA基因可能具有不同的基因型分布,可通過對所有對象的聚類分析,以及采用特定的相似性度量來確定主要圖譜。其中,可將每個集群內(nèi)具有代表性的基因型分布選為范例。第二種方法,將每個獨特的基因型分布選為范例。第三種方法,從文獻中確定一組基因型分布,這樣也可以確保結(jié)果可被合理解釋。第四種方法,通過對某些聯(lián)合關聯(lián)或基因-基因的相互作用的研究,設計一定的基因型分布來作為范例。關于范例的選取方法,后文將有描述。
除了降維,預測器的數(shù)量可以與OOR的樣本量n一樣大。正如預測的那樣,由于這些范例不與疾病表型相關聯(lián),許多回歸系數(shù)等于零。因此,在OOR中的一項重要任務即為選擇包含信息的范例。目前,在所有用于變量選擇的技術中,懲罰似然法是應用最為廣泛的。在此,相對比傳統(tǒng)的選擇變量的逐步回歸方法,本文考慮三種懲罰似然法:LASSO、脊回歸和彈性網(wǎng)絡。
如前所述,OOR方程確定的范例可從外部或內(nèi)部選擇。從外部選擇范例通常是從文獻選擇,或者基于用于特定解釋的特殊HLA基因型結(jié)構(gòu)進行選擇。而本文的重點是從內(nèi)部選擇范例,是通過或不通過HLA基因型數(shù)據(jù)的聚類分析而選擇。
1.3.1、聚類分析:作為編碼人體先天免疫的必需基因,HLA基因在整個人類的進化過程是高度選擇的。如前所述,HLA的基因型數(shù)據(jù)傾向于集群,這可以通過成對出現(xiàn)的相似性度量,在n×n相似性矩陣的聚類分析來進行檢測。需說明的是,聚類分析是一種無監(jiān)督學習,因為它不涉及疾病表型。
1.3.2、“獨特”的對象:不進行任何聚類分析,而對成對的相似性度量進行觀測,發(fā)現(xiàn)那些彼此相同的對。在消除這些相同的對之后,可以利用剩余的基因型分布來代表所有的“獨特的對象”,并把它們作為范例。為了放寬“相同基因型分布”的判定標準,可以選擇一個預先確定的閾值(δ):如果成對相似性量度大于閾值,當兩個基因型分布不相同時,則可以認為是“高度相似”,因此,該對可以只用其中的一個來表示。在實踐中,這個閾值作為OOR的調(diào)諧參數(shù)。
≠0)。即使是范例經(jīng)過精心挑選后,范例的數(shù)量仍可能相對較大,因此變量的選擇是具有一定挑戰(zhàn)性的。主要的挑戰(zhàn)是如何來減少過擬合。在此,考慮了傳統(tǒng)的逐步回歸技術,采用三種懲罰似然法:LASSO、脊回歸和彈性網(wǎng)絡。1.4.1、逐步選擇:最有名的傳統(tǒng)變量選擇的策略大概是由預測器進行的逐步選擇,無論是僅向前,僅向后或雙向,均是基于信息準則(IC)的度量的,基于IC的度量可如Akaike’s IC(AIC)或者Bayesian IC(BIC)。基于大量文獻對似然估算的描述,須注意的是,概率模型可以構(gòu)建如下帶有AIC懲罰的對數(shù)似然函數(shù):其中,K′
1.4.2、懲罰似然:當范例的數(shù)量接近樣本量,首選的變量選擇的方法是使用懲罰似然法,所述懲罰似然法包括三種被廣泛使用的方法:LASSO、脊回歸和彈性網(wǎng)絡。使用上述公式[13]中相同的符號和變量來表示,該懲罰對數(shù)似然函數(shù)可被寫為其中λ是用以確定懲罰水平的調(diào)諧參數(shù),β
的范數(shù)和l2的范數(shù),θ分別取值為0或1或0.5,分別對應LASSO、脊回歸和彈性網(wǎng)絡。優(yōu)選的,估算的調(diào)諧參數(shù)λ具有基于交叉驗證的最小預測誤差。1.5、懲罰參數(shù)和變量部分眾所周知,在懲罰似然方法的文獻中,調(diào)諧參數(shù)將估算回歸系數(shù)的偏差與他們的估算的方差進行交換。通常,懲罰參數(shù)的估算是通過交叉驗證進行的,然而,交叉驗證過程是一個隨機過程,并且因此估算的懲罰參數(shù)也是隨機的,因此會不可避免地影響變量的選擇。在這里,建議采用多次重復交叉驗證過程,并基于隨后會利用固定的懲罰參數(shù)進一步對變量選擇的穩(wěn)定性(參見下文)進行評估,估算它的經(jīng)驗分布。計算上,可用10倍交叉驗證估算懲罰參數(shù)(在cv.glmnet默認推薦,GLMNET的R實現(xiàn)),并重復計算,比如100次。所有經(jīng)驗估算的參數(shù)隨后被用于構(gòu)建經(jīng)驗分布,以評估這些估算是否來自單一模式分布。1.6、評估固定懲罰參數(shù)的變量選擇的穩(wěn)定性(λ)
實際中,所有處理復雜或高維數(shù)據(jù)的變量選擇方法面臨的主要挑戰(zhàn),是選擇的變量的穩(wěn)定性。OOR的變量選擇也不例外。在評估上述的懲罰參數(shù)估算的經(jīng)驗分布時,要關注選定的包含信息的范例是否穩(wěn)定。為了解決這個問題,可使用自助法。簡要地說,從研究群體隨機抽取樣本觀測并放回,這樣可以保持樣本量不變。對于每個自助樣本,進行具有兩個或多個固定懲罰參數(shù)和/或使用不同的方法的懲罰似然分析。然后,計算Kappa統(tǒng)計,度量變量是否由兩種或更多的方法一致地選擇。
正如上面提到的,青少年I型糖尿病(T1D)和HLA基因的病例對照研究促進了OOR研究的發(fā)展,其中的細節(jié)已被公開(Zhao et al.2015提交)。簡單地說,這項研究確定了970個I型糖尿病患者作為病例,他們的年齡范圍從1歲到18歲,且來自不同位置的診所。并從相應的地區(qū)確定了448個未患I型糖尿病者作為對照。遵循人類受試者的審查和批準的要求,從所有研究對象中采集血液樣本,并提取他們的DNA。雖然測試多個分子靶點,本研究使用下一代測序技術以評估HLA基因的高分辨率基因型(HLA DRB1*,*DRB345,*DQA1,DQB1*,DPA1和DPB1)。這項研究的分析目標是研究I型糖尿病與HLA基因的關聯(lián),并構(gòu)建I型糖尿病特性與這些HLA基因型的預測模型。為了建立驗證集,隨機選擇了479個病例和226個對照作為訓練集,其余部分作為驗證集(222個對照和483個病例)。對照以及病例的所有基因的等位基因頻率在訓練集和驗證集中很大程度是類似的(為了說明,補充表S2包括HLA-DRB1對照以及來自訓練集和驗證集的病例的等位基因頻率)。
為了對OOR處理復雜的HLA數(shù)據(jù)的過程進行說明,首先對T1D僅與HLA-DRB1基因的關聯(lián)進行分析。表6的對角線的上方和下方分別列出了對照和病例中的HLA-DRB1的基因型分布。對于那些對角線以下的純合基因型,對照和病例中的基因型頻率分別用分子和分母(#/#)表示。該基因型頻率表示出的直觀印象是,只有44個等位基因的基因型分布是稀疏的,且只有159個獨特的基因型,數(shù)量上比理論上根據(jù)HWE計算的可能的基因型數(shù)目990(=44×45/2)要小得多。其次,需注意的是,某些基因型在病例和對照之間呈現(xiàn)出明顯不同的頻率,該頻率意味著它們與T1D的關聯(lián)情況。例如,純合體04:01:01/04:01:01在病例和對照中分別具有0.6/9.3的頻率,這意味著15.5的頻率比。在另一個極端,雜合子15:01:01/07:01:01在病例和對照中分別具有0/3.4的頻率,這意味著這個雜合子看起來可預防I型糖尿病。對于那些常見的基因型,基于當前的樣本量對T1D關聯(lián)的直接評價是實際可行的,且在文獻中已經(jīng)被研究。然而,對于許多不太常見的基因型,因為稀疏、樣本量小,以及大量的比較,則很難進行嚴謹?shù)脑u估??紤]到期望整體檢測T1D與基因的關聯(lián),也在尋找可替代的其他分析方法。
考慮通過公式[12]訓練T1D與HLA-DRB1的關聯(lián)的OOR模型,而無需采用任何假設。由于某些等位基因的等位基因頻率不同以及與HWE的偏差,理論上可能并不存在許多基因型,即,它們的頻率為0(表6),故,OOR則可被簡化為
對應第k個獨特基因型的頻率,可被視為新的回歸系數(shù),對數(shù)據(jù)集中所有159個獨特HLA-DRB1基因型求和,其中,這些獨特的基因型被視為OOR的范例。這些159個回歸系數(shù)中,除了少數(shù)包含信息的范例外,預計大部分等于零。
在本例中,在各對對象之間,相似性矩陣的元素采用值1表示為相同,采用值0.5表示為共享一個等位基因,采用值0表示不共享等位基因。圖12示出了其中的705個對象的相似性矩陣的熱圖,其中示出了共享兩個等位基因的對象(紅),共享一個等位基因的對象(黑色)和不共享等位基因的對象(綠色)。從HLA-DRB1的角度來看,可以識別出一組相同的對象(紅色正方形落在對角線上),以及另一組只共享一個等位基因的對象(綠色長方形)。
為了進一步深入了解范例特異性的邊際關聯(lián),借由上述OOR公式,還可以對T1D與每一個范例的相似性度量進行單變量關聯(lián)。單變量分析的結(jié)果包括了補充表中列出的所估算的對數(shù)幾率比、標準偏差、Z分數(shù)和p值(表S2),以及范例和相關聯(lián)的基因型。為了更直觀地分析,表7中呈現(xiàn)矩陣形式中的四舍五入為整數(shù)的Z分數(shù),且為簡單起見,對應于0.05或更好的顯著性水平(沒有校正多重比較),該Z分數(shù)的絕對值設置為大于等于2。這些單變量分析的結(jié)果顯示了:HLA-DRB1*03:01:01和*04:01:01與T1D正相關,其著色為紅色條紋。另一方面,6個等位基因HLA-DRB1*07:01:01,*11:01:01,*11:04:01,12:01:01,13:01:01和15:01:01:01可預防T1D,著色為綠色條紋。要注意的是風險和保護等位基因的雜合基因型傾向于與T1D正相關。表S3:范例特異性邊際回歸分析得到的估算的回歸系數(shù)、標準偏差、Z分數(shù)和p值。
表7通過OOR從邊際關聯(lián)分析提取估算的Z分數(shù)(四舍五入到整數(shù),等于或大于2)。兩個主要的等位基因(HLA-DRB1*03:01:01和*04:01:01)用于評估較大的風險關聯(lián)(紅色條)。6個等位基因(HLA-DRB1*07:01:01,*11:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01)用于評估與I型糖尿病的較大的保護關聯(lián)。
在排除與I型糖尿病沒有關聯(lián)的范例之后,OOR的下一步是選擇那些包含信息的范例。出于經(jīng)驗比較的目的,使用上述的四種不同的估算方法進行選擇:LASSO、脊回歸、彈性網(wǎng)絡和逐步方法。在補充表(表S4) 列出了所有的估算回歸系數(shù)。LASSO方法從159個范例中選擇18個預測器和估算系數(shù)的方向性,即對數(shù)幾率比。其中,正系數(shù)往往與那些來自病例的范例相關聯(lián),而負系數(shù)往往與來自對照的范例相關聯(lián)。
相比之下,脊回歸方法生成所有范例的估算系數(shù),且對任何范例都不取消選擇。為了說明,在表S4的所有范例由相應的系數(shù)進行了排序。不同于LASSO估算方法,脊回歸的估算系數(shù)取零附近較小的值。其中,估算系數(shù)的方向性往往是與病例/對照源的所有范例相一致的。此外,對于那些由LASSO選擇的范例,脊估算在方向性上與那些通過LASSO獲得結(jié)果也是一致的。表S4的第三列示出了由彈性網(wǎng)絡估算的系數(shù),其中選擇了39范例。選擇的這39個范例大多數(shù)與LASSO選擇的范例重疊。從數(shù)量上看,彈性網(wǎng)絡和LASSO之間的估算系數(shù)是高度相關的(未顯示)。而逐步回歸方法選擇了14個范例,其中10個與LASSO選擇的范例重合。盡管這看似有很高的一致性,但與LASSO獲得的范例所對應的系數(shù)相比,許多估算系數(shù)的值往往相當大。
為了對通過這四個方法選定的范例的預測模型的性能加以了解,對接受者操作曲線(ROC)進行了分析,并評估所有四個預測模型的敏感度、特異性和曲線示出了在訓練集以及在驗證集的ROC 曲線和相關聯(lián)的AUC值,具體包括LASSO(圖13a)、脊回歸(圖13b)、彈性網(wǎng)絡(圖13c)和逐步(圖13d)。在訓練集中,估算的ROC曲線,上述四個方法在很大程度上都相類似。如預測的那樣,在驗證集,估算的AUC值小幅減少至0.866。其中,前述三種方法的AUC值的方差都小于0.001。前述三個方法的ROC分析結(jié)果的類似,表明可能有許多具有不同的范例以及類似的預測性能的預測模型。
為了建立一個I型糖尿病的預測模型,將OOR應用到所有8個II類HLA基因(HLA-DRB1,DRB345,DQA1,DQB1,DPA1和DPB1),使用相同的訓練集研究范例,并建立預測模型,并驗證驗證集中的預測模型。相對于上述相似性度量,此處使用了等式中定義的未加權相似性度量,表示為其中,n=705,并且每個元素取值范圍為0和1之間的值。為了便于可視化,使用分級聚類算法來構(gòu)建這個相似性矩陣,可參見示出的其熱圖(圖14)。中央對角線集群(通過注釋箭頭突出標示的紅色方塊,)表示存在許多彼此相同或彼此高度相似的對象。此外,通過注釋箭頭還指出了多個高度相似的對象的更小的集群。集群圖譜表明,在右下角的對象往往攜帶較常見的基因型分布,這是因為更多的個體攜帶常見基因型分布,其成對的相似性度量往往較高。另一方面,那些在左上角的對象傾向于具有更小的個體的集群,所述個體帶有相對相似性度量,這可能是因為它們的基因型分布具有相對低的頻率,相對較小的群組的個體攜帶相似基因型分布。其中,右上角的對象有相對較低的相似性度量,這可能是因為具有常見的基因型分布的個體往往與那些具有不太常見的基因型分布的個體相互隔離。
基于該相似性矩陣,將被觀測的基因型分布的一個子集選為范例。鑒于樣本量相對有限和基因型分布的神秘,將訓練集中所有獨特的基因型分布選為范例。換句話說,選擇的所有范例均是獨特的,并涵蓋訓練集中觀測到的所有基因型分布。操作上,用于進行成對相似性度量的閾值設置為1,訓練集中共有499個范例,且作為描述性關聯(lián)分析的一部分,應用OOR進行I型糖尿病與所有范例的單變量關聯(lián)分析;并沿HLA基因型列出(表S5)了估算系數(shù)、標準誤差、Z分數(shù)和它們的p值。其中,范例由Z分數(shù)排序,并且Z分數(shù)值與病例和對照狀態(tài)相一致。
目前的任務是要用LASSO建立預測模型。在前面的討論中,逐步方法適用于過度擬合預測模型,而并不適用建立預測模型。即使預測性的AUC是所需要的,脊回歸往往為所有范例提供“謹慎估算系數(shù)”,且對任何范例都不取消選擇。而彈性網(wǎng)絡相對于脊回歸和LASSO是一種折衷的方法,其具有與LASSO相當?shù)男阅?。為了對變量選擇進行分析,選擇LASSO建立一個I型糖尿病的預測模型。表3列出了基于LASSO的回歸系數(shù)估算,其中該回歸系數(shù)估算由回歸系數(shù)排序。通過LASSO選擇的共有26個包含信息的范例。通過合并病例(D)/對照(N)和研究識別號碼得到范例識別號碼。顯然,對那些從病例衍生的范例的估算系數(shù)傾向于為正,而對那些來自于對照的范例的估算系數(shù)傾向于為負。例如,與范例如D1612高度相似的對象,具有相對高的T1D的風險;與范例如N000982相似的對象,將有相對較低的T1D風險。
其中,對那些所有26個選定的范例求和,在表3中示出估計風險評分為了評估風險評分的經(jīng)驗分布,示出了訓練集中對照和病例的風險評分的箱圖(圖15)。顯然,訓練集中,病例的風險評分通常比對照的更大,這種差異在統(tǒng)計學看來比較顯著(p值0.001,未示出)。對照的風險評分呈對稱分布,而這些病例中的風險評分有些傾斜。根據(jù)風險評分范圍從-5.52到4.1,計算出的靈敏度(ROC曲線-特異性(x軸)構(gòu)成了訓練集的ROC曲線,該ROC曲線。
為了驗證上述預測模型,采用了固定的范例和上述模型中的相關聯(lián)的加權,計算驗證集所有樣本的風險評分。參見箱圖的左下圖,示出了對照和病例中的風險評分的分布(圖15)。顯然,在驗證集的風險評分的經(jīng)驗分布與在訓練集中的風險評分的經(jīng)驗分布在很大程度上是類似的。此外,驗證集的ROC分析顯示了相類似的靈敏度特異性曲線、選擇范例的穩(wěn)定性
已知的是,該懲罰參數(shù)(λ)的選擇對變量的選擇有直接和深刻的影響。常規(guī)的交叉驗證通常用于確定出可實現(xiàn)最小偏差的懲罰值(或其他性能度量,如分類誤差,或AUC)。圖16的頂圖顯示了偏差與不同的懲罰參數(shù)值(對數(shù)刻度)的XY坐標圖。它示出了最低的估算懲罰參數(shù)的對數(shù)值,所述對數(shù)值取值在-6.0到-5.5之間。此函數(shù)的平坦性意味著對應于最小偏差的估算懲罰參數(shù)在很大程度上受交叉驗證過程的影響。為了評估它的影響力,重復1000次估算懲罰參數(shù),并估算相應的值。圖16的下圖顯示估算懲罰參數(shù)的經(jīng)驗分布??梢?,在訓練集中估算的懲罰值是離散的15個不同的值,這可能是因為相似性矩陣的離散性造成的。
由于懲罰參數(shù)的值會影響變量的選擇,需關注的是,所選擇的變量在不同的懲罰參數(shù)值下是否是穩(wěn)定的,其次,即使具有固定的懲罰參數(shù),“選擇”本身是否穩(wěn)定。為了解決這個問題,對15個不同的懲罰參數(shù)值進行了自助分析。對于1000個自助分析樣本的每個樣本,分別設置固定的值,進行LASSO,并通過懲罰似然選擇包含信息的范例。對于定性比較,選擇使用Kappa統(tǒng)計數(shù)據(jù)來衡量所選擇的范例的重復性。Kappa值越大表示對應于選定的范例的重復越多,所述范例通過兩個不同的懲罰參數(shù)值的LASSO估算選定。在所有自助樣本中估算平均的Kappa值和它們的標準偏差(表4,上部三角內(nèi)為Kappa值,下部三角內(nèi)為標準偏差)。結(jié)果表明,這15個懲罰值的一致性為相鄰懲罰值的80%左右。正如預測的一樣,一致性隨著懲罰參數(shù)值的差異增加而降低。為了進一步了解不同的懲罰值下估算系數(shù)的定量一致性,計算所有自助樣本的平均系數(shù),并將不同的懲罰值下的平均系數(shù)繪制成對XY圖(在對角框標示)(圖17)。很明顯,如果兩個懲罰值比較接近,則估算系數(shù)的平均值彼此高度相關。否則,估算系數(shù)隨著懲罰值的不同可能有很大的不同。
如前所述,有多個類似性能的預測模型。現(xiàn)在的問題是,即使選擇的范例以及相關聯(lián)的系數(shù)不同,預測模型在懲罰參數(shù)值不同時是否也有類似的性能。為此,使用LASSO,在固定的懲罰參數(shù)值下,選擇包含信息的范例構(gòu)建相應的預測模型。對每個預測模型,進行訓練集以及驗證集的ROC分析。圖18示出估算AUC值的15個ROC分析結(jié)果。顯然,ROC曲線基本上是類似的。在訓練集中AUC值從0.91變化到0.93,而在驗證集中這些值約為0.89。
鑒于類似的性能和不同的懲罰參數(shù)值下選擇的范例的高度一致性,選擇了中等懲罰參數(shù)值來評估1000個自助樣本中單個系數(shù)估算的穩(wěn)定性。圖19示出在執(zhí)行雙向聚類分析后,1000個自助樣本中的499個范例的估算系數(shù)。各個估算系統(tǒng)值在被限定于-2和2之間,以便于可視化。很明顯,在1000個自助樣本中,固定的懲罰值下的估算系數(shù)也保持非常的一致。
在本文中,描述了一種面向?qū)ο蟮幕貧w(OOR)的新方法,來建立關于生物大數(shù)據(jù)的共同特征,即高度多態(tài)性基因的預測模型。為了解決多態(tài)性基因的復雜性,首先,通過OOR確定一組范例,其中,該范例的基因型分布在所觀測到的基因型中具有代表性。然后,通過OOR選擇每個對象和范例之間的取決于場景的基因的相似性度量,作為一個新的“度量”來度量所有對象和范例的相似性,并創(chuàng)建協(xié)變量矩陣。然后,通過采用現(xiàn)代懲罰似然方法,通過OOR選擇一組包含信息的范例來構(gòu)建預測模型。然后,作為“經(jīng)典”的回歸方法,使用OOR分析“范例”與疾病的單變量關聯(lián)以及多變量的關聯(lián)。不同于常規(guī)側(cè)重于單個基因的回歸,OOR的回歸系數(shù)在量化疾病與范例相似性的關聯(lián)時,需要結(jié)合上述新的度量來進行分析,即結(jié)合上述與范例的相似性來確定風險等級(見下文關于整體評估的詳細討論)。從這個角度來看,OOR是對常規(guī)的回歸方法的一種補充。
在給定的說明性的例子中,使用了在瑞典進行的一項病例-對照的I型糖尿病研究,探討了疾病與HLA基因的關聯(lián)。簡單地說,為了說明OOR 及其解釋,初步研究的重點側(cè)重于I型糖尿病與單個基因HLA-DRB1的關聯(lián)上。作為以基因為中心的回歸的補充方法,OOR的單變量分析揭示了T1D與單個攜帶HLA-DRB1*03:01:01,*04:01:01,*07:01:01,*11:01:01,*11:04:01,*12:01:01,*13:01:01和*15:01:01基因的關聯(lián)圖譜。在該例中,使用了HLA-DRB1建立了I型糖尿病預測模型,其中通過四個不同的變量的方法來選擇包含信息的范例。在針對上述例子的應用中,LASSO選擇了23個包含信息的范例,與風險升高相關聯(lián)的范例趨向于來自于病例,而那些與風險降低相關聯(lián)的范例往往是來自對照。另外,還發(fā)現(xiàn),通過逐步方法選擇的范例與那些由LASSO選擇的范例趨于重疊,但是相關聯(lián)的系數(shù)估算的絕對值往往更大。令人驚奇的是,在評估預測模型的性能時還發(fā)現(xiàn),AUC會下降到0.5,表明預測模型完全失效。這大概與預測模型對訓練數(shù)據(jù)過擬合相關。同時,脊回歸方法會保留所有范例,并產(chǎn)生與所有范例相關聯(lián)的謹慎回歸系數(shù)。而彈性網(wǎng)絡方法比LASSO會選擇更多包含信息的范例,但比脊回歸方法少,相當于是這兩種方法之間的妥協(xié)。另外可見,預測模型的性能與由三種方法選擇的范例性能在很大程度上是類似的。為了在簡約、詮釋和性能之間保持平衡,在本本發(fā)明所述應用中選擇使用LASSO方法。
基于HLA-DRB1的初步研究的結(jié)果,對所有HLA基因(DRB1,DRB345,DQA1,DQB1,DPA1和DPB1)建立了一個預測模型,隨后評估其性能,以及評估在不同懲罰參數(shù)值下所選擇的預測器的穩(wěn)定性。在訓練集中,OOR選擇了26個包含信息的范例作為預測器,該預測模型擁有極好的敏感度和特異性特性,對應的AUC為0.93。固定范例和回歸系數(shù)后,將預測模型應用在獨立選擇的驗證集上,通過ROC分析顯示與那些訓練集中類似的靈敏度和特異性,此時AUC為0.89。如果由外部的數(shù)據(jù)集進一步驗證后,這個預測模型可隨時用于在一般人群中篩查T1D。
雖然OOR有上述優(yōu)勢,但其也有局限性。通過構(gòu)建這個模型,OOR將基因為中心的回歸問題轉(zhuǎn)化為“對象與范例的基因型分布的相似性”的問題。因此,結(jié)果的解釋取決于相似性度量。例如,如果建立與范例的正關聯(lián),結(jié)果意味著,任何人只要其基因型分布與范例相似,則處于疾病的高風險。因此,這樣的正關聯(lián)不能精確定位與疾病階段相關聯(lián)的特定的基因多態(tài)性或其組合。畢竟,OOR不會解釋哪些基因是重要的。當然,傳統(tǒng)的回歸方法更加合適用于精確定位病因基因。
另一個問題是與相似性度量的選擇相關。在疾病與HLA基因的關聯(lián)分析的場景下,將等位基因身份計數(shù)的未加權平均值作為相似性度量。雖然這樣是直觀的,但可以考慮使用其他度量替代,如使用基于HLA基因型血緣同源性推斷得到的、對象間血緣同源性的加權平均值。正如預測的那樣,相似性度量的選擇影響了對結(jié)果的解釋,實現(xiàn)了場景特異性的靈活性。
OOR的特性之一是,當相似性度量構(gòu)建后,OOR需要確定“范例”作為用于構(gòu)建模型的預測器。OOR默認假定范例的數(shù)目比樣品量小(qn)。通常情況下,選擇范例代表一組具有取決于相似性度量的基因型分布的一個或多個對象。對于8個HLA基因,訓練數(shù)據(jù)集的705個對象中有一些是相同的,但許多在各自集群內(nèi)彼此相似(參見圖14為例)。在上述例子的應用中,用于相似性度量的閾值選擇1.0時,會從705個對象中選出499個范例。在不缺失信息的情況下,q個范例包含這些復雜的基因型的所有統(tǒng)計信息。假設樣本量增加的速度比范例的數(shù)目增加的速度更快,仍然可以依靠常規(guī)的漸進解法進行統(tǒng)計評估。需要注意的是,范例特異性的預測器彼此間高度相關,例如,范例的相關矩陣。在實踐中,用于相似性度量的閾值可以選擇低于1.0,用于確定較小的一組范例,以進一步進行分析,這尤為符合較大樣本量的需求。
OOR的另一個重要特性是,OOR結(jié)果對于等位基因特異性或基因型特異性的傳統(tǒng)回歸分析的結(jié)果是互補的。HLA基因的基因型特異性回歸分析,通常僅限于那些常見的基因型,諸如HLA-DRB1*03:01:01/03:01:01或*04:01:01/04:01:01,其中為了統(tǒng)計分析,還要求觀測數(shù)量足夠大。為了克服此限制,等位基因特異性回歸分析假設了模型的額外效果,并量化疾病與個別等位基因的關聯(lián)。但是,額外效果的假設可能不適合某些等位基因。當然,等位基因特異性回歸分析(當包括多個基因時,等同于單倍型特異性回歸分析)對于不常見等位基因也同樣存在著挑戰(zhàn)性。與此相反,OOR則繞過上述限制,將分析目標側(cè)重于評估疾病與對象和范例的基因型相似性的關聯(lián)。
對于結(jié)果的解釋,OOR和協(xié)變量特異性回歸方法有一定的不同。協(xié)變量特異性回歸側(cè)重于個別協(xié)變量的特定影響,以及如果統(tǒng)計學上顯著,對于個別回歸系數(shù)的解釋為相應的協(xié)變量有顯著的關聯(lián),即“簡約”論。與此相反,OOR評估疾病與對象和范例組的相似性的關聯(lián),如果發(fā)現(xiàn)一個或多個回歸系數(shù)從零顯著偏離,其結(jié)果意味著,與該范例的相似性指示了較高或較低的疾病的風險,即個人風險的“整體”論。事實上,正是OOR的這種“整體性”,規(guī)避了傳統(tǒng)回歸分析的復雜性的問題。
OOR使用的相似性度量的概念也與統(tǒng)計遺傳學中開發(fā)并使用的多種方法相關。雖然本文并不意圖追蹤這些聯(lián)系,但需注意,古典和現(xiàn)代遺傳學旨在通過利用家族內(nèi)對象的相關性發(fā)現(xiàn)結(jié)果相關聯(lián)的易感基因,因為共享的疾病基因在被發(fā)現(xiàn)之前,可能會導致相關個體中相似性的增加。在遺傳學的早期,隔離和聯(lián)系方法用于描述和發(fā)現(xiàn)家族聚集性基因。在現(xiàn)代遺傳學,一些研究小組提出,通過評估遺傳標記的相似性并使用相似性回歸來發(fā)現(xiàn)疾病基因。雖然有著相似的科學目標,但OOR使用相似性評分來發(fā)現(xiàn)哪些范例有更高的疾病風險,而不是發(fā)現(xiàn)哪些SNP(單核苷酸多態(tài)性)與疾病相關聯(lián)。
OOR還與一些現(xiàn)有的分析方法存在聯(lián)系。在統(tǒng)計遺傳學文獻的背景下,OOR與序列核關聯(lián)測試(SKAT)共享相同的理論基礎,即表現(xiàn)定理。最近開發(fā)的用于檢測GWAS基因-基因之間作用的方法中,SKAT在遺傳分析方面受到巨大好評,因為它使用該定理來非參數(shù)化地表示SNP的所有基因間作用的綜合影響,并檢測基因-基因之間的作用的存在,這是一個GWAS遺傳分析的挑戰(zhàn)性的問題。最近,Pan(2011)表明,SKAT測試與相似性回歸方法本質(zhì)是等同的。除了共享相同理論基礎,OOR還具有完全不同的分析目標,即評估疾病與“范例特異性相似性”的關聯(lián),并因此直接對范例的相似性度量建模,而不是為范例特異性系數(shù)假設一個隨機分量。
在更廣闊的背景下,OOR與核邏輯回歸和支持向量機密切相關。所有三種方法共享相同的表現(xiàn)定理,利用該定理的一般表達形式,統(tǒng)稱為核機器。然而,OOR通過相似性度量將核函數(shù)的選擇形式化,利用集群戰(zhàn)略確定范例,并通過懲罰似然方法選擇那些包含信息的范例??梢?,基于前人研究所取得的成就之上,OOR提供了一種新的方法來分析疾病與復雜協(xié)變量的關聯(lián)。
對于計算機科學文獻的數(shù)據(jù)挖掘來說,OOR與k近鄰方法(KNN)也有著密切的聯(lián)系。k近鄰方法的核心思想是由某些特性定義的相對“親密鄰居”的對象趨向于有類似的結(jié)果。從本質(zhì)上說,可以用k近鄰方法進行預測,而不用做任何建模假設,因此該方法也被稱為非參數(shù)預測方法。然而,k近鄰方法的效率沒有其它建模方法高,其原因之一是它并沒有考慮到這樣一個事實,即許多鄰居具有同等疾病關聯(lián)(即結(jié)果關聯(lián))(無論是無效假設或備擇假設),而通過鄰居的組合是可以提高預測精度的。相比之下,OOR利用周邊信息(即,相似性度量)與多個包含信息的范例關聯(lián)。在概念層面,OOR可以被看作是k近鄰回歸函數(shù)估算的延伸。
另一種密切相關的方法是成員等級分析法,簡稱為GoM。從概念上講,GoM通過引入一組潛在成員變量,假設該潛在成員變量的分布是合理的,GoM對結(jié)果的聯(lián)合分布以及協(xié)變量建模,在整合了所有GoM潛在成員變量后,可推導邊際似然用于估算和參考,而不是單一協(xié)變量的特定邊際解釋。在此方面,OOR類似GoM,利用相似性度量獲得分析目標,但其在建模假設和相關實施上是不同的。OOR的主要優(yōu)點在于,無需假設潛在成員的分布,而完全基于經(jīng)驗證據(jù)進行推斷。
OOR在下述兩方面有很大的發(fā)展。首先,在邏輯回歸模型下構(gòu)建OOR,用于二元疾病表型的應用。通過將邏輯回歸擴展到廣義線性模型,OOR可以應用于與其它類型的表型的研究,如連續(xù)、分類或截尾的表型,并適當選擇關聯(lián)函數(shù),對表型和協(xié)變量的關系進行建模。第二,在其他類型的復雜協(xié)變量,例如文本串(例如,來自網(wǎng)絡搜索)、電子信號或二維圖像方面的應用。此外,協(xié)變量可以是高維數(shù)據(jù),其維度的數(shù)目可遠遠大于樣本量。對于這些不同的應用,關鍵是要選擇背景相關的相似性度量,來定義對象之間的關于其協(xié)變量特性的“相似性度量”。研究OOR的長期目標是使其適用于大數(shù)據(jù)所產(chǎn)生的各種表型與各類協(xié)變量。
顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于本領域技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無法對所有的實施方式予以窮舉。凡是屬于本發(fā)明的技術方案所引伸出的顯而易見的變化或變動仍處于本發(fā)明的保護范圍之列。