基因表達譜聚類分析
對于基因表達譜數據的分析是生物信息學的研究熱點和難點。轉化為數學問題,分析任務是從數據矩陣 M 中找出顯著性結構,結構類型包括全局模型 (model) 和局部模式 (pattern) 。對基因表達譜數據的分析是數據挖掘問題,所采用的方法包括通過可視化進行探索性數據分析( Exploratory Data Analysis )、描述建模 (descriptive modeling) 、分類、聚類、回歸和機器學習等。
基因表達譜分析所采用的常用方法是聚類,其目的就是將基因分組。從數學的角度,聚類得到的基因分組,一般是組內各成員在數學特征上彼此相似,但與其它組中的成員不同。從生物學的角度,聚類分析方法所隱含的生物學意義或基本假設是,組內基因的表達譜相似,它們可能有相似的功能。然而,產物有相同功能的編碼基因(例如對其它蛋白質有磷酸化作用),不一定共享相似的轉錄模式。
相反,有不同功能的基因可能因為巧合或隨機擾動而有相似的表達譜。盡管有許多意外的情況存在,大量功能相關的基因的確在相關的一組條件下有非常相似的表達譜,特別是被共同的轉錄因子共調控的基因,或者產物構成同一個蛋白復合體,或者參與相同的調控路徑。因此,在具體的應用中,可以根據對相似表達譜的基因進行聚類,從而指派未知基因的功能。
聚類分析是模式識別和數據挖掘中普遍使用的一種方法,是基于數據的知識發現的有效方法,特別適用于模式分類數不知道的情況。聚類分析是一種 無監督學習方法,不需要任何先驗領域知識,它 根據數學特征提取分類標準,對數據進行分類,這種數學特征的例子有統計平均值、相關系數、協方差矩陣的本征值及本征向量等。聚類分析在基因表達數據分析中應用得很多,主要有層次聚類、 K 均值、自組織特征映射網絡等。本節將介紹基因表達數據分析中常用的聚類方法及與此相關的內容。
8.4.1 相似性度量函數
對基因表達譜進行聚類分析之前,必須首先確定反映不同基因表達譜相似程度的度量函數,根據該函數可以將相似程度高的基因分為一類。在實際計算中,還可以用距離代替相似的概念,相似性度量被轉化為兩個基因表達譜之間的距離。距離越小,表達模式越相近;反之,則表達模式差異大。
常見的相似性度量有距離、點積、相關系數( correlation coefficient )、互信息( mutual information )等。 假設兩個基因表達譜分別為 X = ( x 1 ,x 2 ,…,x m )和 Y = ( y 1 ,y 2 ,…,y m ) , 距離函數 d( X , Y ) 必須滿足如下條件:
d( X , Y ) ? 0
d( X , Y ) = d( Y , X )
d( X , Y ) = 0 if X = Y
d( X , Y ) ? d( X , Z ) + d( Z , Y )
歐氏距離( Euclidean distance )是一個通常采用的距離定義,它是在 m 維空間中兩個點之間的真實距離, 兩個基因表達譜之間的歐氏距離:
相關系數也是常用的相似性度量函數:
其中, G offset 是 G 的各分量的均值, 是標準方差。用上述兩種相似性度量,可以找出表達譜相似或者變化趨勢相同的基因。歐氏距離、相關系數可以反映基因之間的共表達關系,兩個基因表達譜間的距離小于給定的閾值或相關系數大于某個給定的閾值,就可以認為它們之間是共表達的。距離和相關系數之間存在關聯,在具體應用時,可以根據需要進行轉換。
距離和相關系數反映的都是基因表達譜之間的相似性,這種相似性反映了基因的共表達行為,而基因的行為是復雜的,它們之間存在調控和被調控的關系,或者存在調控鏈,例如基因 A 調控 B , B 調控 C ,調控還有正性調控和負性調控之分。對于這些調控關系,它們的表達譜往往是不相似的,或者存在時延、或者存在反相,而基因表達的幅度也可能不相等。如何從數據中發現這些復雜的基因關系呢? 互信息可能是一種有用的度量指標,其定義如下 :
MI ( X , Y ) =H ( X ) +H ( Y ) -H ( X , Y )
MI (X,Y) 是向量 X 和 Y 的互信息, H ( X ), H(Y) 分別是 X 和 Y 的熵, H(X,Y) 是向量 X,Y 的聯合熵。 歸一化互信息 NMI 定義如下:
NMI ( X , Y ) = MI ( X , Y ) /max[H ( X ), H ( Y ) ]
NMI 獨立于單個信息熵,抓住了模式上的相似性。互信息聚類分析沒有規則上的約束,不象歐氏距離。
目前,還沒有理論來指導如何選擇最好的相似性度量,也許一個“正確”的距離在表達模式空間是不存在的,選擇何種度量函數依賴于我們要解決的問題。
8.4.2 聚類方法
對于基因表達譜的聚類問題,由于目前對基因表達的系統行為了解得不全面,沒有聚類的先驗知識,所以通常采用無監督學習方法。 在基因表達數據分析方面,層次式聚類、 K 均值、自組織映射神經網絡在應用中是常用的方法。 下面主要介紹這幾種常用的聚類方法,并簡單介紹一些其它方法。
8.4.2.1 簡單聚類
假設有 G 個基因,它們的表達譜分別用向量表示為 。令任意一個基因的表達向量為第一個聚類的中心 , 假設選擇 。然后計算 到 的距離 D 21 ,如果 D 21 大于給定的閾值 T ,則說明 不屬于第一類,應該分到另外的類。在這種情況下,建立一個新的聚類中心 ;如果 D 21 小于閾值 T ,則將 分到第一類中。接著處理其它基因,在處理第 i 個基因時,首先計算該基因的表達譜與現有各類中心的距離,假設與第 j 類的距離 D ij 最小,并且 D ij < T ,則將基因 i 分配到第 j 類;否則生成一個新類,該類的中心為第 i 個基因的表達向量。
簡單聚類算法的結果與第一個聚類中心的選擇、基因的順序、閾值 T 以及基因表達譜在其空間的分布有關。該方法對于給定的一組基因表達數據模式進行初步分類提供了一種快速的算法。
8.4.2.2 層次聚類法
層次聚類法,在統計分析中也稱為系統聚類法,原理和算法與第 6 章所介紹的系統發生樹連鎖構造方法類似,所不同的只是將所分析的數據由生物分子序列換成了這里的基因表達譜。該方法在基因表達譜聚類分析中是常用方法,它的優點是容易理解和實現,所得到的結果以樹狀圖的形式表示,可以直觀地觀察基因之間的相互關系,尤其是類與類之間的關系。
但是,基因表達譜的數量很多,往往要多于系統發生樹分析時的物種數量,而且基因之間相互關系的信息也沒有物種之間的多,所以,對聚類結果的后續分析要比系統發生樹分析復雜得多。對于表達譜聚類的結果還需要進一步分析基因的功能或者基因的序列特征,一般通過剪枝得到分類結果,而剪枝的過程往往帶有更多的主觀性,這會導致丟失一些重要的信息或包括一些無關的信息。此外,在構建基因表達譜聚類樹時,已被合并的向量不再參與以后的分類,這會導致聚類結果與向量的次序有關,所以被認為是一種局部最優解的方法。
8.4.2.3 K 均值聚類
K 均值聚類在數據劃分上不考慮類的分層結構問題,該算法使待聚類的所有向量到聚類中心的距離的平方和最小,這是在誤差平方和準則的基礎上得到的。 K 均值聚類算法如下:
(1) 任意選取 K 個基因表達譜向量作為初始聚類中心 Z 1 , Z 2 ,…, Z k ,在沒有先驗知識的情況下,一般選擇前 K 個基因。
(2) 對所有的基因表達譜向量進行反復迭代計算。在第 l 次迭代過程中,如果 則將 X 所代表的基因歸于第 j 類。
(3)經過一次迭代計算后,聚類中心可能發生變化,因此需要重新計算 K 個新聚類中心:
其中 f j (l) 為第 l 次迭代中第 j 個聚類的基因集合, N j 為該集合中基因的個數。
(4)對于所有的聚類中心,如果 Z j (l+1)= Z j (l)(j=1,2,…,K) ,則迭代結束,得到最后的聚類結果;否則轉第 2 步,繼續進行迭代計算。
聚類中心的個數 K 、初始聚類中心的選擇、基因排列的順序 以及基因表達譜數據的分布影響聚類的結果,當基因表達譜類別之間分離較遠時,該算法可以取得令人滿意的聚類分析結果。
8.4.2.4 自組織映射神經網絡
人工神經網絡技術在模式識別方面有著獨特的優勢,神經網絡能夠進行非線性數據處理,發現復雜的數據關系,其中,自組織映射神經網絡( Self-Organizing Map , SOM )可以對模式數據進行自動聚類。
自組織特征映射是 Kohonen 在 1990 年提出的類似大腦思維的一種人工神經網絡方法,它是一種競爭學習算法,可以被認為是一種從 N 維模式空間各點到輸出空間少數點的映射。這一映射由系統本身完成,沒有外部的監督,即聚類是以自組織的方式實現的。 SOM 采用無教師學習訓練,訓練完成后,分類信息存儲在網絡各節點連接權值向量中,與權值向量相似的輸入向量將分為一類。 SOM 包括一維和二維模型,二維 SOM 也稱為 KFM(Kohonen Feature Mapping) 。它們的區別在于 KFM 考慮鄰近神經元的相互作用,即獲勝神經元對周圍神經元由于距離的不同會產生不同的影響。
KFM 的結構如 ,輸入網絡的是一個 n 維向量的所有 n 個數值,輸出單元呈二維排列,個數為 p × p, 輸入層與輸出層的各單元之間是全連接的,并用 W 表示連接權重。 KFM 的學習過程就是對所有的 G 個樣本向量進行迭代學習,直到權值 W 的變化小于某一個確定的閾值或迭代達到一定的次數。測試過程比較簡單,對于每一個樣本向量,計算其獲勝神經元,輸出單元相同的樣本向量屬于同一類。雖然 KFM 有學習過程,但是可以看到這種學習是從所有的樣本中自動獲取特征,沒有教師的參與,因此稱為無監督的學習方法。
Kohonen 認為,神經網絡中鄰近的各個神經元通過側向交互作用彼此相互競爭,自適應地發展成檢測不同信號的特殊檢測器。該思想來自于大腦神經元的特性,即大腦皮層的神經元成二維空間排列,不同區域分工不同,各自對輸入模式的不同特征敏感,神經元之間存在信息交互,主要是側向交互,即某個經元對周圍神經元之間存在由近到遠的不同的影響作用,而不是簡單的側抑制作用。對鄰近神經元的交互作用函數有巴拿馬草帽型 或矩形型 。
其中 d cj 是輸出單元 c 與鄰近單元 j 之間在神經元平面上的距離, R 是交互作用半徑。