• <li id="ccaac"></li>
  • <table id="ccaac"><rt id="ccaac"></rt></table>
  • <td id="ccaac"></td>
  • <td id="ccaac"></td>
  • 實驗方法> 蛋白質技術> 蛋白相互作用技術>基因表達差異的顯著性分析

    基因表達差異的顯著性分析

    關鍵詞: 基因 表達 差異來源: 互聯網

    檢測基因表達水平

    用于檢測基因表達水平的 DNA 微陣列實驗,應用之一是比較實驗,目的是比較兩個條件下的基因表達差異,從中識別出與條件相關的特異性基因,例如,識別可用于腫瘤分型的特異基因等。為了提高實驗的可靠性,對于同一樣本,往往有兩次或更多次的重復實驗,但是,由于 DNA 微陣列的費用仍然很昂貴,不可能重復足夠多的次數來滿足實驗數據分析的要求,因此需要采用統計方法來分析這些數據。對于這些表達數據的分析,目的就是要識別在兩個條件下有顯著表達差異的基因。何謂顯著表達差異?

    通常是指一個基因在兩個條件中表達水平的檢測值在排除實驗、檢測等因素外,達到一定的差異,具有統計學意義,同時也具有生物學意義。常用的分析方法有三類,第一類稱之為倍數分析,計算每一個基因在兩個條件下的 Ratio 值,若大于給定閾值,則為表達差異顯著的基因;第二類方法采用統計分析中的 t 檢驗和方差分析,計算表達差異的置信度,來分析差異是否具有統計顯著性;第三類是建模的方法,通過確定兩個條件下的模型參數是否相同來判斷表達差異的顯著性,例如貝葉斯方法。

    8.3.1 倍數分析

    早期基于 cDNA 微陣列技術的比較實驗,用倍數來分析基因表達水平差異,即計算基因在兩個條件下表達水平的 Ratio 值。用 表示基因 g 在條件 i 下的表達水平測量值,因此, Ratio 值為 ,可表示基因 g 在條件 1 和 2 下的表達水平差異。對于 cDNA 微陣列實驗,是將兩個條件下的樣本混合后與 cDNA 微陣列進行雜交實驗,得到的是成對數據,對每次實驗得到的數據計算 ,最后計算重復實驗的平均 。

    而對于寡核苷酸芯片,首先分別計算兩個樣本的重復實驗的歸一化表達水平的平均值,然后計算其 Ratio 值。當 =1 時,基因 g 的表達水平沒有改變,而 <1 或 >1 意味著基因 g 在兩個條件下存在表達差異,特別是 <1 表示基因在條件 1 是下調的,而 >1 ,表示在條件 1 是上調的。在具體應用中,如果一個基因的平均表達水平在兩個條件下的變化超過一個常數,典型的常數是 2 ,即 >2 或 <1/2 ,則認為該基因的表達差異是顯著的。

    然而,對表達數據仔細考察后可以發現,這樣簡單的 2 倍法并不能產生最優的結果,因為因子 2 在不同的表達水平上有相當不同的顯著性。對于低表達水平的基因,其信噪比太低,用 2 倍法作為判斷條件太寬松,而對于高表達基因,條件又太苛刻,往往小于 2 就具有生物學意義。在具體應用中,并沒有明確的閾值,往往根據分析的具體要求由數據分析者自行確定。

    8.3.2 t 檢驗

    于兩個條件下的多次重復實驗,為了判斷基因的表達差異是否具有顯著性,在應用中較多的是采用假設檢驗,包括兩個條件下的 t 檢驗和多個條件下的方差分析( ANOVA ),這里僅僅介紹 t 檢驗,關于 ANOVA 請參考相應的統計分析書籍。

    零假設為 ,即假設兩個條件下的平均表達水平是相等的,與之對應的備選假設是 。

    其中 ,為某一條件下的重復實驗次數, Xgij 是基因g在第i個條件下第j次重復實驗的表達水平測量值。

    根據統計量值,可以得到 p 值,它表示在零假設成立的情況下,出現該數據的概率。如果 p 值小于給定的顯著性水平,就拒絕零假設,即認為基因 g 在兩個條件下的表達差異是顯著的。因為在 t 檢驗中,兩個總體平均值之間的距離被樣本的標準差歸一化,可以克服固定倍數閾值方法的一些缺點。然而,對于 DNA 微陣列數據的 t 檢驗的基本問題是,即使用當前的高通量檢測技術,實驗仍然花費很大或者實驗過程很冗長,重復次數 經常較小, =2 、 3 的小樣本仍然非常普通。由于樣本量小,導致總體方差被嚴重低估,得到的 t 值就較大,因此會導致較高的假發現率 (FDR , False Discovery Rate) ,即通過 t 檢驗得到的結果中表達差異不顯著的基因數目較多。這樣,需要更好的分析方法來克服這些缺點。

    在 t 假設檢驗中,經常使用的顯著性水平是 p =0.01 ,其意思是在零假設正確的情況下,從總體中進行 100 次抽樣,允許有 1 次不滿足零假設。對于 DNA 微陣列實驗,檢測的基因數目巨大,如果微陣列上有 10000 個基因,采用 p =0.01 ,將會有 100 個基因是由于偶然性而被錯誤認為是有表達差異顯著的。這個數目已經可能對后續的生物學分析產生很大的干擾,從而導致 t 檢驗分析結果的不可靠或失去意義。

    為了解決這個問題,可以對 t 檢驗進行改進,降低由于分母上方差小而帶來的錯誤,因此對 t 檢驗的計算公式修改如下:

    假設 的分布是獨立于基因表達水平的。因為較低的表達水平會使 的值較小,導致 值變化較大。為了保證 獨立于基因表達水平,在分母上增加 S 0 , 增加 S 0 后可以降低 的方差 。 通過對設計的一組對照樣本的分析,可以確定閾值, 大于閾值的基因被認為是表達差異顯著的。

    8.3.3 貝葉斯分析

    由于 DNA 微陣列數據噪聲大、波動大,而且在大量數據的背后還有很多相關變量不能被觀察到,因此,貝葉斯方法可以用來分析微陣列表達數據。

    其中, P(M|D) 表示由觀測數據集 D 得到參數化模型 為真的概率,稱為后驗概率; P(M) 稱為先驗概率,表示在沒有得到任何數據之前所估計的模型 M 為真的概率; P(D|M) 是指似然度,表示從模型 M 得到一個觀測數據集 D 的概率。貝葉斯推斷是通過參數估計和模型選擇來實現任務的,最常用的方法是最大后驗概率 (MAP) 估計和最大似然 (ML) 估計。

    在用貝葉斯方法分析表達數據時,首先假設在給定條件下,一個基因的表達水平測量值是獨立的,并滿足正態分布。根據經驗,這一假設是合理的,特別是表達水平的對數大致服從對數正態分布。對于重復實驗,也可以引入伽瑪分布、高斯 / 伽瑪混合分布等。一個基因在一種條件下的表達測量值可以用一個正態分布 來建模。對于每個基因在每一種條件下,都對應有一個雙參數模型 ,似然函數可以由下式給出:

    i 取遍所有的重復測量,重復測量次數為 n ,C表示歸一化常數。似然度取決于充分統計量 n 、 和 分別表示重復次數、 n 次重復實驗的平均值和方差。

    先驗概率分布 的選擇有幾種,一般采用共扼先驗分布。先驗分布的四個超參數構成向量 ,則

    超參數 和 可以分別解釋為 的位置和數值范圍,V 0 和 分別解釋為 的自由度和數值范圍。對于 DNA 微陣列數據,采用一個 和 相互不獨立的先驗分布很有意義。經過一些代數運算,可以推導出后驗分布具有與先驗分布相同的函數形式:

    后驗分布的參數以一種合理的方式將先驗分布的信息和數據信息結合了起來。后驗分布是貝葉斯分析的基本對象,它包含了 和 所有可能取值的相關信息,可以通過多種方法估計 和 。

    推薦方法

    Copyright ?2007 ANTPedia, All Rights Reserved

    京ICP備07018254號 京公網安備1101085018 電信與信息服務業務經營許可證:京ICP證110310號

  • <li id="ccaac"></li>
  • <table id="ccaac"><rt id="ccaac"></rt></table>
  • <td id="ccaac"></td>
  • <td id="ccaac"></td>
  • 床戏视频