研究探討RNA-seq數據分析方法

上一篇 / 下一篇 2011-06-08 15:03:47

　　高通量RNA測序(RNA-seq)有望描繪出轉錄組的整體圖像，實現樣本內所有基因及其亞型的完整注釋和定量。隨著測序價格的不斷下降，以及個人化測序儀的上市，更多的實驗室有機會嘗試這種新技術。

　　然而，測序之后的數據分析才是真正的挑戰。在RNA-seq之后，還需要一些強大的計算工具，才能繪制出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上，來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述，介紹了轉錄組注釋和定量的計算方法。

　　首先，他們介紹了一些方法，將讀數與參考轉錄組或基因組直接比對。之后，他們討論了鑒定表達基因和亞型的方法。最后，他們還介紹了一些方法，來預計基因和亞型的豐度，以及分析樣品間的差異表達。

　　由于RNA-seq數據生成的不斷改善，現有計算工具的發展有著很大差異。在某些領域，如讀數定位，有多種算法存在，但在差異表達分析上，解決方案才剛剛出現。作者們強調了這些方法的核心原理和每種方法的關鍵差異，以及它們在RNA-seq 分析上的應用。他們還討論了這些不同的方法如何影響結果以及數據的闡釋。

　　為了方便讀者參考，他們還將現有的方法列成了一張表，注明了它們的原理和用途。另外，他們精選了一些有代表性的方法，應用在已經發表的RNA-seq數據組中。此數據組包含了5800萬個末端配對的讀數。

　　數據比對是RNA-seq分析中的一項基本任務，然而也面臨著一些挑戰，比如數據量大，讀數很短(36-125 bp)，錯誤率可觀，且許多讀數跨越外顯子-外顯子交界。對于RNA-seq的比對方法，作者將其分成“unspliced read aligners”和“spliced aligners” 兩類，并分別介紹。

　　轉錄組重建也是個很困難的任務，因為基因表達差異很大，且讀數可能來源于成熟的 mRNA，也可能來源于未完全剪接的前體RNA，這樣就很難鑒定成熟的轉錄本。當然，讀數短也為分析帶來了困難。目前的轉錄組重建方法主要有兩類，一類是基因組指導的，另一類是不依賴于基因組的。作者比較了這兩類方法，并具體介紹了每一類下面的幾種方法。

　　至于轉錄組的圖譜分析，DNA芯片一直是首選方法。在使用RNA-seq來估計基因表達時，需要將讀數適當地標準化，才能提取出有意義的表達預測值。作者介紹了一些方法，來預計基因和亞型的豐度，以及分析樣品間的差異表達。

　　作者還提到，隨著測序技術的成熟，如讀長不斷增加，現有的計算工具需要發展，也能滿足新的需求，同時新工具也會不斷出現，滿足新的應用。

導入論壇收藏分享給好友推薦到圈子管理舉報

TAG:

查看全部評論