研究探討RNA-seq數據分析方法
上一篇 /
下一篇 2011-06-08 15:03:47
高通量RNA測序(RNA-seq)有望描繪出轉錄組的整體圖像,實現樣本內所有基因及其亞型的完整注釋和定量。隨著測序價格的不斷下降,以及個人化測序儀的上市,更多的實驗室有機會嘗試這種新技術。
然而,測序之后的數據分析才是真正的挑戰。在RNA-seq之后,還需要一些強大的計算工具,才能繪制出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature
Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
首先,他們介紹了一些方法,將讀數與參考轉錄組或基因組直接比對。之后,他們討論了鑒定表達基因和亞型的方法。最后,他們還介紹了一些方法,來預計基因和亞型的豐度,以及分析樣品間的差異表達。
由于RNA-seq數據生成的不斷改善,現有計算工具的發展有著很大差異。在某些領域,如讀數定位,有多種算法存在,但在差異表達分析上,解決方案才剛剛出現。作者們強調了這些方法的核心原理和每種方法的關鍵差異,以及它們在RNA-seq
分析上的應用。他們還討論了這些不同的方法如何影響結果以及數據的闡釋。
為了方便讀者參考,他們還將現有的方法列成了一張表,注明了它們的原理和用途。另外,他們精選了一些有代表性的方法,應用在已經發表的RNA-seq數據組中。此數據組包含了5800萬個末端配對的讀數。
數據比對是RNA-seq分析中的一項基本任務,然而也面臨著一些挑戰,比如數據量大,讀數很短(36-125
bp),錯誤率可觀,且許多讀數跨越外顯子-外顯子交界。對于RNA-seq的比對方法,作者將其分成“unspliced read
aligners”和“spliced aligners” 兩類,并分別介紹。
轉錄組重建也是個很困難的任務,因為基因表達差異很大,且讀數可能來源于成熟的
mRNA,也可能來源于未完全剪接的前體RNA,這樣就很難鑒定成熟的轉錄本。當然,讀數短也為分析帶來了困難。目前的轉錄組重建方法主要有兩類,一類是基因組指導的,另一類是不依賴于基因組的。作者比較了這兩類方法,并具體介紹了每一類下面的幾種方法。
至于轉錄組的圖譜分析,DNA芯片一直是首選方法。在使用RNA-seq來估計基因表達時,需要將讀數適當地標準化,才能提取出有意義的表達預測值。作者介紹了一些方法,來預計基因和亞型的豐度,以及分析樣品間的差異表達。
作者還提到,隨著測序技術的成熟,如讀長不斷增加,現有的計算工具需要發展,也能滿足新的需求,同時新工具也會不斷出現,滿足新的應用。
導入論壇收藏
分享給好友
推薦到圈子
管理
舉報
TAG: