• <li id="ccaac"></li>
  • <table id="ccaac"><rt id="ccaac"></rt></table>
  • <td id="ccaac"></td>
  • <td id="ccaac"></td>
  • 實驗方法> 蛋白質技術> 蛋白相互作用技術>基因表達數據的獲取

    基因表達數據的獲取

    關鍵詞: 基因 表達 數據來源: 互聯網

    隨著 cDNA 微陣列和寡核苷酸芯片(下文沒有特別說明時,統稱為 DNA 微陣列)等高通量檢測技術的發展,我們可以從全基因組水平定量或定性檢測基因轉錄產物 mRNA 。在本章中,基因表達數據特指基于 DNA 微陣列實驗得到的反映 mRNA 豐度的數據,而不包括基因表達最終產物――蛋白質豐度的數據。

    由于生物體中的細胞種類繁多,同時基因表達具有時空特異性,因此,基因表達數據與基因組數據相比,要更為復雜,數據量更大,數據的增長速度更快。基因表達數據中蘊含著基因活動的信息,可以反映細胞當前的生理狀態,例如細胞是處于正常還是惡化狀態、藥物對腫瘤細胞是否有效等。

    對基因表達數據的分析可以獲取基因功能和基因表達調控信息,這是生物信息學的重大挑戰之一,也是 DNA 微陣列能夠在生物醫學領域中廣泛應用的關鍵原因之一。

    基因表達數據分析的對象是在不同條件下,全部或部分基因的表達數據所構成的數據矩陣。通過對該數據矩陣的分析,可以回答一些生物學問題,例如,基因的功能是什么?在不同條件或不同細胞類型中,哪些基因的表達存在差異?

    在特定的條件下,哪些基因的表達發生了顯著改變,這些基因受到哪些基因的調節,或者控制哪些基因的表達?哪些基因的表達是細胞狀態特異性的,根據它們的行為可以判斷細胞的狀態(生存、增殖、分化、凋亡、癌變或應激等)等等。

    對這些問題的回答,結合其它生物學知識和數據有助于闡明基因的表達調控路徑和調控網絡。 揭示基因調控路徑和網絡是生物學和生物信息學共同關注的目標,是系統生物學 (Systems Biology) 研究的核心內容。

    目前,對基因表達數據的分析主要是在三個層次上進行:

    1 、分析單個基因的表達水平,根據在不同實驗條件下,基因表達水平的變化,來判斷它的功能,例如,可以根據表達差異的顯著性來確定腫瘤分型相關的特異基因。采用的分析方法有統計學中的假設檢驗等。

    2 、考慮基因組合,將基因分組,研究基因的共同功能、相互作用以及協同調控等。多采用聚類分析等方法。

    3 、嘗試推斷潛在的基因調控網絡,從機理上解釋觀察到的基因表達數據。多采用反向工程的方法。

    本章首先介紹基因表達數據的來源和預處理方法;然后介紹基因表達數據分析的主要方法,包括表達差異分析、聚類分析和分類等;最后簡單介紹從基因表達數據出發研究基因調控網絡的一些經典模型。

    8 .1 基因表達數據的獲取

    基因表達數據反映的是直接或間接測量得到的基因轉錄產物 mRNA 在細胞中的豐度,這些數據可以用于分析哪些基因的表達發生了改變,基因之間有何相關性,在不同條件下基因的活動是如何受影響的。

    它們在醫學臨床診斷、藥物療效判斷、揭示疾病發生機制等方面有重要的應用。檢測細胞中 mRNA 豐度的方法有 cDNA 微陣列、寡核苷酸芯片、基因表達系列分析( Serial analysis of gene expression , SAGE )、 RT-PCR 等。

    目前,高通量檢測基因組 mRNA 豐度的方法主要是 cDNA 微陣列、寡核苷酸芯片,它們的原理是相同的,即利用 4 種核苷酸之間兩兩配對互補的特性,使兩條在序列上互補的單核苷酸鏈形成雙鏈,這個過程被稱為雜交。

    基本技術路線是:制備芯片,在一個約 1cm 2 大小的玻璃片上,將稱為探針的 cDNA 或寡核苷酸片段固定在上面;從細胞或組織中提取 mRNA ,通過 RT-PCR 合成熒光標記的 cDNA ,與芯片雜交;用激光顯微鏡或熒光顯微鏡檢測雜交后的芯片,獲取熒光強度,分析并得到細胞中 mRNA 豐度的信息。

    8.1.1 cDNA 微陣列

    cDNA 微陣列是在 1995 年由斯坦福大學率先研制成功并應用于基因表達分析的。首先將細胞內的 mRNA 逆轉錄成 cDNA 并分離,然后將分離得到的所有或部分 cDNA (其長度通常大于 200bp )作為探針,用機器手按照陣列的形式點到玻璃片上。

    玻璃片上的每一個點只包含一種 cDNA 分子,這樣就制成了 cDNA 微陣列。固定在玻片上的 cDNA 探針可以通過測序得到序列或者其來源是已知的。

    在使用 cDNA 微陣列時,首先提取組織或細胞系中的 mRNA 樣本,逆轉錄成 cDNA 并用熒光素標記;然后把標記混合物加到 cDNA 微陣列上,與探針雜交,雜交過程完成后,清洗微陣列;最后用激光掃描儀掃描并獲取熒光圖像,對圖像進行分析,得到 cDNA 芯片上每一個點的熒光強度值。熒光強度值定量反映了樣本中存在的與探針互補的 mRNA 豐度,也就是反映了探針所對應基因的表達水平。

    在制造 cDNA 微陣列時,點樣點的大小是不能保證完全一樣的,點的排列也可能是不規則的,這意味著要比較不同微陣列圖像的熒光絕對強度是不合理的,因此通常使用雙色熒光系統來糾正點之間的差異。

    在制備樣本時,使用兩個樣本,一個稱為控制樣本( control sample )或對照樣本 (reference sample) ,通常用綠色熒光素( Cy3 )標記其 cDNA ,另一個為測量樣本,用紅色熒光素( Cy5 )標記其 cDNA 。

    這兩個樣本按照相同的實驗方案分別制備不同熒光素標記的 cDNA ,并按 1 : 1 的比例混合,然后與 cDNA 微陣列雜交,用不同波長的激光掃描雜交后微陣列,分別獲取熒光強度,并成像。

    來自兩個樣本的基因如果以相同水平表達則顯示黃色,而如果表達水平有差異,則圖像顯示紅色或綠色。因此, cDNA 微陣列的實驗數據反映了兩個樣本中基因的相對表達水平。由于 Cy3 和 Cy5 的標記效率不相等,以及存在系統噪聲等原因,通常需要對 cDNA 微陣列實驗中獲取的原始圖像數據進行歸一化。

    例如,用 Cy3 、 Cy5 兩種熒光素分別標記的一些基因的表達水平相等,那么這些點的實驗結果 Cy5/Cy3 熒光強度比率值(以下稱 Ratio 值)的期望值為 1 ,但由于得到的 Ratio 值往往不等于 1 ,這些實驗偏差可以通過歸一化來得到糾正。

    對微陣列進行歸一化的指導思想包括基于全局強度值調整、強度相關歸一化、玻片之間的對比歸一化等,歸一化方法包括總密度(假設兩個樣本中的總 RNA 是相等的)、線性回歸、 Ratio 統計、迭代 log(ratio) 平均值中心化等,與微陣列掃描系統配套的軟件可以完成歸一化工作。

    cDNA 微陣列實驗得到的值反映了基因的相對表達水平,即測量樣本與對照樣本之間熒光信號強度的比率或者對數化的比率,這是一個無量綱的值,可用于比較一組實驗中的基因相對表達水平。

    如果對照樣本的信號非常低,那么這個比率就可能很大,可能主要是噪聲信號,因此它很可能是無意義的。這些數據往往看作是不確定的或異常點,在后續分析時要注意這些數據,根據需要確定是否保留以及如何糾正其值。

    8.1.2 寡核苷酸芯片

    又稱為基因芯片、 DNA 芯片。它是在玻璃片上按陣列固定寡核苷酸探針,這些探針是在片原位合成的。現有產品中應用最廣泛的是 Affymetrix 公司制造的 GENECHIP?芯片,它使用一種光掩模技術和傳統的 DNA 合成化學的組合以非常高的密度制造寡核苷酸陣列。

    例如, Affymetrix 公司的 Human Genome U133 芯片包含了 100 萬個不同的寡核苷酸探針,代表了 33000 個人類基因。寡核苷酸芯片主要用于 DNA 多態性檢測和基因表達分析,還可以用于微生物基因組的再測序。

    寡核苷酸探針的長度通常為 20-25bp ,在檢測 mRNA 豐度時可能存在寡核苷酸之間的非特異性交叉雜交,這可能會掩蓋雜交信號;此外,對于特定的寡核苷酸,信號強度對于寡核苷酸的堿基組成比較敏感的。

    對于第一個問題, Affymetrix 公司的解決辦法是采用匹配 / 失配( PM/MM )探針對的方法,即在設計一個特異的寡核苷酸 ( 匹配 ) 時,同時設計一個非特異的寡核苷酸探針,該探針僅僅在中間位置有一個堿基替換(失配),這樣可以用 PM 與 MM 之間的差值作為信號強度。為了解決第二個問題,在設計探針時,對于每一個待檢測的 mRNA 包含多個寡核苷酸探針,例如設計 11-20 對探針來檢測一個轉錄本。

    與 cDNA 微陣列不同的是,雜交實驗中與寡核苷酸芯片雜交的是單個樣本,而不是 cDNA 微陣列實驗中測量樣本與對照樣本的混合物。寡核苷酸芯片的檢測結果有兩種,一種用 P/A/M ( Present/Absent/Don't Know )表示,表示有 / 無 / 不確定,另一種用熒光信號強度值表示。

    P/A/M 可以用來判斷樣本中有無特定基因的表達,這個結果對于部分實驗,特別是一些定性實驗是有意義的,例如判斷腫瘤與正常細胞的基因表達差異。當需要對幾個不同條件下的基因表達情況進行分析時,對基因表達的相對變化更感興趣,所以多采用熒光強度值。

    有時實驗結果中有負值,這是由于前景信號小于背景信號或者背景 / 陰性控制樣本的定義不正確造成的, Affymetrix 公司的芯片分析系統會將負值修改成某一固定值。

    在分析多個實驗條件下的基因表達數據時,與 cDNA 微陣列數據一樣,也是一系列測量樣本與對照樣本之間的信號強度比率或比率的對數值。實驗得到的信號強度也是經過歸一化的數值,歸一化的方法很多,而且一般都包含在芯片掃描系統的圖像處理軟件中。

    cDNA 微陣列或基因芯片在用于基因表達分析時的一個最大優點是高通量性,在一次芯片實驗中可以對成千上萬個基因的表達進行并行測量。由于實驗環節較多,雖然在設計芯片時可以通過添加陰性和陽性探針等手段來評價數據的質量,但是需要提醒的是,數據的可靠性仍然是對數據進行后續分析時必須考慮的一個問題。

    8.1.3基因表達數據的網絡資源

    大量基于 DNA 微陣列實驗的基因表達數據是公開發布在 Internet 網上的,尤其是學術機構在發表論文時所用的實驗數據都可以免費提供給全世界的研究人員下載使用。

    作為學術論文的補充資料在網上發布的數據主要是文本文件或 Excel 格式的文件,這些數據往往都是經過歸一化處理后的 Ratio 值或 log 2 (Ratio) ,對于寡核苷酸芯片數據有的是 P/A/M 表示,有的是熒光強度值。

    因為這些數據文件沒有包含原始的實驗方案、實驗材料、原始掃描圖像、圖像處理方法和數據歸一化方法等信息,對于要比較或整合分析來自不同研究小組的基因表達數據是非常困難的。

    主要原因是 DNA 微陣列并不是在任何客觀的個體上測量基因表達水平,大多數測量值僅僅是基因表達的相對變化,而且使用的并不是一個標準化的對照樣本。

    同時,基因表達數據比基因組序列數據要復雜的多,這些數據僅僅在有具體的關于實驗條件的描述時才是有意義的,對于不同的細胞類型,在不同的條件下都有一套轉錄本。

    因此,基于 DNA 微陣列的基因表達數據存儲量是非常大的,對于具有 20000 個探針的微陣列實驗,以 10um 的分辨率掃描,產生 3 千萬個離散的數據點,如果以 tiff 文件貯存,將占用約 60Mb 的硬盤空間。

    一方面由于基因表達數據量非常龐大,而且數據中蘊含著豐富的生物學知識,另一方面由于這些數據沒有注釋,迫切需要一種標準來描述和存貯 DNA 微陣列基因表達數據,同時建立公共的 DNA 微陣列數據倉庫。

    歐洲生物信息學研究所( EBI )與德國腫瘤研究中心 (DKFZ) 在 1999 年成立了 MGED 討論組 (The Microarray Gene Expression Data) 。 MGED 是一個國際性的成員聯盟,參與人員包括生物學家、計算機科學家、數據分析學家。它的目標是促進由功能基因組學和蛋白組學研究產生的微陣列數據的共享。

    當前集中于建立微陣列數據注釋和交換的標準,推動微陣列數據庫建設和相關軟件來實現這些標準,促進高質量的、經過注釋的基因表達數據在生命科學領域的共享。該組織開發的微陣列數據標準稱為 MIAME(the minimum information about a microarray experiment) ,是對于解釋和驗證結果所必需的微陣列實驗的最小信息描述。 MIAME 不是微陣列實驗必須遵循的教條,而是一組指導方針,它將幫助微陣列數據庫和數據分析工具的開發。

    同時, MGED 組織開發了微陣列基因表達標記語言( MAGE-ML , Microarray Gene Expression - Markup Language ),它是一種語言,用來描述跟基于實驗的微陣列信息的通訊。 MAGE-ML 基于 XML ,可以描述微陣列設計、制造、實驗組織和實施信息、基因表達數據等。

    MIMAE 標準和 MAGE-ML 語言受到了從事 DNA 微陣列開發和應用研究的科研人員和組織的廣泛關注。美國 NCBI 的 Gene Expression Omnibus (GEO) 、英國的 EBI 的 ArrayExpress 數據庫都采用了該標準,斯坦福微陣列數據庫( Stanford Microarray Database , SMD )也正在兼容該標準。

    目前,收集、存貯微陣列基因表達數據的最有影響的數據庫和網站是 GEO 、 ArrayExpress 和 SMD 。

    GEO 是由 NCBI 在 2000 年開發的一個基因表達和雜交微陣列數據倉庫,同時作為獲取來自不同生物體的基因表達數據的在線資源。到 2004 年 3 月,數據倉庫中包含內容有 605 個 Platform , 14391 個 Sample , 816 個 Serial 。

    Platform 是關于物理反應物的信息,Sample是關于待檢測的樣本信息和使用單個Platform產生的數據。Series 是關于樣本集的信息,反映樣本間的相關性和組織。

    ArrayExpress是基于基因表達數據的微陣列公共知識庫,目的是存儲被注釋的數據,當前包含多個基因表達數據集和與實驗相關的原始圖像集。 ArrayExpress 數據庫接受 MAGE-ML 格式的數據遞交或者通過 MIAMExpress 的基于 Web 界面注釋和遞交的數據。

    ArrayExpress 提供一個簡單的基于 Web 的數據查詢界面,并直接與Expession Profiler 數據分析工具相連,可以進行表達數據聚類,和其它類型的 Web 數據挖掘,并將進一步開發多個實驗和數據庫間的交叉查詢。 ArrayExpress 數據庫中的數據將與所有由 EBI 維護的或在線的數據庫相聯接。

    SMD 是一個使用 Oracle 作為數據庫管理軟件的關系數據庫。 SMD 存儲微陣列實驗的原始數據、歸一化數據和對應的圖像文件。

    自從 2002 年 1 月 1 日起,到 2004 年 4 月已包括 85 篇學術論文,超過 3500 個雙色點樣 cDNA 微陣列的實驗數據,并且每年增加 1000 個微陣列實驗的數據。另外, SMD 提供數據獲取、分析和可視化的界面,目前包括層次聚類和自組織映射等方法,還將加入 k- 平均聚類、單值分解和丟失值歸納等方法。

    除了以上 3 個綜合性的基因表達數據倉庫外,還有一些專門的基因表達數據庫,例如 YMD、 ArrayDB 、 BodyMap 、 ExpressDB、 HuGE Index 等,這些數據庫收集的數據往往具有物種特異性,使用比較方便。

    推薦方法

    Copyright ?2007 ANTPedia, All Rights Reserved

    京ICP備07018254號 京公網安備1101085018 電信與信息服務業務經營許可證:京ICP證110310號

  • <li id="ccaac"></li>
  • <table id="ccaac"><rt id="ccaac"></rt></table>
  • <td id="ccaac"></td>
  • <td id="ccaac"></td>
  • 床戏视频