GenBank 序列數據庫實驗方法詳情頁

GenBank 序列數據庫

關鍵詞： genbank 序列數據庫來源：互聯網

簡介

一級蛋白質和核酸數據庫在分子生物學界是如此的司空見慣，以致于我們很少會去考慮這些普遍存在的工具是如何建立的。但是如果我們能夠了解這些序列是如何匯集到一起的，這將有助于我們加深對生物學的理解，并且能夠更加充分地發掘這些記錄中蘊藏的信息。

GenBank是美國國立衛生研究院維護的基因序列數據庫，匯集并注釋了所有公開的核酸以及蛋白質序列。每個記錄代表了一個單獨的、連續的、帶有注釋的DNA或RNA片段。這些文件按類別分為幾組：有些按照系統發生學劃分，另外一些則按照生成這些序列數據的技術方法劃分。目前GenBank中所有的記錄均來自于最初作者向DNA序列數據庫的直接提交。這些作者將序列數據作為論文的一部分來發表，或將數據直接公開。GenBank由位于馬里蘭州Bethesda的美國國立衛生研究院下屬國立生物技術信息中心建立，與日本DNA數據庫（DDBJ）以及歐洲生物信息研究院的歐洲分子生物學實驗室核苷酸數據庫（EMBL）一起，都是國際核苷酸序列數據庫合作的成員。所有這三個中心都可以獨立地接受數據提交，而三個中心之間則逐日交換信息，并制作相同的充分詳細的數據庫向公眾開放（雖然格式上有細微的差別，并且所使用的信息系統也略有不同）。

這一章描述GenBank數據庫是如何構成的，它如何與蛋白質數據庫相銜接，以及如何解釋其中的數據成分。關于序列數據庫，前人已經作了大量的工作，具體可參見（Schuler et al., 1996; Bairoch and Apweiller, 1997; Benson et al., 1997; George et al., 1997; Stoesser et al., 1997; Tateno et al., 1997）。所有這些論文都指出了數據庫快速增長的趨勢，并對如何利用這些生物學資源提出了建議。出于科學研究的考慮，以及由于歷史的原因，序列數據被分別存放在核苷酸和蛋白質數據庫中。核苷酸序列是查詢核苷酸數據庫以及蛋白質數據庫時的主要出發點，并且目前有一種趨勢，將核苷酸數據庫介入到蛋白質數據庫的管理之中（正如我們下面將要看到的那樣）。這并不奇怪，因為數據庫維護者與數據提交者之間的直接通訊將有利于保證數據的真實性與準確性（提交者需要一個檢索號，并且他們想要得到他們添加到數據庫中的新記錄）。在很多情況下，這種對數據的關注意味著提供適當的信息來注釋CDS（coding sequence：編碼序列），并告訴我們如何得到翻譯產物。這種對蛋白質和核酸序列統一管理的傾向也明顯地體現在NCBI的Entrez之中，在GenBank的管理之中，以及在GenPept格式記錄的生成過程之中。在歐洲，EBI的工作人員統一維護管理Swiss-Prot和TREMBL，這些工作人員也負責EMBL核苷酸數據庫的管理工作。還有Amos Bairoch和他在日內瓦大學的研究組。（見本章后的列表）。盡管如此，建立核苷酸和蛋白質數據庫的初衷還是有區別的。本章還初步討論了將在第六章詳細描述的數據模型。這一章主要是從GenBank flatfile的角度介紹序列數據，但必須明確的是，“flatfile”（不論是GenBank, EMBL, Swiss-Prot或PIR），都只是ASN.1報告的一個方面。而ASN.1才是代表了NCBI數據模型的語言。GenBank以DNA為核心，包含了許多計算生物學資源。

歷史上，蛋白質數據庫先于核苷酸數據庫。在60年代初，Dayhoff和他的同事們收集了所有當時已知的氨基酸序列，這就是“蛋白質序列與結構圖冊”（Dayhoff et al., 1965）。這一蛋白質數據庫后來成為PIR（George et al., 1997）。這本書為今天整個生物信息學界日常工作所依賴的計算生物學資源播下了種子。這個在1965年可以很容易地存放在一張軟盤上的數據集（盡管那時并不存在軟盤這種存儲介質），是一小群人多年的工作成果。今天，任何一個DNA或蛋白質數據庫每天增加的數據量都數倍于此。最早的DNA序列數據庫于1982年在歐洲分子生物學實驗室誕生，隨即就開始了一個數據庫爆炸的時代。（見圖2.1）。R. Cook-Deegan(1993)在《基因戰爭》中詳細描述了這一時期人類基因組計劃的歷史。此后不久因一項NIH與洛斯阿拉莫斯國家實驗室的合同而誕生了GenBank。兩個中心都致力于發展輸入方式，這主要是將學術刊物上公開發表的論文轉換為更適合計算機使用的電子格式。日本的DNA數據庫（DDBJ），在幾年后加入了數據收集的合作。在1988年一次三方會議之后（現在稱之為“國際DNA序列數據庫合作計劃”）達成了一項協議，對數據庫的記錄采用共同的格式，并且每個數據庫只負責更新提交到這一數據庫的那些數據。現在三個中心都收集直接提交的數據，并在三者之間發布。這樣，任何一個中心都擁有并發布所有的序列數據。這種方式下每條記錄只被生成這條記錄的數據庫所擁有，也就是說只有生成這條記錄的數據庫可以對記錄進行更新，這就防止了“更新沖突”。否則如果每個數據庫都可以修改任一條記錄，并覆蓋其他數據庫的數據，就必定會發生錯誤。近年來的安排保證了沒有一個數據庫可以覆蓋其他數據庫更新的記錄。所有的序列數據庫也都是計算生物學中心，并且越發表明序列數據不能簡單地由自動化方式來生成。每個數據庫都成為了一個中心，在那里生成序列數據，并由生物學家進行驗證，同時還開發一些利用這些信息的工具（例如NCBI的Entrez，見第5章，以及EBI現在正在開發的SRS）。很明顯的一點是一些專職的，介入到收集數據、提供發現與檢索工具，并且作為研究機構來研究新算法、發掘公共數據庫并在最高水平進行科學活動的機構將能夠最大限度地服務于用戶群體。在這一環境下，知識被最高效率地獲取與共享，并且新的研究與理解這樣大量數據的方法也不斷涌現。

這一章的著重介紹GenBank核苷酸數據庫，GenBank是包含了三個重要蛋白質數據庫（Swiss-Prot, PIR和PDB）的一系列數據庫中的一個。這一系列數據庫中的每一個都對數據庫現在和將來的使用方法產生了或產生過重大影響。PDB是關于核酸和蛋白質結構的數據庫，將在第三章中詳細介紹。Swiss-Prot和PIR可以稱為二級數據庫，它比已經存在于一級數據庫中的數據提供了更多的信息。Swiss-Prot和PIR中的蛋白質序列主要來源于核苷酸數據庫，另外一小部分是直接向Swiss-Prot提交的（這些蛋白質是直接測序的）或者是從公開發表的論文中搜索到的。這里沒有詳細討論這些情況，我們建議讀者通過其他途徑了解更多的詳情（Bairoch and Apweiller, 1997; George et al., 1997）。

推薦方法