比較基因組學,系統進化樹
比較基因組學,系統進化樹NCBI Entrez中的Blink(BLAS TLink)對尋找跨物種的蛋白質同源系和直系同源是一個很好的工具。Blink不是一個獨立的工具,它是作為連接存在于NCBI Entrez的每一個蛋白質的記錄中,Blink的詞條(entries)是基于通過多對多的BLAST序列比對得到的結果,最好的前200個比對結果被呈現。在Blink的報告頁面上,保守的蛋白質功能域展示在比對結果的最上面,通過相關的連接,與NCBI CDD(Conserved Domains Database)數據庫相接。比對的結果根據物種分類用不同的顏色以圖示的方式呈現,所有的蛋白質結果都有其特有的Blink報告。“Best Hits”格式只展示每個物種最好的比對結果,從而可以允許很快地找到一個蛋白質在其他物種中的潛在直系同源系。“Common Tree"按鈕呈現與分類樹分支相關的BLAST結果,用戶可以查看每一個物種;"3D Structures"按鈕將輸出來源于結構記錄的相關序列;"CDD search"按鈕連接到與查詢序列相關的保守功能域。Homolo Gene是來自NCBI經計算和人工注釋的基因直系同源系。計算的同源系來自于每一對生物體核酸序列比對的結果。在比對的過程中,利用了來源于UniGene的EST和mRNA序列,也包括注釋基因組序列中的轉錄因子。Homolo Gene可以利用關鍵詞(基因名稱、符號、序列號等)進行檢索,但不能通過序列進行查詢。Homolo Gene的記錄與EntrezGene中的每一個基因記錄相關聯。美國國家生物技術信息中心的COG(dusters Of orthologous groups of proteins)及KOG(eukaryotic orthologous groups)數據庫是通過對完整的原核生物(COG)和真核生物(KOG)的蛋白質序列大量比較而來的。目前,KOG所包含的真核生物只有8種,如人、果蠅、線蟲、擬南芥菜、酵母等。直系同源系之間具有更高的相似性,功能上具有一致性。在多基因組的比對中,潛在的直系同源系在一起可以組成直系同源簇。根據定義,一個COG至少由來源于3個距離足夠遠的物種的蛋白質組成(3 clades)。如果我們只考慮KOG數據庫,有幾種檢索方法來訪問這些數據庫。其中一種方法是NCBI的CDD數據庫保守功能域的查詢。CDD數據庫中除了包含有來源于Smart、Pram的蛋白質功能域及NCBI特異的數據外,還包含有與現有的COG或KOG相似性的結果。輸出是多序列比對的結果,同時還可直接連接到COG和KOG數據庫的記錄中。數據庫Inparanoid對真核生物的直系同源利用復雜的算法進行了更深入的研究,為我們尋找真核生物之間的直系同源打下了好的基礎。Eukaryotic Gene Orthologs,原先又稱為TIGRO rthologous Gene Alignments(TOGA),是關于真核生物中直系同源基因的數據庫,是通過針對單個生物體的TIGR Gene lndices組成的嘗試性保守(tentative consensus,TC)序列進行一對一的比較得來的。用戶可以通過SEARCH功能進行訪問,可以進行BLAST比對,或利用基因名稱或TIGR序列號進行查詢。如果有結果,用戶可以得到一個由一系列物種預測的直系同源系集中而成的“嘗試性直系同源”(tentative ortholog)序列號。同時,通過ClustalW多序列比對形成的直系同源系cDNA序列也可展示出來。EGO的一個特征是查詢“人類疾病基因的直系同源”(orthologs of human disease genes)。也就是說,在OMIM數據庫中,其人類疾病基因與TIGR Human Gene lndex序列號(THC號)是相匹配的,利用EGO數據庫,人類疾病基因的直系同源系可以被確定。用戶可以利用OMIM、LocusLink ID、基因名稱和各種不同的序列號進行搜尋。PhyloBLAST是進行蛋白質序列的分子系統進化樹分析的軟件。PhyloBLAST利用BLASTP來尋找Swiss―Prot數據庫中的相關氨基酸序列。最先的結果是包含有所有一對一比對的"BLAST style"圖示。用戶可以選擇期望的序列,利用ClustalW多序列比對等來進行系統進化分析。相關的Phylip程式,包括簡約法、UPGMA、neighbor joining和距離矩陣方法等,可以用來產生系統進化樹。