• <li id="ccaac"></li>
  • <table id="ccaac"><rt id="ccaac"></rt></table>
  • <td id="ccaac"></td>
  • <td id="ccaac"></td>
  • 如何批量的從DNA序列名字中提取信息

    上一篇 / 下一篇  2011-10-17 13:54:30

    如何批量的從DNA序列名字中提取信息

     

    熊榮川 xiongrongchuan@126.com

    六盤水師范學院生物系

     

    通常我們處理的基因或者蛋白質序列會是很多條,當我們以fasta格式下載到本地之后,我們會發現這些序列是非常冗長的,例如“>gi|110227385|gb|DQ650433.1|_Odorrana_aureola_voucher_FMNH_265919_cytochrome_c_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(ND3)_gene_coms

    但是通常我們需要用到的就是它們的編號,genbank索取號及對應的拉丁學名,如果是手工將它們整理到一個表格中,可想而知工作量有多大。

    這里我們將使用word2007中“文本轉換為表格”的功能實現以上目的。

    首先我們使用一個我們自己的包含很多條序列的fasta文件,前提條件是我們還沒有編輯過它們的名字,所以基本格式就像上面舉例中的一樣。

    然后使用meg5 打開這個fasta文件,刪掉所有的堿基或是氨基酸殘基,這個時候只剩下序列的名稱,輸出為另外一個fasta格式文件。

    該文件中只有序列名稱, 如下所示

    >gi|110227385|gb|DQ650433.1|_Odorrana_aureola_voucher_FMNH_265919_cytochrome_c_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(ND3)_gene_coms

     

    >gi|110227382|gb|DQ650432.1|_Amolops_cf._chapaensis_AMNH_163775_voucher_AMNH_163775_cytochrome_c_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_gene_complete_sequence_NADH_dehydrogenase_subunis

     

    >gi|197723584|gb|EU861523.1|_Odorrana_chapaensis_voucher_AMNH_168685_cytochrome_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_(trnG)_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(ND3)_s

     

    >gi|197723572|gb|EU861519.1|_Odorrana_sp._BBLS-2008_voucher_AMNH_163776_cytochrome_oxidase_subunit_III_(COXIII)_gene_partial_cds_tRNA-Gly_(trnG)_gene_complete_sequence_NADH_dehydrogenase_subunit_3_(NDs

     

    這個時候把每個序列名稱中,物種名后面的信息全部刪掉,結果如下

    >gi|110227385|gb|DQ650433.1|_Odorrana_aureola

    >gi|110227382|gb|DQ650432.1|_Amolops_cf._chapaensis

    >gi|197723584|gb|EU861523.1|_Odorrana_chapaensis

    >gi|197723572|gb|EU861519.1|_Odorrana_sp._BBLS-2008_

    >gi|197723566|gb|EU861517.1|_Odorrana_sp._BBLS-2008

    >gi|197723605|gb|EU861530.1|_Odorrana_hmongorum

    將其中的“>gi|”替換掉,在“替換為”中什么也不輸入,就將它們全部刪除了。

    然后將“|gb|”“|_”全部替換為逗號“,”

    197723620,EU861535.1,Odorrana_junlianensis

    197723629,EU861538.1,Odorrana_junlianensis

    110227400,DQ650438.1,Odorrana_bacboensis

    110227406,DQ650440.1,Odorrana_banaorum

    110227427,DQ650447.1,Odorrana_banaorum

    110227412,DQ650442.1,Odorrana_banaorum

    全選走后“插入”——“表格”——“文本轉換成表格”

    結果就出來了

    197723620

    EU861535.1

    Odorrana_junlianensis

    197723629

    EU861538.1

    Odorrana_junlianensis

    110227400

    DQ650438.1

    Odorrana_bacboensis

    110227406

    DQ650440.1

    Odorrana_banaorum

    110227427

    DQ650447.1

    Odorrana_banaorum

    110227412

    DQ650442.1

    Odorrana_banaorum


    TAG:

     

    評分:0

    我來說兩句

    顯示全部

    :loveliness::handshake:victory::funk::time::kiss::call::hug::lol:'(:Q:L;P:$:P:o:@:D:(:)

    Open Toolbar
  • <li id="ccaac"></li>
  • <table id="ccaac"><rt id="ccaac"></rt></table>
  • <td id="ccaac"></td>
  • <td id="ccaac"></td>
  • 床戏视频