AlphaFold革新改變生命科學的未來
DeepMind的一款預測蛋白質3D結構的軟件徹底改變了生物學。
十多年來,分子生物學家Martin Beck和同事一直在嘗試完成世界上最難的拼圖之一:一個描繪人體細胞最大分子機器的高分辨率模型。
這個龐然大物名為核孔復合體(nuclear pore complex),它控制著分子從基因組所在細胞核的進進出出。每個細胞內都有數百個這種復合體,每個復合體由1000多個蛋白組成,這些蛋白在一個核膜孔的周圍形成環狀。
這1000多塊拼圖來自30多種以各種方式交織的蛋白基本單元。更復雜的是,對這些基本單元3D結構的實驗解析綜合了許多物種的結構,因此有時無法完美拼接。拼圖盒子上的整體圖——核孔復合體的低分辨率3D視圖——并不夠精細,無法判斷其中有多少塊拼圖能完美拼合。
人核孔復合體的俯視圖,核孔復合體是人體細胞中最大的分子機器。來源:Agnieszka Obarska-Kosinska
2016年,德國馬克斯·普朗克生物物理研究所(MPIBP)的Beck領導團隊報道了一個模型[1],這個模型名為Nup蛋白,覆蓋了約30%的核孔復合體,占到了這30多個基本單元的約一半。
去年7月,谷歌母公司Alphabet位于倫敦的子公司DeepMind公開了名為AlphaFold的AI工具[2]。該軟件能根據蛋白質的基因序列預測其3D結構,且大部分情況下準確度極高。這完全顛覆了Beck的工作,也徹底改變了成千上萬生物學家的研究(見“AlphaFold狂熱”)。
Beck說:“AlphaFold改變了整個游戲。”希伯來大學計算結構生物學家Ora Schueler-Furman說:“就像發生了一次地震。現在處處都能看到AlphaFold的身影。”Schueler-Furman使用AlphaFold模擬蛋白的相互作用。“世界分成了7月前的世界和7月后的世界。”
Beck和MPIBP的同事——分子生物學家Agnieszka Obarska-Kosinska和生物物理學家Gerhard Hummer領導的團隊——以及歐洲分子學生物實驗室(EMBL)的結構建模師Jan Kosinski帶領的團隊利用AlphaFold更準確地預測了人體Nup蛋白的結構。通過一個能讓AlphaFold模擬蛋白相互作用的微小調整,他們在去年10月發表了一個能覆蓋60%的核孔復合體的模型[3]。這個模型揭示了該復合體如何穩定細胞核的孔,同時提示了這些復合體以何種方式控制進進出出的分子。
過去半年里,生命科學領域掀起了一股AlphaFold狂熱。倫敦大學學院的計算生物學家Christine Orengo說:“我參與的每個會議上,人們都在問‘干嘛不用AlphaFold?’。”
有時候,這個AI能節省科學家的大量時間;有時候,它能讓之前無法想象或不切實際的研究成為可能。但它也存在局限性,有些科學家在自己的工作中發現它的預測不太可靠。但無論如何,這場實驗正以瘋狂的速度進行著。
即使是該軟件的開發者,也在努力跟上它在從藥物發現到蛋白設計再到復雜生命起源的各種應用。“我早上起來在Twitter里輸入AlphaFold,”DeepMind的AlphaFold團隊負責人John Jumper說,“看到屏幕上的一切,這種體驗非常特別。”
一鳴驚人
AlphaFold在2020年12月曾引起轟動。當時,它在名為蛋白質結構預測關鍵評估(CASP)的大賽上一舉奪魁。該比賽每兩年舉辦一次,呈現了生物學界在一項艱巨挑戰上的最新進展,這項挑戰是如何僅憑蛋白質的氨基酸序列確定其3D結構。計算機軟件給出的結構會拿來與經過X射線晶體學或冷凍電鏡(cryo-EM)這類實驗方法確認的結果進行對比。X射線晶體學和冷凍電鏡分別通過X射線和電子束照射蛋白質的方式來對蛋白質的結構進行成像。
2020版的AlphaFold是該軟件的第二個版本。AlphaFold之前還摘得了2018年CASP大賽的冠軍,但它的更早版本并不夠好,不能取代使用實驗方法解析的結構,Jumper說。不過,AlphaFold2的預測結果平均而言已與實驗結果相差無幾。
之前大家并不知道DeepMind何時會全面開放這個軟件或它的預測結果,所以有研究人員利用Jumper在一次公開演講中的信息以及他們自己的智慧開發了另一個AI工具,名為RoseTTAFold。
到了2021年7月15日,描述RoseTTAFold和AlphaFold2的論文相繼發表[2, 4],同時公開的還有免費的開源代碼等信息,讓專業人士可以打造屬于自己的版本。一周后,DeepMind宣布已經用AlphaFold預測了人體內近乎所有蛋白質的結構,以及20個其他被大量研究的生物體的完整“蛋白質組”,其中包括小鼠和大腸桿菌,累計共有36.5萬個結構(見“已知的蛋白質組”;參見:顛覆生命科學!AlphaFold預測完整人類蛋白質組結構)。DeepMind還將這些信息上傳到了由EMBL歐洲生物信息學研究所(EMBL–EBI)維護的數據庫。在那之后,這個數據庫已經收錄了近100萬個結構。
來源:E. Porta-Pardo et al. PLoS Comput. Biol. 18, e1009818 (2022).
今年,DeepMind計劃發布總計1億多個結構預測——相當于所有已知蛋白的近一半,是蛋白質數據銀行(PDB)結構數據庫中經過實驗解析的蛋白數量的幾百倍之多。
AlphaFold使用了深度學習神經網絡:受到大腦神經網絡啟發的計算機架構,能識別數據中的模式。該網絡使用了上萬個經過實驗測定的蛋白質結構以及PDB等數據庫中的序列進行訓練。如果給它一個新序列,它會先在數據庫中尋找類似序列,發現容易發生共同演化的氨基酸,提示它們的3D結構也很相似。已有的相關蛋白質結構為估算新序列中氨基酸對的距離提供了另一種方式。
在嘗試模擬氨基酸的3D構象時,AlphaFold會反復迭代這些并行跟蹤的線索,并持續更新它的最新預測。專業人士表示,AlphaFold對于機器學習領域最新概念的應用似乎是讓它出類拔萃的關鍵——尤其是它使用的一個名為“attention”的AI機制來確定哪些氨基酸連接方式在當前任務中是最突出的。
由于該網絡需要依賴相關蛋白序列的信息,這也意味著AlphaFold存在一定的局限性。AlphaFold無法用來預測突變對蛋白質結構的影響——比如那些會致病的突變。它也無法通過訓練來確定蛋白質在遇到其他相互作用蛋白或藥物等分子的情況下會如何變化。但它的模型能為它對蛋白質各氨基酸單元的預測進行置信度打分——研究人員一直在修改AlphaFold的代碼,以便進一步提升其能力。
根據DeepMind的統計,目前已有超40萬人使用過EMBL-EBI的AlphaFold數據庫。此外還有一些AlphaFold的“超級用戶”:這些研究人員在自己服務器上安裝了AlphaFold,或是打造了AlphaFold的云版本,用來預測不在EMBL-EBI數據庫中的結構,或是探索AlphaFold的新用途。
解析結構
生物學家對AlphaFold的結構解析能力嘆為觀止。“基于我目前看到的結果,我很信任AlphaFold。”丹麥奧爾胡斯大學的結構生物學家Thomas Boesen說道。這個軟件成功預測了Boesen所在機構已經測定但尚未發表的蛋白質結構。他說:“這是來自我們的一次極大的肯定。”他和奧爾胡斯大學的微生物生態學家Tina ?antl-Temkiv正在使用AlphaFold模擬能促進冰形成的細菌蛋白的結構,這種結構或許讓云層中的冰具有降溫效應,生物學家之前一直沒能完全用實驗方法解析這種結構[5]。
只要一種蛋白質能折疊形成單一、清晰的3D結構——并非所有蛋白質都會這樣——AlphaFold的預測就基本不會輸,斯德哥爾摩大學的蛋白質生物信息學家Arne Elofsson說,“只要點點鼠標,你大概就得到了最好的模型。”
Elofsson說,在AlphaFold置信度欠佳的領域,“它也能清楚地告訴你它對哪些預測是沒把握的”。這時,它給出的預測結構有點像漂浮的意大利面(見“好的、壞的、糟糕的”)。這常出現在缺乏清晰結構的蛋白質區域——至少是在獨立的區域。在這些固有無序的區域大概占到人體蛋白質組的1/3,可能只有在遇到另一個分子,如信號轉導配偶體時,其結構才會變得清晰。
來源:J. M. Thornton et al. Nature Med. 27, 1666–1669 (2021).
英國癌癥研究院的計算生物學家Norman Davey認為,AlphaFold識別無序結構的能力徹底改變了他對這些區域性質的研究。他說:“我們的預測質量一夜之間突飛猛進,而我們什么都沒做。”
AlphaFold在EMBL-EBI數據庫上傳的大量蛋白質結構也立即得到了使用。Orengo的團隊正在通過搜索數據庫發現新的蛋白質類型(未經過實驗驗證),并已經發現了數百乃至數千個潛在的新蛋白家族,擴充了科學家對蛋白質形狀和功能的認知。該團隊還在搜索另一個包含從海洋和廢水中提取的DNA序列的數據庫,試圖發現新的食塑酶。通過讓AlphaFold快速預測數千個蛋白的結構,該團隊希望能更好地理解酶是如何通過演化擁有分解塑料的能力,并能進一步優化它們。
哈佛大學演化生物學家Sergey Ovchinnikov認為,這種將任何蛋白編碼基因序列轉化為可靠結構的能力,對于演化研究來說非常有用。研究人員通過比較基因序列來確定不同物種的生物體與它們基因之間的親緣關系。對于親緣關系較遠的基因來說,這種比較可能無法發現演化近親,因為這些序列已經變了很多。但通過比較變化速度比基因序列更慢的蛋白質結構,研究人員或許能揭示之前沒注意到的古代關系。蘇黎世聯邦理工學院的計算生物學家Pedro Beltrao說:“這為蛋白質演化和生命起源的研究帶來了難能可貴的機會。”
為測試這一概念,首爾大學計算生物學家Martin Steinegger領導的一個團隊和他的同事利用他們開發的工具Foldseek,在EMBL-EBI的AlphaFold數據庫中尋找新冠病毒(SARS-CoV-2)RNA復制酶的近親[6],結果找到了之前未被發現的可能古代近親:真核生物(包括黏菌類)蛋白的3D結構很像HIV等病毒用來將RNA復制成DNA的反轉錄酶,盡管兩者在遺傳序列水平上的相似度很低。
實驗輔助
對于想要得到特定蛋白精細結構的科學家,AlphaFold的預測并非最直接的解決方案。確切地說,AlphaFold能提供一個初步預測,之后再由實驗驗證或優化。比如,來自X射線晶體學的原始數據以衍射X射線的圖樣呈現。一般來說,科學家需要對蛋白質結構有個初步猜測,才能解釋這些圖樣。之前,他們通常需要拼湊PDB中相關蛋白的信息,或是利用實驗方法,英國劍橋大學的結構生物學家Randy Read說。Read的實驗室很擅長其中一些方法。如今,Read說,AlphaFold的預測讓大部分X射線圖樣不再需要這些方法,他的實驗室也嘗試在實驗模型中更好地運用AlphaFold。“我們的研究重點完全變了。”
他和其他研究人員已經通過AlphaFold利用X射線數據確定了晶體結構,這些數據本來在沒有適當初始模型的前提下是無法解讀的。“現在大家可以解析幾年來都無法解析的結構了。”Read實驗室的前博士后研究員、如今就職于分析公司SciBite的Claudia Millán Nebot表示。她預計將有大量新的蛋白質結構上傳到PDB,而且絕大部分都來自AlphaFold。
專門使用冷凍電鏡的實驗室也是同樣的情況——冷凍電鏡能拍下急速冷凍的蛋白照片。有時,在其他軟件會搞錯的情況下,AlphaFold的模型卻能準確預測重要的藥物靶標——G蛋白偶聯受體(GPCR)的獨有特征,北卡羅來納大學教堂山分校的結構生物學家兼藥理學家Bryan Roth說,“它似乎能給出很好的初始模型,之后可以再用一些實驗數據進行優化,”他說,“這替我們省了不少時間。”
但Roth也指出,AlphaFold并不是萬無一失。在他們實驗室已經解析出來但尚未發表的幾十個GPCR結構中,“約有一半的情況下,AlphaFold預測的結構沒有問題,但也有一半的情況下,AlphaFold的結構對于我們的目標沒什么幫助”。他說,有時AlphaFold對于它的預測給出了很高的置信度,但實驗結構顯示它是錯的。即使AlphaFold搞對了,它也無法模擬某個蛋白與藥物或其他小分子(配體)結合時的樣子,而這種情況會完全改變整個結構。這類注意事項讓Roth不禁思考AlphaFold對于藥物發現的作用究竟有多大。
藥物發現領域正在越來越多地使用計算機對接軟件從數十億計的小分子中篩選能與蛋白結合的小分子——這個指標提示它們能成為真正的藥物。Roth目前正在與加州大學舊金山分校的藥物化學家Brian Shoichet合作,看看這種情況下AlphaFold的預測結果與實驗解析的結構有何差異。
Shoichet表示,他們現在只研究AlphaFold的預測結果與實驗結構相符的蛋白。但即使對于這些蛋白來說,對接軟件對于實驗結構和AlphaFold的結構也會給出不同的候選藥物,這說明差異再小也有影響。Shoichet說:“這不是說我們找不到新的配體了,而是說我們會發現不一樣的配體。”他的團隊正在合成利用AlphaFold結構識別出的潛在藥物,并在實驗室檢測這些藥物的活性。
批判樂觀
藥企和生物科技公司的研究人員對于AlphaFold助力藥物發現的潛力感到很興奮,Shoichet說,“我會形容為批判樂觀。”2021年11月,DeepMind成立了它自己的衍生公司——Isomorphic Labs。這家公司致力于將AlphaFold一類的AI工具應用到藥物發現中。但該公司并未過多透露其他計劃。
總部位于紐約的藥物發現公司Schr?dinger也專門開發化學模擬軟件,該公司治療研發主管Karen Akinsanya表示,她和她的同事利用AlphaFold預測的結構(包括GPCR的結構)在候選藥物的虛擬篩選以及化合物設計上已經小有進展。她發現,和實驗解析的結構一樣,仍需另外的軟件來確定氨基酸側鏈的具體細節或個別氫原子的位置。但只要完成了這一步,AlphaFold預測的結構在某些情況下就能用來指導藥物發現。
Akinsanya說:“很難說‘這就是萬能之計’;就好像你把某個結構搞得很清楚,異常清楚,它就可以適用于所有結構了。但事實顯然不是這樣的。”她和同事已經發現AlphaFold對預測準確度的評分并不顯示某個結構對之后的藥物篩選是否有用。她說,對于藥物研發來說,AlphaFold的預測永遠無法取代實驗解析的結構。但它們或許可以對實驗方法進行補充,加快研究進度。
對AlphaFold躍躍欲試的藥物研發機構在1月聽到了好消息,當時,DeepMind決定清除AlphaFold實現商業應用的一個主要障礙。當DeepMind在2021年7月公開AlphaFold的代碼時,它曾要求運行AlphaFold神經網絡所需的參數或稱權重——即利用數十萬蛋白質結構和序列訓練該網絡的最終結果——只限非商業使用。Akinsanya說,這對行業內的一些機構來說是個瓶頸,而當DeepMind轉變態度時,大家“激動極了”。(RoseTTAFold也有類似的限制,其中一位開發者Ovchinnikov說。但下一個版本將是完全開源的。)
AI工具不僅改變了科學家測定蛋白質結構的方式。一些研究人員還在利用這些工具打造全新的蛋白質。“深度學習徹底改變了我們團隊設計蛋白質的方式。”華盛頓大學生物化學家、蛋白質設計和結構預測領域帶頭人David Baker說。Baker的團隊和計算機化學家Minkyung Baek一起主導了RoseTTAFold的開發工作。
Baker的團隊讓AlphaFold和RoseTTAFold來“幻想”新的蛋白。他們改寫了該AI的代碼,讓軟件在得到隨機氨基酸序列的情況下,對它們進行優化,直到合成出能被這些神經網絡識別為蛋白的東西(見“幻想蛋白”)。
來源:參考文獻[7]
2021年12月,Baker和他的同事報道了他們在細菌中表達了129種這些幻想蛋白,發現其中約1/5的蛋白會折疊成類似他們預測的結構[7]。Baker說:“這是這種網絡能用來設計蛋白質的首個證明。”他的團隊現在正在利用這種方法設計有實際用途的蛋白質,比如能催化某類化學反應的蛋白質,方法是明確發揮目標功能的氨基酸并把接下來的工作都交給AI。
蛋白“幻想”的四個例子。每一例中,AlphaFold都會收到一個隨機的氨基酸序列,它會預測其結構,改變序列,直到AlphaFold有把握預測它將折疊成具有清晰3D結構的蛋白質。顏色代表預測置信度(從極低到極高分別為紅色、黃色、淺藍色、深藍色)。為清晰起見,原始速度被減慢。來源:Sergey Ovchinnikov
-
焦點事件
-
焦點事件