近日,中國科學技術大學認知智能全國重點實驗室劉淇教授指導博士生張載熙和哈佛大學醫學院Marinka Zitnik教授課題組合作,設計了一種基于圖表示學習和蛋白質語言模型的深度生成算法PocketGen,生成與小分子結合的蛋白質口袋序列和空間結構。實驗驗證表明,PocketGen在生成成功率和效率方面均超過了傳統方法。相關成果以“Efficient Generation of Protein Pockets with PocketGen”為題于北京時間11月15日發表于《自然·機器智能》(Nature Machine Intelligence)期刊。
研發適用于科學發現任務的人工智能算法,例如功能蛋白質設計,是認知智能全國重點實驗室的一個重要研究方向。在藥物發現和生物醫療領域,設計與小分子結合的功能蛋白質(例如酶和生物傳感器)具有重要意義。然而,基于能量優化和模板匹配的傳統方法計算速度慢、成功率低。基于深度學習的模型又存在分子-蛋白質復雜相互作用建模難,序列-結構依賴關系學習難等問題。因此,發展高效、高成功率且準確反映物理化學規律的蛋白質口袋生成算法是該領域的急切需求。
研究團隊在前期蛋白質口袋生成工作FAIR(NeurIPS 23 Spotlight)和PocketFlow(NeurIPS 24 Spotlight)的基礎上,研發了PocketGen(圖1)。PocketGen可以基于蛋白質框架和結合小分子生成蛋白質口袋序列和結構(圖1a)。PocketGen主要由兩部分組成。第一部分為雙層圖Transformer編碼器(圖1b):該模型受蛋白質固有的層級結構啟發,包括氨基酸層級編碼器和原子層級編碼器,學習不同細粒度的相互作用信息,并更新氨基酸/原子表示和坐標。第二部分為蛋白質預訓練語言模型(圖1c):PocketGen高效微調了ESM2模型,輔助氨基酸序列預測。具體方法為:PocketGen固定大部分模型層不變,僅微調部分適應層參數,進行序列-結構信息交叉注意力計算,增強序列-結構一致性。在實驗中,PocketGen模型不僅在親和力和結構合理性等指標上超過傳統方法,在計算效率方面也有大幅提高(相比傳統方法提升超過10倍)。
圖1. (a) 用PocketGen進行蛋白質序列-結構共同設計。(b) 雙層圖Transformer編碼器;(c) 蛋白質預訓練語言模型用于序列預測及高效微調技術。
進一步地,團隊在芬太尼和艾必克等小分子結合蛋白質口袋設計任務中進行了驗證,并與新晉諾貝爾獎得主David Baker教授實驗室的生成模型RFDiffusion、RFDiffusionAA等進行比較,驗證了PocketGen的有效性。另外,還將PocketGen產生的注意力矩陣與基于第一性原理和力場模擬分析軟件得到的結果進行對比展示,表明基于深度學習的PocketGen具有較好可解釋性(圖2)。
圖2. 左側圖為薛定諤軟件分析的蛋白質-小分子相互作用關系圖。在右側展示的是PocketGen兩個注意力矩陣頭的熱圖,與左側相互關系成功對應上。
該工作推進了深度生成模型用于功能蛋白質設計,為進一步理解蛋白質設計規律并開展生物實驗驗證奠定了基礎,也展現了人工智能方法在解決藥物研發和生物工程領域重要科學問題上的優勢。
中國科學技術大學為本文第一單位,計算機科學與技術學院博士生張載熙為本文第一作者,劉淇、Marinka Zitnik為本文共同通訊作者。本研究得到了中國科大陳恩紅教授、劉海燕教授等的寶貴建議,以及首屆國家自然科學基金青年學生基礎研究項目(博士生)、中國科學技術大學優秀博士生出國交流支持計劃和中央高校科研啟動經費等資助。