物質科學的核心問題之一是理解原子間的相互作用。如果我們能建立一個原子尺度的通用力場,便可創造一個原子間相互作用的求解器,從而通過分子動力學模擬諸多物質科學問題。前輩科學家們發明的量子化學/密度泛函理論(Quantum Chemistry/Density Functional Theory)通過求解薛定諤方程造就了一個模擬物質科學的大一統方法。通過此類方法,人們可以精確求解任意化合物體系中原子間相互作用,較為完美的解決了這個問題。但是密度泛函理論需要強大的算力,僅適用于數十至數百原子體系,無法線性擴展至大體系或復雜體系;而傳統的分子動力學方法,雖然運算速度快,但是力場精度低、力場適用體系少,因此存在諸多限制。
中國科學院物理研究所/北京凝聚態物理國家研究中心孟勝、劉淼研究員聯合松山湖材料實驗室團隊,研發了一種基于深度學習圖結構的通用預訓練力場(graph-based pre-trained transformer force field ,簡稱GPTFF)。GPTFF模型充分利用Atomly數據庫中的海量數據和 transformer 算法的注意力機制,可精確預測原子間相互作用,具備出色的精度和泛化能力,適用于幾乎任意無機化合物的近平衡態,可用于大體系及復雜體系的分子動力學模擬。GPTFF模型支持開箱即用,用戶可跳過模型訓練步驟,直接開展化合物的結構優化、相變模擬、物質輸運等科學問題。GPTFF開發團隊已將該模型的算法、程序、模型參數開源,所有人都可下載使用。
原子尺度的通用力場AI大模型,可廣泛支持物質物理、材料、化學等諸多領域,它也被認為是物質科學的基座模型,有望變革性地改變物質領域的計算模擬方式。美國的 Materials Project團隊率先發布了m3gnet和CHGNET模型及數據集,成為了該方向的標桿。google、微軟等科技公司洞悉到該方向的重要性,也正在研發類似的AI模型及數據產品。我國雖然有很多類似的項目及模型,但都采用歐美的開源數據集,無法從根本上實現自主可控,更無法實現超越。GPTFF模型的訓練數據源自自研的Atomly材料數據庫(https://atomly.net/)。該數據庫包含近35萬個無機材料數據,數據規模和質量位于世界頂級水準,知識產權自主可控,也是我國唯一可對標歐美競品的無機材料數據庫。GPTFF的訓練數據包含3780 萬個單點能量、117 億個力對和 3.402 億個應力,數據具有高度的標準和和一致性,保證了模型的高精度和強泛化能力。GPTFF能夠實現對原子間相互作用的精確預測,原子間能量、受力以及應力的預測精度分別達到 MAE=32meV/ 原子、71 meV/? 和 0.365 GPa,優于m3gnet和CHGNET(圖1)。可用于模擬晶體結構弛豫、固態電解質中的離子疏運、金屬在應力下的相變等科學問題 (圖2)。
本工作受到了國家自然科學基金項目、科技部重點研發計劃和中國科學院的資助。物理所博士生謝帆愷是該論文第一作者,孟勝研究員、劉淼研究員為通訊作者。該成果以“GPTFF:一套高精度開箱即用的無機化合物人工智能通用力場模型(GPTFF: A high-accuracy out-of-the-box universal AI force field for arbitrary inorganic materials)”為題發表在《Science Bulletin》雜志。
圖1. 模型精度及運行效率
圖2. 模擬鋰離子電池固態電解質中的Li離子輸運行為