近日,第70屆國際電子器件會議(IEDM)會議在美國舊金山召開。該會議是全球最具影響力的半導體器件領域學術會議,議題涉及半導體材料與器件、器件制造工藝、集成電路技術與應用等領域。華中科技大學集成電路學院繆向水、李祎團隊在會議上報告了團隊在存算一體技術方面的最新研究成果“Demonstration of a Floating-point Deep Neural Matrix Equation Solver using 3D Vertical ReRAM with High Energy- and Area-Efficiency”。
華中科技大學這一成果實現了國際上首個基于三維集成阻變存儲器陣列的浮點精度存算一體系統,為實現高能效、高精度的AI-for-Science計算應用提供了重要方案。華中科技大學集成電路學院2019級博士生李健聰(已畢業入站從事博士后研究)和2020級博士生任升廣為論文共同第一作者,李祎教授、何毓輝教授和繆向水教授為論文共同通訊作者。華中科技大學是論文唯一完成單位。
求解矩陣方程Ax=b是科學計算和具身智能等領域的基礎數學問題,核心在于對方程系數矩陣A進行求逆運算。近年來,AI-for-Science相關研究表明神經網絡方法能夠突破傳統矩陣分解方法在時間復雜度上的瓶頸,實現高效的矩陣求逆計算。但是,傳統馮·諾依曼架構的計算機系統在神經網絡的訓練和推理過程中,面臨算力不足和硬件資源消耗過大的挑戰(圖1)。基于阻變存儲器的存算一體技術被視為高效加速神經網絡計算的潛力方案。然而,求解矩陣方程通常需要浮點計算以滿足精度需求,而憶阻器陣列的擦寫開銷及低精度模擬計算機制成為制約存算一體技術實現浮點神經網絡訓推性能的關鍵瓶頸。此外,如何突破當前平面集成陣列的算力與能效極限是另一重要難題。
圖1. 研究思路:基于神經網絡逆運算的矩陣方程求解器
針對上述問題,華中科技大學團隊構建了一套基于三維垂直堆疊的阻變存儲器陣列(3D-V ReRAM)的存算一體神經網絡訓推軟硬件系統,可以高效執行系數矩陣A的浮點精度逆運算及方程的浮點精度求解,并取得了系列進展。
在三維集成層面,團隊設計并制備了4Kb規模、4層堆疊的高一致性高可靠性3D-V ReRAM陣列。陣列在操作功耗(16.4fJ)、擦寫延時 (100ns) 、單片可擴展性(>493Mb)和多值編程特性(2-bit)等多方面指標均達到了國際先進水平,為實現高能效存算一體系統提供了硬件基礎(圖2)。
圖2. 4 Kb三維集成阻變存儲器陣列
在計算架構及電路層面,針對網絡高精度低開銷訓推這一關鍵挑戰,團隊提出了阻變器件本征隨機性驅動的混合精度訓練架構,實現了神經網絡求解器的高效求逆。同時,為支持方程的高精度求解,將3D-V ReRAM陣列與任意精度存算一體技術(Arbitrary-Precision Computing-in-Memory, ArPCIM)結合,構建了支持原位單精度浮點計算的存算一體單元,突破了低精度器件實現浮點精度計算的難題(圖3)。
圖3. 神經網絡求解器的混合精度訓練框架及原位浮點計算架構
團隊所構建的存算一體原型系統實驗演示了陣列中的原位FP32精度矩陣乘法計算,一維對流擴散方程的高精度求解計算誤差低于10-13,相當于雙精度浮點求解系統。性能評估結果表明,在22nm節點工藝下,上述系統預期可實現11.5 TFLOPS/W的 FP32精度計算能效和大于0.63 TFLOPS/mm2的單位面積算力,相對當前最先進的NIVIDA H100 GPU可實現132倍的能效提升和7.6倍的面積效率提升(圖4)。
圖4.存算一體系統及浮點計算任務評估
本論文是繼憶阻稀疏矩陣方程求解器(Sci. Adv. 2023)、快速欠定矩陣方程求解器(IEDM 2023)、任意精度存算一體加速器(IEEE TCASI 2024)之后,華中科技大學團隊在存算一體技術方向取得的又一新突破。上述研究工作得到了國家科技創新2030重大研究計劃、國家重點研發計劃、華中科技大學基礎研究支持計劃等項目的資助,以及國家集成電路產教融合創新平臺、先進存儲器湖北省重點實驗室等平臺的支持。