近日,中國科學院高能同步輻射光源(HEPS)光束線軟件系統與高分辨納米電子結構(Nano-ARPES)線站在利用無監督聚類算法劃分樣品表面不同電子結構區域的研究方面取得重要進展。研究人員開發的多階段無監督聚類算法(Multi-Stage Clustering Algorithm,MSCA)通過自動提取能帶在表面的一致性,清晰地劃分出了MoS2/BN異質結中不同襯底或層數MoS2的分布,并實現了細微能帶差異的抓取。
Nano-ARPES線站通過聚焦X射線光斑至納米量級,使得研究電子結構在表面微納尺度的分布成為可能。然而,樣品表面的復雜性以及高維度的龐大數據量給Nano-ARPES的數據分析帶來了挑戰,特別是,由于某種誘導因素導致的細微能帶變化,比如由不同襯底或層數造成的二維材料特定能帶劈裂,然而這些往往蘊含著豐富的物理機制并且是研究人員所關注的信息。針對這一問題,HEPS光束線軟件系統的邊苓竹工程師與Nano-ARPES線站的劉晨副研究員合作開發了一種多階段無監督聚類算法(Multi-Stage Clustering Algorithm,MSCA)。MSCA將K-Means算法應用于三個階段的數據處理,分別實現了動量空間與實空間的聚類分析,準確區分出了具有細微差異的單/多層以及不同襯底的MoS2。相較于傳統的無監督聚類算法,MSCA在聚類精度上提升了約20%。未來,該算法將集成到HEPS的數據采集系統(MAMBA),并應用于Nano-ARPES線站,實現數據采集過程中的在線精細聚類和能帶提取,從而提高Nano-ARPES數據采集效率,加速基礎科研成果的產出。
相關工作已在Nature旗下的物理學一區Top期刊《Communications Physics》上發表,文章標題為“Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm”,邊苓竹、劉晨共同第一作者,董宇輝研究員與南京理工大學的陳哲生教授共同擔任通訊作者。
同時,HEPS光束線軟件系統還在積極推動“大型科學軟件框架+AI for Science”的科研范式,并與各課題組開展廣泛合作,在同步輻射各類方法學的大數據處理應用中取得了一系列成果。
圖1:多階段聚類算法(MSCA)實現動量空間能帶的抓取(c-e,h-j)與實空間不同電子結構區域的劃分(k,n)。
圖2:AI輔助大數據處理在同步輻射各類方法學中的全面應用