近日,中國科學院合肥物質院智能所先進制造中心王紅強研究員團隊提出一種寬域跨模態機器視覺AI模型,突破了傳統單域模型跨模態信息處理瓶頸,實現了跨模態圖像檢索技術新突破。該研究成果被計算機視覺頂會(歐洲計算機視覺大會,ECCV2024)正式接收。
跨模態機器視覺研究是當前人工智能研究的前沿領域與主要挑戰之一,難點在于如何識別模態間的一致性和互補性。傳統方法通常在圖水平和特征水平上進行,往往受限于信息粒度過大和圖像資源稀缺等問題。科研團隊發現,相比圖和特征,細節關聯在多數情況下更好地保持了跨模態間的不變性。
為此,科研團隊提出了一種寬域信息挖掘神經網絡(WRIM-Net),通過構建全域交互學習機制實現了在空間域、通道域以及尺度域等多域中的細節關聯挖掘,突破了傳統單域模型的局限性。此外,通過設計跨模態關鍵實例對比學習模塊有效引導了網絡提取模態關聯信息。在驗證實驗中,不僅在標準SYSU-MM01和RegDB數據集上,還在最新的大規模跨模態LLCM數據集上證實了所提出模型的有效性,多項關鍵性能指標首次突破90%,比如在SYSU-MM01上R1指標達92.1%,在RegDB上mAP指標達90.5%,接近實際應用水平。該模型可用于視覺追溯與檢索、多模態大模型、醫學影像分析、安防監控等多個人工智能應用領域。
博士生吳勇敢為文章的第一作者,王紅強為通信作者。該研究工作得到了國家自然科學基金項目、中國科學院設備開發、安徽省重點研究與開發計劃等科研項目的支持。
據悉,歐洲計算機視覺大會(ECCV)是計算機視覺領域的頂尖國際學術盛會之一,與ICCV和CVPR并列“三大頂會”。自1986年起,ECCV每兩年舉行一次,聚焦計算機視覺的全方位研究,包括圖像與視頻的處理、分析和理解,及其在機器學習、模式識別、機器人、醫學影像、AR/VR等領域的應用。
跨模態信息關聯性與寬域信息挖掘模型原理