近年來,以圖像壓縮感知、惡劣環境(如低光照)圖像增強為代表的底層視覺任務因其實用性,受到學術界和工業界的廣泛關注。深圳研究生院信息工程學院張健助理教授課題組近期在圖像重建領域取得重要進展,其相關工作發表在IEEE Transactions on Pattern Analysis and Machine Intelligence(簡稱TPAMI)和International Journal of Computer Vision(簡稱IJCV)上。TPAMI是模式分析和機器智能領域國際公認的頂級期刊,其最新影響因子為20.8;IJCV是人工智能和計算機視覺領域國際公認的頂級期刊,其最新影響因子為11.6,2022—2023年度發文量198篇。兩者均為中國計算機學會(CCF)推薦的A類學術期刊。
文章截圖
圖像壓縮感知(Compressed Sensing,CS)旨在從少量線性觀測值中重建原始圖像信號,以突破奈奎斯特采樣極限、極大地降低信號獲取成本,其應用包括但不限于單像素相機、醫療成像(如CT和MRI)以及視頻快照和光譜壓縮成像等。目前,CS面臨兩個具有挑戰性的問題:(1)如何設計高效的采樣矩陣和采樣方式,以盡可能多地保留圖像信息;(2)如何設計高效的重建算法,以快速、精確地復原圖像信號。課題組針對這兩個問題,提出一種實用的緊湊深度壓縮感知算法,相關成果發表在TPAMI上。
圖1 課題組提出的協同采樣算子設計方案
針對采樣矩陣與采樣方式設計問題,課題組研究發現,大多數傳統方法對高分辨率圖像進行以塊為單位的不重疊均勻采樣,且傳統采樣矩陣的自適應能力弱、存儲效率低下。如圖1所示,課題組提出了一種新的協同采樣算子(Collaborative Sampling Operator,COSO),通過深度條件濾波和雙分支快速采樣,實現了高效的全局采樣。
在重建算法設計方面,課題組提出了一個實用、緊致的深度網絡(Practical Compact Network,PCNet),通過設計新的協同采樣算子和現代化的重建骨干網絡,實現了高效的全局采樣和可解釋的重建。在高分辨率圖像上,PCNet展示了顯著的性能提升和擴展潛力。
圖2 課題組提出的實用、緊致的圖像壓縮感知神經網絡架構圖
得益于各模塊間良好的兼容性,如圖2所示,課題組提出了一個實用、緊致的圖像壓縮感知神經網絡,對所有組件進行端到端的聯合訓練。該方法在多個圖像基準數據集上均取得了領先的性能。
文章截圖
低光照增強(Low-light Image Enhancement,LLIE)旨在從受黑夜、陰影等惡劣環境破壞的低光照圖像中重建高清圖像信號,以求有效識別黑暗中的圖像內容,在軍事(如夜視儀)、民生(如自動駕駛)等領域存在廣泛應用。目前,LLIE面臨一個具有挑戰性的問題:低光照圖像的數據集是有限的,但實際應用時可能面對的低光照退化類型是無限的,在有限的低光照數據集上訓練出的算法如何應用于實際場景無限可能的退化是亟需解決的問題。為此,課題組提出一種基于擴散先驗的算法,提升增強算法在實際應用中的普適性,相關成果發表在IJCV期刊上。
圖3:提出的方法與當前最先進算法在真實手機拍攝圖像及基準數據集上的結果對比
針對有限低光照圖像數據集和實際應用中無限可能的退化之間的沖突問題,課題組研究發現,在大規模自然圖像上訓練的生成模型(如DDPM)具有非常豐富的自然圖像先驗,這在一定程度上可彌補有限的低光照圖像數據。
如圖4所示,一方面,基于DDPM的圖像生成模型,課題組提出了一個退化域矯正模塊(Degradation Domain Calibration, DDC)。對于真實場景中的低光照圖像,先通過DDPM的加噪-去噪采樣,在一定程度上將多樣的低光照退化統一到一個特定的分布上(即DDPM的生成分布),使后續的低光照增強模型(HWEM)能永遠接收到類似的低光照退化輸入,降低增強的難度。
圖4:課題組提出的實用、高效的低光照圖像增強神經網絡
另一方面,如圖4所示,對于模型增強后的結果,課題組采用了知識蒸餾的策略,引入細粒度目標域蒸餾操作(Fine-grained Target Domain Distillation, FTD),通過將增強結果再次使用DDPM的加噪-去噪采樣進行細粒度優化,進一步提升增強圖像的質量。在真實世界捕獲的低光照圖像上,FTD展現出了顯著的性能提升和魯棒性。
得益于各模塊間良好的兼容性,課題組提出了一個實用、高效的低光照圖像增強神經網絡,可應用于真實場景多變的低光退化。該方法在多個圖像基準數據集上均取得了領先的性能。
兩項工作均由張健課題組獨立完成,論文通訊作者為張健,北京大學信息工程學院為第一作者單位。研究得到國家自然科學基金重點項目以及面上項目支持。
作者簡介:
張健是北京大學深圳研究生院信息工程學院助理教授/研究員、博士生導師,視覺信息智能學習實驗室(VILLA)負責人。圍繞“智能可控圖像生成”前沿領域,深入開展高效圖像重建、可控圖像生成和精準圖像編輯3個關鍵方向研究。近5年以第一作者/通訊作者在Commun Eng、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV等高水平國際期刊和會議上發表論文70余篇,其中CCF A類論文50余篇;谷歌學術引用9800余次,h-index值為49(單篇一作最高引用1200余次);連續5年入選斯坦福全球前2%頂尖科學家榜單;獲得北大青年教師教學比賽一等獎、國際期刊/會議最佳論文獎5次、CVPR NTIRE全球挑戰賽冠軍、華為MindSpore學術獎勵基金項目優秀獎等。致力于產學研相結合,成果應用于字節、免展、Stability Al、Hugging Face等國內外知名公司產品中。