近年來,以圖像壓縮感知、惡劣環(huán)境(如低光照)圖像增強(qiáng)為代表的底層視覺任務(wù)因其實(shí)用性,受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。深圳研究生院信息工程學(xué)院張健助理教授課題組近期在圖像重建領(lǐng)域取得重要進(jìn)展,其相關(guān)工作發(fā)表在IEEE Transactions on Pattern Analysis and Machine Intelligence(簡(jiǎn)稱TPAMI)和International Journal of Computer Vision(簡(jiǎn)稱IJCV)上。TPAMI是模式分析和機(jī)器智能領(lǐng)域國(guó)際公認(rèn)的頂級(jí)期刊,其最新影響因子為20.8;IJCV是人工智能和計(jì)算機(jī)視覺領(lǐng)域國(guó)際公認(rèn)的頂級(jí)期刊,其最新影響因子為11.6,2022—2023年度發(fā)文量198篇。兩者均為中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類學(xué)術(shù)期刊。
文章截圖
圖像壓縮感知(Compressed Sensing,CS)旨在從少量線性觀測(cè)值中重建原始圖像信號(hào),以突破奈奎斯特采樣極限、極大地降低信號(hào)獲取成本,其應(yīng)用包括但不限于單像素相機(jī)、醫(yī)療成像(如CT和MRI)以及視頻快照和光譜壓縮成像等。目前,CS面臨兩個(gè)具有挑戰(zhàn)性的問題:(1)如何設(shè)計(jì)高效的采樣矩陣和采樣方式,以盡可能多地保留圖像信息;(2)如何設(shè)計(jì)高效的重建算法,以快速、精確地復(fù)原圖像信號(hào)。課題組針對(duì)這兩個(gè)問題,提出一種實(shí)用的緊湊深度壓縮感知算法,相關(guān)成果發(fā)表在TPAMI上。
圖1 課題組提出的協(xié)同采樣算子設(shè)計(jì)方案
針對(duì)采樣矩陣與采樣方式設(shè)計(jì)問題,課題組研究發(fā)現(xiàn),大多數(shù)傳統(tǒng)方法對(duì)高分辨率圖像進(jìn)行以塊為單位的不重疊均勻采樣,且傳統(tǒng)采樣矩陣的自適應(yīng)能力弱、存儲(chǔ)效率低下。如圖1所示,課題組提出了一種新的協(xié)同采樣算子(Collaborative Sampling Operator,COSO),通過深度條件濾波和雙分支快速采樣,實(shí)現(xiàn)了高效的全局采樣。
在重建算法設(shè)計(jì)方面,課題組提出了一個(gè)實(shí)用、緊致的深度網(wǎng)絡(luò)(Practical Compact Network,PCNet),通過設(shè)計(jì)新的協(xié)同采樣算子和現(xiàn)代化的重建骨干網(wǎng)絡(luò),實(shí)現(xiàn)了高效的全局采樣和可解釋的重建。在高分辨率圖像上,PCNet展示了顯著的性能提升和擴(kuò)展?jié)摿Α?br />
圖2 課題組提出的實(shí)用、緊致的圖像壓縮感知神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
得益于各模塊間良好的兼容性,如圖2所示,課題組提出了一個(gè)實(shí)用、緊致的圖像壓縮感知神經(jīng)網(wǎng)絡(luò),對(duì)所有組件進(jìn)行端到端的聯(lián)合訓(xùn)練。該方法在多個(gè)圖像基準(zhǔn)數(shù)據(jù)集上均取得了領(lǐng)先的性能。
文章截圖
低光照增強(qiáng)(Low-light Image Enhancement,LLIE)旨在從受黑夜、陰影等惡劣環(huán)境破壞的低光照?qǐng)D像中重建高清圖像信號(hào),以求有效識(shí)別黑暗中的圖像內(nèi)容,在軍事(如夜視儀)、民生(如自動(dòng)駕駛)等領(lǐng)域存在廣泛應(yīng)用。目前,LLIE面臨一個(gè)具有挑戰(zhàn)性的問題:低光照?qǐng)D像的數(shù)據(jù)集是有限的,但實(shí)際應(yīng)用時(shí)可能面對(duì)的低光照退化類型是無限的,在有限的低光照數(shù)據(jù)集上訓(xùn)練出的算法如何應(yīng)用于實(shí)際場(chǎng)景無限可能的退化是亟需解決的問題。為此,課題組提出一種基于擴(kuò)散先驗(yàn)的算法,提升增強(qiáng)算法在實(shí)際應(yīng)用中的普適性,相關(guān)成果發(fā)表在IJCV期刊上。
圖3:提出的方法與當(dāng)前最先進(jìn)算法在真實(shí)手機(jī)拍攝圖像及基準(zhǔn)數(shù)據(jù)集上的結(jié)果對(duì)比
針對(duì)有限低光照?qǐng)D像數(shù)據(jù)集和實(shí)際應(yīng)用中無限可能的退化之間的沖突問題,課題組研究發(fā)現(xiàn),在大規(guī)模自然圖像上訓(xùn)練的生成模型(如DDPM)具有非常豐富的自然圖像先驗(yàn),這在一定程度上可彌補(bǔ)有限的低光照?qǐng)D像數(shù)據(jù)。
如圖4所示,一方面,基于DDPM的圖像生成模型,課題組提出了一個(gè)退化域矯正模塊(Degradation Domain Calibration, DDC)。對(duì)于真實(shí)場(chǎng)景中的低光照?qǐng)D像,先通過DDPM的加噪-去噪采樣,在一定程度上將多樣的低光照退化統(tǒng)一到一個(gè)特定的分布上(即DDPM的生成分布),使后續(xù)的低光照增強(qiáng)模型(HWEM)能永遠(yuǎn)接收到類似的低光照退化輸入,降低增強(qiáng)的難度。
圖4:課題組提出的實(shí)用、高效的低光照?qǐng)D像增強(qiáng)神經(jīng)網(wǎng)絡(luò)
另一方面,如圖4所示,對(duì)于模型增強(qiáng)后的結(jié)果,課題組采用了知識(shí)蒸餾的策略,引入細(xì)粒度目標(biāo)域蒸餾操作(Fine-grained Target Domain Distillation, FTD),通過將增強(qiáng)結(jié)果再次使用DDPM的加噪-去噪采樣進(jìn)行細(xì)粒度優(yōu)化,進(jìn)一步提升增強(qiáng)圖像的質(zhì)量。在真實(shí)世界捕獲的低光照?qǐng)D像上,F(xiàn)TD展現(xiàn)出了顯著的性能提升和魯棒性。
得益于各模塊間良好的兼容性,課題組提出了一個(gè)實(shí)用、高效的低光照?qǐng)D像增強(qiáng)神經(jīng)網(wǎng)絡(luò),可應(yīng)用于真實(shí)場(chǎng)景多變的低光退化。該方法在多個(gè)圖像基準(zhǔn)數(shù)據(jù)集上均取得了領(lǐng)先的性能。
兩項(xiàng)工作均由張健課題組獨(dú)立完成,論文通訊作者為張健,北京大學(xué)信息工程學(xué)院為第一作者單位。研究得到國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目以及面上項(xiàng)目支持。
作者簡(jiǎn)介:
張健是北京大學(xué)深圳研究生院信息工程學(xué)院助理教授/研究員、博士生導(dǎo)師,視覺信息智能學(xué)習(xí)實(shí)驗(yàn)室(VILLA)負(fù)責(zé)人。圍繞“智能可控圖像生成”前沿領(lǐng)域,深入開展高效圖像重建、可控圖像生成和精準(zhǔn)圖像編輯3個(gè)關(guān)鍵方向研究。近5年以第一作者/通訊作者在Commun Eng、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV等高水平國(guó)際期刊和會(huì)議上發(fā)表論文70余篇,其中CCF A類論文50余篇;谷歌學(xué)術(shù)引用9800余次,h-index值為49(單篇一作最高引用1200余次);連續(xù)5年入選斯坦福全球前2%頂尖科學(xué)家榜單;獲得北大青年教師教學(xué)比賽一等獎(jiǎng)、國(guó)際期刊/會(huì)議最佳論文獎(jiǎng)5次、CVPR NTIRE全球挑戰(zhàn)賽冠軍、華為MindSpore學(xué)術(shù)獎(jiǎng)勵(lì)基金項(xiàng)目?jī)?yōu)秀獎(jiǎng)等。致力于產(chǎn)學(xué)研相結(jié)合,成果應(yīng)用于字節(jié)、免展、Stability Al、Hugging Face等國(guó)內(nèi)外知名公司產(chǎn)品中。