【儀表網(wǎng) 行業(yè)應(yīng)用】2017年12月8日中央政治局就實施國家大數(shù)據(jù)戰(zhàn)略進行第二次集體學習時,習近平總書記強調(diào),大數(shù)據(jù)發(fā)展日新月異,我們應(yīng)該審時度勢、精心謀劃、超前布局、力爭主動,深入了解大數(shù)據(jù)發(fā)展現(xiàn)狀和趨勢及其對經(jīng)濟社會發(fā)展的影響,分析我國大數(shù)據(jù)發(fā)展取得的成績和存在的問題。習總書記強調(diào)的國家大數(shù)據(jù)戰(zhàn)略中的一項重要內(nèi)容就是生態(tài)環(huán)境大數(shù)據(jù)。生態(tài)環(huán)境大數(shù)據(jù)建設(shè)是貫徹落實習近平生態(tài)文明思想的重要措施。
黨中央、國務(wù)院高度重視生態(tài)環(huán)境監(jiān)測,目前我國已建成世界領(lǐng)先、要素和空間全域覆蓋的生態(tài)環(huán)境監(jiān)測網(wǎng)絡(luò)并積累了長期觀測數(shù)據(jù),這為建立環(huán)境系統(tǒng)神經(jīng)網(wǎng)絡(luò)模型奠定了強有力的基礎(chǔ)和保障。
神經(jīng)網(wǎng)絡(luò)的底層算法原理及類型
2016年3月,Google AlphaGo戰(zhàn)勝了李世石的新聞登上熱搜,2023年2月ChatGPT 3.5正式運行、版本4及后續(xù)版本緊鑼密鼓地發(fā)布。今天各種和神經(jīng)網(wǎng)絡(luò)相關(guān)的新奇事物不斷出現(xiàn)在我們身邊:人臉識別進行登錄驗證、指紋識別解鎖、語音識別、機器人、自動駕駛汽車等。深度學習、神經(jīng)網(wǎng)絡(luò)的概念似乎在一夜之間走進我們的日常生活,人工神經(jīng)網(wǎng)絡(luò)的最大優(yōu)勢在于模式識別和預(yù)測,在環(huán)境監(jiān)測中的應(yīng)用將會很有前景,作為環(huán)境監(jiān)測人,怎樣理解和應(yīng)用這一新技術(shù)來提升我們的工作?
1949年,加拿大認知心理生理學開創(chuàng)者Donald Hebb發(fā)現(xiàn):同一時間被激發(fā)的神經(jīng)元間的聯(lián)系會被強化,這種對神經(jīng)元的刺激使得神經(jīng)元間的突觸強度增加的學習方法被稱為赫布型學習(Hebbian Learning),現(xiàn)代人工智能起源于20世紀的腦神經(jīng)生理學和數(shù)學研究成果。人工神經(jīng)元是機器學習的基礎(chǔ)和基本單元,是人工神經(jīng)網(wǎng)絡(luò)操作基本信息的處理單元,其基本工作原理模仿了人腦腦神經(jīng)元的工作模式。
輸入相當于在人腦神經(jīng)元的突觸間隙完成的化學/電轉(zhuǎn)化的電信號;連接權(quán)相當于人腦神經(jīng)元之間突觸的連接強度。激活函數(shù)用于控制神經(jīng)元輸出振幅,將輸入加和值限制在一定的范圍內(nèi)。因此,一個人工神經(jīng)元可以用下式表示:
式中:
xi : 輸入信號,i=1,2…n(n維輸入);
wi : 各輸入因子的權(quán)重,i=1,2…n(n維輸入)。wi:為正值則該突觸為激活狀態(tài),為負值則為抑制狀態(tài);
P : 輸入信號組合器計算后的輸出;
b : 神經(jīng)元偏置,或神經(jīng)元內(nèi)部閾值。當輸入加權(quán)和大于b時,神經(jīng)元處于激活狀態(tài),可以向下個神經(jīng)元發(fā)出信號;若輸入加權(quán)和小于等于b時,神經(jīng)元處于抑制狀態(tài),不向下個神經(jīng)元發(fā)出信號;
Y : 神經(jīng)元輸出信號;
一個神經(jīng)元能夠接收、處理和發(fā)出的信息有限,要實現(xiàn)模擬人腦的思維方式,也就必須模擬人腦神經(jīng)系統(tǒng)的結(jié)構(gòu),必須把多個人工神經(jīng)元結(jié)構(gòu)化地連接起來,從數(shù)學的角度上看,就是建立不同的算法,并結(jié)構(gòu)化連接起來,使得不同的算法之間按既定的輸入輸出接口互相傳輸數(shù)據(jù)信息,最后輸出目標信息。多個人工神經(jīng)元通過連接構(gòu)成的具有一定功能的結(jié)構(gòu)化的網(wǎng)絡(luò)算法體系稱為人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)可以從不同的角度進行分類:如網(wǎng)絡(luò)性能角度、拓撲結(jié)構(gòu)角度、學習方式(算法)、神經(jīng)元的特征、連續(xù)突觸性質(zhì)、適用情景等。
按學習算法,目前已有40余種神經(jīng)網(wǎng)絡(luò)模型,常見的有反傳網(wǎng)絡(luò)、波耳茲曼機、適應(yīng)諧振理論、自組織映射、Hopfield網(wǎng)絡(luò)等。以網(wǎng)絡(luò)結(jié)構(gòu)和學習算法可分為:感知器、線性網(wǎng)絡(luò)、徑向基網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)等靜態(tài)網(wǎng)絡(luò),和Hopfield、Elman、非線性自動回歸時間系列網(wǎng)絡(luò)(NARNet)、帶外部輸入的非線性自動回歸時間系列網(wǎng)絡(luò)(NARXNet)、長短時記憶系統(tǒng)(LSTM)、時間延遲神經(jīng)網(wǎng)絡(luò)(TimeDelayNet)、分布式延遲神經(jīng)網(wǎng)絡(luò)(DistDelayNet)等動態(tài)遞歸網(wǎng)絡(luò);除此之外還包括:Boltzmann網(wǎng)絡(luò)、盒中腦網(wǎng)絡(luò)(Brain State in a Box,BSB)、模糊神經(jīng)網(wǎng)絡(luò)、自定義神經(jīng)網(wǎng)絡(luò)等其它類型網(wǎng)絡(luò)。
深度學習是通過深度神經(jīng)網(wǎng)絡(luò)學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學習過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。深度神經(jīng)網(wǎng)絡(luò)主要涉及三類方法:(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN);(2)自編碼神經(jīng)網(wǎng)絡(luò),包括自編碼(Auto Encoder)以及近年來受到廣泛關(guān)注的稀疏編碼兩類(Sparse Coding);(3)以多層自編碼神經(jīng)網(wǎng)絡(luò)的方式進行預(yù)訓(xùn)練,進而結(jié)合鑒別信息進一步優(yōu)化神經(jīng)網(wǎng)絡(luò)權(quán)值的深度置信網(wǎng)絡(luò)(DBN)。
神經(jīng)網(wǎng)絡(luò)有三類參數(shù):適合建模場景的神經(jīng)網(wǎng)絡(luò)類型選定之后,要通過系統(tǒng)機理、建模需求、數(shù)據(jù)條件來設(shè)計輸入-輸出參數(shù),也稱為外部參數(shù);要根據(jù)網(wǎng)絡(luò)規(guī)模和避免過擬合(Overfitting)、欠擬合(Underfitting)、貝葉斯正則化(Bayesian Regularization)的等原則來設(shè)計超級參數(shù)(Hyper Parameter);神經(jīng)網(wǎng)絡(luò)本身的權(quán)值(Weight)、閾值(Bias)通過訓(xùn)練得到,稱為網(wǎng)絡(luò)參數(shù)。
就神經(jīng)網(wǎng)絡(luò)內(nèi)部而言,通過帶動量的最小梯度下降法等方法通過誤差傳遞不斷調(diào)整權(quán)值、閾值來得到局部最優(yōu)網(wǎng)絡(luò)參數(shù)。就神經(jīng)網(wǎng)絡(luò)外部而言:通過機理和主成分分析及降維來不斷優(yōu)選外部參數(shù);通過先初篩后細篩的路線來尋求全局最優(yōu)網(wǎng)絡(luò)機構(gòu)(超級參數(shù))。
在環(huán)境預(yù)測預(yù)報中的應(yīng)用
根據(jù)系統(tǒng)論與控制論的觀點,生態(tài)環(huán)境中各要素構(gòu)成的、具有一定功能和結(jié)構(gòu)的一定空間范圍可以視為一個系統(tǒng)。生態(tài)環(huán)境系統(tǒng)是典型的非線性動力學系統(tǒng),系統(tǒng)內(nèi)有物理、化學、生物、氣象及輻射等方面的變化反應(yīng)及物質(zhì)、能力的輸入輸出,系統(tǒng)的驅(qū)動力、系統(tǒng)輸入、輸出因子的相互作用及影響非常復(fù)雜,很多系統(tǒng)難以用數(shù)值模型(微分方程)來描述。人類探索自然、認知自然總是由黑箱到灰箱再到白箱。在環(huán)境科學領(lǐng)域也是一樣,人們認識大氣圈、水圈、生物圈、生態(tài)系統(tǒng)也是從無到有,從淺入深的。對于一個相對完整的系統(tǒng)的物質(zhì)循環(huán)、遷移、轉(zhuǎn)化規(guī)律逐漸有所認識和理解,所有的認識和理解,促使人們聚焦研究環(huán)境污染物在系統(tǒng)中的遷移變化規(guī)律,可行、有效的技術(shù)手段之一就是建立基于神經(jīng)網(wǎng)絡(luò)的灰箱數(shù)學模型。
1.O3濃度-氣象常規(guī)-空氣質(zhì)量常規(guī)-VOCs耦合仿真預(yù)測模型
云南省生態(tài)環(huán)境監(jiān)測中心基于某空氣質(zhì)量背景自動監(jiān)測站2年數(shù)據(jù),以VOCs66項、歷史氣象因子5項、歷史環(huán)境空氣質(zhì)量8因子小時數(shù)據(jù)作為輸入,以未來1小時O3濃度作為輸出,并對樣本數(shù)據(jù)進行主成分分析(Pricipal Component Analysis,PCA)和降維(Dimension Reduction),目的是屏蔽干擾,保留主動力,避免過擬合,使用帶外部輸入的非線性自回歸神經(jīng)網(wǎng)絡(luò)(NARXNet)建立耦合仿真預(yù)測模型模型。
O3濃度仿真預(yù)測結(jié)果與實際監(jiān)測值的相對誤差絕對值均值能穩(wěn)定控制在6%以內(nèi),顯著優(yōu)于WRF-CMAQ、NAQPMS數(shù)值模型的預(yù)測結(jié)果。與將79項原始監(jiān)測指標作為輸入相比,直接取污染氣象學界公認的影響較大的TVOC、異戊二烯、丙烯、順-2-丁烯、苯_HC、甲苯_HC、二甲苯、其它苯系物8項因子或全部79項進行PCA和降維,均能取得較理想的網(wǎng)絡(luò)性能。時間延遲在5~7天網(wǎng)絡(luò)性能較佳,這說明了污染源與每周的工作周期具有一定的相關(guān)性。
2.O3濃度-氣象及空氣質(zhì)量常規(guī)-VOCs-紫外線能量耦合仿真預(yù)測模型:利用雙變量相關(guān)性、主成分分析探討O3成因
云南省生態(tài)環(huán)境監(jiān)測中心在上述模型基礎(chǔ)上,增加UVA、UVB、UVI、Volt 4項太陽輻射能量數(shù)據(jù),主成分分析后,取前10項主成分作為輸入建立使用NARXNet建立耦合仿真預(yù)測模型。
O3濃度仿真預(yù)測結(jié)果與與實際監(jiān)測值的相對誤差絕對值均值能穩(wěn)定控制在6.4%以內(nèi)。各輸入方案中,按預(yù)測誤差由小到大排序的方案為:PCA5、PCA10、PCA20、BCA10(雙變量相關(guān)系數(shù)前10項,下同)、BCA5、BCA20,說明將多重共線性指標剔除后的少量主成分作為輸入,對于網(wǎng)絡(luò)的訓(xùn)練具有明顯的幫助,從機理上說,建立模型一定要屏蔽微小的次要動力因素,避免過擬合;PCA優(yōu)于BCA,說明BCA僅考慮雙變量相關(guān),忽略污染物之間協(xié)同效應(yīng)如顆粒物-O3協(xié)同效應(yīng),將影響預(yù)測性能。網(wǎng)絡(luò)結(jié)構(gòu)盡量簡單、輸入因子盡量少,網(wǎng)絡(luò)性能越好,這與提高網(wǎng)絡(luò)泛化能力,追求適度擬合的基本原則是相符的。
在水污染溯源中的應(yīng)用
水污染溯源的方法主要有水質(zhì)監(jiān)測數(shù)據(jù)排查法、示蹤法、數(shù)學模型法和三維熒光溯源法。
三維熒光溯源法是目前光學分析、信息工程、人工智能算法相結(jié)合的前沿方法。在入射激發(fā)光照射下,有機化合物分子發(fā)生瞬時躍遷,之后立即返回基態(tài),返回基態(tài)的過程是一個輻射躍遷或非輻射躍遷衰變過程,其中的輻射躍遷衰變過程伴隨著光子的發(fā)射,即產(chǎn)生熒光或者磷光。三維熒光儀可以以一定波長范圍發(fā)出激發(fā)光掃描水樣,同時同步檢測該水樣實時產(chǎn)生的各波長發(fā)射光下的熒光強度,以發(fā)射光、激發(fā)光波長分別作為橫、縱坐標,以相對熒光強度作為豎坐標可匯出二維或三維形式的熒光譜圖。地表水、生活污水和工業(yè)廢水中存在大量熒光物質(zhì)混合物,理論上,污染源和受納水體水樣的三維熒光譜圖應(yīng)類似,通過譜圖相似度模式識別神經(jīng)網(wǎng)絡(luò)算法,可以計算出環(huán)境水樣與污染源的相似度,根據(jù)相似度來研判污染來源。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,ConvNet)是目前應(yīng)用最多的深度學習圖像視頻識別、目標識別、語音處理、自然語言處理等領(lǐng)域被廣泛應(yīng)用。一個典型的卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)包含輸入層、卷積層、池化層、全連接層和輸出層5個部分。
云南省生態(tài)環(huán)境監(jiān)測中心以目歸法處理后的水質(zhì)三維熒光譜圖作為輸入,以溯源結(jié)果作為輸出,構(gòu)建以卷積神經(jīng)網(wǎng)絡(luò)為核心的三維熒光譜圖識別算法框架。在算法中構(gòu)建了2個卷積層,并在每個卷積層后加上一個Relu激活函數(shù)層用于增加神經(jīng)網(wǎng)絡(luò)模型的非線性,加快訓(xùn)練速度,隨后構(gòu)建了一個池化層用于減少數(shù)據(jù)處理量和防止過擬合,并在后接上一個全連接層,最后以Softmax分類器作為輸出層得到三維熒光譜圖識別結(jié)果。使用卷積神經(jīng)網(wǎng)絡(luò)識別三維熒光光譜,在較為復(fù)雜的條件下仍有較高的識別正確率。
云南省生態(tài)環(huán)境監(jiān)測中心對省內(nèi)某高原湖泊COD構(gòu)成來源進行研究性監(jiān)測,采集優(yōu)勢種挺水植物并制作組織液、壓濾液、腐爛降解模擬試驗浸泡液、底泥翻轉(zhuǎn)振蕩浸提液等內(nèi)源水樣,以及主要入湖河流、豆腐園區(qū)污水廠等外源水樣,共制作得到48份水樣,使用日立F-2700FL Spectrophotometer型熒光
光譜儀檢測得到48組光譜數(shù)據(jù),使用Matlab 2021a,構(gòu)建并訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)算法模型,根據(jù)48×48共2304水樣對的相似度大小比較:內(nèi)源構(gòu)成中,湖水中COD主要來自底泥釋放的有機物;外源構(gòu)成中:湖水中溶解性COD主要來自入湖河流。
展望
圣路易斯華盛頓大學李馳博士后使用機器學習分離人為排放和氣象條件對中國地表臭氧變化的貢獻,得到如下結(jié)論:臭氧時空變化受氣象條件,特別是地表氣溫的影響很大;Ox在NOx缺乏區(qū)隨NOx升高而上升,而在NOx飽和區(qū)轉(zhuǎn)為下降;VOC含量的增加主要影響NOx飽和區(qū),而顆粒物含量的增加影響NOx缺乏區(qū)相對較強 等創(chuàng)新性結(jié)論。
大多數(shù)城鎮(zhèn)
污水處理廠使用活性污泥和其他工藝去除污染物(TOC,TN,TP)。每個污水系統(tǒng)中可能存在數(shù)以萬計的不同微生物種類。由于生物反應(yīng)的復(fù)雜性、處理廠的多變,基于活性污泥過程的生物動力學的數(shù)值模型并不是特別實用,機器學習技術(shù)可以在沒有校準負擔的情況下以更高的精度預(yù)測污水處理廠中的污泥膨脹。
國外研究人員正在嘗試用深度神經(jīng)網(wǎng)絡(luò)預(yù)測和識別內(nèi)分泌干擾物(EDCs)。市場上有10萬種化學品,其中大多數(shù)缺乏毒理學數(shù)據(jù),包括內(nèi)分泌干擾物質(zhì)。專注于一組有限的化學物質(zhì)或僅結(jié)構(gòu)相似的化合物使得我們很難將這些傳統(tǒng)工具應(yīng)用于數(shù)以萬計未經(jīng)測試的化學品。此外,由于內(nèi)分泌干擾物質(zhì)的分子機制復(fù)雜,一組看似結(jié)構(gòu)相似的化學物質(zhì)具有不同的內(nèi)分泌干擾活性。這些問題凸顯了傳統(tǒng)數(shù)據(jù)分析的不適用性。因此,研究人員嘗試將深度神經(jīng)網(wǎng)絡(luò)與大數(shù)據(jù)(包括各種生物、物理化學信息等)相結(jié)合來解決這些問題。
除了時間序列、空間序列預(yù)測、相關(guān)性識別、空氣污染成因分析、水污染溯源、模式識別等領(lǐng)域外,深度神經(jīng)網(wǎng)絡(luò)還在噪聲頻譜數(shù)據(jù)識別及聲源反演、監(jiān)測點位聚類、污染類型及機制的聚類、浮游植物識別及計數(shù)、陸生植物的識別等方面有很多成功的應(yīng)用案例。
總之:由于其優(yōu)異的非線性擬合及快速收斂能力,對非線性動力學系統(tǒng)的闡釋及無限逼近仿真能力,深度神經(jīng)網(wǎng)絡(luò)在環(huán)境監(jiān)測、環(huán)境科學與工程領(lǐng)域中將展現(xiàn)出廣闊的應(yīng)用前景和巨大的價值空間。(云南省生態(tài)環(huán)境監(jiān)測中心供稿)