基于樸素貝葉斯源識(shí)別的非負(fù)約束因子的污染源解析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于水體中污染源解析的方法,具體設(shè)及一種基于樸素貝葉斯源識(shí)別的非 負(fù)約束因子的污染源解析方法。
【背景技術(shù)】
[000引源解析(sourceappcxrtionment)是研究污染源對(duì)周圍環(huán)境污染的影響和作用的 一種方法。當(dāng)前針對(duì)污染源解析的研究很少,主要的污染源解析方法就是通過對(duì)源譜和因 子荷載的圖形觀察實(shí)現(xiàn)定性比較,或通過計(jì)算源譜和因子荷載的偏差實(shí)現(xiàn)半定量比較。運(yùn) 些方法多沒有考慮污染源譜的非線性特征,解析結(jié)果不能真實(shí)反映因子荷載與污染源譜的 對(duì)應(yīng)關(guān)系。
[0003] 多環(huán)芳控(PolycyclicAromaticHy化ocarbon,PAHs)污染源是指由兩個(gè)W上的 苯環(huán)W線性排列、彎接或簇聚的方式構(gòu)成的一類有機(jī)化合物,是一類廣泛存在于環(huán)境中的 持久性有機(jī)污染物。通常我們所說的多環(huán)芳控污染源是指PAHs中優(yōu)先控制的16種,分別是 糞、二氨起、起、巧、菲、蔥、巧蔥、巧、苯并(a)蔥、屈、苯并化)巧蔥、苯并似巧蔥、苯并(a) 巧、巧并(l,2,3-ed)巧、二苯并(a,h)蔥、苯并(曲i)巧。
[0004] 由于多環(huán)芳控具有強(qiáng)致癌特性,在水體中即使微量存在,通過遷移轉(zhuǎn)化,也會(huì)嚴(yán)重 威脅水體生物和人類的健康。而只有對(duì)水體中多環(huán)芳控的來源進(jìn)行明確的分析才能制定有 效的治理方案,因此水體中多環(huán)芳控污染源解析工作非常重要。
[0005] 傳統(tǒng)的水體中污染物源解析技術(shù)只能大致給出對(duì)環(huán)境受體貢獻(xiàn)較大的污染源類 另IJ,而不能給出具體排放源對(duì)受體貢獻(xiàn)的大小,缺乏對(duì)污染防治工作的實(shí)際指導(dǎo)意義。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是克服傳統(tǒng)水體中污染源解析技術(shù)的缺點(diǎn),針對(duì)水體中多環(huán)芳控污 染,提供一種基于樸素貝葉斯源識(shí)別的非負(fù)約束因子的污染源解析方法。
[0007] 為了實(shí)現(xiàn)本發(fā)明所述目的,發(fā)明人提供了W下技術(shù)方案。
[0008] 基于樸素貝葉斯源識(shí)別的非負(fù)約束因子的污染源解析方法,包括W下操作步驟: 步驟一,確定水體多環(huán)芳控污染源調(diào)查區(qū)域。
[0009] 根據(jù)水流域沿線城市總體規(guī)劃W及工業(yè)產(chǎn)業(yè)布局,選擇排放源復(fù)雜、多環(huán)芳控污 染嚴(yán)重的區(qū)域作為調(diào)查區(qū)域。
[0010] 步驟二,針對(duì)確定的多環(huán)芳控污染源調(diào)查區(qū)域,收集基礎(chǔ)資料,進(jìn)行實(shí)地調(diào)查,確 定要進(jìn)一步調(diào)查的污染源行業(yè)企業(yè)名單;檢測(cè)污染水體中的多環(huán)芳控,建立多環(huán)芳控污染 信息數(shù)據(jù)集。
[0011] 基礎(chǔ)資料包括群眾投訴、污染源普查數(shù)據(jù)庫(kù)、污染源檔案、環(huán)境監(jiān)測(cè)資料、環(huán)評(píng)報(bào) 告。收集基礎(chǔ)資料的目的是為了掌握調(diào)查區(qū)域內(nèi)多環(huán)芳控污染行業(yè)企業(yè)分布,從中篩選出 具有代表性、影響較為突出的行業(yè)企業(yè)(比如石化、焦?fàn)t等易產(chǎn)生多環(huán)芳控污染的工業(yè)),確 定要進(jìn)一步調(diào)查的污染源行業(yè)企業(yè)名單。
[0012] 對(duì)重點(diǎn)污染源進(jìn)行實(shí)地調(diào)查(包括布點(diǎn)、采樣和分析測(cè)試)。根據(jù)污染源的生產(chǎn) 工藝、生產(chǎn)流程、污染物的產(chǎn)生機(jī)制W及排放形式等因素,參照污染源調(diào)查規(guī)范,確定布點(diǎn) 和采樣方法。監(jiān)測(cè)指標(biāo)包括成分濃度指標(biāo)。
[0013] 步驟=,分析不同情況下,調(diào)查區(qū)域內(nèi)的污染源行業(yè)企業(yè)對(duì)環(huán)境的影響程度。
[0014] 不同情況包括:①單個(gè)污染源位于環(huán)境敏感點(diǎn);②多個(gè)不同類型的污染源位于環(huán) 境敏感點(diǎn);③多個(gè)相同類型的污染源位于環(huán)境敏感點(diǎn)。第①種情況下,根據(jù)污染源與環(huán)境敏 感點(diǎn)的相對(duì)位置關(guān)系,制定相應(yīng)的監(jiān)測(cè)方案,分析污染源對(duì)環(huán)境敏感點(diǎn)的影響程度。第②種 情況下,根據(jù)各污染源的特征污染物質(zhì)進(jìn)行分析判別。第③種情況比較復(fù)雜,需對(duì)污染源的 源強(qiáng)進(jìn)行測(cè)試,并結(jié)合數(shù)學(xué)模型判定各污染源的影響大小。
[0015] 步驟四,建立各類排放源中多環(huán)芳控污染物的指紋圖譜。
[0016] 各類排放源是指柴油機(jī)、汽油機(jī)、工業(yè)燃煤、民用燃煤、交通隧道、木材燃燒和焦?fàn)t 源。
[0017] 步驟五,采用Matl油軟件編程,將步驟四得到的指紋圖譜轉(zhuǎn)化為計(jì)算機(jī)能夠接受 的數(shù)量化矩陣,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,消除量綱影響,得到污染源受體樣本。
[0018] 步驟六,應(yīng)用樸素貝葉斯源方法對(duì)污染源受體樣本進(jìn)行訓(xùn)練,包括: 第一步,將未知參數(shù)0視為隨機(jī)變量(或向量),當(dāng)0已知量時(shí),樣本X的聯(lián)合分布 密度|1括巧就看成X對(duì)0的條件密度,記為P(X苗); 第二步,根據(jù)參數(shù)0的已知信息來確定先驗(yàn)分布II議; 第=步,利用條件分布密度P姑參和先驗(yàn)分布議麵,求出X與0的聯(lián)合分布埼和樣 本X的分布議誦,進(jìn)而求得后驗(yàn)分布密度P巧邊; 第四步,利用后驗(yàn)概率密度iill作出對(duì)0的推斷(估計(jì)0或?qū)?作檢驗(yàn)),進(jìn)行分 類訓(xùn)練; 第五步,通過分類訓(xùn)練得到基于樸素貝葉斯子分類模型。
[0019] 步驟屯,應(yīng)用非負(fù)約束因子分析方法進(jìn)行計(jì)算,包括: 第一步,將監(jiān)測(cè)點(diǎn)采樣得到的多環(huán)芳控的檢測(cè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理; 為解決不同污染物濃度的量綱不匹配,消除分析過程的偏差,需要對(duì)樣品數(shù)據(jù)進(jìn)行標(biāo) 準(zhǔn)化處理,目前主要有均值標(biāo)準(zhǔn)化方法和指數(shù)標(biāo)準(zhǔn)化方法兩種。
[0020] 均值標(biāo)準(zhǔn)化: 投'二D/D 指數(shù)標(biāo)準(zhǔn)化:
鬆一一標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣; D-樣品數(shù)據(jù); P-一樣品中某污染物的采樣平均值; 轅銳i一一樣品中某污染物濃度的最小值;ii*一一樣品中某污染物濃度的最大值。
[0021] 第二步,提取主成分因子數(shù); 主成分因子數(shù)的確定是源解析的重要內(nèi)容,它主要由特征值、累計(jì)方差貢獻(xiàn)率、決定系 數(shù)和化ter函數(shù)確定。
[0022] ii特征值大于1的所有因子作為主因子。
[0023]i|累計(jì)方差貢獻(xiàn)率CV值大于85%。
[0024]
P為顯著性因子個(gè)數(shù);m為污染物個(gè)數(shù);A為特征值。
[00巧] ''富決定系數(shù)大于0.9。
[0026]
公式中if"為對(duì)應(yīng)于第j個(gè)污染物的決定系數(shù);n為顯著性因子選取個(gè)數(shù);|||:為第i個(gè) 樣品中第j項(xiàng)污染物的值;曜;巧3運(yùn)算后第i個(gè)樣品中第j項(xiàng)污染物的值;胃為所有樣品中 第j項(xiàng)污染物的平均值。
[0027]譲;;Enter函數(shù)小于 0. 1。
[0028]
其中,替為化ter函數(shù)值;r,m,n分別為樣品、污染物和源的個(gè)數(shù),其余符號(hào)的含義同上。 龜?shù)闹道碚撋峡蒞從0到無窮大,一般認(rèn)為小于0. 1結(jié)果良好。
[002引第立步,因子分解; 顯著性因子包括:特征值、特征向量、因子荷載矩陣和因子得分矩陣。為方便起見,標(biāo)準(zhǔn) 化后的樣品數(shù)據(jù)矩陣仍用D表示。
[0030]
D一一標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣; --矩陣D的轉(zhuǎn)置矩陣; 另Z的特征值矩陣為A,特征向量矩陣為B,因?yàn)樘卣飨蛄烤仃囀钦痪仃?,則I:鮮楽i;;,I為單位矩陣。矩陣M可W表示為乃二best 因子荷載矩陣C和因子得分矩陣E可由W下公式得出追心:擁嫁
因子載荷矩陣c對(duì)應(yīng)主要污染源的成分譜,因子得分矩陣E對(duì)應(yīng)主要污染源的貢獻(xiàn)率。
[0031] 第四步,非負(fù)約束因子旋轉(zhuǎn)。
[0032] 將因子荷載矩陣C和因子得分矩陣E通過下式進(jìn)行非負(fù)約束斜交旋轉(zhuǎn),T為轉(zhuǎn)換 矩陣。
[0033]
r是將因子得分矩陣E中的負(fù)值換為0值后所得到的矩陣,然后將矩陣E和C進(jìn)行如 下旋轉(zhuǎn):
同理,另一個(gè)轉(zhuǎn)換矩陣N可根據(jù)旋轉(zhuǎn)后的因子荷載矩陣挺計(jì)算得到:
其中接'是把旋轉(zhuǎn)后的因子荷載矩陣變沖的負(fù)值轉(zhuǎn)換為0值后得到的矩陣。接謹(jǐn)贈(zèng)根據(jù) 下式繼續(xù)進(jìn)行非負(fù)旋轉(zhuǎn):
由上述過程迭代多次,直到因子荷載中的負(fù)值的平方和小于某設(shè)定值C=0.0001,迭代 過程終止,最終得到因子荷載矩陣C和因子得分矩陣E。
[0034] 步驟八,利用訓(xùn)練好的分類模型針對(duì)各高因子得分的主要污染源因子實(shí)現(xiàn)因子荷 載的污染源貢獻(xiàn)率的計(jì)算,實(shí)現(xiàn)多環(huán)芳控污染物的源解析。
[0035] 本發(fā)明所述所述多環(huán)芳控污染物是指美國(guó)國(guó)家環(huán)保總局提出的優(yōu)先控制的16種 多環(huán)芳控污染物。即糞、二氨起、起、巧、菲、蔥、巧蔥、巧、苯并(a)蔥、屈、苯并化)巧蔥、苯 并化)巧蔥、苯并(a)巧、巧并(l,2,3-ed)巧、二苯并(a,h)蔥、苯并(曲i)巧。
[0036] 本發(fā)明的的優(yōu)點(diǎn)如下: (1)全面掲示了水中多環(huán)芳控源排放組成特征,并篩選出能夠指示污染來源的特征標(biāo) 識(shí)物,克服了現(xiàn)有技術(shù)不能給出具體排放源對(duì)受體貢獻(xiàn)大小的缺陷。
[0037] (2)能夠快速、準(zhǔn)確的追溯水體中多環(huán)芳控污染物的來源,并量化各污染源的貢獻(xiàn) 率,實(shí)用性強(qiáng),有廣泛的推廣應(yīng)用價(jià)值。
[0038] (3)能夠?yàn)橹贫饔蚨喹h(huán)芳控污染控制對(duì)策及流域水環(huán)境質(zhì)量改善提供技術(shù)支 持。環(huán)境管理部口面對(duì)水多環(huán)芳控污染問題時(shí),可W應(yīng)用本發(fā)明所述方法,迅速識(shí)別污染 源,從而進(jìn)行有污染防控,為環(huán)境管理部口應(yīng)對(duì)多環(huán)芳控污染事故、控制污染風(fēng)險(xiǎn)提供了可 靠的技術(shù)保障。
【附圖說明】
[0039] 圖1為本發(fā)明所述污染源解析方法的流程圖。
[0040] 圖2-9為實(shí)施例中測(cè)試數(shù)據(jù)