本發(fā)明涉及污水處理廠進(jìn)水的污水負(fù)荷預(yù)測(cè)的
技術(shù)領(lǐng)域:
,具體涉及一種基于向量時(shí)間序列模型的污水COD負(fù)荷預(yù)測(cè)的方法。
背景技術(shù):
:隨著工業(yè)化程度的不斷提高和人口的增長(zhǎng),城市污水排放量迅速增長(zhǎng),對(duì)環(huán)境的影響非常巨大,世界各國(guó)都投入大量的資金用于城市污水處理技術(shù)的研究,開發(fā)出了許多新技術(shù)和新工藝,對(duì)改善水環(huán)境狀況起了巨大的作用。目前,建造污水處理廠是公認(rèn)的解決水污染現(xiàn)狀的一條有效途徑,各國(guó)都在大力興建。但污水處理是一項(xiàng)能量密集型的綜合技術(shù),隨著污水廠的大規(guī)模興建,污染物的排放得到一定程度的控制,但是隨之問(wèn)題也浮現(xiàn)出來(lái)——污水處理設(shè)施的高投資、高運(yùn)行成本在一定程度上阻礙了污水處理事業(yè)的發(fā)展,許多中小型城市由于資金問(wèn)題沒有修建污水處理廠,已建成的一些污水廠也因運(yùn)行成本過(guò)高處于停產(chǎn)和半停產(chǎn)狀態(tài)??v觀影響城市污水處理廠建設(shè)發(fā)展的因素,能耗問(wèn)題是最主要的影響因素,如果不能及時(shí)有效的解決,污水處理的發(fā)展會(huì)受到很大的阻礙。我國(guó)相比于國(guó)外同種工藝類型的城市污水處理廠,能耗普遍偏高而且出水水質(zhì)和污泥處理均達(dá)不到發(fā)達(dá)國(guó)家的處理水平。清華大學(xué)的錢易教授曾指出傳統(tǒng)活性污泥法流程復(fù)雜、基建費(fèi)用高、運(yùn)行中需要很大的能源消耗、運(yùn)行費(fèi)用很可觀,我國(guó)經(jīng)濟(jì)實(shí)力和發(fā)達(dá)國(guó)家相比較弱,不應(yīng)該直接照搬發(fā)達(dá)國(guó)家的經(jīng)驗(yàn)和技術(shù)來(lái)解決自己城市污水處理問(wèn)題。針對(duì)這種現(xiàn)象,通過(guò)對(duì)處理工藝的深入研究,找出制約因素并提出相應(yīng)的改造方案,節(jié)能的空間是非常大的,這是我國(guó)污水處理行業(yè)急需攻克的技術(shù)難題。有效降低污水處理系統(tǒng)的能耗、合理分配能源成為決定污水廠正常運(yùn)行的關(guān)鍵因素。因此,研究和探索污水處理工藝的節(jié)能技術(shù)和途徑具有非常重要的現(xiàn)實(shí)意義。同時(shí),污水的實(shí)際處理量與能耗的關(guān)系非常密切,隨著污水處理量的增加,能耗也隨之增加,但是能耗增幅的大小和該污水處理廠的設(shè)備的實(shí)際運(yùn)行狀況有著非常大的關(guān)系。隨著污水處理量的不斷增長(zhǎng)以及出水排放標(biāo)準(zhǔn)的日趨嚴(yán)格,如何充分應(yīng)對(duì)污水處理廠進(jìn)水負(fù)荷和運(yùn)行環(huán)境的變化,實(shí)現(xiàn)污染物的穩(wěn)定達(dá)標(biāo)并降低運(yùn)行成本,成為污水處理運(yùn)行管理所要面對(duì)的關(guān)鍵問(wèn)題。自上世紀(jì)70年代以來(lái),依賴于監(jiān)測(cè)設(shè)備(硬件)及控制算法(軟件)的發(fā)展,污水處理儀表、控制和自動(dòng)化技術(shù)(InstrumentationControlandAutomation,ICA)在污水處理廠日常運(yùn)行中發(fā)揮著越來(lái)越重要的作用。研究及實(shí)踐表明,根據(jù)工藝的運(yùn)行原理及特點(diǎn),提高污水處理系統(tǒng)ICA技術(shù)的應(yīng)用程度是加強(qiáng)污水處理廠脫氮除磷效果,實(shí)現(xiàn)節(jié)能降耗目標(biāo)的有效手段。對(duì)污水處理廠而言,進(jìn)水流量及污染物濃度的變化是控制系統(tǒng)所要應(yīng)對(duì)的擾動(dòng)的主要來(lái)源。不同于其他工業(yè)生產(chǎn)過(guò)程,污水處理廠進(jìn)水負(fù)荷一般不可調(diào)控,其突變性強(qiáng),波動(dòng)范圍大,尤其在降雨的影響下,對(duì)生化處理系統(tǒng)具有較強(qiáng)的沖擊性。國(guó)內(nèi)現(xiàn)有的污水處理中的相關(guān)模型技術(shù),主要集中在污水處理后的水質(zhì)COD、BOD等的預(yù)測(cè)和軟測(cè)量中,而忽略了進(jìn)水的重要性。實(shí)際上,對(duì)于污水處理的控制系統(tǒng)而言,出水的污染物濃度達(dá)到國(guó)家許可的排放標(biāo)準(zhǔn)是基本目標(biāo),進(jìn)水的污染物負(fù)荷對(duì)于控制系統(tǒng)而言則是主要考慮的輸入影響因素。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中的上述缺陷,提供一種基于向量時(shí)間序列模型的污水COD負(fù)荷預(yù)測(cè)的方法,該方法考慮污水進(jìn)水的水量、水質(zhì)COD等關(guān)聯(lián)變量。本發(fā)明的目的可以通過(guò)采取如下技術(shù)方案達(dá)到:一種基于向量時(shí)間序列模型的污水COD負(fù)荷預(yù)測(cè)的方法,包括下列步驟:S1、基于數(shù)據(jù)建模目標(biāo)的變量選?。豪每刂葡到y(tǒng)采集得到的污水處理廠進(jìn)水的變量進(jìn)行分析,所述變量包括進(jìn)水量、污水COD、NH4N、PH和進(jìn)水溫度T,通過(guò)定性分析采集變量與污水COD負(fù)荷的關(guān)聯(lián)和影響程度,選取出對(duì)污染物負(fù)荷有影響的變量;S2、對(duì)選取變量進(jìn)行數(shù)據(jù)探索:對(duì)于步驟S1中選取的對(duì)污水COD負(fù)荷相關(guān)的變量進(jìn)行數(shù)據(jù)結(jié)構(gòu)的分析,包括:數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析;S3、對(duì)探索后的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,達(dá)到向量自回歸建模的要求:通過(guò)對(duì)步驟S2分析的數(shù)據(jù)進(jìn)行數(shù)據(jù)序列的清洗、濾波數(shù)據(jù)的集成、數(shù)據(jù)的變換和新屬性的構(gòu)造、數(shù)據(jù)屬性的規(guī)約、數(shù)據(jù)序列的平穩(wěn)化和零均值化的處理,通過(guò)對(duì)建模變量的篩選進(jìn)行數(shù)據(jù)的規(guī)約,進(jìn)行規(guī)約篩選確定選取進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷為模型的變量;S4、針對(duì)滿足建模要求的數(shù)據(jù)建立污水COD負(fù)荷的預(yù)測(cè)模型并進(jìn)行模型的檢驗(yàn):利用經(jīng)過(guò)數(shù)據(jù)預(yù)處理達(dá)到建模要求的數(shù)據(jù)采用向量時(shí)間序列建立污水COD負(fù)荷的VAR預(yù)測(cè)模型,并通過(guò)采用AIC信息準(zhǔn)則對(duì)模型定階,進(jìn)而建立污水COD負(fù)荷的VAR預(yù)測(cè)模型,然后利用多元混成統(tǒng)計(jì)進(jìn)行模型的有效性檢驗(yàn);S5、對(duì)建立的污水COD負(fù)荷的預(yù)測(cè)模型簡(jiǎn)化并優(yōu)化模型的參數(shù):通過(guò)目標(biāo)參數(shù)簡(jiǎn)化得到簡(jiǎn)化模型,同樣采用最大似然估計(jì)得到模型的參數(shù)得到優(yōu)化模型;S6、利用準(zhǔn)備的數(shù)據(jù)測(cè)試優(yōu)化模型,通過(guò)分析預(yù)測(cè)結(jié)果進(jìn)行模型的評(píng)價(jià):將規(guī)約好的進(jìn)水?dāng)?shù)據(jù)作為污水COD負(fù)荷的預(yù)測(cè)模型的輸入,得到進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷的預(yù)測(cè)結(jié)果,進(jìn)行結(jié)果的分析并給出模型的相關(guān)評(píng)價(jià)。進(jìn)一步地,所述數(shù)據(jù)質(zhì)量分析用于檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)以及無(wú)法進(jìn)行直接分析的數(shù)據(jù),所述臟數(shù)據(jù)包括缺失值、異常值以及含有特殊字符的數(shù)據(jù);所述數(shù)據(jù)特征分析通過(guò)繪制圖表、計(jì)算指定特征量進(jìn)行變量的分布分析來(lái)發(fā)現(xiàn)數(shù)據(jù)的分布特征和分布類型,通過(guò)統(tǒng)計(jì)量分析進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)描述,以及周期性分析。進(jìn)一步地,利用單變量的散點(diǎn)圖和箱形圖初步進(jìn)行所述異常值的判斷,同時(shí)也利用統(tǒng)計(jì)學(xué)的3σ法原則進(jìn)行所述異常值的排查。進(jìn)一步地,所述數(shù)據(jù)序列的清洗具體為:針對(duì)所述臟數(shù)據(jù)的處理中少量數(shù)據(jù)的缺失采用單序列的局部回歸擬合插值,針對(duì)所述臟數(shù)據(jù)的處理中時(shí)間段數(shù)據(jù)的缺失采用所采集的數(shù)據(jù)當(dāng)前時(shí)間點(diǎn)的均值填補(bǔ),針對(duì)所述臟數(shù)據(jù)的處理中含有特殊字符的數(shù)據(jù)變換為常數(shù)值,針對(duì)所述臟數(shù)據(jù)的處理中異常值采用全局均值進(jìn)行替換;所述濾波數(shù)據(jù)的集成具體為:選取卡爾曼濾波對(duì)數(shù)據(jù)序列進(jìn)行濾波處理,接著將所述步驟S1中選取出對(duì)污染物負(fù)荷有影響的變量集成為一張數(shù)據(jù)變量表;所述數(shù)據(jù)的變換和新屬性的構(gòu)造具體為:采用濾波后的進(jìn)水量和污水COD的乘積得到污水COD負(fù)荷這個(gè)新屬性,新屬性的構(gòu)造計(jì)算如下:污水COD負(fù)荷=單位時(shí)間進(jìn)水量x進(jìn)水COD(1);所述數(shù)據(jù)屬性的規(guī)約具體為:通過(guò)對(duì)集成的數(shù)據(jù)進(jìn)行變量的相關(guān)性分析,選取對(duì)污水COD負(fù)荷影響明顯的變量進(jìn)行屬性的規(guī)約,剔除對(duì)污水COD負(fù)荷影響不顯著的屬性,最后確定模型采用的數(shù)據(jù)是進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷,其中,相關(guān)性分析中采用皮爾遜相關(guān)系數(shù):式中,cov(X,Y)表示兩個(gè)邊路間的互協(xié)方差,σX,σY則分別代表自協(xié)方差,E代表的是各個(gè)變量的期望;所述數(shù)據(jù)序列的平穩(wěn)化和零均值化處理具體為:首先,采用單位根檢驗(yàn)法判斷序列的平穩(wěn)性:考慮k維VAR(p)模型,假定表達(dá)式為:式中,是一個(gè)p次矩陣多項(xiàng)式,其中,φ0是一個(gè)k維常數(shù)向量,并且對(duì)于i>0,φi是kxk維矩陣且φi≠0,Ιk是kxk維的單位矩陣,Βi是i階次的后移算子,at是獨(dú)立同分布隨機(jī)向量序列,其均值為0,協(xié)方差矩陣∑a為正定矩陣,假定序列是平穩(wěn)的,求期望有:(Ιk-φ1-…-φp)μ=[φ(1)]μ=φ0(4)其中,μ=Ε(zt),因此有μ=[φ(1)]-1φ0,則有|Ιk-φΒ|=|φ(Β)|,因此序列VAR(p)弱平穩(wěn)的充分和必要條件是:行列式方程|Ιk-φΒ|=0的所有解的絕對(duì)值都大于1,也可以說(shuō)解的模大于1或者所有的解在單位圓外,如果序列經(jīng)判斷不符合平穩(wěn)性,則需要進(jìn)行差分、取對(duì)數(shù)的數(shù)據(jù)變換方法來(lái)達(dá)到平穩(wěn)性的要求,然后求取序列的均值,得到零均值的平穩(wěn)序列。進(jìn)一步地,所述步驟S4具體包括:S41、模型參數(shù)估計(jì)方法的選用:采用ML估計(jì)方法估計(jì)VAR(p)模型的參數(shù),對(duì)于給定的數(shù)據(jù)集{z1,…,zT},VAR(p)模型的極大似然函數(shù)為式中,是關(guān)于φi的估計(jì)值,T是時(shí)間序列的樣本數(shù),p是階次,k是模型的維數(shù);S42、模型階次的選擇:利用不同的信息準(zhǔn)則來(lái)判定適合的模型階次,所述信息準(zhǔn)包括AIC準(zhǔn)則、BIC準(zhǔn)則和HQ準(zhǔn)則,在正態(tài)分布假設(shè)下,VAR(p)模型的AIC準(zhǔn)則、BIC準(zhǔn)則和HQ準(zhǔn)則分別如下:其中,則是上式討論的Σa的ML估計(jì);S43、模型的多元混成統(tǒng)計(jì)檢驗(yàn):進(jìn)行模型檢驗(yàn),對(duì)模型的準(zhǔn)確性進(jìn)行判斷,其中,模型的準(zhǔn)確性判斷準(zhǔn)則包括:<1>、所有擬合參數(shù)都是統(tǒng)計(jì)顯著的,即在給定的顯著水平α下;<2>、殘差沒有顯著序列或橫截面積相關(guān);<3>、不存在結(jié)構(gòu)變化或反常值;<4>、殘差沒有破壞數(shù)據(jù)序列的原始分布假設(shè)。本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:1、本發(fā)明采取的數(shù)據(jù)處理和建模的一系列步驟是一種常用且重要的數(shù)據(jù)挖掘建模的步驟,而向量自回歸模型(VAR)又是多元時(shí)間序列模型中最常用的模型,結(jié)合數(shù)據(jù)挖掘建立時(shí)間序列的模型對(duì)擁有大量數(shù)據(jù)的污水處理廠來(lái)說(shuō),是非常適合采用的方法。2、采用的向量自回歸模型(VAR),模型相對(duì)容易估計(jì),可以用最小二乘(LS)方法、極大似然(ML)方法或者貝葉斯方法;同時(shí)VAR模型與廣泛應(yīng)用在多元統(tǒng)計(jì)分析中的多因變量多元線性回歸模型相似,易于理解和采用。3、不同于單序列的時(shí)間序列模型(ARMA等),向量自回歸模型不僅考慮了自身的影響,同時(shí)考慮了對(duì)其具有影響的變量,在當(dāng)前具有大量數(shù)據(jù)的影響下對(duì)于建立更加精確的模型是相當(dāng)有助益的。4、本發(fā)明利用向量自回歸模型(VAR)建立的污水COD負(fù)荷模型,在對(duì)進(jìn)水COD負(fù)荷預(yù)測(cè)的同時(shí),也同時(shí)預(yù)測(cè)了進(jìn)水量和進(jìn)水COD,不僅即時(shí)反映了污水進(jìn)水的相關(guān)情況,也對(duì)于污水處理廠的控制系統(tǒng)的實(shí)施提供了便利,同時(shí)為污水處理廠進(jìn)一步節(jié)能降耗提供了前提。附圖說(shuō)明圖1是本發(fā)明公開的基于向量自回歸模型VAR(p)的污水COD負(fù)荷預(yù)測(cè)的模型建立的流程圖;圖2是經(jīng)過(guò)初步數(shù)據(jù)預(yù)處理達(dá)到建模要求的進(jìn)水COD負(fù)荷的一階差分的時(shí)間序列趨勢(shì)圖;圖3是經(jīng)過(guò)初步數(shù)據(jù)預(yù)處理達(dá)到建模要求的進(jìn)水量的一階差分的時(shí)間序列趨勢(shì)圖;圖4是經(jīng)過(guò)初步數(shù)據(jù)預(yù)處理達(dá)到建模要求的進(jìn)水COD的一階差分的時(shí)間序列趨勢(shì)圖;圖5是建模序列VAR模型不同階次的三種信息準(zhǔn)則隨階次增大的變化趨勢(shì)圖;圖6是建模序列初始VAR(5)的Qk(m)統(tǒng)計(jì)量的p值和m的散點(diǎn)圖;圖7是建模序列簡(jiǎn)化VAR(5)的Qk(m)統(tǒng)計(jì)量的p值和m的散點(diǎn)圖;圖8是圖1所述方法的進(jìn)水COD負(fù)荷的一階差分序列的預(yù)測(cè)殘差的結(jié)果圖;圖9是圖1所述方法的進(jìn)水量一階差分序列的預(yù)測(cè)殘差的結(jié)果圖;圖10是圖1所述方法的進(jìn)水COD的一階差分序列的預(yù)測(cè)殘差的結(jié)果圖。具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例一本實(shí)施例公開了一種基于向量自回歸模型(VAR)的多元時(shí)間序列的預(yù)測(cè)方法,該方法是一種采用相互關(guān)聯(lián)變量過(guò)去的趨勢(shì)對(duì)當(dāng)前和未來(lái)影響的判斷方法,包含以下步驟:S1、基于數(shù)據(jù)建模目標(biāo)的變量選取:利用控制系統(tǒng)采集得到的污水處理廠進(jìn)水的變量進(jìn)行分析,所述變量包括進(jìn)水量、污水COD、NH4N、PH和進(jìn)水溫度T,通過(guò)定性分析采集變量與污染物負(fù)荷的關(guān)聯(lián)和影響程度,選取出對(duì)污染物負(fù)荷有影響的變量;該步驟基于“污水COD負(fù)荷預(yù)測(cè)”這一數(shù)據(jù)建模目標(biāo)進(jìn)行變量選取,利用控制系統(tǒng)采集得到的污水處理廠進(jìn)水的變量進(jìn)行初步分析,結(jié)合污水處理廠實(shí)際情況采集進(jìn)水量、污水COD、NH4N、PH和進(jìn)水溫度T等變量,通過(guò)定性分析采集變量與污水COD負(fù)荷的關(guān)聯(lián)和影響程度,選取出上述對(duì)污水COD負(fù)荷有影響的變量。通過(guò)從工藝的角度和案例選取的污水廠實(shí)際情況選取了關(guān)于污水的進(jìn)水量、進(jìn)水COD、NH4N、PH和進(jìn)水溫度T等變量作為初步選取的對(duì)污水COD負(fù)荷影響的輸入變量。S2、對(duì)選取與污水COD負(fù)荷相關(guān)變量進(jìn)行數(shù)據(jù)探索:對(duì)于步驟S1中選取的對(duì)污水COD(化學(xué)需氧量,ChemicalOxygenDemand)負(fù)荷相關(guān)的變量進(jìn)一步進(jìn)行數(shù)據(jù)結(jié)構(gòu)的分析,主要包括:數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析;其中,數(shù)據(jù)質(zhì)量分析用于檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)(臟數(shù)據(jù)主要指的是缺失值、異常值以及含有特殊字符的數(shù)據(jù)等),以及無(wú)法進(jìn)行直接的相應(yīng)分析的數(shù)據(jù);數(shù)據(jù)特征分析通過(guò)繪制圖表、計(jì)算某些特征量等手段進(jìn)一步進(jìn)行變量的分布分析來(lái)發(fā)現(xiàn)數(shù)據(jù)的分布特征和分布類型,統(tǒng)計(jì)量分析進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)描述,以及周期性分析等。具體應(yīng)用中,步驟S2對(duì)進(jìn)水?dāng)?shù)據(jù)的探索包含以下的幾個(gè)詳細(xì)的步驟:步驟S21、數(shù)據(jù)質(zhì)量的分析,主要是查找序列中的臟數(shù)據(jù):由于控制系統(tǒng)傳感器的敏感性等各種干擾原因?qū)е碌纳倭繑?shù)據(jù)的缺失,傳感器的損壞或者信號(hào)中斷等原因?qū)е碌臅r(shí)間段數(shù)據(jù)的缺失,部分含有單位等特殊字符的變量數(shù)據(jù);步驟S22、主要根據(jù)數(shù)據(jù)的圖形進(jìn)行初步的數(shù)據(jù)特征分析:利用單變量的散點(diǎn)圖和箱形圖初步進(jìn)行異常值的判斷,同時(shí)也利用統(tǒng)計(jì)學(xué)的3σ法原則進(jìn)行異常值的排查。S3、對(duì)探索后的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,達(dá)到向量自回歸建模的要求:數(shù)據(jù)預(yù)處理一方面是要提高數(shù)據(jù)的質(zhì)量,另一方面是可以更加貼切地適應(yīng)所采用的挖掘模型。通過(guò)對(duì)步驟S2分析的數(shù)據(jù)進(jìn)行數(shù)據(jù)序列的清洗、濾波數(shù)據(jù)的集成以及數(shù)據(jù)的變換和新屬性的構(gòu)造、數(shù)據(jù)屬性的規(guī)約來(lái)得到需要的數(shù)據(jù),主要針對(duì)臟數(shù)據(jù)進(jìn)行缺失值的填補(bǔ)、異常值的替換,同時(shí)為了排除干擾進(jìn)行濾波處理,為了滿足采用模型的要求需要進(jìn)行的數(shù)據(jù)序列的平穩(wěn)化和零均值化的處理,以及通過(guò)對(duì)建模變量的篩選進(jìn)行數(shù)據(jù)的規(guī)約,進(jìn)行規(guī)約篩選確定選取進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷為模型的變量;該步驟具體包括:步驟S31、數(shù)據(jù)序列的清洗:通過(guò)步驟S2對(duì)數(shù)據(jù)質(zhì)量和數(shù)據(jù)特征的分析,針對(duì)性地進(jìn)行數(shù)據(jù)的清洗。步驟S21中臟數(shù)據(jù)的處理——少量數(shù)據(jù)的缺失,這里采用單序列的局部回歸擬合插值;時(shí)間段數(shù)據(jù)的缺失則采用所采集的數(shù)據(jù)當(dāng)前時(shí)間點(diǎn)的均值填補(bǔ);含有特殊字符的數(shù)據(jù)變換為常數(shù)值。步驟S22的異常值采用全局均值進(jìn)行替換;步驟S32、濾波數(shù)據(jù)的集成:為了排除測(cè)量的干擾需要對(duì)數(shù)據(jù)序列進(jìn)行濾波處理,這里提供采用均值濾波、中值濾波或卡爾曼濾波等不同的濾波方法的效果對(duì)比,結(jié)合實(shí)際案例的工藝情況選取卡爾曼濾波為案例濾波方法,接著將步驟S1選取的變量集成為一張數(shù)據(jù)變量表;S33、數(shù)據(jù)的變換和新屬性的構(gòu)造:考慮污水COD負(fù)荷這一變量無(wú)法進(jìn)行數(shù)據(jù)的采集,需要進(jìn)行屬性的構(gòu)造——采用濾波后的進(jìn)水量和污水COD這2個(gè)屬性的乘積得到污水COD負(fù)荷這個(gè)新的屬性,新屬性的構(gòu)造計(jì)算:污水COD負(fù)荷=單位時(shí)間進(jìn)水量x進(jìn)水COD(1)S34、數(shù)據(jù)屬性的規(guī)約:通過(guò)對(duì)集成的數(shù)據(jù)進(jìn)行變量的關(guān)聯(lián)性分析——相關(guān)性分析,選取對(duì)污水COD負(fù)荷影響比較明顯的變量進(jìn)行屬性的規(guī)約,剔除對(duì)污水COD負(fù)荷影響不夠顯著的屬性,最后確定模型采用的數(shù)據(jù)是進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷這三個(gè)屬性。采用的是熟知的皮爾遜相關(guān)系數(shù):式中,cov(X,Y)表示兩個(gè)邊路間的互協(xié)方差,σX,σY則分別代表自協(xié)方差,E代表的是各個(gè)變量的期望。S35、數(shù)據(jù)序列的平穩(wěn)化和零均值化處理:平穩(wěn)序列一般滿足下列兩個(gè)條件——(a)、序列的均值是與時(shí)間無(wú)關(guān)的常數(shù);(b)、序列的協(xié)方差矩陣是常數(shù)正定矩陣,即一個(gè)弱平穩(wěn)序列的均值和協(xié)方差不依賴于時(shí)間T,從而構(gòu)成弱平穩(wěn)時(shí)間序列。這里采用常用的單位根檢驗(yàn)法判斷序列的平穩(wěn)性:考慮k維VAR(p)模型,假定表達(dá)式為:式中,是一個(gè)p次矩陣多項(xiàng)式。其中,φ0是一個(gè)k維常數(shù)向量,并且對(duì)于i>0,φi是kxk維矩陣且φi≠0,Ιk是kxk維的單位矩陣,Βi是i階次的后移算子,at是獨(dú)立同分布隨機(jī)向量序列,其均值為0,協(xié)方差矩陣∑a為正定矩陣。假定序列是平穩(wěn)的,求期望有:(Ιk-φ1-…-φp)μ=[φ(1)]μ=φ0(4)其中,與式(1)中同樣的表達(dá)式代表一樣的含義,而μ=Ε(zt),因此有μ=[φ(1)]-1φ0則有|Ιk-φΒ|=|φ(Β)|,因此序列VAR(p)弱平穩(wěn)的充分和必要條件是行列式方程|Ιk-φΒ|=0的所有解的絕對(duì)值都大于1,也可以說(shuō)解的模大于1或者它們所有的解在單位圓外。如果序列經(jīng)判斷不符合平穩(wěn)性,則需要進(jìn)行差分(通常是一階差分或者二階差分就滿足平穩(wěn)性)、取對(duì)數(shù)等數(shù)據(jù)變換來(lái)達(dá)到平穩(wěn)性的要求,然后求取序列的均值,得到零均值的平穩(wěn)序列。S4、針對(duì)滿足建模要求的數(shù)據(jù)建立污水COD負(fù)荷的預(yù)測(cè)模型并進(jìn)行模型的檢驗(yàn):利用經(jīng)過(guò)數(shù)據(jù)預(yù)處理達(dá)到建模要求的數(shù)據(jù)采用向量時(shí)間序列建立污水COD負(fù)荷的VAR預(yù)測(cè)模型,并通過(guò)采用AIC等信息準(zhǔn)則對(duì)模型定階,進(jìn)而建立污水COD負(fù)荷的VAR預(yù)測(cè)模型,然后利用多元混成統(tǒng)計(jì)進(jìn)行模型的檢驗(yàn);該步驟具體包括:S41、模型參數(shù)估計(jì)選用的方法:一個(gè)VAR(p)模型可通過(guò)最小二乘(LS)、極大似然(ML)或者貝葉斯估計(jì)方法來(lái)估計(jì)模型的參數(shù)。在多元正態(tài)假設(shè)下,zt服從k維正態(tài)分布,VAR(p)模型的ML估計(jì)和LS估計(jì)近似相等,這里采用ML估計(jì)方法。對(duì)于給定的數(shù)據(jù)集{z1,…,zT},VAR(p)模型的極大似然函數(shù)為式中,是關(guān)于φi的估計(jì)值,T是時(shí)間序列的樣本數(shù),p是階次,k是模型的維數(shù)。S42、模型階次的選擇:設(shè)定VAR模型并選擇了模型參數(shù)的估計(jì)方法后,需要參考不同的方法來(lái)確定模型的階次p。通常模型階次是不斷試探出來(lái)的,在不斷試探的過(guò)程中取確定比較適合的模型階次。通常采用的方法就是利用不同的信息準(zhǔn)則來(lái)判定適合的模型階次,信息準(zhǔn)則在選擇一個(gè)統(tǒng)計(jì)模型中是非常有效的,所有的信息準(zhǔn)則都包含兩部分(第一部分是關(guān)于數(shù)據(jù)模型的擬合優(yōu)度,而第二部分是懲罰更復(fù)雜模型)。最著名的信息準(zhǔn)則有3個(gè)(AIC準(zhǔn)則、BIC準(zhǔn)則和HQ準(zhǔn)則),在正態(tài)分布假設(shè)下,VAR(p)模型的3個(gè)準(zhǔn)則:其中的參數(shù)同以上各式的含義一樣,則是上式討論的Σa的ML估計(jì)。AIC是Akaike(1973)提出來(lái)的赤池信息準(zhǔn)則,BIC代表Schwarz(1978)的貝葉斯信息準(zhǔn)則,HQ是由Han和Quinn(1979)以及Quinn(1980)提出的。AIC用因子2來(lái)懲罰每個(gè)參數(shù),而BIC和HQ采用的懲罰因子依賴于樣本數(shù)——T越大,BIC和HQ更加嚴(yán)重地懲罰復(fù)雜模型。S43、模型的多元混成統(tǒng)計(jì)檢驗(yàn):初步確定模型的階次之后,需要進(jìn)行模型檢驗(yàn),也就是眾所周知的診斷檢驗(yàn)或者說(shuō)殘差分析,這在模型建立中發(fā)揮著重要的作用。模型檢驗(yàn)主要包括:(a)、確保擬合模型的準(zhǔn)確性;(b)、如果有實(shí)際需要,通過(guò)分析給出模型進(jìn)一步改進(jìn)的方向——根據(jù)選擇的信息準(zhǔn)則來(lái)判斷模型的準(zhǔn)確性,會(huì)依賴分析結(jié)果,模型的準(zhǔn)確性主要從以下幾點(diǎn)來(lái)說(shuō)明:<1>、所有擬合參數(shù)都是統(tǒng)計(jì)顯著的(在給定的顯著水平α下);<2>、殘差沒有顯著序列或橫截面積相關(guān);<3>、不存在結(jié)構(gòu)變化或反常值;<4>、殘差沒有破壞數(shù)據(jù)序列的原始分布假設(shè)(諸如多元正態(tài)分布)等。準(zhǔn)確模型的殘差應(yīng)該是白噪聲序列,因而檢驗(yàn)殘差連續(xù)性以及交叉相關(guān)性就成為模型檢驗(yàn)的重要組成部分。令Rp是at的理論之后p的交叉相關(guān)矩陣,模型檢驗(yàn)的相關(guān)假設(shè)為:H0:R1=…=Rm與Ha:Rj≠0,對(duì)于某些1≤j≤m(9)其中,m是預(yù)先設(shè)定的正整數(shù),進(jìn)而得到殘差序列的混成統(tǒng)計(jì)量:它是服從自由度為(m-p)k2的卡方分布。S5、對(duì)建立的模型簡(jiǎn)化并優(yōu)化模型的參數(shù):通過(guò)步驟S4的多元混成統(tǒng)計(jì)檢驗(yàn)?zāi)P偷挠行?,然后通過(guò)目標(biāo)參數(shù)簡(jiǎn)化得到的模型,同樣采用最大似然估計(jì)得到模型的參數(shù),從而進(jìn)一步得到優(yōu)化模型;對(duì)模型的簡(jiǎn)化:事實(shí)上,經(jīng)常觀測(cè)到的有些參數(shù)在給定的顯著水平下統(tǒng)計(jì)不顯著,而剔除不顯著參數(shù)有利于簡(jiǎn)化模型,尤其是當(dāng)沒有先驗(yàn)知識(shí)用于支持這些參數(shù)時(shí),就需要剔除這些參數(shù)。給定特定的顯著水平,例如α=0.05,可以識(shí)別要剔除的目標(biāo)參數(shù)。所謂目標(biāo)參數(shù),是指這些參數(shù)各自的T比率小于可允許的α的正態(tài)分布的臨界值。S6、利用準(zhǔn)備的數(shù)據(jù)測(cè)試優(yōu)化模型,通過(guò)分析預(yù)測(cè)結(jié)果進(jìn)行模型的評(píng)價(jià):將規(guī)約好的進(jìn)水?dāng)?shù)據(jù)作為污水COD負(fù)荷的預(yù)測(cè)模型的輸入,得到進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷的預(yù)測(cè)結(jié)果,進(jìn)行結(jié)果的分析并給出模型的相關(guān)評(píng)價(jià)。該步驟中通過(guò)利用測(cè)試樣本進(jìn)行數(shù)據(jù)預(yù)測(cè),給出預(yù)測(cè)結(jié)果的展示和分析,來(lái)判斷模型的適用性。得到較為準(zhǔn)確的模型并進(jìn)行模型檢驗(yàn)之后,接著進(jìn)行步驟S6用測(cè)試樣本數(shù)據(jù)來(lái)進(jìn)行模型測(cè)預(yù)測(cè)效果檢測(cè),并給出預(yù)測(cè)結(jié)果的展示和分析,最終得到確定模型適用性的結(jié)論。上述方法中,主要考慮的是步驟S3中的數(shù)據(jù)預(yù)處理和步驟S4中的模型定階兩個(gè)方面:(a)、數(shù)據(jù)預(yù)處理不夠好,影響模型的探索和模型的準(zhǔn)確性;(b)、模型階次判斷的不夠準(zhǔn)確,則直接影響模型的穩(wěn)定性和預(yù)測(cè)的效果。實(shí)施例二如圖1,一種基于向量時(shí)間序列的污水COD負(fù)荷的預(yù)測(cè)方法,包含以下的建模和模型評(píng)價(jià)步驟:1、通過(guò)從某污水處理廠的控制系統(tǒng)獲取的污水進(jìn)水量的數(shù)據(jù)庫(kù),里面包含2016年第二季度5月和6月的所有數(shù)據(jù),結(jié)合污水處理的A2O工藝和數(shù)據(jù)庫(kù)采集的數(shù)據(jù)變量,選取了與污水污染物負(fù)荷相關(guān)聯(lián)的諸如進(jìn)水量、進(jìn)水COD、進(jìn)水NH4N、進(jìn)水PH和進(jìn)水水溫T等變量;2、接著進(jìn)行數(shù)據(jù)探索的過(guò)程,首先查看數(shù)據(jù)的質(zhì)量:A、對(duì)于選取的5個(gè)變量,最先開始也是易于查看的就是數(shù)據(jù)的缺失值,通過(guò)對(duì)5月和6月數(shù)據(jù)的初步查看,發(fā)現(xiàn)5月的數(shù)據(jù)缺失嚴(yán)重,從而選擇6月比較全的部分(2016年6月4日到2016年6月23日)數(shù)據(jù)作進(jìn)一步的分析。同時(shí),短期COD測(cè)量的值比較穩(wěn)定,從而考慮采集頻率1h的數(shù)據(jù),獲得的原始數(shù)據(jù)經(jīng)過(guò)初步的整理,特殊字符的加工后的結(jié)果由附表1可以查看;B、附表1中的進(jìn)水量代表的是安裝測(cè)量表以來(lái)總的進(jìn)水處理量,為了得到單位1h內(nèi)的進(jìn)水量,我們需要進(jìn)行一階差分獲取單位時(shí)間的進(jìn)水量這一屬性;同時(shí),對(duì)于各變量序列中局部少量缺失值進(jìn)行局部線性擬合插補(bǔ),局部缺失值連續(xù)量過(guò)多的部分,則采用單位時(shí)間點(diǎn)的數(shù)據(jù)的均值插補(bǔ);由于無(wú)法直接采集污水COD負(fù)荷這一屬性,因而我們需要采用式(1)來(lái)構(gòu)造和獲取單位時(shí)間污水COD負(fù)荷這一屬性,從而獲取了如附表2的集成的初步樣本數(shù)據(jù)。C、對(duì)于集成的樣本數(shù)據(jù)zt={lt,ft,ct,nt,pt,tt}(其中zt表示向量時(shí)間序列,括號(hào)內(nèi)則分別代表是污水COD負(fù)荷、進(jìn)水量、COD、NH4N、PH和溫度T的單時(shí)間序列),利用式(2)的皮爾遜相關(guān)系數(shù)進(jìn)行變量間的相關(guān)性分析,變量間的相關(guān)性如表1所示。表1.污水COD負(fù)荷變量間的相關(guān)系數(shù)相關(guān)系數(shù)COD負(fù)荷進(jìn)水量進(jìn)水COD進(jìn)水NH4N進(jìn)水PH進(jìn)水水溫TCOD負(fù)荷10.6630.6390.1260.2150.167進(jìn)水量0.6631-0.1510.2750.2340.039進(jìn)水COD0.639-0.1511-0.1130.0520.185進(jìn)水NH4N0.1260.275-0.11310.450-0.015進(jìn)水PH0.2150.2340.0520.4501-0.193進(jìn)水水溫T0.1670.0390.185-0.015-0.1931D、由相關(guān)系數(shù)表進(jìn)行屬性規(guī)約,從而確定模型采用污水COD負(fù)荷、進(jìn)水量、進(jìn)水COD三個(gè)屬性為模型的輸入zt={lt,ft,ct}(t=1,…,n)。E、接著進(jìn)行模型的平穩(wěn)性檢驗(yàn),根據(jù)式(3)和式(4)利用單位根ADF檢驗(yàn)法檢驗(yàn),向量時(shí)間序列不滿足平穩(wěn)性,而一階差分zt0'=zt-zt-1(t=2,…,n)的向量時(shí)間序列則滿足向量時(shí)間序列的平穩(wěn)性,進(jìn)一步對(duì)平穩(wěn)化的向量時(shí)間序列進(jìn)行零均值化處理zt'=zt0'-φ0,從而得到符合建模要求的向量時(shí)間序列(按照3:1的比例,數(shù)據(jù)分為建模數(shù)據(jù)和測(cè)試數(shù)據(jù)),滿足建模要求的污水COD負(fù)荷向量時(shí)間序列的趨勢(shì)圖見附圖2至圖4。3、設(shè)定向量時(shí)間序列的模型為VAR(p)模型,接著需要確定的是模型的階次,對(duì)于向量時(shí)間序列,考慮公式(3)展開的VAR(p)模型:zt=φ0+φ1zt-1+…+φpzt-p+at,t=p+1,…,T(11)設(shè)定不同的階次p,然后利用公式(5)的ML估計(jì)計(jì)算模型的參數(shù),求取不同階次下的信息準(zhǔn)則的大小,得到不同階次下的信息準(zhǔn)則如表2所示。表2.不同階次p對(duì)應(yīng)的模型的信息準(zhǔn)則表pAICBICHQP值0-0.739-0.739-0.73901-1.770-1.6911.73902-1.809-1.653-1.7480.00013-1.870-1.635-1.77804-2.180-1.867-2.05705-2.300-1.908-2.14606-2.305-1.835-2.1210.02337-2.304-1.755-2.0880.06518-2.734-1.747-2.12709-2.385-1.680-2.1080.010410-2.429-1.645-2.1210.000111-2.432-1.570-2.090.041012-2.489-1.548-2.119013-2.538-1.519-2.1380應(yīng)用三種不同的信息準(zhǔn)則,允許選取的最大階為13:AIC準(zhǔn)則最優(yōu)的階次p=13,而BIC和HQ準(zhǔn)則選取的最優(yōu)階次p=5,表2總結(jié)了這些統(tǒng)計(jì)量。這表明,對(duì)于多元時(shí)間序列,不同的準(zhǔn)則將選取不同的階次,然而這些統(tǒng)計(jì)量是估計(jì)的,所以某種程度上的取值就不是太嚴(yán)格。附圖5給出了3個(gè)信息準(zhǔn)則的時(shí)序圖,對(duì)于p∈{1,2,3,4,5},AIC一直在減小,而BIC和HQ的趨勢(shì)相同,在p=5顯示最小,之后的階次BIC和HQ的p值不斷增大。而觀察后續(xù)的階次,發(fā)現(xiàn)AIC隨著階次的增大不斷較小,但是并沒有很明顯的優(yōu)勢(shì),同時(shí)考慮到階次p越高,待估計(jì)的參數(shù)越多,參數(shù)估計(jì)的難度也隨之增大,不確定增加,從而VAR(5)將作為三維時(shí)間序列的開始模型。利用ML對(duì)參數(shù)進(jìn)行估計(jì),得到VAR(5)模型的參數(shù)矩陣:從而可以得到初始VAR(5)模型的表達(dá)式:zt=φ0+φ1zt-1+φ2zt-2+φ3zt-3+φ4zt-4+φ5zt-5+at(12)其中,殘差協(xié)方差矩陣為初步模型的AIC=-2.146,BIC=-1.754,HQ=-1.991。同時(shí),得到初步的模型之后,需要進(jìn)行模型檢驗(yàn):利用多元混成統(tǒng)計(jì)量來(lái)檢驗(yàn)殘差交叉相關(guān)性,附圖6詳細(xì)給出了統(tǒng)計(jì)量的Q5(m)的p值。因?yàn)橛?8個(gè)參數(shù),所以Qk(m)卡方分布的自由度為9m-48。因此,如果m≥5,近似卡方分布成立。但是根據(jù)附圖4,Q5(m)統(tǒng)計(jì)量并非如此,反而在m≥6顯示殘差沒有強(qiáng)序列和交叉相關(guān)性。說(shuō)明殘差檢驗(yàn)并不合格,需要進(jìn)一步進(jìn)行模型的參數(shù)優(yōu)化,也表明求取的模型確實(shí)存在某些參數(shù)在給定的α=0.05的顯著水平上是統(tǒng)計(jì)不顯著的的。根據(jù)卡方統(tǒng)計(jì)量,用α=0.05來(lái)識(shí)別目標(biāo)參數(shù),得到簡(jiǎn)化模型的參數(shù)矩陣:此時(shí)的殘差協(xié)方差矩陣為查看簡(jiǎn)化后的模型,發(fā)現(xiàn)簡(jiǎn)化后的模型參數(shù)由原來(lái)的48個(gè)減少到37,大大降低了模型估計(jì)的難度。同時(shí)簡(jiǎn)化后的模型中AIC=-1.187,BIC=-0.865,HQ=-1.060。對(duì)于本案例,簡(jiǎn)化模型的所有3個(gè)信息準(zhǔn)則反而有所增加的值。而此時(shí)污水COD負(fù)荷的簡(jiǎn)化模型VAR(5)為再次利用多元混成統(tǒng)計(jì)來(lái)檢驗(yàn)殘差交叉相關(guān)性。如附圖7詳細(xì)給出了統(tǒng)計(jì)量Q5(m)的p值,觀察此時(shí)的圖形發(fā)現(xiàn),Qk(m)統(tǒng)計(jì)量表明VAR(5)模型已經(jīng)不存在強(qiáng)序列或交叉相關(guān)性了。從而,上述污水COD負(fù)荷簡(jiǎn)化模型VAR(5)對(duì)于負(fù)荷的預(yù)測(cè)是合適的。4.利用得到的模型對(duì)測(cè)試的數(shù)據(jù)進(jìn)行預(yù)測(cè),同時(shí)檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力,從而進(jìn)一步對(duì)模型進(jìn)行評(píng)價(jià)。利用測(cè)試數(shù)據(jù)得到預(yù)測(cè)結(jié)果。利用簡(jiǎn)化后的VAR(5)模型得到的預(yù)測(cè)殘差很小,殘差效果如附圖8至圖10所示,模型預(yù)測(cè)的精度比較高,而且同時(shí)也達(dá)到了預(yù)測(cè)多個(gè)變量的便利和要求。從整體上來(lái)看,建立的模型能夠使用污水COD負(fù)荷的要去,而且依賴項(xiàng)的進(jìn)水量和進(jìn)水COD通過(guò)在線傳感器的測(cè)量也比較方便,可以說(shuō)模型是很適用的。上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3