專利名稱:一種復(fù)雜水位過程的擬合方法
技術(shù)領(lǐng)域:
本發(fā)明涉及水文學及水資源領(lǐng)域,具體是一種復(fù)雜水位過程的擬合方法。
背景技術(shù):
水情預(yù)報中需要根據(jù)歷史數(shù)據(jù),建立有效的關(guān)系模型,特別是對于水情復(fù)雜的河流, 建立關(guān)系模型的難度是很大的。
以黃河為例,黃河下游汛期水沙觀測數(shù)據(jù)中的內(nèi)在關(guān)系,有很強的復(fù)雜性。其一, 相對水少沙多。黃河中游的三門峽水文站多年年平均含沙量35kg/m3、輸沙量約16億噸, 同時黃河泥沙顆粒很細,有時河水甚至呈泥漿狀態(tài);其二,水、沙時空分布不均。全年 60%的水量和80%的泥沙集中來自汛期,汛期又主要來自幾場暴雨洪水。
這些特殊性使其汛期水位表現(xiàn)出很強的不同特征。第一,同期同斷面相同流量(不 同時刻)的水位能相差0.6m以上;第二,在上游斷面相同水位的兩個洪峰演進到下游 時,表現(xiàn)出來的水位能相差0.2m以上;第三,斷面水位陡升陡降。由于問題本身的復(fù) 雜性,世界上在黃河水沙過程有效擬合方面的研究較少。
在黃河下游復(fù)雜水位過程的擬合方面, 一些文獻采用了水文學、水力學的模型,申 請人在研究中也使用過半?yún)?shù)、非線性高維回歸等模型和方法,擬合效果均不理想。改 進了多元統(tǒng)計中的方差分析后,擬合效果較為明顯,但計算過于復(fù)雜,且需取得影響因 素值分別相同條件下(不同時刻),相應(yīng)響應(yīng)變量的(不同)值。
工程問題中常常出現(xiàn)這樣的情況, 一些影響因素的耦合,對響應(yīng)變量產(chǎn)生了顯著更 強的影響(如耦合共振)。
統(tǒng)計學的理論和方法,都是有針對性地分析數(shù)據(jù)中的某類規(guī)律。多項式回歸提供了 模型結(jié)構(gòu)的選擇之一,但應(yīng)用中模型普適性往往較差;逐步回歸能剔除回歸不顯著的項 得到最優(yōu)回歸模型,但未考慮影響因素的強耦合作用;非線性回歸給出了模型中已存在 的非線性關(guān)系項的處理方式,不能給出非線性項的形式;當模型構(gòu)成項間存在多重相關(guān) 性時,嶺估計可以比最小二乘估計提供模型參數(shù)的更穩(wěn)定的方差也更小的估計,但也不 能給出非線性項的形式等。
許多工程問題的內(nèi)在規(guī)律很復(fù)雜,在分析這些規(guī)律時,僅使用一兩種理論或方法往 往難以取得好的效果。這時需要針對具體問題特點,將幾個同類理論和方法的長處有機 集成,引進必要的新的處理,并從理論上使處理過程完善,形成能有效分析該類問題內(nèi) 在規(guī)律的新方法。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種復(fù)雜水位過程的擬合方法一分層變換篩選 擬合法,該方法能有效分離出顯著非線性耦合擾動,提高模型精度。 本發(fā)明所述的復(fù)雜水位過程的擬合方法,包括以下步驟
1) 針對水位過程7的擬合,確定y的所有可能影響因素A,…,A,并按影響因素 與相應(yīng)水位對應(yīng)的原則整理相應(yīng)的原始數(shù)據(jù);由整理出的數(shù)據(jù),依A,…,A兩兩間散 點圖或線性相關(guān)系數(shù),剔除A,…,A間的共線性關(guān)系,設(shè)剔除共線性關(guān)系后,剩余的 影響因素為 0z ^");
2) 依y分別與&,, A兩兩間散點圖體現(xiàn)的關(guān)系,對Z", A中與y間是非線 性關(guān)系的因素作線性化變換,并以變換后的形式取代原影響因素,與不需變換的原影響 因素一起作為基本參量,組成多元回歸多項式;
3) 依各基本參量與各復(fù)合非線性項兩兩之間的散點圖或線性相關(guān)系數(shù),剔除回歸 多項式中各階項之間的共線性關(guān)系;
4) 依剩余各復(fù)合非線性項與y兩兩間散點圖體現(xiàn)的關(guān)系,對與y間是非線性關(guān)系 的復(fù)合非線性項作線性化變換,并以變換后形式完全取代回歸多項式中的相應(yīng)復(fù)合非線 性項;
5) 依剩余各階項與y兩兩間散點圖或線性相關(guān)系數(shù),剔除所有對y影響不顯著的 項,得擬合模型;
6) 以嶺估計法計算擬合模型參數(shù),并檢驗擬合效果。
本發(fā)明考慮了工程問題中常見的弱影響因素間的耦合對響應(yīng)變量的強作用,其最大 限度地綜合使用剔除共線性、線性化變換、剔除弱影響項等,有效降低了模型誤差。該 方法有機集成了多個理論和方法的長處,且使用方便。本方法的每一步都有充分的理論 保證其合理性、必要性,有著同類擬合問題下的普遍適用性。
圖l是y與《關(guān)系散點圖2是y與^關(guān)系散點圖3是/與1/ A關(guān)系散點圖4是7與義4關(guān)系散點圖; 圖5是y與xlx4關(guān)系散點圖; 圖6是y與x2/x3關(guān)系散點圖。
41、本發(fā)明的具體步驟如下
步驟l針對水位過程y的擬合,確定y的所有可能影響因素A,…,A,并按影 響因素與相應(yīng)水位對應(yīng)的原則整理相應(yīng)的原始數(shù)據(jù)。由整理出的數(shù)據(jù),依A,…,^兩 兩間散點圖或線性相關(guān)系數(shù),剔除A, , A間的共線性關(guān)系。
這里不要剔除任何有相應(yīng)觀測數(shù)據(jù)的可能影響因素,因為考慮到這些因素狀態(tài)的不 同搭配,可能產(chǎn)生對/的聯(lián)合強作用。
影響因素間共線性關(guān)系,表明這些因素間有幾乎完全相同的物理意義,只保留其中 有樣本觀察值,且形式相對簡單的因素。
設(shè)剔除共線性關(guān)系后,剩余的影響因素為A,…,^G^")。
步驟2依y分別與A,, ^兩兩間散點圖體現(xiàn)的關(guān)系,對A,, ^中與y間 是非線性關(guān)系的因素作線性化變換[18'19]。并以變換后的形式取代原影響因素,與不需變 換的原影響因素一起作為基本參量,組成多元回歸多項式。
工程問題的有解性,使回歸多項式一般能成立。三階及以上高階項在工程問題中一 般難以找到對應(yīng)的物理解釋, 一般略去三階及以上項。為敘述方便,二階及二階以上項 稱為復(fù)合非線性項。
步驟3依各基本參量與各復(fù)合非線性項兩兩之間的散點圖或線性相關(guān)系數(shù),剔除 回歸多項式中各階項之間的共線性關(guān)系。
這時的共線性關(guān)系中剔除復(fù)合非線性項。
步驟4依剩余各復(fù)合非線性項與y兩兩間散點圖體現(xiàn)的關(guān)系,對與y間是非線性
關(guān)系的復(fù)合非線性項作線性化變換。并以變換后形式完全取代回歸多項式中的相應(yīng)復(fù)合 非線性項。
由于組成這里復(fù)合非線性項的基本參量,有的是已作過線性化變換的,所以對這里 復(fù)合非線性項所作的變換稱為累進變換。
對于與/間是線性關(guān)系的復(fù)合非線性項,也可作適當變換,使之與y間線性關(guān)系更 強,這樣可以更進一步提高最終模型精度。
步驟5依剩余各階項與y兩兩間散點圖或線性相關(guān)系數(shù),剔除所有對y影響不顯 著的項,得擬合模型。這時應(yīng)剔除模型構(gòu)成項中所有影響不顯著的項。 步驟6以嶺估計法計算擬合模型參數(shù),并檢驗擬合效果。
這里模型構(gòu)成項間很可能有較強的相關(guān)性。因此選用嶺估計將能給出使模型精度更高的參數(shù)估計,且?guī)X估計往往比最小二乘估計更穩(wěn)定,盡管嶺估計的期望與真實參數(shù)值 間有微小偏差。
擬合模型中復(fù)合非線性項的樣本值,由相應(yīng)原始影響因素的樣本值按數(shù)學關(guān)系確定。
先保留弱影響因素,累次剔除共線性項,累進線性化變換,變換后形式取代相應(yīng)項 構(gòu)成模型等等,這些非常用方法的有機綜合采用,使得本文所提方法顯著區(qū)別于現(xiàn)有同 類方法。
考慮到工程問題中大量存在的耦合作用,注意步驟5不可在前面執(zhí)行。方法中步驟 1 5都能適當消除最終模型的隨機誤差,特別是2、 4步。
為敘述方便,上述六步體現(xiàn)的完整方法稱為分層變換篩選擬合法。概括起來說即, 引進變量并僅剔除影響因素間共線性,線性化與/是非線性關(guān)系的因素并引進多元回歸 多項式,剔除回歸多項式中共線性,線性化與y是非線性關(guān)系的復(fù)合非線性項,剔除回 歸多項式中所有線性趨勢不顯著的項,以嶺估計計算模型參數(shù)。這六步的次序不能顛倒。 2、以下是采用本發(fā)明對黃河下游復(fù)雜水位過程的擬合,據(jù)以說明本方法的有效性。 黃河中下游河床沖刷和淤積都很劇烈,其水文過程中隱含的水文規(guī)律很復(fù)雜。 2.1確定待擬合水位過程和相應(yīng)影響因素,按相應(yīng)原則整理對應(yīng)數(shù)據(jù) 依水文和泥沙學科相關(guān)理論,黃河下游上監(jiān)測斷面出現(xiàn)某水體時,該水體的相應(yīng)下 游水位/的影響因素有該水體在上斷面出現(xiàn)時的水位《、含沙量A、水沙系數(shù)^和下 游同時水位義4。這里義3與a以及a與義2關(guān)聯(lián)較強,a與^有一定關(guān)聯(lián)。^在泥沙學科 中稱為水沙系數(shù),體現(xiàn)單位流量水流的挾沙量。
由于擬合模型需進一步用于預(yù)報,這里考慮相應(yīng)下游水位y的擬合。借助上下游相 應(yīng)水位過程線,按各影響因素與相應(yīng)水位_K的對應(yīng),精確摘錄到黃河花園口-夾河灘間 某年7與《、A、 A、 A的對應(yīng)值見表l。該年汛期最大含沙量在150 kg/m3以上,屬于 典型復(fù)雜的年份。
經(jīng)相應(yīng)散點圖分析,A、 A、 A、 A兩兩間均沒有共線性關(guān)系。
表l黃河下游某年y與A、 X2、 A、 X4的實測數(shù)據(jù)及擬合結(jié)果
上監(jiān)測斷面下監(jiān)澳lj斷面
序Date時刻義2x4Date時刻-y/m絕對誤差
號/m/(kg/m3)/m實測值擬合值/m
1711180091.925.320扁173.34712120073.3573.2816-0.0684
271260092.7222.40.009573.3171380074.0374.0021-0.0279
3714200092.6911.20.004973.84715200074.0574.08080.0308
4715180092.098.350.009874.05716160073.6473.6274-0.0126
5716120092.3810.005973.6771740073.7173.79450.0845671880092.026.10.008273.4171950073.3873.45260.0726
772020092.7926.530.008473.89720180074.3574.2426-0.1074
87211600921858.170.056574.0772280073.7873.7244-0.0556
9722120092.43153.190081173857232007473.98■0.0200
10723120092.451310.066273.8772440073.9274.00580.0858
118212009318270.005374.37821172074.5874.5661-00139
12822200093.1241.520細974.5382380074.5174.54220.0322
絕對誤差絕對侑最大值 0.1074 絕對誤差絕對值平均值 0.0509 絕對誤差方差_O.,
注表中日期711即7月11日,時刻1800、 1720分別為18時0分和17時20分,余類推。
2. 2線性化與/間是非線性關(guān)系的影響因素,并引進多元多項式 y分別與A、 A、 1/&、 A兩兩間散點關(guān)系見圖l 4,圖1 4中縱坐標均為y值。圖 l有比較明確的線性趨勢,圖2主體部分有一定的線性趨勢,圖3是帶寬較大的線性趨 勢(因為/與A間有一些弱的雙曲線趨勢),圖4也是帶寬偏大的線性趨勢。根據(jù)分層 變換篩選擬合法要求,以1/^取代X3作進一步分析。圖廣4可見y與《、a、 a、 Ai間 均無共線性關(guān)系,且均取兩個以上的不同值。依分層變換篩選擬合法步驟2,取《、a、 lAr3、 A作為基本參量構(gòu)成y的四元回歸多項式(1)。
少=00十a(chǎn)^+a2x2+fl3(l/jc3) + cr4;c4+fl6x2 +"7(1"3)2+"8x4 + <39;^2 +0^。:^ /x3十a(chǎn)uJCj;x:4 +a12;c2 /;r3 +a13x2;c4 +a14x4 /x3 +f (1)
式中a,, /=0, 1,…,14為待定參數(shù),f為隨機誤差。
2. 3剔除基本參量與復(fù)合非線性項間的所有共線性關(guān)系
力與^、義4與義/間各是拋物線關(guān)系,但每年汛期a、 a的值均分別只在離零點較遠,
且相對較小的范圍內(nèi)變動(參見表l),這一拋物線在這一小定義區(qū)間上幾乎是直線段。 A、 X4變化的特點,也使xa、義2義4相當于在義2上分別乘上兩個不同的常數(shù)。事實上,& 與V、 A與;t42、義2與;^2(或義274)、 1/義3與;^/力(或&/義3)之間的線性相關(guān)系數(shù)均在 0.9999以上,也就是說,他們之間各是共線性關(guān)系,故剔除相對復(fù)雜的六個復(fù)合非線性 項。經(jīng)檢驗,式(1)中等號右側(cè),四個基本參量和四個剩余復(fù)合非線性項《a、 a/x3、 W、 1/義/兩兩間無共線性關(guān)系。
2. 4對與/間是非線性關(guān)系的剩余復(fù)合非線性項累進變換
/與義a散點分布參見圖5,有較強線性趨勢。/與義2/73散點分布參見圖6,總體上 有明顯非線性對數(shù)關(guān)系。故變換;t2/;r3為ln""),并以lnU/W取代義2/& 。
/與W散點關(guān)系總體特征類似圖2, 7與1/義32散點關(guān)系總體特征類似圖3,均顯示 關(guān)系較弱。
2.5選擇線性趨勢顯著的各項,并給出擬合模型
7綜上及表2中7與各項間線性相關(guān)系數(shù),取a、 ^4、 ln0r2/;f3)三項構(gòu)成/的擬合 模型
y = Z>0 +6,;^ +6 4 +63 ln(jc2 /x3) + e (2) 其中A,…,/%為待定參數(shù),都有相應(yīng)量綱。e為模型誤差。
表2 :v與四個基本參量及四個剩余復(fù)合非線性項兩兩間線性相關(guān)系數(shù)
乂ll/x3X4早4jc2/x3ln(jc2/x3)X22 1/X32
0.97250.18540.23070.70360.92410.95530.97920.0632 — 0.0266
2.6確定擬合模型參數(shù)
將復(fù)合非線性項看成新變量,依嶺估計計算擬合模型參數(shù),計算中嶺參數(shù)的確定采 用方差膨脹因子法。得7的擬合模型見式(3),擬合效果參見表1中擬合值和絕對誤差。 7=66. 3997—0. 091198 ^ +0. 00183257 ^^+0. 46400697 ln0r2/;r3) (3)
取黃河下游花園口-夾河灘、夾河灘-高村兩對斷面,較長系列(連續(xù)20余年)各 年汛期的水沙觀測數(shù)據(jù),分別用黃河下游水位預(yù)報模型及其應(yīng)用(芮孝芳,陳潔云,常 星源,等.黃河下游水位預(yù)報模型及其應(yīng)用.水科學進展,1998, 9(3) :245-250);水 位演算模型及其在水位預(yù)報中的應(yīng)用(黃國如,朱慶平,馬俊,等.水位演算模型及其 在水位預(yù)報中的應(yīng)用.水文,2(1999): 1-6. ); I模型方程與數(shù)值方法(張紅武,黃遠 東,趙連軍,等.黃河下游非恒定輸沙數(shù)學模型——I模型方程與數(shù)值方法.水科學進 展,2002, (3): 265-271.)等中的模型和方法擬合,所得模型精度都比本發(fā)明明顯要 低。數(shù)據(jù)中隱含的水文規(guī)律很復(fù)雜,模擬效果顯著也說明了本文所提方法的科學性。
2. 7擬合模型中復(fù)合非線性項物理意義解釋
a義4是上游水位與下游同時水位的耦合項。^/X3實質(zhì)上是上游流量,上游流量與相 應(yīng)下游水位是對數(shù)關(guān)系符合物理背景。
工程問題中有這樣一類研究指標,其特點是,多個影響因素中有一些是顯著的,另 一些的單獨作用不一定顯著,但當它們達到某種耦合時,對研究指標的耦合作用會很顯 著,同時研究指標與其影響因素的實測不同值都在兩個以上。在擬合這類研究指標時, 本文給出的分層變換篩選擬合法更適宜。本方法與同類方法的核心區(qū)別,在于考慮了工 程問題中常見的弱影響因素間的耦合,對響應(yīng)變量的強作用;最大限度地綜合使用剔除 共線性、線性化變換、剔除弱影響項等,有效降低模型誤差;并進行必要的累進變換。 該方法有機集成了多個理論和方法的長處,且使用方便。方法的每一步都有充分的理論 保證其合理性、必要性,有著同類擬合問題下的普遍適用性。
權(quán)利要求
1、一種復(fù)雜水位過程的擬合方法,其特征在于包括以下步驟1)針對水位過程y的擬合,確定y的所有可能影響因素x1,…,xn,并按影響因素與相應(yīng)水位對應(yīng)的原則整理相應(yīng)的原始數(shù)據(jù);由整理出的數(shù)據(jù),依x1,…,xn兩兩間散點圖或線性相關(guān)系數(shù),剔除x1,…,xn間的共線性關(guān)系,設(shè)剔除共線性關(guān)系后,剩余的影響因素為z1,…,zm(m≤n);2)依y分別與z1,…,zm兩兩間散點圖體現(xiàn)的關(guān)系,對z1,…,zm中與y間是非線性關(guān)系的因素作線性化變換,并以變換后的形式取代原影響因素,與不需變換的原影響因素一起作為基本參量,組成多元回歸多項式;3)依各基本參量與各復(fù)合非線性項兩兩之間的散點圖或線性相關(guān)系數(shù),剔除回歸多項式中各階項之間的共線性關(guān)系;4)依剩余各復(fù)合非線性項與y兩兩間散點圖體現(xiàn)的關(guān)系,對與y間是非線性關(guān)系的復(fù)合非線性項作線性化變換,并以變換后形式完全取代回歸多項式中的相應(yīng)復(fù)合非線性項;5)依剩余各階項與y兩兩間散點圖或線性相關(guān)系數(shù),剔除所有對y影響不顯著的項,得擬合模型;6)以嶺估計法計算擬合模型參數(shù),并檢驗擬合效果。
全文摘要
本發(fā)明公開了一種復(fù)雜水位過程的擬合方法——分層變換篩選擬合法,其將多項式回歸、逐步回歸、參數(shù)的嶺估計等有機集成,并引進累進變換,系統(tǒng)形成了一個新方法。本方法與同類方法的核心區(qū)別,在于考慮了復(fù)雜水位過程中常見的弱影響因素間的強耦合作用;綜合采用了多種方法最大限度地降低擬合模型誤差;并引進了必要的累進變換。本方法有機集成了多個理論和方法的長處,且使用方便,有著同類復(fù)雜擬合問題下的普遍適用性。
文檔編號G01F23/00GK101644595SQ20091003411
公開日2010年2月10日 申請日期2009年9月1日 優(yōu)先權(quán)日2009年9月1日
發(fā)明者吳吉春, 袁永生 申請人:南京大學