填補缺失浮動車數(shù)據(jù)的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其設(shè)及填補缺失浮動車數(shù)據(jù)的方法及系統(tǒng)。
【背景技術(shù)】
[0002] GPS(Global化sitioningSystem)浮動車信息采集技術(shù)作為一項新興的交通信 息動態(tài)采集技術(shù),具有全天候、實時性強、檢測成本小、數(shù)據(jù)精度高、采集范圍廣等諸多優(yōu) 點,并得到了國內(nèi)外ITS專家和企業(yè)的一致重視,取得了一定的理論成果和應(yīng)用實施。 1991年,美國提出了基于浮動車的實時路況發(fā)布系統(tǒng)ADVANCE,成為動態(tài)車輛導(dǎo)航系統(tǒng)的 主要試驗項目,試驗的目的是為了客觀地分析駕駛員是否需要實時信息來避免擁堵從而 提高通行能力。德國的交通數(shù)據(jù)系統(tǒng)DDG使用了 4000個路面交通傳感器和25000輛來自寶 馬和大眾的采集車,分別對每個原始設(shè)備制造商(OEM)提供服務(wù).英國的Trafficmaster 從1998年私營公司開始收集和處理交通數(shù)據(jù),并提供一系列的交通信息服務(wù),數(shù)據(jù)主要 來自于固定的傳感器,并由FCD補充。我國的智能交通建設(shè)相對而言起步較晚。各大院校、 科研機構(gòu)和企事業(yè)單位先后開展了浮動車交通信息采集與處理技術(shù)的合作與自主研發(fā)工 作。目前,北京、上海、廣州、杭州、寧波等城市,已經(jīng)擁有了一定規(guī)模的浮動車采集終端。
[0003] 車速是浮動車數(shù)據(jù)中重要的數(shù)據(jù)之一,也是交通流理論研究中的重要參數(shù)和交通 運行情況的基本量度。國內(nèi)外現(xiàn)有的關(guān)于浮動車采集系統(tǒng)的技術(shù)研究較多,大致都集中在 成本、浮動車規(guī)模、系統(tǒng)結(jié)構(gòu)和精度等方面,但由于浮動車數(shù)據(jù)特有的流動性W及浮動車 規(guī)模的限制,實時浮動車數(shù)據(jù)不能完全覆蓋路網(wǎng),適當(dāng)?shù)耐乒罃M合方法可W彌補數(shù)據(jù)缺失 引起的路網(wǎng)狀態(tài)表達(dá)的不完整性,提高應(yīng)用效率.因此,探討浮動車數(shù)據(jù)缺失時的信息插 補方法具有實際意義,運也是本發(fā)明所要解決的主要問題。
【發(fā)明內(nèi)容】
[0004]為了解決現(xiàn)有技術(shù)中的問題,本發(fā)明提供了 一種填補缺失浮動車數(shù)據(jù)的方法。
[0005] 本發(fā)明提供了一種填補缺失浮動車數(shù)據(jù)的方法,包括如下步驟:
[0006]A.數(shù)據(jù)篩選步驟,根據(jù)篩選規(guī)則對數(shù)據(jù)進(jìn)行篩選;
[0007]B.地圖匹配步驟,將FCD記錄的GPS點匹配到電子地圖數(shù)據(jù)上,從而得到車輛目前 所處路段;
[000引C.劃分網(wǎng)格步驟,使用網(wǎng)格對路網(wǎng)進(jìn)行劃分;
[0009]化確定插補區(qū)域及時間段步驟,根據(jù)劃分后的路網(wǎng),通過固定同一時間段并對比 多天數(shù)據(jù)分布的情況確定需要插補的路段;
[0010]E.插補缺失數(shù)據(jù)步驟,利用多元線性回歸模型,選取空間及時間信息作為變量,用 訓(xùn)練數(shù)據(jù)計算出偏回歸系數(shù)。
[0011] 作為本發(fā)明的進(jìn)一步改進(jìn),在所述步驟C中,從水平和垂直方向?qū)⒄麄€地圖數(shù)據(jù) 分成nXn的網(wǎng)格,如果設(shè)地圖區(qū)域的長度為L高為H,劃分為nXn份,每個網(wǎng)格長為1 = L/n,高為h=H/n,給每個網(wǎng)格標(biāo)示索引值后,設(shè)路網(wǎng)左上角頂點坐標(biāo)為:P。:(X。,y。),當(dāng)?shù)?到一GPS點落在網(wǎng)格內(nèi)坐標(biāo)為p(X,y),那么p所屬的網(wǎng)格索引號ID的計算公式為:
[001 引ID=floor(n(y0-y)A)+floor((X-X。)/!) +1
[0013] 其中,floor0為取整函數(shù),使用該公式能夠從GI^S點坐標(biāo)快速定位到所屬網(wǎng)格。
[0014] 作為本發(fā)明的進(jìn)一步改進(jìn),在所述步驟E中,多元線性回歸的形式為:yi= 曰0+曰1X11+曰2枯+…+曰iAi+eli= 1,2,…,n,其中k為解釋變量的數(shù)目,曰0,曰1,…ak為 待定參數(shù),El為隨機變量,如果be,bi,…,bk分別為a。,a1,…a,的擬合值,則回歸方程 為:
[001引耗=斬+ 6,而+ 6^2,. + …+ 6八
[001引式中:b。為常數(shù),bi,…A為偏回歸系數(shù),其意義是,當(dāng)其他自變量x,(j聲U都固 定時,自變量Xi每變化一個單位而使因變量yi平均改變的數(shù)值。
[0017] 作為本發(fā)明的進(jìn)一步改進(jìn),該方法還包括如下步驟:
[0018]F.處理步驟,設(shè)0為隨機參數(shù)向量,決定決策樹的生長,對應(yīng)的決策樹記為 T( 0 ),記B為X的域,即:WSegp,其中^^£成是自變量的締度,決策樹的每一個葉 節(jié)點1 = 1,…,L都對應(yīng)一個B的矩形空間,記每一個XGB,當(dāng)且僅當(dāng)一個葉節(jié)點1滿足XG而,記決策樹T(目)的葉節(jié)點為1 (X,0 )。
[0019] 作為本發(fā)明的進(jìn)一步改進(jìn),在所述步驟F中,
[0020] 利用bootstrap方法重采樣,隨機產(chǎn)生k個訓(xùn)練集01,02,…,0k,利用每個訓(xùn)練 集生成對應(yīng)的決策樹{T(X,目1)},{T(X,0 2)},…,{T(X,目k)};
[0021] 假設(shè)特征有M維,從M維特征中隨機抽取m個特征作為當(dāng)前節(jié)點的分裂特征集,并 W運m個特征中最好的分裂方式對該節(jié)點進(jìn)行分裂;
[0022] 每個決策樹都得到最大限度的生長,而不進(jìn)行剪枝;
[0023] 對于一個新的數(shù)據(jù)X=x,單棵決策樹T(0)的預(yù)測可W通過葉節(jié)點l(x,0) 的觀測值取平均值獲得,假如一個觀測值Xi屬于葉節(jié)點l(x,0)且不為0,令權(quán)重向量 Wi(x,9)為
.,:式中Wi(X,0 )權(quán)重之和等于1;
[0024] 在給定自變量X=X下,單棵決策樹的預(yù)測通過因變量的觀測值Yi(i= 1,2,…,n)的加權(quán)平均得到,單棵決策樹的預(yù)測值可由
通過決策樹權(quán) 重《i(x,0)(i= 1,2,…,k)取平均,得到每個觀測值iG(1,2,…,n)的權(quán)重《i(x):
[0025] 對于所有y,隨機森林的預(yù)測可記為:
[0026] 因此,在給定X=X的條件下,Y的條件均值的估計等于所有因變量觀測值的加權(quán) 和,權(quán)重隨自變量X=x的變化而變化,且在給定X=Xi(iG(1,2,…,n})下Y的條件分 布與X=X下Y的條件分布越相似,其權(quán)重越大。
[0027] 本發(fā)明還公開了一種填補缺失浮動車數(shù)據(jù)的系統(tǒng),包括:
[0028] 數(shù)據(jù)篩選模塊,用于根據(jù)篩選規(guī)則對數(shù)據(jù)進(jìn)行篩選;
[0029] 地圖匹配模塊,用于將FCD記錄的GPS點匹配到電子地圖數(shù)據(jù)上,從而得到車輛目 前所處路段;
[0030] 劃分網(wǎng)格模塊,用于使用網(wǎng)格對路網(wǎng)進(jìn)行劃分;
[0031] 確定插補區(qū)域及時間段模塊,用于根據(jù)劃分后的路網(wǎng),通過固定同一時間段并對 比多天數(shù)據(jù)分布的情況確定需要插補的路段;
[0032] 插補缺失數(shù)據(jù)模塊,用于利用多元線性回歸模型,選取空間及時間信息作為變量, 用訓(xùn)練數(shù)據(jù)計算出偏回歸系數(shù)。
[0033] 作為本發(fā)明的進(jìn)一步改進(jìn),在所述劃分網(wǎng)格模塊中,從水平和垂直方向?qū)⒄麄€ 地圖數(shù)據(jù)分成nXn的網(wǎng)格,如果設(shè)地圖區(qū)域的長度為L高為H,劃分為nXn份,每個網(wǎng) 格長為1 =L/n,高為h=H/n,給每個網(wǎng)格標(biāo)示索引值后,設(shè)路網(wǎng)左上角頂點坐標(biāo)為: P。:(X。,y。),當(dāng)?shù)玫揭籊PS點落在網(wǎng)格內(nèi)坐標(biāo)為p(x,y),那么P所屬的網(wǎng)格索引號ID的計算 公式為:
[0034] ID=floor(n(y〇-y)A)+floor((X-X。)/!) +1
[003引其中,floor0為取整函數(shù),使用該公式能夠從GPS點坐標(biāo)快速定位到所屬網(wǎng)格。
[0036] 作為本發(fā)明的進(jìn)一步改進(jìn),在所述插補缺失數(shù)據(jù)模塊中,多元線性回歸的形式為: yi= °。+°iXii+a2枯+'''+akXki+eii= 1,2,…,n,其中k為解釋變量的數(shù)目,a。,a1,… ak為待定參數(shù),e1為隨機變量,如果b。,bi,…,bk分別為a。,a1,…ak的擬合值,則回歸 方程為:
[0037] 鳥=女g+馬騎.+4% +... + 4 策妨
[00測式中:b。為常數(shù),bi,…A為偏回歸系數(shù),其意義是,當(dāng)其他自變量X,(j聲U都固 定時,自變量每變化一個單位而使因變量y1平均改變的數(shù)值。
[0039] 作為本發(fā)明的進(jìn)一步改進(jìn),該系統(tǒng)還包括:
[0040] 處理模塊,用于設(shè)0為隨機參數(shù)向量,決定決策樹的生長,對應(yīng)的決策樹記為 T(0),記B為X的域,即:A':n一 5、二/?'",其中PG成是自變量的締度,決策樹的每一個葉 節(jié)點1 = 1,…,L都對應(yīng)一個B的矩形空間,記每一個XGB,當(dāng)且僅當(dāng)一個葉節(jié)點1滿足XG而,記決策樹T(目)的葉節(jié)點為1 (X,0 )。
[0041] 作為本發(fā)明的進(jìn)一步改進(jìn),在所述處理模塊中,
[0042] 利用bootstrap方法重采樣,隨機產(chǎn)生k個訓(xùn)練集01,02,…,0k,利用每個訓(xùn)練 集生成對應(yīng)的決策樹{T(X,目1)},{T(X,0 2)},…,{T(X,目k)};
[0043] 假設(shè)特征有M維,從M維特征中隨機抽取m個特征作為當(dāng)前節(jié)點的分裂特征集,并 W運m個特征中最好的分裂方式對該節(jié)點進(jìn)行分裂;
[0044] 每個決策樹都得到最大限度的生長,而不進(jìn)行剪枝;
[0045] 對于一個新的數(shù)據(jù)X=x,單棵決策樹T(0)的預(yù)測可W通過葉節(jié)點l(x,0) 的觀測值取平均值獲得,假如一個觀測值Xi屬于葉節(jié)點l(x,0)且不為0,令權(quán)重向量 Wi(X,0)