本發(fā)明屬于軌跡數(shù)據(jù)計算技術(shù)領(lǐng)域,具體涉及一種重新表示路網(wǎng)軌跡數(shù)據(jù)的方法。
背景技術(shù):
軌跡數(shù)據(jù)是一種基本的時空數(shù)據(jù),通常定義為位置關(guān)于時間的函數(shù)。經(jīng)車載定位設(shè)備采樣得到的軌跡點用(x,y,t)三元組表示,其中x和y分別為經(jīng)度和緯度,而t為該采樣點的時間戳。于是原始路網(wǎng)軌跡可用一個三元組序列表示,即<(x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn)>,其中,n即為軌跡的長度,而(xi,yi)是車輛在ti時刻的位置。隨著車載定位設(shè)備的普及,城市中車輛產(chǎn)生了海量的路網(wǎng)軌跡。這些路網(wǎng)軌跡數(shù)據(jù)承載了大量信息,在分析城市交通狀況、挖掘人的行為模式和預(yù)測車輛流動方向等問題中常作為重要決策依據(jù)和信息來源。城市路網(wǎng)用一個有向圖G=(V,E)表示,其中V為道路的交叉點集合,而E為路口之間的路段集合。
數(shù)據(jù)壓縮算法分為無損壓縮和有損壓縮兩類。無損壓縮不產(chǎn)生信息損失,即壓縮后數(shù)據(jù)可以完全還原為原始數(shù)據(jù);相反有損壓縮通過直接舍棄數(shù)據(jù)中不影響精度要求的部分,來達(dá)到更高的壓縮率,但是壓ω縮后數(shù)據(jù)存在信息損失。無損壓縮算法又分為熵編碼和字典式編碼兩種。常用的熵編碼有Huffman編碼和算術(shù)編碼;字典式編碼常用Lempel-Ziv編碼及衍生出的其他算法。有損壓縮算法是針對某些特殊數(shù)據(jù)設(shè)計的專門算法,例如對于圖像的JPEG壓縮和對于音頻的MPEG壓縮,和無損壓縮不同,這些方法只針對特定的數(shù)據(jù)(如圖像和音頻)。針對一般軌跡數(shù)據(jù)和路網(wǎng)軌跡數(shù)據(jù),也有特定的有損壓縮算法,這些方法通常直接刪除原始軌跡中不影響數(shù)據(jù)精度的采樣點。
原始路網(wǎng)軌跡數(shù)據(jù)由于是從移動定位設(shè)備采樣得到,通常表為一個三元組序列T=〈(x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn)〉,然而這種表示包含了不必要的冗余,不利于數(shù)據(jù)壓縮。根據(jù)原始數(shù)據(jù)表示方法的局限性,我提出一種新的軌跡格式和一種對應(yīng)的數(shù)據(jù)分解方法來直接減少數(shù)據(jù)冗余,使其易于被壓縮算法處理。
技術(shù)實現(xiàn)要素:
壓縮率是衡量數(shù)據(jù)壓縮算法性能的關(guān)鍵指標(biāo)之一,通常被定義為原始數(shù)據(jù)和壓縮后數(shù)據(jù)大小的比值。給定原始軌跡T,設(shè)其大小為|T|;而壓縮后軌跡為Tc,大小為|Tc|,則壓縮率為例如,原始數(shù)據(jù)大小為2KB,而壓縮后數(shù)據(jù)大小為1KB,則數(shù)據(jù)壓縮率為2。
首先考慮在原始軌跡上使用通用的無損壓縮算法(sourcecoding)。如果我們直接對原始軌跡數(shù)據(jù)使用經(jīng)典的無損壓縮算法,由于數(shù)據(jù)壓縮的理論背景是信息論,從信息熵的角度來分析對于軌跡數(shù)據(jù)壓縮問題,可以證明,無論是熵編碼還是字典式編碼,當(dāng)實數(shù)數(shù)據(jù)的精度提升時,算法對于軌跡數(shù)據(jù)的壓縮率都將變得很低。
定理:當(dāng)實數(shù)數(shù)據(jù)的精度提升時,熵編碼和字典式編碼對于軌跡數(shù)據(jù)的壓縮率都趨向于1。
證明:首先我們證明熵編碼對于高精度實數(shù)數(shù)據(jù)是低效的。設(shè)X為一連續(xù)分布,其概率密度函數(shù)為p(x)。為了計算X的熵,我們首先將X的樣本空間ω=[a,b)等分為n份,每個小區(qū)間的長度為Δ=(b-a)/n。設(shè)[a,b)被分為{[a=x0,x1),[x1,x2),…[xn-1,xn=b)},x落在每一區(qū)間內(nèi)的概率構(gòu)成了離散分布,其概率分布列可用積分計算:
根據(jù)積分中值定理,必然存在使得:
換言之,該離散分布的熵為
如果函數(shù)p(x)log p(x)黎曼可積,則有
其中,h(X)是連續(xù)分布X的微分熵。
上述等式中的n就是數(shù)據(jù)的精度,因為區(qū)間劃分越細(xì),用以表示不同數(shù)據(jù)的符號就越多,即數(shù)據(jù)的精度越高。如果不對數(shù)據(jù)作壓縮,我們可以直接用比特來存儲每一個符號。根據(jù)Shannon的信源編碼定理以及熵編碼算法的最優(yōu)性,當(dāng)n趨向于無窮時,對于數(shù)據(jù)壓縮率r有:
綜上所述,當(dāng)數(shù)據(jù)精度提升時,熵編碼的壓縮率將趨近于1,即無法壓縮數(shù)據(jù)。
和熵編碼不同,為了計算字典式編碼的壓縮效果,需要分析信源分布的聯(lián)合熵,但是證明的過程是類似的。給定任意k個字符,設(shè)p(x1,x2,…xk)是X1,X2,…Xk的聯(lián)合概率密度函數(shù)。則最優(yōu)平均編碼長度Lk必然滿足:
即我們需要至少H(X1,X2,…Xk)比特來表示k個字符。
類似地,我們將采樣空間ω=[a1,b1)×[a2,b2)×…[ak,bk)劃分為nk部分,每一塊的大小為然后計算離散分布的熵為:
所以,如果有k項數(shù)據(jù),且它們的精度為n,則至少需要HΔ(X1,X2,…Xk)比特來編碼這些數(shù)據(jù)。如果p(x1,x2,…xk)log p(x1,x2,…xk)黎曼可積,則還有:
其中,h(X1,X2,…Xk)是聯(lián)合微分熵。最后我們可以計算壓縮率r:
證畢。
雖然有損壓縮算法可以達(dá)到很高的壓縮率,但是要以犧牲數(shù)據(jù)的精度為代價。大部分已有算法直接從原始軌跡中刪除采樣點,這將導(dǎo)致原始軌跡和壓縮后軌跡之間存在巨大的偏差。如果精度要求較高,即嚴(yán)格框定壓縮產(chǎn)生的信息損失,那么這些有損壓縮算法的壓縮率也會很低。最極端地,如果要求信息損失為零,這時有損壓縮等價于無損壓縮,則這些有損壓縮算法也會通用的無損壓縮算法一樣低效。
基于以上討論可知,限制數(shù)據(jù)壓縮率的關(guān)鍵因素,是軌跡數(shù)據(jù)的表示方法,而不是所采用的壓縮算法。事實上,熵編碼算法和字典式編碼算法都已被證明是最優(yōu)的壓縮算法,即它們都達(dá)到了信源的熵(或熵率)。在信息論中,信息熵衡量了信源的不確定性,信源不確定性越高,我們從信源輸出中得到的信息量就越多,也即需要更多的數(shù)據(jù)來編碼。考慮已有的軌跡三元組表示,它適用于表示二維空間中的任意軌跡。然而路網(wǎng)軌跡的形狀被道路嚴(yán)格限制,其不確定性明顯小于任意二維軌跡。換言之,原始的軌跡表示方法引入了不必要的不確定性(不必要的信息),這使得用原始三元組表示的軌跡數(shù)據(jù)難以被壓縮。
本發(fā)明通過降低數(shù)據(jù)維度(dimensionalityreduction)來去除數(shù)據(jù)中不必要的不確定性。假設(shè)將三維的軌跡數(shù)據(jù)(xi,yi,ti)轉(zhuǎn)而用二維形式(di,ti)表示,則其基礎(chǔ)壓縮率就已經(jīng)達(dá)到了1.5。注意這種轉(zhuǎn)換必須是無損的,即轉(zhuǎn)換前后數(shù)據(jù)之間必須存在一一對應(yīng)關(guān)系,否則等同于直接對數(shù)據(jù)用有損壓縮。在數(shù)據(jù)壓縮之前預(yù)先緩緩數(shù)據(jù)的表達(dá)形式,不僅直接提升了數(shù)據(jù)壓縮率,也使得數(shù)據(jù)易于被后續(xù)的壓縮算法處理。
原始軌跡中,采樣點(xi,yi,ti)表示在時間ti,目標(biāo)位于位置(xi,yi)。設(shè)(x1,y1)是軌跡的起始采樣點,從起始位置(x1,y1)到當(dāng)前位置(xi,yi)的距離di是確定的。相反,如果知道了從起始點開始的行程,對應(yīng)的位置(xi,yi)卻難以確定。故為了建立原始軌跡到分解后軌跡之間的一一對應(yīng)關(guān)系,還需要額外保存道路序列<e1,e2,…,em>,其中ei是E中的邊而m軌跡經(jīng)過的道路的數(shù)量。
至此,已經(jīng)將軌跡分解為兩部分,即空間數(shù)據(jù)——道路序列,時間數(shù)據(jù)——距離-時間序列,也即軌跡數(shù)據(jù)的新格式:軌跡T的道路序列是T在路網(wǎng)G=(V,E)中經(jīng)過的一系列連續(xù)道路,即SPT=<e1,e2,…,em>;(路網(wǎng)G=(V,E)中,V為圖頂點(即道路的交叉路口)集合,而E為連接圖頂點之間邊(即連接路口之間的路段)的集合;V=<v0,v1,v2,…,vm>,E=<e1,e2,…,em>,vi為有向邊邊ei-1的終點,或邊ei的起點。軌跡T的距離-時間序列是一系列(di,ti)二元組,其中di是目標(biāo)從出發(fā)點開始移動到時間ti為止的總距離,即TST=<(d1,t1),(d2,t2),…,(dn,tn)>。
給定任意路網(wǎng)軌跡T,將原始軌跡分解或是將分解軌跡還原都可以在O(|T|)時間內(nèi)完成。經(jīng)過數(shù)據(jù)分解之后,軌跡數(shù)據(jù)被轉(zhuǎn)化為道路序列和距離-時間序列。接下來,COMPRESS對道路序列用無損壓縮,而對距離-時間序列用有損壓縮。之所以對道路序列用無損壓縮,是因為道路序列是整數(shù)序列,其信息熵較低;而距離-時間序列仍然是實數(shù)數(shù)據(jù),其信息上依舊較高,所以需要用有損壓縮。
根據(jù)上述分析,本發(fā)明提出的重新表示路網(wǎng)軌跡數(shù)據(jù)的方法,是將路網(wǎng)軌跡數(shù)據(jù)分解為空間數(shù)據(jù)和時間數(shù)據(jù)兩部分;其中:
(1)原始GPS采樣軌跡格式為T=<(x1,y1,t1),(x2,y2,t2),…,(xn,yn,tn)>,其中采樣點(xi,yi,ti)表示在時間ti,移動目標(biāo)位于二維坐標(biāo)位置(xi,yi),坐標(biāo)值xi,yi和時間戳ti均為實數(shù)數(shù)據(jù);
(2)將軌跡分解為兩部分:空間數(shù)據(jù)和時間數(shù)據(jù);
所述空間數(shù)據(jù)為道路編號序列,用于表征軌跡的空間形狀;
所述時間數(shù)據(jù)為距離-時間二元組序列,用于表征軌跡速度變化;
所述道路編號序列具體表示行式為:
(1)經(jīng)過地圖匹配后的軌跡數(shù)據(jù)不再含有GPS采樣誤差,即軌跡點都被修正,采樣點位置距離對應(yīng)地圖道路不存在偏差;
(2)地圖匹配后每個采樣點都在地圖道路上,因此可以得到采樣點對應(yīng)的道路編號。原采樣點序列對應(yīng)的道路編號序列SPT=<e1,e2,…,em>,即為分解后的空間數(shù)據(jù);其中ei是E中的邊,m為軌跡經(jīng)過的道路的數(shù)量;
(3)也可用地圖的頂點序列來表示空間數(shù)據(jù),即SPT=<v0,v1,v2,…,vm>,其中vi為有向邊邊ei-1的終點,或邊ei的起點,用頂點表示道路序列和用邊表示是等價的。
所述距離-時間二元組序列表示形式為:(di,ti),di是目標(biāo)從出發(fā)點開始移動到時間ti為止的總距離,即二元組序列TST=<(d1,t1),(d2,t2),…,(dn,tn)>作為分解后的時間數(shù)據(jù)。
將原始軌跡分解為上述格式的軌跡分解方法,具體步驟為:
(1)對輸入軌跡經(jīng)過地圖匹配,使每個采樣點都對應(yīng)到道路上;
(2)輸出每個采樣點(xi,yi,ti)對應(yīng)的道路編號ei,對于連續(xù)的重復(fù)項,只保留其中一項;
(3)計算軌跡每相鄰兩個采樣點(xi-1,yi-1)和(xi,yi)在道路網(wǎng)絡(luò)中經(jīng)過的距離,記作li,其中,作l1=0;
(4)對于每個采樣點(xi,yi,ti),輸出作為距離-時間二元組(di,ti)中的di,而時間戳不變。
軌跡計算中,本發(fā)明方法可減少數(shù)據(jù)庫中軌跡存儲和查詢代價。
附圖說明
圖1為樣例道路網(wǎng)路,包含12個路口和17條道路。
圖2為路網(wǎng)上的兩條樣例軌跡。
具體實施方式
下面結(jié)合實例道路網(wǎng)絡(luò)和軌跡來介紹數(shù)據(jù)格式和軌跡分解方法。
如圖1所示,給定道路網(wǎng)絡(luò)包含12個頂點(路口)和17條邊(道路)??紤]軌跡1(藍(lán)色軌跡),由于軌跡都已經(jīng)過地圖匹配,所以所有的采樣點均已對應(yīng)到道路上。在圖2中,采樣點11對應(yīng)邊15;采樣點12對應(yīng)邊16;采樣點13對應(yīng)邊13;采樣點14對應(yīng)邊16;采樣點15對應(yīng)邊3。注意如果采樣點恰好落在路口處,則應(yīng)該統(tǒng)一取后一條邊而不是前一條邊作為對應(yīng)的道路序列項,如采樣點13對應(yīng)邊13而不是16。所以1的道路序列SP1=<e15,e16,e13,e6,e3>。
為了計算對應(yīng)的距離-時間序列,需要應(yīng)用軌跡分解方法。根據(jù)計算得到的道路序列和道路形狀,可以依次計算兩個采樣點之間的路網(wǎng)距離,如圖1中,11和12之間的距離為(15)+Δ11,其中(15)為道路15的總長度,Δ11為12距離16起始點的距離。為了計算相鄰兩點之間的距離,需要知道道路的地理形狀,一般道路網(wǎng)絡(luò)中的道路都存儲為一條折線,包含若干二維坐標(biāo)點,將這些二維坐標(biāo)點依次鏈接即可模擬實際道路的形狀。根據(jù)道路形狀即可計算落在道路上的采樣點之間的距離,僅需根據(jù)二維坐標(biāo)計算歐式距離或者球面距離(用經(jīng)緯度坐標(biāo)時)即可。如圖1中,11和12之間的距離為1=(15)+Δ11;12和13之間的距離為:2=(16)-Δ11;13和14之間的距離為3=(13)+Δ12;t14和t15之間的距離為l4=w(e6)-Δ12+Δ13。
接下來根據(jù)軌跡分解方法中累加得到:
實際上為了方便處理時間數(shù)據(jù),可以用第一個采樣點所在道路的起始點作為整條軌跡的起始點,如圖2中的T2(紅色軌跡),我們計算采樣點距離v5的距離來替代采樣點距離t21的距離。所以得到而時間數(shù)據(jù)