一種重新表示路網(wǎng)軌跡數(shù)據(jù)的方法與流程

文檔序號：11134108閱讀：585來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于軌跡數(shù)據(jù)計算技術(shù)領(lǐng)域，具體涉及一種重新表示路網(wǎng)軌跡數(shù)據(jù)的方法。

背景技術(shù)：

軌跡數(shù)據(jù)是一種基本的時空數(shù)據(jù)，通常定義為位置關(guān)于時間的函數(shù)。經(jīng)車載定位設(shè)備采樣得到的軌跡點用(x，y，t)三元組表示，其中x和y分別為經(jīng)度和緯度，而t為該采樣點的時間戳。于是原始路網(wǎng)軌跡可用一個三元組序列表示，即<(x₁，y₁，t₁)，(x₂，y₂，t₂），…，(x_n，y_n，t_n)>,其中，n即為軌跡的長度，而(x_i，y_i)是車輛在t_i時刻的位置。隨著車載定位設(shè)備的普及，城市中車輛產(chǎn)生了海量的路網(wǎng)軌跡。這些路網(wǎng)軌跡數(shù)據(jù)承載了大量信息，在分析城市交通狀況、挖掘人的行為模式和預(yù)測車輛流動方向等問題中常作為重要決策依據(jù)和信息來源。城市路網(wǎng)用一個有向圖G＝(V，E)表示，其中V為道路的交叉點集合，而E為路口之間的路段集合。

數(shù)據(jù)壓縮算法分為無損壓縮和有損壓縮兩類。無損壓縮不產(chǎn)生信息損失，即壓縮后數(shù)據(jù)可以完全還原為原始數(shù)據(jù)；相反有損壓縮通過直接舍棄數(shù)據(jù)中不影響精度要求的部分，來達(dá)到更高的壓縮率，但是壓ω縮后數(shù)據(jù)存在信息損失。無損壓縮算法又分為熵編碼和字典式編碼兩種。常用的熵編碼有Huffman編碼和算術(shù)編碼；字典式編碼常用Lempel-Ziv編碼及衍生出的其他算法。有損壓縮算法是針對某些特殊數(shù)據(jù)設(shè)計的專門算法，例如對于圖像的JPEG壓縮和對于音頻的MPEG壓縮，和無損壓縮不同，這些方法只針對特定的數(shù)據(jù)(如圖像和音頻)。針對一般軌跡數(shù)據(jù)和路網(wǎng)軌跡數(shù)據(jù)，也有特定的有損壓縮算法，這些方法通常直接刪除原始軌跡中不影響數(shù)據(jù)精度的采樣點。

原始路網(wǎng)軌跡數(shù)據(jù)由于是從移動定位設(shè)備采樣得到，通常表為一個三元組序列T＝〈(x₁，y₁，t₁)，(x₂，y₂，t₂)，…，(x_n，y_n，t_n)〉，然而這種表示包含了不必要的冗余，不利于數(shù)據(jù)壓縮。根據(jù)原始數(shù)據(jù)表示方法的局限性，我提出一種新的軌跡格式和一種對應(yīng)的數(shù)據(jù)分解方法來直接減少數(shù)據(jù)冗余，使其易于被壓縮算法處理。

技術(shù)實現(xiàn)要素：

壓縮率是衡量數(shù)據(jù)壓縮算法性能的關(guān)鍵指標(biāo)之一，通常被定義為原始數(shù)據(jù)和壓縮后數(shù)據(jù)大小的比值。給定原始軌跡T，設(shè)其大小為|T|；而壓縮后軌跡為T^c,大小為|T^c|，則壓縮率為例如，原始數(shù)據(jù)大小為2KB，而壓縮后數(shù)據(jù)大小為1KB，則數(shù)據(jù)壓縮率為2。

首先考慮在原始軌跡上使用通用的無損壓縮算法(sourcecoding)。如果我們直接對原始軌跡數(shù)據(jù)使用經(jīng)典的無損壓縮算法，由于數(shù)據(jù)壓縮的理論背景是信息論，從信息熵的角度來分析對于軌跡數(shù)據(jù)壓縮問題，可以證明，無論是熵編碼還是字典式編碼，當(dāng)實數(shù)數(shù)據(jù)的精度提升時，算法對于軌跡數(shù)據(jù)的壓縮率都將變得很低。

定理：當(dāng)實數(shù)數(shù)據(jù)的精度提升時，熵編碼和字典式編碼對于軌跡數(shù)據(jù)的壓縮率都趨向于1。

證明：首先我們證明熵編碼對于高精度實數(shù)數(shù)據(jù)是低效的。設(shè)X為一連續(xù)分布，其概率密度函數(shù)為p(x)。為了計算X的熵，我們首先將X的樣本空間ω＝[a，b)等分為n份，每個小區(qū)間的長度為Δ＝(b-a)/n。設(shè)[a，b)被分為{[a＝x₀，x₁)，[x₁，x₂)，…[x_n-1，x_n＝b)}，x落在每一區(qū)間內(nèi)的概率構(gòu)成了離散分布，其概率分布列可用積分計算：

根據(jù)積分中值定理，必然存在使得：

換言之，該離散分布的熵為

如果函數(shù)p(x)log p(x)黎曼可積，則有

其中，h(X)是連續(xù)分布X的微分熵。

上述等式中的n就是數(shù)據(jù)的精度，因為區(qū)間劃分越細(xì)，用以表示不同數(shù)據(jù)的符號就越多，即數(shù)據(jù)的精度越高。如果不對數(shù)據(jù)作壓縮，我們可以直接用比特來存儲每一個符號。根據(jù)Shannon的信源編碼定理以及熵編碼算法的最優(yōu)性，當(dāng)n趨向于無窮時，對于數(shù)據(jù)壓縮率r有：

綜上所述，當(dāng)數(shù)據(jù)精度提升時，熵編碼的壓縮率將趨近于1，即無法壓縮數(shù)據(jù)。

和熵編碼不同，為了計算字典式編碼的壓縮效果，需要分析信源分布的聯(lián)合熵，但是證明的過程是類似的。給定任意k個字符，設(shè)p(x₁，x₂，…x_k)是X₁，X₂，…X_k的聯(lián)合概率密度函數(shù)。則最優(yōu)平均編碼長度L_k必然滿足：

即我們需要至少H(X₁，X₂，…X_k)比特來表示k個字符。

類似地，我們將采樣空間ω＝[a₁，b₁)×[a₂，b₂)×…[a_k，b_k)劃分為n^k部分，每一塊的大小為然后計算離散分布的熵為：

所以，如果有k項數(shù)據(jù)，且它們的精度為n，則至少需要HΔ(X₁，X₂，…X_k)比特來編碼這些數(shù)據(jù)。如果p(x₁，x₂，…x_k)log p(x₁，x₂，…x_k)黎曼可積，則還有：

其中，h(X₁，X₂，…X_k)是聯(lián)合微分熵。最后我們可以計算壓縮率r：

證畢。

雖然有損壓縮算法可以達(dá)到很高的壓縮率，但是要以犧牲數(shù)據(jù)的精度為代價。大部分已有算法直接從原始軌跡中刪除采樣點，這將導(dǎo)致原始軌跡和壓縮后軌跡之間存在巨大的偏差。如果精度要求較高，即嚴(yán)格框定壓縮產(chǎn)生的信息損失，那么這些有損壓縮算法的壓縮率也會很低。最極端地，如果要求信息損失為零，這時有損壓縮等價于無損壓縮，則這些有損壓縮算法也會通用的無損壓縮算法一樣低效。

基于以上討論可知，限制數(shù)據(jù)壓縮率的關(guān)鍵因素，是軌跡數(shù)據(jù)的表示方法，而不是所采用的壓縮算法。事實上，熵編碼算法和字典式編碼算法都已被證明是最優(yōu)的壓縮算法，即它們都達(dá)到了信源的熵(或熵率)。在信息論中，信息熵衡量了信源的不確定性，信源不確定性越高，我們從信源輸出中得到的信息量就越多，也即需要更多的數(shù)據(jù)來編碼。考慮已有的軌跡三元組表示，它適用于表示二維空間中的任意軌跡。然而路網(wǎng)軌跡的形狀被道路嚴(yán)格限制，其不確定性明顯小于任意二維軌跡。換言之，原始的軌跡表示方法引入了不必要的不確定性(不必要的信息)，這使得用原始三元組表示的軌跡數(shù)據(jù)難以被壓縮。

本發(fā)明通過降低數(shù)據(jù)維度(dimensionalityreduction)來去除數(shù)據(jù)中不必要的不確定性。假設(shè)將三維的軌跡數(shù)據(jù)(x_i，y_i，t_i)轉(zhuǎn)而用二維形式(d_i，t_i)表示，則其基礎(chǔ)壓縮率就已經(jīng)達(dá)到了1.5。注意這種轉(zhuǎn)換必須是無損的，即轉(zhuǎn)換前后數(shù)據(jù)之間必須存在一一對應(yīng)關(guān)系，否則等同于直接對數(shù)據(jù)用有損壓縮。在數(shù)據(jù)壓縮之前預(yù)先緩緩數(shù)據(jù)的表達(dá)形式，不僅直接提升了數(shù)據(jù)壓縮率，也使得數(shù)據(jù)易于被后續(xù)的壓縮算法處理。

原始軌跡中，采樣點(x_i，y_i，t_i)表示在時間t_i，目標(biāo)位于位置(x_i，y_i)。設(shè)(x₁，y₁)是軌跡的起始采樣點，從起始位置(x₁，y₁)到當(dāng)前位置(x_i，y_i)的距離d_i是確定的。相反，如果知道了從起始點開始的行程，對應(yīng)的位置(x_i，y_i)卻難以確定。故為了建立原始軌跡到分解后軌跡之間的一一對應(yīng)關(guān)系，還需要額外保存道路序列<e₁，e₂，…，e_m>，其中e_i是E中的邊而m軌跡經(jīng)過的道路的數(shù)量。

至此，已經(jīng)將軌跡分解為兩部分，即空間數(shù)據(jù)——道路序列，時間數(shù)據(jù)——距離-時間序列，也即軌跡數(shù)據(jù)的新格式：軌跡T的道路序列是T在路網(wǎng)G＝(V，E)中經(jīng)過的一系列連續(xù)道路，即SP_T＝<e₁，e₂，…，e_m>；(路網(wǎng)G＝(V，E)中，V為圖頂點(即道路的交叉路口)集合，而E為連接圖頂點之間邊(即連接路口之間的路段)的集合；V＝<v₀，v₁，v₂，…，v_m>，E＝<e₁，e₂，…，e_m>，v_i為有向邊邊e_i-1的終點，或邊e_i的起點。軌跡T的距離-時間序列是一系列(d_i，t_i)二元組，其中d_i是目標(biāo)從出發(fā)點開始移動到時間t_i為止的總距離，即TS_T＝<(d₁，t₁)，(d₂，t₂)，…，(d_n，t_n)>。

給定任意路網(wǎng)軌跡T，將原始軌跡分解或是將分解軌跡還原都可以在O(|T|)時間內(nèi)完成。經(jīng)過數(shù)據(jù)分解之后，軌跡數(shù)據(jù)被轉(zhuǎn)化為道路序列和距離-時間序列。接下來，COMPRESS對道路序列用無損壓縮，而對距離-時間序列用有損壓縮。之所以對道路序列用無損壓縮，是因為道路序列是整數(shù)序列，其信息熵較低；而距離-時間序列仍然是實數(shù)數(shù)據(jù)，其信息上依舊較高，所以需要用有損壓縮。

根據(jù)上述分析，本發(fā)明提出的重新表示路網(wǎng)軌跡數(shù)據(jù)的方法，是將路網(wǎng)軌跡數(shù)據(jù)分解為空間數(shù)據(jù)和時間數(shù)據(jù)兩部分；其中：

(1)原始GPS采樣軌跡格式為T＝<(x₁，y₁，t₁)，(x₂，y₂，t₂)，…，(x_n，y_n，t_n)>，其中采樣點(x_i，y_i，t_i)表示在時間t_i，移動目標(biāo)位于二維坐標(biāo)位置(x_i，y_i)，坐標(biāo)值x_i，y_i和時間戳t_i均為實數(shù)數(shù)據(jù)；

(2)將軌跡分解為兩部分：空間數(shù)據(jù)和時間數(shù)據(jù)；

所述空間數(shù)據(jù)為道路編號序列，用于表征軌跡的空間形狀；

所述時間數(shù)據(jù)為距離-時間二元組序列，用于表征軌跡速度變化；

所述道路編號序列具體表示行式為：

(1)經(jīng)過地圖匹配后的軌跡數(shù)據(jù)不再含有GPS采樣誤差，即軌跡點都被修正，采樣點位置距離對應(yīng)地圖道路不存在偏差；

(2)地圖匹配后每個采樣點都在地圖道路上，因此可以得到采樣點對應(yīng)的道路編號。原采樣點序列對應(yīng)的道路編號序列SP_T＝<e₁，e₂，…，e_m>，即為分解后的空間數(shù)據(jù)；其中e_i是E中的邊，m為軌跡經(jīng)過的道路的數(shù)量；

(3)也可用地圖的頂點序列來表示空間數(shù)據(jù)，即SP_T＝<v₀，v₁，v₂，…，v_m>，其中v_i為有向邊邊e_i-1的終點，或邊e_i的起點，用頂點表示道路序列和用邊表示是等價的。

所述距離-時間二元組序列表示形式為：(d_i，t_i)，d_i是目標(biāo)從出發(fā)點開始移動到時間t_i為止的總距離，即二元組序列TS_T＝<(d₁，t₁)，(d₂，t₂)，…，(d_n，t_n)>作為分解后的時間數(shù)據(jù)。

將原始軌跡分解為上述格式的軌跡分解方法，具體步驟為：

(1)對輸入軌跡經(jīng)過地圖匹配，使每個采樣點都對應(yīng)到道路上；

(2)輸出每個采樣點(x_i，y_i，t_i)對應(yīng)的道路編號e_i，對于連續(xù)的重復(fù)項，只保留其中一項；

(3)計算軌跡每相鄰兩個采樣點(x_i-1，y_i-1)和(x_i，y_i)在道路網(wǎng)絡(luò)中經(jīng)過的距離，記作l_i,其中，作l₁＝0；

(4)對于每個采樣點(x_i，y_i，t_i)，輸出作為距離-時間二元組(d_i，t_i)中的d_i,而時間戳不變。

軌跡計算中，本發(fā)明方法可減少數(shù)據(jù)庫中軌跡存儲和查詢代價。

附圖說明

圖1為樣例道路網(wǎng)路，包含12個路口和17條道路。

圖2為路網(wǎng)上的兩條樣例軌跡。

具體實施方式

下面結(jié)合實例道路網(wǎng)絡(luò)和軌跡來介紹數(shù)據(jù)格式和軌跡分解方法。

如圖1所示，給定道路網(wǎng)絡(luò)包含12個頂點(路口)和17條邊(道路)?？紤]軌跡1(藍(lán)色軌跡)，由于軌跡都已經(jīng)過地圖匹配，所以所有的采樣點均已對應(yīng)到道路上。在圖2中，采樣點₁₁對應(yīng)邊₁₅；采樣點₁₂對應(yīng)邊₁₆；采樣點₁₃對應(yīng)邊₁₃；采樣點₁₄對應(yīng)邊₁₆；采樣點₁₅對應(yīng)邊₃。注意如果采樣點恰好落在路口處，則應(yīng)該統(tǒng)一取后一條邊而不是前一條邊作為對應(yīng)的道路序列項，如采樣點₁₃對應(yīng)邊₁₃而不是₁₆。所以₁的道路序列SP₁＝<e₁₅，e₁₆，e₁₃，e₆，e₃>。

為了計算對應(yīng)的距離-時間序列，需要應(yīng)用軌跡分解方法。根據(jù)計算得到的道路序列和道路形狀，可以依次計算兩個采樣點之間的路網(wǎng)距離，如圖1中，₁₁和₁₂之間的距離為(₁₅)+Δ₁₁，其中(₁₅)為道路₁₅的總長度，Δ₁₁為₁₂距離₁₆起始點的距離。為了計算相鄰兩點之間的距離，需要知道道路的地理形狀，一般道路網(wǎng)絡(luò)中的道路都存儲為一條折線，包含若干二維坐標(biāo)點，將這些二維坐標(biāo)點依次鏈接即可模擬實際道路的形狀。根據(jù)道路形狀即可計算落在道路上的采樣點之間的距離，僅需根據(jù)二維坐標(biāo)計算歐式距離或者球面距離(用經(jīng)緯度坐標(biāo)時)即可。如圖1中，₁₁和₁₂之間的距離為₁＝(₁₅)+Δ₁₁；₁₂和₁₃之間的距離為：₂＝(₁₆)-Δ₁₁；₁₃和₁₄之間的距離為₃＝(₁₃)+Δ₁₂；t₁₄和t₁₅之間的距離為l₄＝w(e₆)-Δ₁₂+Δ₁₃。

接下來根據(jù)軌跡分解方法中累加得到：

實際上為了方便處理時間數(shù)據(jù)，可以用第一個采樣點所在道路的起始點作為整條軌跡的起始點，如圖2中的T₂(紅色軌跡)，我們計算采樣點距離v₅的距離來替代采樣點距離t₂₁的距離。所以得到而時間數(shù)據(jù)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫未未;韓韻衡;
技術(shù)所有人：復(fù)旦大學(xué);
我是此專利的發(fā)明人

上一篇：一種基于Hadoop平臺的電影推薦方法與制造工藝
上一篇：基于人工智能的搜索方法和裝置與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

用戶行為軌跡數(shù)據(jù)分析相關(guān)技術(shù)

軌跡數(shù)據(jù)相關(guān)技術(shù)

軌跡數(shù)據(jù)挖掘相關(guān)技術(shù)

出租車軌跡數(shù)據(jù)相關(guān)技術(shù)

出租車軌跡數(shù)據(jù)集下載相關(guān)技術(shù)

軌跡數(shù)據(jù)可視化相關(guān)技術(shù)

出租車gps軌跡數(shù)據(jù)集相關(guān)技術(shù)