本發(fā)明涉及可視分析技術領域,尤其涉及一種異構城市數(shù)據(jù)的個體人際關系可視推理方法。
背景技術:
城市數(shù)據(jù)在道路交通規(guī)劃和預測、人群移動模式分析、空氣污染監(jiān)測、基于位置的服務推薦等方面有廣泛的應用,卻很少有個體人際關系的推理應用,因為個體移動往往具有不確定性,個體人際關系就更加難以通過自動化算法得到。已有人際關系相關工作的主要通過確定的關系提取,如打電話關系、社交網(wǎng)絡好友關系、微博轉發(fā)關系等。個體和其他人的同行關系也是重要的能表達真實社會社交關系的線索,卻因為缺乏支持的數(shù)據(jù)難以挖掘。
即便有了數(shù)據(jù)支持,單憑同行時間的長短去判斷兩個個體人際關系親疏也是缺乏依據(jù)的。因此需要用戶智能的人工干預來判斷軌跡的類型和重要程度,如對于家人的判斷就需要節(jié)假日軌跡和夜間軌跡的雙重匹配。數(shù)據(jù)驅動的人際關系判斷一定要結合機器智能(查詢匹配)和用戶智能(決策判斷)。因此需要一種從城市數(shù)據(jù)中推理個體人際關系的方法。
技術實現(xiàn)要素:
本發(fā)明提供了一種異構城市數(shù)據(jù)的個體人際關系可視推理方法,將城市數(shù)據(jù)中人的移動模式的分析和匹配以可視化方法和交互方式加以表達和引導,輔助分析師推理出和分析目標相關的人際關系。
一種異構城市數(shù)據(jù)的個體人際關系可視推理方法,包括以下步驟:
(1)獲取不同來源和格式的帶地理位置信息的數(shù)據(jù);
(2)將步驟(1)中數(shù)據(jù)的城市區(qū)域編碼為四叉樹區(qū)域,將地理位置信息根據(jù)其在城市中的經(jīng)緯度位置以四叉樹編碼;目標在任一段時期的位置可以表示為r(ts;te;sr),表示從開始時間到結束時間ts-te,該目標在位置sr。
(3)將經(jīng)過步驟(2)編碼的數(shù)據(jù)針對特點進行分類存儲;
(4)對步驟(3)中的地理位置信息進行統(tǒng)一的時空和軌跡匹配;
(5)從步驟(1)的數(shù)據(jù)中選擇分析目標;
(6)根據(jù)蹤跡時間線圖確定分析目標的移動模式;
(7)根據(jù)分析目標的移動模式,通過軌跡匹配確定分析目標的不同類型的人際關系;
(8)對于步驟(7)中得到的最佳匹配對象,通過分析最佳匹配對象和目標的所有軌跡匹配情況來驗證兩者的人際關系。
針對數(shù)據(jù)特點(數(shù)據(jù)稀疏性、采樣頻率、數(shù)據(jù)量)分別以數(shù)據(jù)庫、文件等形式存儲數(shù)據(jù)(包括四叉樹編碼之后的地理位置信息和其它信息),優(yōu)選的,步驟(3)中,出租車數(shù)據(jù)經(jīng)過四叉樹編碼之后按出租車索引以時間順序存入本地文件;
微博、poi和手機數(shù)據(jù)存入數(shù)據(jù)庫中,微博、poi和手機數(shù)據(jù)由于一般數(shù)據(jù)量較大(幾十g甚至上t),這些數(shù)據(jù)被存入數(shù)據(jù)庫,并對時間、空間等字段進行索引,能夠提高數(shù)據(jù)的查詢效率。
優(yōu)選的,步驟(4)中,對步驟(3)中的地理位置信息進行統(tǒng)一的時空和軌跡匹配的具體方法如下:
對于時空匹配c(t,sc),包括一個時間變量t和一個地理空間位置sc,若某一個目標在時間t所處的位置與sc相近,則該目標滿足該時空匹配;
對于由n個軌跡段構成的軌跡r={r1,r2,...,rn}的匹配,軌跡r和某一個目標軌跡的匹配程度由兩兩軌跡段匹配的總時長確定。記tsi為目標進入某地理空間位置的時間,tei為該目標離開該地理空間位置的時間,則兩兩位置匹配在位置能夠匹配的前提下由相應的時間交集確定,即目標i和j中最早離開該地理空間位置的時間min(tei,tej)減去目標i和j中最晚進入該地理空間位置的時間min(tsi,tsj),定義為min(tei,tej)-max(tsi,tsj)。
優(yōu)選的,步驟(6)中,根據(jù)蹤跡時間線圖確定分析目標的移動模式的具體步驟為:
對于手機類型目標,蹤跡時間線圖可視編碼了目標移動的規(guī)律,包括經(jīng)常停留的地方和停留時長;
對于從出租車類型目標,蹤跡時間線圖可視編碼了目標載客情況和時長,而非地點停留,該編碼可以避免過多的地點顏色使用,并表現(xiàn)出租車的載客行為。
優(yōu)選的,步驟(7)中,通過軌跡匹配確定分析目標的不同類型的人際關系的具體步驟為:
7-1、在家附近的軌跡匹配對應家人和鄰居,在工作地點附近的軌跡匹配對應同事和工作地點附近的人,疊加多次軌跡匹配的結果,如匹配家附近的軌跡疊加匹配周末出行軌跡;
7-2、調整匹配規(guī)則的權重、順序和標注,對匹配結果進行排序;
7-3、刪除某個匹配規(guī)則的結果;
7-4、將新匹配規(guī)則的結果和已有結果進行替換;
7-5、得到符合多個匹配規(guī)則的最佳匹配對象。
用戶能夠發(fā)現(xiàn)最佳匹配對象,并直觀地觀察到每個匹配對象的針對每個匹配規(guī)則的匹配程度,方便其對目標以及匹配對象的行為進行分析。
優(yōu)選的,步驟(1)中,所述數(shù)據(jù)包括微博數(shù)據(jù)、出租車數(shù)據(jù)、手機位置數(shù)據(jù)和poi數(shù)據(jù)中的至少兩種。
可以在步驟(4)后增加新聞、地圖等數(shù)據(jù)作為上下文信息。
新聞和地圖等數(shù)據(jù)往往帶有豐富語義信息,方便用戶對行為進行解釋和分析。
本發(fā)明的有益效果:
本發(fā)明的異構城市數(shù)據(jù)的個體人際關系可視推理方法能夠通過可視交互作為系統(tǒng)輸入加入決策和分析過程,對目標生活模式分析、人際關系分析、人際關系驗證等方面起決定性作用。
附圖說明
圖1是步驟(4)位置匹配和軌跡匹配的示意圖。
圖2是步驟(6)定位分析目標的示意圖。
圖3是步驟(6)可視推理的示意圖。
圖4是步驟(7)在地圖上表達手機類型目標的蹤跡時間線圖的示意圖。
圖5是步驟(7)在地圖上表達出租車類型目標的蹤跡時間線圖的示意圖。
圖6是步驟(7)中目標的移動在地圖上被標注出來的示意圖。
圖7是步驟(8)通過軌跡匹配分析目標不同類型的人際關系的示意圖。
圖8是步驟(8)通過軌跡匹配分析目標不同類型的人際關系的示意圖。
圖9是步驟(9)中目標人際關系的概覽圖。
圖10是步驟(9)中目標人際關系的細節(jié)圖。
具體實施方式
下面通過城市數(shù)據(jù)集的案例,結合附圖詳細描述本發(fā)明,本發(fā)明的目的和效果將變得更加明顯。
本實施例的異構城市數(shù)據(jù)的個體人際關系可視推理方法包括數(shù)據(jù)處理部分和可視推理部分。
數(shù)據(jù)處理部分:
(1)獲取不同來源不同格式的帶地理位置信息的數(shù)據(jù)(微博數(shù)據(jù)、出租車數(shù)據(jù)、手機位置數(shù)據(jù)、poi數(shù)據(jù)等);
(2)將城市區(qū)域編碼為四叉樹區(qū)域,將地理位置信息數(shù)據(jù)根據(jù)其在城市中的經(jīng)緯度位置同樣以四叉樹編碼。目標在任一段時期的位置可以表示為r(ts;te;sr)表示從開始時間到結束時間ts-te,該目標在位置sr。
(3)針對數(shù)據(jù)特點(數(shù)據(jù)稀疏性、采樣頻率、數(shù)據(jù)量)分別以數(shù)據(jù)庫、文件等形式存儲數(shù)據(jù)(包括四叉樹編碼之后的地理位置信息和其它信息)。本案例中的出租車數(shù)據(jù)經(jīng)過四叉樹編碼之后按出租車索引以時間順序存入本地文件,微博、poi和手機數(shù)據(jù)存入數(shù)據(jù)庫。
(4)對步驟(3)中的地理位置信息數(shù)據(jù)設計統(tǒng)一的時空、軌跡匹配方法,如圖1所示,其中t為時間,l為地理空間位置,c為時空匹配,對于時空匹配c(t,sc),包括一個時間變量t和一個地理空間位置sc,若某一個目標在時間t所處的位置與sc相近,則該目標滿足該時空匹配;
對于一段由n個軌跡段構成的軌跡r={r1,r2,...,rn}的匹配,軌跡r和某一個目標軌跡的匹配程度由兩兩軌跡段匹配的總時長確定。記tsi為目標進入某地理空間位置的時間,tei為該目標離開該地理空間位置的時間,則兩兩位置匹配在位置能夠匹配的前提下由相應的時間交集確定,即目標i和j中最早離開該地理空間位置的時間(min(tei,tej))減去目標i和j中最晚進入該地理空間位置的時間(min(tsi,tsj)),定義為min(tei,tej)-max(tsi,tsj);也就是說,對于兩個對象的兩段軌跡,在時間、空間均有重合的情況下,匹配程度由時空重合的持續(xù)時間決定。
(5)增加新聞、地圖等數(shù)據(jù)作為上下文信息。
可視推理部分:
(6)首先從數(shù)據(jù)(微博數(shù)據(jù)、出租車數(shù)據(jù)、手機位置數(shù)據(jù))中選擇推理起點:挑選分析目標,如圖2所示:可以挑選某一個微博賬號、某一輛出租車,或是根據(jù)給定的時空匹配找到分析目標;可以預覽目標的移動軌跡,如圖3所示,來驗證某個手機是否和某個微博賬號或是某個時空條件匹配;
(7)確定分析目標之后,根據(jù)蹤跡時間線圖分析目標的移動模式:對于手機類型目標,如圖4所示,該圖可視編碼了目標移動的規(guī)律,包括經(jīng)常停留的地方和停留時長,a、b和e是其中的3個地方,圓環(huán)的神色區(qū)域表達該目標在這些地方停留的時間和時長;而對于從出租車類型目標,如圖5所示,該圖可視編碼了目標載客情況和時長。通過移動規(guī)律的分析,可以定位目標的活動范圍,如家和工作地點等。目標的移動可以同時在地圖上被標注出來,如圖6所示,方便查看和分析;
(8)根據(jù)目標的移動模式,可以通過軌跡匹配分析目標不同類型的人際關系,在家附近的軌跡匹配往往對應了家人和鄰居,在工作地點附近的軌跡匹配一般對應了同事和工作地點附近的人??梢辕B加多次軌跡匹配的結果,如匹配家附近的軌跡疊加匹配周末出行軌跡;可以調整匹配規(guī)則的權重、順序和標注,對匹配結果進行排序;可以刪除某個匹配規(guī)則的結果;也可以將新匹配規(guī)則的結果(如圖7所示)或者已有結果(如圖8所示)進行替換。最終目的是找到符合多個匹配規(guī)則的最佳匹配對象。
(9)對于得到的最佳匹配對象,可以通過分析他們和目標的所有軌跡匹配情況來驗證他們的人際關系。對于分析后確認的人際關系,可以在圖7和8中標注他們的關系,圖9和圖10分別表達了目標人際關系的概覽圖和細節(jié)圖,圖9的顏色深度表達每個時段和目標軌跡相匹配的人數(shù),圖10的顏色則表達匹配對象和目標在對應時間段是否匹配。
本實施例方法借助可視化方法和交互方法,結合機器智能和用戶智能,解決分析目標生活模式分析、人際關系分析、人際關系驗證三大問題。對于本城市數(shù)據(jù)集案例,該方法定位分析目標、分析目標的生活軌跡,提取重要軌跡尋找對應匹配的關系人,驗證目標與關系人的關系。通過這一系列的步驟該方法能夠分析目標的重要關系人及其關系密切程度。