一種行為軌跡的表示、查詢方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及空間數(shù)據(jù)庫領(lǐng)域,尤其涉及一種行為軌跡的表示、查詢方法及裝置。
【背景技術(shù)】
[0002] 隨著近年來移動互聯(lián)技術(shù)的進步,基于移動端的社交網(wǎng)絡(luò)(Mobile Social Networks)得到了爆炸式發(fā)展。上億的用戶通過智能手機在這些網(wǎng)站分享自己的位置信息, 因而產(chǎn)生了大量的地理標記數(shù)據(jù)。例如,新浪微博用戶可以向好友分享自己的位置、評論和 照片;Foursquare允許用戶對其訪問的場館進行簽到和點評;Flickr對用戶上傳的照片做 自動/手工的地理標注。從時空線索來看,這些序列化的帶有位置信息的用戶行為記錄,可 以被視為行為軌跡(Activity Trajectory)。例如,某用戶發(fā)布的一序列帶有位置信息的微 博、Tweets 等。
[0003] 與傳統(tǒng)的移動對象時空軌跡(Spatio-temporal Trajectory)不同,行為軌跡數(shù)據(jù) 不光含有時間信息和空間信息,還蘊含著豐富的用戶行為信息:人們所做的、想的、感受到 的。所以人們提出:將各個用戶的行為軌跡組成數(shù)據(jù)庫,以便在其他用戶需要時,系統(tǒng)可以 通過數(shù)據(jù)分析和索引,為其推薦能夠滿足用戶活動需求的服務(wù)。
[0004] 現(xiàn)有的索引方法主要針對軌跡的時空特性,機械地將關(guān)鍵字視為文本字符,未能 理解軌跡中用戶行為的具體語義和聯(lián)系,無法根據(jù)用戶意圖做準確的搜索和推薦。即現(xiàn)有 的空間關(guān)鍵字處理技術(shù)在文本信息方面均注重于"形",無法支持對行為描述的有效理解。 例如:查詢"喝咖啡"與軌跡描述"星巴克"被認為毫不相關(guān),雖然他們的語義高度一致。
[0005] 為了解決上述問題,需要提出一種行為軌跡的表示方法,克服現(xiàn)有技術(shù)中著重于 "形"的缺陷,以便對行為描述進行有效理解。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供了一種行為軌跡的表示、查詢方法及裝置,本發(fā)明能夠克服現(xiàn)有技術(shù) 中著重于"形"的缺陷,以便對行為描述進行有效理解。
[0007] 本發(fā)明提出一種行為軌跡表示方法,預(yù)先采用LDA主題模型學(xué)習(xí)得到每個關(guān)鍵字 在主題空間中的概率分布,通過聚集函數(shù)生成每個查詢的文本描述的主題分布,對于給定 的兩個文本信息,可以通過它們的高維度主題分布來度量其語義的相似性。本發(fā)明能夠在 語義層次(即主題分布)度量行為軌跡和查詢意圖的相關(guān)性,解決了傳統(tǒng)信息檢索文本相 似性度量過度依賴于"形"的缺陷,并且本發(fā)明通過主題分布能夠?qū)ξ谋久枋鲞M行有效理 解。
[0008] 另外,在基于行為軌跡表示方法的基礎(chǔ)上還提供了一種行為軌跡的查詢方法,基 于文本描述的主題分布利用主題空間層和地理空間層協(xié)同搜索機制對給定文本描述進行 搜索,以便為用戶推薦更加精確的軌跡。兩個方案中對行為軌跡均采用主題分布表示,屬于 同一個發(fā)明構(gòu)思,所以兩個獨立權(quán)利要求具有單一性。
【附圖說明】
[0009] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0010] 圖1為本發(fā)明實施例公開的一種行為軌跡的表示方法的流程示意圖;
[0011] 圖2為本發(fā)明實施例公開的一種行為軌跡的表示方法中構(gòu)建的TR2-Tree的示意 圖;
[0012] 圖3為本發(fā)明實施例公開的一種行為軌跡的查詢方法的流程示意圖;
[0013] 圖4為本發(fā)明實施例公開的一種行為軌跡的表示裝置的結(jié)構(gòu)示意圖;
[0014] 圖5為本發(fā)明實施例公開的一種行為軌跡的查詢裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0015] 介紹本申請中所使用的簡稱:
[0016] LDA,Linear Discriminant Analysis,線性判別式分析;
[0017] MBR,Minimum bounding rectangle,最小外包矩形。
[0018] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0019] 現(xiàn)有的行為軌跡通常被表示為附有位置和時間標簽的文本描述序列,每個軌跡點 由(loc, time, words)三元組表示,其中Ioc代表地理位置,time代表時間,words代表用戶 對活動的描述。但是這種軌跡表示通常用戶基于文本相似性的檢索,注重文本之間"形"的 差別,例如查詢"喝咖啡"與軌跡點描述"星巴克"被認為毫不相關(guān),雖然他們的語義主題高 度一致。
[0020] 為了解決上述問題,本發(fā)明提供了一種行為軌跡的表示方法,如圖1所示,本方法 包括以下步驟:
[0021] 步驟SlOl :獲取用戶查詢的目標文本描述和預(yù)設(shè)LDA主題模型的軌跡文本描述, 其中所述軌跡文本描述在所述預(yù)設(shè)LDA主題模型中對應(yīng)一個模型主題分布;
[0022] 首先獲得需要比較的兩個文本描述,一個為用戶需要查詢的目標文本描述,目標 文本描述中可以有多個關(guān)鍵詞,另一個為預(yù)設(shè)LDA主題模型中文本描述,為了與目標文本 描述區(qū)別,此處用軌跡文本描述作為表示,該軌跡文本描述為預(yù)設(shè)LDA主題模型中的文本 描述,該軌跡文本描述已經(jīng)預(yù)先經(jīng)過計算得到其對應(yīng)的模型主題分布。
[0023] 步驟S102 :將所述目標文本描述輸入至所述預(yù)設(shè)LDA主題模型,經(jīng)所述預(yù)設(shè)LDA 主題模型計算后輸出目標主題分布,所述預(yù)設(shè)LDA主題模型包括多個主題分布,以及,與每 個主題分布對應(yīng)的多個軌跡文本描述;
[0024] 將所述目標文本描述輸入至預(yù)設(shè)LDA主題模型,預(yù)設(shè)LDA主題模型中有預(yù)先構(gòu)建 的維護矩陣,利用維護矩陣計算得到與目標文本描述的主題分布。
[0025] 步驟S103 :利用相似性函數(shù)計算表征所述目標主題分布與所述模型主題分布的 語義相關(guān)性的相似性函數(shù)值,所述目標主題分布和所述模型主題分布的語義相關(guān)性,與,所 述相似性函數(shù)值成反比。
[0026] 具體的,可以計算目標主題分布以及模型主題分布的歐式距離來表征兩者的語義 相關(guān)性,歐式距離越大表示兩者語義越遠,歐氏距離越小表示兩者語義越近。
[0027] 當(dāng)兩者的相似性函數(shù)值小于預(yù)先設(shè)定的閾值,則說明目標文本描述和軌跡文本描 述語義相近,兩者同屬于相似的活動描述,例如:"星巴克"和"喝咖啡"屬于相似的活動描 述,當(dāng)兩者的相似性函數(shù)值大于預(yù)先設(shè)定的閾值,則說明兩者的語義不相近,屬于不同的活 動描述,閾值由技術(shù)人員設(shè)定,其大小可經(jīng)過多次試驗確定,在此不再贅述。
[0028] 本發(fā)明將預(yù)設(shè)LDA模型中軌跡文本描述和用戶查詢的目標文本描述轉(zhuǎn)換為主題 分布,以便利用主題分布能夠更好地理解文本描述的內(nèi)在意義,并通過基于主題分布的相 似性函數(shù)來表征兩者的語義關(guān)聯(lián),通過預(yù)設(shè)LDA主題模型和相似性函數(shù),查詢文本描述"喝 咖啡"與預(yù)設(shè)LDA模型中軌跡文本描述"星巴克",將因其相似的主題分布而被認為相關(guān)。從 而解決現(xiàn)有技術(shù)中注重于"形"的缺點。
[0029] 下面以具體實施例來介紹上述方法具體執(zhí)行過程:
[0030] 預(yù)設(shè)LDA主題模型中有多個給定的主題,每個主題代表一個語義,例如喝咖啡,去 吃飯,做功課等等,多個給定的主題組成主題集合Z,預(yù)設(shè)LDA主題模型中除了主題之外還 有很多關(guān)鍵字k,每個關(guān)鍵字(Keyword) k對主題集合Z中每個主題均具有一個概率分布,即 每個關(guān)鍵字屬于給定主題的一個概率,例如:關(guān)鍵字"星巴克"屬于主題"喝咖啡"的概率為 90%,屬于"去吃飯"的概率為5%,屬于做功課的概率為1 %等等。
[0031] 為了表示關(guān)鍵字與主題集合中每個主題之間的概率關(guān)系,采用維護矩陣 β (βρ β2, β3,…,βη)來表示,維護矩陣β中每個向量分別代表關(guān)鍵字k與主題 zl, z2,…,zn(zl, z2,…,zn e Z)的相關(guān)性,維護矩陣β可以通過關(guān)鍵字k和主題z的同 現(xiàn)頻率計算得到。本發(fā)明中將維護矩陣β來表示任意關(guān)鍵字與任意主題的概率化相關(guān)性。
[0032] 下面給出了一個維護矩陣β的具體實例:
【主權(quán)項】
1. 一種行為軌跡的表示方法,其特征在于,包括: 獲取用戶查詢的目標文本描述和預(yù)設(shè)LDA主題模型的軌跡文本描述,其中所述軌跡文 本描述在所述預(yù)設(shè)LDA主題模型中對應(yīng)一個模型主題分布; 將所述目標文本描述輸入至所述預(yù)設(shè)LDA主題模型,經(jīng)所述預(yù)設(shè)LDA主題模型計算后 輸出目標主題分布,所述預(yù)設(shè)LDA主題模型包括多個主題分布,以及,與每個主題分布對應(yīng) 的多個軌跡文本描述; 利用相似性函數(shù)計算表征所述目標主題分布,與,所述模型主題分布的語義相關(guān)性的 相似性函數(shù)值;所述目標主題分布和所