基于主題模型的訂閱發(fā)布匹配方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種基于主題模型的訂閱發(fā)布匹配方法及裝置,應(yīng)用于位置感知訂閱發(fā)布系統(tǒng),方法包括:將訂閱集合進行兩層分級,使主題數(shù)量和關(guān)鍵主題相同的訂閱位于同一個第二級子集中;第二級子集均根據(jù)每個訂閱的空間區(qū)域信息建立空間索引樹;事件流中的每個事件均根據(jù)該事件的主題數(shù)量過濾掉和該事件不匹配的第二級子集,篩選出關(guān)鍵主題出現(xiàn)在事件的主題集合中的第二級子集,然后根據(jù)該事件的空間信息點檢索篩選出的第二級子集對應(yīng)的空間索引樹,以獲取匹配第二級子集中每個訂閱的事件候選集,再進一步進行驗證。本發(fā)明將語義匹配引入位置感知的訂閱發(fā)布系統(tǒng)中,能夠為每個訂閱查詢出在空間維度、文本語義緯度上符合訂閱要求的若干事件的集合。
【專利說明】
基于主題模型的訂閱發(fā)布匹配方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于通信技術(shù)領(lǐng)域,特別設(shè)及一種基于主題模型的訂閱發(fā)布匹配方法及裝 置,應(yīng)用于位置感知的訂閱發(fā)布系統(tǒng)。
【背景技術(shù)】
[0002] 隨著移動互聯(lián)網(wǎng)的快速發(fā)展,W及具有GI^功能的智能手機的普及,位置感知的訂 閱/發(fā)布系統(tǒng)越來越多地受到了工業(yè)界和學(xué)術(shù)界研究人員的關(guān)注。在訂閱/發(fā)布系統(tǒng)當(dāng)中, 訂閱者訂閱自己感興趣的信息作為訂閱,發(fā)布者發(fā)布信息作為事件,如果訂閱與事件有高 度的相關(guān)性,那么發(fā)布者發(fā)布的信息被推送給訂閱者。
[0003] 目前,在位置感知的訂閱/發(fā)布系統(tǒng)中,國內(nèi)外有很多研究工作。主要有如下兩個 分支,基于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的位置感知的訂閱發(fā)布系統(tǒng)。在結(jié)構(gòu)化數(shù)據(jù)分支上, L.Guo提出了一種新位置感知訂閱/發(fā)布系統(tǒng),可W連續(xù)監(jiān)控移動的訂閱者接收來自社交媒 體和電子商務(wù)的結(jié)構(gòu)化的事件信息流。JiaFfeng提出了 Ri-tree索引樹,該索引樹可W為每 個事件返回Top-k個訂閱。Sadoghi將一種布爾表達式索引應(yīng)用在位置感知的訂閱/發(fā)布系 統(tǒng)當(dāng)中,他將空間信息維度W謂詞的形式加入在布爾表達式當(dāng)中,W實現(xiàn)位置感知的訂閱/ 發(fā)布系統(tǒng)。在非結(jié)構(gòu)化數(shù)據(jù)分支上,Guoliang Li提出了一種高效地位置感知的訂閱/發(fā)布 系統(tǒng)可W在高流速的事件流、千萬級訂閱數(shù)據(jù)集上實現(xiàn)微小時間內(nèi)的檢索。Yu等在 Guoliang Li的基礎(chǔ)上提出了為每個事件返回Top-k訂閱的算法,Lisi化en在位置感知的 訂閱/發(fā)布系統(tǒng)當(dāng)中引入時間維度,并設(shè)計出使每個訂閱均能維持Top-k事件的匹配算法。 但是,運些工作主要是針對訂閱與事件的匹配模式,查詢方法等,并沒有針對語義的匹配。 例如,當(dāng)用戶訂閱"咖啡"時,"星己克"也應(yīng)視作它的匹配,運是符合直覺的。但是,在現(xiàn)有技 術(shù)中,并沒有將語義匹配引入位置感知訂閱發(fā)布系統(tǒng)中的方法。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供了一種基于主題模型的訂閱發(fā)布匹配方法和裝置,能夠?qū)⒄Z 義匹配引入位置感知的訂閱發(fā)布系統(tǒng)中W增加用戶體驗,并能夠為每個訂閱查詢出同時在 空間維度、文本語義締度上符合訂閱要求的若干事件的集合。
[0005] 本發(fā)明提供的技術(shù)方案為:
[0006] 第一方面,本發(fā)明提供了一種基于主題模型的訂閱發(fā)布匹配方法,應(yīng)用于位置感 知的訂閱發(fā)布系統(tǒng),包括:
[0007] 將位置感知訂閱發(fā)布系統(tǒng)中的一訂閱集合根據(jù)每個訂閱的主題數(shù)量分成多個互 不相交的第一級子集,使主題數(shù)量相同的訂閱位于同一個第一級子集中;
[000引將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題分成多個第二級子集, 使主題數(shù)量和關(guān)鍵主題均相同的訂閱劃分在同一個第二級子集中;
[0009]所述每個第二級子集均根據(jù)該第二級子集中每個訂閱的空間區(qū)域信息建立一空 間索引樹;
[0010] 所述位置感知訂閱發(fā)布系統(tǒng)中一事件流中的每個事件均根據(jù)該事件的主題數(shù)量 過濾掉和該事件不匹配的第二級子集,并篩選出關(guān)鍵主題出現(xiàn)在所述事件的主題集合中的 第二級子集,然后根據(jù)該事件的空間信息點檢索所述篩選出的第二級子集對應(yīng)的空間索引 樹,W獲取匹配每個第二級子集中每個訂閱的事件候選集;
[0011] 所述每個訂閱均與匹配該訂閱的事件候選集中的所有事件一一進行匹配,判斷該 訂閱的所有主題是否均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集合中;
[0012] 若是,則確定該訂閱與該事件或多個事件匹配,查詢到與該訂閱匹配的事件;
[0013] 若否,則確定該訂閱與該事件不匹配。
[0014] 優(yōu)選的是,所述的基于主題模型的訂閱發(fā)布匹配方法,所述將位置感知訂閱發(fā)布 系統(tǒng)中的一訂閱集合根據(jù)每個訂閱的主題數(shù)量分成多個互不相交的第一級子集還包括:
[0015] 獲取位置感知訂閱發(fā)布系統(tǒng)中訂閱集合中每個訂閱的主題集合,并計算出所述每 個訂閱的主題數(shù)量;
[0016] 從每個訂閱的主題集合中選取出在整個數(shù)據(jù)集中主題分布出現(xiàn)頻率最小的主題 作為該訂閱的關(guān)鍵主題。
[0017] 優(yōu)選的是,所述的基于主題模型的訂閱發(fā)布匹配方法,所述獲取位置感知訂閱發(fā) 布系統(tǒng)中訂閱集合中每個訂閱的主題集合包括:通過主題模型LDA對每個訂閱中的關(guān)鍵字 集合進行主題映射獲取該訂閱的主題集合;所述獲取每個事件的主題集合包括:通過主題 模型LDA對每個事件中的關(guān)鍵字集合進行主題映射獲取該事件的主題集合。
[0018] 優(yōu)選的是,所述的基于主題模型的訂閱發(fā)布匹配方法,所述位置感知訂閱發(fā)布系 統(tǒng)中一事件流中的每個事件均根據(jù)該事件的主題數(shù)量過濾掉和該事件不匹配的第二級子 集具體包括:若第二級子集中訂閱的主題數(shù)量大于所述事件的主題數(shù)量,則確定該第二級 子集中的訂閱與所述事件均不匹配。
[0019] 優(yōu)選的是,所述的基于主題模型的訂閱發(fā)布匹配方法,每個訂閱的空間區(qū)域信息 W根據(jù)經(jīng)締度劃分的最小邊界矩形的形式來表示,每個事件的空間信息點由經(jīng)締度表示的 空間信息點表示,每個訂閱S由如下第一公式表示,所述第一公式為:S={[Ksl,Ks2-Ksn], R},其中,[Ksi,Ks2-Ksn]表示訂閱的關(guān)鍵字集合,R表示訂閱的空間區(qū)域信息,每個事件e由 如下第二公式表示,所述第二公式為:6={比61,1(62。'1(6。],1〇(3},其中,瓜1,1(62。'1(6。]表示事 件的關(guān)鍵字集合,loc表示事件的空間信息點。
[0020] 優(yōu)選的是,所述的基于主題模型的訂閱發(fā)布匹配方法,每個訂閱和每個事件通過 主題模型LDA進行主題映射后,每個訂閱S由如下第Ξ公式表示,所述第Ξ公式為:s = {比smaχTPClΛKsmaχTPC2八…KsmaχTPCn],R},其中,[KsmaχTPCl八KsmaχTPC2八…KsmaχTPCn]表示 訂閱的主題集合,每個事件由如下第四公式表示,所述第四公式為:e={[KemaxTPEi八 KemaxTPCg八…KemaxTPCm], loc},其中,化emaxT%八KemaxTPCg八…KemaxTPCm]表示事件的主題 集合。
[0021] 第二方面,本發(fā)明提供了一種基于主題模型的訂閱發(fā)布匹配裝置,應(yīng)用于位置感 知的訂閱發(fā)布系統(tǒng),包括:
[0022] 第一分級模塊,其用于將位置感知訂閱發(fā)布系統(tǒng)中的訂閱集合根據(jù)每個訂閱的主 題數(shù)量分成多個互不相交的第一級子集;
[0023] 第二分級模塊,其用于將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題 分成多個第二級子集;
[0024] 空間索引樹建立模塊,其用于將所述每個第二級子集均根據(jù)該第二級子集中每個 訂閱的空間區(qū)域信息建立一空間索引樹;
[0025] 過濾模塊,其用于所述位置感知訂閱發(fā)布系統(tǒng)中一事件流中的每個事件均根據(jù)該 事件的主題數(shù)量過濾掉和該事件不匹配的第二級子集;
[0026] 篩選模塊,其用于篩選出關(guān)鍵主題出現(xiàn)在所述事件的主題集合中的第二級子集;
[0027] 檢索模塊,其用于根據(jù)該事件的空間信息點檢索所述篩選出的第二級子集對應(yīng)的 空間索引樹,W獲取匹配每個第二級子集中每個訂閱的事件候選集;
[0028] 判斷模塊,其用于所述每個訂閱均與匹配該訂閱的事件候選集中的所有事件一一 進行匹配時,判斷該訂閱的所有主題是否均出現(xiàn)在所述事件候選集中一事件或多個事件的 主題集合中;
[0029] 確定模塊,若訂閱的所有主題均出現(xiàn)在所述事件候選集中一事件或多個事件的主 題集合中,則所述確定模塊確定該訂閱與該事件與多個事件匹配;
[0030] 若訂閱的所有主題不能均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集 合中,則所述確定模塊確定該訂閱與該事件不匹配。
[0031] 優(yōu)選的是,所述的基于主題模型的訂閱發(fā)布匹配裝置,還包括:
[0032] 映射模塊,其用于通過主題模型LDA對位置感知訂閱發(fā)布系統(tǒng)中的每個訂閱和每 個事件的關(guān)鍵字集合進行主題映射,獲取該訂閱的主題集合和該事件的主題集合;
[0033] 選取模塊,其用于從每個訂閱的主題集合中選取出在整個數(shù)據(jù)集中主題分布出現(xiàn) 頻率最小的主題作為該訂閱的關(guān)鍵主題;
[0034] 計算模塊,其用于計算所述位置感知訂閱發(fā)布系統(tǒng)中每個訂閱的主題數(shù)量和每個 事件的主題數(shù)量。
[0035] 本發(fā)明至少包括W下有益效果:由于將訂閱集合根據(jù)每個訂閱的主題數(shù)量分成多 個互不相交的第一級子集,又將每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題分成多 個第二級子集,運樣兩層的分級方法就能使主題數(shù)量和關(guān)鍵主題均相同的訂閱劃分在同一 個第二級子集中,為獲取到第二級子集中每個訂閱匹配的事件,事件流中的每個事件首先 根據(jù)該事件的主題數(shù)量過濾掉和該事件不匹配的第二級子集,然后再篩選出關(guān)鍵主題出現(xiàn) 在事件的主題集合中的第二級子集,然后根據(jù)該事件的空間信息點檢索篩選出的第二級子 集對應(yīng)的空間索引樹,通過上面的索引結(jié)構(gòu)能夠獲取匹配每個第二級子集中每個訂閱的事 件候選集,再進一步進行驗證,運樣就能夠為每個訂閱查詢出在空間維度、文本語義締度上 符合訂閱要求的若干事件的集合,且該方法具有有效性和高效性。
【附圖說明】
[0036] 圖1為本發(fā)明所述的基于主題模型的訂閱發(fā)布匹配方法的流程示意圖;
[0037] 圖2為例子1中3個訂閱和1個事件的空間信息分布圖;
[0038] 圖3為例子1中3個訂閱的主題集合索引圖;
[0039] 圖4為例子1中3個訂閱和1個事件的RP?-trees索引結(jié)構(gòu)圖;
[0040] 圖5為例子2中Ξ組索引方案內(nèi)存開銷的比較結(jié)果圖;
[0041] 圖6為例子2中Ξ組索引方案中不同的訂閱數(shù)量的比較結(jié)果圖;
[0042] 圖7為例子2中Ξ組索引方案中不同的主題數(shù)量的比較結(jié)果圖;
[0043] 圖8為例子2中Ξ組索引方案中不同的事件主題集合長度時的比較結(jié)果圖。
【具體實施方式】
[0044] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它 實施例,都屬于本發(fā)明保護的范圍。
[0045] 為使本發(fā)明技術(shù)方案的優(yōu)點更加清楚,下面結(jié)合附圖和實施例對本發(fā)明作詳細說 明。
[0046] 在實現(xiàn)本方案之初,由于對訂閱中的關(guān)鍵字進行主題映射,且增加了空間區(qū)域信 息,所W需要對位置感知訂閱/發(fā)布系統(tǒng)進行定義和說明。
[0047] 在位置感知的訂閱/發(fā)布系統(tǒng)當(dāng)中,一個訂閱3={3.1',3.1?}由^下部分組成:文本 描述信息S.T和空間區(qū)域信息S.R,文本描述信息是指訂閱者描述其需求的語言文字,S.T是 由一個關(guān)鍵字集合組成,即S.T=化sl,Ks2,…,Ksn},空間區(qū)域信息是指訂閱者所感興趣的空 間區(qū)域。訂閱S由如下公式表示:S = {[Ksl,Ks2,…,Ksn],R}。一個事件e是由一個文本信息集 合e. T和一個空間信息點e. loc組成,e. T表達式為e. Τ=化el,Ke2,…,Kem},e. loc是一個由經(jīng) 締度表示的空間信息點。事件e可由如下公式表示:e= {:比el,Ke2,…,KemLloc}。
[0048] 在基于主題模型的位置感知訂閱/發(fā)布系統(tǒng)當(dāng)中,為了使得訂閱和事件中的關(guān)鍵 字集合得到其主題映射,我們采用最常用的文檔主題生成模型LDA(Latent Dirichlet Allocation),把包括訂閱與事件的文本信息S.TW及e.T作為LDA的訓(xùn)練集與驗證集,通過 不斷地訓(xùn)練與驗證收斂出訂閱中關(guān)鍵字所對應(yīng)主題分布。從每個關(guān)鍵字Ksi對應(yīng)的主題 KsiTPE中選取分布概率最高的主題Ksma/K,然后我們將所有的具有最高分布概率的關(guān)鍵字 主題合取式作為訂閱中的關(guān)鍵字主題集合S . Ttpc,即S . Ttpc=化smaxT% AKsmaxTPS八… KsmaxTPG。}。訂閱S重新由如下公式表示:s = { KsmaxT%八KsmaxTPGg八…KsmaxTPG。] ,R}。對于 事件的文本信息e.T的關(guān)鍵字的主題映射,我們做與S.T相同的處理。即,e.TTPC=化ema/% 八KemaxTPGg八…KemaxTPGm}。所W事件e重新由如下公式表示:e = {[KemaxTPGi八KemaxTPCs 八…Kema^TPCm], loc}。
[0049] 在基于主題模型的位置感知訂閱/發(fā)布系統(tǒng)匹配模式中,可W分為Ξ個模塊:1、主 題匹配;2、主題集合匹配;3、空間信息匹配。
[0050] 定義1(主題匹配):對于一個給定的訂閱主題Ksma/PGi和事件主題KemaxTPGj,如果 KsmaxTPGi= = Kema/PGj,那么,我們就稱事件主題Kema/PGj匹配訂閱主題Ksma/PCi。
[0051] 定義2(主題集合匹配):對于一個給定的訂閱主題集合s.Ttpc和事件主題集合 e. Ttpc,如果對于VKsmaxT'PCi 巨s.Ttpc都有KsmaxTPGi = = KemaxTPGj,化emaxTPGj e e. Ttpc),那 么,我們就稱事件主題集合e. Ττκ匹配訂閱主題集合S. Ττκ。
[0052] 定義3(空間信息匹配):對于一個給定訂閱中的空間區(qū)域信息s.R和事件中的空間 信息點e . 10 C,如果空間信息點e . 10 C落入空間區(qū)域信息S . R,那么,事件中的空間信息點 e. loc匹配訂閱中的空間區(qū)域信息S.R。
[0053] 定義4(訂閱與事件匹配):對于一個給定的訂閱S與事件e,如果事件e的主題集合 e.TTPC與訂閱s的主題集合s.Ttp砸配,同時,事件e的空間信息點與訂閱s的空間區(qū)域信息 S.R匹配,那么,事件e與訂閱S匹配。
[0054]定義5(LPSTM,Location-Aware 化blish/Subscribe basing topic Model,基于 主題模型的位置感知訂閱/發(fā)布系統(tǒng)):對于一個給定的事件流E和一個給定的訂閱集合S, 基于主題模型的位置感知訂閱/發(fā)布系統(tǒng)的目的是要找到與S匹配的事件e,其中seS,ee E。
[0055] 本發(fā)明一實施例提供的基于主題模型的訂閱發(fā)布匹配方法,應(yīng)用于位置感知的訂 閱發(fā)布系統(tǒng),所述裝置為具有實現(xiàn)本發(fā)明實施例所述方法功能的裝置或設(shè)備,可W通過在 裝置或設(shè)備中安裝相關(guān)軟件或硬件使其具有實現(xiàn)本發(fā)明實施例所述方法的功能,如圖1所 示,所述方法包括:
[0056] SOI、獲取位置感知訂閱發(fā)布系統(tǒng)中一訂閱集合中每個訂閱的主題集合,并計算出 所述每個訂閱的主題數(shù)量。
[0057] 其中,通過主題模型LDA對每個訂閱中的關(guān)鍵字集合進行主題映射獲取該訂閱的 主題集合。
[0058] S02、從每個訂閱的主題集合中選取出在整個數(shù)據(jù)集中主題分布出現(xiàn)頻率最小的 主題作為該訂閱的關(guān)鍵主題。
[0059] 需要說明的是:根據(jù)定義2可知,如果一個事件e匹配一個訂閱S,那么訂閱S中所有 的主題都要出現(xiàn)在事件e的主題集合當(dāng)中。如果訂閱S中的一個主題沒有在事件e的主題集 合當(dāng)中出現(xiàn),那么事件e肯定不是訂閱S的結(jié)果。因此,給定一個事件e,我們只考慮那些關(guān)鍵 主題出現(xiàn)在事件e的主題集合中的訂閱。在整個數(shù)據(jù)集具有低頻率的主題更具有過濾訂閱 的作用,因為較低頻的主題出現(xiàn)在另一個事件中的可能性較低,因此選訂閱的主題集合里 出現(xiàn)頻率最低的主題作為關(guān)鍵主題。
[0060] S03、將所述位置感知訂閱發(fā)布系統(tǒng)中的訂閱集合根據(jù)每個訂閱的主題數(shù)量分成 多個互不相交的第一級子集,使主題數(shù)量相同的訂閱位于同一個第一級子集中。
[0061] 其中,訂閱集合根據(jù)每個訂閱的主題數(shù)量分成多個互不相交的第一級子集,可W 表示如下:S = ^N1) U^N2) U^Ni)U….U^Nn);如果事件e的主題集合匹配訂閱S中的主題 集合,那么事件e中的主題數(shù)量一定大于或等于S中的主題,如果不滿足上述條件,訂閱S中 必然有一個主題得不到事件e的匹配,根據(jù)定義2,事件e肯定不是訂閱S的結(jié)果之一。
[0062] S04、將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題分成多個第二級 子集,使主題數(shù)量和關(guān)鍵主題均相同的訂閱劃分在同一個第二級子集中。
[0063] 其中,將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題分成多個第二級 子集表示為:L(Ni) = :L(si)Ul^(s2)Ul^(si)L>''..Ul^(Sn)。
[0064] S05、所述每個第二級子集均根據(jù)該第二級子集中每個訂閱的空間區(qū)域信息建立 一空間索引樹R-tree。
[0065] 需要說明的是,建立R-tree的目的是用來過濾事件的空間信息的。
[0066] S06、所述位置感知訂閱發(fā)布系統(tǒng)中一事件流中的每個事件均根據(jù)該事件的主題 數(shù)量過濾掉和該事件不匹配的第二級子集,并篩選出關(guān)鍵主題出現(xiàn)在所述事件的主題集合 中的第二級子集,然后根據(jù)該事件的空間信息點檢索所述篩選出的第二級子集對應(yīng)的空間 索引樹,W獲取匹配每個第二級子集中每個訂閱的事件候選集。
[0067] 其中,若第二級子集中訂閱的主題數(shù)量大于所述事件的主題數(shù)量,則確定該第二 級子集中的訂閱與所述事件均不匹配,所W事件的主題數(shù)量必須大于或等于第二級子集中 訂閱的主題數(shù)量。運樣可W把事件流中可能與第二級子集中的訂閱的匹配的事件篩選出 來,然后再根據(jù)事件的空間信息點檢索第二級子集對應(yīng)的空間索引樹,就可W獲取匹配第 二級子集中每個訂閱的事件候選集。
[0068] 其中,通過主題模型LDA對每個事件中的關(guān)鍵字集合進行主題映射獲取該事件的 主題集合。
[0069] S07、所述每個訂閱均與匹配該訂閱的事件候選集中的所有事件一一進行匹配,判 斷該訂閱的所有主題是否均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集合中;
[0070] 若是,則確定該訂閱與該事件或多個事件匹配,查詢到與該訂閱匹配的事件;
[0071] 若否,則確定該訂閱與該事件不匹配。
[0072] 需要說明的是:我們將步驟S02、S03、S04、S05建立的分區(qū)分級索引結(jié)構(gòu)稱為RP?- trees,在RP?-trees中,每個訂閱都有標(biāo)志性主題,就是關(guān)鍵主題δ。
[0073] 對于上面的步驟,接下來我們來舉一個具體的例子來說明。例子1如下所示:
[0074] 給定如下3個訂閱和1個事件:sl = r'KFC,可W美團。",Rl};s2=r運當(dāng)勞,上口服 務(wù),酬賓活動。",R2} ;s3=r附近的必勝客,餓了么。",R2} ;el = r東環(huán)路肯德基開張!,歡 迎食客光臨,可送餐上口!。",l〇cl}。其主題映射如下表1所示,空間信息分布如圖2所示。由 圖可知,el匹配si,因為si的主題集合[快餐,外賣]被el的主題集合[快餐,外賣]匹配,且 loci落入Ri,兩者主題集合和空間信息都匹配,el匹配sUel不匹配s2,雖然loci落入R2,但 是s2的主題集合[快餐,促銷,外賣]不被el的主題集合[快餐,外賣]匹配,所Wei不匹配s2。 另外,el不匹配S3,因為雖然loci沒有落入R2,兩者空間信息不匹配,故el不匹配S3。
[0075] 表 1
[0076]
[0077] 根據(jù)表1建立的主題集合索引結(jié)構(gòu),如圖3所示,在第一步,根據(jù)訂閱的主題集合中 主題數(shù)量分成兩個子集L2,L3。然后,根據(jù)不同主題的出現(xiàn)頻率選取出關(guān)鍵主題。運里我們假 設(shè)"快餐","促銷"為整個數(shù)據(jù)集中的關(guān)鍵主題。給定一個事件el,其主題集合中的主題數(shù)量 為2,根據(jù)事件的主題數(shù)量,在子集L3中的訂閱肯定不匹配e 1。
[007引如圖4所示,給出了 RP?-化ees的索引結(jié)構(gòu),3口《-付663由立部分組成,第一部分是 步驟S03和步驟S04兩步分區(qū)法劃分的兩層主題集合倒排索引。第二部分是相應(yīng)訂閱子集的 空間區(qū)域信息建立的空間索引樹R-化ee。運些R-化ee是用來過濾事件的空間信息的,并用 來生成匹配訂閱的候選集。為了解釋RP?-trees的查詢過程,給定一個事件ei=r東環(huán)路肯 德基開張!,歡迎食客光臨,可送餐上口!。",loci},根據(jù)主題模型LDA找到事件關(guān)鍵字的主 題映射,即該事件可被重寫為ei={[快餐Λ外賣],loci},計算出ei的主題集合中的主題個 數(shù)為2,所W,在L3中的訂閱被剪掉,之后訪問L2中的訂閱,發(fā)現(xiàn)e沖存在主題"快餐",然后根 據(jù)loci檢索相應(yīng)的R-化ee(2,快餐)。發(fā)現(xiàn),loci落在SI的空間區(qū)域Ri,之后,進一步驗證SI的 主題集合中所有主題"快餐","外賣"均在ei中的主題集合出現(xiàn),于是S1找到最終結(jié)果ei。
[0079] 本發(fā)明又一實施例提供了一種基于主題模型的訂閱發(fā)布匹配裝置,應(yīng)用于位置感 知的訂閱發(fā)布系統(tǒng),包括:
[0080] 第一分級模塊,其用于將位置感知訂閱發(fā)布系統(tǒng)中的訂閱集合根據(jù)每個訂閱的主 題數(shù)量分成多個互不相交的第一級子集;
[0081] 第二分級模塊,其用于將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題 分成多個第二級子集;
[0082] 空間索引樹建立模塊,其用于將所述每個第二級子集均根據(jù)該第二級子集中每個 訂閱的空間區(qū)域信息建立一空間索引樹;
[0083] 過濾模塊,其用于所述位置感知訂閱發(fā)布系統(tǒng)中一事件流中的每個事件均根據(jù)該 事件的主題數(shù)量過濾掉和該事件不匹配的第二級子集;
[0084] 篩選模塊,其用于篩選出關(guān)鍵主題出現(xiàn)在所述事件的主題集合中的第二級子集;
[0085] 檢索模塊,其用于根據(jù)該事件的空間信息點檢索所述篩選出的第二級子集對應(yīng)的 空間索引樹,W獲取匹配每個第二級子集中每個訂閱的事件候選集;
[0086] 判斷模塊,其用于所述每個訂閱均與匹配該訂閱的事件候選集中的所有事件一一 進行匹配時,判斷該訂閱的所有主題是否均出現(xiàn)在所述事件候選集中一事件或多個事件的 主題集合中;
[0087] 確定模塊,若訂閱的所有主題均出現(xiàn)在所述事件候選集中一事件或多個事件的主 題集合中,則所述確定模塊確定該訂閱與該事件與多個事件匹配;
[0088] 若訂閱的所有主題不能均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集 合中,則所述確定模塊確定該訂閱與該事件不匹配。
[0089] 進一步的,所述的基于主題模型的訂閱發(fā)布匹配裝置,還包括:
[0090] 映射模塊,其用于通過主題模型LDA對位置感知訂閱發(fā)布系統(tǒng)中的每個訂閱和每 個事件的關(guān)鍵字集合進行主題映射,獲取該訂閱的主題集合和該事件的主題集合;
[0091] 選取模塊,其用于從每個訂閱的主題集合中選取出在整個數(shù)據(jù)集中主題分布出現(xiàn) 頻率最小的主題作為該訂閱的關(guān)鍵主題;
[0092] 計算模塊,其用于計算所述位置感知訂閱發(fā)布系統(tǒng)中每個訂閱的主題數(shù)量和每個 事件的主題數(shù)量。
[0093] 需要說明的是,基于主題模型的位置感知的訂閱/發(fā)布系統(tǒng)有兩個締度需要處理, 一個是文本信息中關(guān)鍵字對應(yīng)的主題集合,一個是空間區(qū)域信息,處理時,兩個最初的方案 均是串行的將主題集合締度,和空間區(qū)域信息締度按順序計算。在主題集合締度上,我們采 用的是著名的倒排索引來索引訂閱的主題集合,然后W開源的空間區(qū)域信息索引樹R-tree 索引訂閱的空間信息。我們可將該方案擴展為兩個方法,一個是W事件e的空間信息點先從 R-化ee過濾出符合訂閱S空間信息約束的事件候選集,再通過訂閱的主題集合倒排索引驗 證出發(fā)生主題集合匹配的訂閱,從而得到最終結(jié)果。另一個是先從通過訂閱主題倒排索引 來獲得發(fā)生主題集合匹配的候選集,然后再在R-化ee上驗證其空間信息維度上是否發(fā)生匹 配,如果空間信息也匹配,則返回最終結(jié)果。我們分別稱運兩個方法為S-Fist(空間信息優(yōu) 先),TPC-First(主題集合優(yōu)先)。眾所周知,由于串行計算的性能低下,W及訂閱的主題個 數(shù)偏少使得倒排索引的分區(qū)能力弱化,運使得W該方案為基礎(chǔ)該S-Fist、TPC-First的效率 并不高,為此,我們設(shè)計了 RP?-trees來索引訂閱。
[0094]下面將列舉一個具體的例子來說明RP?-trees索引結(jié)構(gòu)的優(yōu)點,例子2如下所示: [00M]我們采用6萬條微博簽到信息記錄作為我們的仿真實驗數(shù)據(jù)集。每個用戶簽到信 息包括,用戶的id,用戶簽到所掲示的空間信息點(經(jīng)締度),W及用戶的微博文本。運些微 博稍作處理可W直接成為我們的事件信息流。另外,我們根據(jù)每個用戶的簽到空間信息點, W-定長、寬隨機生成一個空間區(qū)域信息來作為訂閱者所訂閱的空間區(qū)域。并W該微博數(shù) 據(jù)作為訂閱內(nèi)容。由于微博數(shù)據(jù)量有限,我們有時候?qū)⑽⒉┪谋靖鶕?jù)標(biāo)點符號拆分為若干 條文本信息,從而生成多種訂閱。然后,根據(jù)微博的文本信息,我們采用主題模型LDA算法得 到每個微博關(guān)鍵字的所有主題分布中分布概率最大的主題作為關(guān)鍵字對應(yīng)的主題,從而得 到每一個關(guān)鍵字的主題映射。我們總共生成了 10M個訂閱,和0.1M個事件作為匹配測試數(shù) 據(jù)。表2詳細介紹了數(shù)據(jù)集的參數(shù)設(shè)置。
[0096] 表 2
[0097]
[0099] 結(jié)果分析:
[0100] 將比較RP?-trees和另外兩種基準(zhǔn)方案S-Fist、TPC-First做對比試驗。由于所有 S個索引都是內(nèi)存索引,我們首先分析了個索引的內(nèi)存花費情況。之后,我們分別W-下參 數(shù)維度多對照試驗:不同的訂閱個數(shù),不同的主題個數(shù),W及不同的事件主題集合的平均長 度。接下來我們將逐個展示基于W上參數(shù)的實驗結(jié)果。我們W事件和訂閱匹配事件作為評 價依據(jù)。
[0101] -、內(nèi)存開銷
[0102] 我們首先對照Ξ組索引方案隨著訂閱數(shù)量的增長引起的內(nèi)存開銷變化,實驗結(jié)果 如圖5所示。我們可W看到Ξ者內(nèi)存開銷隨著訂閱數(shù)量的增長而增長,在固定訂閱數(shù)量不變 的情況下,Ξ者內(nèi)存開銷幾乎一致,相較于S-Fist、TPC-First,RP?-trees的內(nèi)存開銷較大 一些,運是因為相較于其他兩個索引5斗131:、了?(:斗;[^1:,1??了^-化663產(chǎn)生更多的1?-化66,運 將導(dǎo)致內(nèi)存開銷略微增大。由于S-Fist、TPC-First的索引結(jié)構(gòu)其實是一樣的,區(qū)分運兩個 解決方案主要是從查詢方案上,空間信息有先(S-Fist)還是主題集合信息優(yōu)先(TPC- First)。
[0103] 二、不同的訂閱數(shù)量
[0104] 為了測試Ξ個方法的穩(wěn)定性,我們在不同訂閱數(shù)量的分布下做了實驗,平均事件 匹配時間在不同訂閱個數(shù)下的分布如圖6所示。我們可W看到,無論從絕對的平均匹配時間 上,還是索引的穩(wěn)定性上,RP?-trees的表現(xiàn)最好。其次是TPC-First。運是因為RP?-trees 根據(jù)主題集合長度大小W及關(guān)鍵主題對訂閱的分區(qū)能力遠高于后兩者。其次,由于RP?- tree S對訂閱的分區(qū)能力強勁,使得每個相應(yīng)R-tree所索引的空間信息量大幅減少,運增加 了 R-tree的對訂閱的過濾效率。
[01化]Ξ、不同的主題數(shù)量
[0106] 主題個數(shù)對Ξ個索引來說都是一個非常重要的參數(shù),因為Ξ個索引都是全部、或 部分根據(jù)主題的個數(shù)劃分訂閱子集的。從圖7明顯可W看出,當(dāng)主題數(shù)量增加時,Ξ個索引 的平均事件匹配時間都在減少,運是因為隨著主題數(shù)量的增加,Ξ個索引都會產(chǎn)生更小的 訂閱分區(qū),RP?-trees減小的更明顯,運是因為RP?-trees首先根據(jù)關(guān)鍵主題劃分訂閱,當(dāng) 主題個數(shù)增加時,單個的索引大小將會明顯減少,結(jié)合R-化ee在空間信息上的過濾功能,使 得事件匹配時間相較于S-Fist、TPC-First進一步減少。除次之外,隨著整個數(shù)據(jù)集中主題 個數(shù)的增加,事件匹配訂閱的可能性進一步增加,運是因為隨著主題個數(shù)的增加,事件的一 個主題匹配訂閱的一個主題時,訂閱和事件的相關(guān)性將增大。
[0107] 四、不同的事件主題集合長度
[0108] 該實驗結(jié)果如圖8所示。從圖8我們可W明顯的看出,只有RP?-trees對事件主題長 度運個參數(shù)敏感,因為相較于S-Fist、TPC-First,RP?-trees采用主題集合的長度將訂閱分 區(qū),隨著事件的主題集合長度不斷增大,RP?-trees根據(jù)主題集合長度剪枝的能力大大減 弱,使得平均事件匹配時間隨著事件主題集合長度的增加而增加。
[0109] 盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列 運用,它完全可W被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地 實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限 于特定的細節(jié)和運里示出與描述的圖例。
【主權(quán)項】
1. 一種基于主題模型的訂閱發(fā)布匹配方法,應(yīng)用于位置感知的訂閱發(fā)布系統(tǒng),其特征 在于,包括: 將位置感知訂閱發(fā)布系統(tǒng)中的一訂閱集合根據(jù)每個訂閱的主題數(shù)量分成多個互不相 交的第一級子集,使主題數(shù)量相同的訂閱位于同一個第一級子集中; 將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題分成多個第二級子集,使主 題數(shù)量和關(guān)鍵主題均相同的訂閱劃分在同一個第二級子集中; 所述每個第二級子集均根據(jù)該第二級子集中每個訂閱的空間區(qū)域信息建立一空間索 引樹; 所述位置感知訂閱發(fā)布系統(tǒng)中發(fā)布的事件流中的每個事件均根據(jù)該事件的主題數(shù)量 過濾掉和該事件不匹配的第二級子集,并篩選出關(guān)鍵主題出現(xiàn)在所述事件的主題集合中的 第二級子集,然后根據(jù)該事件的空間信息點檢索所述篩選出的第二級子集對應(yīng)的空間索引 樹,以獲取匹配每個第二級子集中每個訂閱的事件候選集; 所述每個訂閱均與匹配該訂閱的事件候選集中的所有事件一一進行匹配,判斷該訂閱 的所有主題是否均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集合中; 若是,則確定該訂閱與該事件或多個事件匹配,查詢到與該訂閱匹配的事件; 若否,則確定該訂閱與該事件不匹配。2. 如權(quán)利要求1所述的基于主題模型的訂閱發(fā)布匹配方法,其特征在于,所述將位置感 知訂閱發(fā)布系統(tǒng)中的一訂閱集合根據(jù)每個訂閱的主題數(shù)量分成多個互不相交的第一級子 集還包括: 獲取位置感知訂閱發(fā)布系統(tǒng)中訂閱集合中每個訂閱的主題集合,并計算出所述每個訂 閱的主題數(shù)量; 從每個訂閱的主題集合中選取出在整個數(shù)據(jù)集中主題分布出現(xiàn)頻率最小的主題作為 該訂閱的關(guān)鍵主題。3. 如權(quán)利要求2所述的基于主題模型的訂閱發(fā)布匹配方法,其特征在于,所述獲取位置 感知訂閱發(fā)布系統(tǒng)中訂閱集合中每個訂閱的主題集合包括:通過主題模型LDA對每個訂閱 中的關(guān)鍵字集合進行主題映射獲取該訂閱的主題集合;所述獲取每個事件的主題集合包 括:通過主題模型LDA對每個事件中的關(guān)鍵字集合進行主題映射獲取該事件的主題集合。4. 如權(quán)利要求1所述的基于主題模型的訂閱發(fā)布匹配方法,其特征在于,所述位置感知 訂閱發(fā)布系統(tǒng)中一事件流中的每個事件均根據(jù)該事件的主題數(shù)量過濾掉和該事件不匹配 的第二級子集具體包括:若第二級子集中訂閱的主題數(shù)量大于所述事件的主題數(shù)量,則確 定該第二級子集中的訂閱與所述事件均不匹配。5. 如權(quán)利要求3所述的基于主題模型的訂閱發(fā)布匹配方法,其特征在于,每個訂閱的空 間區(qū)域信息以根據(jù)經(jīng)煒度劃分的最小邊界矩形的形式來表示,每個事件的空間信息點由經(jīng) 煒度表示的空間信息點表示,每個訂閱s由如下第一公式表示,所述第一公式為:s={[K sl, Ks2···!(%],R},其中,[Ksl,Ks2…Ksn]表示訂閱的關(guān)鍵字集合,R表示訂閱的空間區(qū)域信息,每 個事件e由如下第二公式表不,所述第二公式為:e = { [Kel,Κθ2···Κθιι],loc},其中,[Kel,Ke2··· U表示事件的關(guān)鍵字集合,loc表示事件的空間信息點。6. 如權(quán)利要求5所述的基于主題模型的訂閱發(fā)布匹配方法,其特征在于,每個訂閱和每 個事件通過主題模型LDA進行主題映射后,每個訂閱s由如下第三公式表示,所述第三公式 為:s = {[KsmaxTPCi AKsmaxTPC2 Λ …KsmaxTPCn],R},其中,[KsmaxTPCi AKsmaxTPC2 Λ … KsmaXTpen]表示訂閱的主題集合,每個事件由如下第四公式表示,所述第四公式為:e = {[KemaxTPCiAKemaxTPC2A ,loc},其中,[Kemax TPCiAKemaxTPC2A 表 示事件的主題集合。7. -種基于主題模型的訂閱發(fā)布匹配裝置,應(yīng)用于位置感知的訂閱發(fā)布系統(tǒng),其特征 在于,包括: 第一分級模塊,其用于將位置感知訂閱發(fā)布系統(tǒng)中的訂閱集合根據(jù)每個訂閱的主題數(shù) 量分成多個互不相交的第一級子集; 第二分級模塊,其用于將所述每個第一級子集中的訂閱根據(jù)每個訂閱的關(guān)鍵主題分成 多個第二級子集; 空間索引樹建立模塊,其用于將所述每個第二級子集均根據(jù)該第二級子集中每個訂閱 的空間區(qū)域信息建立一空間索引樹; 過濾模塊,其用于所述位置感知訂閱發(fā)布系統(tǒng)中一事件流中的每個事件均根據(jù)該事件 的主題數(shù)量過濾掉和該事件不匹配的第二級子集; 篩選模塊,其用于篩選出關(guān)鍵主題出現(xiàn)在所述事件的主題集合中的第二級子集; 檢索模塊,其用于根據(jù)該事件的空間信息點檢索所述篩選出的第二級子集對應(yīng)的空間 索引樹,以獲取匹配每個第二級子集中每個訂閱的事件候選集; 判斷模塊,其用于所述每個訂閱均與匹配該訂閱的事件候選集中的所有事件一一進行 匹配時,判斷該訂閱的所有主題是否均出現(xiàn)在所述事件候選集中一事件或多個事件的主題 集合中; 確定模塊,若訂閱的所有主題均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集 合中,則所述確定模塊確定該訂閱與該事件與多個事件匹配; 若訂閱的所有主題不能均出現(xiàn)在所述事件候選集中一事件或多個事件的主題集合中, 則所述確定模塊確定該訂閱與該事件不匹配。8. 如權(quán)利要求7所述的基于主題模型的訂閱發(fā)布匹配裝置,其特征在于,還包括: 映射模塊,其用于通過主題模型LDA對位置感知訂閱發(fā)布系統(tǒng)中的每個訂閱和每個事 件的關(guān)鍵字集合進行主題映射,獲取該訂閱的主題集合和該事件的主題集合; 選取模塊,其用于從每個訂閱的主題集合中選取出在整個數(shù)據(jù)集中主題分布出現(xiàn)頻率 最小的主題作為該訂閱的關(guān)鍵主題; 計算模塊,其用于計算所述位置感知訂閱發(fā)布系統(tǒng)中每個訂閱的主題數(shù)量和每個事件 的主題數(shù)量。
【文檔編號】H04W8/18GK106060154SQ201610505159
【公開日】2016年10月26日
【申請日】2016年6月30日
【發(fā)明人】鮮學(xué)豐, 趙朋朋, 崔志明
【申請人】江蘇省現(xiàn)代企業(yè)信息化應(yīng)用支撐軟件工程技術(shù)研發(fā)中心