本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法。
背景技術(shù):
在現(xiàn)有技術(shù)中,用戶手持開啟WiFi的智能終端經(jīng)過WiFi覆蓋區(qū)域過程中,WiFi采集設(shè)備會(huì)采集用戶終端的WiFi數(shù)據(jù),主要包括MAC地址(Media Access Control,物理地址)、掃描時(shí)間和掃面設(shè)備的經(jīng)緯度。因此,一般WiFi掃描列表中的數(shù)據(jù)主要由掃描時(shí)間、掃描到的AP(Access Point,無(wú)線網(wǎng)絡(luò)接入點(diǎn))或MAC地址、信號(hào)強(qiáng)度以及相應(yīng)的SSID(Service Set Identifier,服務(wù)集標(biāo)識(shí))構(gòu)成,然而這其中并不包括顯示軌跡的坐標(biāo)信息。
此外,WiFi數(shù)據(jù)一方面無(wú)法像GPS那樣精確記錄用戶的實(shí)際地理坐標(biāo);另一方面WiFi數(shù)據(jù)記錄的位置點(diǎn)比較稀疏,不能向GPS那樣具有連續(xù)的位置點(diǎn)。因此,傳統(tǒng)的處理GPS軌跡數(shù)據(jù)的方法不能完全照搬到WiFi軌跡數(shù)據(jù)中。
一般用戶連接的WiFi多數(shù)是由固定AP發(fā)出,可以通過AP的部署位置獲知對(duì)應(yīng)的WiFi的坐標(biāo),因此通過WiFi來分析用戶的活動(dòng)軌跡規(guī)律有著潛在的應(yīng)用價(jià)值,而目前比較成熟的頻繁模式挖掘算法用于其中,同時(shí)現(xiàn)有挖掘算法大多數(shù)針對(duì)軌跡的空間規(guī)律,很少?gòu)臅r(shí)間和空間去考慮用戶在不同時(shí)間尺度(星期、時(shí)段)下的活動(dòng)規(guī)律,而這種時(shí)空規(guī)律對(duì)于頻繁軌跡和興趣區(qū)域的語(yǔ)義具有重要的參考價(jià)值。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法,提取用戶WiFi活動(dòng)軌跡,并從時(shí)間和空間兩個(gè)方面去考慮用戶在不同時(shí)間尺度(星期、時(shí)段)下的活動(dòng)規(guī)律。
為實(shí)現(xiàn)上述目的,本發(fā)明提出了一種分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法,包括以下步驟:
(a)軌跡提?。汉笈_(tái)服務(wù)器查詢模塊查詢后臺(tái)服務(wù)器數(shù)據(jù)庫(kù)中的用戶移動(dòng)端MAC地址所對(duì)應(yīng)的WiFi掃描記錄,所述WiFi掃描記錄為由多臺(tái)WiFi采集設(shè)備采集記錄并由所述WiFi采集設(shè)備上傳至所述后臺(tái)服務(wù)器數(shù)據(jù)庫(kù);
將所述WiFi掃描記錄按采集時(shí)間進(jìn)行排序獲得WiFi掃描軌跡E={ e1,e2,…,en },其中ei=<pi, ti>,i為自然數(shù),ei表示軌跡點(diǎn),pi表示地理位置,ti表示掃描時(shí)間;
(b)軌跡點(diǎn)預(yù)處理:后臺(tái)服務(wù)器的數(shù)據(jù)處理模塊依次遍歷WiFi掃描軌跡E,對(duì)任意連續(xù)的兩個(gè)軌跡點(diǎn)記錄ei和ei+1,如果pi = pi+1且ti+1- ti < Δt,則將所述ei和ei+1兩條記錄合并為一個(gè)復(fù)合軌跡點(diǎn)記錄ei'= <pi,tiin,tiout>,其中, tiin=ti, tiout= ti+1;由合并后的復(fù)合軌跡點(diǎn)記錄ei'組成WiFi掃描軌跡E'={ e1', e2',…,en'},其中ei'=<pi,tiin,tiout>,n為自然數(shù),pi表示地理位置,tiin表示ei'采集開始時(shí)間,tiout表示ei'采集結(jié)束時(shí)間;
(c)軌跡片段劃分:根據(jù)預(yù)定規(guī)則對(duì)步驟(b)中獲得的WiFi掃描軌跡E'進(jìn)行分割,獲得只包含有序位置軌跡點(diǎn)位置的多條軌跡片段,并由所述多條軌跡片段得到軌跡集合TR;
(d)頻繁軌跡提?。翰捎貌⑿兴惴ㄓ?jì)算步驟(b)中獲取的軌跡集合TR中的軌跡點(diǎn)pi出現(xiàn)頻率次數(shù),得到頻繁軌跡點(diǎn),進(jìn)而使用并行后綴樹算法實(shí)現(xiàn)頻繁軌跡提?。?/p>
(e)建立語(yǔ)義化模型:對(duì)頻繁軌跡產(chǎn)生時(shí)間的星期和小時(shí)進(jìn)行語(yǔ)義化定義;
(f)建立軌跡語(yǔ)義化:獲取頻繁軌跡的時(shí)間尺度頻率次數(shù)中次數(shù)最多的星期和小時(shí),根據(jù)語(yǔ)義化模型將軌跡路徑進(jìn)行分類,獲取頻繁軌跡的語(yǔ)義化模型。
進(jìn)一步的,在所述分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,所述預(yù)定規(guī)則包括規(guī)則一和規(guī)則二:
規(guī)則一:如果一個(gè)軌跡點(diǎn)<pi,tiin,tiout>的停留時(shí)間τi= tiout - tiin >Δt,則將軌跡在pi處進(jìn)行分割,且將地理位置點(diǎn)pi作為上一段軌跡片段的終點(diǎn)和下一段軌跡片段的起點(diǎn);
規(guī)則二:如果兩個(gè)軌跡點(diǎn)<pi,tiin,tiout>和<pi+1,ti+1in,ti+1out>的間隔時(shí)間τi'= ti+1in - tiout> Δt,則將軌跡在pi處進(jìn)行分割,其中pi作為上一段軌跡片段的終點(diǎn),pi+1作為下一段軌跡片段的起點(diǎn);
根據(jù)規(guī)則一或規(guī)則二對(duì)WiFi掃描軌跡E'進(jìn)行分割后獲得軌跡集合TR={TR1, TR2, …, TRn},其中第i條軌跡片段TRi= {pi1, pi2, … , pim},pim表示第i條軌跡片段中的用戶移動(dòng)端經(jīng)過的第m項(xiàng)軌跡點(diǎn)位置,pim對(duì)應(yīng)WiFi采集設(shè)備地理位置。
進(jìn)一步的,在所述分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,所述頻繁軌跡提取包括以下步驟:
步驟一,對(duì)步驟(b)中的每個(gè)項(xiàng)pim對(duì)應(yīng)的WiFi采集設(shè)備地理位置PI在TR中出現(xiàn)的頻率次數(shù)進(jìn)行計(jì)數(shù),然后將WiFi采集設(shè)備PI出現(xiàn)頻率次數(shù)進(jìn)行降序排序,并從TR中過濾出WiFi采集設(shè)備PI出現(xiàn)頻率次數(shù)大于最小支持度的項(xiàng)作為頻繁軌跡點(diǎn);
步驟二:采用均衡分組算法將步驟1中獲得的對(duì)應(yīng)頻繁軌跡點(diǎn)均勻地劃分到Q個(gè)分組中,平衡所有組內(nèi)的計(jì)算負(fù)載,其中Q為大于1的自然數(shù);
步驟三:獲得每條軌跡片段TRi的后綴模式,所述軌跡片段TRi的后綴{pi1, pi2, … , pim}包括多種組成模式,所述組成模式為將軌跡片段TRi中所有的有序軌跡點(diǎn)位置任意分成兩部分然后由后一部分有序軌跡點(diǎn)位置組成,一種所述組成模式為所述軌跡片段TRi的一種后綴模式;根據(jù)后綴模式中第一項(xiàng)是否為頻繁軌跡點(diǎn)來判斷所述后綴模式的分組,其中,若后綴模式中第一項(xiàng)為頻繁軌跡點(diǎn),則將所述后綴模式歸屬到其第一項(xiàng)對(duì)應(yīng)的頻繁軌跡點(diǎn)所在的分組;若后綴模式中第一項(xiàng)不是頻繁軌跡點(diǎn),則該后綴模式被自動(dòng)過濾不進(jìn)入任意分組中;
步驟四:對(duì)每個(gè)分組構(gòu)建一個(gè)后綴樹,獲得Q個(gè)后綴樹,由Q個(gè)后綴樹構(gòu)造并行后綴樹,對(duì)并行后綴樹進(jìn)行并行處理;后綴樹的創(chuàng)建為首先建立樹的根節(jié)點(diǎn),然后掃描同一個(gè)分組內(nèi)的所有TRi的后綴模式,并對(duì)每個(gè)后綴模式創(chuàng)建分枝,所述后綴模式中任意軌跡點(diǎn)位置pim為所述后綴模式分枝的節(jié)點(diǎn),將所有的后綴模式分枝連接到根節(jié)點(diǎn),獲得每個(gè)分組的后綴樹,并對(duì)所述后綴樹進(jìn)行壓縮處理;
步驟五:對(duì)后綴樹每個(gè)后綴樹模式分枝內(nèi)有序的各節(jié)點(diǎn)依次計(jì)數(shù),通過節(jié)點(diǎn)的計(jì)數(shù)與最小支持度的比較確定頻繁軌跡片段,即若某一節(jié)點(diǎn)的計(jì)數(shù)小于最小支持度則停止對(duì)所述后綴樹模式分枝內(nèi)后續(xù)節(jié)點(diǎn)的計(jì)數(shù)且所述計(jì)數(shù)小于最小支持度時(shí)的節(jié)點(diǎn)前面所有節(jié)點(diǎn)組合形成一條頻繁軌跡片段;或者若所述后綴模式分枝所有節(jié)點(diǎn)的計(jì)數(shù)均滿足大于等于最小支持度則所述后綴模式分枝為頻繁軌跡片段,由頻繁軌跡片段組成頻繁軌跡。
進(jìn)一步的,在所述分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,所述最小支持度為頻率次數(shù)閾值,所述頻率次數(shù)閾值根據(jù)環(huán)境進(jìn)行設(shè)置。
進(jìn)一步的,在所述分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,對(duì)所述TRi的后綴模式形成的后綴樹進(jìn)行壓縮處理方法為:所述后綴模式分枝內(nèi)某一節(jié)點(diǎn)后的節(jié)點(diǎn)均為其子節(jié)點(diǎn),若后綴模式分枝內(nèi)的節(jié)點(diǎn)只有一個(gè)子節(jié)點(diǎn),且滿足該節(jié)點(diǎn)的計(jì)數(shù)與該節(jié)點(diǎn)的子節(jié)點(diǎn)的計(jì)數(shù)相同,則將該節(jié)點(diǎn)與其子節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn)。
進(jìn)一步的,在所述分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,根據(jù)頻繁軌跡產(chǎn)生時(shí)間的星期和小時(shí)建立語(yǔ)義化模型,其中將星期分為工作日和休息日,當(dāng)星期為工作日時(shí),小時(shí)分為n個(gè)時(shí)間段,對(duì)n個(gè)時(shí)間段分別語(yǔ)義化定義n個(gè)事件;當(dāng)星期為休息日時(shí),小時(shí)分為m個(gè)時(shí)間段,對(duì)m個(gè)時(shí)間段分別語(yǔ)義化定義m個(gè)事件。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:根據(jù)MAC的活動(dòng)規(guī)律軌跡可以得到MAC的常駐區(qū)域,對(duì)活動(dòng)規(guī)律軌跡的時(shí)間進(jìn)行分析,可以預(yù)測(cè)目標(biāo)對(duì)象在哪個(gè)時(shí)間段可能出現(xiàn)在哪些區(qū)域,也可以查詢與該MAC具有相似活動(dòng)軌跡規(guī)律的MAC集。可以對(duì)挖掘出來的軌跡進(jìn)行語(yǔ)義化,找出用戶的一些通勤模式,比如上下班路線;可以對(duì)挖掘出來的興趣區(qū)域進(jìn)行語(yǔ)義化,找出用戶的上班區(qū)域、住宅區(qū)域。
構(gòu)建在大數(shù)據(jù)平臺(tái)上能處理大量的數(shù)據(jù),通過Flume實(shí)時(shí)采集數(shù)據(jù)、HDFS、Hbase存儲(chǔ)、Spark分析處理、ElasticSearch查詢檢索以及并行化的后綴樹算法實(shí)現(xiàn)的大規(guī)模分布式處理平臺(tái),能夠快速準(zhǔn)確的找出MAC地址的活動(dòng)軌跡規(guī)律。
附圖說明
圖1為本發(fā)明一實(shí)施例中分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法示意圖。
具體實(shí)施方式
下面將結(jié)合示意圖對(duì)本發(fā)明的分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法進(jìn)行更詳細(xì)的描述,其中表示了本發(fā)明的優(yōu)選實(shí)施例,應(yīng)該理解本領(lǐng)域技術(shù)人員可以修改在此描述的本發(fā)明,而仍然實(shí)現(xiàn)本發(fā)明的有利效果。因此,下列描述應(yīng)當(dāng)被理解為對(duì)于本領(lǐng)域技術(shù)人員的廣泛知道,而并不作為對(duì)本發(fā)明的限制。
如圖1所示,本發(fā)明提出了一種分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法,包括以下步驟:
(a)軌跡提?。汉笈_(tái)服務(wù)器查詢模塊查詢后臺(tái)服務(wù)器數(shù)據(jù)庫(kù)中的用戶移動(dòng)端MAC地址所對(duì)應(yīng)的WiFi掃描記錄,所述WiFi掃描記錄為由多臺(tái)WiFi采集設(shè)備采集記錄并由所述WiFi采集設(shè)備上傳至所述后臺(tái)服務(wù)器數(shù)據(jù)庫(kù);
將所述WiFi掃描記錄按采集時(shí)間進(jìn)行排序獲得WiFi掃描軌跡E={ e1,e2,…,en },其中ei=<pi, ti>,i為自然數(shù),ei表示軌跡點(diǎn),pi表示地理位置,ti表示掃描時(shí)間;
(b)軌跡點(diǎn)預(yù)處理:后臺(tái)服務(wù)器的數(shù)據(jù)處理模塊依次遍歷WiFi掃描軌跡E,對(duì)任意連續(xù)的兩個(gè)軌跡點(diǎn)記錄ei和ei+1,如果pi = pi+1且ti+1- ti < Δt,則將所述ei和ei+1兩條記錄合并為一個(gè)復(fù)合軌跡點(diǎn)記錄ei'= <pi,tiin,tiout>,其中, tiin=ti, tiout= ti+1;由合并后的復(fù)合軌跡點(diǎn)記錄ei'組成WiFi掃描軌跡E'={ e1', e2',…,en'},其中ei'=<pi,tiin,tiout>,n為自然數(shù),pi表示地理位置,tiin表示ei'采集開始時(shí)間,tiout表示ei'采集結(jié)束時(shí)間;
(c)軌跡片段劃分:根據(jù)預(yù)定規(guī)則對(duì)步驟(b)中獲得的WiFi掃描軌跡E'進(jìn)行分割,獲得只包含有序位置信息的多條軌跡片段,并由所述多條軌跡片段得到軌跡集合TR;
(d)頻繁軌跡提?。翰捎貌⑿兴惴ㄓ?jì)算步驟(b)中獲取的軌跡集合TR中的軌跡點(diǎn)pi出現(xiàn)頻率次數(shù),得到頻繁軌跡點(diǎn),進(jìn)而使用并行后綴樹算法實(shí)現(xiàn)頻繁軌跡提??;
(e)建立語(yǔ)義化模型:對(duì)頻繁軌跡產(chǎn)生時(shí)間的星期和小時(shí)進(jìn)行語(yǔ)義化定義;
(f)建立軌跡語(yǔ)義化:獲取頻繁軌跡的時(shí)間尺度頻率次數(shù)中次數(shù)最多的星期和小時(shí),根據(jù)語(yǔ)義化模型將軌跡路徑進(jìn)行分類,獲取頻繁軌跡的語(yǔ)義化模型。
其中,在本實(shí)施例中,所述預(yù)定規(guī)則包括規(guī)則一和規(guī)則二:
規(guī)則一:如果一個(gè)軌跡點(diǎn)<pi,tiin,tiout>的停留時(shí)間τi= tiout - tiin >Δt,則將軌跡在pi處進(jìn)行分割,且將地理位置點(diǎn)pi作為上一段軌跡片段的終點(diǎn)和下一段軌跡片段的起點(diǎn);
規(guī)則二:如果兩個(gè)軌跡點(diǎn)<pi,tiin,tiout>和<pi+1,ti+1in,ti+1out>的間隔時(shí)間τi'= ti+1in - tiout> Δt,則將軌跡在pi處進(jìn)行分割,其中pi作為上一段軌跡片段的終點(diǎn),pi+1作為下一段軌跡片段的起點(diǎn)。
在本實(shí)施例中,根據(jù)上述規(guī)則一或規(guī)則二對(duì)WiFi掃描軌跡E'進(jìn)行分割后獲得軌跡集合TR={TR1, TR2, …, TRn},其中第i條軌跡片段TRi= {pi1, pi2, … , pim},pim表示第i條軌跡片段中的用戶移動(dòng)端經(jīng)過的第m項(xiàng)軌跡點(diǎn)位置,pim對(duì)應(yīng)WiFi采集設(shè)備地理位置。
具體的,在本實(shí)施例中,所述頻繁軌跡提取的方法包括以下步驟:
步驟一,對(duì)步驟(b)中的每個(gè)項(xiàng)pim對(duì)應(yīng)的WiFi采集設(shè)備地理位置PI在TR中出現(xiàn)的頻率次數(shù)進(jìn)行計(jì)數(shù),然后將WiFi采集設(shè)備PI出現(xiàn)頻率次數(shù)進(jìn)行降序排序,并從TR中過濾出WiFi采集設(shè)備PI出現(xiàn)頻率次數(shù)大于最小支持度的項(xiàng)作為頻繁軌跡點(diǎn),其中,所述最小支持度為頻率次數(shù)閾值,所述頻率次數(shù)閾值根據(jù)環(huán)境進(jìn)行設(shè)置;
步驟二,采用均衡分組算法將步驟1中獲得的對(duì)應(yīng)頻繁軌跡點(diǎn)均勻地劃分到Q個(gè)分組中,平衡所有組內(nèi)的計(jì)算負(fù)載,其中Q為大于1的自然數(shù);
步驟三,獲得每條軌跡片段TRi的后綴模式,所述軌跡片段TRi的后綴{pi1, pi2, … , pim}包括多種組成模式,所述組成模式為將軌跡片段TRi中所有序軌跡點(diǎn)位置任意分成兩部分然后由后一部分有序軌跡點(diǎn)位置組成,一種所述組成模式為所述軌跡片段TRi的一種后綴模式,如TRi={b,a,n,a,n,a},則TRi的多種后綴模式包括:{b,a,n,a,n,a};{ a,n,a,n,a };{ n,a,n,a };{ a,n,a };{ n,a };{ a },后綴模式中第一項(xiàng)是頻繁軌跡點(diǎn),則將所述后綴模式歸屬到后綴模式中第一項(xiàng)所在的分組,后綴模式中第一項(xiàng)不是頻繁軌跡點(diǎn),則將所述后綴模式過濾掉,不進(jìn)入分組。例如:(1)a為頻繁軌跡點(diǎn)且a被分在Q1組中,n為頻繁軌跡點(diǎn)且被分在Q2組中,則后綴模式{ a,n,a,n,a }被分在Q1組中,{ n,a,n,a }被分在Q2組中;(2)a為頻繁軌跡點(diǎn)且a被分在Q1組中,n不是頻繁軌跡點(diǎn),則后綴模式{ n,a,n,a }被直接過濾掉不進(jìn)入任意分組,{ a,n,a }被分在Q1組中。
步驟四,對(duì)每個(gè)分組構(gòu)建一個(gè)后綴樹,獲得Q個(gè)后綴樹,由Q個(gè)后綴樹構(gòu)造形成并行后綴樹,對(duì)并行后綴樹進(jìn)行并行處理,即對(duì)Q個(gè)后綴樹同時(shí)進(jìn)行計(jì)算處理;其中,后綴樹的創(chuàng)建首先需要建立樹的根節(jié)點(diǎn),然后掃描同一個(gè)分組內(nèi)的所有軌跡片段TRi的后綴模式,并對(duì)每個(gè)后綴模式創(chuàng)建分枝,所述后綴模式中任意軌跡點(diǎn)位置pim為所述后綴模式分枝的節(jié)點(diǎn),將所有的后綴模式分枝連接到根節(jié)點(diǎn),獲得每個(gè)分組的后綴樹,并對(duì)所述后綴樹進(jìn)行壓縮處理。所述壓縮處理方法為:若后綴模式分枝內(nèi)的節(jié)點(diǎn)只有一個(gè)子節(jié)點(diǎn),且滿足該節(jié)點(diǎn)的計(jì)數(shù)與該節(jié)點(diǎn)的子節(jié)點(diǎn)的計(jì)數(shù)相同,則將該節(jié)點(diǎn)與其子節(jié)點(diǎn)合并為一個(gè)節(jié)點(diǎn)。其中子節(jié)點(diǎn)定義為所述后綴模式分枝內(nèi)某一節(jié)點(diǎn)后的節(jié)點(diǎn)均為其子節(jié)點(diǎn),如后綴樹模式{ n,a,n,a }中,第一個(gè)n的子節(jié)點(diǎn)包括三個(gè),且依次為其后的a,n,a;第二個(gè)n的子節(jié)點(diǎn)僅包含一個(gè)為其后的a。
步驟五,對(duì)后綴樹每個(gè)后綴樹模式分枝內(nèi)有序的各節(jié)點(diǎn)依次計(jì)數(shù),通過計(jì)數(shù)與最小支持度的比較確定頻繁軌跡片段,即若某一節(jié)點(diǎn)的計(jì)數(shù)小于最小支持度則停止對(duì)所述后綴樹模式分枝內(nèi)后續(xù)節(jié)點(diǎn)的計(jì)數(shù),所述計(jì)數(shù)小于最小支持度時(shí)的節(jié)點(diǎn)前面所有節(jié)點(diǎn)組合形成一條頻繁軌跡片段;或者若所述后綴模式分枝所有節(jié)點(diǎn)的計(jì)數(shù)均滿足大于等于最小支持度則所述后綴模式分枝形成一條頻繁軌跡片段,由頻繁軌跡片段組成頻繁軌跡。例如:(1)后綴樹模式分枝{ a,n,a,n,a },其中節(jié)點(diǎn)a,n,a,n和a各自的計(jì)數(shù)均滿足大于等于最小支持度,則后綴樹模式分枝{ a,n,a,n,a }為一條頻繁軌跡片段;(2)后綴樹模式分枝{ a,b,c,d,e },其中節(jié)點(diǎn)a,b,c各自的計(jì)數(shù)均滿足大于等于最小支持度而節(jié)點(diǎn)d的計(jì)數(shù)小于最小支持度,則不再對(duì)節(jié)點(diǎn)e進(jìn)行計(jì)數(shù),且由{a,b,c}形成一條頻繁軌跡片段。
優(yōu)選地,在本實(shí)施例中,在所述分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,根據(jù)頻繁軌跡產(chǎn)生時(shí)間的星期(week)和小時(shí)(hour)建立語(yǔ)義化模型,其中將星期分為工作日和休息日,當(dāng)星期為工作日時(shí),小時(shí)分為n個(gè)時(shí)間段,對(duì)n個(gè)時(shí)間段分別語(yǔ)義化定義n個(gè)事件;當(dāng)星期為休息日時(shí),小時(shí)分為m個(gè)時(shí)間段,對(duì)m個(gè)時(shí)間段分別語(yǔ)義化定義m個(gè)事件,例如:
a)week 為工作日
n1. hour 在7-10點(diǎn)之間 n1 上班路線
n2. hour 在17-20點(diǎn)之間 n2 下班路線
n3. hour 在11-13點(diǎn)之間 n3 午餐時(shí)間
n4. hour 在其它時(shí)間 n4 其他
b)week 為休息日
m1. hour 在7-9點(diǎn)之間 m1 早餐
m2. hour 在11-13點(diǎn)之間 m2 午餐時(shí)間
m3. hour 在18-20點(diǎn)之間 m3 晚餐時(shí)間
m4. hour 在其它時(shí)間 m4 其他
分析頻繁軌跡的時(shí)間規(guī)律,統(tǒng)計(jì)記錄的week和hour的出現(xiàn)的次數(shù),根據(jù)得到出現(xiàn)次數(shù)多的week和hour的語(yǔ)義化獲得軌跡的語(yǔ)義化。例如week為工作日且hour在7~10點(diǎn)之間出現(xiàn)的次數(shù)較多,根據(jù)語(yǔ)義化模型就可以將week為工作日且hour在7~10點(diǎn)之間語(yǔ)義化為上班路線的軌跡,通過上班路線軌跡的起點(diǎn)和終點(diǎn)可以判斷為家庭住址和工作地點(diǎn)附近。
綜上,在本發(fā)明實(shí)施例提供的分析用戶WiFi活動(dòng)軌跡規(guī)律的分布式實(shí)現(xiàn)方法中,根據(jù)MAC的活動(dòng)規(guī)律軌跡可以得到MAC的常駐區(qū)域,對(duì)活動(dòng)規(guī)律軌跡的時(shí)間進(jìn)行分析,可以預(yù)測(cè)目標(biāo)對(duì)象在哪個(gè)時(shí)間段可能出現(xiàn)在哪些區(qū)域,也可以查詢與該MAC具有相似活動(dòng)軌跡規(guī)律的MAC集??梢詫?duì)挖掘出來的軌跡進(jìn)行語(yǔ)義化,找出用戶的一些通勤模式,比如上下班路線;可以對(duì)挖掘出來的興趣區(qū)域進(jìn)行語(yǔ)義化,找出用戶的上班區(qū)域、住宅區(qū)域。
構(gòu)建在大數(shù)據(jù)平臺(tái)上能處理大量的數(shù)據(jù),通過Flume實(shí)時(shí)采集數(shù)據(jù)、HDFS、Hbase存儲(chǔ)、Spark分析處理、ElasticSearch查詢檢索以及并行化的后綴樹算法實(shí)現(xiàn)的大規(guī)模分布式處理平臺(tái),能夠快速準(zhǔn)確的找出MAC地址的活動(dòng)軌跡規(guī)律。
上述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不對(duì)本發(fā)明起到任何限制作用。任何所屬技術(shù)領(lǐng)域的技術(shù)人員,在不脫離本發(fā)明的技術(shù)方案的范圍內(nèi),對(duì)本發(fā)明揭露的技術(shù)方案和技術(shù)內(nèi)容做任何形式的等同替換或修改等變動(dòng),均屬未脫離本發(fā)明的技術(shù)方案的內(nèi)容,仍屬于本發(fā)明的保護(hù)范圍之內(nèi)。