一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法和系統(tǒng),所述方法包括:根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)獲取該社交網(wǎng)絡(luò)用戶的地理位置信息,并且獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表;以及將所述周邊單位名稱列表中的每個(gè)單位名稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱。本發(fā)明可根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)將該用戶映射到一個(gè)或多個(gè)工作單位,提高了社交網(wǎng)絡(luò)用戶虛實(shí)映射的精確度。
【專利說(shuō)明】一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘分析領(lǐng)域,尤其涉及一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡(luò)在人們生活中扮演著重要的角色,微博、微信、人人網(wǎng)等已經(jīng)成為人們獲取信息、展示自我和營(yíng)銷推廣的重要手段。通過(guò)社交網(wǎng)絡(luò),人們可以方便地以虛擬身份自由發(fā)表觀點(diǎn)和意見,每個(gè)人都是信息的生產(chǎn)者和消費(fèi)者,形成“自媒體”。匿名的社交網(wǎng)絡(luò)在一定程度上保護(hù)了用戶的隱私,但同樣也帶來(lái)了很多問(wèn)題。比如,不易追蹤網(wǎng)絡(luò)虛假消息的發(fā)布者、不易定位危害國(guó)家治安言論的發(fā)布者、不易在網(wǎng)絡(luò)中追查違法犯罪行為等。盡管我國(guó)推出了網(wǎng)絡(luò)實(shí)名制注冊(cè)政策,但面對(duì)無(wú)邊界的網(wǎng)絡(luò)社會(huì),實(shí)名制需要全國(guó)統(tǒng)一,甚至需要與世界接軌,因此在實(shí)施過(guò)程中困難重重。此外,即使是采用了實(shí)名制注冊(cè)也是后臺(tái)實(shí)名,而前臺(tái)顯示仍使用昵稱的匿名形式。因此,在網(wǎng)絡(luò)的虛擬性、匿名性等特征下,根據(jù)用戶在社交網(wǎng)絡(luò)中的虛擬身份來(lái)識(shí)別用戶的真實(shí)身份,即實(shí)現(xiàn)用戶的虛實(shí)映射,具有積極的社會(huì)意義。
[0003]目前,針對(duì)社交網(wǎng)絡(luò)中用戶虛實(shí)映射的研究主要包括以下兩個(gè)方面:一類是基于網(wǎng)絡(luò)IP地址定位網(wǎng)絡(luò)設(shè)備,如通過(guò)分析移動(dòng)設(shè)備IP地址,網(wǎng)絡(luò)設(shè)備IP地址及臺(tái)式電腦IP地址等來(lái)獲取設(shè)備所在的省市信息;另一類是通過(guò)人物特征屬性對(duì)某個(gè)用戶群體進(jìn)行識(shí)別,用戶的特征屬性可以包括性別、年齡段、居住地、畢業(yè)院校、性格、星座、愛好、職業(yè)等,通過(guò)挖掘網(wǎng)絡(luò)數(shù)據(jù)來(lái)識(shí)別用戶特征屬性,可以將擁有相同或相似特征屬性的用戶群挖掘出來(lái),以便為網(wǎng)絡(luò)營(yíng)銷、電商廣告提供服務(wù)。
[0004]然而,由于實(shí)踐中難以獲得社交網(wǎng)絡(luò)用戶的IP信息,因此前一類方法的適用范圍受到一定限制,不能滿足IP缺失的社交網(wǎng)絡(luò)用戶的虛實(shí)映射需求;而第二類方法面向擁有相似特征的用戶群,并不是面向個(gè)人用戶,其偏向于挖掘用戶的特征屬性分類,并不能識(shí)別用戶的真實(shí)身份。
【發(fā)明內(nèi)容】
[0005]為解決現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法,所述方法包括:
[0006]步驟I)、根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)獲取該社交網(wǎng)絡(luò)用戶的地理位置信息,并且獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表;
[0007]步驟2)、將所述周邊單位名稱列表中的每個(gè)單位名稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱。
[0008]在一個(gè)實(shí)施例中,步驟I)還包括:對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞,得到該單位名稱的分詞結(jié)果。
[0009]在一個(gè)實(shí)施例中,在步驟2)中,將周邊單位名稱列表中的每個(gè)單位名稱與社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配包括:
[0010]步驟21)、將每個(gè)單位名稱的全稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,如果匹配成功則使用下式計(jì)算該單位名稱的近似度權(quán)重:
[0011]weight (str) = word, size (str) *factormatchtlme(sstr)
[0012]其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word,size (str)表示單位名稱的長(zhǎng)度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù);
[0013]步驟22)、如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個(gè)分詞與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,將每個(gè)分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
[0014]在一個(gè)實(shí)施例中,步驟2 )還包括:
[0015]步驟23)、合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫(kù)中或者其長(zhǎng)度達(dá)到預(yù)定長(zhǎng)度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫(kù)用于存放指示地理位置的前綴詞。
[0016]在進(jìn)一步的實(shí)施例中,步驟23)包括:
[0017]步驟231)、對(duì)于一種近似度權(quán)重,新建一棵Trie樹;
[0018]步驟232)、將具有該近似度權(quán)重的單位名稱插入所述Trie樹,得到具有共同的最大前綴的單位名稱;
[0019]步驟233)、如果該共同的最大前綴包含在前綴詞庫(kù)中或者其長(zhǎng)度達(dá)到預(yù)定長(zhǎng)度,則合并具有該共同的最大前綴且具有該近似度權(quán)重的單位名稱;其中,合并后的單位名稱為該共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫(kù)用于存放指示地理位置的前綴詞;
[0020]步驟234)、銷毀所述Trie樹;
[0021]步驟235)、對(duì)于未處理的近似度權(quán)重,返回步驟231)進(jìn)行處理。
[0022]在一個(gè)實(shí)施例中,步驟2 )還包括:
[0023]步驟24)、合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個(gè),其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和。
[0024]在一個(gè)實(shí)施例中,在步驟2)中,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱包括:將單位名稱按照近似度權(quán)重進(jìn)行降序排列,選擇前N個(gè)單位名稱并推送;其中N為正整數(shù)。
[0025]在一個(gè)實(shí)施例中,對(duì)周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞包括:對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行中文分詞,刪除長(zhǎng)度為一個(gè)字的分詞;以及對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行二元組分詞。
[0026]在一個(gè)實(shí)施例中,對(duì)周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞還包括:如果對(duì)單位名稱進(jìn)行分詞后得到的分詞具有別名,則將該別名加入該單位名稱的分詞結(jié)果。
[0027]在一個(gè)實(shí)施例中,步驟I)包括:
[0028]步驟11)、根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)從社交網(wǎng)絡(luò)服務(wù)器獲取關(guān)于該社交網(wǎng)絡(luò)用戶的返回信息,從中得到該社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容和地理位置信息;[0029]步驟12)、根據(jù)所述社交網(wǎng)絡(luò)用戶的地理位置信息從社交網(wǎng)絡(luò)服務(wù)器獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表。其中社交網(wǎng)絡(luò)用戶的地理位置信息包括該社交網(wǎng)絡(luò)用戶發(fā)布消息的地理位置信息和該社交網(wǎng)絡(luò)用戶簽到的地理位置信息。
[0030]在進(jìn)一步的實(shí)施例中,步驟11)還包括:統(tǒng)一所述社交網(wǎng)絡(luò)用戶的地理位置信息的精確度;以及按照出現(xiàn)次數(shù)降序排序所述社交網(wǎng)絡(luò)用戶的地理位置信息,選擇前M個(gè)地理位置信息;其中M為正整數(shù)。
[0031]在進(jìn)一步的實(shí)施例中,步驟12)包括:根據(jù)所選擇的M個(gè)地理位置信息,從社交網(wǎng)絡(luò)服務(wù)器獲取對(duì)應(yīng)的地理位置的周邊單位名稱列表。
[0032]根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供一種社交網(wǎng)絡(luò)用戶虛實(shí)映射系統(tǒng),包括:
[0033]社交網(wǎng)絡(luò)用戶地理特征獲取設(shè)備,用于根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)獲取該社交網(wǎng)絡(luò)用戶的地理位置信息,并且獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表;以及
[0034]社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備,用于將所述周邊單位名稱列表中的每個(gè)單位名稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱。
[0035]在一個(gè)實(shí)施例中,所述系統(tǒng)還包括:
[0036]社交網(wǎng)絡(luò)用戶地理信息處理設(shè)備,用于對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞,得到該單位名稱的分詞結(jié)果。
[0037]在一個(gè)實(shí)施例中,所述社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備用于將每個(gè)單位名稱的全稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,如果匹配成功則使用下式計(jì)算該單位名稱的近似度權(quán)重:
[0038]weight (str) = word, size (str) *factormatchtlme(sstr)
[0039]其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word,size (str)表示單位名稱的長(zhǎng)度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù);如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個(gè)分詞與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,將每個(gè)分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
[0040]在一個(gè)實(shí)施例中,所述社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備還用于合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫(kù)中或者其長(zhǎng)度達(dá)到預(yù)定長(zhǎng)度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫(kù)用于存放指示地理位置的前綴詞。[0041 ] 在一個(gè)實(shí)施例中,所述社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備還用于合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個(gè),其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和。
[0042]采用本發(fā)明可以達(dá)到如下的有益效果:
[0043]本發(fā)明可根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)將該社交網(wǎng)絡(luò)用戶映射到一個(gè)或多個(gè)工作單位,實(shí)現(xiàn)了社交網(wǎng)絡(luò)用戶到其工作單位的虛實(shí)映射。根據(jù)從社交網(wǎng)絡(luò)用戶地理位置信息得到的單位名稱與該用戶發(fā)布的消息內(nèi)容的匹配程度來(lái)計(jì)算每個(gè)單位名稱的可能性,提高了識(shí)別社交網(wǎng)絡(luò)用戶工作單位的準(zhǔn)確性。對(duì)具有共同的最大前綴以及相同或互為別名的工作單位名稱進(jìn)行聚合,極大程度地減少了冗余重復(fù),進(jìn)一步提高了社交網(wǎng)絡(luò)用戶虛實(shí)映射的準(zhǔn)確性。此外,地理位置信息除了考慮用戶發(fā)布消息的位置,還考慮了用戶的簽到位置,同樣提高了用戶虛實(shí)映射的準(zhǔn)確性。
【專利附圖】
【附圖說(shuō)明】
[0044]圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的社交網(wǎng)絡(luò)用戶虛實(shí)映射方法的流程圖;
[0045]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的單位名稱聚合方法的流程圖;
[0046]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的構(gòu)建前綴樹的方法示意圖;以及
[0047]圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的社交網(wǎng)絡(luò)用戶虛實(shí)映射系統(tǒng)的框圖。
【具體實(shí)施方式】
[0048]下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0049]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法。概括而言,該方法首先根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)在社交網(wǎng)絡(luò)服務(wù)器上獲取該用戶的地理位置信息,并且利用獲取的地理位置信息在社交網(wǎng)絡(luò)服務(wù)器上獲取周邊的單位名稱列表;其次,根據(jù)所獲取的每個(gè)單位名稱與該用戶發(fā)布的消息內(nèi)容(例如,用戶的發(fā)言內(nèi)容、發(fā)表的博文內(nèi)容等)的匹配程度得到每個(gè)單位名稱的近似度權(quán)重;接著,對(duì)周邊單位名稱列表中的單位名稱進(jìn)行聚合,以基于聚合后的近似度權(quán)重來(lái)推送一個(gè)或多個(gè)工作單位名稱。參考圖1并以微博用戶為例,該方法可使用以下步驟進(jìn)行描述:
[0050]步驟SlOl:輸入微博用戶的唯一標(biāo)識(shí)
[0051]步驟S102:獲取該微博用戶發(fā)布的消息內(nèi)容(即發(fā)表的博文內(nèi)容)和地理位置信息
[0052]在一個(gè)實(shí)施例中,可根據(jù)輸入的微博用戶唯一標(biāo)識(shí)向社交網(wǎng)絡(luò)服務(wù)器(在本實(shí)施例中為微博服務(wù)器)發(fā)出請(qǐng)求,獲得批準(zhǔn)后,在該微博服務(wù)器上抓取微博用戶發(fā)表的博文內(nèi)容和地理位置信息。如果沒(méi)有抓取到關(guān)于該微博用戶的博文內(nèi)容或地理位置的信息,則虛實(shí)映射過(guò)程結(jié)束;如果抓取成功,則由微博服務(wù)器返回包括用戶的博文內(nèi)容、發(fā)表博文的地理位置以及用戶簽到的地理位置等返回信息,其中后面兩種信息構(gòu)成微博用戶的地理位置信息。在進(jìn)一步的實(shí)施例中,可以僅抓取特定時(shí)間區(qū)間內(nèi)的信息,例如抓取工作時(shí)間段內(nèi)的信息。
[0053]在一個(gè)實(shí)施例中,在抓取成功并獲得返回信息后,可首先統(tǒng)一地理位置信息的精確度。例如,由于地理位置信息通常表示為經(jīng)緯度,則可以統(tǒng)一經(jīng)緯度數(shù)據(jù)的小數(shù)點(diǎn)后的位數(shù)。繼而統(tǒng)計(jì)微博用戶的每個(gè)地理位置信息出現(xiàn)的次數(shù),將該出現(xiàn)次數(shù)作為指標(biāo)對(duì)地理位置信息進(jìn)行降序排序,選取前N個(gè)作為頻繁地理位置信息。
[0054]步驟S103:獲取周邊單位名稱列表
[0055]將上一步中獲取的地理位置信息,逐條發(fā)送給微博服務(wù)器,定位該地理位置信息對(duì)應(yīng)的地理位置并且獲取該地理位置的周邊單位名稱列表。在另一個(gè)實(shí)施例中,可以將頻繁地理位置信息逐條發(fā)送給微博服務(wù)器,并且獲取對(duì)應(yīng)的周邊單位名稱列表。
[0056]步驟S104:對(duì)獲取到的周邊單位名稱列表進(jìn)行分詞
[0057]在一個(gè)實(shí)施例中,可采用本領(lǐng)域技術(shù)人員公知的分詞方法對(duì)周邊單位名稱列表中的單位名稱進(jìn)行分詞,得到每個(gè)單位名稱對(duì)應(yīng)的分詞結(jié)果(包括一個(gè)或多個(gè)分詞,其中分詞可包括單位名稱的全稱)。舉例來(lái)說(shuō),如果單位名稱為Entity B,則其分詞結(jié)果可包括:Entity B、Entity 以及 B。
[0058]在一個(gè)優(yōu)選的實(shí)施例中,可首先對(duì)周邊單位名稱列表中的單位名稱進(jìn)行中文分詞,在中文分詞結(jié)束后再繼續(xù)對(duì)這些單位名稱進(jìn)行二元組分詞。其中,中文分詞過(guò)程結(jié)束后,可移除長(zhǎng)度為單個(gè)字的那些分詞。
[0059]在一個(gè)實(shí)施例中,在中文分詞過(guò)程中還可以參考用戶詞典,參考用戶詞典可使分詞結(jié)果更符合客戶需要。其中,用戶詞典是指用戶維護(hù)的一個(gè)詞典,參考該詞典是指用戶在分詞過(guò)程中將特定的詞分成一個(gè)分詞,而不是按照默認(rèn)的方法進(jìn)行分詞。
[0060]在另一個(gè)實(shí)施例中,如果在分詞過(guò)程中發(fā)現(xiàn)得到的某個(gè)分詞在別名詞庫(kù)中擁有別名(例如單位名稱縮略詞),則將該分詞的所有別名也加入該單位名稱對(duì)應(yīng)的分詞結(jié)果中。其中,別名詞庫(kù)是由用戶維護(hù)的一個(gè)詞庫(kù),用于保存多個(gè)單位名稱的別名,其幫助識(shí)別分詞和信息處理過(guò)程中擁有別名的實(shí)體和互為別名的實(shí)體,以達(dá)到提高匹配效率的目的。
[0061]步驟S105:計(jì)算每個(gè)單位名稱的近似度權(quán)重
[0062]在周邊單位名稱列表的分詞過(guò)程結(jié)束后,可計(jì)算該周邊單位名稱列表中的每個(gè)單位名稱的近似度權(quán)重,即計(jì)算單位名稱與微博用戶發(fā)表的博文內(nèi)容的匹配程度。
[0063]在一個(gè)實(shí)施例中,可首先將單位名稱對(duì)應(yīng)的分詞結(jié)果與博文內(nèi)容進(jìn)行匹配,能夠完全匹配的單位名稱的近似度權(quán)重高,而基本匹配的單位名稱的近似度權(quán)重低。其中,完全匹配表示單位名稱的全稱在博 文內(nèi)容中得到匹配(如Entity B成功匹配);而基本匹配表示單位名稱的分詞結(jié)果中的分詞(不包括單位名稱的全稱)在博文內(nèi)容中得到匹配(如Entity或B成功匹配)。
[0064]在一個(gè)實(shí)施例中,可根據(jù)下式來(lái)計(jì)算完全匹配的單位名稱的近似度權(quán)重:
[0065]weight (str) = word, size (str) *factormatchtlme(sstr) (I)
[0066]其中,str代表輸入字符串,例如單位名稱;weight (str)代表輸入字符串的近似度權(quán)重,word, size (str)代表輸入字符串的長(zhǎng)度,factor代表乘數(shù)因子,matchtimes (str)代表輸入字符串與博文內(nèi)容的匹配次數(shù)。假定輸入字符串為Entity B,則word, size等于8,設(shè)置乘數(shù)因子為1.1,如果完全匹配次數(shù)為10次,那么計(jì)算得到的近似度權(quán)重約為20。
[0067]在另一個(gè)實(shí)施例中,計(jì)算基本匹配的單位名稱的近似度權(quán)重包括:計(jì)算該單位名稱對(duì)應(yīng)的分詞結(jié)果中每個(gè)分詞(不包括整個(gè)單位名稱全稱)與博文內(nèi)容的匹配次數(shù)之和。
[0068]舉例來(lái)說(shuō),假定輸入的某微博用戶的唯一標(biāo)識(shí)為A,由A獲取的周邊單位名稱列表中包括 Entity B、Entity C、Entity D 等,并且其中,
[0069]Entity B 的分詞結(jié)果是 Entity B, Entity, B ;
[0070]Entity C 的分詞結(jié)果是 Entity C, Entity, C ;
[0071]Entity D 的分詞結(jié)果是 Entity D, Entity, D......[0072]則可采用如下算法來(lái)計(jì)算單位名稱的近似度權(quán)重:
[0073]
算法: entityWeight
[0074]
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)用戶虛實(shí)映射方法,包括: 步驟I)、根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)獲取該社交網(wǎng)絡(luò)用戶的地理位置信息,并且獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表; 步驟2)、將所述周邊單位名稱列表中的每個(gè)單位名稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱。
2.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)還包括: 對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞,得到該單位名稱的分詞結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,在步驟2)中,將周邊單位名稱列表中的每個(gè)單位名稱與社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配包括: 步驟21)、將每個(gè)單位名稱的全稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,如果匹配成功則使用下式計(jì)算該單位名稱的近似度權(quán)重:
weight (str) = word, size (str) *factormatchtlme(sstr) 其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word, size (str)表示單位名稱的長(zhǎng)度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù); 步驟22)、如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個(gè)分詞與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,將每個(gè)分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
4.根據(jù)權(quán)利要求3所述的方法,其中,步驟2)還包括:` 步驟23)、合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫(kù)中或者其長(zhǎng)度達(dá)到預(yù)定長(zhǎng)度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫(kù)用于存放指示地理位置的前綴詞。
5.根據(jù)權(quán)利要求4所述的方法,其中,步驟23)包括: 步驟231)、對(duì)于一種近似度權(quán)重,新建一棵Trie樹; 步驟232)、將具有該近似度權(quán)重的單位名稱插入所述Trie樹,得到具有共同的最大前綴的單位名稱; 步驟233)、如果該共同的最大前綴包含在前綴詞庫(kù)中或者其長(zhǎng)度達(dá)到預(yù)定長(zhǎng)度,則合并具有該共同的最大前綴且具有該近似度權(quán)重的單位名稱;其中,合并后的單位名稱為該共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫(kù)用于存放指示地理位置的前綴詞; 步驟234)、銷毀所述Trie樹; 步驟235)、對(duì)于未處理的近似度權(quán)重,返回步驟231)進(jìn)行處理。
6.根據(jù)權(quán)利要求4所述的方法,其中,步驟2)還包括: 步驟24)、合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個(gè),其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和。
7.根據(jù)權(quán)利要求3-6中任何一個(gè)所述的方法,在步驟2)中,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱包括:將單位名稱按照近似度權(quán)重進(jìn)行降序排列,選擇前N個(gè)單位名稱并推送;其中N為正整數(shù)。
8.根據(jù)權(quán)利要求2-6中任何一個(gè)所述的方法,在步驟I)中,對(duì)周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞包括: 對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行中文分詞,刪除長(zhǎng)度為一個(gè)字的分詞;以及 對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行二元組分詞。
9.根據(jù)權(quán)利要求2-6中任何一個(gè)所述的方法,其中,步驟I)還包括: 如果對(duì)單位名稱進(jìn)行分詞后得到的分詞具有別名,則將該別名加入該單位名稱的分詞結(jié)果。
10.根據(jù)權(quán)利要求1所述的方法,其中,步驟I)包括: 步驟11)、根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)從社交網(wǎng)絡(luò)服務(wù)器獲取關(guān)于該社交網(wǎng)絡(luò)用戶的返回信息,從中得到該社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容和地理位置信息; 步驟12)、根據(jù)所述社交網(wǎng)絡(luò)用戶的地理位置信息從社交網(wǎng)絡(luò)服務(wù)器獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表。
11.根據(jù)權(quán)利要求10所述的方法,其中社交網(wǎng)絡(luò)用戶的地理位置信息包括該社交網(wǎng)絡(luò)用戶發(fā)布消息的地理位置信息和該社交網(wǎng)絡(luò)用戶簽到的地理位置信息。
12.根據(jù)權(quán)利要求10或11所述的方法,其中,步驟11)還包括: 統(tǒng)一所述社交網(wǎng)絡(luò)用戶的地理位置信息的精確度;以及 按照出現(xiàn)次數(shù)降序排序所述社交網(wǎng)絡(luò)用戶的地理位置信息,選擇前M個(gè)地理位置信息;其中M為正整數(shù)。
13.根據(jù)權(quán)利要求12所述的方法,其中,步驟12)包括: 根據(jù)所選擇的M個(gè)地理位置信息,從社交網(wǎng)絡(luò)服務(wù)器獲取對(duì)應(yīng)的地理位置的周邊單位名稱列表。
14.一種社交網(wǎng)絡(luò)用戶虛實(shí)映射系統(tǒng)(1),包括: 社交網(wǎng)絡(luò)用戶地理特征獲取設(shè)備(11),用于根據(jù)社交網(wǎng)絡(luò)用戶的唯一標(biāo)識(shí)獲取該社交網(wǎng)絡(luò)用戶的地理位置信息,并且獲取該地理位置信息對(duì)應(yīng)的地理位置的周邊單位名稱列表;以及 社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備(13),用于將所述周邊單位名稱列表中的每個(gè)單位名稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,根據(jù)匹配程度選擇一個(gè)或多個(gè)單位名稱。
15.根據(jù)權(quán)利要求14所述的系統(tǒng)(I),其中,所述系統(tǒng)還包括: 社交網(wǎng)絡(luò)用戶地理信息處理設(shè)備(12),用于對(duì)所述周邊單位名稱列表中的每個(gè)單位名稱進(jìn)行分詞,得到該單位名稱的分詞結(jié)果。
16.根據(jù)權(quán)利要求15所述的系統(tǒng)(1),其中,所述社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備(13)用于將每個(gè)單位名稱的全稱與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,如果匹配成功則使用下式計(jì)算該單位名稱的近似度權(quán)重:
weight (str) = word, size (str) *factormatchtlme(sstr) 其中,str表示單位名稱,weight (str)表示單位名稱的近似度權(quán)重,word, size (str)表示單位名稱的長(zhǎng)度,factor表示乘數(shù)因子,matchtimes (str)表示單位名稱與消息內(nèi)容的匹配成功次數(shù);如果匹配不成功,則將該單位名稱的分詞結(jié)果中除該單位名稱的全稱外的每個(gè)分詞與所述社交網(wǎng)絡(luò)用戶發(fā)布的消息內(nèi)容進(jìn)行匹配,將每個(gè)分詞的匹配成功次數(shù)之和作為該單位名稱的近似度權(quán)重。
17.根據(jù)權(quán)利要求16所述的系統(tǒng)(1),其中,所述社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備(13)還用于合并近似度權(quán)重相同且具有共同的最大前綴的單位名稱,使得所述共同的最大前綴包含在前綴詞庫(kù)中或者其長(zhǎng)度達(dá)到預(yù)定長(zhǎng)度;其中,合并后的單位名稱為所述共同的最大前綴且其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之和,所述前綴詞庫(kù)用于存放指示地理位置的前綴詞。
18.根據(jù)權(quán)利要求16所述的系統(tǒng)(1),其中,所述社交網(wǎng)絡(luò)用戶單位名稱計(jì)算推送設(shè)備(13)還用于合并近似度權(quán)重不同且單位名稱相同或者互為別名的單位名稱;其中,合并后的單位名稱為所合并的單位名稱中的任何一個(gè),其近似度權(quán)重為所合并的單位名稱的近似度權(quán)重之 和。
【文檔編號(hào)】G06F17/30GK103745014SQ201410042782
【公開日】2014年4月23日 申請(qǐng)日期:2014年1月29日 優(yōu)先權(quán)日:2014年1月29日
【發(fā)明者】梁英, 胡開先, 許洪波, 程學(xué)旗, 張國(guó)清 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所