一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法

文檔序號：6548588閱讀：278來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法
【專利摘要】本發(fā)明公開了一種抽取英文微博中地理興趣點(diǎn)和感知其時(shí)間趨勢的方法，本發(fā)明首先對一條英文微博進(jìn)行掃描，確定其中包含的候選地理興趣點(diǎn)；然后從微博中抽取詞匯，語法和BILOU模式標(biāo)記三類特征；基于三類特征，運(yùn)用時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器，對微博中的候選地理興趣點(diǎn)進(jìn)行確定和感知其對應(yīng)的時(shí)間趨勢。依照本發(fā)明所提供自動(dòng)確定英文微博中涉及的地理興趣點(diǎn)以及其時(shí)間趨勢的技術(shù)方法，可以基于精細(xì)度地理位置來進(jìn)行個(gè)性化的服務(wù)和開展市場營銷。由于地理興趣點(diǎn)知識庫的構(gòu)建利用了位置社交網(wǎng)絡(luò)，不需人工進(jìn)行生成，而且三類特征信息具有普遍性，使本發(fā)明可以廣泛應(yīng)用于同類各種英文微博服務(wù)平臺(tái)，具有廣泛的實(shí)際意義和商業(yè)價(jià)值。
【專利說明】一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于社交媒體數(shù)據(jù)挖掘和自然語言處理【技術(shù)領(lǐng)域】，特別涉及一種抽取英文微博中涉及的地理興趣點(diǎn)以及感知對應(yīng)的時(shí)間趨勢的信息獲取方法。
【背景技術(shù)】
[0002]作為社交網(wǎng)絡(luò)的主要平臺(tái)，微博服務(wù)平臺(tái)(TwitteiNWeibo等等)已經(jīng)成為人們表達(dá)思想、交換觀點(diǎn)和分享事件的主流方式。在微博平臺(tái)上，一條微博非常的簡短，僅僅包含最多140個(gè)單詞和標(biāo)點(diǎn)(英文包含140個(gè)字符)。并且，用戶發(fā)布微博的內(nèi)容受到很少的限制。這種快捷方便的信息資訊發(fā)布和傳播平臺(tái)導(dǎo)致用戶可以實(shí)時(shí)地訪問和分享最新的故事，觀點(diǎn)以及新聞。這種信息的實(shí)時(shí)性使其成為目前最活躍的社會(huì)信息資訊平臺(tái)之一。在中國，據(jù)新華網(wǎng)報(bào)道，新浪微博平臺(tái)的用戶數(shù)已超過5億。與此同時(shí)，在微博平臺(tái)中，每個(gè)人都可以看做是一個(gè)獨(dú)立的社會(huì)感應(yīng)器。這些感應(yīng)器獨(dú)立地或者協(xié)同式地反映社會(huì)輿情。例如:在地震發(fā)生過程中，人們通過Twitter平臺(tái)實(shí)時(shí)的交流地震發(fā)生的時(shí)間和地理位置。通過監(jiān)聽相關(guān)的微博信息，我們可以跟蹤和預(yù)報(bào)地震所涉及的地區(qū)以及到達(dá)時(shí)間。研究人員發(fā)現(xiàn)基于微博平臺(tái)的地震監(jiān)測和預(yù)報(bào)快于傳統(tǒng)的地震監(jiān)測方式。另一方面，微博包含大量的有價(jià)值的語義信息。這些豐富的語義資源可以幫助我們高效并且快速地計(jì)算信息資訊之間的聯(lián)系，以及獲取社會(huì)輿情，網(wǎng)民的觀點(diǎn)及其傾向性。同時(shí)，微博用戶經(jīng)常會(huì)透露許多商業(yè)機(jī)會(huì)。例如:用戶可能在微博上抱怨空氣質(zhì)量的同時(shí)，表達(dá)出購買口罩或者空氣凈化器等意圖。
[0003]特別的，隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展，人們越來越多的通過移動(dòng)終端來發(fā)布和分享資訊。具體來說，人們常常有意或者無意地通過微博來透露自己的地理信息。其中，地理興趣點(diǎn)又在這類地理信息中占巨大部分。地理興趣點(diǎn)是指一個(gè)特定的地理實(shí)體，比如區(qū)域，街道，或者是一個(gè)特定的地理地點(diǎn)，比如酒店，地標(biāo)，學(xué)校，商店以及飯店等等。這些地理興趣點(diǎn)往往反映著用戶的當(dāng)前地理位置或者是短期的活動(dòng)計(jì)劃。近年來，定位微博及其用戶的地理位置變成一個(gè)熱門的研究話題。挖掘這類地理信息，我們可以產(chǎn)生很多具有現(xiàn)實(shí)意思的商業(yè)價(jià)值，比如，個(gè)性化的廣告或者是基于地理位置的市場營銷。然而，大部分已有的研究成果主要依賴于包含GPS定位信息或者文本地理信息標(biāo)注的微博內(nèi)容。并且，這些技術(shù)只能在粗粒度層面(從國家，省份到具體所在城市)對微博或者其用戶的地理位置進(jìn)行推斷。與此同時(shí)，在主題模型(Topic Model)研究方面，現(xiàn)有的工作主要專注于研究地理位置與用戶興趣主題的交互。然而，這些技術(shù)要么無法達(dá)到細(xì)粒度的地理位置識別，要么語義信息過于簡單和粗糙，因此還遠(yuǎn)遠(yuǎn)無法支撐細(xì)粒度的地理位置個(gè)性化服務(wù)和市場營銷。另一類研究主要針對具有地理位置標(biāo)注的微博或者基于位置社交網(wǎng)絡(luò)的內(nèi)容來給用戶推薦其他的地理興趣點(diǎn)。這些技術(shù)往往基于明確的用戶地理位置分享信息。然而，用戶有意地分享的地理信息往往很少量，比如用戶主動(dòng)給微博增加GPS定位信息或者文本地理信息標(biāo)注。這些困難同樣使得細(xì)粒度的地理位置服務(wù)和市場行銷無法取得預(yù)期的效果。
[0004]作為一個(gè)實(shí)時(shí)的社會(huì)信息資訊分享平臺(tái)，微博用戶常常有意或者無意地通過微博來透露自己當(dāng)前的地理位置信息或者短期的行動(dòng)計(jì)劃。然而，一條英文微博非常的簡短，僅僅包含最多140個(gè)字符，同時(shí)用戶發(fā)布微博的內(nèi)容受到很少的限制。這些特征使得英文微博中往往包含大量的口頭習(xí)語(白話語)，拼寫錯(cuò)誤以及語法錯(cuò)誤(錯(cuò)誤多發(fā)性)。同時(shí)，用戶習(xí)慣在英文微博中運(yùn)用各種正式或者非正式的縮寫去表達(dá)地理興趣點(diǎn)。在自然語言處理領(lǐng)域，命名實(shí)體檢測是指自動(dòng)識別文本中具有特定意義的實(shí)體，主要包括人名，地名，機(jī)構(gòu)名，產(chǎn)品名以及專有名詞等。然而，現(xiàn)有的命名實(shí)體檢測技術(shù)在英文微博文本上效果不佳。其次，由于英文微博內(nèi)容的隨意性，其微博內(nèi)容中的地理興趣點(diǎn)的表述往往包含很多歧義，即同一個(gè)短語在不同的語義環(huán)境下可以表示不同的實(shí)體(地理名稱的歧義性)。比如微博例子“soccer fever at mac now.! ”中提到的“mac”在很多場景下指的是一種美國Apple公司的電子產(chǎn)品。因此，簡單地依據(jù)一個(gè)地理信息庫對英文微博進(jìn)行匹配是低效和不可行的。
[0005]準(zhǔn)確地感知用戶對于地理興趣點(diǎn)的時(shí)間趨勢具有非常重要的商業(yè)價(jià)值。與地理興趣點(diǎn)相關(guān)聯(lián)的時(shí)間趨勢包括用戶已經(jīng)訪問過，正在訪問和即將訪問該地理興趣點(diǎn)三個(gè)類別。比如，對于英文微博，“just back from L’Artusi, wonderful dinner: >like to trythe smile tmr for lunch”(L，Artusi和The Smile分別是兩個(gè)位于紐約的餐館)，用戶更希望接收關(guān)于“The Smile”的促銷信息，因?yàn)橛脩粢呀?jīng)訪問過“L’ Artusi”，同時(shí)表達(dá)了即將訪問“The Smile”的意愿。然而，目前并沒有基于英文微博內(nèi)容感知用戶地理興趣點(diǎn)的時(shí)間趨勢的相關(guān)工作?，F(xiàn)有的獲取事件的時(shí)間趨勢的工作和工具都是針對正式的長文本來進(jìn)行的，這些文本依照正式的日期和時(shí)間格式來表述事件的時(shí)間因素。由于英文微博內(nèi)容的錯(cuò)誤多發(fā)性和簡短性，這些技術(shù)手段都無法直接應(yīng)用于英文微博中的地理興趣點(diǎn)的時(shí)間趨勢感知。

【發(fā)明內(nèi)容】

[0006]針對英文微博內(nèi)容的簡短性，隨意性和錯(cuò)誤多發(fā)性，以及地理興趣點(diǎn)名稱的歧義性，本發(fā)明旨在針對某一個(gè)特定的地理區(qū)域(比如一座城市)，自動(dòng)從英文位置社交網(wǎng)絡(luò)來構(gòu)建相應(yīng)的地理興趣點(diǎn)知識庫，高效地識別英文微博(來自這個(gè)地理區(qū)域)中可能涉及到的地理興趣點(diǎn)和感知地理興趣點(diǎn)對應(yīng)的時(shí)間趨勢，基于條件隨機(jī)場模型，從英文微薄的三組特征信息(詞匯，詞法和BILOU模式標(biāo)記特征)出發(fā)，利用小規(guī)模的人工標(biāo)記數(shù)據(jù)集訓(xùn)練出一個(gè)時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器，從而達(dá)到對候選地理興趣點(diǎn)進(jìn)行消歧義和感知地理興趣點(diǎn)的時(shí)間趨勢的目標(biāo)。其感知的地理興趣點(diǎn)的時(shí)間趨勢有三個(gè)類別:用戶已經(jīng)訪問過，正在訪問和即將訪問該地理興趣點(diǎn)。
[0007]本發(fā)明所采用的技術(shù)方案是:一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于，包括以下步驟:
[0008]步驟1:針對給定的地理區(qū)域，利用英文社交網(wǎng)絡(luò)，構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫，使其每一個(gè)知識庫中的詞條都可以對應(yīng)于至少一個(gè)該地理區(qū)域的地理興趣點(diǎn)；
[0009] 步驟2:根據(jù)步驟I構(gòu)建的地理興趣點(diǎn)知識庫，對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配，獲取所有包含有地理興趣點(diǎn)知識庫中的地理興趣點(diǎn)表述的微博，這些匹配到的地理興趣點(diǎn)表述成為候選地理興趣點(diǎn)，從這些微博中隨機(jī)采樣一定數(shù)量的微博，對采樣微博中各個(gè)候選地理興趣點(diǎn)進(jìn)行人工消歧義標(biāo)注，然后對其中真實(shí)的地理興趣點(diǎn)人工進(jìn)行時(shí)間趨勢標(biāo)記，最后生成訓(xùn)練集合；
[0010]步驟3:根據(jù)步驟2生成的訓(xùn)練集合，對集合中的每條英文微博進(jìn)行特征提取，基于訓(xùn)練集合，依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征，運(yùn)用條件隨機(jī)場模型，訓(xùn)練出英文微博的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器；
[0011]步驟4:當(dāng)對來自該給定的地理區(qū)域的新的英文微博要進(jìn)行處理時(shí)，利用步驟3所述的方法對新的英文微博進(jìn)行特征提取，然后運(yùn)用步驟3生成的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器來進(jìn)行地理興趣點(diǎn)的確定和感知其時(shí)間趨勢。
[0012]作為優(yōu)選，步驟I中所述的詞條，是一個(gè)單詞或由多個(gè)單詞組成的一個(gè)短語。
[0013]作為優(yōu)選，步驟I中所述針對給定的地理區(qū)域，利用英文社交網(wǎng)絡(luò)，構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫；其具體實(shí)現(xiàn)包括以下子步驟:
[0014]步驟1.1:根據(jù)英文社交網(wǎng)絡(luò)提供的API服務(wù)或者網(wǎng)頁爬蟲抓取用戶位置簽到信息，基于用戶的個(gè)人資料收集來自特定地理區(qū)域的用戶位置簽到記錄，生成關(guān)于特定地理區(qū)域的簽到記錄集合；
[0015]步驟1.2:根據(jù)步驟1.1生成的簽到記錄集合，基于正則表達(dá)式，抽取簽到記錄中的地理興趣點(diǎn)名稱，這些抽取到的地理興趣點(diǎn)名稱作為地理興趣點(diǎn)的全稱存儲(chǔ)在地理興趣點(diǎn)知識庫中；
[0016]步驟1.3:根據(jù)步驟1.2抽取到的地理興趣點(diǎn)全稱，生成地理興趣點(diǎn)部分名稱，并存儲(chǔ)在地理興趣點(diǎn)知識庫中。
[0017]作為優(yōu)選，步驟1.3的具體實(shí) 現(xiàn)過程為基于地理興趣點(diǎn)全稱，提取這個(gè)全稱的所有長度不超過5個(gè)單詞的子序列，在此過程中，英文停用詞將作為產(chǎn)生子序列的分隔詞，并且不會(huì)出現(xiàn)在子序列中，這些子序列將作為其地理興趣點(diǎn)的部分名稱存儲(chǔ)在地理興趣點(diǎn)知識庫中。
[0018]作為優(yōu)選，步驟2中所述的對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配，在匹配地理興趣點(diǎn)名稱的過程中，優(yōu)先選擇更長的地理興趣點(diǎn)名稱以及位置靠前出現(xiàn)的名稱。
[0019]作為優(yōu)選，步驟3中所述的依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征，給定一條微博t, Wi表示微博中的第i個(gè)單詞，Xi表示W(wǎng)i的全小寫形式，I表示微博中的某個(gè)候選地理興趣點(diǎn)，具體詞匯特征、語法特征和BILOU模式標(biāo)記特征如下:
[0020]詞匯特征:
[0021]Al:單詞Wi和它的全小寫形式Xi ；
[0022]A2:單詞Wi的外形，包括是否全部大寫，是否首字符大寫，是否全是數(shù)字字符以及是否全是字母數(shù)字符號；
[0023]A3 =Xi的前綴和后綴，長度分別為1，2，3個(gè)字符；
[0024]A4 =Xi首字符為大寫的先驗(yàn)概率，Xi為全大寫形式的先驗(yàn)概率，這兩類先驗(yàn)概率是基于全局的英文微博來進(jìn)行估計(jì)得到的，概率值是一個(gè)連續(xù)變量值，值域?yàn)閇0，1]；
[0025]A5:Xi及其前后2個(gè)單詞的上下文窗口的詞袋XiI, X1-!, Xi, xi+1, xx+2 ；
[0026]A6 =Xi的前面兩個(gè)單詞詞袋Xi_2，Xi^1 ；
[0027]A7 =Xi的后面兩個(gè)單詞詞袋xi+1，xi+2 ；
[0028]語法特征:[0029]B1:詞性標(biāo)注，包括當(dāng)前詞Wi和其前后詞Wi+ wi+1的詞性標(biāo)注；
[0030]B2:基于布朗聚類算法的單詞聚類標(biāo)號；3個(gè)基于不同路徑長度的單詞聚類標(biāo)號被使用，分別是4，8，12個(gè)比特長度；
[0031]B3:計(jì)算微博t的時(shí)間趨勢分值；本發(fā)明提供36個(gè)常用英文單詞及其他們的時(shí)間趨勢分值作為參考，稱為時(shí)間趨勢單詞字典，記為P，時(shí)間趨勢的分值為-1，0，1，分別代表過去、現(xiàn)在以及將來的時(shí)間趨勢，依據(jù)時(shí)間趨勢單詞字典，計(jì)算微博t的時(shí)間趨勢分值，值域?yàn)閇-1，I];完整的時(shí)間趨勢單詞字典如表格I所示:
[0032]表格I完整的時(shí)間趨勢單詞字典
[0033]
【權(quán)利要求】
1.一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于，包括以下步驟: 步驟1:針對給定的地理區(qū)域，利用英文社交網(wǎng)絡(luò)，構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫，使其每一個(gè)知識庫中的詞條都可以對應(yīng)于至少一個(gè)該地理區(qū)域的地理興趣點(diǎn)；步驟2:根據(jù)步驟I構(gòu)建的地理興趣點(diǎn)知識庫，對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配，獲取所有包含有地理興趣點(diǎn)知識庫中的地理興趣點(diǎn)表述的微博，這些匹配到的地理興趣點(diǎn)表述成為候選地理興趣點(diǎn)，從這些微博中隨機(jī)采樣一定數(shù)量的微博，對采樣微博中各個(gè)候選地理興趣點(diǎn)進(jìn)行人工消歧義標(biāo)注，然后對其中真實(shí)的地理興趣點(diǎn)人工進(jìn)行時(shí)間趨勢標(biāo)記，最后生成訓(xùn)練集合；步驟3:根據(jù)步驟2生成的訓(xùn)練集合，對集合中的每條英文微博進(jìn)行特征提取，基于訓(xùn)練集合，依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征，運(yùn)用條件隨機(jī)場模型，訓(xùn)練出英文微博的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器；步驟4:當(dāng)對來自該給定的地理區(qū)域的新的英文微博要進(jìn)行處理時(shí)，利用步驟3所述的方法對新的英文微博進(jìn)行特征提取，然后運(yùn)用步驟3生成的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器來進(jìn)行地理興趣點(diǎn)的確定和感知其時(shí)間趨勢。
2.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于:步驟I中所述的詞條，是一個(gè)單詞或由多個(gè)單詞組成的一個(gè)短語。
3.根據(jù)權(quán)利要求1或2所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于:步驟I中所述針對給定的地理區(qū)域，利用英文社交網(wǎng)絡(luò)，構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫；其具體實(shí)現(xiàn)包括以下子步驟: 步驟1.1:根據(jù)英文社交網(wǎng)絡(luò)提供的API服務(wù)或者網(wǎng)頁爬蟲抓取用戶位置簽到信息，基于用戶的個(gè)人資料收集來自特定地理區(qū)域的用戶位置簽到記錄，生成關(guān)于特定地理區(qū)域的簽到記錄集合；步驟1.2:根據(jù)步驟1.1生成的簽到記錄集合，基于正則表達(dá)式，抽取簽到記錄中的地理興趣點(diǎn)名稱，這些抽取到的地理興趣點(diǎn)名稱作為地理興趣點(diǎn)的全稱存儲(chǔ)在地理興趣點(diǎn)知識庫中；步驟1.3:根據(jù)步驟1.2抽取到的地理興趣點(diǎn)全稱，生成地理興趣點(diǎn)部分名稱，并存儲(chǔ)在地理興趣點(diǎn)知識庫中。
4.根據(jù)權(quán)利要求3所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于:步驟1.3的具體實(shí)現(xiàn)過程為基于地理興趣點(diǎn)全稱，提取這個(gè)全稱的所有長度不超過5個(gè)單詞的子序列，在此過程中，英文停用詞將作為產(chǎn)生子序列的分隔詞，并且不會(huì)出現(xiàn)在子序列中，這些子序列將作為其地理興趣點(diǎn)的部分名稱存儲(chǔ)在地理興趣點(diǎn)知識庫中。
5.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于:步驟2中所述的對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配，在匹配地理興趣點(diǎn)名稱的過程中，優(yōu)先選擇更長的地理興趣點(diǎn)名稱以及位置靠前出現(xiàn)的名稱。
6.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于:步驟3中所述的依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征，給定一條微博t, Wi表示微博中的第i個(gè)單詞，Xi表示W(wǎng)i的全小寫形式，I表示微博中的某個(gè)候選地理興趣點(diǎn)，具體詞匯特征、語法特征和BILOU模式標(biāo)記特征如下:詞匯特征: Al: 單詞Wi和它的全小寫形式Xi ； A2:單詞Wi的外形，包括是否全部大寫，是否首字符大寫，是否全是數(shù)字字符以及是否全是字母數(shù)字符號； A3 =Xi的前綴和后綴,長度分別為1，2，3個(gè)字符； A4 =Xi首字符為大寫的先驗(yàn)概率，Xi為全大寫形式的先驗(yàn)概率，這兩類先驗(yàn)概率是基于全局的英文微博來進(jìn)行估計(jì)得到的，概率值是一個(gè)連續(xù)變量值，值域?yàn)閇O，I]； A5 =Xi及其前后2個(gè)單詞的上下文窗口的詞袋Xi_2, X1-!, Xi, xi+1, xx+2 ； A6:Xi的前面兩個(gè)單詞詞袋Xi_2, X1-!； A7:Xi的后面兩個(gè)單詞詞袋xi+1, xi+2 ；語法特征: B1:詞性標(biāo)注，包括當(dāng)前詞Wi和其前后詞Wi_1; wi+1的詞性標(biāo)注； B2:基于布朗聚類算法的單詞聚類標(biāo)號；3個(gè)基于不同路徑長度的單詞聚類標(biāo)號被使用，分別是4，8，12個(gè)比特長度； B3:計(jì)算微博t的時(shí)間趨勢分值；本發(fā)明提供36個(gè)常用英文單詞及其他們的時(shí)間趨勢分值作為參考，稱為時(shí)間趨勢單詞字典，記為D，時(shí)間趨勢的分值為_1，0，I,分別代表過去、現(xiàn)在以及將來的時(shí)間趨勢，依據(jù)時(shí)間趨勢單詞字典，計(jì)算微博t的時(shí)間趨勢分值，值域?yàn)閇-1，I];完整的時(shí)間趨勢單詞字典如表格I所示: 表格I完整的時(shí)間趨勢單詞字典 __
7.根據(jù)權(quán)利要求6所述的抽取英文微博中地理興趣點(diǎn)和感知其時(shí)間趨勢的信息獲取方法，其特征在于:基于時(shí)間趨勢單詞字典，計(jì)算微博t的時(shí)間趨勢分值的步驟如下: 步驟3.1:如果單詞w e t出現(xiàn)在時(shí)間趨勢單詞字典中，w的時(shí)間趨勢分值為字典中設(shè)定的分值；步驟3.2:如果單詞w e t不屬于時(shí)間趨勢單詞字典，獲取w的路徑長度為12個(gè)比特的布朗單詞聚類結(jié)果，記為6如果時(shí)間趨勢單詞字典P和單詞聚類結(jié)果氏《的交集P n Bw不為空，并且交集中的每個(gè)早詞都在字典?中對應(yīng)相同的時(shí)間趨勢分值，設(shè)置該時(shí)間趨勢分值為單詞w的時(shí)間趨勢分值；微博t中所有基于步驟3.1和3.2設(shè)置了時(shí)間趨勢分值的單詞記為Pt，這些單詞均是基于時(shí)間趨勢單詞字典D直接或者間接匹配確定的；步驟3.3:根據(jù)單詞的詞性標(biāo)注，對微博中的所有動(dòng)詞設(shè)置時(shí)間趨勢分值；過去分詞和動(dòng)詞的過去時(shí)態(tài)的時(shí)間趨勢分值為-1 ;第三人稱單數(shù)，非第三人稱單數(shù)，動(dòng)名詞，現(xiàn)在分詞，動(dòng)詞基本形式的時(shí)間趨勢分值為O ; 步驟3.4:根據(jù)步驟3.1,3.2和3.3設(shè)置了時(shí)間趨勢分值的單詞，其微博的時(shí)間趨勢分值為這些單詞的時(shí)間趨勢分值的平均值，數(shù)值在-1和I之間；如果沒有單詞被設(shè)置了時(shí)間趨勢分值，微博的時(shí)間趨勢分值為O。到此計(jì)算出來的微博時(shí)間趨勢分值是個(gè)連續(xù)值，值域?yàn)閇-1，I]。
8.根據(jù)權(quán)利要求6所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法，其特征在于:所述的步驟3中，在條件隨機(jī)場模型訓(xùn)練階段，訓(xùn)練集合的真實(shí)數(shù)據(jù)結(jié)果也按照BILOU模式進(jìn)行標(biāo)記。
【文檔編號】G06F17/30GK103984771SQ201410243738
【公開日】2014年8月13日申請日期:2014年6月4日優(yōu)先權(quán)日:2014年6月4日
【發(fā)明者】李晨亮, 孫愛欣申請人:武漢大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李晨亮;孫愛欣
技術(shù)所有人：武漢大學(xué)
我是此專利的發(fā)明人

上一篇：基于人體的交互方法及交互裝置制造方法
上一篇：用于海量短文本信息發(fā)現(xiàn)的自動(dòng)機(jī)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法