一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法
【專利摘要】本發(fā)明公開了一種抽取英文微博中地理興趣點(diǎn)和感知其時(shí)間趨勢的方法,本發(fā)明首先對一條英文微博進(jìn)行掃描,確定其中包含的候選地理興趣點(diǎn);然后從微博中抽取詞匯,語法和BILOU模式標(biāo)記三類特征;基于三類特征,運(yùn)用時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器,對微博中的候選地理興趣點(diǎn)進(jìn)行確定和感知其對應(yīng)的時(shí)間趨勢。依照本發(fā)明所提供自動(dòng)確定英文微博中涉及的地理興趣點(diǎn)以及其時(shí)間趨勢的技術(shù)方法,可以基于精細(xì)度地理位置來進(jìn)行個(gè)性化的服務(wù)和開展市場營銷。由于地理興趣點(diǎn)知識庫的構(gòu)建利用了位置社交網(wǎng)絡(luò),不需人工進(jìn)行生成,而且三類特征信息具有普遍性,使本發(fā)明可以廣泛應(yīng)用于同類各種英文微博服務(wù)平臺(tái),具有廣泛的實(shí)際意義和商業(yè)價(jià)值。
【專利說明】一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于社交媒體數(shù)據(jù)挖掘和自然語言處理【技術(shù)領(lǐng)域】,特別涉及一種抽取英文微博中涉及的地理興趣點(diǎn)以及感知對應(yīng)的時(shí)間趨勢的信息獲取方法。
【背景技術(shù)】
[0002]作為社交網(wǎng)絡(luò)的主要平臺(tái),微博服務(wù)平臺(tái)(TwitteiNWeibo等等)已經(jīng)成為人們表達(dá)思想、交換觀點(diǎn)和分享事件的主流方式。在微博平臺(tái)上,一條微博非常的簡短,僅僅包含最多140個(gè)單詞和標(biāo)點(diǎn)(英文包含140個(gè)字符)。并且,用戶發(fā)布微博的內(nèi)容受到很少的限制。這種快捷方便的信息資訊發(fā)布和傳播平臺(tái)導(dǎo)致用戶可以實(shí)時(shí)地訪問和分享最新的故事,觀點(diǎn)以及新聞。這種信息的實(shí)時(shí)性使其成為目前最活躍的社會(huì)信息資訊平臺(tái)之一。在中國,據(jù)新華網(wǎng)報(bào)道,新浪微博平臺(tái)的用戶數(shù)已超過5億。與此同時(shí),在微博平臺(tái)中,每個(gè)人都可以看做是一個(gè)獨(dú)立的社會(huì)感應(yīng)器。這些感應(yīng)器獨(dú)立地或者協(xié)同式地反映社會(huì)輿情。例如:在地震發(fā)生過程中,人們通過Twitter平臺(tái)實(shí)時(shí)的交流地震發(fā)生的時(shí)間和地理位置。通過監(jiān)聽相關(guān)的微博信息,我們可以跟蹤和預(yù)報(bào)地震所涉及的地區(qū)以及到達(dá)時(shí)間。研究人員發(fā)現(xiàn)基于微博平臺(tái)的地震監(jiān)測和預(yù)報(bào)快于傳統(tǒng)的地震監(jiān)測方式。另一方面,微博包含大量的有價(jià)值的語義信息。這些豐富的語義資源可以幫助我們高效并且快速地計(jì)算信息資訊之間的聯(lián)系,以及獲取社會(huì)輿情,網(wǎng)民的觀點(diǎn)及其傾向性。同時(shí),微博用戶經(jīng)常會(huì)透露許多商業(yè)機(jī)會(huì)。例如:用戶可能在微博上抱怨空氣質(zhì)量的同時(shí),表達(dá)出購買口罩或者空氣凈化器等意圖。
[0003]特別的,隨著移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展,人們越來越多的通過移動(dòng)終端來發(fā)布和分享資訊。具體來說,人們常常有意或者無意地通過微博來透露自己的地理信息。其中,地理興趣點(diǎn)又在這類地理信息中占巨大部分。地理興趣點(diǎn)是指一個(gè)特定的地理實(shí)體,比如區(qū)域,街道,或者是一個(gè)特定的地理地點(diǎn),比如酒店,地標(biāo),學(xué)校,商店以及飯店等等。這些地理興趣點(diǎn)往往反映著用戶的當(dāng)前地理位置或者是短期的活動(dòng)計(jì)劃。近年來,定位微博及其用戶的地理位置變成一個(gè)熱門的研究話題。挖掘這類地理信息,我們可以產(chǎn)生很多具有現(xiàn)實(shí)意思的商業(yè)價(jià)值,比如,個(gè)性化的廣告或者是基于地理位置的市場營銷。然而,大部分已有的研究成果主要依賴于包含GPS定位信息或者文本地理信息標(biāo)注的微博內(nèi)容。并且,這些技術(shù)只能在粗粒度層面(從國家,省份到具體所在城市)對微博或者其用戶的地理位置進(jìn)行推斷。與此同時(shí),在主題模型(Topic Model)研究方面,現(xiàn)有的工作主要專注于研究地理位置與用戶興趣主題的交互。然而,這些技術(shù)要么無法達(dá)到細(xì)粒度的地理位置識別,要么語義信息過于簡單和粗糙,因此還遠(yuǎn)遠(yuǎn)無法支撐細(xì)粒度的地理位置個(gè)性化服務(wù)和市場營銷。另一類研究主要針對具有地理位置標(biāo)注的微博或者基于位置社交網(wǎng)絡(luò)的內(nèi)容來給用戶推薦其他的地理興趣點(diǎn)。這些技術(shù)往往基于明確的用戶地理位置分享信息。然而,用戶有意地分享的地理信息往往很少量,比如用戶主動(dòng)給微博增加GPS定位信息或者文本地理信息標(biāo)注。這些困難同樣使得細(xì)粒度的地理位置服務(wù)和市場行銷無法取得預(yù)期的效果。
[0004]作為一個(gè)實(shí)時(shí)的社會(huì)信息資訊分享平臺(tái),微博用戶常常有意或者無意地通過微博來透露自己當(dāng)前的地理位置信息或者短期的行動(dòng)計(jì)劃。然而,一條英文微博非常的簡短,僅僅包含最多140個(gè)字符,同時(shí)用戶發(fā)布微博的內(nèi)容受到很少的限制。這些特征使得英文微博中往往包含大量的口頭習(xí)語(白話語),拼寫錯(cuò)誤以及語法錯(cuò)誤(錯(cuò)誤多發(fā)性)。同時(shí),用戶習(xí)慣在英文微博中運(yùn)用各種正式或者非正式的縮寫去表達(dá)地理興趣點(diǎn)。在自然語言處理領(lǐng)域,命名實(shí)體檢測是指自動(dòng)識別文本中具有特定意義的實(shí)體,主要包括人名,地名,機(jī)構(gòu)名,產(chǎn)品名以及專有名詞等。然而,現(xiàn)有的命名實(shí)體檢測技術(shù)在英文微博文本上效果不佳。其次,由于英文微博內(nèi)容的隨意性,其微博內(nèi)容中的地理興趣點(diǎn)的表述往往包含很多歧義,即同一個(gè)短語在不同的語義環(huán)境下可以表示不同的實(shí)體(地理名稱的歧義性)。比如微博例子“soccer fever at mac now.! ”中提到的“mac”在很多場景下指的是一種美國Apple公司的電子產(chǎn)品。因此,簡單地依據(jù)一個(gè)地理信息庫對英文微博進(jìn)行匹配是低效和不可行的。
[0005]準(zhǔn)確地感知用戶對于地理興趣點(diǎn)的時(shí)間趨勢具有非常重要的商業(yè)價(jià)值。與地理興趣點(diǎn)相關(guān)聯(lián)的時(shí)間趨勢包括用戶已經(jīng)訪問過,正在訪問和即將訪問該地理興趣點(diǎn)三個(gè)類別。比如,對于英文微博,“just back from L’Artusi, wonderful dinner: >like to trythe smile tmr for lunch”(L,Artusi和The Smile分別是兩個(gè)位于紐約的餐館),用戶更希望接收關(guān)于“The Smile”的促銷信息,因?yàn)橛脩粢呀?jīng)訪問過“L’ Artusi”,同時(shí)表達(dá)了即將訪問“The Smile”的意愿。然而,目前并沒有基于英文微博內(nèi)容感知用戶地理興趣點(diǎn)的時(shí)間趨勢的相關(guān)工作?,F(xiàn)有的獲取事件的時(shí)間趨勢的工作和工具都是針對正式的長文本來進(jìn)行的,這些文本依照正式的日期和時(shí)間格式來表述事件的時(shí)間因素。由于英文微博內(nèi)容的錯(cuò)誤多發(fā)性和簡短性,這些技術(shù)手段都無法直接應(yīng)用于英文微博中的地理興趣點(diǎn)的時(shí)間趨勢感知。
【發(fā)明內(nèi)容】
[0006]針對英文微博內(nèi)容的簡短性,隨意性和錯(cuò)誤多發(fā)性,以及地理興趣點(diǎn)名稱的歧義性,本發(fā)明旨在針對某一個(gè)特定的地理區(qū)域(比如一座城市),自動(dòng)從英文位置社交網(wǎng)絡(luò)來構(gòu)建相應(yīng)的地理興趣點(diǎn)知識庫,高效地識別英文微博(來自這個(gè)地理區(qū)域)中可能涉及到的地理興趣點(diǎn)和感知地理興趣點(diǎn)對應(yīng)的時(shí)間趨勢,基于條件隨機(jī)場模型,從英文微薄的三組特征信息(詞匯,詞法和BILOU模式標(biāo)記特征)出發(fā),利用小規(guī)模的人工標(biāo)記數(shù)據(jù)集訓(xùn)練出一個(gè)時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器,從而達(dá)到對候選地理興趣點(diǎn)進(jìn)行消歧義和感知地理興趣點(diǎn)的時(shí)間趨勢的目標(biāo)。其感知的地理興趣點(diǎn)的時(shí)間趨勢有三個(gè)類別:用戶已經(jīng)訪問過,正在訪問和即將訪問該地理興趣點(diǎn)。
[0007]本發(fā)明所采用的技術(shù)方案是:一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于,包括以下步驟:
[0008]步驟1:針對給定的地理區(qū)域,利用英文社交網(wǎng)絡(luò),構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫,使其每一個(gè)知識庫中的詞條都可以對應(yīng)于至少一個(gè)該地理區(qū)域的地理興趣點(diǎn);
[0009] 步驟2:根據(jù)步驟I構(gòu)建的地理興趣點(diǎn)知識庫,對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配,獲取所有包含有地理興趣點(diǎn)知識庫中的地理興趣點(diǎn)表述的微博,這些匹配到的地理興趣點(diǎn)表述成為候選地理興趣點(diǎn),從這些微博中隨機(jī)采樣一定數(shù)量的微博,對采樣微博中各個(gè)候選地理興趣點(diǎn)進(jìn)行人工消歧義標(biāo)注,然后對其中真實(shí)的地理興趣點(diǎn)人工進(jìn)行時(shí)間趨勢標(biāo)記,最后生成訓(xùn)練集合;
[0010]步驟3:根據(jù)步驟2生成的訓(xùn)練集合,對集合中的每條英文微博進(jìn)行特征提取,基于訓(xùn)練集合,依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征,運(yùn)用條件隨機(jī)場模型,訓(xùn)練出英文微博的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器;
[0011]步驟4:當(dāng)對來自該給定的地理區(qū)域的新的英文微博要進(jìn)行處理時(shí),利用步驟3所述的方法對新的英文微博進(jìn)行特征提取,然后運(yùn)用步驟3生成的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器來進(jìn)行地理興趣點(diǎn)的確定和感知其時(shí)間趨勢。
[0012]作為優(yōu)選,步驟I中所述的詞條,是一個(gè)單詞或由多個(gè)單詞組成的一個(gè)短語。
[0013]作為優(yōu)選,步驟I中所述針對給定的地理區(qū)域,利用英文社交網(wǎng)絡(luò),構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫;其具體實(shí)現(xiàn)包括以下子步驟:
[0014]步驟1.1:根據(jù)英文社交網(wǎng)絡(luò)提供的API服務(wù)或者網(wǎng)頁爬蟲抓取用戶位置簽到信息,基于用戶的個(gè)人資料收集來自特定地理區(qū)域的用戶位置簽到記錄,生成關(guān)于特定地理區(qū)域的簽到記錄集合;
[0015]步驟1.2:根據(jù)步驟1.1生成的簽到記錄集合,基于正則表達(dá)式,抽取簽到記錄中的地理興趣點(diǎn)名稱,這些抽取到的地理興趣點(diǎn)名稱作為地理興趣點(diǎn)的全稱存儲(chǔ)在地理興趣點(diǎn)知識庫中;
[0016]步驟1.3:根據(jù)步驟1.2抽取到的地理興趣點(diǎn)全稱,生成地理興趣點(diǎn)部分名稱,并存儲(chǔ)在地理興趣點(diǎn)知識庫中。
[0017]作為優(yōu)選,步驟1.3的具體實(shí) 現(xiàn)過程為基于地理興趣點(diǎn)全稱,提取這個(gè)全稱的所有長度不超過5個(gè)單詞的子序列,在此過程中,英文停用詞將作為產(chǎn)生子序列的分隔詞,并且不會(huì)出現(xiàn)在子序列中,這些子序列將作為其地理興趣點(diǎn)的部分名稱存儲(chǔ)在地理興趣點(diǎn)知識庫中。
[0018]作為優(yōu)選,步驟2中所述的對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配,在匹配地理興趣點(diǎn)名稱的過程中,優(yōu)先選擇更長的地理興趣點(diǎn)名稱以及位置靠前出現(xiàn)的名稱。
[0019]作為優(yōu)選,步驟3中所述的依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征,給定一條微博t, Wi表示微博中的第i個(gè)單詞,Xi表示W(wǎng)i的全小寫形式,I表示微博中的某個(gè)候選地理興趣點(diǎn),具體詞匯特征、語法特征和BILOU模式標(biāo)記特征如下:
[0020]詞匯特征:
[0021]Al:單詞Wi和它的全小寫形式Xi ;
[0022]A2:單詞Wi的外形,包括是否全部大寫,是否首字符大寫,是否全是數(shù)字字符以及是否全是字母數(shù)字符號;
[0023]A3 =Xi的前綴和后綴,長度分別為1,2,3個(gè)字符;
[0024]A4 =Xi首字符為大寫的先驗(yàn)概率,Xi為全大寫形式的先驗(yàn)概率,這兩類先驗(yàn)概率是基于全局的英文微博來進(jìn)行估計(jì)得到的,概率值是一個(gè)連續(xù)變量值,值域?yàn)閇0,1];
[0025]A5:Xi及其前后2個(gè)單詞的上下文窗口的詞袋XiI, X1-!, Xi, xi+1, xx+2 ;
[0026]A6 =Xi的前面兩個(gè)單詞詞袋Xi_2,Xi^1 ;
[0027]A7 =Xi的后面兩個(gè)單詞詞袋xi+1,xi+2 ;
[0028]語法特征:[0029]B1:詞性標(biāo)注,包括當(dāng)前詞Wi和其前后詞Wi+ wi+1的詞性標(biāo)注;
[0030]B2:基于布朗聚類算法的單詞聚類標(biāo)號;3個(gè)基于不同路徑長度的單詞聚類標(biāo)號被使用,分別是4,8,12個(gè)比特長度;
[0031]B3:計(jì)算微博t的時(shí)間趨勢分值;本發(fā)明提供36個(gè)常用英文單詞及其他們的時(shí)間趨勢分值作為參考,稱為時(shí)間趨勢單詞字典,記為P,時(shí)間趨勢的分值為-1,0,1,分別代表過去、現(xiàn)在以及將來的時(shí)間趨勢,依據(jù)時(shí)間趨勢單詞字典,計(jì)算微博t的時(shí)間趨勢分值,值域?yàn)閇-1,I];完整的時(shí)間趨勢單詞字典如表格I所示:
[0032]表格I完整的時(shí)間趨勢單詞字典
[0033]
【權(quán)利要求】
1.一種英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于,包括以下步驟: 步驟1:針對給定的地理區(qū)域,利用英文社交網(wǎng)絡(luò),構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫,使其每一個(gè)知識庫中的詞條都可以對應(yīng)于至少一個(gè)該地理區(qū)域的地理興趣點(diǎn); 步驟2:根據(jù)步驟I構(gòu)建的地理興趣點(diǎn)知識庫,對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配,獲取所有包含有地理興趣點(diǎn)知識庫中的地理興趣點(diǎn)表述的微博,這些匹配到的地理興趣點(diǎn)表述成為候選地理興趣點(diǎn),從這些微博中隨機(jī)采樣一定數(shù)量的微博,對采樣微博中各個(gè)候選地理興趣點(diǎn)進(jìn)行人工消歧義標(biāo)注,然后對其中真實(shí)的地理興趣點(diǎn)人工進(jìn)行時(shí)間趨勢標(biāo)記,最后生成訓(xùn)練集合; 步驟3:根據(jù)步驟2生成的訓(xùn)練集合,對集合中的每條英文微博進(jìn)行特征提取,基于訓(xùn)練集合,依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征,運(yùn)用條件隨機(jī)場模型,訓(xùn)練出英文微博的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器; 步驟4:當(dāng)對來自該給定的地理區(qū)域的新的英文微博要進(jìn)行處理時(shí),利用步驟3所述的方法對新的英文微博進(jìn)行特征提取,然后運(yùn)用步驟3生成的時(shí)間趨勢地理興趣點(diǎn)標(biāo)記器來進(jìn)行地理興趣點(diǎn)的確定和感知其時(shí)間趨勢。
2.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于:步驟I中所述的詞條,是一個(gè)單詞或由多個(gè)單詞組成的一個(gè)短語。
3.根據(jù)權(quán)利要求1或2所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于:步驟I中所述針對給定的地理區(qū)域,利用英文社交網(wǎng)絡(luò),構(gòu)建該地理區(qū)域的地理興趣點(diǎn)知識庫;其具 體實(shí)現(xiàn)包括以下子步驟: 步驟1.1:根據(jù)英文社交網(wǎng)絡(luò)提供的API服務(wù)或者網(wǎng)頁爬蟲抓取用戶位置簽到信息,基于用戶的個(gè)人資料收集來自特定地理區(qū)域的用戶位置簽到記錄,生成關(guān)于特定地理區(qū)域的簽到記錄集合; 步驟1.2:根據(jù)步驟1.1生成的簽到記錄集合,基于正則表達(dá)式,抽取簽到記錄中的地理興趣點(diǎn)名稱,這些抽取到的地理興趣點(diǎn)名稱作為地理興趣點(diǎn)的全稱存儲(chǔ)在地理興趣點(diǎn)知識庫中; 步驟1.3:根據(jù)步驟1.2抽取到的地理興趣點(diǎn)全稱,生成地理興趣點(diǎn)部分名稱,并存儲(chǔ)在地理興趣點(diǎn)知識庫中。
4.根據(jù)權(quán)利要求3所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于:步驟1.3的具體實(shí)現(xiàn)過程為基于地理興趣點(diǎn)全稱,提取這個(gè)全稱的所有長度不超過5個(gè)單詞的子序列,在此過程中,英文停用詞將作為產(chǎn)生子序列的分隔詞,并且不會(huì)出現(xiàn)在子序列中,這些子序列將作為其地理興趣點(diǎn)的部分名稱存儲(chǔ)在地理興趣點(diǎn)知識庫中。
5.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于:步驟2中所述的對來自該給定的地理區(qū)域的英文微博進(jìn)行掃描匹配,在匹配地理興趣點(diǎn)名稱的過程中,優(yōu)先選擇更長的地理興趣點(diǎn)名稱以及位置靠前出現(xiàn)的名稱。
6.根據(jù)權(quán)利要求1所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于:步驟3中所述的依據(jù)提取詞匯特征、語法特征和BILOU模式標(biāo)記特征,給定一條微博t, Wi表示微博中的第i個(gè)單詞,Xi表示W(wǎng)i的全小寫形式,I表示微博中的某個(gè)候選地理興趣點(diǎn),具體詞匯特征、語法特征和BILOU模式標(biāo)記特征如下:詞匯特征: Al: 單詞Wi和它的全小寫形式Xi ; A2:單詞Wi的外形,包括是否全部大寫,是否首字符大寫,是否全是數(shù)字字符以及是否全是字母數(shù)字符號; A3 =Xi的前綴和后綴,長度分別為1,2,3個(gè)字符; A4 =Xi首字符為大寫的先驗(yàn)概率,Xi為全大寫形式的先驗(yàn)概率,這兩類先驗(yàn)概率是基于全局的英文微博來進(jìn)行估計(jì)得到的,概率值是一個(gè)連續(xù)變量值,值域?yàn)閇O,I]; A5 =Xi及其前后2個(gè)單詞的上下文窗口的詞袋Xi_2, X1-!, Xi, xi+1, xx+2 ; A6:Xi的前面兩個(gè)單詞詞袋Xi_2, X1-!; A7:Xi的后面兩個(gè)單詞詞袋xi+1, xi+2 ; 語法特征: B1:詞性標(biāo)注,包括當(dāng)前詞Wi和其前后詞Wi_1; wi+1的詞性標(biāo)注; B2:基于布朗聚類算法的單詞聚類標(biāo)號;3個(gè)基于不同路徑長度的單詞聚類標(biāo)號被使用,分別是4,8,12個(gè)比特長度; B3:計(jì)算微博t的時(shí)間趨勢分值;本發(fā)明提供36個(gè)常用英文單詞及其他們的時(shí)間趨勢分值作為參考,稱為時(shí)間趨勢單詞字典,記為D,時(shí)間趨勢的分值為_1,0,I,分別代表過去、現(xiàn)在以及將來的時(shí)間趨勢,依據(jù)時(shí)間趨勢單詞字典,計(jì)算微博t的時(shí)間趨勢分值,值域?yàn)閇-1,I];完整的時(shí)間趨勢單詞字典如表格I所示: 表格I完整的時(shí)間趨勢單詞字典 __
7.根據(jù)權(quán)利要求6所述的抽取英文微博中地理興趣點(diǎn)和感知其時(shí)間趨勢的信息獲取方法, 其特征在于:基于時(shí)間趨勢單詞字典,計(jì)算微博t的時(shí)間趨勢分值的步驟如下: 步驟3.1:如果單詞w e t出現(xiàn)在時(shí)間趨勢單詞字典中,w的時(shí)間趨勢分值為字典中設(shè)定的分值; 步驟3.2:如果單詞w e t不屬于時(shí)間趨勢單詞字典,獲取w的路徑長度為12個(gè)比特的布朗單詞聚類結(jié)果,記為6如果時(shí)間趨勢單詞字典P和單詞聚類結(jié)果氏《的交集P n Bw不為空,并且交集中的每個(gè)早詞都在字典?中對應(yīng)相同的時(shí)間趨勢分值,設(shè)置該時(shí)間趨勢分值為單詞w的時(shí)間趨勢分值;微博t中所有基于步驟3.1和3.2設(shè)置了時(shí)間趨勢分值的單詞記為Pt,這些單詞均是基于時(shí)間趨勢單詞字典D直接或者間接匹配確定的; 步驟3.3:根據(jù)單詞的詞性標(biāo)注,對微博中的所有動(dòng)詞設(shè)置時(shí)間趨勢分值;過去分詞和動(dòng)詞的過去時(shí)態(tài)的時(shí)間趨勢分值為-1 ;第三人稱單數(shù),非第三人稱單數(shù),動(dòng)名詞,現(xiàn)在分詞,動(dòng)詞基本形式的時(shí)間趨勢分值為O ; 步驟3.4:根據(jù)步驟3.1,3.2和3.3設(shè)置了時(shí)間趨勢分值的單詞,其微博的時(shí)間趨勢分值為這些單詞的時(shí)間趨勢分值的平均值,數(shù)值在-1和I之間;如果沒有單詞被設(shè)置了時(shí)間趨勢分值,微博的時(shí)間趨勢分值為O。到此計(jì)算出來的微博時(shí)間趨勢分值是個(gè)連續(xù)值,值域?yàn)閇-1,I]。
8.根據(jù)權(quán)利要求6所述的英文微博中地理興趣點(diǎn)抽取和感知其時(shí)間趨勢的方法,其特征在于:所述的步驟3中,在條件隨機(jī)場模型訓(xùn)練階段,訓(xùn)練集合的真實(shí)數(shù)據(jù)結(jié)果也按照BILOU模式進(jìn)行標(biāo)記。
【文檔編號】G06F17/30GK103984771SQ201410243738
【公開日】2014年8月13日 申請日期:2014年6月4日 優(yōu)先權(quán)日:2014年6月4日
【發(fā)明者】李晨亮, 孫愛欣 申請人:武漢大學(xué)