一種基于圖模型的中文微博客傾向性檢索方法
【專利摘要】本發(fā)明涉及一種基于圖模型的中文微博客傾向性檢索方法,包括以下步驟:(1)對(duì)微博進(jìn)行預(yù)處理,包括去噪聲、分詞、停用詞處理,得到預(yù)處理后的微博;(2)根據(jù)預(yù)先收集的并經(jīng)過(guò)預(yù)處理的傾向性微博集,并基于圖模型方法計(jì)算傾向詞典中每個(gè)傾向詞的傾向性權(quán)重,反映每一個(gè)傾向詞不同的傾向性強(qiáng)度;(3)根據(jù)微博和給定的查詢主題,計(jì)算每條微博的相關(guān)性得分,然后對(duì)微博進(jìn)行傾向性得分計(jì)算,得到每條微博的傾向性得分,最后將每條微博的相關(guān)性得分與傾向性得分的乘積作為每條微博最終的排名得分,并基于所述排名得分對(duì)微博進(jìn)行排名,得到最終的微博列表。該方法檢索速度快,準(zhǔn)確度高,適用范圍廣,應(yīng)用性強(qiáng)。
【專利說(shuō)明】一種基于圖模型的中文微博客傾向性檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及觀點(diǎn)挖掘和傾向性分析【技術(shù)領(lǐng)域】,更具體地,涉及一種基于圖模型的 中文微博客傾向性檢索方法,能應(yīng)用于市場(chǎng)調(diào)研、投票預(yù)測(cè)、廣告分析、網(wǎng)絡(luò)觀點(diǎn)挖掘等,適 用于中文微博客,包括新浪微博、騰訊微博、網(wǎng)易微博等。
【背景技術(shù)】
[0002] 微博的傾向性檢索旨在微博客上檢索大眾對(duì)熱點(diǎn)話題的觀點(diǎn)看法,要求被檢索出 的文檔除了與給定查詢主題相關(guān)以外,還必須具有對(duì)給定查詢主題的主觀性評(píng)論。因此,它 是了解人們對(duì)熱點(diǎn)話題、組織等各種實(shí)體的真實(shí)觀點(diǎn)和看法的一種有效手段,可應(yīng)用于市 場(chǎng)調(diào)研、投票預(yù)測(cè)、廣告分析、網(wǎng)絡(luò)觀點(diǎn)挖掘等項(xiàng)目,具有廣闊的應(yīng)用前景。由于傾向性檢索 具有重大的研究?jī)r(jià)值與意義,因而受到國(guó)內(nèi)外眾多學(xué)者和研究機(jī)構(gòu)的廣泛關(guān)注。其中,以國(guó) 內(nèi)外的頂級(jí)評(píng)測(cè)會(huì)議最具代表性:國(guó)際檢索評(píng)測(cè)會(huì)議(TREC)舉辦的博客傾向性檢索評(píng)測(cè) (Blog Opinion Retrieval);日本 NTCIR 評(píng)測(cè)(Nil Test Collection for IR Systems)的 舉辦多語(yǔ)言傾向性分析評(píng)測(cè)(Multilingual Opinion Analysis Task, MOAT);國(guó)內(nèi)中文傾 向性分析評(píng)測(cè)會(huì)議(C0AE )和中文微博情感分析評(píng)測(cè)。
[0003] 在現(xiàn)有技術(shù)中,有很多技術(shù)方法可用于傾向性檢索,傳統(tǒng)的檢索方法采用兩階段 模型方法,在第一階段首先檢索出與給定查詢?cè)掝}相關(guān)的文檔,然后識(shí)別出這些與給定查 詢相關(guān)文檔的傾向性,最后綜合相關(guān)性和傾向性對(duì)文檔進(jìn)行排序。該模型結(jié)構(gòu)簡(jiǎn)單,容易理 解,但是缺乏合理的理論解釋。該方法第一階段通常采用語(yǔ)言模型、BM25等經(jīng)典檢索模型, 而將研究重點(diǎn)放在第二階段,即文檔的傾向性識(shí)別。國(guó)內(nèi)外對(duì)于文檔的傾向性識(shí)別方法主 要有基于傾向詞典的統(tǒng)計(jì)方法和基于機(jī)器學(xué)習(xí)的傾向性識(shí)別方法等。但是微博客中的文本 一般比較短、表達(dá)不規(guī)范,因此,直接采用傳統(tǒng)的傾向性檢索方法可能難以適應(yīng)微博客傾向 性檢索的需求。
[0004] 在現(xiàn)有技術(shù)中,還有借助當(dāng)前信息檢索和文本挖掘領(lǐng)域的最新模型,直接挖掘描 述主題的傾向性對(duì)文檔進(jìn)行排序的方法。該方法相對(duì)于兩階段模型,具有在理論上易解釋、 對(duì)信息需求表達(dá)更直接有效等優(yōu)點(diǎn),但是該方法可能沒(méi)有充分考慮微博客中豐富的上下文 信息,導(dǎo)致最終的信息需求有所偏差,影響最終的檢索結(jié)果。
[0005] 微博經(jīng)過(guò)幾年的快速發(fā)展,漸漸成為最流行的網(wǎng)絡(luò)社交媒介,人們?cè)絹?lái)越傾向于 在微博上分享個(gè)人對(duì)于熱點(diǎn)話題、組織等實(shí)體的看法、意見(jiàn)及評(píng)價(jià)。微博成為了網(wǎng)絡(luò)主觀性 信息的重要載體,對(duì)微博的傾向性進(jìn)行檢索有助于了解人們對(duì)于熱點(diǎn)話題、組織等實(shí)體的 真實(shí)觀點(diǎn)看法,有很好的現(xiàn)實(shí)的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。因此,迫切需要一種高效準(zhǔn)確 的中文微博傾向性檢索方法,該方法應(yīng)該能夠快速地發(fā)現(xiàn)微博中的傾向性信息,并對(duì)微博 按照傾向性強(qiáng)度進(jìn)行排序。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種基于圖模型的中文微博客傾向性檢索方法,該方法檢 索速度快,準(zhǔn)確度高,適用范圍廣,應(yīng)用性強(qiáng)。
[0007] 為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于圖模型的中文微博客傾向性檢 索方法,包括以下步驟: (1) 對(duì)微博進(jìn)行預(yù)處理,包括去噪聲、分詞、停用詞處理,得到預(yù)處理后的微博; (2) 根據(jù)預(yù)先收集的并經(jīng)過(guò)預(yù)處理的傾向性微博集,并基于圖模型方法計(jì)算傾向詞典 中每個(gè)傾向詞的傾向性權(quán)重,反映每一個(gè)傾向詞不同的傾向性強(qiáng)度; (3) 根據(jù)微博和給定的查詢主題,計(jì)算每條微博的相關(guān)性得分,然后對(duì)微博進(jìn)行傾向 性得分計(jì)算,得到每條微博的傾向性得分,最后將每條微博的相關(guān)性得分與傾向性得分的 乘積作為每條微博最終的排名得分,并基于所述排名得分對(duì)微博進(jìn)行排名,得到最終的微 博列表。
[0008] 進(jìn)一步的,在步驟(1)中,所述去噪聲處理為去除微博中的以下內(nèi)容: a)網(wǎng)頁(yè)鏈接;b)特殊字符;c)推廣相關(guān)的字符;d)表情相關(guān)的符號(hào);e)標(biāo)點(diǎn)符 號(hào); 所述停用詞處理為根據(jù)中文停用詞表刪除分詞后微博中的中文停用詞。
[0009] 進(jìn)一步的,所述步驟(2)中,所述傾向性微博集是從微博采集并經(jīng)過(guò)人工標(biāo)注傾 向性的微博集合,所述傾向詞典由相關(guān)知識(shí)庫(kù)中的中文正面情感詞語(yǔ)、中文負(fù)面情感詞語(yǔ)、 中文正面評(píng)價(jià)詞語(yǔ)和中文負(fù)面評(píng)價(jià)詞語(yǔ)組成,并通過(guò)如下的圖模型方法計(jì)算每個(gè)傾向詞的 傾向性權(quán)重: 在由傾向性微博集和傾向詞典組成的二分連接圖中,盡=U,.}為傾向詞典,{?//}為傾 向性微博集,當(dāng)一個(gè)傾向詞出現(xiàn)在一條傾向性微博中,便有一條邊連接該傾向詞與傾向性 微博,所對(duì)應(yīng)的連接邊由= e盡,來(lái)表示,每條連接邊的權(quán)重由如下公 式計(jì)算:
【權(quán)利要求】
1. 一種基于圖模型的中文微博客傾向性檢索方法,其特征在于,包括以下步驟: (1) 對(duì)微博進(jìn)行預(yù)處理,包括去噪聲、分詞、停用詞處理,得到預(yù)處理后的微博; (2) 根據(jù)預(yù)先收集的并經(jīng)過(guò)預(yù)處理的傾向性微博集,并基于圖模型方法計(jì)算傾向詞典 中每個(gè)傾向詞的傾向性權(quán)重,反映每一個(gè)傾向詞不同的傾向性強(qiáng)度; (3) 根據(jù)微博和給定的查詢主題,計(jì)算每條微博的相關(guān)性得分,然后對(duì)微博進(jìn)行傾向 性得分計(jì)算,得到每條微博的傾向性得分,最后將每條微博的相關(guān)性得分與傾向性得分的 乘積作為每條微博最終的排名得分,并基于所述排名得分對(duì)微博進(jìn)行排名,得到最終的微 博列表。
2. 根據(jù)權(quán)利要求1所述的一種基于圖模型的中文微博客傾向性檢索方法,其特征在 于,在步驟(1)中,所述去噪聲處理為去除微博中的以下內(nèi)容: a)網(wǎng)頁(yè)鏈接;b)特殊字符;c)推廣相關(guān)的字符;d)表情相關(guān)的符號(hào);e)標(biāo)點(diǎn)符 號(hào); 所述停用詞處理為根據(jù)中文停用詞表刪除分詞后微博中的中文停用詞。
3. 根據(jù)權(quán)利要求1所述的一種基于圖模型的中文微博客傾向性檢索方法,其特征在 于:所述步驟(2)中,所述傾向性微博集是從微博采集并經(jīng)過(guò)人工標(biāo)注傾向性的微博集合, 所述傾向詞典由相關(guān)知識(shí)庫(kù)中的中文正面情感詞語(yǔ)、中文負(fù)面情感詞語(yǔ)、中文正面評(píng)價(jià)詞 語(yǔ)和中文負(fù)面評(píng)價(jià)詞語(yǔ)組成,并通過(guò)如下的圖模型方法計(jì)算每個(gè)傾向詞的傾向性權(quán)重: 在由傾向性微博集和傾向詞典組成的二分連接圖中,盡=U,.}為傾向詞典,{?//}為傾 向性微博集,當(dāng)一個(gè)傾向詞出現(xiàn)在一條傾向性微博中,便有一條邊連接該傾向詞與傾向性 微博,所對(duì)應(yīng)的連接邊由= e盡,來(lái)表示,每條連接邊的權(quán)重由如下公 式計(jì)算:
其4
表示傾向詞匕在傾向性微博沁中出現(xiàn)的次數(shù),7m (4)為傾向性微博 沁的長(zhǎng)度;首先每條傾向性微博的初始得分設(shè)置為
每個(gè)傾向詞的得分設(shè)置為
?和分別為所有傾向性微博的條數(shù)和所有傾向詞的個(gè)數(shù),并根據(jù)如下的迭代公 式計(jì)算傾向性微博和傾向詞每步迭代的得分:
其中(L.)表示第Γ步傾向詞G的得分,如(?)表示第Γ步傾向 性微博< 的得分;當(dāng)連續(xù)兩步迭代的傾向詞得分和傾向性微博得分誤差小于某一閥值0, 迭代計(jì)算結(jié)束,得到最終的每個(gè)傾向詞得分即為每個(gè)傾向詞的傾向性權(quán)重。
4.根據(jù)權(quán)利要求1所述的一種基于圖模型的中文微博客傾向性檢索方法,其特征在 于:所述步驟(3)中,根據(jù)給定查詢7使用BM25檢索模型計(jì)算每條微博的相關(guān)性得分,計(jì)算 出的待檢索微博¢/的相關(guān)性得分表示為(¢/, <7),所述傾向性得分(¢/, <7)的計(jì) 算公式為:
其中,?,.表示傾向詞,〇,.表示傾向詞的傾向性權(quán)重,^為平滑參數(shù),co (?,.,<7)表示傾向 詞?,.和查詢<7在微博?/中共現(xiàn)的次數(shù),c (<7, 〇0表示查詢<7在微博?/中出現(xiàn)的次數(shù),Α?/? (〇〇 為微博的長(zhǎng)度;根據(jù)微博的相關(guān)性得分5bor6^e7 (¢/, <7)和傾向性得分(¢/, <7)計(jì)算最 終的排名得分(¢/, <7):
最終根據(jù)該排名得分對(duì)待檢索微博進(jìn)行排序,得到最終的微博列表。
【文檔編號(hào)】G06F17/30GK104217026SQ201410504180
【公開(kāi)日】2014年12月17日 申請(qǐng)日期:2014年9月28日 優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】陳國(guó)龍, 廖祥文, 陳胡 申請(qǐng)人:福州大學(xué)