两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

基于中文短語串的細(xì)粒度主題信息抽取方法

文檔序號:10612802閱讀:317來源:國知局
基于中文短語串的細(xì)粒度主題信息抽取方法
【專利摘要】本發(fā)明提出了一種基于中文短語串的細(xì)粒度主題信息抽取方法,首先對輸入的原始文本集進(jìn)行預(yù)處理,主要分為中文分詞、停用詞處理和詞性標(biāo)注。在進(jìn)行預(yù)處理的同時(shí),進(jìn)行擴(kuò)展詞匯輸入,從而提高中文分詞的準(zhǔn)確度。預(yù)處理階段完成后,得到處理后的結(jié)構(gòu)化文本集合。然后進(jìn)行基于詞性的正則表達(dá)式匹配,得到一個初步的短語篩選結(jié)果。然后統(tǒng)計(jì)每個詞語的串頻信息,選取種子詞,對短語進(jìn)行擴(kuò)展,最終得到短語抽取結(jié)果。通過實(shí)驗(yàn)證明,該文本抽取方法能夠有效且精煉地抽取文本短語,具有一定的可靠性和應(yīng)用性。
【專利說明】
基于中文短語串的細(xì)粒度主題信息抽取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明一般涉及文本挖掘領(lǐng)域,具體涉及基于中文短語串的細(xì)粒度主題信息抽取 方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)時(shí)代的不斷發(fā)展,信息呈現(xiàn)爆炸式的增長。近幾年,"大數(shù)據(jù)"和云計(jì)算 技術(shù)一直被炒得很熱,也在一些領(lǐng)域中得到了不同的應(yīng)用。本方法是基于中文短語串的主 題信息抽取,屬于文本挖掘技術(shù)。在信息爆炸的時(shí)代,人們被動地接受大量的無效信息,如 電子郵件、廣告以及互聯(lián)網(wǎng)上的虛假消息等,浪費(fèi)了人們大量的時(shí)間和精力。雖然搜索引擎 在一定程度上能夠幫助人們獲取到特定的信息,但還是不能更深入地挖掘出背后隱藏的有 用信息。故人們迫切地需要在網(wǎng)絡(luò)中搜索到精確的信息,提供更全面的網(wǎng)絡(luò)話題挖掘服務(wù)。 從而人們在知道網(wǎng)絡(luò)所覆蓋主題的一般性描述的同時(shí),也能夠?qū)W習(xí)其他人的評價(jià)和討論話 題的具體細(xì)節(jié)。
[0003] 由于中文文字的復(fù)雜性和缺乏對中文文本挖掘技術(shù)的研究,導(dǎo)致國內(nèi)的文本挖掘 技術(shù)發(fā)展比較晚。主要分為兩類:一是基于詞語規(guī)則的方法基于詞語規(guī)則方法本質(zhì)是總結(jié) 并分析不同詞語之間相互關(guān)系來進(jìn)行規(guī)則歸納,并對待處理文本執(zhí)行后續(xù)工作;二是基于 文本語義的規(guī)則方法,基于語義方法本質(zhì)是搜索通用知識庫來進(jìn)行文本語義信息的抽取。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明以文本短語為基本語義信息單位,針對中文短語抽取進(jìn)行研究。本發(fā)明提 供了基于中文短語串的細(xì)粒度主題信息抽取方法。本發(fā)明的目的在于通過提供的文本集 合,能夠有效地挖掘和提煉出里面潛在的信息,從而提供決策支持。
[0005] 本發(fā)明的目的通過如下技術(shù)方案實(shí)現(xiàn)。
[0006] -種基于中文短語串的細(xì)粒度主題信息抽取方法,其包括以下步驟:
[0007] (a)對原始文本進(jìn)行常規(guī)的文本分析的預(yù)處理步驟,包括中文分詞、停用詞處理和 詞性標(biāo)注;
[0008] (b)針對語料中存在的大量專有名詞引入另外的擴(kuò)展詞庫來進(jìn)行處理,從而得到 結(jié)構(gòu)化的文本集合;
[0009] (c)利用步驟(a,b)中得到的結(jié)構(gòu)化文本集合,進(jìn)行基于詞性長度的正則表達(dá)式匹 配,以7個詞語作為短語長度的上限;
[0010] (d)利用步驟(c)過濾得到的短語抽取的中間結(jié)果,進(jìn)行詞語串頻信息統(tǒng)計(jì),包括 前綴短語串頻集合和后綴短語串頻集合的信息統(tǒng)計(jì);
[0011] (e)基于步驟(d)統(tǒng)計(jì)得到的信息進(jìn)行詞語串頻信息參數(shù)分析;
[0012] 基于步驟(e)進(jìn)行候選種子詞選取與短語擴(kuò)展向前進(jìn)行短語擴(kuò)展和向后進(jìn)行短語 擴(kuò)展。
[0013] 進(jìn)一步地,在文本預(yù)處理階段,對原始文本進(jìn)行處理的步驟主要是中文分詞、停用 詞處理和詞性標(biāo)注。由于中文的詞與詞之間不像英文那樣有固定的間隔符,所以對原始文 本第一步操作是中文分詞和停用詞處理,本文使用的是基于詞庫的分詞算法,正向最大匹 配、逆向匹配和逐詞遍歷匹配法。在進(jìn)行預(yù)處理的同時(shí),由于大量專有名詞主體的存在,本 文引入額外的擴(kuò)展詞庫,為了提高中文分詞的準(zhǔn)確度和精密度,擴(kuò)展詞庫需要不斷地更新 維護(hù)。之后進(jìn)行詞性標(biāo)注,主要分為四種詞性,名詞n、動詞V、形容詞adj和副詞adv。
[0014] 進(jìn)一步地,通過對搜狗語料庫的新聞文章進(jìn)行調(diào)查,主要的中文短語含詞的數(shù)目 在4個和5個,90%以上的中文短語含詞數(shù)目不超過7個,故本方法的上限為7個詞。對其中的 語料短語進(jìn)行結(jié)構(gòu)上的分析,短語的詞性包括4種詞性:名詞n,動詞V,形容詞adj和副詞 adv。參考目前中文語法范疇,主要分為以下四種類型的短語:
[0015] (1)并列短語:n+n/v+v/adj+adj/adv+adv
[0016] (2)偏正短語:ad j+n/adv+ad j/adv+v
[0017] (3)動賓短語:v+n/v+v/v+ad j
[0018] (4)主謂結(jié)構(gòu):n+v/n+adj
[0019] 正則表達(dá)式(Regular Expressions)的本質(zhì)核心是通過語法格式匹配字符,現(xiàn)在 已經(jīng)是公認(rèn)的ISO標(biāo)準(zhǔn),且被廣泛地應(yīng)用到各種信息技術(shù)領(lǐng)域。許多計(jì)算機(jī)應(yīng)用平臺和腳本 語言現(xiàn)在都已經(jīng)支持正則表達(dá)式。根據(jù)中文短語7個詞最長匹配原則,下面將列舉按照詞性 有效長度的詞性短語組成的正則表達(dá)式:
[0020] a. 1種詞性有效長度的短語
[0021] (l)n+
[0022] b. 2個詞性有效長度的短語
[0023] (1)n+adv*v+
[0024] (2)v+adv木v+
[0025] (3)n+adv*adj+
[0026] (4)v+adj*n+
[0027] (5)adj+n+
[0028] c. 3個詞性有效長度的短語
[0029] (1)n+adv*v+adj*n+
[0030] (2)n+adv*v+adv*adj+
[0031 ] (3)adj+n+adv*v+
[0032] (4)adj+n+adv*adj+
[0033 ] (5)adv+adj+n+
[0034] (6)adv+v+adv^v+
[0035] (7)adv+v+adj*n+
[0036] d. 4個詞性有效長度的短語
[0037] (1 )n+adv>!<v+adv>!<ad j+
[0038] (2)adj+n+adv*v+adj*n+
[0039] (3)adj+n+adv*v+adv*adj+
[0040] (4)adv+adj+n+adv*adj+
[0041 ] (5) adv+ad j+n+adv>!<v+
[0042] e. 5個詞性有效長度的詞語
[0043] (1)adv+adj+n+adv*v+adv*adj+
[0044] (2)adv+adj+n+adv*v+adj*n+
[0045] 以上基本包含了 7個詞語長度以下5個詞性有效長度以下的短語結(jié)構(gòu)的組成方式。
[0046] 進(jìn)一步地,步驟(d)中,詞語串頻信息包括前綴詞語串頻集合和后綴詞語串頻集 合。前綴詞語串頻集合是指候選種子詞的前綴詞語所組成的集合,包括前綴詞語的詞語內(nèi) 容以及出現(xiàn)頻次。同理后綴詞語串頻集合是指候選種子詞的后綴詞語所組成的集合,也包 括后綴詞語的詞語內(nèi)容以及出現(xiàn)頻次。本方法用數(shù)學(xué)集合進(jìn)行表示,對于某一種子詞t,前 綴詞語串頻集合pre_s (prefix-set)定義如下:
[0047] pre_st={(ewi,efi),(ew2,ef2), ...,(ewn,efn)}
[0048] 其中(ewi,efi)表示第i個前綴詞eWi和第i個前綴詞e Wi出現(xiàn)的頻次efi。類似地后綴 詞語串頻集合post-set (postfix-set)定義如下:
[0049] p〇St_St = { (OWl,〇fl),(OW2,〇f2),…(OWn,〇fn)}
[0050 ]其中(o w j,o f j)表示第j個前綴詞o w j和第j個前綴詞o w j出現(xiàn)的頻次o f j。
[0051] 對于種子詞,最頻繁前綴詞是前綴詞語集合中頻次最高的前綴詞max_eWt,而最頻 繁后綴詞是后綴詞語集合中頻次最高的后綴詞max_ 〇Wt。其定義分別如下,k、l分別表示頻 數(shù)最大的如綴詞和后綴詞的下標(biāo):
[0052]
[0053]
[0054]肖U綴詞最尚頻比max_p_freqt是最頻繁如綴詞的頻次比上所有如綴詞頻次求和。
[0055]
Ι^?Κ?
[0056] 后綴詞最高頻比max_S_freqt是最頻繁后綴詞的頻次比上所有后綴詞頻次求和。
[0057]
[0058] 進(jìn)一步地,步驟(e)中,前綴詞語串頻集合pre_s和后綴詞語串頻集合p〇S_s代表了 種子詞在上下文中出現(xiàn)的信息???^_8和口081:_8的集合越大,表示該種子詞與其他詞語進(jìn)行 組合的概率越大,從而進(jìn)行對詞語的擴(kuò)展。通過對文檔分析,?^_8和?081:_8中每個前綴詞 語和后綴詞語相對應(yīng)的頻次ef和Of大小決定了對應(yīng)的前綴詞語或后綴詞語能否會成為種 子詞的擴(kuò)展。通過定義一個閾值(1:11^811〇1(1);^1^與6€和(^進(jìn)行比較,當(dāng)6€和(^的值大于等 于閾值ftrh,則判斷前綴或后綴詞語符合短語擴(kuò)展的條件從而能夠進(jìn)行短語擴(kuò)展。假設(shè)b 1>t 為布爾變量表示某個前綴或后綴詞語能否作為種子詞t的擴(kuò)展詞來來進(jìn)行短語擴(kuò)展,那么 定義
[0059]
[0060]
[0061 ] 進(jìn)一步地,步驟(f )中,基于對種子詞的分析,可以得出口代_8和口081:_861:的集合越 大越容易成為種子詞。但是單純計(jì)算?^_8和?081:_8的集合元素的個數(shù)進(jìn)行求和是有所欠 缺的。在選擇候選種子詞上,仿照笛卡爾乘積的思想,對?^_8和卩081:_8集合中元素的個數(shù) 分別加上1,再計(jì)算乘積作為判斷依據(jù),用seed_value來表示:
[0062] seed_valuet=(|pre_si |+1) · (|post_Si|+1)
[0063] 之所以對兩個乘數(shù)加上1,主要是考慮到避免某些詞語的pre_S或者post_ S元素個 數(shù)為0從而導(dǎo)致其的值為0,然而實(shí)際上該詞語在進(jìn)行選取候選種子詞時(shí)依然有其自身貢獻(xiàn) 度。
[0064] 假設(shè)Seed_W〇rd是用于擴(kuò)展所選擇的候選種子詞,{。,〖^…^丨是短語中的詞語集 合,k為最大種子詞的下標(biāo),m為最大種子詞的下標(biāo),那么
[0065]
[0066] 在選取候選種子詞后,進(jìn)行前綴短語擴(kuò)展和后綴短語擴(kuò)展。在擴(kuò)展的過程中,終止 短語擴(kuò)展的條件是,達(dá)到短語擴(kuò)展終止條件或者當(dāng)找不到新的前綴詞或者后綴詞作為新的 種子詞。
[0067] 與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:
[0068] 本發(fā)明考慮使用的是較低層次的短語作為語義單元。中文短語串相對于句子而言 也有類似的語法結(jié)構(gòu)(主謂結(jié)構(gòu)、動賓結(jié)構(gòu)等等),為了滿足最基本的語義要求。中文的句子 短語串相對來說處于低層次的詞匯水平,并且在詞匯短語之間能夠搭配表達(dá)的信息遠(yuǎn)遠(yuǎn)多 出純粹詞匯之間拼湊出的信息。目前在表示文本特征的步驟中,詞匯僅僅只是以一個標(biāo)簽 的屬性值的形式存在,詞匯本身并沒有為特征表示提供更多的語義信息。本方法不需要對 語料樣本進(jìn)行詞性語義模型的建立和知識庫輸入,通用性相對更強(qiáng),具有比較好的短語抽 取效果。
【附圖說明】
[0069] 圖1為基于種子詞"股市"的前綴詞語串頻集合和后綴詞語串頻集合示意圖。
【具體實(shí)施方式】
[0070] 以下結(jié)合實(shí)施例對本發(fā)明的實(shí)施方式作進(jìn)一步說明,但本發(fā)明的實(shí)施不限于此。
[0071] 下面是針對中國經(jīng)濟(jì)在網(wǎng)絡(luò)上進(jìn)行搜索,摘錄了一些句子文本集合進(jìn)行舉例說 明,進(jìn)行接下來步驟的實(shí)施。
[0072] (1)全球經(jīng)濟(jì)貿(mào)易增長乏力,原因是2008年以來的國際經(jīng)濟(jì)危機(jī)還沒有完全退出, 它的影響還在。
[0073] (2)因全隨著中國經(jīng)濟(jì)總量成為世界第二,很多大國對中國有了一些防范心理,周 邊國家也對中國有些芥蒂。
[0074] (3)中國進(jìn)入中等收入階段,貧富差距仍然比較大,社會矛盾一部分在加劇,老百 姓對權(quán)利的訴求在增加。
[0075] (4)資源越來越短缺,環(huán)境污染的壓力仍然很大。大氣、水、土壤,這些污染的增量 控制可以有所成效,但是已經(jīng)污染了的存量部分的解決還需要時(shí)間。
[0076] (5)作為世界第二大經(jīng)濟(jì)體,中國經(jīng)濟(jì)走勢受到大家關(guān)注,中國經(jīng)濟(jì)的一舉一動與 世界經(jīng)濟(jì)的關(guān)聯(lián)度可謂與日倶增。
[0077] (6)目前資本市場的改革和發(fā)展還不能完全適應(yīng)國民經(jīng)濟(jì)健康穩(wěn)定發(fā)展的需要, 也不能完全支持國家經(jīng)濟(jì)金融安全的需要。隨著全面深化改革的持續(xù)推進(jìn),資本市場的深 改也將提速,以實(shí)現(xiàn)與經(jīng)濟(jì)"新常態(tài)"相匹配。
[0078] (7)目前我國經(jīng)濟(jì)發(fā)展處于工業(yè)化中后期,雖然近年來消費(fèi)在經(jīng)濟(jì)增加值中所占 比重越來越大,但是以制造業(yè)為核心的實(shí)體經(jīng)濟(jì)仍然是我國經(jīng)濟(jì)的主體。
[0079] (8)在"十三五"規(guī)劃期間,穩(wěn)健增長的中國經(jīng)濟(jì)將為亞太經(jīng)濟(jì)帶來新的活力。
[0080] (9)只有通過股市融資,才能"提高直接融資比重,降低杠桿率",也才能有效化解 過剩產(chǎn)能,讓那些有創(chuàng)新活力的企業(yè),主要通過股權(quán)融資做優(yōu)、做強(qiáng)、做大。股市,特別是加 快股票融資,肩負(fù)著經(jīng)濟(jì)轉(zhuǎn)型產(chǎn)業(yè)升級的重任。
[0081] (10)中國經(jīng)濟(jì)增長需要進(jìn)一步推進(jìn)改革,更多取決于結(jié)構(gòu)改革。
[0082] 第一步,進(jìn)行文本預(yù)處理,中文分詞、停用詞處理和詞性標(biāo)注,得到一個結(jié)構(gòu)化的 文本集合。
[0083] 第二步,進(jìn)行基于詞性的正則表達(dá)式的匹配,主要有以下4中詞性(名詞n,動詞V, 形容詞ad j,和副詞adv)的正則表達(dá)式匹配,最高詞長度為7。
[0084] 短語抽取結(jié)果有:"全球經(jīng)濟(jì)貿(mào)易增長乏力"、"國際經(jīng)濟(jì)危機(jī)"、"中國經(jīng)濟(jì)總量"、 "中國經(jīng)濟(jì)走勢"、"世界第二大經(jīng)濟(jì)體"、"適應(yīng)國民經(jīng)濟(jì)健康穩(wěn)定發(fā)展的需要"、"穩(wěn)健增長 的中國經(jīng)濟(jì)"、"經(jīng)濟(jì)轉(zhuǎn)型產(chǎn)業(yè)升級的重任"、"國家經(jīng)濟(jì)金融安全"、"消費(fèi)在經(jīng)濟(jì)增加值中所 占比重越來越大"、"世界經(jīng)濟(jì)的關(guān)聯(lián)度可謂與日倶增"等。
[0085] 第三步,對上述文本集合進(jìn)行詞語串頻信息統(tǒng)計(jì)。按公式計(jì)算出的候選種子詞"股 市"的詞語串頻信息如下:
[0086] 前綴詞語串頻集合Pre_s:{(中國,5),(國際,2),(全球,1),(世界,1),(實(shí)體,1)} [0087] 最頻繁前綴詞語max_ewt:中國
[0088] 如綴詞最尚頻比
[0089] 后綴詞語串頻集合P〇st_S:{(增長,3),(發(fā)展,2),(穩(wěn)定,2),(危機(jī),1),(轉(zhuǎn)型,1), (升級,1)}
[0090] 最頻繁后綴詞語max_0W:增長
[0091] 后綴詞最尚頻比
[0092] 基于種子詞"經(jīng)濟(jì)"的前綴詞語串頻集合和后綴詞語串頻集合見說明書附圖1所示。
[0093] 第四步,對詞語串頻信息參數(shù)進(jìn)行分析。
[0094] 定義一個閾值ftrh來與ef和of進(jìn)行對比,當(dāng)ef和of的值大于等于閾值ftrh,則判斷 前綴詞語或者后綴詞語滿足短語擴(kuò)展條件從而進(jìn)行短語擴(kuò)展。根據(jù)ftrh的公式計(jì)算,當(dāng)ftrh =2時(shí),那么"經(jīng)濟(jì)"作為其種子詞將會在文本中擴(kuò)展為"中國經(jīng)濟(jì)"和"世界經(jīng)濟(jì)","經(jīng)濟(jì)增 長","經(jīng)濟(jì)發(fā)展","經(jīng)濟(jì)穩(wěn)定","中國經(jīng)濟(jì)發(fā)展"和"世界經(jīng)濟(jì)發(fā)展"。
[0095] 從實(shí)例中可以看到,通過本方法抽取出的中文短語串較好地表達(dá)了這些文檔的文 本特征,也直觀的反映了文本的語義信息,有助于對中文自然語言的處理提供指導(dǎo)性的意 見。
【主權(quán)項(xiàng)】
1. 一種基于中文短語串的細(xì)粒度主題信息抽取方法,其特征在于,包括W下步驟: (a) 對原始文本進(jìn)行常規(guī)的文本分析的預(yù)處理步驟,包括中文分詞、停用詞處理和詞性 標(biāo)注; (b) 針對語料中存在的大量專有名詞引入另外的擴(kuò)展詞庫來進(jìn)行處理,從而得到結(jié)構(gòu) 化的文本集合; (C)利用步驟(a), (b)中得到的結(jié)構(gòu)化文本集合,進(jìn)行基于詞性長度的正則表達(dá)式匹 配,W7個詞語作為短語長度的上限; (d) 利用步驟(C)過濾得到的短語抽取的中間結(jié)果,進(jìn)行詞語串頻信息統(tǒng)計(jì),包括前綴 短語串頻集合和后綴短語串頻集合的信息統(tǒng)計(jì); (e) 基于步驟(d)統(tǒng)計(jì)得到的信息進(jìn)行詞語串頻信息參數(shù)分析; (f) 基于步驟(e)進(jìn)行候選種子詞選取與短語擴(kuò)展向前進(jìn)行短語擴(kuò)展和向后進(jìn)行短語 擴(kuò)展。2. 根據(jù)權(quán)利要求1所述基于中文短語串的細(xì)粒度主題信息抽取方法,其特征在于:步驟 (C)中分析結(jié)構(gòu)化文本集合其中的語料短語的結(jié)構(gòu),主要是4種詞性的詞語:動詞V,名詞n, 形容詞adj和副詞adv;參考目前中文語法范疇,主要分為W下四種類型的短語: (1) 并列短語:n+n/v+v/ad j+ad j /ad v+ad V (2) 偏正短語:ad j+n/adv+ad j/adv+v (3) 動賓短語:v+n/v+v/v+ad j (4) 主謂結(jié)構(gòu):n+v/n+ad j; 基于中文短語W7個字為上限的長度,對詞性長度進(jìn)行統(tǒng)計(jì),主要分為: a. 巧巾詞性有效長度的短語 (l)n+ b. 2個詞性有效長度的短語 (1) n+曰dv*v+ (2) v+adv*v+ (3) n+adv*adj+ (4) v+adj*n+ (5) 曰dj+n+ c. 3個詞性有效長度的短語 (1) n+曰dv*v+曰dj*n+ (2) n+曰dV*v+曰dV*曰d j+ (3) ad j +n+adV*v+ (4) ad j +n+adv*ad j+ (5) 3dv+3dj+n+ (6) 3dv+v+3dv*v+ (7) 3dv+v+3dj*n+ d. 4個詞性有效長度的短語 (1) n+曰dv*v+曰dv*曰dj+ (2) ad j +n+adV*v+ad j *n+ (3) 曰d j +n+曰dV*v+曰dV*曰d j+ (4) 曰dv+曰d j +n+曰dV相d j+ (5) 曰dv+曰d j +n+曰dV*v+ e. 5個詞性有效長度的詞語 (1) 曰dv+曰dj+n+曰dv*v+曰dv*曰dj+ (2) 曰dv+曰d j +n+曰dV*v+曰d j *n+ ο3. 根據(jù)權(quán)利要求1所述基于中文短語串的細(xì)粒度主題信息抽取方法,其特征在于:步驟 (d) 中,前綴詞語串頻和后綴詞語串頻集合指的是候選種子詞的前綴詞語、后綴短語所組成 的集合,包含了詞語的出現(xiàn)頻次和內(nèi)容;對于某一種子詞t,用數(shù)學(xué)集合進(jìn)行表示,前綴詞語 串頻集合縮寫pre_st定義如下: pre_st= {(ewi,efi), (ew2,ef2), . . . ,(ewn,efn)} 其中(ewi,efi)是第i個前綴詞ewi,efi是前綴詞ewi出現(xiàn)的頻次,η表示前綴詞總的個數(shù); 同理,后綴詞語串頻集合(postfix-set)定義如下: P〇St_St= { (〇Wl,〇fl) , (〇W2,〇f2) , . . . ,(〇Wn,〇fn)} 其中(ewj,e。)是第j個后綴詞,ofj是第j個后綴詞owj出現(xiàn)的頻次;對于種子詞t,最頻繁 前綴詞是前綴詞語集合中頻次最高的前綴詞max_ewt,而最頻繁后綴詞是后綴詞語集合中 頻次最高的后綴詞max_owt;其定義分別如下,k、l分別表示頻數(shù)最大的前綴詞和后綴詞的 下標(biāo):前綴詞最高頻次比max_e_freqt是最頻繁前綴詞的頻次比上所有前綴詞頻次的和;后綴 詞最高頻次比max_o_freqt是最頻繁后綴詞的頻次比上所有后綴詞頻次的和,4. 根據(jù)權(quán)利要求1所述基于中文短語串的細(xì)粒度主題信息抽取方法,其特征在于:步驟 (e) 中,前綴詞語串頻集合pre_s和后綴詞語串頻集合口〇3_3代表了種子詞在上下文中出現(xiàn) 的信息;9'6_3和9〇3*_3的集合越大,表示該種子詞與其他詞語進(jìn)行組合的概率越大,從而 進(jìn)行對詞語的擴(kuò)展;通過對文檔分析,9'6_3和9〇3*_3中每個前綴詞語和后綴詞語相對應(yīng)的 頻次ef和of大小決定了對應(yīng)的前綴詞語或后綴詞語能否會成為種子詞的擴(kuò)展;通過定義一 個闊值ftrh與ef和of進(jìn)行比較,當(dāng)ef和of的值大于等于闊值ftrh,則判斷前綴或后綴詞語符 合短語擴(kuò)展的條件從而能夠進(jìn)行短語擴(kuò)展;假設(shè)bi,t為布爾變量表示某個前綴或后綴詞語 能否作為種子詞t的擴(kuò)展詞來來進(jìn)行短語擴(kuò)展,那么定義5.根據(jù)權(quán)利要求4所述基于中文短語串的細(xì)粒度主題信息抽取方法,其特征在于:基于 對種子詞的分析,可W得出9'6_3和9〇3*_36*的集合越大越容易成為種子詞;但是單純計(jì)算 pre_s和post_s的集合元素的個數(shù)進(jìn)行求和是有所欠缺的;在選擇候選種子詞上,仿照笛卡 爾乘積的思想,對9'6_3和9〇3*_3集合中元素的個數(shù)分別加上1,再計(jì)算乘積作為判斷依據(jù), 用seed_value來表示: seed_valuet=(|pre_si|+l) · (|post_si|+l) 假設(shè)seed_word是用于擴(kuò)展所選擇的候選種子詞,{巾1^2,"|心}是短語中的詞語集合, m為最大種子詞的下標(biāo),那么
【文檔編號】G06F17/27GK105975475SQ201610207374
【公開日】2016年9月28日
【申請日】2016年3月31日
【發(fā)明人】黃翰, 丁東輝, 林偉佳, 郝志峰, 楊曉偉
【申請人】華南理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
武安市| 阜城县| 财经| 江都市| 文成县| 清涧县| 思南县| 鸡泽县| 家居| 清苑县| 咸丰县| 红安县| 探索| 阳东县| 海安县| 丽江市| 连江县| 孟村| 石阡县| 昌平区| 海城市| 万全县| 慈溪市| 铜川市| 昭平县| 蓝山县| 甘泉县| 郁南县| 澳门| 休宁县| 昌图县| 营口市| 两当县| 寿光市| 山丹县| 新田县| 托克逊县| 澄城县| 许昌县| 叶城县| 沧源|