專利名稱:用于提取新復(fù)合詞的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于從多個文本中提取短語的系統(tǒng)。具體而言,本發(fā)明涉及基于短語出現(xiàn)頻率提取短語的系統(tǒng)背景技術(shù)顧客可以將他們關(guān)于公司及其貨物和服務(wù)的批評、抱怨等張貼到在Internet上的公告牌和網(wǎng)絡(luò)日志(weblog)上。與例如在呼叫中心收集信息或收集對問卷的應(yīng)答信息的傳統(tǒng)情形相比,這樣的信息量更大,且很容易收集。此外,顧客往往將坦誠的意見張貼到公告牌和網(wǎng)絡(luò)日志上。如果使用這樣的信息,公司將進(jìn)一步提升公司策略的規(guī)劃。
顧客可以以任何樣式向公告牌和網(wǎng)絡(luò)日子張貼文本。用于從這樣各種樣式的文本中提取有用信息的技術(shù)稱為“文本挖掘(text mining)”等,已對該技術(shù)進(jìn)行了研究(參看非專利文獻(xiàn)4至6和專利文獻(xiàn)2至5)。在文本挖掘中,通常對所要關(guān)注的關(guān)鍵詞在文本中出現(xiàn)的頻率以及頻率隨時間的變化進(jìn)行分析。在該文本中的關(guān)鍵詞不僅可以為單個單詞,還可為由多個單詞組合而成的復(fù)合詞。然而,要適當(dāng)確定出要關(guān)注的關(guān)鍵詞卻并非容易,該確定可導(dǎo)致文本挖掘結(jié)果大相徑庭。
日本專利申請公開No.2002-245062[專利文獻(xiàn)2]日本專利申請公開No.2001-325272[專利文獻(xiàn)3]日本專利申請公開No.2004-206391[專利文獻(xiàn)4]日本專利申請公開No.2002-251402[專利文獻(xiàn)5]日本專利申請公開No.2005-165748[非專利文獻(xiàn)1]S.Ananiadou 1994.A Methodology For AutomaticTerm Recognition.CLOING 19941034-1038[非專利文獻(xiàn)2]Nakagawa H.And Mori T.2003 Automatic TermRecognition based on Statistics of Compound Nouns and theirComponents.Terminology,Vol.9 No.2,pp.201-219[非專利文獻(xiàn)3]Nakagawa Hiroshi.and Mori Tatsunori,YumotoHiroaki.2003.SYUTUGEN-HIND TO RENSETU-HINDO NIMOTODUKU SENMON-YOUGO CHUUSHUTSU SIZEN-GENGO-SYORI(Terminology Extraction and Natural Language Processing basedon Appearing Frequency and Linking Frequency),Vol.10 No.1,pp.27-45[非專利文獻(xiàn)4]J.Kleinberg 2002 Bursty and HierarchicalStructure in Streams.KDD 2002,pp.91-101[非專利文獻(xiàn)5]Sato Yoshihide.,Kawashima Harumi,SasakiTsutomu.,and Oku Masahiro.2005 ZIKEIRETSU NYUSU NI OKERUSAISHIN-WADAIGO-CHUUSHUTSU-HOUHOU(Method forExtracting Terms of Current Information of Temporal News.)Information Processing Society of Japan.Special Interest Group ofNatural Language Processing.NL168,pp.1-12[非專利文獻(xiàn)6]Sekiguchi Yuuichiro,Sato Yoshihide,KawashimaHarumi,Okuda Hidenori and Oku Masahiro 2005 BLOG-PEZI-SYUUGOU NI TAISURU WADAIGoKU CHUUSHUTSU SYUHOU(Method for Extracting Terms of Current Topics in Blog Page Assembly).Information processing Society of Japan,Special Interest Group ofNatural Language Processing NL170,pp27-32[非專利文獻(xiàn)7]Nasukawa T.and Nagano T.2001 Text analysisand knowledge mining system.IBM Systems Journal,Vol.40,No.4,pp967-984[非專利文獻(xiàn)8]Nagano T.,Takeda K.and Nasukawa T.2001Knowledge Discovery using Robust Natural Language Processing.InProc.of PACLING 2001
發(fā)明內(nèi)容
過去,已研究了用于從接連出現(xiàn)在文本中的多個單詞中檢測出短語的合適部分作為復(fù)合詞(參看非專利文獻(xiàn)1至3和專利文獻(xiàn)1)的技術(shù)。在每種技術(shù)中,基于其中相應(yīng)一個單詞在文本中出現(xiàn)的頻率(以下也稱“出現(xiàn)頻率”)來提取出復(fù)合詞。通過使用各個單詞在文本中出現(xiàn)的頻率(以下簡單稱為“出現(xiàn)頻率”)來提取復(fù)合詞。例如,在多個單詞出現(xiàn)在某一復(fù)合詞候選的相鄰位置處的情形下,通過包含這些相鄰單詞來確定復(fù)合詞是不合適的。在此情形中,有必要僅將復(fù)合詞候選確定為復(fù)合詞。然而,如果復(fù)合詞在文獻(xiàn)中總體而言出現(xiàn)頻率較低但僅因流行而暫時使用它,則會出現(xiàn)這些技術(shù)不能恰當(dāng)?shù)貙?fù)合詞進(jìn)行判斷的情形。
此外,以下方法已得到研究。在一個方法中,用戶構(gòu)建其中記錄復(fù)合詞的字典。在另一方法中,將作為語法分析結(jié)果而獲得的名詞短語視為復(fù)合詞。然而,在字典中登記所有復(fù)合詞是不現(xiàn)實(shí)的,這是因?yàn)闃?gòu)建字典耗力耗時,而且有時會自發(fā)創(chuàng)建復(fù)合詞。此外,作為語法分析的結(jié)果而獲得的名詞短語作為文本挖掘的關(guān)鍵詞可能是不合適的,這是因?yàn)樵谖墨I(xiàn)中名詞短語可能出現(xiàn)頻率極低。
本發(fā)明的目的在于提供能夠解決上述問題的一種系統(tǒng)、一種方法和一種程序。通過權(quán)利要求范圍內(nèi)的獨(dú)立權(quán)利要求的特征的組合來實(shí)現(xiàn)該目的。此外,從屬權(quán)利要求限定了本發(fā)明的其他有益具體示例。
為解決上述問題,本發(fā)明的一方面是提供一種用于從多個文本中提取復(fù)合詞的系統(tǒng)、一種用于使信息處理設(shè)備作為該系統(tǒng)的程序、和一種通過該系統(tǒng)提取獲得復(fù)合詞的方法。該系統(tǒng)包括獲得部件、計算部件和選擇部件。獲得部件作為分析多個第一文本的結(jié)果而獲得復(fù)合詞候選。作為在每個第二文本中搜索該單詞的結(jié)果,計算部件計算在其中一個復(fù)合詞候選中包含的單詞在多個第二文本的每個中的出現(xiàn)頻率?;谠跁r序數(shù)據(jù)中各單詞的出現(xiàn)頻率變化是否彼此同步,選擇部件選擇是否要將復(fù)合詞候選提取為復(fù)合詞,所述時序數(shù)據(jù)包含按照第二文本的公開時間的順序排列的每個單詞的出現(xiàn)頻率變化。
注意,以上關(guān)于本發(fā)明的概括性描述并不涵蓋發(fā)明所有必要特征,而且,這些特征的子組合也可構(gòu)成發(fā)明。
本發(fā)明使得能夠從相繼出現(xiàn)在文本中的多個單詞中準(zhǔn)確地檢測出短語的合適部分以作為復(fù)合詞。
圖1顯示出本發(fā)明實(shí)施例的信息處理系統(tǒng)10的整體配置;圖2表示本發(fā)明實(shí)施例的復(fù)合詞提取設(shè)備20提取復(fù)合詞的流程圖;圖3表示在短語“bird flu problem”中包含的單詞“bird”的出現(xiàn)頻率的時序數(shù)據(jù);圖4表示在短語“bird flu problem”中包含的單詞“flu”的出現(xiàn)頻率的時序數(shù)據(jù);圖5表示在短語“bird flu problem”中包含的單詞“problem”的出現(xiàn)頻率的時序數(shù)據(jù);圖6表示短語“train explosion accident”的出現(xiàn)頻率的時序數(shù)據(jù);圖7表示在短語“train explosion accident”中包含的單詞“train”的出現(xiàn)頻率的時序數(shù)據(jù);圖8表示在短語“train explosion accident”中包含的單詞“explosion”的出現(xiàn)頻率的時序數(shù)據(jù);圖9表示在短語“train explosion accident”中包含的單詞“accident”的出現(xiàn)頻率的時序數(shù)據(jù);圖10表示本發(fā)明實(shí)施例的文本檢索設(shè)備30檢索文本的處理流程圖;圖11顯示出本發(fā)明實(shí)施例的檢索部件320輸出的檢索結(jié)果的顯示示例;以及圖12顯示出用作為復(fù)合詞提取設(shè)備20或文本檢索設(shè)備30的信息處理設(shè)備500的硬件配置示例。
10信息處理系統(tǒng)20復(fù)合詞提取設(shè)備25文獻(xiàn)數(shù)據(jù)庫30文本檢索設(shè)備35通信網(wǎng)絡(luò)200獲得部件100計算部件220選擇部件230輸出部件300存儲部件310輸入部件320檢索部件500信息處理設(shè)備具體實(shí)施方式
下面,將描述本發(fā)明優(yōu)選的實(shí)施方式(以下稱為“實(shí)施例”)。然而,以下實(shí)施例并不構(gòu)成對本發(fā)明的權(quán)利要求范圍的限制。此外,并非一定需要實(shí)施例中所述特征的所有組合來實(shí)現(xiàn)本發(fā)明。
圖1顯示出本發(fā)明實(shí)施例的信息處理系統(tǒng)10的整體配置。信息處理系統(tǒng)10包括復(fù)合詞提取設(shè)備20和文本檢索設(shè)備30。復(fù)合詞提取設(shè)備20從文獻(xiàn)數(shù)據(jù)庫25中記錄的多個文本中提取出復(fù)合詞。在文獻(xiàn)數(shù)據(jù)庫25中,記錄有統(tǒng)稱為“文獻(xiàn)”的多個文本。文獻(xiàn)包括多個第一文本和多個第二文本。第一文本用于獲得復(fù)合詞候選,第二文本用于計算復(fù)合詞候選出現(xiàn)的頻率(以下也稱為“出現(xiàn)頻率”)。通過例如從Internet上的電子公告牌或網(wǎng)絡(luò)日志收集文本,可配置文獻(xiàn)。文本檢索設(shè)備30通過使用用戶輸入的搜索關(guān)鍵詞在通信網(wǎng)絡(luò)35中搜索第三文本,然后輸出搜索結(jié)果。此外,在用戶輸入的多個搜索關(guān)鍵詞的組合構(gòu)成復(fù)合詞的情形中,文本檢索設(shè)備30還可使用該復(fù)合詞搜索第三文本。
如所述,該實(shí)施例的信息處理系統(tǒng)10的目的在于,基于出現(xiàn)在文獻(xiàn)中的文本,準(zhǔn)確檢測出短語的合適部分以作為復(fù)合詞。其另一目的在于,通過使用檢測的復(fù)合詞,提高文本搜索效率。下面,將詳細(xì)描述該實(shí)施例。
復(fù)合詞提取設(shè)備20包括獲得部件200、計算部件210,選擇部件220和輸出部件230。獲得部件200對多個第一文本進(jìn)行分析,然后獲得多個復(fù)合詞候選。當(dāng)在第一文本中相繼記錄了構(gòu)成復(fù)合詞候選的單詞的條件下,獲得部件200注意到該復(fù)合詞候選。例如,在第一文本中出現(xiàn)短語“bird flu texts”的情況下,“bird flu”,“bird flu problem”和“fluproblem”為復(fù)合詞候選。具體而言,例如,獲得部件200可分析每個第一文本的語法,判斷各個單詞的詞類,然后將多個相繼出現(xiàn)的名詞判斷為復(fù)合詞候選。除此之外,在某一短語在文獻(xiàn)數(shù)據(jù)庫25中出現(xiàn)的頻率大于預(yù)定頻率的條件下,獲得部件200將該短語判斷為復(fù)合詞。
計算部件210在多個第二文本的每個中搜索在多個復(fù)合詞候選的每個中包含的每個單詞的出現(xiàn),然后計算各個單詞在多個第二文本的每個中出現(xiàn)的頻率。例如,當(dāng)其中一個復(fù)合詞候選為“bird flu problem”時,計算部件210計算在復(fù)合詞候選中所包含的各個單詞“bird”,“flu”和“problem”的出現(xiàn)頻率。此外,計算部件210在多個第二文本的每個中搜索多個復(fù)合詞候選中的每個,然后計算在多個第二文本的每個中各復(fù)合詞候選出現(xiàn)的頻率。例如,當(dāng)其中一個復(fù)合詞候選為“train explosionaccident”時,計算部件210不計算如“train”或“accident”的單個單詞的出現(xiàn)頻率,而是計算相繼書寫的單詞“train explosion accident”的頻率。此處,由獲得部件200從中獲得復(fù)合詞候選的第一文本,和由計算部件210用于計算出現(xiàn)頻率的第二文本,可以相同,可以不同,或者可以部分相同。
選擇部件220對每個復(fù)合詞候選執(zhí)行下述處理。首先,將描述其中一個復(fù)合詞候選包含預(yù)定重要單詞的情形。根據(jù)重要單詞出現(xiàn)頻率的變化是否與包含在復(fù)合詞候選中另一不同單詞的出現(xiàn)頻率的變化同步,選擇部件220選擇是否將復(fù)合詞候選提取為復(fù)合詞。具體而言,如果重要單詞與不同單詞各自的出現(xiàn)頻率的變化彼此同步,則選擇部件220將復(fù)合詞候選選作復(fù)合詞。如果不同步,則選擇部件220不將復(fù)合詞候選選作復(fù)合詞。
此處提到的重要單詞為例如先前由用戶指定為在文獻(xiàn)內(nèi)容所屬領(lǐng)域內(nèi)重要的單詞。從語言學(xué)的觀點(diǎn)看,希望這種重要單詞是與該領(lǐng)域特有語言單元的概念密切相關(guān)的單詞。注意,可使用各種方法確定重要單詞。例如,重要單詞可以是在時序數(shù)據(jù)中出現(xiàn)頻率在介于預(yù)定最低值與最高值之間的范圍內(nèi)的中間頻率單詞。此外,為了將中間頻率單詞視作重要單詞,希望中間頻率單詞與復(fù)合詞候選中包含的每個不同單詞具有這樣一種關(guān)系,即,中間頻率單詞被該不同單詞修飾?;蛘?,可使用定義處于興趣主題中心的單詞的傳統(tǒng)技術(shù),來檢測重要單詞。通過參考非專利文獻(xiàn)8可了解這類技術(shù)的詳細(xì)內(nèi)容。作為另一示例,選擇部件220可使用諸如TFIDF(項(xiàng)頻率和逆向文檔頻率,term frequent andinversed document frequency)來檢測某一領(lǐng)域特有的單詞,并將該單詞判斷為重要單詞。
與上述情形相反,在包含在復(fù)合詞候選中的多個單詞中的任何單詞不是先前被指定為該文獻(xiàn)所屬領(lǐng)域中重要的單詞,而且也不是中間頻率單詞的條件下,選擇部件220執(zhí)行下述處理。根據(jù)復(fù)合詞候選的出現(xiàn)頻率變化是否與各不同單詞的出現(xiàn)頻率變化同步,選擇部件220選擇是否將該復(fù)合詞項(xiàng)選作復(fù)合詞。此處,使用以下兩種時序數(shù)據(jù)來確定同步。在一種時序數(shù)據(jù)中,按照第二文本的公開時間的順序排列復(fù)合詞候選的出現(xiàn)頻率,而在另一種時序數(shù)據(jù)中,按照第二文本的公開時間的順序排列每個單詞的出現(xiàn)頻率。具體而言,在關(guān)于復(fù)合詞候選的時序數(shù)據(jù)與各單詞的時序數(shù)據(jù)不同步的條件下,選擇部件220將復(fù)合詞候選提取為復(fù)合詞。輸出部件230將選擇部件220如所述那樣選出的復(fù)合詞輸出到文本檢索設(shè)備30。
文本檢索設(shè)備30包括存儲部件300,輸入部件310和搜索部件320。在預(yù)先設(shè)置多個標(biāo)題詞的狀態(tài)下,存儲部件300預(yù)先在多個目標(biāo)第三文本中搜索包含每個標(biāo)題詞的第三文本,并與標(biāo)題詞相關(guān)聯(lián)地存儲獲得的第三文本。在該情形中的多個目標(biāo)第三文本例如為在搜索時公開在通信網(wǎng)絡(luò)35中的Web頁、電子公告牌、網(wǎng)絡(luò)日志等。輸入部件310接受用于檢索第三文本的搜索關(guān)鍵詞的輸入。搜索部件320通過使用輸入的搜索關(guān)鍵詞在通信網(wǎng)絡(luò)35中檢索第三文本。在輸入搜索關(guān)鍵詞為標(biāo)題詞的條件下,搜索部件320從存儲部件300讀出與標(biāo)題詞相對應(yīng)的第三文本,而不是從通信網(wǎng)絡(luò)35檢索包含搜索關(guān)鍵詞的第三文本。之后,搜索部件320將讀出的第三文本作為檢測結(jié)果輸出。
如所述,文本檢索設(shè)備30事先檢索與標(biāo)題詞相對應(yīng)的文本。這縮短了在文本檢索設(shè)備30接收用戶輸入的時間點(diǎn)與文本檢索設(shè)備30輸出檢索結(jié)果的時間點(diǎn)之間的所需時間段。為此,標(biāo)題詞最好是預(yù)計作為搜索關(guān)鍵詞輸入的標(biāo)題詞。為此,通過在文本檢索設(shè)備30中將所選復(fù)合詞設(shè)置為標(biāo)題詞,選擇部件220可使文本檢索設(shè)備檢索包含該復(fù)合詞的文本,并可使存儲部件300存儲該文本。這使得能夠?qū)⒗缧率褂玫牧餍姓Z登記為標(biāo)題詞,從而縮短搜索處理所需的時間段。
圖2表示本發(fā)明實(shí)施例的復(fù)合詞提取設(shè)備20提取復(fù)合詞的流程圖。獲得部件200獲得多個復(fù)合詞候選(步驟S200)。之后,復(fù)合詞提取設(shè)備20對每個復(fù)合詞執(zhí)行以下處理。首先,復(fù)合詞提取設(shè)備20判斷復(fù)合詞候選是否包含重要單詞(步驟S210)。例如,假設(shè)將單詞“flu”事先指定為在特定領(lǐng)域中是重要的。
在復(fù)合詞候選包含重要單詞的條件下(步驟S210是),計算部件210搜索多個第三文本的每個以便找出在復(fù)合詞候選中包含的單詞,并計算每個單詞在每個第二文本中的出現(xiàn)頻率的時序變化。例如,當(dāng)其中一個復(fù)合詞候選為“bird flu problem”時,計算部件210計算每個單詞“bird”、“flu”、“problem”的出現(xiàn)頻率的時序變化。圖3至5表示在一些文獻(xiàn)中實(shí)際獲得的各單詞的出現(xiàn)頻率。
圖3是表示在短語“bird flu problem”中包含的單詞“bird”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算在單詞“bird”出現(xiàn)的每個時間段中,該單詞在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率,從而獲得如圖3所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“bird”的出現(xiàn)頻率從一月到二月升高,從三月到四月減小。
圖4是表示在短語“bird flu problem”中包含的單詞“flu”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算在單詞“flu”出現(xiàn)的每個時間段中,該單詞在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率,從而獲得如圖4所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“flu”的出現(xiàn)頻率從一月到二月升高,從三月到四月減小。
圖5是表示在短語“bird flu problem”中包含的單詞“problem”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算在單詞“problem”出現(xiàn)的每個時間段中,該單詞在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率,從而獲得如圖5所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“problem”的出現(xiàn)頻率在一年中保持在更高水平,在二月附近處于峰值。
此處,將再次參照圖2進(jìn)行描述。隨后,基于在顯示出在復(fù)合詞候選中包含的各單詞的出現(xiàn)頻率的時序數(shù)據(jù)中各單詞出現(xiàn)頻率的變化彼此是否同步,選擇部件220計算出表示用于確定是否將復(fù)合詞候選提取為復(fù)合詞的水平的評分(步驟S230)。例如,用來計算評分的方法如下。此處,假設(shè)wall表示復(fù)合詞候選,它由m個單詞組成。w1至wm表示各個單詞W1至Wm,從而,wall=w1w2...wm。
首先,選擇部件220定義一個單詞的出現(xiàn)頻率與一個不同單詞的出現(xiàn)頻率的隨時間變化之間的差。f(w,t)表示單詞w在從時間點(diǎn)t開始的時間段ΔT期間出現(xiàn)的出現(xiàn)頻率。此外,Δf(wi,tk)表示單詞wi在時間點(diǎn)tk和時間點(diǎn)tk+1的出現(xiàn)頻率之間的差,因此,獲得以下等式。
Δf(wi,tk)=f(wi,tk+1)-f(wi,tk)式(1)此處,Dt(wi,wj,tk)表示在時間點(diǎn)tk處單詞Wi的相繼出現(xiàn)頻率之間的差與單詞Wj的相繼出現(xiàn)頻率之間的差之間的差,并且將其定義為如以下等式(2)所示。
Dt(wi,wj,tk)=def1ΔT|Δf(wi,tk)-Δf(wj,tk)|]]>式(2)將所有目標(biāo)時間段(t0至tn-1)中用于計算評分的差相加在一起。因此,將相應(yīng)單詞wi和wj的各自頻率變化之間的差水平Dt(wi,wj)定義為以下等式(3)所示。
DT(wi,wj)=defΣk=0n-1Dt(wi,wj,tk)]]>式(3)通過使用兩個單詞各自的出現(xiàn)頻率之間的差水平DT(wi和wj),選擇部件220獲得表示一個重要單詞的出現(xiàn)頻率與復(fù)合詞候選wall中每個不同單詞的出現(xiàn)頻率之間的差的Dall。表示單詞(排除重要單詞)數(shù)量的m-1被用于規(guī)格化?;谝韵碌仁?4)計算Dall。
Dall=Σi=1,i≠coremDT(wi,wcore)m-1]]>式(4)根據(jù)上述等式(4),選擇部件220計算表示用于判斷是否應(yīng)將復(fù)合詞候選提取為復(fù)合詞的水平的評分。在該示例中,較低評分表示重要單詞的出現(xiàn)頻率的變化與每個不同單詞的出現(xiàn)頻率的變化相同步。
之后,基于復(fù)合詞候選的評分,選擇部件220判斷重要單詞的出現(xiàn)頻率的變化是否與每個不同單詞的出現(xiàn)頻率的變化同步(步驟S240)??蓪⒉煌瑥?fù)合詞候選用于該判斷。例如,當(dāng)獲得各復(fù)合詞候選的評分后,選擇部件220按照評分的升序選擇一定數(shù)量的復(fù)合詞候選??蓪⒚總€所選復(fù)合詞候選判斷為具有與它們中的每個不同單詞相同步的變化。在重要單詞的出現(xiàn)頻率變化與每個不同單詞的出現(xiàn)頻率變化相同步的條件下(步驟S240是),選擇部件220將該復(fù)合詞候選選作復(fù)合詞(步驟S250)。在圖3至5所示示例中,雖然單詞“bird”的出現(xiàn)頻率的變化與重要單詞“flu”的出現(xiàn)頻率的變化相同步,但不能判斷單詞“problem”的出現(xiàn)頻率的變化與“flu”的出現(xiàn)頻率的變化相同步。
因此,不是將“bird flu problem”,而是將“bird flu”選擇為復(fù)合詞。
在不采用上述處理的情況下,選擇部件220通過基于各個單詞出現(xiàn)頻率在每個季節(jié)或每段時間段中如何變化來生成時序數(shù)據(jù),可以判斷各個單詞的出現(xiàn)頻率彼此是否同步。具體而言,例如,選擇部件220按某個時間段(例如,一年、一個月或一天)將獲得的時序數(shù)據(jù)劃分成多個數(shù)據(jù)段。之后,基于劃分的時序數(shù)據(jù)段,選擇部件220獲得在預(yù)定時間段中各相應(yīng)單詞的出現(xiàn)頻率的變化。然后,選擇部件220基于在預(yù)定時間段內(nèi)各相應(yīng)單詞的頻率的變化彼此是否同步,來選擇是否將復(fù)合詞候選提取為復(fù)合詞。該方法使得能夠準(zhǔn)確地提取出如在特定季節(jié)和時間段頻繁使用的復(fù)合詞。
另一方面,在復(fù)合詞候選不包含重要單詞的條件下(步驟S210否),計算部件210從文獻(xiàn)中搜索復(fù)合詞候選和包含在復(fù)合詞候選中的單詞。之后,計算部件210計算在第二文本中復(fù)合詞候選的出現(xiàn)頻率隨時間的變化和在第二文本中復(fù)合詞候選包含的每個單詞的出現(xiàn)頻率隨時間的變化(步驟S260)。例如,當(dāng)其中一個復(fù)合詞候選為“trainexplosion accident”時,計算部件210計算其復(fù)合詞候選“train explosionaccident”的出現(xiàn)頻率隨時間的變化,并計算復(fù)合詞“train explosionaccident”中包含的每個單詞“train”、“explosion”、“accident”的出現(xiàn)頻率隨時間的變化。圖6至8表示出在文獻(xiàn)中實(shí)際獲得的各出現(xiàn)頻率。
圖6是表示短語“train explosion accident”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算出在短語“train explosion accident”出現(xiàn)的每個時間段中該短語在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率,從而,獲得如圖6所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“train explosion accident”的出現(xiàn)頻率從四月到五月顯著升高,在其他時間段接近于零。
圖7是表示在短語“train explosion accident”中包含的單詞“train”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算在單詞“train”出現(xiàn)的每個時間段中,該單詞在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率,從而獲得如圖7所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“train”的出現(xiàn)頻率從四月到五月升高,在五月和十月特定時間段也升高。此外,在其他時間段,該頻率穩(wěn)定變化。
圖8是表示在短語“train explosion accident”中包含的單詞“explosion”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算在單詞“explosion”出現(xiàn)的每個時間段中,該單詞在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率,從而獲得如圖8所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“explosion”的出現(xiàn)頻率在一月和十一月升高。此外,在其他時間段,單詞“explosion”的出現(xiàn)也相對頻繁。
圖9是表示在短語“train explosion accident”中包含的單詞“accident”的出現(xiàn)頻率的時序數(shù)據(jù)。計算部件210計算在單詞“accident”出現(xiàn)的每個時間段中,該單詞在文獻(xiàn)數(shù)據(jù)庫25的文獻(xiàn)中出現(xiàn)的頻率。作為計算結(jié)果,計算部件210獲得如圖9所示的時序數(shù)據(jù)。在時序數(shù)據(jù)中,單詞“accident”的出現(xiàn)頻率在三月顯著升高。它在一月、七月和十一月中的特定時間段升高。此外,在其他時間段中,單詞“explosion”的使用相對頻繁。
此處,將再次參照圖2進(jìn)行描述。隨后,選擇部件220計算出表示用于確定是否將復(fù)合詞候選提取為復(fù)合詞的水平的評分。基于在時序數(shù)據(jù)中復(fù)合詞候選的出現(xiàn)頻率變化與在復(fù)合詞候選中包含的各相應(yīng)單詞的出現(xiàn)頻率變化是否同步,計算評分(步驟S270)??蓪⒃诓襟ES230中所述的方法應(yīng)用到計算評分的方法。例如,選擇部件220可使用等式(4)計算顯示出復(fù)合詞候選與組成該復(fù)合詞候選的每個單詞之間的同步的評分,而不采用計算表示重要單詞與不同單詞之間的同步的評分的處理。
之后,基于復(fù)合詞候選的評分,選擇部件220判斷復(fù)合詞候選的出現(xiàn)頻率的變化與組成該復(fù)合詞候選的每個單詞的出現(xiàn)頻率的變化是否同步(步驟S280)。在所述變化彼此不同步的條件下(步驟S280否),選擇部件220將該復(fù)合詞候選選作復(fù)合詞(步驟S290)。在圖7至9所示示例中,復(fù)合詞候選“train explosion accident”的出現(xiàn)頻率的變化與各相應(yīng)單詞“train”、“explosion”和“accident”的出現(xiàn)頻率的任何變化不同步。因此,將復(fù)合詞候選“train explosion accident”提取為復(fù)合詞。輸出部件230將所選復(fù)合詞輸出到文本檢索設(shè)備30。
圖10表示本發(fā)明實(shí)施例的文本檢索設(shè)備30檢索第三文本的處理流程圖。在文本檢索設(shè)備30中,除事先設(shè)置的短語外,將復(fù)合詞提取設(shè)備20向文本檢索設(shè)備30通知的復(fù)合詞設(shè)置為標(biāo)題詞。首先,檢索部件320從通信網(wǎng)絡(luò)35檢索出均包含標(biāo)題詞的第三文本,然后,將第三文本存儲在存儲部件300中(步驟S300)。隨后,輸入部件310判斷是否接收到來自用戶的搜索關(guān)鍵詞的輸入(步驟S310)。
一旦輸入搜索關(guān)鍵詞(步驟S310是),則檢索部件320判斷搜索關(guān)鍵詞是否為任何標(biāo)題詞(步驟S320)。當(dāng)搜索關(guān)鍵詞不是任何標(biāo)題詞時(步驟S320否),檢索部件320從通信網(wǎng)絡(luò)35檢索均包含搜索關(guān)鍵詞的第三文本,然后,將第三文本輸出(步驟S340)。當(dāng)搜索關(guān)鍵詞是任何標(biāo)題詞時(步驟S320是),檢索部件320從存儲部件300讀出存儲在存儲部件320中的與該搜索關(guān)鍵詞相關(guān)聯(lián)的第三文本,然后,將該第三文本輸出(步驟S330)。
輸入部件310可接收多個搜索關(guān)鍵詞的輸入。在此情形中,一旦輸入該多個搜索關(guān)鍵詞,檢索部件320根據(jù)用戶設(shè)置例如從通信網(wǎng)絡(luò)35檢索均包含該搜索關(guān)鍵詞的第三文本。除該處理外,檢索部件320也可執(zhí)行以下處理。在該處理中,檢索部件320判斷包含輸入到輸入部件310的多個搜索關(guān)鍵詞的復(fù)合詞是否已被選擇部件220選中(步驟S350)。具體而言,當(dāng)輸入搜索關(guān)鍵詞“bird”和“flu”時,可將搜索關(guān)鍵詞組合,以獲得復(fù)合詞“bird flu”。因此,滿足了條件。
在選擇部件220已選擇包含輸入到輸入部件310的多個搜索關(guān)鍵詞的復(fù)合詞的條件下(步驟S350是),除均包含這些搜索關(guān)鍵詞的第三文本之外,檢索部件320還從通信網(wǎng)絡(luò)35檢索均包含復(fù)合詞的第三文本(步驟S360)。之后,檢索部件320按照例如在屏幕上顯示結(jié)果的方式輸出檢索結(jié)果(步驟S370)。
圖11表示顯示本發(fā)明實(shí)施例的檢索部件320所輸出的檢索結(jié)果的示例。在該顯示示例中,在屏幕的上部顯示搜索關(guān)鍵詞輸入欄。在輸入欄,顯示單詞“bird”和“flu”。當(dāng)輸入搜索關(guān)鍵詞時,搜索部件320搜索均包含由搜索關(guān)鍵詞的組合構(gòu)成的復(fù)合詞的第三文本,并且搜索均包含搜索關(guān)鍵詞的第三文本。
在屏幕上顯示搜索結(jié)果。在圖11的示例中,具體而言,顯示均包含復(fù)合詞“bird flu”的網(wǎng)頁的URL。此外,也顯示均包含單詞“bird”和“flu”的網(wǎng)頁的URL。如同圖11的示例,搜索部件320可以比均包含搜索關(guān)鍵詞而不是復(fù)合詞的文本更優(yōu)先地顯示均包含復(fù)合詞的文本(例如,在上部輸入欄中)。因而,可以比均只包含搜索關(guān)鍵詞的文本更優(yōu)先地顯示與搜索關(guān)鍵詞高度相關(guān)的文本。從而,可增強(qiáng)用戶的可用性。
圖12表示作為復(fù)合詞提取設(shè)備20或文本搜索設(shè)備30的信息處理設(shè)備500的硬件配置示例。信息處理設(shè)備500包含CPU外圍部件,I/O部件和常規(guī)I/O部件。CPU外圍部件包括CPU 1000、RAM 1020和圖形控制器1075,所有這些都通過主控制器1082彼此連接。I/O部件包括通信接口1030;硬盤驅(qū)動器1040;和CD-ROM驅(qū)動器1060,它們均通過I/O控制器1084與主控制器1082連接。常規(guī)I/O部件包括BIOS 1010;軟盤驅(qū)動器1050;和I/O芯片1070,它們均與I/O控制器1084連接。
主控制器1082將RAM 1020與CPU 10000和圖形控制器1075相連接,CPU 10000和圖形控制器1075能夠以高傳輸速率訪問RAM1020。CPU 1000基于存儲在BIOS 1010和RAM 1020中的程序控制每一部分。圖形控制器1075獲得由CPU 1000等在RAM 1020中提供的幀緩沖器中產(chǎn)生的圖像數(shù)據(jù)。然后,圖形控制器1075在顯示設(shè)備1080上顯示圖像數(shù)據(jù)。或者,圖像控制器1075中可包含幀緩沖器,用于存儲由CPU 1000等產(chǎn)生的圖像數(shù)據(jù)。
I/O控制器1084將主控制器1082與通信接 1030,硬盤驅(qū)動器1040和CD-ROM驅(qū)動器1060中的每一個連接,這些設(shè)備是以相對更較速率傳輸數(shù)據(jù)的I/O設(shè)備。通信接口1030通過網(wǎng)絡(luò)與外部設(shè)備進(jìn)行通信。硬盤驅(qū)動器1040存儲為信息處理設(shè)備500所用的程序和數(shù)據(jù)。CD-ROM驅(qū)動器1060從CD-ROM 1095讀取程序和數(shù)據(jù),然后,將程序或數(shù)據(jù)提供給RAM 1020或硬盤驅(qū)動器1040。
此外,BIOS 1010和諸如軟盤驅(qū)動器1050和I/O芯片1070之類的I/O設(shè)備(該I/O設(shè)備以相對較低速率傳輸數(shù)據(jù))與I/O控制器1084連接。BIOS 1010存儲有引導(dǎo)程序(當(dāng)引導(dǎo)信息處理設(shè)備500時,由CPU1000執(zhí)行該引導(dǎo)程序)和取決于信息處理設(shè)備5000的硬件的程序,等等。軟盤驅(qū)動器1050從軟盤1090讀取程序或數(shù)據(jù),然后將程序或數(shù)據(jù)提供給RAM 1020或硬盤驅(qū)動器1040。軟盤驅(qū)動器1090和各個I/O設(shè)備通過并行端口、串行端口、鍵盤端口、鼠標(biāo)端口等與I/O芯片1070連接。
由用戶提供給信息處理設(shè)備500的程序存儲在諸如軟盤1090、CD-ROM 1095和IC卡之類的記錄介質(zhì)中。通過I/O芯片1070和/或I/O控制器1084從記錄介質(zhì)讀取程序。之后,將程序安裝在信息處理設(shè)備500中,然后執(zhí)行該程序。程序使信息處理設(shè)備500執(zhí)行與參照圖1到11所描述的復(fù)合詞提取設(shè)備20或文本檢索設(shè)備30的操作相同的操作。為此,將省略對信息處理設(shè)備500的操作描述。注意,用于使信息處理設(shè)備500作為文本檢索設(shè)備30的程序例如為稱作“搜索引擎”的搜索軟件。同樣,使信息處理設(shè)備500作為復(fù)合詞提取設(shè)備20的程序?yàn)橛糜跒檫@種搜索軟件添加附加功能的附加程序。在此情形中,使單個信息處理設(shè)備500充當(dāng)文本搜索設(shè)備30和復(fù)合詞提取設(shè)備20。毫無疑問,這些方式包含在本發(fā)明權(quán)利要求的范圍之內(nèi)。
上面所述的程序可以存儲在外部記錄介質(zhì)中。除軟盤1090和CD-ROM 1095之外,也可使用諸如DVD或PD之類的光記錄介質(zhì),諸如MD的磁光記錄介質(zhì),磁帶介質(zhì),諸如IC卡之類的半導(dǎo)體存儲器等作為這類記錄介質(zhì)。此外,可使用提供給與專用通信網(wǎng)絡(luò)或Internet連接的服務(wù)器系統(tǒng)的諸如硬盤或RAM的存儲設(shè)備作為記錄介質(zhì)。通過使用這類記錄設(shè)備,可通過網(wǎng)絡(luò)將程序提供給信息處理設(shè)備500。
如上所述,本實(shí)施例的復(fù)合詞提取設(shè)備20可提高復(fù)合詞的提取準(zhǔn)確度,這是因?yàn)椴⒎腔趩卧~的出現(xiàn)頻率,而是基于出現(xiàn)頻率隨時間的變化來提取復(fù)合詞。為提取復(fù)合詞,文獻(xiàn)中各文本的寫入日期是必要的。在近年來開發(fā)的在Internet上的公告牌等中,很容易對這類信息進(jìn)行收集,并且該信息與現(xiàn)有技術(shù)高度兼容。另外,本實(shí)施例的文本檢索設(shè)備30使用高準(zhǔn)確度地檢測的復(fù)合詞作為用于文本檢索的標(biāo)題詞。這樣可使文本檢索處理有效,并可提高文本檢索準(zhǔn)確度。
如上所述,已經(jīng)通過本發(fā)明的實(shí)施例描述了本發(fā)明。不過,本發(fā)明的技術(shù)領(lǐng)域不限于上述實(shí)施例。毫無疑問,本領(lǐng)域技術(shù)人員可針對上述實(shí)施例做出多種變型、改變和改進(jìn)。從權(quán)利要求范圍內(nèi)的描述看,毫無疑問,做出這種改變或改進(jìn)的實(shí)施例可包含在本發(fā)明的技術(shù)范圍內(nèi)。
權(quán)利要求
1.一種用于從多個文本提取復(fù)合詞的系統(tǒng),所述系統(tǒng)包括獲得部件,其作為分析多個第一文本的結(jié)果而獲得復(fù)合詞候選;計算部件,其從多個第二文本的每個中,搜索所述復(fù)合詞候選中包含的每個單詞,并且計算每個單詞在第二文本中的出現(xiàn)頻率;選擇部件,其基于在時序數(shù)據(jù)中各單詞的出現(xiàn)頻率變化是否彼此同步,選擇是否將所述復(fù)合詞候選提取為復(fù)合詞,所述時序數(shù)據(jù)分別表示按照第二文本的公開時間的順序排列的每個單詞的出現(xiàn)頻率。
2.根據(jù)權(quán)利要求1的系統(tǒng),其中,選擇部件基于在各表示每個單詞出現(xiàn)頻率的時序數(shù)據(jù)中,在多個復(fù)合詞候選的每個復(fù)合詞候選中包含的各單詞的出現(xiàn)頻率變化是否彼此同步,來計算每個復(fù)合詞候選的評分,其中,所述評分表示用于確定是否將該復(fù)合詞候選提取為復(fù)合詞的水平,以及選擇部件根據(jù)各復(fù)合詞候選的評分,將復(fù)合詞候選選擇為復(fù)合詞。
3.根據(jù)權(quán)利要求1的系統(tǒng),其中,在復(fù)合詞候選包含預(yù)先指定的單詞的情況下,在該預(yù)先指定的單詞的出現(xiàn)頻率的變化與該復(fù)合詞候選中包含的不同單詞的出現(xiàn)頻率的變化相同步的條件下,選擇部件將該復(fù)合詞候選選擇作為復(fù)合詞。
4.根據(jù)權(quán)利要求1的系統(tǒng),其中,在復(fù)合詞候選包含出現(xiàn)頻率在預(yù)定上限之下和預(yù)定下限之上的范圍內(nèi)變化的中間頻率單詞的情況下,在該中間頻率單詞的出現(xiàn)頻率的變化與該復(fù)合詞候選中包含的不同單詞的出現(xiàn)頻率的變化相同步的條件下,選擇部件將該復(fù)合詞候選選擇作為復(fù)合詞。
5.根據(jù)權(quán)利要求4的系統(tǒng),其中,在該中間頻率單詞與包含在該復(fù)合詞候選中的不同單詞具有該中間頻率單詞被該不同單詞修飾的關(guān)系的情況下,在該中間頻率單詞的出現(xiàn)頻率的變化與該復(fù)合詞候選中包含的該不同單詞的出現(xiàn)頻率的變化相同步的條件下,選擇部件將該復(fù)合詞候選選擇作為復(fù)合詞。
6.根據(jù)權(quán)利要求1的系統(tǒng),其中,在包含在復(fù)合詞候選中的多個單詞均未預(yù)先指定,并且中間頻率單詞具有在預(yù)定上限之下和預(yù)定下限之上的范圍內(nèi)變化的出現(xiàn)頻率的條件下,計算部件在該多個第二文本的每個第二文本中搜索該復(fù)合詞候選,并且還計算該復(fù)合詞候選在每個第二文本中的出現(xiàn)頻率,以及基于在各表示按照第二文本的公開時間的順序排列的復(fù)合詞候選出現(xiàn)頻率的時序數(shù)據(jù)中復(fù)合詞候選出現(xiàn)頻率變化是否與在表示按照第二文本的公開時間的順序排列的單詞出現(xiàn)頻率的時序數(shù)據(jù)中各單詞的每個的出現(xiàn)頻率的變化彼此同步,選擇部件選擇是否將該復(fù)合詞候選提取為復(fù)合詞。
7.根據(jù)權(quán)利要求1的系統(tǒng),其中,選擇部件將關(guān)于每個單詞的時序數(shù)據(jù)劃分成均對應(yīng)于一定時間段的多個數(shù)據(jù)段,通過使用各單詞的所劃分的數(shù)據(jù)段,選擇部件計算出在該一定時間段中各單詞的出現(xiàn)頻率的變化,并且選擇部件基于在該一定時間段中相應(yīng)單詞的各出現(xiàn)頻率的變化是否彼此同步,選擇是否將該復(fù)合詞候選提取為復(fù)合詞。
8.根據(jù)權(quán)利要求1的系統(tǒng),還包括文本檢索設(shè)備,所述文本檢索設(shè)備包括存儲部件,其預(yù)先從供檢索的多個目標(biāo)第三文本中檢索出包含預(yù)先設(shè)置的多個標(biāo)題詞的第三文本,并且在其中與每個標(biāo)題詞相關(guān)聯(lián)地存儲所述第三文本;輸入部件,其接收用于檢索第三文本的關(guān)鍵詞的輸入;和檢索部件,其在輸入關(guān)鍵詞為任何所述標(biāo)題詞的條件下,不是執(zhí)行從供檢索的目標(biāo)第三文本中檢索包含該關(guān)鍵詞的第三文本的處理,而是從存儲部件中讀出與每個標(biāo)題詞相關(guān)聯(lián)的第三文本,在所述系統(tǒng)中,選擇部件設(shè)置所選復(fù)合詞作為任何所述標(biāo)題詞,并且使文本檢索設(shè)備預(yù)先檢索包含該復(fù)合詞的第三文本,并將該第三文本存儲在存儲部件中。
9.根據(jù)權(quán)利要求1的系統(tǒng),還包括輸出部件,其將由選擇部件選擇作為多個標(biāo)題詞中的任何標(biāo)題詞的復(fù)合詞輸出到文本檢索設(shè)備,所述文本檢索設(shè)備包括存儲部件,其預(yù)先從供檢索的多個目標(biāo)第三文本中檢索出包含預(yù)先設(shè)置的標(biāo)題詞的第三文本,并且在其中與每個所述標(biāo)題詞相關(guān)聯(lián)地存儲所述第三文本;輸入部件,其接收用于檢索第三文本的關(guān)鍵詞的輸入;和檢索部件,其在輸入關(guān)鍵詞為任何所述標(biāo)題詞的條件下,不是執(zhí)行從供檢索的目標(biāo)第三文本檢索包含該關(guān)鍵詞的第三文本的處理,而是從存儲部件讀出與每個所述標(biāo)題詞相關(guān)聯(lián)的第三文本。
10.根據(jù)權(quán)利要求1的系統(tǒng),還包括文本檢索設(shè)備,所述文本檢索設(shè)備包括輸入部件,其接收用于檢索第三文本的關(guān)鍵詞的輸入;和檢索部件,其在輸入多個關(guān)鍵詞并且選擇部件已選擇復(fù)合詞的條件下,除檢索具有包括該多個輸入關(guān)鍵詞的復(fù)合詞的第三文本外,從供檢索的多個目標(biāo)第三文本中檢索包含該多個輸入關(guān)鍵詞中每個關(guān)鍵詞的第三文本。
11.根據(jù)權(quán)利要求10的系統(tǒng),其中,優(yōu)先于包含該多個輸入關(guān)鍵詞的第三文本,檢索部件輸出包含該復(fù)合詞的第三文本。
12.根據(jù)權(quán)利要求1的系統(tǒng),還包括輸出部件,用于將選擇部件所選的復(fù)合詞輸出到文本檢索設(shè)備,所述文本檢索設(shè)備包括輸入部件,其接收用于檢索第三文本的關(guān)鍵詞的輸入;和檢索部件,其在輸入多個關(guān)鍵詞并且選擇部件已選擇復(fù)合詞的條件下,除檢索具有包括該多個輸入關(guān)鍵詞中的每個關(guān)鍵詞的第三文本外,從供檢索的多個第三目標(biāo)文本中檢索包含具有該多個輸入關(guān)鍵詞的復(fù)合詞的第三文本。
13.根據(jù)權(quán)利要求1的系統(tǒng),其中,獲得部件分析每個第一文本的語法,以判斷各單詞的詞類,并且獲得相繼出現(xiàn)的多個名詞的集合,以作為復(fù)合詞候選。
14.一種用于從多個文本中提取復(fù)合詞的系統(tǒng),所述系統(tǒng)包括獲得部件,其作為分析多個第一文本的結(jié)果而獲得復(fù)合詞候選;計算部件,其在多個第二文本中搜索該復(fù)合詞候選和在該復(fù)合詞候選中包含的每個單詞,并且分別計算所述復(fù)合詞候選和單詞在每個第二文本中出現(xiàn)的頻率;以及選擇部件,其基于在表示按照第二文本的公開時間的順序排列的復(fù)合詞候選出現(xiàn)頻率的時序數(shù)據(jù)中該復(fù)合詞候選的出現(xiàn)頻率變化是否與在表示按照第二文本的公開時間的順序排列的單詞出現(xiàn)頻率的時序數(shù)據(jù)中每個所述單詞的出現(xiàn)頻率變化同步,選擇是否將該復(fù)合詞候選提取為復(fù)合詞。
15.根據(jù)權(quán)利要求14的系統(tǒng),其中,選擇部件基于在表示出現(xiàn)頻率的時序數(shù)據(jù)中復(fù)合詞候選的出現(xiàn)頻率變化是否與在表示出現(xiàn)頻率的時序數(shù)據(jù)中每個所述單詞的出現(xiàn)頻率變化同步,計算多個復(fù)合詞候選的每個的評分,該評分表示用于確定是否將復(fù)合詞候選提取為復(fù)合詞的水平,以及基于每個所述復(fù)合詞候選的評分,選擇部件選擇要提取為復(fù)合詞的復(fù)合詞候選。
16.根據(jù)權(quán)利要求14的系統(tǒng),其中,在預(yù)先沒有指定所述多個單詞中的任何一個的條件下,計算部件在多個第二文本的每個中搜索該復(fù)合詞候選和在該復(fù)合詞候選中包含的各單詞,并且分別計算復(fù)合詞候選和單詞在每個第二文本中的出現(xiàn)頻率,并且基于在表示按照第二文本的公開時間的順序排列的復(fù)合詞候選出現(xiàn)頻率的時序數(shù)據(jù)中該復(fù)合詞候選的出現(xiàn)頻率變化是否與在表示按照第二文本的公開時間的順序排列的單詞出現(xiàn)頻率的時序數(shù)據(jù)中每個所述單詞的出現(xiàn)頻率變化同步,選擇部件選擇是否將該復(fù)合詞候選提取為復(fù)合詞。
17.根據(jù)權(quán)利要求14的系統(tǒng),其中,在復(fù)合詞候選中包含的多個單詞都不是出現(xiàn)頻率在預(yù)定上限之下和預(yù)定下限之上的范圍內(nèi)變化的中間頻率單詞的條件下,計算部件在多個第二文本的每個中搜索復(fù)合詞候選和在復(fù)合詞候選中包含的單詞,并且計算復(fù)合詞候選和單詞各自在每個第二文本中的出現(xiàn)頻率;以及選擇部件基于在表示按照第二文本的公開時間的順序排列的復(fù)合詞候選出現(xiàn)頻率的時序數(shù)據(jù)中復(fù)合詞候選的出現(xiàn)頻率變化是否與在表示按照第二文本的公開時間的順序排列的單詞出現(xiàn)頻率的時序數(shù)據(jù)中各單詞的出現(xiàn)頻率變化同步,選擇是否要將復(fù)合詞候選提取為復(fù)合詞。
18.一種用于從多個文本提取復(fù)合詞的方法,所述方法包括作為對多個第一文本進(jìn)行分析的結(jié)果,獲得復(fù)合詞候選;關(guān)于包含在復(fù)合詞候選中的每個單詞搜索多個第二文本的每個,并且計算每個單詞在每個第二文本中的出現(xiàn)頻率;基于在時序數(shù)據(jù)中各單詞的出現(xiàn)頻率變化是否彼此同步,選擇是否將所述復(fù)合詞候選提取為復(fù)合詞,所述時序數(shù)據(jù)分別表示按照第二文本的公開時間的順序排列的單詞的出現(xiàn)頻率。
全文摘要
公開了用于提取新復(fù)合詞的系統(tǒng)和方法,以從相繼出現(xiàn)在文本中的多個單詞中,準(zhǔn)確地檢測出短語的合適部分。從多個文本提取復(fù)合詞的系統(tǒng)包括獲得部件,其通過對多個第一文本進(jìn)行分析獲得復(fù)合詞候選;計算部件,其在多個文本中的每一個中搜索包含在復(fù)合詞候選中的單詞,然后計算每個單詞在每個文本中的出現(xiàn)頻率;以及選擇部件,其基于在時序數(shù)據(jù)中各單詞的出現(xiàn)頻率變化是否彼此同步,選擇是否將所述復(fù)合詞候選提取為復(fù)合詞,所述時序數(shù)據(jù)分別表示按照第二文本的公開時間的順序排列的每個單詞的出現(xiàn)頻率。
文檔編號G06F17/21GK101093504SQ20071008812
公開日2007年12月26日 申請日期2007年3月15日 優(yōu)先權(quán)日2006年3月24日
發(fā)明者村上明子, 渡邊日出雄 申請人:國際商業(yè)機(jī)器公司