專利名稱:域詞典創(chuàng)建的制作方法
技術(shù)領(lǐng)域:
本公開涉及用于自然語言處理應用的詞典,所述自然語言處理應用諸如機器翻 譯、非羅馬語言詞的分割、語音識別和輸入法編輯器。
背景技術(shù):
在諸如語音處理系統(tǒng)、手寫/光學字符識別系統(tǒng)、自動翻譯系統(tǒng)的數(shù)據(jù)處理系統(tǒng) 中使用越來越高級的自然語言處理技術(shù),或在文字處理系統(tǒng)中使用越來越高級的自然語言 處理技術(shù)來進行拼寫/語法檢查。這些自然語言處理技術(shù)可以包括自動更新用于自然語言 應用的詞典,所述自然語言應用與例如非羅馬語言詞的分割、機器翻譯、自動校對、語音識 另O、輸入法編輯器等相關(guān)。在詞符文字(logographic script)中,一個或兩個字符(例如象形文字 (glyphs))對應于一個詞或一種含意,使用詞符文字的非羅馬語言所具有的字符多于標準 輸入設(shè)備(如移動設(shè)備鍵區(qū)上的計算機鍵盤)上的鍵。例如,中文語言包含由基本語音或 拼音字符和五個音調(diào)定義的幾千個表意字符。可以通過幫助輸入在輸入設(shè)備上找不到的字 符和符號(symbol)的輸入法來實現(xiàn)這些多對一關(guān)聯(lián)的映射。因此,可以使用西式鍵盤來輸 入中文、日文或韓文字符??梢允褂幂斎敕ň庉嬈鱽韺崿F(xiàn)輸入方法。這樣的輸入法編輯器可以包括或訪問詞 和/或短語的詞典。然而,語言的詞匯(lexicon)總是在發(fā)展,因此用于輸入法編輯器的詞 典可能需要頻繁的更新。例如,新詞可能被快速地引入到語言中,例如流行文化中涉及的內(nèi) 容或產(chǎn)品的新商標名可能被引入到詞匯中。由于用戶不能利用或難以利用輸入法編輯器來 將新詞輸入到輸入欄中,因此不能以及時的方式更新輸入法編輯器詞典會降低用戶體驗。 例如,用戶可能希望向搜索引擎提交新詞(例如新商標名)作為搜索查詢。然而,如果輸入 法編輯器不能識別出該新詞,則用戶可能在向搜索引擎輸入新詞時遇到困難。在諸如中文、日文、泰語和韓文的一些語言中,在句子中沒有詞邊界。因此,由于新 詞是字符或現(xiàn)有詞的復合序列,所以不能容易地識別文本中的新詞。這使得對于這些語言 而言新詞檢測是困難的任務(wù)。此外,一旦識別了新詞,就期望識別與新詞和其他現(xiàn)有詞相關(guān) 的主題。識別這樣的主題能夠改進語言模型和/或系統(tǒng)或設(shè)備的性能,所述系統(tǒng)或設(shè)備使 用在句子中沒有邊界的語言或其他語言的語言模型。
發(fā)明內(nèi)容
在此公開了用于自動識別主題域并且創(chuàng)建與主題域相關(guān)的域詞典的方法、系統(tǒng)和裝置。在一種實現(xiàn)方式中,一種方法包括確定主題散度值,該主題散度值基本上與一比值成 比例,該比值是在主題文檔語料庫中的第一主題詞分布與在文檔語料庫中的第二主題詞分 布的比值。主題文檔語料庫是與主題相關(guān)的主題文檔的語料庫,并且文檔語料庫是包括主 題文檔和其他文檔的文檔的語料庫。該方法還包括確定候選主題詞的候選主題詞散度值。 候選主題詞散度值基本上與一比值成比例,該比值是在主題文檔語料庫中候選主題詞的第 一分布與在文檔語料庫中候選主題詞的第二分布的比值。該方法基于候選主題詞散度值和 主題散度值確定候選主題詞是否是新主題詞。在另一實現(xiàn)方式中,一種方法包括選擇主題詞典,該主題詞典包括與主題相關(guān)的 主題詞;以及基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值。主題文檔語料 庫是與主題相關(guān)的主題文檔的語料庫,并且文檔語料庫是包括主題文檔和其他文檔的文檔 的語料庫。主題詞是與主題相關(guān)的詞。該方法還包括基于文檔語料庫和主題文檔語料庫確 定候選主題詞的候選主題詞散度值,并且基于候選主題詞散度值和主題詞散度值確定候選 主題詞是否是新主題詞。在另一實現(xiàn)方式中,一種系統(tǒng)包括數(shù)據(jù)存儲單元、主題詞處理模塊和詞典更新器 模塊。數(shù)據(jù)存儲單元存儲主題詞典,該主題詞典包括與主題相關(guān)的主題詞。主題詞處理模 塊被配置為基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值。主題文檔語料 庫是與主題相關(guān)的主題文檔的語料庫,并且文檔語料庫是包括主題文檔和其他文檔的文檔 的語料庫。主題詞是在與主題相關(guān)的主題詞典中的詞。主題詞處理模塊還被配置為選擇候 選主題詞并且基于文檔語料庫和主題文檔語料庫確定候選主題詞的候選主題詞散度值,并 且基于候選主題詞散度值和主題詞散度值確定候選主題詞是否是主題詞。詞典更新器模塊 被配置為如果確定候選主題詞是主題詞,則將該候選主題詞存儲在主題詞典中。根據(jù)在本公開中提供的方法、系統(tǒng)和裝置,可以改進使用語言模型的系統(tǒng)的數(shù)據(jù) 處理性能,所述語言模型例如是用于在句子中沒有邊界的語言的語言模型。例如,系統(tǒng)或設(shè) 備可以通過使用自動更新的主題詞典,改進語音處理、手寫/光學字符識別、自動翻譯、自 動分類、自動摘要和/或詞處理系統(tǒng)的拼寫/語法檢查的性能。在附圖和下面的描述中闡述在本說明書中描述的主題的一個或多個實施例的細 節(jié)。根據(jù)所述描述、附圖以及權(quán)利要求,所述主題的其他特征、方面和優(yōu)點將變得清楚易懂。
圖IA是可以用來實現(xiàn)輸入法編輯器的示例設(shè)備100的框圖。圖IB是示例輸入法編輯器系統(tǒng)120的框圖。圖2A是示例詞檢測系統(tǒng)的框圖。圖2B是圖2A的系統(tǒng)的示例實現(xiàn)的框圖。圖3是用于識別詞語料庫中的新詞的示例過程的流程圖。圖4是用于為候選詞和現(xiàn)有詞確定熵相關(guān)量度的示例過程的流程圖。圖5是用于識別詞語料庫中的新詞的另一示例過程的流程圖。圖6是用于基于來自另一詞語料庫的詞概率識別詞語料庫中的新詞的另一示例過程的流程圖。圖7A是示例主題詞識別系統(tǒng)的框圖。
圖7B是圖7A的系統(tǒng)的更詳細的框圖。圖8是用于識別主題詞的示例過程的流程圖。圖9是用于確定主題詞散度(divergence)值的示例過程的流程圖。圖10是示例文檔和詞聚類(clustering)過程的流程圖。圖11是用于識別主題詞的另一示例過程的流程圖。在各個附圖中,相同的參考數(shù)字和附圖標記表示相同的元素。
具體實施例方式圖IA是可以用來實現(xiàn)輸入法編輯器(IME)的示例設(shè)備100的框圖。設(shè)備100可 以例如被實現(xiàn)在諸如個人計算機設(shè)備、網(wǎng)絡(luò)服務(wù)器、電信交換機的計算機設(shè)備中,或被實現(xiàn) 在諸如移動電話、移動通信設(shè)備、個人數(shù)字助理(PDA)、游戲盒等的其他電子設(shè)備中。示例設(shè)備100包括處理設(shè)備102、第一數(shù)據(jù)存儲單元104、第二數(shù)據(jù)存儲單元106、 輸入設(shè)備108、輸出設(shè)備110和網(wǎng)絡(luò)接口 112??梢允褂冒ɡ鐢?shù)據(jù)總線和主板的總線系 統(tǒng)114來建立和控制在組件102、104、106、108、110和112之間的數(shù)據(jù)通信。也可以使用其 他示例系統(tǒng)架構(gòu)。處理設(shè)備102可以例如包括一個或多個微處理器。第一數(shù)據(jù)存儲單元104可以例 如包括諸如動態(tài)隨機存取存儲器的隨機存取存儲器存儲設(shè)備、或其他類型的計算機可讀介 質(zhì)存儲器設(shè)備。第二數(shù)據(jù)存儲單元106可以例如包括一個或多個硬盤驅(qū)動器、閃速存儲器 和/或只讀存儲器、或其他類型的計算機可讀介質(zhì)存儲器設(shè)備。示例輸入設(shè)備108可以包括鍵盤、鼠標、觸筆、觸摸屏顯示器等,并且示例輸出設(shè) 備110可以包括顯示設(shè)備、音頻設(shè)備等。網(wǎng)絡(luò)接口 112可以例如包括有線或無線網(wǎng)絡(luò)設(shè)備, 其可操作用于向網(wǎng)絡(luò)116發(fā)送數(shù)據(jù)和從網(wǎng)絡(luò)116接收數(shù)據(jù)。網(wǎng)絡(luò)116可以包括一個或多個 局域網(wǎng)(LAN)和/或廣域網(wǎng)(WAN),如因特網(wǎng)。在一些實現(xiàn)方式中,設(shè)備100可以在諸如數(shù)據(jù)存儲單元106的數(shù)據(jù)存儲單元中包 括輸入法編輯器代碼101。輸入法編輯器代碼101可以由指令定義,所述指令在執(zhí)行時使 得處理設(shè)備102執(zhí)行輸入法編輯功能。在實現(xiàn)方式中,輸入法編輯器代碼101可以例如包 括解譯指令,如能在網(wǎng)絡(luò)瀏覽器環(huán)境下執(zhí)行的腳本指令,例如JavaScript或ECMAScript指 令。也可以使用其他實現(xiàn)方式,例如編譯指令、單機應用、applet (Java小應用程序)、插件 模塊等。執(zhí)行輸入法編輯器代碼101生成或啟動輸入法編輯器實例103。輸入法編輯器實 例103可以定義輸入法編輯器環(huán)境,例如用戶界面,并且可以有助于在設(shè)備100處理一個或 多個輸入法,在所述處理期間,設(shè)備100可以接收用于輸入字符、表意符號(ideogram)或符 號(諸如例如漢字字符)的組合輸入(composition input)。例如,用戶可以使用一個或多 個輸入設(shè)備108(例如,諸如西式鍵盤的鍵盤、具有手寫識別引擎的觸筆等)來輸入用于識 別漢字字符的組合輸入。在一些示例中,漢字字符可以與多于一個的組合輸入相關(guān)聯(lián)。第一數(shù)據(jù)存儲單元104和/或第二數(shù)據(jù)存儲單元106可以存儲組合輸入和字符的關(guān)聯(lián)?;谟脩糨斎?,輸入法編輯器實例103可以使用數(shù)據(jù)存儲單元104和/或數(shù)據(jù)存儲 單元106中的信息來識別輸入所代表的一個或多個候選字符。在一些實現(xiàn)方式中,如果識 別出多于一個的候選字符,則在輸出設(shè)備110上顯示所述候選字符。使用輸入設(shè)備108,用戶可以從候選字符中選擇用戶希望輸入的漢字字符。在一些實現(xiàn)方式中,設(shè)備100上的輸入法編輯器實例 103可以接收一個或多個拼 音組合輸入,并將組合輸入轉(zhuǎn)換成漢字字符。輸入法編輯器實例103可以例如使用從鍵擊 接收的拼音音節(jié)或字符的組合來表示漢字字符。每個拼音音節(jié)可以例如對應于西式鍵盤中 的一個鍵。使用拼音輸入法編輯器,用戶可以利用組合輸入來輸入漢字字符,所述組合輸入 包括表示漢字字符的讀音的一個或多個拼音音節(jié)。使用拼音IME,用戶也可以利用組合輸入 來輸入包括兩個或更多個漢字字符的詞,所述組合輸入包括表示漢字字符的讀音的兩個或 更多個拼音音節(jié)。然而,用于其他語言的輸入法也可以受益于此。也可以將其他應用軟件105存儲在數(shù)據(jù)存儲單元104和/或106中,包括網(wǎng)頁瀏覽 器、文字處理程序、電子郵件客戶端等。這些應用中的每一個可以生成相應的應用實例107。 每個應用實例可以定義這樣的環(huán)境,該環(huán)境通過向用戶呈現(xiàn)數(shù)據(jù)并便利來自用戶的數(shù)據(jù)輸 入而便利用戶體驗。例如,網(wǎng)頁瀏覽器軟件可以生成搜索引擎環(huán)境;電子郵件軟件可以生成 電子郵件環(huán)境;文字處理程序可以生成編輯器環(huán)境等。在一些實現(xiàn)方式中,也可以使用可訪問設(shè)備100的遠程計算系統(tǒng)118來編輯詞符 文字。例如,設(shè)備100可以是經(jīng)由網(wǎng)絡(luò)116提供詞符文字編輯能力的服務(wù)器。在一些示例 中,用戶可以使用例如客戶端計算機的遠程計算系統(tǒng)來編輯存儲在數(shù)據(jù)存儲單元104和/ 或數(shù)據(jù)存儲單元106中的詞符文字。替選地,用戶可編輯存儲在可訪問設(shè)備100的遠程系 統(tǒng)118上的詞符文字,例如設(shè)備100可以提供基于網(wǎng)絡(luò)的輸入法編輯器,所述輸入法編輯器 可以被客戶端計算機利用。設(shè)備100可以例如通過網(wǎng)絡(luò)接口 112來選擇字符和接收來自用 戶的組合輸入。處理設(shè)備102可以例如識別與所選字符相鄰的一個或多個字符,并且基于 所接收的組合輸入和相鄰字符來識別一個或多個候選字符。設(shè)備100可以將包括候選字符 的數(shù)據(jù)通信傳送回遠程計算系統(tǒng)。也可以使用其他實現(xiàn)方式。例如,可以以applet或腳本的形式將輸入法編輯器功 能提供給客戶端設(shè)備。圖IB是示例輸入法編輯器系統(tǒng)120的框圖??梢岳缡褂幂斎敕ň庉嬈鞔a 101和相關(guān)聯(lián)的數(shù)據(jù)存儲單元104和106來實現(xiàn)輸入法編輯器系統(tǒng)120。輸入法編輯器系 統(tǒng)120包括輸入法編輯器引擎122、詞典124和組合輸入數(shù)據(jù)存儲單元126。也可以使用 其他實現(xiàn)方式和存儲架構(gòu)。在一些實現(xiàn)方式中,組合輸入數(shù)據(jù)存儲單元126可以包括語言 模型。例如,語言模型可以是給定至少一個先前詞時當前詞的概率矩陣(例如一元模型 (unigrammodel))。在針對中文語言的實現(xiàn)方式中,用戶可以使用IME系統(tǒng)120來通過打出拼音字符 而輸入中文詞或短語。IME引擎122能夠搜索詞典124以識別候選詞典條目,每個候選詞 典條目包括與拼音字符匹配的一個或多個中文詞或短語。詞典124包括條目128,條目128 對應于在一個或多個語言模型中使用的詞符文字的已知字符、詞或短語,以及基于羅馬語 的字母表或西式字母表(例如英語、德語、西班牙語等)中的字符、詞、和短語。詞可以包括一個漢字字符或連續(xù)漢字字符的序列。連續(xù)漢字字符的序列可以構(gòu) 成詞典124中的多于一個的詞。例如,含義為“apple”的詞“蘋果”包括兩個構(gòu)成漢字字 符“蘋”和“果”,分別對應于拼音輸入“Ping””和“guo”。字符“果”也是構(gòu)成詞,其含義為 “fruit”(水果)。類似地,詞“全球定位系統(tǒng)”由詞典124中的三個詞構(gòu)成。構(gòu)成詞可以包括(1)含義為“global”的“全球”;(2)含義為“positioning”的“定位”;和(3)含義為 “system”的“系統(tǒng)”。詞“全球”、“定位”和“系統(tǒng)”中的每一個同樣由詞典124中存在的兩 個構(gòu)成詞構(gòu)成。
詞典條目128可以包括例如成語(例如“胸有成竹”)、專有名稱(例如含義 為“R印ublic of Austria”的“奧地利共和國”)、歷史人物或名人的名字(例如含義為 "Genghis Khan” 的“成吉思汗”)、技術(shù)術(shù)語(例如含義為 “GlobalPositioning System,, 的“全球定位系統(tǒng)”)、短語(“一去不復返”)、書名(例如含義為“Dream of the Red Chamber”的“紅樓夢”)、藝術(shù)作品名稱(例如含義為“Upper River During the Qing Ming Festival”的“清明上河圖”)或電影名(例如含義為“Crouching Tiger, Hidden Dragon,, 的“臥虎藏龍”)等,每一個包括一個或多個字符。類似地,詞典條目128可以包括例如地理 實體或政治實體的名稱、商號的名稱、教育機構(gòu)的名稱、動物或植物的名稱、機器名稱、歌曲 名稱、游戲名稱、軟件程序名稱、消費品名稱等。詞典124可以包括例如成千上萬的字符、詞 和短語。在一些實現(xiàn)方式中,詞典124包括有關(guān)字符之間的關(guān)系的信息。例如,詞典124可 以包括根據(jù)與字符相鄰的其他字符而分配給所述字符的分值或概率值。詞典124可以包括 條目分值或條目概率值,每個條目分值或條目概率值與詞典條目128中的一個相關(guān)聯(lián),以 指示通常條目128被使用的頻率。組合輸入數(shù)據(jù)存儲單元126包括組合輸入與存儲在詞典124中的條目128之間的 關(guān)聯(lián)。在一些實現(xiàn)方式中,組合輸入數(shù)據(jù)存儲單元126可以將詞典124中的每個條目鏈接 到輸入法編輯器引擎122所使用的組合輸入(例如拼音輸入)。例如,輸入法編輯器引擎 122可以使用詞典124和組合輸入數(shù)據(jù)存儲單元126中的信息來將詞典124中的一個或多 個條目與組合輸入數(shù)據(jù)存儲單元126中的一個或多個組合輸入相關(guān)聯(lián)和/或利用組合輸入 數(shù)據(jù)存儲單元126中的一個或多個組合輸入識別詞典124中的一個或多個條目。也可以使 用其他關(guān)聯(lián)??梢詫ME系統(tǒng)120中的候選選擇排序,并且可以根據(jù)排序在輸入法編輯器 中呈現(xiàn)候選選擇。在一些實現(xiàn)方式中,輸入法編輯器引擎122可以使用組合輸入數(shù)據(jù)存儲單元126 的語言模型來將條目相關(guān)聯(lián)和/或識別條目。例如,IME系統(tǒng)120可以使用語言模型來基 于一個或多個以前的輸入詞對候選關(guān)聯(lián)進行排序。詞典124中存儲的一些詞和短語在詞匯(lexicon)中可以具有很長的歷史,而其 他詞和短語可以相對較新。因為語言的詞匯在不斷演進,所以詞典124可能需要頻繁的更 新。為了幫助準確和及時的更新,可以利用詞檢測系統(tǒng)。圖2A是示例性詞檢測系統(tǒng)200的框圖。詞檢測系統(tǒng)200包括詞典(例如詞典124)、 詞處理模塊206、新詞分析器模塊208和詞典更新器模塊210。詞檢測系統(tǒng)可以通過例如廣 域網(wǎng)(WAN) 202 (諸如因特網(wǎng))的網(wǎng)絡(luò)來訪問詞語料庫204??梢詫⒃~檢測系統(tǒng)200配置為 檢測詞語料庫204中的新詞。例如,詞檢測系統(tǒng)200可以從詞語料庫204中識別由漢字字 符定義的新中文詞。在一些實現(xiàn)方式中,詞檢測系統(tǒng)200通過將所識別的新詞存儲在詞典 124中來更新詞典124。例如,詞檢測系統(tǒng)200可以將表示新中文詞的條目添加到詞典124 中。然后可以將詞典124提供給利用與詞典124相兼容的輸入法編輯器的計算機設(shè)備,和 /或由該計算機設(shè)備來訪問詞典124。
詞處理模塊206、新詞分析器模塊208和詞典更新器模塊210可以是被配置為檢測 詞語料庫204中的新詞的軟件和/或硬件處理模塊。所述模塊的示例性軟件實現(xiàn)方式包括 存儲在有形的計算機可讀介質(zhì)中且可由計算機處理設(shè)備執(zhí)行的指令,所述計算機處理設(shè)備 與所述有形的計算機可讀介質(zhì)進行數(shù)據(jù)通信。這樣的指令可以包括目標代碼、編譯代碼、解 釋性指令等。在一些實現(xiàn)方式中,可以將詞處理模塊206、新詞分析器模塊208和詞典更新 器模塊210實現(xiàn)在一個或多個聯(lián)網(wǎng)的服務(wù)器計算機中,例如服務(wù)器群(server farm)中,并 且可以將詞處理模塊206、新詞分析器模塊208和詞典更新器模塊210配置為訪問和處理大 型詞語料庫,例如成千上萬或甚至幾百萬的基于網(wǎng)絡(luò)的文檔。也可以使用其他的實現(xiàn)方式。詞語料庫204包括來自各種源的詞。示例性詞語料庫可以包括網(wǎng)絡(luò)文檔,諸如網(wǎng) 頁和網(wǎng)絡(luò)文件、查詢?nèi)罩?、博客、電子郵件消息或包括詞數(shù)據(jù)的其他數(shù)據(jù)。在所描述的示例 中,詞預料庫204可以包括來自網(wǎng)絡(luò)文檔214、電子通信216、數(shù)據(jù)存儲單元218和其他詞源 220的漢字字符。網(wǎng)絡(luò)文檔214可以包括通過WAN 202可訪問的已發(fā)布的網(wǎng)頁。例如,詞語 料庫204可以包括來自個人或公司網(wǎng)站的詞、在社交網(wǎng)絡(luò)網(wǎng)站中的簡檔頁面、博客條目、在 線新聞文章和/或在因特網(wǎng)上發(fā)布的其他文本。電子通信216可以包括網(wǎng)絡(luò)通信,諸如電子 郵件、短消息服務(wù)(SMS)、搜索查詢、或其他通信方法。例如,詞語料庫204可以包括在電子 郵件消息、SMS消息和搜索查詢中使用的文本。在一些實現(xiàn)方式中,詞語料庫204還可以包 括來自其他數(shù)據(jù)存儲單元218的詞,諸如與其他IME設(shè)備相關(guān)聯(lián)的在線詞典、用戶文件等。 在一些示例中,詞語料庫204還可以包括在其他詞源220中使用的詞,諸如在電子書籍、電 子詞典、電子形式的各種設(shè)備的用戶手冊、或詞數(shù)據(jù)的任何其他電子源中使用的詞。在一些實現(xiàn)方式中,詞語料庫204可以包括一種或多種語言的文檔中的詞。例如, 語料庫204中的單個文檔可以包括多于一種語言(例如,中文報紙中關(guān)于英國政治的社論 可以包括中文和英文兩者)。在一些實現(xiàn)方式中,詞處理模塊206可以從用于詞檢測的詞語 料庫204中提取特定語言的字符,例如漢字字符。在一些實現(xiàn)方式中,詞處理模塊206可以包括漢字字符處理模塊。在一個示例中, 漢字字符處理模塊可以處理詞語料庫204中的漢字字符。在一些示例中,詞處理模塊206可 以包括用于處理其他詞符語言的處理模塊,諸如日語字符處理模塊、韓語字符處理模塊和/ 或其他詞符字符處理模塊。在一些實現(xiàn)方式中,詞檢測系統(tǒng)200包括劃分(partition)數(shù)據(jù)存儲單元212。劃 分數(shù)據(jù)存儲單元212可以包括詞語料庫204的副本或者詞語料庫的一大部分的副本,例如 由軟件代理爬取的網(wǎng)頁的副本,并且詞處理模塊206可以對存儲在劃分數(shù)據(jù)存儲單元212 中的數(shù)據(jù)進行劃分。例如,詞處理模塊206可以將與詞語料庫204相關(guān)的數(shù)據(jù)劃分為訓練 語料庫和發(fā)展語料庫。在一些實現(xiàn)方式中,可以將訓練語料庫和發(fā)展語料庫中的數(shù)據(jù)存儲 在劃分數(shù)據(jù)存儲單元212中。在一些實現(xiàn)方式中,可以生成多于兩個劃分,并且可以將它們 存儲在劃分數(shù)據(jù)存儲單元212中。在一些實現(xiàn)方式中,詞處理模塊206可以根據(jù)劃分數(shù)據(jù)存儲單元212中的劃分數(shù) 據(jù)識別詞語料庫204中的文檔并且存儲文檔標識符,例如統(tǒng)一資源定位符(URL)。在這些實 現(xiàn)方式中,劃分數(shù)據(jù)存儲單元212不需要包括詞語料庫204的副本或詞語料庫204的一大 部分的副本。也可以使用用于管理詞語料庫204的其他數(shù)據(jù)存儲和/或分配技術(shù)。詞處理模塊206可以包括語言模型。例如,詞處理模塊206可以利用詞語料庫204中的數(shù)據(jù)來生成η元語言模型。η元語言模型可以包括來自給定序列的η個詞的子序列的概率。η元語言模型可以包括η = 1的一元語言模型、η = 2的二元語言模型、和/或η = 3的三元語言模型或其他η元模型。在某些實現(xiàn)方式中,詞處理模塊206可以為劃分數(shù)據(jù)存 儲單元212中的一個或多個劃分數(shù)據(jù)集合(例如訓練語料庫)生成η元語言模型。在一些實現(xiàn)方式中,詞處理模塊206可以識別詞語料庫204中的詞而無需分隔符。 例如,詞處理模塊206可以使用詞典124和一個或多個現(xiàn)有語言模型來識別詞語料庫204 中的詞。在一個示例中,對于詞語料庫204中的給定句子,詞處理模塊206能夠識別形成該 句子的詞的一個或多個組合?;谡Z言模型,詞處理模塊206能夠例如對所述組合進行排 序,并且選擇具有最高排序的詞的組合。詞處理模塊206可以將訓練語料庫中的詞和詞典124中的詞進行比較,以識別一 個或多個潛在的新詞,例如出現(xiàn)在訓練語料庫中但是不在詞典124中的候選詞。在一些示 例中,系統(tǒng)200可以使用劃分數(shù)據(jù)存儲單元212中的數(shù)據(jù)驗證候選詞是否是新詞。詞處理 模塊206基于例如訓練語料庫(例如訓練語料庫)中的η元語言模型確定候選詞的第一概 率和構(gòu)成候選詞的詞的概率,以及基于例如候選詞在發(fā)展語料庫中的出現(xiàn)次數(shù)以及發(fā)展語 料庫中的詞的總數(shù)量確定第二概率。使用第一和第二概率,新詞分析器模塊208能夠確定候選詞是否是新詞。在一個 示例中,新詞分析器模塊208可以使用第一和第二概率來確定發(fā)展語料庫中的不確定性 (例如熵值)是否相對于該候選詞降低。在一些實現(xiàn)方式中,新詞分析器模塊208基于第一 和第二概率生成第一和第二熵相關(guān)值。例如,第一熵相關(guān)值和第二熵相關(guān)值可以分別表示 具有和不具有該候選詞的語言模型的不確定性。在一些實現(xiàn)方式中,如果第一熵相關(guān)值小 于第二熵相關(guān)值,則新詞分析器模塊208確定該候選詞是新詞。熵的減少可以指示由于正 確檢測新詞導致的信息增益(information gain, IG)。如果確定候選詞是新詞,則新詞分析器模塊208可以通知詞典更新器模塊210利 用新詞更新詞典124。在一些實現(xiàn)方式中,熵相關(guān)值可以是實際熵值的近似值。例如,在訓練語料庫和發(fā) 展語料庫中的詞的數(shù)量可能由于將候選詞包括在語言模型中而稍有變化,例如,可以將詞 “全球”計數(shù)為一個詞,或者如果分別考慮構(gòu)成字符“全”和“球”,可以將詞“全球”計數(shù)為兩 個詞。在一個實現(xiàn)方式中,新詞分析器模塊208可以例如通過僅調(diào)整候選詞和定義該候 選詞的構(gòu)成詞的概率,使用固定大小的訓練語料庫和發(fā)展語料庫生成熵相關(guān)值。因此熵相 關(guān)值是實際熵值的接近近似值。新詞分析器模塊208可以使用熵相關(guān)值作為訓練語料庫和 /或發(fā)展語料庫的熵值。圖2B是圖2A的系統(tǒng)200的示例實現(xiàn)方式的框圖。如圖2B中所示,系統(tǒng)200包括 訓練語料庫232和發(fā)展語料庫234。在一些實現(xiàn)方式中,詞處理模塊206劃分詞語料庫204, 以生成訓練語料庫232和發(fā)展語料庫234。例如,可以將訓練語料庫232和發(fā)展語料庫234 存儲或表示在劃分數(shù)據(jù)存儲單元212中。在一些實現(xiàn)方式中,詞處理模塊206可以包括分割模塊,其將詞之間沒有空格的 原始句子分割成詞序列。詞處理模塊中的分割模塊可以例如利用詞典和語言模型來生成詞 序列的分割。
如上所述,詞處理模塊206可以包括訓練語料庫232中的η元語言模型。在一些實現(xiàn)方式中,詞處理模塊206可以通過將訓練語料庫232中的兩個或更多個現(xiàn)有詞進行組
合來識別候選詞。例如,詞處理模塊206可以通過組合兩個現(xiàn)有詞χ和y來識別候選詞(X, y)。在一些實現(xiàn)方式中,系統(tǒng)200可以利用來自詞語料庫204的詞數(shù)據(jù),例如訓練語料 庫232和發(fā)展語料庫234中的網(wǎng)頁數(shù)據(jù),來確定候選詞是否是新詞。例如,詞處理模塊206 可以從存儲在訓練語料庫232中的數(shù)據(jù)生成η元語言模型,以包括所識別的候選詞(x,y)。 一元模型可以包括候選詞的概率P (χ,y),并且詞處理模塊206還可以確定構(gòu)成候選詞xy的 詞χ和y的相應概率P (χ)和P (y)。此外,詞處理模塊206從發(fā)展語料庫234生成候選詞 的詞計數(shù)值D (x, y)和構(gòu)成詞的詞計數(shù)值D (χ)和D (y)。例如,D (x)、D (y)和D (x, y)分別 可以是x、y和(x,y)在發(fā)展語料庫234中的出現(xiàn)次數(shù)。使用詞計數(shù)值,系統(tǒng)200能夠確定 χ、y和(χ,y)在發(fā)展語料庫234中的概率。例如,(x,y)在發(fā)展語料庫234中的概率可以 被確定為<formula>formula see original document page 17</formula>其中Il D Il是發(fā)展語料庫234中的詞的總數(shù)量。在接收到概率P(X)、P (y)和p(x,y)以及詞計數(shù)值D (χ)、D (y)和D(x,y)之后,新 詞分析器模塊208確定該候選詞是否是新詞。在一些實現(xiàn)方式中,如果發(fā)展語料庫234的 不確定性由于將候選詞包括為新詞而降低,則新詞分析器模塊208可以確定該候選詞是新 詞。在一些示例中,可以使用熵值來測量發(fā)展語料庫234中的不確定性。例如,可以通過下 式來確定發(fā)展語料庫234的熵值<formula>formula see original document page 17</formula>其中V是計算熵H所考慮的詞的整個集合,w是發(fā)展語料庫234中的詞,p(W)是發(fā) 展語料庫中的該詞的概率,并且D (w)是w在發(fā)展語料庫中的出現(xiàn)次數(shù)。在一些實現(xiàn)方式中,新詞分析器模塊208可以為發(fā)展語料庫234生成熵值H和H’, 其中H和H’分別是在語言模型中不包括和包括該候選詞的情況下發(fā)展語料庫234的熵值。 在一些實現(xiàn)方式中,新詞分析器模塊208分別使用在不具有和具有該候選詞的情況下語料 庫的實際大小來生成實際熵值H和H’。在一些實現(xiàn)方式中,新詞分析器模塊208還可以使 用可以近似實際熵值的一個或多個熵相關(guān)值。例如,新詞分析器模塊208可以使用在不具 有候選詞的情況下語料庫232、234的大小生成H’。盡管在將(x,y)作為新詞包括在詞匯中 之后訓練語料庫232和發(fā)展語料庫234的大小可能減小,但是該差別對于在具有候選詞(X, y)的情況下計算語料庫232、234的熵而言是可忽略的。例如,如果將η個構(gòu)成詞W1W2. ..Wn 的序列看作是潛在的新詞,則語料庫的大小僅減少了 W1W2. ..Wn的出現(xiàn)次數(shù),例如m,乘以 n-1,例如m*(n-l)那么多。通過比較H和H’,新詞分析器模塊208可以確定候選詞是否是新詞。例如,如果 H'-H < 0,則新詞分析器模塊208可以確定該候選詞是新詞,因為發(fā)展語料庫234的熵值由 于包括該候選詞而降低。在一些示例中,新詞分析器模塊208使用概率p(x)、p(y)和p(x,y)以及詞計數(shù)值D(x)、D(y)和D(x,y)比較熵值H和H’。因為除了候選詞和構(gòu)成詞之外的詞的詞頻率不受 添加候選詞的影響,所以可以使用簡化公式生成用于生成H和H’之間的差的公式。通過刪 去相等項,可以導出下面的公式用來計算H和H’之間的差<formula>formula see original document page 18</formula>其中P,(χ)、P,(y)、P,(x,y)、ρ (χ)和ρ (y)是訓練語料庫232的語言模型的概 率。P,(x)、p,(y)、p,(χ, y)的值分別是在認為字符序列xy是候選詞時χ、y和(x, y)在 語言模型中的概率。相反,P(X)和P(y)的值分別是在認為字符序列xy不是候選詞時χ和 y在語言模型中的概率。因此,由于序列xy的每次出現(xiàn)增加了相應的概率P(X)和p(y),所 以值 Ρ(Χ) >ρ,(χ)并且值 P(y) >p,(y)。在實現(xiàn)方式中,如果Z < 0,這等效于以下條件,則新詞分析器模塊208可以確定候 選詞(X,y)是新詞 「 η 恥’力,nr P'i^y) 、D⑶ p(x) D(y) p(y)TW g兩 W g^因此,如果上述不等式為真,則確定候選詞(x,y)是新詞。在一些實現(xiàn)方式中,使用x、y、和(x,y)在訓練語料庫232中的出現(xiàn)次數(shù)除以訓練 語料庫232中詞的總數(shù)量來表示概率p(X),ρ (y),ρ’ (χ)和ρ’(y)。例如,<formula>formula see original document page 18</formula>其中T(x)、T(y)和T(x,y)分別是在訓練語料庫232中x、y和(x,y)的出現(xiàn)次數(shù), 并且IITlI是訓練語料庫232中詞的總數(shù)量。因而,新詞分析器模塊208可以根據(jù)下面的 不等式評估上面的不等式
<formula>formula see original document page 18</formula>可以將該不等式重寫為
<formula>formula see original document page 18</formula>以確定候選詞是否有效。在一種實現(xiàn)方式中,新詞分析器模塊208可以使用在發(fā)展語料庫234中候選詞的D(x,y)
詞頻率(例如^5|p)、以及在訓練語料庫232中候選詞和構(gòu)成詞的詞頻率(例如p(X)、
P(y)和P(x,y))來生成第一值。可以基于以下公式計算基于這些值的第一類熵值Vl
_ D(x, y) , p(x,y) —Ο] yi=J^-l°gp(x).p(y) 類似地,新詞分析器模塊208可以使用在發(fā)展語料庫234中構(gòu)成詞的詞頻率(例 D(x) D(y)
如,[和K)、以及在訓練語料庫232中候選詞和構(gòu)成詞的詞頻率來生成第二熵值???br>
以基于以下公式計算基于這些值的第二類熵值Vs
D(X) , P(X) , D(y)p(y)
100921 F2=wW在一些實現(xiàn)方式中,如果Vl >V2,則新詞分析器模塊208確定候選詞是新詞。也 可以使用其它不等式來更多或更少地包括新詞,例如Vl > S*V2,其中S是標量值。標量值 可以是固定的,例如為0.9,或可以根據(jù)應用進行調(diào)整。詞典更新器模塊210從新詞分析器模塊208接收指示所述確定的數(shù)據(jù)。在一些實 現(xiàn)方式中,如果新詞分析器模塊208確定候選詞是新詞,則詞典更新器模塊210可以將該新 詞添加到詞典124中。系統(tǒng)200可以按照預定的安排處理詞語料庫204和處理多個候選詞。例如,可以 以每日、每周或每月為基礎(chǔ)實現(xiàn)檢測語料庫中的新詞的過程。也可以使用其它的觸發(fā)事件; 例如,如果接收未被識別的詞作為輸入的頻率足夠高以致具有統(tǒng)計意義,則可以對基于網(wǎng) 絡(luò)的輸入法編輯器執(zhí)行新詞檢測過程。圖3是用于識別詞語料庫(例如詞語料庫204)中的新詞的示例過程300的流程 圖。例如可以在包括一個或多個計算機的系統(tǒng)中實現(xiàn)過程300。例如,詞檢測系統(tǒng)200可被 用來執(zhí)行過程300中的一些或所有操作。過程300以確定訓練語料庫中的現(xiàn)有詞和候選詞的第一詞頻率開始(302)。候選 詞可以由構(gòu)成詞的序列定義,并且每個構(gòu)成詞可以是詞典中的現(xiàn)有詞。例如,詞處理模塊 206可以確定在訓練語料庫232中候選詞(例如(X,y))和構(gòu)成該候選詞的現(xiàn)有詞(例如 χ和y)的概率(例如P(X)、P(y)和p(x,y))。在一些實現(xiàn)方式中,詞處理模塊206可以生 成訓練語料庫232中的η元語言模型以用于確定詞頻率。接下來,過程300確定發(fā)展語料庫中構(gòu)成詞和候選詞的第二詞頻率(304)。例如, 詞處理模塊206可以確定在發(fā)展語料庫234中所識別的新詞和構(gòu)成詞的詞計數(shù)值(例如 D(x,y)、D(x)和D(y))。在一些實現(xiàn)方式中,可以通過將發(fā)展語料庫234中的一個詞的詞計 數(shù)除以發(fā)展語料庫234中詞的總數(shù)量來確定在發(fā)展語料庫234中所述詞的詞頻率。例如,
D(W)
詞處理模塊206可以通過計算I來確定在發(fā)展語料庫中w的詞頻率。在確定詞頻率之后,過程300基于候選詞的第二詞頻率以及構(gòu)成詞和候選詞的第 一詞頻率確定候選詞熵相關(guān)量度(306)。例如,新詞分析器模塊208可以使用D (x, y)、ρ (χ)、 p(y)和P(x,y)確定候選詞熵相關(guān)量度VI。過程300基于構(gòu)成詞的第二詞頻率以及構(gòu)成詞和候選詞的第一詞頻率確定現(xiàn)有詞熵相關(guān)量度(308)。例如,新詞分析器模塊208可以使用D(X)、D(y)、p(X)、p(y)和p(x, y)確定現(xiàn)有詞熵相關(guān)量度V2。接下來,過程300確定候選詞熵相關(guān)量度是否超過現(xiàn)有詞熵相關(guān)量度(310)。例 如,新詞分析器模塊208可以比較Vl和V2,并且確定Vl是否大于V2。如果過程300確定候選詞熵相關(guān)量度超過現(xiàn)有詞熵相關(guān)量度,則確定候選詞是新 詞(312)。例如,如果Vl > V2,則新詞分析器模塊208可以確定候選詞是新詞。如果過程300確定候選詞熵相關(guān)量度未超過現(xiàn)有詞熵相關(guān)量度,則確定候選詞不 是新詞(314)。例如,如果Vl SV2,則新詞分析器模塊208可以確定候選詞不是新詞。在一些實現(xiàn)方式中,如參考圖2A-2B描述的,通過計算熵量度或通過使用固定大 小的語料庫近似熵量度來確定熵相關(guān)量度。圖4是用于確定候選詞和現(xiàn)有詞的熵相關(guān)量度的示例過程400的流程圖。例如可 以將過程400實現(xiàn)在包括一個或多個計算機的系統(tǒng)中。例如,詞檢測系統(tǒng)200可被用來執(zhí) 行過程400中的一些或所有操作。過程400以基于候選詞和構(gòu)成詞的概率確定第一對數(shù)值開始(402)。例如,新詞分 析器模塊208可以使用p(X)、p(y)和p(x,y)確定第一對數(shù)值。在一個示例中,第一對數(shù)值 可以是Iog^f-接下來,過程400基于候選詞的詞計數(shù)值和第一對數(shù)值確定候選詞熵量度(404)。 例如,新詞分析器模塊208可以使用候選詞的詞計數(shù)D(x,y)和第一對數(shù)值來生成值VI。過程400基于候選詞和構(gòu)成詞的概率確定第二對數(shù)值(406)。例如,新詞分析器模 塊208可以使用ρ(Χ)、ρ (y)和p(x,y)確定第二對數(shù)值。例如,第二對數(shù)值可以包括log p(x)~▽和 log P(y)-接下來,過程400基于構(gòu)成詞的詞計數(shù)和第二對數(shù)值確定現(xiàn)有詞熵量度(408)。例 如,新詞分析器模塊208可以使用候選詞的詞計數(shù)D(X)、D (y)和第二對數(shù)值來生成值V2。圖5是用于識別詞語料庫中的新詞的另一示例過程500的流程圖。例如,可以將 過程實現(xiàn)在系統(tǒng)200中。過程500以確定第一語料庫中現(xiàn)有詞和候選詞的第一詞概率開始 (502)。例如,詞處理模塊206可以確定在訓練語料庫232中的p(x)、p(y)和p(x,y)。過程500確定第二語料庫中構(gòu)成詞和候選詞的第二詞概率(504)。候選詞可以由 構(gòu)成詞的序列來定義,并且每個構(gòu)成詞可以是詞典中的現(xiàn)有詞。例如,詞處理模塊206可以 確定在發(fā)展語料庫234中構(gòu)成詞χ和y、以及候選詞(X,y)的概率。例如,詞處理模塊206 可以使用在發(fā)展語料庫234中的D(X)、D(y)和D(x,y)、以及IlDlI來確定在發(fā)展語料庫 234中x、y和(x,y)的概率。接下來,過程500基于第二候選詞概率以及候選詞和構(gòu)成詞的第一詞概率確定第 一熵相關(guān)值(506)。例如,新詞分析器模塊208可以使用D(x,y)以及p(x)、p(y)和p(x, y)確定VI。過程500基于第二構(gòu)成詞概率以及候選詞和構(gòu)成詞的第一詞概率確定第二熵相 關(guān)值(508)。例如,新詞分析器模塊208可以使用D(X)、D(y)以及p(x)、p(y)和p(x,y)確定V2。在確定熵相關(guān)值之后,過程500確定第一熵相關(guān)值是否超過第二熵相關(guān)值(510)。例如,新詞分析器模塊208可以確定是否Vl > V2。如果過程500確定第一熵相關(guān)值Vl超過第二熵相關(guān)值V2,則確定候選詞是新詞 (512)。例如,如果Vl >V2,則新詞分析器模塊208可以確定候選詞是新詞。如果過程500確定第一熵相關(guān)值未超過第二熵相關(guān)值,則確定候選詞不是新詞 (514)。例如,如果Vl SV2,則新詞分析器模塊208可以確定候選詞不是新詞。圖6是用于基于來自一個詞語料庫的詞概率識別在另一詞語料庫中的新詞的另 一示例過程600的流程圖。例如,可以將過程600實現(xiàn)在包括一個或多個計算機的系統(tǒng)中。過程600以將網(wǎng)絡(luò)文檔的集合劃分成訓練語料庫和發(fā)展語料庫開始(602)。例如, 詞處理模塊206可以將詞語料庫204劃分成訓練語料庫232和發(fā)展語料庫234。接下來,過程600針對訓練語料庫中的詞的第一詞概率在訓練語料庫上訓練語言 模型(604)。例如,詞訓練模塊206可以訓練訓練語料庫232的η元語言模型,并且獲得訓 練語料庫232中的詞概率(例如ρ (χ)、ρ (y)和ρ (x,y))。過程600對候選詞和兩個或更多個相應詞在發(fā)展語料庫中的出現(xiàn)次數(shù)計數(shù) (606)。例如,詞處理模塊206可以對候選詞在發(fā)展語料庫234中的出現(xiàn)次數(shù)(D(x,y))計 數(shù),并對候選詞的構(gòu)成詞在發(fā)展語料庫234中的出現(xiàn)次數(shù)(D(x)和D(y))計數(shù)。接下來,過程600基于在發(fā)展語料庫中候選詞的出現(xiàn)次數(shù)和第一詞概率確定第一 值(608)。例如,新詞分析器模塊208基于D(x,y)以及p(x)、p(y)和p(x,y)確定VI。過程600基于所述兩個或更多個相應詞在發(fā)展語料庫中的出現(xiàn)次數(shù)和第一詞概 率確定第二值(610)。例如,新詞分析器模塊208基于D(X)和D(y)以及p(x)、p(y)和p(x, y)確定V2。在確定第一和第二值之后,過程600通過將第一值與第二值比較來確定候選詞是 否是新詞(612)。例如,新詞分析器模塊208可以比較Vl和V2。如果過程600確定候選詞 是新詞,則過程600將候選詞添加到詞典(614)。例如,詞典更新器模塊210可以將新詞添 加到詞典124。如果過程600確定候選詞是不新詞,則過程600識別另一候選詞(616)并且 重復步驟606。例如,詞處理模塊206可以從詞語料庫204識別另一候選詞。盡管上面參考兩個現(xiàn)有詞描述了檢測新詞的示例,但是詞檢測系統(tǒng)200可以檢測 由多于兩個現(xiàn)有詞構(gòu)成的新詞。例如,詞檢測系統(tǒng)200可以識別由三個現(xiàn)有詞χ、y和ζ構(gòu) 成的候選詞(X,1,ζ)。新詞分析器模塊208可以通過以下計算來生成第一熵相關(guān)值Vl <formula>formula see original document page 21</formula>
以及通過以下計算生成第二熵相關(guān)值V2
<formula>formula see original document page 21</formula>如果Vl >V2,則新詞分析器模塊208可以確定候選詞(x,y,z)是新詞,并且詞典 更新器模塊210可以將該新詞存儲在詞典124中。例如,系統(tǒng)200可以識別已經(jīng)引入到語言詞匯中的下列新的三字符或四字符詞/短語“丁俊暉”(dingjimhui)、“本賽季”(this season)、“世錦賽”(world championship)、“季后賽”(play off)、“范甘迪”(Van Cundy)、 “國際足聯(lián)” (FIFA)、“反傾銷” (antidumping of low-priced)、“凈利潤”(net profit)、“證 監(jiān)會”(SEC)、“國資委”(china federal estate committee)、“美聯(lián)儲”(FED)和“非流通 股,,(Non-tradab leshares)。在一些實現(xiàn)方式中,計算機系統(tǒng)可以包括與一個或多個特定主題相關(guān)的一個或多個主題詞典。例如,圖IB中的詞典124可以包括一個或多個主題詞典,并且每個主題詞典 可以對應于特定主題,并且包括與該特定主題相關(guān)的主題詞。特定主題的示例可以包括體 育主題、音樂主題、法律主題、醫(yī)學主題等。與體育主題相關(guān)的主題詞典例如可以包括與體 育相關(guān)的詞和短語,例如“足球”、“橄欖球”、“球門”、“紅牌”等。這些詞中的一些詞可以是語 言詞典中的現(xiàn)有詞,例如“足球”;而這些詞中的一些詞也可以是新詞,例如新球員的名字、 新比賽場地的名稱等。在一些實現(xiàn)方式中,可以從新詞和/或現(xiàn)有詞中識別主題詞。在一個示例中,在使 用系統(tǒng)200識別新詞之后,可以將新詞中的一個或多個分類為與特定主題相關(guān)。在一些實 現(xiàn)方式中,主題詞識別系統(tǒng)可以從詞語料庫204中識別主題詞。可以將所識別的主題詞包 括在一個或多個主題詞典中。圖7A是用于識別主題詞的示例主題詞識別系統(tǒng)700的框圖。主題詞識別系統(tǒng)700 包括主題分類模塊702、主題詞處理模塊704、詞典更新器模塊706和主題詞典708??梢?將主題分類模塊702、主題詞處理模塊704和詞典更新器模塊706集成在一個或多個計算 機中,例如單個計算機或通過諸如WAN 202的網(wǎng)絡(luò)進行通信的一個或多個計算機。類似地, 通過WAN 202,主題分類模塊702可以檢索詞語料庫204(例如文檔語料庫710)中的文檔。 在一些示例中,主題詞識別系統(tǒng)700可以識別詞語料庫204中的主題詞,并且將所識別的主 題詞更新到主題詞典708中。文檔語料庫710可以包括來自詞語料庫204的文檔,例如文檔語料庫710可以包 括詞語料庫204的副本或詞語料庫204的一大部分,例如由軟件代理爬取的網(wǎng)頁的副本。在 該示例中,文檔語料庫710包括η個主題714,并且每個主題包括來自例如文檔語料庫710 的主題相關(guān)文檔,例如主題文檔語料庫。例如,文檔語料庫710可以包括體育相關(guān)文檔、醫(yī) 學相關(guān)文檔等,并且體育主題可以包括體育相關(guān)文檔作為體育主題文檔語料庫;醫(yī)學主題 可以包括醫(yī)學相關(guān)文檔作為醫(yī)學主題文檔語料庫等。在一些實現(xiàn)方式中,可以在系統(tǒng)700 中預先定義每個主題714。此外,一些主題也可以是另一主題的子主題。例如,主題“網(wǎng)球” 和“籃球”可以是主題“體育”的子主題。在一些實現(xiàn)方式中,主題分類模塊702對文檔語料庫710中的文檔聚類 (cluster),以生成主題文檔聚類(cluster)。例如,主題分類模塊702可以聚類與一個主題 714相關(guān)的文檔,以形成該主題的主題文檔聚類。主題分類模塊702可以使用不同的主題檢 測方法來對文檔分類。例如,主題分類模塊702可以使用一些聚類技術(shù)(例如奇異值分解 (SVD)、K均值聚類等),以從文檔語料庫710中的文檔生成主題文檔的聚類。在示例中,主 題分類模塊702可以向每個文檔分配相關(guān)值。在一個實現(xiàn)方式中,相關(guān)值可以是文檔的相 似度值和每個主題714的重心(centroid)?;谙嚓P(guān)值,主題分類模塊702將文檔分配給 最相關(guān)的主題?;谖臋n分配,主題分類模塊702可以為每個主題714生成主題文檔聚類。
系統(tǒng)700可以包括新詞數(shù)據(jù)存儲單元712。在一些實現(xiàn)方式中,新詞數(shù)據(jù)存儲單元 712包括從詞語料庫204識別的新詞。例如,新詞數(shù)據(jù)存儲單元712可以存儲使用系統(tǒng)200 識別的新詞。主題詞處理模塊704可以選擇存儲在新詞數(shù)據(jù)存儲單元712中的所識別的新詞和 /或在文檔語料庫710中識別出的、作為每個主題文檔聚類的候選主題詞的現(xiàn)有詞,并且確 定所選擇的候選詞是否屬于某一主題。如果確定所選擇的候選主題詞屬于特定主題,則可 以用該候選主題詞更新相應的主題詞典708。在一個實現(xiàn)方式中,主題詞處理模塊704可以使用新詞數(shù)據(jù)存儲單元712和主題 詞典708選擇候選詞。主題詞處理模塊704可以將相應主題文檔中的每個詞識別為新詞、 主題詞或非主題詞。例如,新詞可以是包括在新詞數(shù)據(jù)存儲單元712中的詞,所述新詞數(shù)據(jù) 存儲單元712可以不包括在任何主題詞典708中;主題詞可以是存在于相關(guān)主題詞典中的 詞;以及非主題詞可以是不存在于相關(guān)主題詞典中的現(xiàn)有詞。主題詞處理模塊704可以選 擇新詞和非主題詞作為候選主題詞。基于主題文檔聚類和存儲在主題詞典708中的數(shù)據(jù),主題詞處理模塊704可以確 定候選主題詞是否是主題詞典708之一的主題詞。例如,如果主題詞處理模塊704確定候 選主題詞We (其是文檔語料庫710中的現(xiàn)有詞)與主題2相關(guān)聯(lián),則主題詞處理模塊704 可以通知詞典更新器模塊706將候選主題詞We存儲在主題2詞典中。類似地,如果主題詞 處理模塊704確定候選主題詞Wn (其是新詞)與主題η相關(guān)聯(lián),則主題詞處理模塊704可 以通知詞典更新器模塊706將候選主題詞Wn存儲在主題η詞典中。圖7Β是圖7Α的系統(tǒng)700的示例實現(xiàn)方式的更詳細的框圖。如圖7Β中所示,主題 分類模塊702包括聚類模塊722、重心模塊724和相似度模塊726。主題分類模塊702可以 使用模塊722、724和726來在文檔語料庫710中生成主題文檔聚類。主題詞處理模塊704包括散度值模塊732和閾值評估模塊734。主題詞處理模塊 704可以從文檔語料庫710中所生成的主題文檔聚類和/或從新詞數(shù)據(jù)存儲單元712識別 候選主題詞,并且利用模塊732和734來確定候選主題詞是否是主題詞。在一些實現(xiàn)方式中,主題分類模塊702可以為文檔語料庫710中的每個文檔生成 詞頻/反文檔頻率(TF-IDF)矢量。例如,聚類模塊722可以根據(jù)下列公式確定文檔j中的 詞Wi的TF-IDF —元頻率Hiij <formula>formula see original document page 23</formula>其中D和Dwi分別是文檔的總數(shù)量和包含Wi的文檔的數(shù)量,并且fj (Wi)是文檔j 中Wi的頻率。使用文檔j中的詞的TF-IDF頻率,聚類模塊722能夠通過生成TF-IDF矢量 Xj來表示文檔j。例如,可以將文檔j表示為<formula>formula see original document page 23</formula>其中|V|是系統(tǒng)700中所識別的詞的數(shù)量。在一些實現(xiàn)方式中,聚類模塊722可 以使用文檔矢量Hiij來生成共生矩陣(co-occurrence matrix)M。類似地,主題分類模塊702可以使用例如與主題的文檔的TF-IDF矢量相關(guān)的重心 矢量來表示每個主題。例如,重心模塊724可以確定主題重心Y1, Y2, ...,Yn以分別表示主 題1,2,. . .,η。在一些實現(xiàn)方式中,重心模塊724可以通過組合分配給主題的文檔的TF-IDF矢量來確定主題重心。在一個實現(xiàn)方式中,重心模塊724可以根據(jù)下列公式確定主題k(Tk) 的主題重心Yk <formula>formula see original document page 24</formula>在一些實現(xiàn)方式中,相似度模塊726可以確定在文檔Xj和重心Y1, Y1, . . . Yn之間 的相似度距離,例如余弦相似度距離??梢愿鶕?jù)下列公式確定在文檔X和主題重心Y之間 的距離D (X,Y)<formula>formula see original document page 24</formula>其中Xi是在TF-IDF矢量X中的分量,yi是在TF-IDF矢量Y中的分量,以及ε是 小于1的小正實數(shù)?;谖臋n和每個重心之間的距離,聚類模塊722可以通過將文檔分配給到文檔最 近的主題來將文檔重新聚類到文檔聚類中。例如,聚類模塊722將文檔和主題重心之間的 距離進行比較,以確定最近的主題重心。主題分類模塊702可以迭代地對主題文檔分類。最初,主題分類模塊702可以生成 η個初始聚類和聚類的η個初始聚類重心。在一個示例中,聚類模塊722可以對共生矩陣M 執(zhí)行奇異值分解(SVD),以識別初始文檔聚類。例如,可以將每個文檔分配給表示為Ctl(Xi) 的初始聚類中的一個。在其他實現(xiàn)方式中,也可以通過隨機地將文檔分配給主題來生成初 始聚類?;诔跏嘉臋n聚類,重心模塊724可以通過如下計算來生成初始重心<formula>formula see original document page 24</formula>
使用初始重心,相似度模塊726可以生成在每個重心和每個文檔之間的相似度距 離 D(X,Y)。在初始化之后,聚類模塊722可以在每次迭代中基于當前最近的主題重心來重新 分配文檔。在一個示例中,如果在當前迭代中D(X14,Y2)在所有0(&4,¥」),」=1,2, ... ,η 中是最小的,則聚類模塊722可以將文檔14分配給主題2。在重新分配文檔后,重心模塊 724基于新的分配更新主題的重心。例如,在步驟η中,重心模塊724可以通過如下計算來 計算新的重心<formula>formula see original document page 24</formula>
使用更新的重心,相似度模塊726可以確定文檔和更新的重心之間的新的相似度 距離。然后,可以使用所確定的距離來在下一次迭代中重新分配文檔。例如,主題分類模塊 702可以重復地執(zhí)行將文檔分配給聚類、更新主題重心和計算更新的重心和文檔之間的距 離的操作,直到主題文檔聚類收斂。例如,在當前的迭代中(例如在迭代η中),聚類模塊 722可以使用在先前的步驟中(例如在迭代η-1中)計算的距離來將文檔分配給主題。在 一個示例中,聚類模塊722可以使用下列公式將Xi重新分配給聚類Cn(Xi)(例如在第η個 步驟中Xi分配的聚類)<formula>formula see original document page 24</formula>
主題分類模塊702可以重復所述操作,直到重心的位置收斂。在一個示例中,如果滿足以下條件,則主題分類模塊702可以確定重心Yj的位置收斂<formula>formula see original document page 25</formula>其中L是正的實數(shù)。在另一個實現(xiàn)方式中,可以根據(jù)人工注釋,例如與主題識別相關(guān)的注釋或元數(shù)據(jù), 將文檔分配給初始聚類。在另一個實現(xiàn)方式中,可以使用主題關(guān)鍵詞列表來播種每個主題 聚類,以識別文檔和主題聚類。也可以使用其他聚類技術(shù)。在生成主題文檔聚類后,主題詞處理模塊704選擇文檔聚類中的候選主題詞。例 如,主題詞處理模塊704可以從每個主題文檔聚類中識別一個或多個非主題詞和新詞作為 候選主題詞。散度值模塊732確定主題中的詞的詞散度值。在一些實現(xiàn)方式中,主題詞分類模 塊704可以為所選擇的主題和主題詞確定主題詞散度值。例如,主題詞處理模塊704可以 從所選擇的主題的主題詞典中選擇主題詞。在某些實現(xiàn)方式中,散度值模塊732可以基于 在文檔語料庫710中和在屬于所選擇的主題的主題文檔聚類的文檔中的主題詞分布,確定 主題詞散度值。例如,主題詞散度值可以基本上與一比值成比例,該比值是在一個主題的主 題文檔中主題詞的概率分布與針對在文檔語料庫710中所有文檔該主題詞的概率分布的 比值。在一個示例中,可以通過下式來確定主題詞w的主題詞散度值Q <formula>formula see original document page 25</formula>其中Pd(w)是在文檔語料庫710中與主題d相關(guān)的文檔中所選擇的主題詞w的概 率,并且P(w)是在文檔語料庫710中的所有文檔中的所選擇主題詞的概率。閾值評估模塊734可以基于一個或多個主題詞散度值確定主題散度值。在一些實 現(xiàn)方式中,閾值評估模塊734可以基于主題詞散度值的集中趨勢確定主題散度值。例如,閾 值評估模塊734可以計算主題詞散度值的平均值,并且使用該平均值作為主題散度值。也 可以使用基于主題詞散度值的其他值。例如,閾值評估模塊734可以通過比較所確定的主 題詞散度值和選擇最大的主題詞散度值作為主題散度值,來確定主題散度值。在一些實現(xiàn)方式中,閾值評估模塊734可以調(diào)節(jié)(scale)主題散度值。例如,閾值 評估模塊734可以根據(jù)以下公式來調(diào)節(jié)主題散度值<formula>formula see original document page 25</formula>其中T是調(diào)節(jié)后的主題散度值,t是實數(shù),并且S是主題散度值。類似地,散度值模塊732可以確定候選主題詞的候選詞散度值。主題的候選主題 詞是現(xiàn)有詞或新詞,所述現(xiàn)有詞或新詞不是用于該主題的主題詞典中的主題詞。候選詞散 度值可以是基于在文檔語料庫710中和在屬于所選擇的主題的主題文檔聚類的文檔中候 選主題詞的概率分布。在一個示例中,可以通過下式來確定候選主題詞w。的候選主題詞散 度值R<formula>formula see original document page 25</formula>其中Pd(w。)是在文檔語料庫710中與主題d相關(guān)的文檔中候選主題詞w。的概率, 并且POO是在文檔語料庫710中的所有文檔中候選主題詞的概率。主題詞處理模塊704可以基于主題散度值和候選詞散度值來確定候選主題詞是否是主題詞。例如,可以將候選散度值與主題散度值進行比較,以確定候選主題詞是否是主 題詞。在實現(xiàn)方式中,如果R> S,即<formula>formula see original document page 26</formula>其中S是主題散度值,則閾值評估模塊734確定候選主題詞w。是主題詞??商娲?,可以將調(diào)節(jié)后的值T與候選詞散度值R進行比較,其中T = (l+t)*S。 在另一實現(xiàn)方式中,可以根據(jù)相應主題的特性(specificity)進一步調(diào)節(jié)T的值。例如,對 于非常一般的主題,例如“體育”主題,可以將T的值調(diào)節(jié)到比S小許多的幅度,從而使主題 詞的確定具有較強的包含性。相反,對于非常特定的主題,例如“小波數(shù)學”,可以將T的值 調(diào)節(jié)到與S基本相等或大于S的幅度,從而使主題詞的確定具有較弱的包含性。也可以使 用其他調(diào)節(jié)技術(shù)。如果確定候選主題詞是主題的主題詞,則詞典更新器模塊706更新該主題的主題 詞典708,使其包括候選主題詞。例如,如果閾值評估模塊734確定作為現(xiàn)有詞的候選主題 詞We是例如主題2的主題詞,則主題詞處理模塊704可以通知詞典更新器模塊706將候選 主題詞We存儲在主題2詞典中。類似地,如果閾值評估模塊734確定作為新詞的候選主題 詞Wn是例如主題n的主題詞,則主題詞處理模塊704可以通知詞典更新器模塊706將候選 主題詞Wn存儲在主題n詞典中。也可以使用與散度值相關(guān)的其它函數(shù)。例如,可以使用一對單調(diào)函數(shù)f(x)和g(x) 來確定散度值Q,例如,<formula>formula see original document page 26</formula>在上述示例實現(xiàn)方式中,f(x) =x并且g(x) = log(x)。然而,也可以使用其他的
單調(diào)函數(shù)。圖8是用于識別主題詞的示例過程800的流程圖??梢詫⑦^程800實現(xiàn)在包括實 現(xiàn)圖7A和7B的系統(tǒng)700的一個或多個計算機的系統(tǒng)中。在一些示例中,主題詞處理模塊 704可以從詞語料庫204中識別候選主題詞,并且使用過程800來確定候選主題詞是否是新 主題詞。過程800確定主題散度值(802)。例如,散度值模塊732可以基于所選擇的主題 的一個或多個主題詞散度值來確定主題的主題散度值。在一些實現(xiàn)方式中,主題散度值可 以基本上與一比值成比例,所述比值是在主題文檔語料庫中的第一主題詞分布(例如在主 題文檔語料庫中主題詞的分布)與在文檔語料庫中的第二主題詞分布(例如在文檔語料庫 710中主題詞的分布)的比值。主題文檔語料庫可以是與主題相關(guān)的主題文檔的語料庫,例 如在文檔語料庫710中的文檔的子集,并且文檔語料庫可以是包括主題文檔和其他文檔的 文檔的語料庫,例如文檔語料庫710。接下來,過程800確定候選主題詞的候選主題詞散度值(804)。在一些實現(xiàn)方式 中,候選主題詞散度值可以基本與一比值成比例,所述比值是在主題文檔語料庫中候選主 題詞的第一分布與在文檔語料庫中候選主題詞的第二分布的比值。例如,散度值模塊732 可以通過計算下式來確定候選主題詞散度R
<formula>formula see original document page 27</formula>
其中w。是候選主題詞,Pd(wc)是在主題文檔語料庫中候選主題詞w的概率,并且 P(wc)是在文檔語料庫710中候選主題詞的概率。在確定主題散度值和候選詞散度值之后,過程800確定候選主題詞散度值是否大 于主題散度值(806)。例如,主題詞處理模塊704可以將候選詞散度值與主題散度值進行比 較。如果候選主題詞散度值大于主題散度值,則過程800將候選主題詞識別為新主題 詞(808)。例如,如果候選主題詞散度值大于主題散度值,則主題詞處理模塊704可以確定 候選主題詞是新主題詞。如果候選主題詞散度值不大于主題散度值,則過程800不將候選主題詞識別為新 主題詞(810)。例如,如果候選主題詞散度值不大于主題散度值,則主題詞處理模塊704可 以確定候選主題詞不是新主題詞。圖9是用于確定主題詞散度值的示例過程900的流程圖??梢詫⑦^程900實現(xiàn)在 包括實現(xiàn)圖7A和7B的系統(tǒng)700的一個或多個計算機的系統(tǒng)中。在一些實現(xiàn)方式中,散度 值模塊732可以使用過程900來確定主題散度值。過程900選擇主題詞(902)。例如,散度值模塊732可以從主題714之一中選擇一 個或多個主題詞。接下來,過程900確定每個主題詞的主題詞散度值(904)。例如,每個主題詞散度 值基本上與一比值成比例,該比值是在主題文檔語料庫中每個主題詞的第一分布和在文檔 語料庫中每個主題詞的第二分布的比值。在一個示例中,散度值模塊732可以通過計算下 式來確定每個所選主題詞(w)的主題詞散度值<formula>formula see original document page 27</formula>其中Pd(w)是在主題d中所選擇的主題詞w的概率,并且P(w)是在文檔語料庫中 所選擇的主題詞的概率。在確定主題詞散度值之后,過程900基于主題詞散度值的集中趨勢確定主題散度 值(906)。例如,散度值模塊732可以通過確定主題詞散度值的平均值來確定主題散度值。圖10是示例文檔和詞聚類過程1000的流程圖??梢詫⑦^程1000實現(xiàn)在包括實 現(xiàn)圖7A和7B的系統(tǒng)700的一個或多個計算機的系統(tǒng)中。過程1000識別文檔語料庫中與主題相關(guān)的文檔(1002)。例如,主題分類模塊702 可以基于文檔的TF-IDF矢量和主題的重心矢量之間的距離,識別文檔語料庫710中與主題 714之一相關(guān)的文檔。在一個示例中,主題分類模塊702可以使用參考圖7B描述的迭代過 程來識別文檔。過程1000生成與主題相關(guān)的文檔聚類(1004)?;谒R別的在文檔和主題之間 的關(guān)系,主題分類模塊702可以通過將與主題相關(guān)的文檔包括在文檔聚類中,來生成每個 主題的文檔聚類。接下來,過程1000識別每個文檔聚類中的詞(1006)。例如,主題詞處理模塊704 可以使用主題詞典708和/或新詞數(shù)據(jù)存儲單元712來識別每個主題文檔聚類中的主題詞、非主題詞和/或新詞。過程1000從每個文檔聚類中的所識別的詞選擇候選主題詞(1008)。例如,主題詞 處理模塊704可以從文檔語料庫710中的所識別的主題文檔聚類選擇候選主題詞。圖11是用于識別主題詞的另一示例過程的流程圖。可以將過程1100實現(xiàn)在包括 實現(xiàn)圖7A和7B的系統(tǒng)700的一個或多個計算機的系統(tǒng)中。在一些實現(xiàn)方式中,主題分類 模塊704可以使用過程1100中的一些或所有操作來識別新主題詞。過程1100選擇包括與主題相關(guān)的主題詞的主題詞典(1102)。例如,主題分類模塊
704可以選擇與所選擇的主題(例如,主題1、主題2.....或主題η)相關(guān)的主題詞典708中
的一個。過程1100基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值(1104)。 例如,主題文檔語料庫可以包括屬于由主題分類模塊702生成的主題文檔聚類中的一個的 文檔。主題分類模塊704可以從所選擇的主題詞典中選擇主題詞。使用主題詞和主題詞在 文檔聚類和文檔語料庫中的主題詞分布,散度值模塊732可以確定主題詞散度值。例如,散 度值模塊732可以基于在所選擇的主題中所選擇的主題詞的概率、以及在文檔語料庫710 中所選擇的主題詞的概率來計算主題詞散度值。過程1100基于文檔語料庫和主題文檔語料庫來確定候選主題詞的候選主題詞散 度值(1106)。例如,散度值模塊732可以通過選擇候選主題詞并且基于在所選擇的主題中 所選擇的候選主題詞的概率、以及在文檔語料庫710中所選擇的候選主題詞的概率計算候 選主題詞散度值,來確定候選主題詞散度值。過程1100確定候選主題詞散度值是否大于主題詞散度值(1108)。例如,主題分類 模塊704可以將候選主題詞散度值與主題詞散度值進行比較。如果候選主題詞散度值大于主題詞散度值,則確定候選主題詞是新主題詞 (1110)。例如,如果主題詞處理模塊704確定候選主題詞散度值大于主題詞散度值,則候選 主題詞是新主題詞。如果候選主題詞散度值不大于主題詞散度值,則確定候選主題詞不是新主題詞 (1112)。例如,如果主題詞處理模塊704確定候選主題詞散度值不大于主題詞散度值,則候 選主題詞不是新主題詞。返回參考被系統(tǒng)200識別為新詞的三字符和四字符詞/短語,系統(tǒng)700可以將 每個詞識別為候選主題詞,并且如上所述確定散度值。在示例評估中,可以將詞“丁俊 暉,,(ding junhui)、“本賽季”(this season)、“世錦賽”(worldchampionship)、“季后 賽”(play off)、“范甘迪”(Van Cimdy)、和“國際足聯(lián)”(FIFA)分配給體育主題,以及將詞 “反傾銷”(anti dumping of low-priced)、“凈利潤”(net profit)、“證監(jiān)會”(SEC)、“國 資委”(china federal estatecommitter)、“美聯(lián)儲”(FED)和“非流通股”(Non-tradable shares)分配給金融主題。在本說明書中描述的主題和功能操作的實施例可以以數(shù)字電子電路、或計算機軟件、固件或硬件(包括在本說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)等價物)或它們中的一個或多個 的組合來實現(xiàn)。可以將在本說明書中描述的主題的實施例實現(xiàn)為一個或多個計算機程序產(chǎn) 品,即編碼在有形的程序載體上以供數(shù)據(jù)處理裝置執(zhí)行或控制數(shù)據(jù)處理裝置的操作的計算 機程序指令的一個或多個模塊。有形的程序載體可以是傳播信號或計算機可讀介質(zhì)。傳播信號是人工生成的信號,例如機器生成的電信號、光信號或電磁信號,其被生成以將信息編 碼為用于傳輸?shù)竭m合的接收器裝置以供計算機執(zhí)行。計算機可讀介質(zhì)可以是機器可讀存儲 設(shè)備、機器可讀存儲基片(storage substrate)、存儲器設(shè)備、影響機器可讀傳播信號的物 質(zhì)成分、或它們中的一個或多個的組合。術(shù)語“數(shù)據(jù)處理裝置”涵蓋用于處理數(shù)據(jù)的所有裝置、設(shè)備和機器,例如包括可編 程處理器、計算機、多個處理器或計算機。裝置除了硬件外還可以包括創(chuàng)建所討論的計算機 程序的執(zhí)行環(huán)境的代碼,例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或它們 中的一個或多個的組合的代碼。計算機程序(也稱為程序、軟件、軟件應用、腳本或代碼)可以以任何形式的編程 語言來編寫,包括編譯語言或解釋語言、或者聲明性語言或過程語言,并且其可以以任何形 式來部署,包括作為單機程序或作為模塊、組件、子例程或適合于在計算環(huán)境中使用的其它 單元。計算機程序不必對應于文件系統(tǒng)中的文件??梢詫⒊绦虼鎯υ趽碛衅渌绦蚧驍?shù)據(jù) 的文件的一部分中(例如存儲在標記語言文檔中的一個或多個腳本)、存儲在專用于所討 論的程序的單個文件中、或存儲在多個協(xié)作文件中(例如存儲一個或多個模塊、子程序或 代碼部分的文件)??梢詫⒂嬎銠C程序部署為在一個計算機或位于一個地點或跨多個地點 分布并且通過通信網(wǎng)絡(luò)互聯(lián)的多個計算機上執(zhí)行。在本說明書中描述的過程和邏輯流程可以由一個或多個可編程處理器來執(zhí)行,所 述可編程處理器執(zhí)行一個或多個計算機程序以通過對輸入數(shù)據(jù)進行操作并且生成輸出來 執(zhí)行功能。所述過程和邏輯流程也可以由專用邏輯電路來執(zhí)行,并且裝置也可以被實現(xiàn)為 專用邏輯電路,所述專用邏輯電路例如FPGA(現(xiàn)場可編程門陣列)或ASIC(專用集成電 路)。作為示例,適合于執(zhí)行計算機程序的處理器包括通用和專用微處理器兩者、以及 任何類型的數(shù)字計算機的任何一個或多個處理器。通常,處理器將從只讀存儲器或隨機存 取存儲器或它們兩者接收指令和數(shù)據(jù)。計算機的必要元件是用于執(zhí)行指令的處理器和用于 存儲指令和數(shù)據(jù)的一個或多個存儲器設(shè)備。通常,計算機也將包括一個或多個用于存儲數(shù) 據(jù)的大容量存儲設(shè)備,或者被可操作地耦接到一個或多個大容量存儲設(shè)備以從其接收數(shù)據(jù) 或者將向其傳送數(shù)據(jù),或者兩者均可,所述大容量存儲設(shè)備例如磁盤、磁光盤或光盤。然而, 計算機并非一定要具有這樣的設(shè)備。此外,計算機可被嵌入另一個設(shè)備中,所述另一個設(shè) 備例如移動電話、個人數(shù)字助理(PDA)、移動音頻或視頻播放器、游戲控制臺、全球定位系統(tǒng) (GPS)接收器,等等。適合于存儲計算機程序指令和數(shù)據(jù)的計算機可讀介質(zhì)包括所有形式的非易失性 存儲器、介質(zhì)和存儲設(shè)備,作為示例包括例如EPROM、EEPR0M和閃存設(shè)備的半導體存儲設(shè) 備;例如內(nèi)部硬盤或可移動盤的磁盤;磁光盤;以及CD-ROM和DVD-ROM盤。處理器和存儲 器可由專用邏輯電路補充或者并入專用邏輯電路。為了提供與用戶的交互,在本說明書中描述的主題的實施例可被實現(xiàn)在具有用于 向用戶顯示信息的顯示設(shè)備(例如,CRT (陰極射線管)或LCD (液晶顯示器)監(jiān)視器)和 用戶能夠通過其向計算機提供輸入的鍵盤和指示設(shè)備(例如,鼠標或軌跡球)的計算機上。 也可以使用其它種類的設(shè)備來提供與用戶的交互;例如,提供給用戶的反饋可以是任意形 式的感官反饋,例如視覺反饋、聽覺反饋或觸覺反饋;并且可以以包括聲音、語音或觸覺輸入的任意形式接收來自用戶的輸入。在本說明書中描述的主題的實施例能夠被實現(xiàn)在計算系統(tǒng)中,所述計算系統(tǒng)包括 后端組件,例如作為數(shù)據(jù)服務(wù)器;或包括中間件組件,例如應用服務(wù)器;或包括前端組件, 例如具有圖形用戶界面或網(wǎng)頁瀏覽器的客戶端計算機,用戶能夠通過所述圖形用戶界面或 網(wǎng)頁瀏覽器與在本說明書中描述的主題的實現(xiàn)方式進行交互;或者包括一個或多個這樣的 后端組件、中間件組件或前端組件的任意組合。所述系統(tǒng)的組件可以通過任意形式或介質(zhì) 的數(shù)字數(shù)據(jù)通信(例如,通信網(wǎng)絡(luò))進行互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“LAN”)和廣 域網(wǎng)(“WAN”),例如因特網(wǎng)。計算系統(tǒng)可包括客戶端和服務(wù)器。客戶端和服務(wù)器通常彼此遠離并且典型地通過 通信網(wǎng)絡(luò)進行交互。客戶端和服務(wù)器的關(guān)系借助于在各個計算機上運行并且彼此具有客戶 端_服務(wù)器關(guān)系的計算機程序而產(chǎn)生。盡管本說明書包含許多具體的實現(xiàn)方式細節(jié),但是這些不應當被解釋為對任何發(fā) 明的范圍或者可能主張的專利權(quán)利的范圍的限制,相反地,應被解釋為是對可能特定于具 體發(fā)明的具體實施例的特征的描述。在本說明書中,在不同實施例的上下文中描述的某些 特征也可在單個實施例中以組合的方式實現(xiàn)。相反地,在單個實施例的上下文中描述的各 種特征也可單獨地或以任何合適的子組合形式在多個實施例中實現(xiàn)。此外,盡管特征可能 在上面被描述為以某種組合形式起作用,甚至最初被主張為以某種組合形式起作用,但是 來自所主張的組合的一個或多個特征在一些情況下可從組合中去除,并且所主張的組合可 被指向子組合或子組合的變型。類似地,雖然操作在附圖中以特定的次序描述,但是這不應當被理解為必須以示 出的特定次序或以順序的次序來執(zhí)行這些操作,或者必須執(zhí)行所有圖示的操作,才能獲得 期望的結(jié)果。在某些情況中,多任務(wù)和并行處理可能是有益的。此外,在上面描述的實施例 中的各個系統(tǒng)組件的分割不應當被理解為在所有的實施例中必須是這樣的分割,并且應當 理解所描述的程序組件和系統(tǒng)通??梢员灰黄鸺稍趩蝹€軟件產(chǎn)品中或打包到多個軟件 產(chǎn)品中。已描述了在本說明書中描述的主題的特定實施例。其它實施例也在所附權(quán)利要求 書的范圍內(nèi)。例如,可以以不同的次序執(zhí)行在權(quán)利要求書中敘述的動作而仍然獲得期望的 結(jié)果。作為一個示例,在附圖中描述的過程并非必須要求示出的特定次序或者順序的次序 才能獲得期望的結(jié)果。在某些實現(xiàn)方式中,多任務(wù)和并行處理可能是有益的。
30
權(quán)利要求
一種計算機實現(xiàn)的方法,包括確定主題散度值,所述主題散度值基本上與在主題文檔語料庫中的第一主題詞分布和在文檔語料庫中的第二主題詞分布的比值成比例,其中所述主題文檔語料庫是與主題相關(guān)的主題文檔的語料庫,并且所述文檔語料庫是包括所述主題文檔和其他文檔的文檔的語料庫;確定候選主題詞的候選主題詞散度值,所述候選主題詞散度值基本上與在所述主題文檔語料庫中所述候選主題詞的第一分布和在所述文檔語料庫中所述候選主題詞的第二分布的比值成比例;以及基于所述候選主題詞散度值和所述主題散度值確定所述候選主題詞是否是新的主題詞。
2.根據(jù)權(quán)利要求1所述的方法,還包括選擇與所述主題相關(guān)的主題詞典中的現(xiàn)有詞作 為所述主題詞。
3.根據(jù)權(quán)利要求1所述的方法,其中確定主題散度值包括選擇主題詞;確定每個主題詞的主題詞散度值,每個主題詞散度值基本上與在所述主題文檔語料庫 中每個主題詞的第一分布和在所述文檔語料庫中每個主題詞的第二分布的比值成比例;以 及基于所述主題詞散度值的集中趨勢確定所述主題散度值。
4.根據(jù)權(quán)利要求1所述的方法,其中在所述主題文檔語料庫中所述候選主題詞的第一 分布與在所述主題文檔語料庫中所述候選主題詞的分布和基于所述分布的對數(shù)的值的比 值成比例。
5.根據(jù)權(quán)利要求1所述的方法,其中確定所述候選主題詞是否是新的主題詞包括如 果所述候選主題詞散度值大于所述主題散度值,則確定所述候選主題詞是新的主題詞。
6.根據(jù)權(quán)利要求1所述的方法,還包括如果確定所述候選主題詞是新的主題詞,則將 所述候選主題詞存儲在主題詞典中。
7.根據(jù)權(quán)利要求1所述的方法,還包括識別所述文檔語料庫中與主題相關(guān)的文檔;生成與所述主題相關(guān)的文檔聚類;識別每個所述文檔聚類中的詞;以及從在每個所述文檔聚類中的所識別的詞中選擇候選主題詞。
8.根據(jù)權(quán)利要求1所述的方法,還包括確定在訓練語料庫中現(xiàn)有詞和候選詞的第一詞頻率,所述候選詞由構(gòu)成詞的序列定 義,每個構(gòu)成詞是詞典中的現(xiàn)有詞,并且所述訓練語料庫包括所述文檔語料庫的第一子 集;確定在發(fā)展語料庫中所述構(gòu)成詞和所述候選詞的第二詞頻率,所述發(fā)展語料庫包括所 述文檔語料庫的第二子集;基于所述候選詞的第二詞頻率以及所述構(gòu)成詞和所述候選詞的第一詞頻率,確定候選 詞熵量度;基于所述構(gòu)成詞的第二詞頻率以及所述構(gòu)成詞和所述候選詞的第一詞頻率,確定現(xiàn)有詞熵量度;以及如果所述候選詞熵量度超過所述現(xiàn)有詞熵量度,則確定所述候選詞是候選主題詞。
9.根據(jù)權(quán)利要求8所述的方法,其中確定在訓練語料庫中現(xiàn)有詞和候選詞的第一詞頻率包括針對在所述訓練語料庫中現(xiàn) 有詞和候選詞的概率訓練語言模型;并且其中確定在發(fā)展語料庫中所述構(gòu)成詞和所述候選詞的第二詞頻率包括確定在發(fā)展語 料庫中所述構(gòu)成詞中的每一個和所述候選詞的詞計數(shù)值。
10.根據(jù)權(quán)利要求9所述的方法,其中基于所述候選詞的第二詞頻率以及所述構(gòu)成詞和所述候選詞的第一詞頻率確定候選 詞熵量度包括基于所述候選詞和所述構(gòu)成詞的概率確定第一對數(shù)值;和 基于所述候選詞的詞計數(shù)值和所述第一對數(shù)值確定候選詞熵量度;并且 基于所述構(gòu)成詞的第二詞頻率以及所述構(gòu)成詞和所述候選詞的第一詞頻率確定現(xiàn)有 詞熵量度包括基于所述候選詞和所述構(gòu)成詞的概率確定第二對數(shù)值;以及 基于所述構(gòu)成詞的詞計數(shù)和所述第二對數(shù)值確定現(xiàn)有詞熵量度。
11.根據(jù)權(quán)利要求1所述的方法,其中所述候選主題詞包括一個或多個漢字字符。
12.—種計算機實現(xiàn)的方法,包括選擇主題詞典,所述主題詞典包括與主題相關(guān)的主題詞;基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值,其中所述主題文檔語 料庫是與主題相關(guān)的主題文檔的語料庫,所述文檔語料庫是包括所述主題文檔和其他文檔 的文檔的語料庫,并且所述主題詞是與所述主題相關(guān)的詞;基于所述文檔語料庫和所述主題文檔語料庫,確定候選主題詞的候選主題詞散度值;以及基于所述候選主題詞散度值和所述主題詞散度值,確定所述候選主題詞是否是新的主 題詞。
13.根據(jù)權(quán)利要求12所述的方法,還包括如果確定所述候選主題詞是新的主題詞,則 將所述候選主題詞存儲在所述主題詞典中。
14.根據(jù)權(quán)利要求12所述的方法,其中確定主題詞散度值包括 選擇所述主題詞典中的現(xiàn)有主題詞;基于所述文檔語料庫和所述主題文檔語料庫,確定每個所述主題詞的現(xiàn)有主題詞散度 值;以及基于所述現(xiàn)有主題詞散度值的集中趨勢,確定所述主題詞散度值。
15.根據(jù)權(quán)利要求12所述的方法,其中,基于所述文檔語料庫和所述主題文檔語料庫 確定所述候選主題詞的候選主題詞散度值包括確定在所述主題文檔語料庫中與所述候選主題詞相關(guān)聯(lián)的第一概率; 確定在所述文檔語料庫中與所述候選主題詞相關(guān)聯(lián)的第二概率;和 基于所述第一概率與所述第二概率和基于所述第一概率的對數(shù)的值的乘積的比值,計 算所述候選主題詞散度值。
16.根據(jù)權(quán)利要求12所述的方法,其中所述候選主題詞包括一個或多個漢字字符。
17.—種包括存儲在計算機可讀介質(zhì)中的軟件的裝置,所述軟件包括計算機可讀指令, 所述計算機可讀指令可由計算機處理設(shè)備執(zhí)行,并且在被如此執(zhí)行時使得所述計算機處理 設(shè)備基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值,其中所述主題文檔語 料庫是與主題相關(guān)的主題文檔的語料庫,所述文檔語料庫是包括所述主題文檔和其他文檔 的文檔的語料庫,并且所述主題詞是在與所述主題相關(guān)的主題詞典中的詞;基于所述文檔語料庫和所述主題文檔語料庫,確定候選主題詞的候選主題詞散度值; 基于所述候選主題詞散度值和所述主題詞散度值,確定所述候選主題詞是否是主題 詞;以及如果確定所述候選主題詞是主題詞,則將所述候選主題詞存儲在主題詞典中。
18.一種系統(tǒng),包括數(shù)據(jù)存儲單元,其存儲主題詞典,所述主題詞典包括與主題相關(guān)的主題詞; 主題詞處理模塊,被配置為基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值,其中所述主題文檔語 料庫是與主題相關(guān)的主題文檔的語料庫,所述文檔語料庫是包括所述主題文檔和其他文檔 的文檔的語料庫,并且所述主題詞是在與所述主題相關(guān)的主題詞典中的詞; 選擇候選主題詞;基于所述文檔語料庫和所述主題文檔語料庫,確定所述候選主題詞的候選主題詞散度 值;以及基于所述候選主題詞散度值和所述主題詞散度值,確定所述候選主題詞是否是主題 詞;以及詞典更新器模塊,被配置為如果確定所述候選主題詞是主題詞,則將所述候選主題詞 存儲在所述主題詞典中。
19.根據(jù)權(quán)利要求18所述的系統(tǒng),其中所述主題詞處理模塊被配置為 確定在所述主題文檔語料庫中與所述候選主題詞相關(guān)聯(lián)的第一概率; 確定在所述文檔語料庫中與所述候選主題詞相關(guān)聯(lián)的第二概率;以及基于所述第一概率與所述第二概率和基于所述第一概率的對數(shù)值的乘積的比值,計算 所述候選主題詞散度值。
20.一種方法,包括確定主題文檔語料庫的散度閾值,所述散度閾值與在所述主題文檔語料庫中主題詞的 第一主題詞概率和在文檔語料庫中所述主題詞的第二主題詞概率的比值成比例,其中所述 主題文檔語料庫是與主題相關(guān)的主題文檔的語料庫,所述主題詞是在與所述主題相關(guān)的主 題詞典中的詞,并且所述文檔語料庫是包括所述主題文檔和其他文檔的文檔的語料庫;確定候選詞的候選詞散度值,所述候選詞散度值與所述候選詞關(guān)于所述主題文檔語料 庫的第一候選詞概率和所述候選詞關(guān)于所述文檔語料庫的第二候選詞概率的比值成比例; 以及如果所述候選詞散度值超過所述散度閾值,則確定所述候選詞是主題詞。
21.—種系統(tǒng),包括用于確定主題散度值的裝置,所述主題散度值基本上與在主題文檔語料庫中的第一主 題詞分布和在文檔語料庫中的第二主題詞分布的比值成比例,其中所述主題文檔語料庫是 與主題相關(guān)的主題文檔的語料庫,并且所述文檔語料庫是包括所述主題文檔和其他文檔的 文檔的語料庫;用于確定候選主題詞的候選主題詞散度值的裝置,所述候選主題詞散度值基本上與在 所述主題文檔語料庫中所述候選主題詞的第一分布和在所述文檔語料庫中所述候選主題 詞的第二分布的比值成比例;以及用于基于所述候選主題詞散度值和所述主題散度值確定所述候選主題詞是否是新的 主題詞的裝置。
22.—種系統(tǒng),包括用于選擇主題詞典的裝置,所述主題詞典包括與主題相關(guān)的主題詞;用于基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值的裝置,其中所述 主題文檔語料庫是與主題相關(guān)的主題文檔的語料庫,所述文檔語料庫是包括所述主題文檔 和其他文檔的文檔的語料庫,并且所述主題詞是與所述主題相關(guān)的詞;用于基于所述文檔語料庫和所述主題文檔語料庫確定候選主題詞的候選主題詞散度 值的裝置;以及用于基于所述候選主題詞散度值和所述主題詞散度值確定所述候選主題詞是否是新 的主題詞的裝置。
23.一種計算機處理設(shè)備,包括用于基于主題詞、文檔語料庫和主題文檔語料庫確定主題詞散度值的裝置,其中所述 主題文檔語料庫是與主題相關(guān)的主題文檔的語料庫,所述文檔語料庫是包括所述主題文檔 和其他文檔的文檔的語料庫,并且所述主題詞是在與所述主題相關(guān)的主題詞典中的詞;用于基于所述文檔語料庫和所述主題文檔語料庫確定候選主題詞的候選主題詞散度 值的裝置;用于基于所述候選主題詞散度值和所述主題詞散度值確定所述候選主題詞是否是主 題詞的裝置;以及用于如果確定所述候選主題詞是主題詞則將所述候選主題詞存儲在主題詞典中的裝置。
24.一種系統(tǒng),包括用于確定主題文檔語料庫的散度閾值的裝置,所述散度閾值與在所述主題文檔語料庫 中主題詞的第一主題詞概率和在文檔語料庫中所述主題詞的第二主題詞概率的比值成比 例,其中所述主題文檔語料庫是與主題相關(guān)的主題文檔的語料庫,所述主題詞是在與所述 主題相關(guān)的主題詞典中的詞,并且所述文檔語料庫是包括所述主題文檔和其他文檔的文檔 的語料庫;用于確定候選詞的候選詞散度值的裝置,所述候選詞散度值與所述候選詞關(guān)于所述主 題文檔語料庫的第一候選詞概率和所述候選詞關(guān)于所述文檔語料庫的第二候選詞概率的 比值成比例;以及用于如果所述候選詞散度值超過所述散度閾值則確定所述候選詞是主題詞的裝置。
25.一種計算機實現(xiàn)的方法,包括確定在訓練語料庫中現(xiàn)有詞和候選詞的第一詞頻率,所述候選詞由構(gòu)成詞的序列定 義,每個構(gòu)成詞是詞典中的現(xiàn)有詞;確定在發(fā)展語料庫中所述構(gòu)成詞和所述候選詞的第二詞頻率; 基于所述候選詞的所述第二詞頻率以及所述構(gòu)成詞和所述候選詞的所述第一詞頻率, 確定候選詞熵相關(guān)量度;基于所述構(gòu)成詞的所述第二詞頻率以及所述構(gòu)成詞和所述候選詞的所述第一詞頻率, 確定現(xiàn)有詞熵相關(guān)量度;以及如果所述候選詞熵相關(guān)量度超過所述現(xiàn)有詞熵相關(guān)量度,則確定所述候選詞是新詞。
26.根據(jù)權(quán)利要求25所述的方法,其中所述訓練語料庫和所述發(fā)展語料庫包括網(wǎng)絡(luò)文檔。
27.根據(jù)權(quán)利要求25所述的方法,還包括如果確定所述候選詞是新詞,則將所述候選 詞添加到現(xiàn)有詞的詞典中。
28.根據(jù)權(quán)利要求25所述的方法,其中確定第一詞頻率包括針對在所述訓練語料庫中現(xiàn)有詞和候選詞的概率訓練語言模 型;并且其中確定第二詞頻率包括確定在所述發(fā)展語料庫中每個所述構(gòu)成詞和所述候選詞的 詞計數(shù)值。
29.根據(jù)權(quán)利要求25所述的方法,其中 確定候選詞熵相關(guān)量度包括基于所述候選詞和所述構(gòu)成詞的概率確定第一對數(shù)值;基于所述候選詞的詞計數(shù)值和所述第一對數(shù)值確定所述候選詞熵相關(guān)量度;以及 確定現(xiàn)有詞熵相關(guān)量度包括基于所述候選詞和所述構(gòu)成詞的概率確定第二對數(shù)值;以及 基于所述構(gòu)成詞的詞計數(shù)和所述第二對數(shù)值確定所述現(xiàn)有詞熵相關(guān)量度。
30.根據(jù)權(quán)利要求25所述的方法,其中所述詞每一個包括一個或多個漢字字符。
31.根據(jù)權(quán)利要求25所述的方法,其中所述詞每一個包括一個或多個詞符字符。
32.根據(jù)權(quán)利要求25所述的方法,還包括如果確定所述候選詞是新詞,則利用所述候選詞更新所述詞典。
33.一種計算機實現(xiàn)的方法,包括確定在第一語料庫中現(xiàn)有詞和候選詞的第一詞概率,所述候選詞由構(gòu)成詞的序列定 義,每個構(gòu)成詞是詞典中的現(xiàn)有詞;確定在第二語料庫中所述構(gòu)成詞和所述候選詞的第二詞概率; 基于所述第二候選詞概率以及所述候選詞和所述構(gòu)成詞的所述第一詞概率,確定第一 熵相關(guān)值;基于所述第二構(gòu)成詞概率以及所述候選詞和所述構(gòu)成詞的所述第一詞概率,確定第二 熵相關(guān)值;以及如果所述第一熵相關(guān)值超過所述第二熵相關(guān)值,則確定所述候選詞是新詞。
34.根據(jù)權(quán)利要求33所述的方法,其中識別詞語料庫包括識別網(wǎng)絡(luò)文檔。
35.根據(jù)權(quán)利要求33所述的方法,其中確定第一詞概率包括在第一語料庫上針對在所述第一語料庫中現(xiàn)有詞和候選詞的詞 概率訓練語言模型;以及確定第二詞概率包括確定每個所述構(gòu)成詞和所述候選詞的詞計數(shù)值。
36.根據(jù)權(quán)利要求35所述的方法,其中 確定第一熵相關(guān)值包括基于所述候選詞和所述構(gòu)成詞的所述第一詞概率確定第一對數(shù)值; 基于所述候選詞的詞計數(shù)值和所述第一對數(shù)值確定所述第一熵相關(guān)值;以及 確定第二熵相關(guān)值包括基于所述候選詞和所述構(gòu)成詞的所述第一詞概率確定第二對數(shù)值;以及 基于所述構(gòu)成詞的詞計數(shù)和所述第二對數(shù)值確定所述第二熵相關(guān)值。
37.根據(jù)權(quán)利要求33所述的方法,其中所述詞每一個包括一個或多個漢字字符。
38.一種計算機實現(xiàn)的方法,包括將網(wǎng)絡(luò)文檔的集合劃分成訓練語料庫和發(fā)展語料庫;在訓練語料庫上針對在所述訓練語料庫中的詞的第一詞概率訓練語言模型,其中所述 訓練語料庫中的詞包括由所述訓練語料庫中的兩個或更多個相應詞的序列定義的候選詞, 所述兩個或更多個相應詞是詞典中的現(xiàn)有詞;對在所述發(fā)展語料庫中所述候選詞和所述兩個或更多個相應詞的出現(xiàn)次數(shù)計數(shù); 基于在所述發(fā)展語料庫中所述候選詞的出現(xiàn)次數(shù)和所述第一詞概率確定第一值; 基于在所述發(fā)展語料庫中所述兩個或更多個相應詞的出現(xiàn)次數(shù)和所述第一詞概率確 定第二值;將所述第一值與所述第二值進行比較;以及 基于所述比較確定所述候選詞是否是新詞。
39.根據(jù)權(quán)利要求38所述的方法,還包括如果確定所述候選詞是新詞,則將所述候選 詞添加到所述詞典中。
40.根據(jù)權(quán)利要求38所述的方法,其中在所述訓練語料庫上針對在所述訓練語料庫中 的詞的第一詞概率訓練語言模型包括訓練n元語言模型。
41.根據(jù)權(quán)利要求40所述的方法,其中基于在所述發(fā)展語料庫中所述候選詞的出現(xiàn)次數(shù)和所述第一詞概率確定第一值包括基于所述候選詞的第一詞概率和所述兩個或更多個相應詞的第一詞概率確定第一對 數(shù)值;以及將所述第一對數(shù)值乘以所計數(shù)的所述候選詞的出現(xiàn)次數(shù);以及 其中基于在所述發(fā)展語料庫中所述兩個或更多個相應詞的出現(xiàn)次數(shù)和所述第一詞概 率確定第二值包括基于所述候選詞的第一詞概率和所述兩個或更多個相應詞的第一詞概率確定第二對 數(shù)值;以及將所述第二對數(shù)值乘以所計數(shù)的所述兩個或更多個相應詞的出現(xiàn)次數(shù)。
42.根據(jù)權(quán)利要求41所述的方法,其中所述詞每一個包括一個或多個漢字字符。
43.一種系統(tǒng),包括詞處理模塊,所述詞處理模塊包括存儲在計算機可讀介質(zhì)中的計算機指令,并且所述 計算機指令被配置為在被計算機設(shè)備執(zhí)行時訪問詞語料庫并且將所述詞語料庫劃分為訓 練語料庫和發(fā)展語料庫,并且生成存儲在所述訓練語料庫中的詞的第一詞概率,所述詞包括候選詞,該候選詞包括兩個 或更多個相應詞;在所述發(fā)展語料庫中所述詞的第二詞概率;新詞分析器模塊,所述新詞分析器模塊包括存儲在計算機可讀介質(zhì)中的計算機指令, 并且所述計算機指令被配置為在被計算機設(shè)備執(zhí)行時處理所述第一和第二詞概率,并且基于所述候選詞和所述兩個或更多個相應詞的所述第一詞概率以及所述候選詞的所 述第二詞概率,生成第一值;以及基于所述候選詞和所述兩個或更多個相應詞的所述第一詞概率以及所述兩個或更多 個相應詞的所述第二詞概率,生成第二值;并且還被配置為將所述第一值與所述第二值進行比較,以及基于所述比較確定所述 候選詞是否是新詞。
44.根據(jù)權(quán)利要求43所述的系統(tǒng),還包括詞典更新器模塊,所述詞典更新器模塊包括 存儲在計算機可讀介質(zhì)中的計算機指令,所述計算機指令被配置為在被計算機設(shè)備執(zhí)行時 利用所識別的新詞更新詞典。
45.根據(jù)權(quán)利要求43所述的系統(tǒng),其中所述詞處理模塊包括n元語言模型。
46.根據(jù)權(quán)利要求43所述的系統(tǒng),其中所述第一和第二值是熵相關(guān)值。
47.根據(jù)權(quán)利要求44所述的系統(tǒng),其中所述詞語料庫包括網(wǎng)絡(luò)文檔。
48.根據(jù)權(quán)利要求43所述的系統(tǒng),其中所述詞處理模塊包括漢字字符處理模塊。
49.根據(jù)權(quán)利要求48所述的系統(tǒng),其中每個詞包括一個或多個漢字字符。
50.一種裝置,所述裝置包括存儲在計算機可讀介質(zhì)中的軟件,所述軟件包括可由計算 機處理設(shè)備執(zhí)行的計算機可讀指令,并且所述計算機可讀指令在被如此執(zhí)行時使得所述計 算機處理設(shè)備確定在訓練語料庫中現(xiàn)有詞和候選詞的第一詞頻率,所述候選詞由構(gòu)成詞的序列定 義,每個構(gòu)成詞是現(xiàn)有詞,并且每個現(xiàn)有是在詞典中存在的詞; 確定在發(fā)展語料庫中所述構(gòu)成詞和所述候選詞的第二詞頻率; 基于所述候選詞的所述第二詞頻率以及所述構(gòu)成詞和所述候選詞的所述第一詞頻率, 確定候選詞熵相關(guān)量度;基于所述構(gòu)成詞的所述第二詞頻率以及所述構(gòu)成詞和所述候選詞的所述第一詞頻率, 確定現(xiàn)有詞熵相關(guān)量度;以及如果所述候選詞熵相關(guān)量度超過所述現(xiàn)有詞熵相關(guān)量度,則確定所述候選詞是新詞。
51.一種系統(tǒng),包括用于確定在第一語料庫中現(xiàn)有詞和候選詞的第一詞概率的裝置,所述候選詞由構(gòu)成詞 的序列定義,每個構(gòu)成詞是現(xiàn)有詞,并且每個現(xiàn)有詞是在詞典中存在的詞; 用于確定在第二語料庫中所述構(gòu)成詞和所述候選詞的第二詞概率的裝置; 用于基于所述候選詞的所述第二詞概率以及所述候選詞和所述構(gòu)成詞的所述第一詞 概率確定第一熵相關(guān)值的裝置;用于基于所述構(gòu)成詞的所述第二詞概率以及所述候選詞和所述構(gòu)成詞的所述第一詞 概率確定第二熵相關(guān)值的裝置;以及用于基于在所述第一熵相關(guān)值與所述第二熵相關(guān)值之間的比較確定所述候選詞是否 是新詞的裝置。
52. 一種系統(tǒng),包括詞處理裝置,所述詞處理裝置被配置為訪問詞語料庫并且將所述詞語料庫劃分為訓練 語料庫和發(fā)展語料庫,并且生成存儲在所述訓練語料庫中的詞的第一詞概率,所述詞包括候選詞,所述候選詞包括兩 個或更多個相應詞;在所述發(fā)展語料庫中所述詞的第二詞概率;新詞分析器裝置,所述新詞分析器裝置被配置為接收所述第一和第二詞概率,并且 基于所述候選詞和所述兩個或更多個相應詞的所述第一詞概率以及所述候選詞的所 述第二詞概率,生成第一值;以及基于所述候選詞和所述兩個或更多個相應詞的所述第一詞概率以及所述兩個或更多 個相應詞的所述第二詞概率,生成第二值;并且還被配置為將所述第一值與所述第二值進行比較,以及基于所述比較確定所述 候選詞是否是新詞。
全文摘要
公開了用于在包括與主題相關(guān)的主題文檔的文檔語料庫中識別主題詞的方法、系統(tǒng)和裝置,包括計算機程序產(chǎn)品?;谖臋n語料庫和主題文檔語料庫確定基準主題詞散度值?;谖臋n語料庫和主題文檔語料庫確定候選主題詞的候選主題詞散度值。如果候選主題詞散度值大于基準主題詞散度值,則確定候選主題詞是主題詞。
文檔編號G06F17/30GK101836205SQ200880112723
公開日2010年9月15日 申請日期2008年8月25日 優(yōu)先權(quán)日2007年8月23日
發(fā)明者吳軍, 唐溪柳, 張蕾, 楊波, 洪鋒, 王詠剛 申請人:谷歌股份有限公司