從文檔中提取關(guān)鍵詞的方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域。更具體地講,涉及一種從文檔中提取關(guān)鍵詞的方法和 設(shè)備。
【背景技術(shù)】
[0002] 隨著信息技術(shù)的發(fā)展,數(shù)字化的信息正以驚人的速度增長。人們每天要面對大量 的數(shù)字化信息來進(jìn)行閱讀。為了節(jié)省時間和提高工作效率,原始的數(shù)字信息的各種簡潔表 示(例如,摘要、關(guān)鍵詞等形式)應(yīng)運而生。
[0003] 人們可以通過這些簡潔表示來快速了解原始信息的大致內(nèi)容,而不需要通讀全 文。通常,形成這些簡潔表示的基本元素是從原始信息提取的關(guān)鍵詞。另外,提取關(guān)鍵詞在 信息技術(shù)領(lǐng)域也存在廣泛地應(yīng)用,例如,信息檢索等。目前,除了形式規(guī)范的科技文檔提供 了關(guān)鍵詞外,大部分文檔都沒有配有關(guān)鍵詞。傳統(tǒng)依靠人工去閱讀文本,然后抽取關(guān)鍵詞的 方法在文檔數(shù)量劇增的今天越來越不能滿足實際應(yīng)用的需求。因此,如何自動提取關(guān)鍵詞 是當(dāng)前急需解決的一個問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種能夠自動從文檔中提取關(guān)鍵詞的方法和設(shè)備。
[0005] 本發(fā)明的一方面提供一種從文檔中提取關(guān)鍵詞的方法,包括:接收預(yù)定命令;響 應(yīng)于預(yù)定命令,對所述文檔進(jìn)行分詞以從所述文檔中提取至少一個候選關(guān)鍵詞;檢測每個 候選關(guān)鍵詞的重要度值;提取具有大于預(yù)定閾值的重要度值的候選關(guān)鍵詞。
[0006] 可選地,所述預(yù)定命令是多次定向滑動屏幕。
[0007] 可選地,對所述文檔進(jìn)行分詞以從所述文檔中提取至少一個候選關(guān)鍵詞的步驟包 括:對所述文檔進(jìn)行分詞,以獲得多個詞匯;檢測獲得的詞匯的詞性;根據(jù)檢測的詞性從所 述多個詞匯之中選擇實詞作為候選關(guān)鍵詞。
[0008] 可選地,所述方法還包括:突出顯示提取的關(guān)鍵詞;接收對突出顯示的關(guān)鍵詞的 選擇;將選擇的關(guān)鍵詞添加到輸入法詞庫。
[0009] 可選地,所述的方法還包括:基于提取的具有大于預(yù)定閾值的重要度值的候選關(guān) 鍵詞形成所述文檔的摘要。
[0010] 可選地,檢測每個候選關(guān)鍵詞的重要度值的步驟包括:通過如下公式檢測每個候 選關(guān)鍵詞的重要度值:
[0011] IM=tfXdf,
【主權(quán)項】
1. 一種從文檔中提取關(guān)鍵詞的方法,包括: 接收預(yù)定命令; 響應(yīng)于預(yù)定命令,對所述文檔進(jìn)行分詞以從所述文檔中提取至少一個候選關(guān)鍵詞; 檢測每個候選關(guān)鍵詞的重要度值; 提取具有大于預(yù)定閾值的重要度值的候選關(guān)鍵詞作為關(guān)鍵詞。
2. 根據(jù)權(quán)利要求1所述的方法,其中,所述預(yù)定命令是多次定向滑動屏幕。
3. 根據(jù)權(quán)利要求1所述的方法,其中,對所述文檔進(jìn)行分詞以從所述文檔中提取至少 一個候選關(guān)鍵詞的步驟包括: 對所述文檔進(jìn)行分詞,以獲得多個詞匯; 檢測獲得的詞匯的詞性; 根據(jù)檢測的詞性從所述多個詞匯之中選擇實詞作為候選關(guān)鍵詞。
4. 根據(jù)權(quán)利要求1所述的方法,還包括: 突出顯示提取的關(guān)鍵詞; 接收對突出顯示的關(guān)鍵詞的選擇; 將選擇的關(guān)鍵詞添加到輸入法詞庫。
5. 根據(jù)權(quán)利要求1所述的方法,還包括: 基于提取的關(guān)鍵詞形成所述文檔的摘要。
6. 根據(jù)權(quán)利要求1所述的方法,其中,檢測每個候選關(guān)鍵詞的重要度值的步驟包括:通 過如下公式檢測每個候選關(guān)鍵詞的重要度值: IM=tfXdf,
其中,IM為候選關(guān)鍵詞的重要度值,num為所述候選關(guān)鍵詞在所述文檔中出現(xiàn)的次數(shù), m為所述文檔中除了所述候選關(guān)鍵詞之外的其他候選關(guān)鍵詞的數(shù)量,onumk表示第k個其他 候選關(guān)鍵詞在所述文檔中出現(xiàn)的次數(shù),D為一個預(yù)定的文檔集合中包含的所有文檔的數(shù)量, d為所述文檔集合之中的具有所述候選關(guān)鍵詞的文檔的數(shù)量。
7. 根據(jù)權(quán)利要求1所述的方法,其中,檢測每個候選關(guān)鍵詞的重要度值的步驟包括:通 過如下公式檢測每個候選關(guān)鍵詞的重要度值:
其中,C(w, tn+1)表示候選關(guān)鍵詞在時刻tn+1的重要度值,Mimi表示候選關(guān)鍵詞在歷史 時刻與歷史時刻&之間用戶訪問的文檔中出現(xiàn)的頻次,λ為預(yù)定常數(shù),n為大于〇的 整數(shù)。
8. 根據(jù)權(quán)利要求1所述的方法,其中,時刻k與時刻V1之間的時間段的長度小于時 刻V1與時刻t m_2之間的時間段的長度,其中,η為大于1的整數(shù),m為小于等于η并且大于 1的整數(shù)。
9. 一種從文檔中提取關(guān)鍵詞的設(shè)備,包括: 接收單元,接收預(yù)定命令; 關(guān)鍵詞提取單元,響應(yīng)于預(yù)定命令,對所述文檔進(jìn)行分詞以從所述文檔中提取至少一 個候選關(guān)鍵詞; 重要度檢測單元,檢測每個候選關(guān)鍵詞的重要度值; 選擇單元,提取具有大于預(yù)定閾值的重要度值的候選關(guān)鍵詞。
10. 根據(jù)權(quán)利要求9所述的設(shè)備,其中,所述預(yù)定命令是多次定向滑動屏幕。
11. 根據(jù)權(quán)利要求9所述的設(shè)備,其中,關(guān)鍵詞提取單元包括: 分詞單元,對所述文檔進(jìn)行分詞,以獲得多個詞匯; 詞性檢測單元,檢測獲得的詞匯的詞性; 實詞選擇單元,根據(jù)檢測的詞性從所述多個詞匯之中選擇實詞作為候選關(guān)鍵詞。
12. 根據(jù)權(quán)利要求9所述的設(shè)備,還包括: 突出顯示單元,突出顯示提取的關(guān)鍵詞; 關(guān)鍵詞選擇單元,接收對突出顯示的關(guān)鍵詞的選擇; 添加單元,將選擇的關(guān)鍵詞添加到輸入法詞庫。
13. 根據(jù)權(quán)利要求9所述的設(shè)備,還包括: 摘要形成單元,基于提取的關(guān)鍵詞形成所述文檔的摘要。
14. 根據(jù)權(quán)利要求9所述的設(shè)備,其中,重要度檢測單元通過如下公式檢測每個候選關(guān) 鍵詞的重要度值: IM=tfXdf,
其中,IM為候選關(guān)鍵詞的重要度值,num為所述候選關(guān)鍵詞在所述文檔中出現(xiàn)的次數(shù), m為所述文檔中除了所述候選關(guān)鍵詞之外的其他候選關(guān)鍵詞的數(shù)量,onumk表示第k個其他 候選關(guān)鍵詞在所述文檔中出現(xiàn)的次數(shù),D為一個預(yù)定的文檔集合中包含的所有文檔的數(shù)量, d為所述文檔集合之中的具有所述候選關(guān)鍵詞的文檔的數(shù)量。
15. 根據(jù)權(quán)利要求9所述的設(shè)備,其中,重要度檢測單元通過如下公式檢測每個候選關(guān) 鍵詞的重要度值:
其中,C(w, tn+1)表示候選關(guān)鍵詞在時刻tn+1的重要度值,Mimi表示候選關(guān)鍵詞在歷史 時刻與歷史時刻&之間用戶訪問的文檔中出現(xiàn)的頻次,λ為預(yù)定常數(shù),n為大于〇的 整數(shù)。
16.根據(jù)權(quán)利要求15所述的設(shè)備,其中,時刻tm與時刻V1之間的時間段的長度小于 時刻V1與時刻tm_2之間的時間段的長度,其中,η為大于1的整數(shù),m為小于等于η并且大 于1的整數(shù)。
【專利摘要】一種從文檔中提取關(guān)鍵詞的方法和設(shè)備。所示方法包括:接收預(yù)定命令;響應(yīng)于預(yù)定命令,對所述文檔進(jìn)行分詞以從所述文檔中提取至少一個候選關(guān)鍵詞;檢測每個候選關(guān)鍵詞的重要度值;提取具有大于預(yù)定閾值的重要度值的候選關(guān)鍵詞。根據(jù)本發(fā)明的方法和設(shè)備,可以從文檔中自動提取出關(guān)鍵詞。
【IPC分類】G06F17-30
【公開號】CN104679768
【申請?zhí)枴緾N201310627998
【發(fā)明人】吳先超
【申請人】百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開日】2015年6月3日
【申請日】2013年11月29日