两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種建立關(guān)鍵詞詞庫的方法和裝置制造方法

文檔序號:6626977閱讀:456來源:國知局
一種建立關(guān)鍵詞詞庫的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種建立關(guān)鍵詞詞庫的方法及裝置,對項目信息進(jìn)行解析,獲取項目關(guān)鍵詞;計算出項目關(guān)鍵詞之間的語義相似度;根據(jù)項目關(guān)鍵詞及語義相似度生成關(guān)鍵詞詞庫,并且,當(dāng)項目信息變化時,在線更新關(guān)鍵詞庫。本發(fā)明的建立關(guān)鍵詞詞庫的方法和裝置,對項目數(shù)據(jù)自動篩選分詞并獲取項目關(guān)鍵詞,能有效提取反應(yīng)項目性質(zhì)的關(guān)鍵詞,剔除冗余詞組,快速建立關(guān)鍵詞庫,并且在項目數(shù)據(jù)發(fā)生變化時能做到動態(tài)更新。
【專利說明】一種建立關(guān)鍵詞詞庫的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)管理【技術(shù)領(lǐng)域】,尤其涉及一種建立關(guān)鍵詞詞庫的方法和裝置。

【背景技術(shù)】
[0002] 項目評審或咨詢在科研活動中發(fā)揮著不可替代的作用,如何選擇合適的專家及有 關(guān)專業(yè)技術(shù)人員將直接影響到相關(guān)工作的質(zhì)量,正確選擇專家對于保證評審結(jié)果的公正、 準(zhǔn)確、合理是至關(guān)重要的,在項目評審或咨詢中需要對科技項目進(jìn)行量化分析。目前,對專 家專業(yè)領(lǐng)域、科技項目進(jìn)行學(xué)科分類和領(lǐng)域分類,需要對科技項目進(jìn)行量化分析,其中的一 個基礎(chǔ)工作時建立項目關(guān)鍵詞庫。要收集大量的行業(yè)術(shù)語,以往的詞庫構(gòu)建往往基于大量 語料庫并利用傳統(tǒng)的中文分詞程序分詞,由于行業(yè)關(guān)鍵詞具有很強(qiáng)的專業(yè)性,僅僅依賴普 通的分詞方法很難準(zhǔn)確識別專業(yè)術(shù)語,當(dāng)新的術(shù)語出現(xiàn)時也做不到及時動態(tài)更新。


【發(fā)明內(nèi)容】

[0003] 有鑒于此,本發(fā)明要解決的一個技術(shù)問題是提供一種建立關(guān)鍵詞詞庫的方法,對 項目數(shù)據(jù)分詞并獲取項目關(guān)鍵詞。
[0004] 一種建立關(guān)鍵詞詞庫的方法,包括:對項目信息進(jìn)行解析,獲取項目關(guān)鍵詞;計算 出所述項目關(guān)鍵詞之間的語義相似度;根據(jù)所述項目關(guān)鍵詞及所述語義相似度生成關(guān)鍵詞 詞庫,并且,當(dāng)項目信息變化時,在線更新關(guān)鍵詞庫。
[0005] 根據(jù)本發(fā)明的一個實施例,進(jìn)一步的,統(tǒng)計關(guān)鍵詞,得到n個關(guān)鍵詞W1, W2, ...,Wn ; 統(tǒng)計每兩個關(guān)鍵詞在所有記錄里面同時出現(xiàn)的次數(shù),構(gòu)成關(guān)鍵詞關(guān)聯(lián)矩陣:
[0006]

【權(quán)利要求】
1. 一種建立關(guān)鍵詞詞庫的方法,其特征在于,包括: 對項目信息進(jìn)行解析,獲取項目關(guān)鍵詞; 計算出所述項目關(guān)鍵詞之間的語義相似度; 根據(jù)所述項目關(guān)鍵詞及所述語義相似度生成關(guān)鍵詞詞庫,并且,當(dāng)項目信息變化時,在 線更新關(guān)鍵詞庫。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于: 統(tǒng)計關(guān)鍵詞,得到η個關(guān)鍵詞W1, W2, ...,Wn ; 統(tǒng)計每兩個關(guān)鍵詞在所有記錄里面同時出現(xiàn)的次數(shù),構(gòu)成關(guān)鍵詞關(guān)聯(lián)矩陣:
其中,為關(guān)鍵詞Wi和Wj在所有記錄中同時出現(xiàn)的次數(shù),而為關(guān)鍵詞Wi是自己 對自己的關(guān)聯(lián)且I^i = O ;關(guān)聯(lián)矩陣M是主對角線全為O的稀疏對稱矩陣; 關(guān)鍵詞Wi和Wj的語義相似度反映為關(guān)鍵詞Wi出現(xiàn)時,關(guān)鍵詞W j出現(xiàn)的可能性,為條件 概率; 項目關(guān)鍵詞之間的語義相似度
3. 如權(quán)利要求2所述的方法,其特征在于: 根據(jù)預(yù)設(shè)的關(guān)鍵詞分詞規(guī)則對項目信息解析,獲取項目關(guān)鍵詞;所述項目信息包括: 項目名稱、項目說明。
4. 如權(quán)利要求2所述的方法,其特征在于: 根據(jù)自定義字典對項目信息分詞,自動篩選分詞并獲取關(guān)鍵詞,并將關(guān)鍵詞與電力行 業(yè)專業(yè)詞匯合并、整理,剔除冗余詞組生成所述項目關(guān)鍵詞。
5. -種建立關(guān)鍵詞詞庫的裝置,其特征在于,包括: 關(guān)鍵詞提取單元,用于對項目信息進(jìn)行解析,獲取項目關(guān)鍵詞; 相似度計算單元,用于計算出所述項目關(guān)鍵詞之間的語義相似度; 詞庫生成單元,用于根據(jù)所述項目關(guān)鍵詞及所述語義相似度生成關(guān)鍵詞詞庫,并且,當(dāng) 項目信息變化時,在線更新關(guān)鍵詞庫。
6. 根據(jù)權(quán)利要求5所述的裝置,其特征在于: 所述相似度計算單元統(tǒng)計關(guān)鍵詞,得到η個關(guān)鍵詞W1, W2, ...,Wn ; 所述相似度計算單元統(tǒng)計每兩個關(guān)鍵詞在所有記錄里面同時出現(xiàn)的次數(shù),構(gòu)成關(guān)鍵詞 關(guān)聯(lián)矩陣:
其中,為關(guān)鍵詞Wi和Wj在所有記錄中同時出現(xiàn)的次數(shù),而Hiu為關(guān)鍵詞Wi是自己 對自己的關(guān)聯(lián)且I^i = 0。關(guān)聯(lián)矩陣M是主對角線全為O的稀疏對稱矩陣;關(guān)鍵詞Wi和Wj 的語義相似度反映為關(guān)鍵詞Wi出現(xiàn)時,關(guān)鍵詞Wj出現(xiàn)的可能性,為條件概率; 所述相似度計算單元計算項目關(guān)鍵詞之間的語義相似度
7. 如權(quán)利要求6所述的裝置,其特征在于:
所述關(guān)鍵詞提取單元根據(jù)預(yù)設(shè)的關(guān)鍵詞分詞規(guī)則對項目信息解析,獲取項目關(guān)鍵詞; 所述項目信息包括:項目名稱、項目說明。
8. 如權(quán)利要求6所述的裝置,其特征在于: 所述關(guān)鍵詞提取單元根據(jù)自定義字典對項目信息分詞,自動篩選分詞并獲取關(guān)鍵詞, 并將關(guān)鍵詞與電力行業(yè)專業(yè)詞匯合并、整理,剔除冗余詞組生成所述項目關(guān)鍵詞。
【文檔編號】G06F17/30GK104391852SQ201410469628
【公開日】2015年3月4日 申請日期:2014年9月15日 優(yōu)先權(quán)日:2014年9月15日
【發(fā)明者】陳晰, 王晶華, 邢凱, 楊金鳳, 張萌, 張利萍 申請人:國家電網(wǎng)公司, 國網(wǎng)河北省電力公司, 國網(wǎng)河北省電力公司衡水供電分公司, 國家電網(wǎng)公司信息通信分公司, 中國科學(xué)技術(shù)大學(xué)蘇州研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
景泰县| 威海市| 黔南| 定远县| 南安市| 汶川县| 彭泽县| 嘉黎县| 界首市| 婺源县| 江门市| 巴东县| 比如县| 昌黎县| 图木舒克市| 儋州市| 会理县| 漯河市| 安化县| 茶陵县| 汉寿县| 中方县| 开平市| 绥芬河市| 永春县| 靖边县| 三原县| 上蔡县| 衡南县| 永定县| 西青区| 卢龙县| 常宁市| 维西| 赣州市| 永仁县| 卢氏县| 剑川县| 新沂市| 达尔| 荆门市|