两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

智能交互系統(tǒng)中未登錄詞的識別方法和裝置的制造方法

文檔序號:8395860閱讀:520來源:國知局
智能交互系統(tǒng)中未登錄詞的識別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域,尤其涉及一種智能交互系統(tǒng)中未登錄詞的識別方法和裝置。
【背景技術(shù)】
[0002]在智能交互系統(tǒng)中,無論是對問題建立索弓丨,還是計(jì)算用戶問題與問答庫中問題的相似度,都需要首先對句子進(jìn)行分詞,但是由于部分句子中存在未登錄詞,使得現(xiàn)有的分詞效果并不理想,因此也影響到后續(xù)對句子相似度的計(jì)算,導(dǎo)致智能交互系統(tǒng)智能化降低。
[0003]現(xiàn)有技術(shù)中,分詞的效果依賴于分詞算法和分詞詞典。目前,分詞算法已取得不錯(cuò)的效果,很難有較大提升,而分詞詞典中的詞是否齊全,會(huì)直接影響到分詞的效果,若分詞詞典中不包含該詞,即出現(xiàn)未登錄詞,則該詞很難被正確的切分。
[0004]智能交互系統(tǒng)中,部分用戶使用搜索引擎時(shí),會(huì)自覺的進(jìn)行關(guān)鍵詞查詢,即用空格、1、“”等特殊字符進(jìn)行查詢,搜索引擎可以通過用戶的查詢記錄進(jìn)行新詞識別,進(jìn)而擴(kuò)充用戶詞典,實(shí)現(xiàn)更快、更準(zhǔn)確的查詢。問答系統(tǒng)中,用戶習(xí)慣于使用連續(xù)的句子進(jìn)行查詢,因此,無法用同樣的方法來識別未登錄詞。
[0005]基于此有必要提供一種智能交互系統(tǒng)中未登錄詞識別方法和裝置,以豐富用戶詞典,當(dāng)需要基于用戶詞典對用戶輸入的語句進(jìn)行分詞時(shí),能夠改善分詞效果,提高智能交互系統(tǒng)的智能化水平。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的主要目的在于提供一種智能交互系統(tǒng)中未登錄詞識別方法,以豐富用戶詞典,當(dāng)需要基于用戶詞典對用戶輸入的語句進(jìn)行分詞時(shí),能夠改善分詞效果,提高智能交互系統(tǒng)的智能化水平。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種智能交互系統(tǒng)中未登錄詞的識別方法,所述智能交互系統(tǒng)中未登錄詞的識別方法包括如下步驟:
[0008]SlO:獲取用戶輸入的詞;
[0009]S20:判斷所述用戶輸入的詞的長度是否等于I或大于4,若是,則忽略所述用戶輸入的詞,否則執(zhí)行S30 ;
[0010]S30:判斷所述用戶輸入的詞是否為預(yù)設(shè)的分詞詞典或用戶詞典中存在的詞,若是,則忽略所述用戶輸入的詞,否則執(zhí)行S40 ;
[0011]S40:判斷所述用戶輸入的詞是否包含于所述分詞詞典或用戶詞典的某個(gè)詞中,若是,則忽略所述用戶輸入的詞,否則執(zhí)行S50 ;
[0012]S50:將所述用戶輸入的詞添加到用戶輸入詞詞典中;
[0013]S60:判斷所述用戶輸入的詞是否為網(wǎng)絡(luò)詞條中的詞,若是,則將所述用戶輸入的詞作為未登錄詞加入所述用戶詞典中,并將所述用戶輸入的詞從所述用戶輸入詞詞典中刪除,否則忽略所述用戶輸入的詞。
[0014]優(yōu)選地,所述步驟SlO包括:
[0015]Sll:獲取用戶輸入時(shí)文本框的變化內(nèi)容;
[0016]S12:將所述文本框的變化內(nèi)容作為用戶輸入的詞。
[0017]進(jìn)一步地,所述智能交互系統(tǒng)中未登錄詞的識別方法還包括如下步驟:
[0018]S70:統(tǒng)計(jì)所述用戶輸入詞詞典中每個(gè)詞的詞頻;
[0019]S80:若所述用戶輸入詞詞典中某詞的詞頻大于預(yù)設(shè)值,則將所述詞作為未登錄詞加入用戶詞典中,并將所述詞從所述用戶輸入詞詞典中刪除。
[0020]進(jìn)一步地,所述智能交互系統(tǒng)中未登錄詞的識別方法還包括如下步驟:
[0021]S90:建立用戶詞典,在所述用戶詞典中存儲用戶特定應(yīng)用領(lǐng)域的常用詞。
[0022]進(jìn)一步地,所述智能交互系統(tǒng)中未登錄詞的識別方法還包括如下步驟:
[0023]SlOO:建立用戶輸入詞詞典詞,在所述用戶輸入詞詞典中存儲可能的未登錄詞。
[0024]為實(shí)現(xiàn)上述目的,本發(fā)明還提供了一種智能交互系統(tǒng)中未登錄詞的識別裝置,所述智能交互系統(tǒng)中未登錄詞的識別裝置包括:
[0025]獲取模塊,用于獲取用戶輸入的詞;
[0026]—級識別模塊,用于判斷所述用戶輸入的詞的長度是否等于I或大于4,若是,則忽略所述用戶輸入的詞;
[0027]二級識別模塊,用于當(dāng)所述用戶輸入的詞的長度為大于I且小于等于4時(shí),判斷所述用戶輸入的詞是否為預(yù)設(shè)的分詞詞典或用戶詞典中存在的詞,若是,則忽略所述用戶輸入的詞;
[0028]三級識別模塊,用于當(dāng)所述用戶輸入的詞不是所述分詞詞典或用戶詞典中存在的詞時(shí),判斷所述用戶輸入的詞是否包含于所述分詞詞典或用戶詞典的某個(gè)詞中,若是,則忽略所述用戶輸入的詞;
[0029]用戶輸入詞詞典更新模塊,用于當(dāng)所述用戶輸入的詞未包含于所述分詞詞典或用戶詞典的某個(gè)詞中時(shí),將所述用戶輸入的詞添作為可能的未登錄詞加到用戶輸入詞詞典中;
[0030]四級識別模塊,用于當(dāng)所述用戶輸入的詞為網(wǎng)絡(luò)詞條中的詞時(shí),將所述用戶輸入的詞作為未登錄詞加入所述用戶詞典中,并將所述用戶輸入的詞從所述用戶輸入詞詞典中刪除,否則忽略所述用戶輸入的詞。
[0031]優(yōu)選地,所述獲取模塊具體用于:
[0032]獲取用戶輸入時(shí)文本框的變化內(nèi)容,將所述文本框的變化內(nèi)容作為用戶輸入的
!?r] ο
[0033]進(jìn)一步地,所述智能交互系統(tǒng)中未登錄詞的識別裝置還包括:
[0034]用戶輸入詞詞典詞頻統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述用戶輸入詞詞典中每個(gè)詞的詞頻;
[0035]用戶詞典更新模塊,用于若所述用戶輸入詞詞典中詞的詞頻大于預(yù)設(shè)值,則將所述詞作為未登錄詞加入用戶詞典中,并將所述詞從所述用戶輸入詞詞典中刪除。
[0036]進(jìn)一步地,所述智能交互系統(tǒng)中未登錄詞的識別裝置還包括:
[0037]用戶詞典建立模塊,用于建立用戶詞典,在所述用戶詞典中存儲用戶特定應(yīng)用領(lǐng)域的常用詞和所述未登錄詞。
[0038]進(jìn)一步地,所述智能交互系統(tǒng)中未登錄詞的識別裝置還包括:
[0039]用戶輸入詞詞典詞建立模塊,用于建立用戶輸入詞詞典詞,在所述用戶輸入詞詞典中存儲可能的未登錄詞。
[0040]本發(fā)明采用上述技術(shù)方案,帶來的技術(shù)效果為:通過逐級識別用戶輸入的詞的長度是否等于I或大于4、是否為預(yù)設(shè)的分詞詞典或用戶詞典中存在的詞、是否包含于所述分詞詞典或用戶詞典的某個(gè)詞中,篩選出可能的未登錄詞加入用戶輸入詞詞典中做臨時(shí)記錄,當(dāng)進(jìn)一步識別出所述用戶輸入的詞為網(wǎng)絡(luò)詞條中的詞時(shí),將所述用戶輸入的詞加入所述用戶詞典中,同時(shí)將其從所述用戶輸入詞詞典中刪除。本發(fā)明實(shí)施例通過逐級識別用戶輸入的詞,將可能的未登錄詞加入用戶詞典中,豐富了用戶詞典,當(dāng)需要基于所述用戶詞典對用戶輸入的語句進(jìn)行分詞時(shí),能夠改善分詞效果,提高智能交互系統(tǒng)的智能化水平。
【附圖說明】
[0041]圖1為本發(fā)明智能交互系統(tǒng)中未登錄詞識別方法第一優(yōu)選實(shí)施例流程示意圖;
[0042]圖2為本發(fā)明智能交互系統(tǒng)中未登錄詞識別方法第二優(yōu)選實(shí)施例流程示意圖;
[0043]圖3為本發(fā)明智能交互系統(tǒng)中未登錄詞識別裝置第一優(yōu)選實(shí)施例結(jié)構(gòu)示意圖;
[0044]圖4為本發(fā)明智能交互系統(tǒng)中未登錄詞識別裝置第二優(yōu)選實(shí)施例結(jié)構(gòu)示意圖。
[0045]本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。
【具體實(shí)施方式】
[0046]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0047]自然語言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。在自然語言處理過程中,詞是最小的語言單位。漢語在詞之間沒有特定標(biāo)記,所以因此在進(jìn)行自動(dòng)處理時(shí),需要預(yù)先進(jìn)行中文分詞。而未登錄詞的大量存在已經(jīng)成為影響中文分詞效果的技術(shù)瓶頸。未登錄詞識別(UWI)是從語料中自動(dòng)檢測和識別未在詞典中出現(xiàn)過的詞語的過程,是自然語言處理領(lǐng)域的一項(xiàng)重要基礎(chǔ)技術(shù),在中文自動(dòng)分詞、詞典編撰、信息抽取、信息檢索以及機(jī)器翻譯等領(lǐng)域都有著廣泛的應(yīng)用需求。
[0048]本發(fā)明的主要目的在于提供一種智能交互系統(tǒng)中未登錄詞識別方法,以豐富用戶詞典,當(dāng)需要基于用戶詞典對用戶輸入的語句進(jìn)行分詞時(shí),能夠改善分詞效果,提高智能交互系統(tǒng)的智能化水平。
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
阆中市| 抚顺县| 抚顺市| 定州市| 马边| 犍为县| 广宗县| 津南区| 红河县| 丰都县| 柞水县| 县级市| 垣曲县| 乌什县| 康定县| 涟水县| 宜良县| 舞阳县| 正蓝旗| 武胜县| 无锡市| 庆阳市| 沁阳市| 丁青县| 乐山市| 石家庄市| 巧家县| 清水河县| 延寿县| 云梦县| 华蓥市| 澄迈县| 六枝特区| 北票市| 桦南县| 阳江市| 开平市| 富民县| 南雄市| 肥城市| 余江县|