新詞發(fā)現(xiàn)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及智能交互領(lǐng)域,尤其設(shè)及一種新詞發(fā)現(xiàn)方法及裝置。
【背景技術(shù)】
[0002] 在中文信息處理的眾多領(lǐng)域,均需要基于詞典完成對(duì)應(yīng)的功能。例如,在智能檢索 系統(tǒng)或智能對(duì)話(huà)系統(tǒng)中,通過(guò)分詞、問(wèn)題檢索、相似度匹配、確定檢索結(jié)果或智能對(duì)話(huà)的答 案等,其中每個(gè)過(guò)程都是通過(guò)詞語(yǔ)為最小單位進(jìn)行計(jì)算,計(jì)算的基礎(chǔ)為詞語(yǔ)詞典,所W詞語(yǔ) 詞典對(duì)于整個(gè)系統(tǒng)的性能有著很大的影響。
[0003] 社會(huì)文化的進(jìn)步和變遷、經(jīng)濟(jì)商業(yè)的快速發(fā)展,往往帶動(dòng)著語(yǔ)言的變化,而最快速 體現(xiàn)語(yǔ)言變化的就是新詞的出現(xiàn)。特別是在特定領(lǐng)域內(nèi),是否能在新詞出現(xiàn)后及時(shí)更新詞 語(yǔ)詞典,對(duì)詞語(yǔ)詞典所在的智能對(duì)話(huà)系統(tǒng)的系統(tǒng)效率有著決定性的影響。
[0004] 新詞也就是新發(fā)現(xiàn)的單獨(dú)詞,在現(xiàn)有技術(shù)中,至少有W下=個(gè)來(lái)源:客戶(hù)提供的領(lǐng) 域內(nèi)的新詞;通過(guò)客戶(hù)提供的語(yǔ)料發(fā)現(xiàn)的新詞;運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)的新詞。
[0005] 現(xiàn)有技術(shù)中新詞發(fā)現(xiàn)準(zhǔn)確度有待提升。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明解決的技術(shù)問(wèn)題是如何提升新詞發(fā)現(xiàn)的準(zhǔn)確度。
[0007] 為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種新詞發(fā)現(xiàn)方法,包括:
[0008] 對(duì)接收到的語(yǔ)料進(jìn)行預(yù)處理,W得到文本數(shù)據(jù);
[0009] 對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù);
[0010] 依照基礎(chǔ)詞典中包含的單獨(dú)詞對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,W得到分詞后的詞 語(yǔ)數(shù)據(jù);
[0011] 對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,W生成候選數(shù)據(jù)串;
[0012] 判斷所述候選數(shù)據(jù)串是否為特定候選數(shù)據(jù)串,所述特定候選數(shù)據(jù)串包括基礎(chǔ)名 詞,且位于所述基礎(chǔ)名詞的特定相對(duì)位置的詞語(yǔ)為名詞或形容詞;
[0013] 對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,W發(fā)現(xiàn)新詞;所述判斷處理包括:
[0014] 當(dāng)所述候選數(shù)據(jù)串非特定候選數(shù)據(jù)串時(shí),計(jì)算所述候選數(shù)據(jù)串中各詞語(yǔ)與其內(nèi)側(cè) 詞語(yǔ)的信息賭,并去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[0015] 當(dāng)所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述基礎(chǔ)名詞之外的詞語(yǔ)與其內(nèi) 側(cè)詞語(yǔ)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
[0016] 可選的,所述判斷處理還包括:計(jì)算候選數(shù)據(jù)串的所述頻次相關(guān)的概率特征值,所 述候選數(shù)據(jù)串的所述頻次相關(guān)的概率特征值在預(yù)設(shè)范圍外時(shí),去除該候選數(shù)據(jù)串。
[0017] 可選的,所述頻次相關(guān)的概率特征值包括:候選數(shù)據(jù)串出現(xiàn)的頻次、頻率或根據(jù)所 述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計(jì)算得到的數(shù)值。
[0018] 可選的,所述判斷處理還包括:計(jì)算候選數(shù)據(jù)串中各個(gè)詞語(yǔ)數(shù)據(jù)間的互信息;去 除所述互信息在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
[0019] 可選的,所述判斷處理還包括:計(jì)算所述候選數(shù)據(jù)串邊界詞語(yǔ)數(shù)據(jù)與外側(cè)詞語(yǔ)數(shù) 據(jù)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
[0020] 可選的,對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,W發(fā)現(xiàn)新詞依次包括:
[0021] 計(jì)算所述候選數(shù)據(jù)串的頻次,去除所述頻次在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[0022] 計(jì)算剩余的所述候選數(shù)據(jù)串的互信息,去除所述互信息在預(yù)設(shè)范圍外的候選數(shù)據(jù) 串;
[0023]當(dāng)剩余的所述候選數(shù)據(jù)串非特定候選數(shù)據(jù)串時(shí),計(jì)算所述候選數(shù)據(jù)串中各詞語(yǔ)與 其內(nèi)側(cè)詞語(yǔ)的信息賭,并去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;當(dāng)剩余的所述候選 數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述基礎(chǔ)名詞之外的詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)的信息賭,去 除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[0024] 計(jì)算剩余的所述候選數(shù)據(jù)串邊界詞語(yǔ)數(shù)據(jù)與外側(cè)詞語(yǔ)數(shù)據(jù)的信息賭,去除所述信 息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[0025] 剩余的所述候選數(shù)據(jù)串作為新詞。 陽(yáng)0%] 可選的,所述特定相對(duì)位置為左側(cè)和右側(cè)中的一種或兩種。
[0027] 可選的,參照頻次確定所述基礎(chǔ)名詞。
[0028] 可選的,參照詞語(yǔ)數(shù)據(jù)的位置W及所述詞語(yǔ)數(shù)據(jù)左信息賭和右信息賭的差值確定 所述基礎(chǔ)名詞。
[0029] 可選的,所述對(duì)接收到的語(yǔ)料進(jìn)行預(yù)處理,W得到文本數(shù)據(jù)包括:將語(yǔ)料的格式統(tǒng) 一為文本格式;過(guò)濾臟詞、敏感詞和停用詞中的一種或多種。
[0030] 可選的,所述分詞處理采用字典雙向最大匹配法、HMM方法和CRF方法中的一種或 多種。
[0031] 可選的,所述生成候選數(shù)據(jù)串,包括:利用Bigram模型將同一行的語(yǔ)句數(shù)據(jù)中相 鄰詞語(yǔ)作為候選數(shù)據(jù)串。
[0032] 可選的,所述新詞發(fā)現(xiàn)方法還包括:設(shè)定候選數(shù)據(jù)串的長(zhǎng)度范圍,W排除長(zhǎng)度在所 述長(zhǎng)度范圍之外的候選數(shù)據(jù)串。
[0033] 本發(fā)明實(shí)施例還提供一種新詞發(fā)現(xiàn)裝置,包括:預(yù)處理單元、分行處理單元、分詞 處理單元、組合處理單元、特定候選數(shù)據(jù)串判斷單元;W及新詞發(fā)現(xiàn)單元;
[0034] 所述預(yù)處理單元,適于對(duì)接收到的語(yǔ)料進(jìn)行預(yù)處理,W得到文本數(shù)據(jù);
[0035] 所述分行處理單元,適于對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù);
[0036] 所述分詞處理單元,適于依照詞典中包含的詞語(yǔ)數(shù)據(jù)對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處 理,W得到分詞后的詞語(yǔ)數(shù)據(jù);
[0037] 所述組合處理單元,適于對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,W生成 候選數(shù)據(jù)串;
[0038] 所述特定候選數(shù)據(jù)串判斷單元,適于判斷所述候選數(shù)據(jù)串是否為特定候選數(shù)據(jù) 串,所述特定候選數(shù)據(jù)串包括基礎(chǔ)名詞且位于所述基礎(chǔ)名詞的特定相對(duì)位置的詞語(yǔ)為名詞 或形容詞;
[0039] 所述新詞發(fā)現(xiàn)單元,適于對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,W發(fā)現(xiàn)新詞;所述判斷 處理包括:
[0040]當(dāng)所述候選數(shù)據(jù)串非特定候選數(shù)據(jù)串時(shí),計(jì)算所述候選數(shù)據(jù)串中各詞語(yǔ)與其內(nèi)側(cè) 詞語(yǔ)的信息賭,并去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[0041] 當(dāng)所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述基礎(chǔ)名詞之外的詞語(yǔ)與其內(nèi) 側(cè)詞語(yǔ)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
[0042] 可選的,所述判斷處理還包括:計(jì)算候選數(shù)據(jù)串的所述頻次相關(guān)的概率特征值,所 述候選數(shù)據(jù)串的所述頻次相關(guān)的概率特征值在預(yù)設(shè)范圍外時(shí),去除該候選數(shù)據(jù)串。
[0043] 可選的,所述頻次相關(guān)的概率特征值包括:候選數(shù)據(jù)串出現(xiàn)的頻次、頻率或根據(jù)所 述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計(jì)算得到的數(shù)值。
[0044] 可選的,所述判斷處理還包括:計(jì)算候選數(shù)據(jù)串中各個(gè)詞語(yǔ)數(shù)據(jù)間的互信息;去 除所述互信息在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
[0045] 可選的,所述判斷處理還包括:計(jì)算所述候選數(shù)據(jù)串邊界詞語(yǔ)數(shù)據(jù)與外側(cè)詞語(yǔ)數(shù) 據(jù)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。 陽(yáng)046] 可選的,所述新詞發(fā)現(xiàn)單元包括:頻次過(guò)濾單元、互信息過(guò)濾單元、內(nèi)部信息賭過(guò) 濾單元W及外部信息賭過(guò)濾單元;
[0047]所述頻次過(guò)濾單元,適于計(jì)算所述候選數(shù)據(jù)串的頻次,去除所述頻次在預(yù)設(shè)范圍 外的候選數(shù)據(jù)串;
[0048]所述互信息過(guò)濾單元,適于計(jì)算經(jīng)所述頻次過(guò)濾單元過(guò)濾后,剩余的所述候選數(shù) 據(jù)串的互信息,去除所述互信息在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[0049] 內(nèi)部信息賭過(guò)濾單元,適于當(dāng)剩余的所述候選數(shù)據(jù)串非特定候選數(shù)據(jù)串時(shí),計(jì)算 所述候選數(shù)據(jù)串中各詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)的信息賭,并去除所述信息賭在預(yù)設(shè)范圍外的候選 數(shù)據(jù)串;當(dāng)剩余的所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述基礎(chǔ)名詞之外的詞語(yǔ) 與其內(nèi)側(cè)詞語(yǔ)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串; 陽(yáng)050]所述外部信息賭過(guò)濾單元,適于計(jì)算經(jīng)所述內(nèi)部信息賭過(guò)濾單元過(guò)濾后,剩余的 所述候選數(shù)據(jù)串邊界詞語(yǔ)數(shù)據(jù)與外側(cè)詞語(yǔ)數(shù)據(jù)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的 候選數(shù)據(jù)串。
[0051] 可選的,所述特定相對(duì)位置為左側(cè)和右側(cè)中的一種或兩種。
[0052] 可選的,所述特定候選數(shù)據(jù)串判斷單元,適于參照頻次確定所述基礎(chǔ)名詞。
[0053] 可選的,所述特定候選數(shù)據(jù)串判斷單元,適于參照詞語(yǔ)數(shù)據(jù)的位置W及所述詞語(yǔ) 數(shù)據(jù)左信息賭和右信息賭的差值確定所述基礎(chǔ)名詞。
[0054] 可選的,所述組合處理單元適于利用Bigram模型將同一行的語(yǔ)句數(shù)據(jù)中相鄰