的新詞,W應(yīng)用于不同場(chǎng)景。例 如,設(shè)定長(zhǎng)度范圍數(shù)值較小的范圍,W獲取語(yǔ)法意義上的詞語(yǔ),應(yīng)用于智能問(wèn)答系統(tǒng);設(shè)定 長(zhǎng)度范圍數(shù)值較大的范圍,W獲取短語(yǔ)或短句,W將其作為文獻(xiàn)檢索目錄的關(guān)鍵詞等。
[0097] S15,判斷所述候選數(shù)據(jù)串是否為特定候選數(shù)據(jù)串,所述特定候選數(shù)據(jù)串包括基礎(chǔ) 名詞,且位于所述基礎(chǔ)名詞的特定相對(duì)位置的詞語(yǔ)為名詞或形容詞。
[0098] 據(jù)發(fā)明人研究發(fā)現(xiàn),若一個(gè)基礎(chǔ)名詞的特定相對(duì)位置上若是名詞或形容詞,則該 基礎(chǔ)名詞極有可能需要被作為新詞。例如基礎(chǔ)名詞"卡","卡"的左側(cè)為名詞,可W組成"龍 卡"、"名???、"白金卡"、"商務(wù)卡"等。故判斷候選數(shù)據(jù)串是否為特定候選數(shù)據(jù)串,可W判 斷候選數(shù)據(jù)串是否滿足包含基礎(chǔ)名詞,并且該基礎(chǔ)名詞的特定相對(duì)位置的詞語(yǔ)是否為名詞 或者形容詞。
[0099] 基礎(chǔ)名詞的特定相對(duì)位置可W根據(jù)不同的基礎(chǔ)名詞和語(yǔ)料進(jìn)行設(shè)定,例如,當(dāng)語(yǔ) 料中包含多種"卡",并且需要將各種卡的名稱均作為新詞時(shí),可W設(shè)定基礎(chǔ)名詞的左側(cè)為 名詞或形容詞。
[0100] 在具體實(shí)施中,特定相對(duì)位置可W是左側(cè)和右側(cè)中的任一種或兩種,可W根據(jù)需 要進(jìn)行設(shè)置。 陽(yáng)101] 在具體實(shí)施中,可W參照頻次確定所述基礎(chǔ)名詞。由于基礎(chǔ)名詞在語(yǔ)料中會(huì)反復(fù) 出現(xiàn),故可W參照頻次確定基礎(chǔ)名詞。可W理解的是,基礎(chǔ)名詞也可W通過(guò)人工閱讀進(jìn)行選 擇和設(shè)定。 陽(yáng)102] 在具體實(shí)施中,還可W參照詞語(yǔ)數(shù)據(jù)的位置W及所述詞語(yǔ)數(shù)據(jù)左信息賭和右信息 賭的差值確定所述基礎(chǔ)名詞。由于當(dāng)基礎(chǔ)名詞與左側(cè)詞語(yǔ)的賭值和右側(cè)詞語(yǔ)的賭值差異較 大時(shí),往往代表該基礎(chǔ)名詞需和其中一側(cè)詞語(yǔ)結(jié)合成新詞,例如前述詞語(yǔ)"卡",往往出現(xiàn)在 大標(biāo)點(diǎn)附近,故左右側(cè)的信息賭值差異較大,故結(jié)合詞語(yǔ)數(shù)據(jù)的位置W及所述詞語(yǔ)數(shù)據(jù)左 信息賭和右信息賭的差值,可W對(duì)一個(gè)詞語(yǔ)是否為基礎(chǔ)名詞進(jìn)行判斷。 陽(yáng)103] S16,對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,W發(fā)現(xiàn)新詞;所述判斷處理包括:
[0104]當(dāng)所述候選數(shù)據(jù)串非特定候選數(shù)據(jù)串時(shí),計(jì)算所述候選數(shù)據(jù)串中各詞語(yǔ)與其內(nèi)側(cè) 詞語(yǔ)的信息賭,并去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
[01化]當(dāng)所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述基礎(chǔ)名詞之外的詞語(yǔ)與其內(nèi) 側(cè)詞語(yǔ)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
[0106] 由于候選數(shù)據(jù)串包括兩個(gè)詞語(yǔ)數(shù)據(jù),在對(duì)候選數(shù)據(jù)串進(jìn)行判斷處理時(shí),需要分別 對(duì)兩個(gè)詞語(yǔ)數(shù)據(jù)的內(nèi)側(cè)信息賭進(jìn)行判斷,信息賭是對(duì)隨機(jī)變量不確定性的量度,計(jì)算公式 如下: 陽(yáng) 107] H佩=-Ep(Xi)logp(Xi)
[0108] 信息賭越大,表示變量的不確定性越大,即每個(gè)可能的取值發(fā)生的概率越平均。如 果變量某個(gè)取值發(fā)生的概率為1,則賭為0。表明變量只有當(dāng)前一種取值發(fā)生,是一個(gè)必然 事件。
[0109] 計(jì)算詞語(yǔ)W的左側(cè)信息賭和右側(cè)信息賭的公式如下:
[0110] Hi(W)=ExEx(?>〇)P(x|W)logP(x|W),其中X為出現(xiàn)在W左邊的所有詞語(yǔ)數(shù)據(jù)集 合,Hi(W)為詞語(yǔ)數(shù)據(jù)W的左側(cè)信息賭。 陽(yáng)111] &(w)=ExEY;#wY>wP(y|w)i〇gP(y|w),其中Y為出現(xiàn)在W右邊的所有詞語(yǔ)數(shù)據(jù)集 合,&(w)為詞語(yǔ)數(shù)據(jù)W的右側(cè)信息賭。
[0112] 內(nèi)側(cè)信息賭是對(duì)候選數(shù)據(jù)串依次固定每個(gè)單獨(dú)詞語(yǔ)數(shù)據(jù),計(jì)算在該詞語(yǔ)數(shù)據(jù)出現(xiàn) 情況下另一個(gè)詞語(yǔ)出現(xiàn)的信息賭。如果候選數(shù)據(jù)串為(W1W2),則計(jì)算詞語(yǔ)數(shù)據(jù)W1的右側(cè)信 息賭和詞語(yǔ)數(shù)據(jù)W2的左側(cè)信息賭。
[0113] 計(jì)算候選數(shù)據(jù)串中詞語(yǔ)數(shù)據(jù)與其內(nèi)側(cè)的詞語(yǔ)數(shù)據(jù)的賭值體現(xiàn)該詞語(yǔ)數(shù)據(jù)內(nèi)側(cè)詞 語(yǔ)數(shù)據(jù)的混亂程度。例如,通過(guò)計(jì)算候選數(shù)據(jù)串W1W2中左側(cè)詞語(yǔ)數(shù)據(jù)W1的右側(cè)信息賭,右 側(cè)詞語(yǔ)數(shù)據(jù)W2的左側(cè)信息賭可W判斷詞語(yǔ)數(shù)據(jù)W1和W2內(nèi)側(cè)的混亂程度,從而可W通過(guò)設(shè) 定預(yù)設(shè)范圍進(jìn)行篩選,排除各詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)構(gòu)成新詞的概率特征值在預(yù)設(shè)范圍外的候 選數(shù)據(jù)串。
[0114] 特定候選數(shù)據(jù)串中,基礎(chǔ)名詞的內(nèi)側(cè)信息賭也許會(huì)因在預(yù)設(shè)范圍外,導(dǎo)致本應(yīng)作 為新詞的特定候選數(shù)據(jù)串被排除,例如,特定候選數(shù)據(jù)串為"白金卡V'名??╒'龍卡"等 包含基礎(chǔ)名詞"卡"的候選數(shù)據(jù)串時(shí),詞語(yǔ)"白金"、"名"、"龍"的右側(cè)信息賭在預(yù)設(shè)范圍內(nèi), 但由于詞語(yǔ)"卡"的左側(cè)詞語(yǔ)較混亂,其左側(cè)信息賭可能在預(yù)設(shè)范圍外,從而可能導(dǎo)致候選 數(shù)據(jù)串"白金卡"、"名校卡"、"龍卡"等候選數(shù)據(jù)串被錯(cuò)誤的排除。
[0115] 故當(dāng)所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述基礎(chǔ)名詞之外的詞語(yǔ)與其 內(nèi)側(cè)詞語(yǔ)的信息賭,去除所述信息賭在預(yù)設(shè)范圍外的候選數(shù)據(jù)串,不再對(duì)基礎(chǔ)名詞的內(nèi)側(cè) 信息賭進(jìn)行計(jì)算,避免因基礎(chǔ)名詞的內(nèi)側(cè)信息賭在預(yù)設(shè)范圍外而導(dǎo)致的錯(cuò)誤排除,可W有 效解決上述問(wèn)題,提升新詞發(fā)現(xiàn)的準(zhǔn)確率。此外還可W減少計(jì)算量,提高新詞發(fā)現(xiàn)的效率。
[0116] 參照?qǐng)D2,在本發(fā)明一實(shí)施例中,對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理可W包括:
[0117] S161,計(jì)算候選數(shù)據(jù)串的所述頻次相關(guān)的概率特征值,所述候選數(shù)據(jù)串的所述頻 次相關(guān)的概率特征值在預(yù)設(shè)范圍外時(shí),去除該候選數(shù)據(jù)串。
[0118] 在具體實(shí)施中,所述頻次相關(guān)的概率特征值包括:候選數(shù)據(jù)串出現(xiàn)的頻次、頻率或 根據(jù)所述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計(jì)算得到的數(shù)值。
[0119] 候選數(shù)據(jù)串出現(xiàn)的頻次指候選數(shù)據(jù)串在語(yǔ)料中出現(xiàn)的次數(shù),頻次過(guò)濾用于判斷候 選數(shù)據(jù)串的結(jié)合次數(shù),當(dāng)頻次低于某一闊值時(shí),則過(guò)濾掉該候選數(shù)據(jù)串;候選數(shù)據(jù)串出現(xiàn)的 頻率與其出現(xiàn)的次數(shù)和語(yǔ)料中總詞量均相關(guān)。將根據(jù)所述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計(jì) 算得到的數(shù)值作為該候選數(shù)據(jù)串的概率特征值準(zhǔn)確性更高。
[0120] 在本發(fā)明一實(shí)施例中,根據(jù)所述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計(jì)算得到概率特征 值可W義用TF-IDF(Te;rmRrequen巧-InverseDo州mentRrequency)技術(shù)。 陽(yáng)12UTF-IDF是一種統(tǒng)計(jì)算法,用于資訊檢索與資訊探勘的常用加權(quán)技術(shù),W評(píng)估某個(gè) 字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度,也就是在語(yǔ)料中的重要 程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中 出現(xiàn)的頻率成反比下降。
[0122] TF-IDF的主要思想是:如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且 在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類。 TF-IDF實(shí)際上是:TF*IDF,TF詞頻(TermRrequen巧),IDF反文檔頻率(InverseDo州ment 化equency)。TF表示詞條在文檔d中出現(xiàn)的頻率(另一說(shuō):TF詞頻(Term化equency)指 的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù))。IDF的主要思想是:如果包含詞條t的文 檔越少,也就是n越小,IDF越大,則說(shuō)明詞條t具有很好的類別區(qū)分能力。如果某一類文 檔C中包含詞條t的文檔數(shù)為m,而其它類包含t的文檔總數(shù)為k,顯然所有包含t的文檔 數(shù)n=m+k,當(dāng)m大的時(shí)候,n也大,按照IDF公式得到的IDF的值會(huì)小,就說(shuō)明該詞條t類 別區(qū)分能力不強(qiáng)。(另一說(shuō):IDF反文檔頻率(InverseDocument化equency)是指包含詞 條的文檔越少,IDF越大,則說(shuō)明詞條具有很好的類別區(qū)分能力。)但是實(shí)際上,如果一個(gè)詞 條在一個(gè)類的文檔中頻繁出現(xiàn),也就是在語(yǔ)料中頻繁出現(xiàn),則說(shuō)明該詞條能夠很好代表運(yùn) 個(gè)類的文本的特征,運(yùn)樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來(lái)其為該類文本的特征 詞W區(qū)別與其它類文檔。也就是可W將運(yùn)樣的詞條作為詞典應(yīng)用的領(lǐng)域內(nèi)的新詞。
[0123] S162,計(jì)算候選數(shù)據(jù)串中各個(gè)詞語(yǔ)數(shù)據(jù)間的互信息;去除所述互信息在預(yù)設(shè)范圍 外的候選數(shù)據(jù)串。 陽(yáng)124] 互信息(Mu化曰1In化rmation,]\0)的定義見(jiàn)下式: 陽(yáng)1巧]
[0126] 互信息反映了候選數(shù)據(jù)串與其中詞語(yǔ)數(shù)據(jù)的共現(xiàn)關(guān)系,由兩個(gè)單獨(dú)詞組成的候選 數(shù)據(jù)串的互信息為一個(gè)值(即兩個(gè)單獨(dú)詞間的互信息),當(dāng)一候選數(shù)據(jù)串W與其中詞語(yǔ)數(shù)據(jù) 共現(xiàn)頻度高時(shí),即出現(xiàn)頻次相近時(shí),可知候選數(shù)據(jù)串W的互信息MI接近于1,也就是說(shuō)此時(shí) 候選數(shù)據(jù)串W成為一個(gè)詞的可能性很大。若互信息MI的值很小,接近于0,則說(shuō)明W幾乎不 可能成為一個(gè)詞,更不可能成為一個(gè)新詞?;バ畔⒎从沉艘粋€(gè)候選數(shù)據(jù)串內(nèi)部的依賴程度, 從而可W用來(lái)判斷候選數(shù)據(jù)串是否可能成