一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法
【專利摘要】本發(fā)明提供了一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,通過對(duì)中文人名特征的研究,結(jié)合統(tǒng)計(jì)學(xué)的概率模型,構(gòu)建出中文人名自動(dòng)識(shí)別系統(tǒng),通過對(duì)文本信息進(jìn)行分詞處理,基于條件隨機(jī)場(chǎng)并結(jié)合上下文規(guī)則及人名可信度的方法,最后得到候選人名,借助局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行修正,最終得到系統(tǒng)的識(shí)別結(jié)果,本系統(tǒng)大大降低了由于分詞而產(chǎn)生的識(shí)別錯(cuò)誤,較好的解決了其他命名實(shí)體識(shí)別為中文人名的情況,提高了識(shí)別效果。
【專利說明】一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,具體地說是命名實(shí)體識(shí)別中的中文人名識(shí)別技術(shù)。
【背景技術(shù)】
[0002]中文人名主要包括中國人名、日本人名、外國音譯人名等。中文人名的識(shí)別是中文命名實(shí)體識(shí)別的重要組成部分,同時(shí)也是信息挖掘、信息抽取、機(jī)器翻譯、文本分類等研究領(lǐng)域重要的基礎(chǔ)性工作。此外,在分詞領(lǐng)域,絕大多數(shù)的未登錄詞是人名,中文人名的識(shí)別效果直接影響了分詞的效果。中文人名識(shí)別問題的解決是提高中文文本自動(dòng)分詞精度的先決條件,識(shí)別效果有待提聞。
[0003]有鑒于此,發(fā)明人提供了一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法。
【發(fā)明內(nèi)容】
[0004]針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,克服了現(xiàn)有技術(shù)的困難,通過對(duì)中文人名特征的研究,結(jié)合統(tǒng)計(jì)學(xué)的概率模型,構(gòu)建出中文人名自動(dòng)識(shí)別系統(tǒng)。通過對(duì)文本信息進(jìn)行分詞處理,基于條件隨機(jī)場(chǎng)并結(jié)合上下文規(guī)則及人名可信度的方法,最后得到候選人名。借助局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行修正,最終得到系統(tǒng)的識(shí)別結(jié)果。本系統(tǒng)大大降低了由于分詞而產(chǎn)生的識(shí)別錯(cuò)誤,較好的解決了其他命名實(shí)體識(shí)別為中文人名的情況,提高了識(shí)別效果。
[0005]本發(fā)明提出了基于條件隨機(jī)場(chǎng)(CRF)和上下文規(guī)則及人名可信度的方法(CRRM)進(jìn)行中文人名識(shí)別。所采用的方法可以分為兩個(gè)階段,即訓(xùn)練階段和識(shí)別階段,預(yù)處理訓(xùn)練階段包含CRF訓(xùn)練和獲取規(guī)則集兩部分,在CRF訓(xùn)練階段,系統(tǒng)在訓(xùn)練語料庫的基礎(chǔ)上依次進(jìn)行特征提取,特征選擇和參數(shù)訓(xùn)練,最后得到CRF參數(shù)模型;另外利用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)方法進(jìn)行規(guī)則提取并最終獲得規(guī)則集。CRRM人名識(shí)別過程,首先利用訓(xùn)練階段設(shè)定的特征構(gòu)建CRF模型并進(jìn)行人名初識(shí)別,然后對(duì)CRF識(shí)別的結(jié)果進(jìn)行預(yù)處理,再利用人名可信度模型、規(guī)則等對(duì)識(shí)別結(jié)果進(jìn)行確認(rèn),最后利用局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行了修正,并利用擴(kuò)散操作召回系統(tǒng)中未被識(shí)別的人名。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,包括以下步驟:
[0007]構(gòu)建條件隨機(jī)場(chǎng)模型;
[0008]獲取人名規(guī)則集,首先利用初始狀態(tài)的標(biāo)注器來標(biāo)注文本,接下來采用轉(zhuǎn)換模板和目標(biāo)函數(shù),通過與已經(jīng)正確標(biāo)注過的參考語料相比較得到多條候選的轉(zhuǎn)換模板,然后從中找出應(yīng)用一條轉(zhuǎn)換模板后可產(chǎn)生標(biāo)注錯(cuò)誤次數(shù)最少的轉(zhuǎn)換式,作為一條新的標(biāo)注規(guī)則作用到標(biāo)注語料庫,直到找不出這樣的規(guī)則為止;
[0009]利用訓(xùn)練階段得到的條件隨機(jī)場(chǎng)模型對(duì)測(cè)試文本語料進(jìn)行人名識(shí)別并輸出每個(gè)標(biāo)記的邊緣概率;
[0010]對(duì)條件隨機(jī)場(chǎng)的識(shí)別結(jié)果進(jìn)行預(yù)處理;
[0011]對(duì)于邊緣概率低的人名以及未被識(shí)別的潛在人名利用人名可信度模型進(jìn)行識(shí)別;
[0012]對(duì)于識(shí)別的潛在人名,利用訓(xùn)練階段獲取的人名規(guī)則集進(jìn)行篩選,去除誤識(shí)別的人名;
[0013]利用局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行修正,并借助已經(jīng)正確識(shí)別的人名進(jìn)行擴(kuò)散操作標(biāo)記未被識(shí)別的人名;以及
[0014]擴(kuò)散識(shí)別,對(duì)多次出現(xiàn)的一個(gè)人名根據(jù)不同位置進(jìn)行分別識(shí)別。
[0015]優(yōu)選地,所述構(gòu)建條件隨機(jī)場(chǎng)模型包括以下步驟:
[0016]對(duì)各標(biāo)注語料進(jìn)行相應(yīng)的標(biāo)記轉(zhuǎn)換,使之符合條件隨機(jī)場(chǎng)所使用的語料庫格式,在此共定義了三組標(biāo)注轉(zhuǎn)換規(guī)則,每一組對(duì)應(yīng)條件隨機(jī)場(chǎng)的一類特征。
[0017]對(duì)標(biāo)注轉(zhuǎn)換后的語料進(jìn)行特征提取,其中將特征分為四類:上下文特征、人名用字特征、邊界詞特征、字符特征。
[0018]選擇特征模板,特征模板描述了我們?cè)谟?xùn)練和測(cè)試過程中將會(huì)使用哪些特征,它為特征函數(shù)的生成提供了一個(gè)統(tǒng)一的模式,通過特征模板的使用可以使條件隨機(jī)場(chǎng)方便的獲得人名識(shí)別所需要的所有特征函數(shù)。
[0019]通過設(shè)置閾值來選擇出現(xiàn)頻次高于該閾值的特征:
[0020]
【權(quán)利要求】
1.一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于,包括以下步驟: 構(gòu)建條件隨機(jī)場(chǎng)模型; 獲取人名規(guī)則集,首先利用初始狀態(tài)的標(biāo)注器來標(biāo)注文本,接下來采用轉(zhuǎn)換模板和目標(biāo)函數(shù),通過與已經(jīng)正確標(biāo)注過的參考語料相比較得到多條候選的轉(zhuǎn)換模板,然后從中找出應(yīng)用一條轉(zhuǎn)換模板后可產(chǎn)生標(biāo)注錯(cuò)誤次數(shù)最少的轉(zhuǎn)換式,作為一條新的標(biāo)注規(guī)則作用到標(biāo)注語料庫,直到找不出這樣的規(guī)則為止; 利用訓(xùn)練階段得到的條件隨機(jī)場(chǎng)模型對(duì)測(cè)試文本語料進(jìn)行人名識(shí)別并輸出每個(gè)標(biāo)記的邊緣概率; 對(duì)條件隨機(jī)場(chǎng)的識(shí)別結(jié)果進(jìn)行預(yù)處理; 對(duì)于邊緣概率低的人名以及未被識(shí)別的潛在人名利用人名可信度模型進(jìn)行識(shí)別; 對(duì)于識(shí)別的潛在人名,利用訓(xùn)練階段獲取的人名規(guī)則集進(jìn)行篩選,去除誤識(shí)別的人名; 利用局部統(tǒng)計(jì)算法對(duì)邊界識(shí)別錯(cuò)誤的人名進(jìn)行修正,并借助已經(jīng)正確識(shí)別的人名進(jìn)行擴(kuò)散操作標(biāo)記未被識(shí)別的人名;以及 擴(kuò)散識(shí)別,對(duì)多次出現(xiàn)的一個(gè)人名根據(jù)不同位置進(jìn)行分別識(shí)別。
2.如權(quán)利要求1所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:所述構(gòu)建條件隨機(jī)場(chǎng)模型包括以下步驟: 對(duì)各標(biāo)注語料進(jìn)行相應(yīng)的標(biāo)記轉(zhuǎn)換,使之符合條件隨機(jī)場(chǎng)所使用的語料庫格式,在此共定義了三組標(biāo)注轉(zhuǎn)換規(guī)則,每一組對(duì)應(yīng)條件隨機(jī)場(chǎng)的一類特征。 對(duì)標(biāo)注轉(zhuǎn)換后的語料進(jìn)行特征提取,其中將特征分為四類:上下文特征、人名用字特征、邊界詞特征、字符特征。 選擇特征模板,特征模板描述了我們?cè)谟?xùn)練和測(cè)試過程中將會(huì)使用哪些特征,它為特征函數(shù)的生成提供了一個(gè)統(tǒng)一的模式,通過特征模板的使用可以使條件隨機(jī)場(chǎng)方便的獲得人名識(shí)別所需要的所有特征函數(shù)。 通過設(shè)置閾值來選擇出現(xiàn)頻次高于該閾值的特征:
其中表示訓(xùn)練樣本,C表示特征集,K即為設(shè)定的閾值。
3.如權(quán)利要求1所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:所述獲取人名規(guī)則集包括以下步驟: 利用條件隨機(jī)場(chǎng)進(jìn)行人名識(shí)別,識(shí)別結(jié)果作為錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)的訓(xùn)練語料庫。 將人名識(shí)別結(jié)果和正確的人工標(biāo)注結(jié)果進(jìn)行比較,分析錯(cuò)誤識(shí)別的案例,并總結(jié)規(guī)則。 依次將第二步總結(jié)的各條規(guī)則應(yīng)用到人名識(shí)別結(jié)果的副本中,根據(jù)各條規(guī)則對(duì)人名識(shí)別正確率貢獻(xiàn)的大小進(jìn)行由高到低進(jìn)行排序。 將貢獻(xiàn)最大的規(guī)則作用到已經(jīng)識(shí)別的文本重新進(jìn)行人名標(biāo)注,得到一個(gè)更新的已識(shí)別文本。
4.如權(quán)利要求1所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:所述對(duì)條件隨機(jī)場(chǎng)的識(shí)別結(jié)果進(jìn)行預(yù)處理包括: 將條件隨機(jī)場(chǎng)的識(shí)別結(jié)果轉(zhuǎn)換為便于后續(xù)處理的格式;以及 對(duì)于轉(zhuǎn)換后的結(jié)果,利用收集的中文詞典采用簡(jiǎn)單的基于最長匹配的分詞方法對(duì)轉(zhuǎn)換后的結(jié)果進(jìn)行詞語切分。
5.如權(quán)利要求4所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:所述中文詞典由標(biāo)準(zhǔn)中文詞集、沖突詞集以及關(guān)聯(lián)詞集三部分組成; 標(biāo)準(zhǔn)中文詞集包含的詞既不能是人名,也不可以作為人名的部分出現(xiàn),該詞集將作為分詞器的詞集使用; 沖突詞集包含的詞可以作為人名的部分出現(xiàn),而它本身又不是人名; 關(guān)聯(lián)詞集包括那些既可以是人名又可以是地名或其他實(shí)體名的詞及其相關(guān)的表征詞。
6.如權(quán)利要求1所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:所述對(duì)于邊緣概率低的人名以及未被識(shí)別的潛在人名利用人名可信度模型進(jìn)行識(shí)別包括: 將姓和名統(tǒng)一看待,其定義如下:
TP-Name代表外國音譯人名; S代表單個(gè)漢字的人名; F、M、L分別代表外國音譯人名首字、中字和尾字。
7.如權(quán)利要求6所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:所述對(duì)于邊緣概率低的人名以及未被識(shí)別的潛在人名利用人名可信度模型進(jìn)行識(shí)別還包括:并利用β來提高長字符串作為人名的可信度,β定義如下:
則外國音譯人名TP-Name的可信度P (TP-Name)足乂如下:
P (TP-Name) = Pf (F) *Pm (M) ^P1 (L) * β。
8.如權(quán)利要求7所述的一種基于條件隨機(jī)場(chǎng)的中文人名自動(dòng)識(shí)別方法,其特征在于:設(shè)定位于左右邊界詞之間及邊界詞之外的音譯人名的可信度閾值分別為0.39和0.592。
【文檔編號(hào)】G06F17/30GK104182423SQ201310202667
【公開日】2014年12月3日 申請(qǐng)日期:2013年5月27日 優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 高維維 申請(qǐng)人:華東師范大學(xué)