一種中文文本自動校正方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種文本校正方法,尤其涉及一種中文文本自動校正方法。
【背景技術(shù)】
[0002]隨著現(xiàn)代激光照排技術(shù)和電子出版業(yè)的迅速發(fā)展,如何保證所傳達(dá)的信息正確無誤成為研究的重要方面之一。目前人們使用計算機進行寫作、編輯和排版等工作,不可避免地會出現(xiàn)一些文字錯誤,例如多字、漏字、易位、英文單詞拼寫錯誤、不規(guī)范標(biāo)點等。因此需要有專門的校隊系統(tǒng)對文稿進行校對。從長遠(yuǎn)發(fā)展來看,信息化是將來社會發(fā)展的趨勢,人們面臨的電子信息和文稿日益增多,而傳統(tǒng)的手工校對需要校對人員對文本進行逐字逐句的閱讀、檢查,從成本和效率兩個方面都不能適應(yīng)電子文本數(shù)量迅猛增長的趨勢。因此,對一個準(zhǔn)確度高、效率高的自動校隊系統(tǒng)的需求越來越迫切。
[0003]自動校隊具有很重要的實用價值,有著廣泛的應(yīng)用領(lǐng)域。在出版業(yè),文本自動校對的實現(xiàn)可以大大減輕工作人員的工作量,將他們從繁瑣無味的工作中解脫出來,加快出版節(jié)奏推動整個出版業(yè)的迅速發(fā)展;在文字識別方面,需要用查錯、糾錯技術(shù)對語音識別,ORC文字識別等識別結(jié)果進行修改;在文字編輯方面,例如word等很多文本編輯系統(tǒng)中都提供有自動查錯技術(shù),對輸入的文本進行自動報錯;在人機接口方面,例如數(shù)據(jù)庫查詢、自然語言等人機接口中要求有一定的容錯性能;在輔助教學(xué)等系統(tǒng)中需要對輸入的句子進行分析,查找出其中的錯誤,并給出可能的正確答案等。
[0004]此外,自動校對也具有很重要的理論意義。從學(xué)科歸屬上來講,自動校對從屬于自然語言理解的范疇,牽涉許多自然語言理解的基礎(chǔ)部門,例如自動分詞、詞性標(biāo)注、句法分析等,因而是一個很有學(xué)術(shù)價值的研究課題。目前,自然語言處理的研究已經(jīng)進入對大規(guī)模真實文本處理的階段,而實際的真實文本可能存在著錯誤,自動校對技術(shù)就是研究并查找處理這些錯誤,因此自動校對技術(shù)的發(fā)展必然能提高其他自然語言處理的容錯性能,進一步推動整個自然語言處理研究的發(fā)展。
【發(fā)明內(nèi)容】
[0005]本發(fā)明所要解決的技術(shù)問題是提供一種中文文本自動校正方法,能夠?qū)﹄娮游谋咀詣臃治觯l(fā)現(xiàn)、標(biāo)示出錯誤并進行糾錯改正,將查錯和糾錯過程很好地結(jié)合起來,具有查錯速度快,糾錯效率高的特點。
[0006]本發(fā)明為解決上述技術(shù)問題而采用的技術(shù)方案是提供一種中文文本自動校正方法,包括如下步驟:a)輸入待校對中文文本,按單句對中文文本進行分詞預(yù)處理;b)按單句查找分詞文本中出現(xiàn)的單字、雙字或三字及其以上散串;c)采用N-gram模型對分詞文本中出現(xiàn)的散串進行連續(xù)判斷,并結(jié)合單字成詞概率對每個單句檢查文本詞級的錯誤;d)構(gòu)造糾錯知識庫生成糾錯候選文本。
[0007]上述的中文文本自動校正方法,其中,所述步驟a)采用語音或者鍵盤輸入待校對中文文本,所述預(yù)處理包括對輸入的待校對中文文本整理語法錯誤以及進行模式匹配檢查。
[0008]上述的中文文本自動校正方法,其中,所述步驟a)中語音輸入待校對中文文本的過程如下:接收來自話筒的語音輸入并轉(zhuǎn)為計算機所能接收的語音流,對語音流進行特征提取和模板匹配生成候選詞字組合,利用語言模型對候選詞字組合進行識別。
[0009]上述的中文文本自動校正方法,其中,所述步驟a)中鍵盤輸入待校對中文文本的過程如下:預(yù)先對字詞進行編碼,將擊鍵信號轉(zhuǎn)換為計算機所接受的碼序列,并將所述碼序列與字詞編碼相關(guān)聯(lián)。
[0010]上述的中文文本自動校正方法,其中,所述步驟c)對三字及其以上散串的判斷過程如下:判斷散串中每個字單獨成詞的概率,確定第一錯誤系數(shù),采用二元詞接續(xù)模型依次判斷相鄰兩字成詞的概率,確定第二錯誤系數(shù),采用三元字接續(xù)模型依次判斷相鄰三個字成詞的概率,確定第三錯誤系數(shù),將所有錯誤系數(shù)相加確定文本詞級的最終錯誤系數(shù)。
[0011]上述的中文文本自動校正方法,其中,所述步驟c)對連續(xù)四字散串WkWk+1Wk+2Wk+3的判斷過程如下:cl)分別判斷WkWk+1Wk+2Wk+3這幾個字單獨成詞的概率,如果某個字單獨出現(xiàn)的概率P = 0,則該處有錯,錯誤系數(shù)K1+ = 1.5 ;c2)以Wk 2為起始位置,W k+4為結(jié)束位置,采用二元詞接續(xù)模型進行判斷,以連續(xù)兩個詞共現(xiàn)頻次R為判斷依據(jù);如果R = O,則錯誤系數(shù)K4+ = 0.2,如果R> = 1,則K2- =1.0 ;c3)以Wk:為起始位置,ff k+4為結(jié)束位置,采用二元詞接續(xù)模型進行判斷,以連續(xù)兩個詞共現(xiàn)頻次R為判斷依據(jù);如果R = 0,則錯誤系數(shù)K3+ = 0.5,如果 1<R<2,則 K3+ = 0.2,如果 R> = 2,則 K3- =1.0 ;c4)以 Wk前兩個字的第一個字為結(jié)束位置,Wk+3后第二個字為結(jié)束位置,采用三元字模型進行判斷,以連續(xù)三個字共現(xiàn)頻次R為判斷依據(jù);如果R = 0,則錯誤系數(shù)K4+ = 0.2,如果R> = I,則K4- =1.0;
[0012]c5)以^前一個字為起始位置,W k+3后一個字為結(jié)束位置,采用二元字模型進行判斷,以連續(xù)兩個字共現(xiàn)頻次R為判斷依據(jù);如果R = O,則錯誤系數(shù)K5+ = 0.8,如果1〈R〈3,則K5+ = 0.5,如果R> = 3,則K5- =1.0 ;c6)針對某一待查錯單字,將所得錯誤系數(shù)相加,即K = 1+1(2+1(3+1(4+1(5,如果K〉= 1.5,則該處有錯,將錯誤文本進行標(biāo)示。
[0013]上述的中文文本自動校正方法,其中,所述步驟d)對生成的糾錯候選文本進行排序,所述排序過程如下:使用每個糾錯候選文本替換掉原錯誤文本,對替換后的單句重復(fù)步驟b)和步驟c)再進行查錯處理并得到相應(yīng)的錯誤系數(shù),按照錯誤系數(shù)大小順序?qū)m錯候選文本進行排序。
[0014]上述的中文文本自動校正方法,其中,所述步驟d)基于文本的錯誤特征和似然匹配方法構(gòu)造各種糾錯知識庫,所述糾錯知識庫包括錯字詞典、易混淆字詞典、相似碼詞典和/或字驅(qū)動雙向詞典。
[0015]本發(fā)明對比現(xiàn)有技術(shù)有如下的有益效果:本發(fā)明提供的中文文本自動校正方法,按單句查找分詞文本中出現(xiàn)的單字、雙字或三字及其以上散串,采用N-gram模型對分詞文本中出現(xiàn)的散串進行連續(xù)判斷確定標(biāo)識錯誤,并構(gòu)造糾錯知識庫生成糾錯候選文本,從而將查錯和糾錯過程很好地結(jié)合起來,具有查錯速度快,糾錯效率高的特點。
【附圖說明】
[0016]圖1為本發(fā)明中文文本自動校正流程示意圖;
[0017]圖2為本發(fā)明對待校正中文文本進行預(yù)處理過程示意圖;
[0018]圖3為本發(fā)明采用鍵盤輸入獲取待校正中文文本過程示意圖;
[0019]圖4為本發(fā)明采用語音輸入獲取待校正中文文本過程示意圖;
[0020]圖5為本發(fā)明的基于知識庫的語音信號到漢字識別過程示意圖;
[0021]圖6為本發(fā)明中文文本自動糾錯的詳細(xì)流程示意圖。
【具體實施方式】
[0022]下面結(jié)合附圖和實施例對本發(fā)明作進一步的描述。
[0023]圖1為本發(fā)明中文文本自動校正流程示意圖。
[0024]請參見圖1,本發(fā)明提供的中文文本自動校正方法,包括如下步驟:
[0025]a)輸入待校對中文文本,按單句對中文文本進行分詞預(yù)處理;采用語音或者鍵盤輸入待校對中文文本,所述預(yù)處理包括對輸入的待校對中文文本整理語法錯誤以及進行模式匹配檢查,待校對中文文本可以采用語音或者鍵盤輸入,鍵盤輸入過程如圖3所示:預(yù)先對字詞進行編碼,將擊鍵信號轉(zhuǎn)換為計算機所接受的碼序列,并將所述碼序列與字詞編碼相關(guān)聯(lián);語音輸入過程如圖4和圖5所示:接收來自話筒的語音輸入并轉(zhuǎn)為計算機所能接收的語音流,對語音流進行特征提取和模板匹配生成候選詞字組合,利用語言模型對候選詞字組合進行識別。
[0026]b)按單句查找分詞文本中出現(xiàn)的單字、雙字或三字及其以上散串。
[0027]c)采用N-gram模型對分詞文本中出現(xiàn)的散串進行連續(xù)判斷,并結(jié)合單字成詞概率對每個單句檢查文本詞級的錯誤;對三字及其以上散串的判斷過程如下:判斷散串中每個字單獨成詞的概率,確定第一錯誤系數(shù),采用二元詞接續(xù)模型依次判斷相鄰兩字成詞的概率,確定第二錯誤系數(shù),采用三元字接續(xù)模型依次判斷相鄰三個字成詞的概率,確定第三錯誤系數(shù),將所有錯誤系數(shù)相加確定文本詞級的最終錯誤系數(shù);N-Gram是大詞匯連續(xù)語音識別中常用的一種語言模型,對中文而言,稱之為漢語語言模型(CLM,Chinese LanguageModel)ο
[0028]d)構(gòu)造糾錯知識庫生成糾錯候選文本;具體可采用基于文本的錯誤特征和似然匹配方法構(gòu)造各種糾錯知識庫,所述糾錯知識庫包括錯字詞典、易混淆字詞典、相似碼詞典和/或字驅(qū)動雙向詞典;為了便于用戶選擇,本發(fā)明還可對生成的糾錯候選文本進行排序,所述排序過程如下:使用每個糾錯候選文本替換掉原錯誤文