两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種語料提取器及提取語料的方法

文檔序號:8943050閱讀:1602來源:國知局
一種語料提取器及提取語料的方法
【技術領域】
[0001]本發(fā)明屬于計算語言學和翻譯技術領域,涉及一種語料提取器及提取語料的方法。
【背景技術】
[0002]發(fā)表于《中文信息學報》,2007年I月第21卷第I期的《面向機器輔助翻譯的漢語語塊自動抽取研究》,提出了一種統(tǒng)計和規(guī)則向結(jié)合的語塊抽取方法。使用Nagao串頻統(tǒng)計算法進行基于詞語的串頻統(tǒng)計,進一步分別利用統(tǒng)計方法、語塊邊界過濾規(guī)則對2-gram到10-gram語塊進行過濾,得到候選語塊,取得了令人滿意的結(jié)果。通過試驗發(fā)現(xiàn),在統(tǒng)計方法中互信息和信息熵向結(jié)合的而方法教單一的互信息方法好;在語塊邊界規(guī)則過濾方法中語塊左右邊界規(guī)則和停用詞對語塊抽取的結(jié)果有較大影響。試驗結(jié)果表明統(tǒng)計和過濾規(guī)則相結(jié)合的方法要優(yōu)于純粹的統(tǒng)計方法。應用本文方法,再輔以人工校對,可以方便地獲取重復出現(xiàn)的多詞語塊。在機器輔助翻譯系統(tǒng)中,使用現(xiàn)有的語塊抽取方法抽取重復的語言單位,就可以方便地建設翻譯記憶庫,提高翻譯得工作效率。
[0003]詹宏偉(杭州師范大學外國語學院)發(fā)表的《語料庫中語塊提取的工具與方法》,在自然語言處理領域,語言檢索的工具和技術進展很快,語塊識別的技術也從人工識別進入了機器識別。語塊檢索技術的起點是從語料庫中提取連續(xù)的、固定的詞串,進過幾年的發(fā)展,已逐步達到了其高級階段:提取非連續(xù)的可變的語塊。本文從語料庫研究的角度,分別從連續(xù)的語塊和非連續(xù)的語塊兩個方面,對應于的語塊識別與檢索技術和工具進行歸納和評述。
[0004]以上現(xiàn)有方法的優(yōu)點是速度快、效率高,缺點有:1)只適用于單一語種;2)受規(guī)則(尤其是邊界詞語規(guī)則)的限制,準確率較低,輔助翻譯實踐中可用性不高;3)文中出現(xiàn)外語詞匯、數(shù)字、符號、字母等,尤其位于語塊邊界時候準確率嚴重下降,甚至不能識別;4)非連續(xù)語塊識別率較低。

【發(fā)明內(nèi)容】

[0005]為了解決現(xiàn)有技術中的問題,本發(fā)明提出一種能夠提取所有語種的語料,語料提取準確率高,解決了混雜外語詞匯、數(shù)字、符號、字母等的語料提取,以及非連續(xù)語塊提取問題的語料提取器及提取語料的方法。
[0006]為了實現(xiàn)以上目的,本發(fā)明所采用的技術方案為:一種語料提取器包括:
[0007]設置模塊,包括語料庫定義單元,對語種名稱、編號、以及語種對應的庫文件名進行定義;符號定義單元,對各語種對應的句尾標點進行定義,語料匹配的最大范圍是句子;語料標識的顏色定義單元,語料提取時輪換用定義的顏色標識;
[0008]數(shù)據(jù)庫模塊,實現(xiàn)語料提取過程語料的存儲;
[0009]語料匹配模塊,實現(xiàn)全文搜索語料庫中存在的語料標識出來,作為人工提取的參考;
[0010]語料提取模塊,實現(xiàn)人工提取語料;
[0011 ] 語料修正模塊,實現(xiàn)人工修改語料;
[0012]以及語料導出模塊,實現(xiàn)語料的導出和入庫。
[0013]一種提取語料的方法,包括以下步驟:
[0014]I)打開文本,根據(jù)需要選擇語種,根據(jù)定義好的語種找到對應的語料庫,并定義句尾符號以及語料提取時輪換用定義的顏色標識;
[0015]2)根據(jù)語料庫中已有的語料自動匹配語料,匹配上的語料標注顏色,同時已經(jīng)匹配上的語料自動羅列于語料表中,同時顯示該語料出現(xiàn)頻率;
[0016]3)對已經(jīng)匹配的語料進行修正,修正后的語料在語料表中同步修正;
[0017]4)對沒有匹配的預料進行人工提取,檢索并選定需要提取的語料,將該語料提取至語料表,同時將打開的文本中所有同樣的語料標識出來,并且顯示該語料出現(xiàn)頻率;
[0018]5)提取完所有語料后,以文本格式導出語料的同時,所有語料同時入語料庫,相同語料覆蓋。
[0019]進一步,所述步驟I)中通過Word內(nèi)嵌的Com技術,將Word嵌入提取界面,通過Com接口操控Word,打開文本。
[0020]更進一步,所述步驟I)中的文本為word文件、excel文件或txt文件,打開txt和word文件時調(diào)用Word打開文本,打開excel文件時調(diào)用excel的Com接口將excel表格文件保存成txt文件,然后再調(diào)用Word打開。
[0021]進一步,所述步驟2)中語料自動匹配采用二分搜索算法查找,從句子的第一個字符開始搜索語料庫得到最大匹配的語料,如果沒有匹配,則從下個字符開始,依次搜索完整個句子,完成句子范圍的語料匹配,循環(huán)對全文每個句子處理,完成全文的語料的匹配。
[0022]進一步,所述步驟3)中修正模塊調(diào)出已經(jīng)確定的語料和對應的全文,選擇要修正的語料時,程序自動搜索全文,選中該條語料,提供對應的語言環(huán)境參考,人工重新選擇語料的范圍,修正語料,并替換語料列表中的語料,同時搜索全文相同的新語料,加上顏色標識,并統(tǒng)計新語料的顯示頻率,更改語料列表中新語料的頻率。
[0023]進一步,所述步驟4)中對于非連續(xù)語料,選定后提取至語料表,逐次提取直至提取完所有語料,同時顯示該語料出現(xiàn)頻率。
[0024]更進一步,所述步驟4)中語料提取時,通過定義的系統(tǒng)熱鍵,觸發(fā)提取過程,調(diào)用Word Com接口取到選擇的語料,調(diào)用Word Com接口循環(huán)搜索相同語料,調(diào)用Word Com接口實現(xiàn)語料以定義的顏色標識,并統(tǒng)計語料出現(xiàn)的頻率,將語料和頻率插入語料表中,更新術語列表的語料和頻率。
[0025]進一步,所述步驟5)中首先根據(jù)提取語料導出選擇按語料的文本順序、提取的時間或頻率排序,然后導出純文本格式的語料文件。
[0026]更進一步,所述步驟5)中語料全文確定完成后,對語料入庫作為以后提取的參考,循環(huán)對每條語料搜索,如果查到語料庫中已有,則不入庫,如果查不到,則查到語料入庫的位置,在該位置插入一條語料。
[0027]與現(xiàn)有技術相比,本發(fā)明的提取器適用于所有語種,將全語種進行內(nèi)嵌,具有語料提取模塊,便于人工提取語料,準確性由使用者人為控制,不用制定規(guī)則;具有符號定義單元,可提取混雜外語詞匯、數(shù)字、符號、字母等的語料;帶有統(tǒng)計功能,可實時提供任一語料重復次數(shù);具有記憶功能,在文本導入的時候,利用語料匹配模塊根據(jù)語料庫已有內(nèi)容自動匹配,沒有匹配的語料由語料提取模塊人工提取,全文提取并修正后導出語料的時候,可將庫中沒有的語料導入到語料庫中,方便以后提取。
[0028]本發(fā)明的方法中首先定義語種、句尾符號以及語料提取時輪換用定義的顏色標識,可提取混雜外語詞匯、數(shù)字、符號、字母等的語料;根據(jù)語料庫中已有的語料進行自動匹配并修正,同時帶有統(tǒng)計功能,可實時提供任一語料重復次數(shù);對于沒有自動匹配的語料進行人工提取,使用者人為控制準確性,準確率高,不用制定規(guī)則;對于非連續(xù)語料,選定后逐次提取至語料表,直至提取完所有語料,解決了非連續(xù)語塊提取的問題,本發(fā)明方法適用于所有語種,提取準確性由使用者人為控制,不用制定規(guī)則,可提取混雜外語詞匯、數(shù)字、符號、字母等的語料,帶有統(tǒng)計功能,可實時提供任一語料重復次數(shù),具有記憶功能,在文本導入的時候,可根據(jù)記憶庫已有內(nèi)容自動匹配,人工提取完畢后,導出語料的時候,可將庫中沒有的語料導入到庫中,方便以后提取。
【具體實施方式】
[0029]下面結(jié)合具體的實施例對本發(fā)明作進一步的解釋說明。
[0030]一種語料提取器,包括:
[0031]設置模塊,包括語料庫定義單元,對語種名稱、編號、以及語種對應的庫文件名進行定義;符號定義單元,對各語種對應的句尾標點進行定義,語料匹配的最大范圍是句子;語料標識的顏色定義單元,語料提取時輪換用定義的顏色標識;
[0032]數(shù)據(jù)庫模塊,實現(xiàn)語料提取過程語料的存儲;
[0033]語料匹配模塊,實現(xiàn)全文搜索語料庫中存在的語料標識出來,作為人工提取的參考;
[0034]語料提取模塊,實現(xiàn)人工提取語料;
[0035]語料修正模塊,實現(xiàn)人工修改語料;
[0036]以及語料導出模塊,實現(xiàn)語料的導出和入庫。
[0037]—種提取語料的方法,包括以下步驟:
[0038]I)打開文本,根據(jù)需要選擇語種,根據(jù)定義好的語種找到對應的語料庫,并定義句尾符號以及語料提取時輪換用定義的顏色標識;通過Word內(nèi)嵌的Com技術,將Word嵌入提取界面,通過Com接口操控Word,打開文本,文本為word文件、excel文件或txt文件,打開txt和word文件時調(diào)用Word打開文本,打開excel文件時調(diào)用excel的Com接口將excel表格文件保存成txt文件,然后再調(diào)用Word打開;
[0039]2)根據(jù)語料庫中已有的語料自動匹配語料,匹配上的語料標注顏色,同時已經(jīng)匹配上的語料自動羅列于語料表中,同時顯示該語料出現(xiàn)頻率;語料自動匹配采用二分搜索算法查找,從句子的第一個字符開始搜索語料庫得到最大匹配的語料,如果沒有匹配,則從下個字符開始,依次搜索完整個句子,完成句子范圍的語料匹配,循環(huán)對全文每個句子處理,完成全文的語料的匹配;
[0040]3)對已經(jīng)匹配的語料進行修正,修正后的語料在語料表中同步修正;修正時修正模塊調(diào)出已經(jīng)確定的語料和對應的全文,選擇要修正的語料時,程序自動搜索全文,選中該條語料,提供對應的語言環(huán)境參考,人工重新選擇語料的范圍,修正語料,并替換語料列表中的語料,同時搜索全文相同的新語料,加上顏色標識,并統(tǒng)計新語料的顯示頻率,更改語料列表中新語料的頻率;
[0041]4)對沒有匹配的預料進行人工提取,檢索并選定需要提取的語料,將該語料提取至語料表,同時將打開的文本中所有同樣的語料標識出來,并且顯示該語料出現(xiàn)頻率;對于非連續(xù)語料,選定后提取至語料表,逐次提取直至提取完所有語料,同時顯示該語料出現(xiàn)頻率;語料提取時,通過定義的系統(tǒng)熱鍵,觸發(fā)提取過程,調(diào)用Word Com接口取到選擇的語料,調(diào)用Word Com接口循環(huán)搜索相同語料,調(diào)用Word Com接口實現(xiàn)語料以定義的顏色標識,并統(tǒng)計語料出現(xiàn)的頻率,將語
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
栾城县| 隆昌县| 昌黎县| 榆社县| 府谷县| 宁武县| 全椒县| 黄浦区| 涿州市| 博乐市| 隆尧县| 南涧| 通州市| 孝昌县| 大庆市| 昌吉市| 伊通| 通道| 固安县| 江孜县| 湖州市| 长春市| 恩施市| 仁布县| 台东县| 太和县| 赤峰市| 张家港市| 西和县| 沿河| 镇平县| 壤塘县| 阳新县| 鄯善县| 庐江县| 四会市| 逊克县| 沈丘县| 垫江县| 河池市| 公安县|