两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

漢老雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法_2

文檔序號:9304534閱讀:來源:國知局
索結(jié)果數(shù)據(jù)庫里的網(wǎng)頁,自動提取漢老雙語平行信息;
(3)自動整理模塊:針對自動提取的漢老雙語平行信息,進(jìn)行數(shù)據(jù)過濾,并將經(jīng)過過濾處理后的漢老雙語平行數(shù)據(jù)存放到漢老雙語平行語料庫。
[0008]所述自動發(fā)現(xiàn)模塊的漢老雙語平行語料自動發(fā)現(xiàn)工作流程為:制定一組或多組漢老互譯關(guān)鍵詞組,通過搜索引擎獲取搜索結(jié)果,分析搜索結(jié)果并以之為目標(biāo)進(jìn)行數(shù)據(jù)獲取。
[0009]所述自動發(fā)現(xiàn)模塊的漢老雙語平行語料自動發(fā)現(xiàn)設(shè)計原則為:
a.所選關(guān)鍵詞組應(yīng)為特定領(lǐng)域范圍內(nèi)的漢老互譯詞組對;
b.使用的第三方搜索引擎工具為開放式提供搜索服務(wù)方;
c.通過關(guān)鍵詞組搜索得到結(jié)果后,只保存前η頁信息,η與所選關(guān)鍵詞的熱門程度關(guān)聯(lián),保存內(nèi)容包括搜素結(jié)果URL地址、搜索結(jié)果標(biāo)題和搜索結(jié)果摘要。
[0010]所述自動提取模塊的雙語平行語料自動提取工作流程為:使用網(wǎng)頁機器人對目標(biāo)網(wǎng)頁進(jìn)行訪問,使用對應(yīng)的漢老互譯關(guān)鍵詞組對目標(biāo)頁面內(nèi)容進(jìn)行內(nèi)容定位,從定位點開始,前后遍歷并獲取頁面數(shù)據(jù)。
[0011]所述自動提取模塊的網(wǎng)絡(luò)雙語平行語料提取原則:
a.規(guī)定訪問的頁面文件類型只能為“!^!^”、“!^!!!”、、!^!^”以及常見的頁面文件類型,對非規(guī)定類型的頁面將不進(jìn)行訪問;
b.訪問目標(biāo)網(wǎng)頁前,網(wǎng)絡(luò)檢查目標(biāo)網(wǎng)站的robots,txt文件,若目標(biāo)頁面存在于robots, txt文件上,將不對該目標(biāo)網(wǎng)頁進(jìn)行訪問;
c.要多抽取完整雙語數(shù)據(jù),在抽取過程中,包含在目標(biāo)語言數(shù)據(jù)里的html標(biāo)簽頁將視為抽取對象。
[0012]所述自動提取模塊的工作流程主要包含以下幾個步驟:
(1)非目標(biāo)語言信息過濾:分別對采集到的漢老數(shù)據(jù)進(jìn)行字符過濾,主要過濾html標(biāo)簽、網(wǎng)頁代碼和一些非語言符號,去除采集信息中的噪音數(shù)據(jù),得到干凈的漢老雙語平行數(shù)據(jù);
(2)漢老分詞過程:使用漢語和老撾語分詞工具,對漢語和老撾語數(shù)據(jù)進(jìn)行分詞操作,為后面的數(shù)據(jù)處理過程提供基礎(chǔ); 所述自動整理模塊的工作流程主要包含以下幾個步驟:
(1)長度比和互譯匹配率計算:針對自動抽取的數(shù)據(jù)進(jìn)行有效過濾,分別對抽取回來的漢菲雙語平行數(shù)據(jù)中的每一組雙語數(shù)據(jù)進(jìn)行長度比和互譯匹配率的計算,將長度差距較大的數(shù)據(jù)進(jìn)行過濾,并進(jìn)行漢菲雙語平行數(shù)據(jù)的互譯匹配判斷,篩選出正確的平行數(shù)據(jù);
(2)將經(jīng)過處理后的漢菲雙語平行數(shù)據(jù)將存放入漢菲雙語平行語料庫。
[0013]所述漢菲雙語平行語料自動采集系統(tǒng)的實現(xiàn)方法為:設(shè)置數(shù)據(jù)采集服務(wù)器、數(shù)據(jù)處理服務(wù)器、數(shù)據(jù)存儲服務(wù)器和外網(wǎng)交換機、內(nèi)網(wǎng)交換機,將自動發(fā)現(xiàn)模塊嵌入數(shù)據(jù)采集服務(wù)器,自動提取模塊、自動整理模塊嵌入數(shù)據(jù)處理服務(wù)器,為保證數(shù)據(jù)安全,使用內(nèi)外網(wǎng)物理隔離。當(dāng)數(shù)據(jù)采集服務(wù)器需要訪問互聯(lián)網(wǎng)時,數(shù)據(jù)采集服務(wù)器將與外網(wǎng)交換機連接,并斷開與內(nèi)網(wǎng)交換機的連接。當(dāng)數(shù)據(jù)采集服務(wù)器需要訪問內(nèi)網(wǎng)時,數(shù)據(jù)采集服務(wù)器將與內(nèi)網(wǎng)交換機連接,并斷開與外網(wǎng)交換機的連接。外網(wǎng)交換機實現(xiàn)外網(wǎng)間的通訊。內(nèi)網(wǎng)交換機實現(xiàn)內(nèi)網(wǎng)間的通訊。
[0014]數(shù)據(jù)采集人員將數(shù)據(jù)采集服務(wù)器與外網(wǎng)交換機連接,使數(shù)據(jù)采集服務(wù)器能訪問到互聯(lián)網(wǎng)服務(wù)。數(shù)據(jù)采集人員使用外網(wǎng)臺式計算機編排需要采集數(shù)據(jù)的相關(guān)關(guān)鍵詞組。確定采集任務(wù)后,向數(shù)據(jù)采集服務(wù)器發(fā)送啟動自動采集請求;數(shù)據(jù)采集服務(wù)器接收臺式電腦傳輸?shù)年P(guān)鍵詞組數(shù)據(jù)和任務(wù)啟動命令后,開始運行數(shù)據(jù)自動發(fā)現(xiàn)程序。通過互聯(lián)網(wǎng)獲取所有關(guān)鍵詞組的搜索結(jié)果后,將搜索結(jié)果保存到本地;數(shù)據(jù)采集人員將數(shù)據(jù)采集服務(wù)器與外網(wǎng)交換機斷開連接,并與內(nèi)網(wǎng)交換機連接。數(shù)據(jù)采集人員啟動數(shù)據(jù)處理服務(wù)器中的數(shù)據(jù)自動提取和自動整理程序,數(shù)據(jù)處理服務(wù)器讀取存儲在數(shù)據(jù)采集服務(wù)器中的搜索結(jié)果,進(jìn)行數(shù)據(jù)自動提取和自動整理。程序完成工作后,將獲取到的所有的雙語數(shù)據(jù)保存于數(shù)據(jù)存儲服務(wù)器。
[0015]本文的漢老雙語是指漢語和老撾語。
[0016]漢語(Hdmyii)又稱“華語”,是漢族的母語,亦是中華人民共和國和新加坡的官方語言、聯(lián)合國官方語言,也是世界上使用人數(shù)最多的語言,主要流通于中國、新加坡、馬來西亞,以及緬甸、泰國、美國、加拿大、澳大利亞、新西蘭、日本等國家的海外華人社區(qū)。也是馬來西亞、緬甸、美國、加拿大、澳洲、新西蘭等國家的通用少數(shù)民族語言。
[0017]老撾語是老撾的官方語言。使用人口約500萬。除分布于老撾外,也分布于泰國東北部和北部老撾族居住地區(qū)。老撾語屬漢藏語系壯侗語族侗臺語支。老撾文和泰文在外觀上十分相似,兩種語言在口語上基本能互相溝通。老撾文是在梵文和巴利文的基礎(chǔ)上逐漸演變而來的。泰國、越南和柬埔寨的泰族,緬甸的撣族,中國的傣族也粗通老撾語。
[0018]本發(fā)明的突出的實質(zhì)性特點和顯著的進(jìn)步是:
1、本發(fā)明提供的一種漢老雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法,充分利用網(wǎng)頁漢老雙語平行語料自動發(fā)現(xiàn)技術(shù)、網(wǎng)頁漢老雙語平行語料自動提取技術(shù)和網(wǎng)頁漢老雙語平行語料過濾技術(shù),形成漢老雙語平行語料的自動采集的系統(tǒng);
2、本發(fā)明使用的方案能從海量的互聯(lián)網(wǎng)信息中收集有價值的漢老雙語平行語料并進(jìn)行分析研究,為漢老語言研究和機器翻譯應(yīng)用提供重要基礎(chǔ)數(shù)據(jù),解決了語料采集人員和研究人員所面臨的數(shù)據(jù)來源的問題,為雙語語料自動采集的發(fā)展和漢老自然語言處理做出了杰出的貢獻(xiàn);
3、平行語料庫是語料庫的一種重要類型,漢老平行語料庫的建設(shè)目前還是空白,本發(fā)明的一種漢老雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法,其中包括漢老雙語平行信息自動發(fā)現(xiàn)、自動提取和自動整理,可以在語言對比、翻譯研究、語言教學(xué)和詞典編纂方面發(fā)揮獨特作用;
4、應(yīng)用本發(fā)明所提供的方案,能夠獲取兩種語言之間的平行語料,從而解決語言之間語料資源稀缺的問題,并且有利于獲得較高質(zhì)量的翻譯規(guī)則以構(gòu)建統(tǒng)計機器翻譯系統(tǒng);
5、在翻譯課教學(xué)中,利用本發(fā)明的平行語料庫,可以提供豐富的譯例,確定多種譯文的可能性,并擇優(yōu)選擇,根據(jù)平行語料庫信息還可以用來驗證雙語詞典、教學(xué)詞典、語法書中的例證、定義、使用規(guī)則和使用環(huán)境,從而確定教學(xué)重點;
6、漢老雙語平行語料庫建設(shè)與獲取存在著很大的困難,雖然投入了大量的人力、物力和財力,但是漢老雙語平行語料庫的來源主要集中在政府報告、新聞法律等特定領(lǐng)域,不適合真實文本應(yīng)用,鑒于互聯(lián)網(wǎng)上的大規(guī)模雙語文本并且具有很好的時效性和覆蓋性,本發(fā)明使用的系統(tǒng)和方法能從海量的互聯(lián)網(wǎng)信息中收集有價值的漢老雙語平行語料并進(jìn)行分析研究,并建成漢老雙語平行語料庫,推動相關(guān)技術(shù)發(fā)展和實用化具有重要的意義;
7、利用本發(fā)明的系統(tǒng)收集到相關(guān)的雙語數(shù)據(jù)與旅游景點、博物館、科技展覽館等的電子導(dǎo)覽設(shè)備連接,能夠把景區(qū)和陳列展示的物品圖文并茂的用雙語對照的形式表現(xiàn)出來,使游客在邊看邊聽中,汲取知識,了解內(nèi)涵,享受文化,游客們可以充分了解觀賞對象深厚的文化底蘊,同時,景點、展品的豐富內(nèi)涵在對照瀏覽后得到升華。
【附圖說明】
[0019]圖1是本發(fā)明漢老雙語平行語料自動采集的系統(tǒng)及實現(xiàn)方法的系統(tǒng)結(jié)構(gòu)圖;
圖2是本發(fā)明漢老雙語平行語料自動采集的方法的流程圖;
圖3是本發(fā)明漢老雙語平行語料過濾的方法的流程圖。
[0020]圖4是作為本發(fā)明的實施例中所采用的信息處理設(shè)備的個人計算機的示例性結(jié)構(gòu)的框圖;
圖5是本發(fā)明系統(tǒng)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖。
【具體實施方式】
[0021]
在下面的說明書部分中給出本發(fā)明實施例的具體實現(xiàn)方式,其中,詳細(xì)說明用于充分地公開本發(fā)明實施例的優(yōu)選實施例,而不對其施加限定。
[0022]如圖1所示,一種漢老雙語平行語料自動采集的系統(tǒng),包括漢老雙語平行信息的自動發(fā)現(xiàn)、自動提取、自動整理,首先是漢老雙語平行數(shù)據(jù)自動發(fā)現(xiàn)過程,制定需要采集語料的關(guān)鍵詞組,通過搜索引擎搜索網(wǎng)站,采集網(wǎng)頁得到搜索結(jié)果,對搜索結(jié)果的信息進(jìn)行過濾和篩選后,將經(jīng)過濾得搜索結(jié)果存儲于搜索結(jié)果數(shù)據(jù)庫;其次是漢老雙語平行語料自動提取過程,通過訪問搜索結(jié)果數(shù)據(jù)庫里的網(wǎng)頁,自動提取漢老雙語平行信息;最后是漢老雙語平行語料自動整理過程,針對自動提取的漢老雙語平行信息,進(jìn)行數(shù)據(jù)過濾,并將經(jīng)過
當(dāng)前第2頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
斗六市| 南平市| 琼中| 吉木萨尔县| 泸定县| 潜江市| 马公市| 怀来县| 平凉市| 博爱县| 瓮安县| 岐山县| 冀州市| 莱州市| 景德镇市| 冀州市| 信丰县| 刚察县| 林芝县| 葫芦岛市| 扎兰屯市| 介休市| 含山县| 来凤县| 定南县| 洛南县| 青阳县| 斗六市| 峨边| 额尔古纳市| 阳曲县| 龙川县| 玉林市| 商城县| 苏州市| 揭西县| 绥阳县| 西乌| 宁南县| 寿光市| 诸城市|