一種基于集成學習的語種識別方法
【技術領域】
[0001] 本發(fā)明涉及少數民族語言的語種識別技術,具體涉及一種基于集成學習的語種識 別方法,屬于自然語言處理應用技術領域。
【背景技術】
[0002] 隨著全球化趨勢的加劇,國際間交流越來越密切,各國家和地區(qū)的人們因為經濟、 政治、文化、旅游的需要而頻繁往來,使得人們迫切地需要能夠突破語言的限制,自由地進 行交往,語種識別變得愈加重要。它在語音識別、信息檢索、自動機器翻譯、國防和日常生活 中體現出較強的應用價值,逐漸引起了相關研究和應用領域的廣泛關注,例如,可以把語種 識別看做是一種過濾技術,在信息檢索里面直接為用戶提供自己感興趣的語言,降低搜索 引擎的負擔。
[0003] 語種識別即自動地識別出一篇文檔或者一條句子所屬的語言種類。
[0004] 在現有的語種識別技術中,廣泛應用到了基于N元模型的語種識別方法。但對于 短文本或相似語言之間的語種識別問題,該方法的效果還難以令人滿意。
[0005] 實際上,相似語言間的語種識別之所以困難,有其語言學的根源。一個國家或者地 區(qū)從古至今,經歷了歷史的變迀,衍生出與原始語言相似的幾種語言甚至是語言變體。例 如,葡萄牙語有BrazilianPortuguese和EuropeanPortuguese兩種語言變體。因此,相 似語言或語言變體會共享很多的詞法及語法結構特征,區(qū)分相似語言或語言變體變得更加 困難。
[0006] 近些時期,有一些研究工作已經展開。例如基于圖的n-gram方法LIGA。但LIGA 存在著領域限制,一旦存在其他新的領域詞匯,便會使得準確率下降。另外,還有人提出使 用詞袋模型來區(qū)分語言變體。文章利用向量空間模型將長文本的單詞轉化為向量,再使用 分類器進行分類。不足之處在于向量空間模型往往都是處理長文本問題,而在短文本問題 上,由于向量空間過于稀疏,易造成維數災難,效果不佳。
【發(fā)明內容】
[0007] 本發(fā)明的目的是針對目前少數民族語言中短文本的語種識別問題,提出了一種基 于Bagging的相似語種識別方法。
[0008] 本發(fā)明的思想是將多項式貝葉斯、隨機森林、支持向量機和線性模型集成為一個 更強的分類器,并構造不同版本的訓練集,對數據集進行特征過濾,以增加不同子學習器間 的差異性,從而有效解決相似語言的短文本語種識別問題。
[0009] 本發(fā)明的大致過程是首先從訓練集D中按照預設的抽取比例參數max_SampleS選 取bootstrap樣例得到訓練集Db;其次基于D^安照特征選取比例參數max_features選取 樣例特征,并基于選取的特征對Db進行過濾得到訓練集Dt;再者基于Dt對多項式樸素貝葉 斯(MNBBL)、隨機森林(RFBL)、支持向量機(SVMBL)和線性模型(LMBL)四種基本分類器進 行訓練;最后利用多數表決把四種基本分類器組合成為一個更強的分類器。
[0010] 本發(fā)明的目的是通過以下技術方案實現的:
[0011] -種基于集成學習的語種識別方法,主要包括以下基于Bagging的相似語種識別 步驟:
[0012] 步驟1,基于訓練數據集D對多項式樸素貝葉斯(MNBBL)、隨機森林(RFBL)、支持向 量機(SVMBL)和線性模型(LMBL)四種基本分類器通過以下過程進行訓練:
[0013] (l)t= 1 ;
[0014] ⑵從訓練數據集D= {(Xl,yi),(x2,y2),. . .,(xn,yn)}中按照預設的抽取比例參 數max_samples選取bootstrap樣例作為訓練集Db,其中,D中包含η個已標注類別的實例 Ui,yi),每個實例Xi=[Xii,xi2,...,XiJT,是一個包含d個特征的向量,y;是X;所屬的類 另ij,ie[l,n],yieγ,γ= {1,2,一(1},(1表示樣例所屬的類別的個數;
[0015] (3)基于訓練集Db,按照預設的特征選取比例參數max_features選取樣例特征, 并基于選取的特征進行特征過濾,得到特征過濾后的訓練集Dt;
[0016] (4)基于Dt對多項式樸素貝葉斯(MNBBL)、隨機森林(RFBL)、支持向量機(SVMBL) 和線性模型(LMBL)四種基本分類器進行訓練,得到各基本分類器的第t個分類器,表示為 如下形式:
[0017] Mt= MNB(Dt);
[0018] Rt= RF(Dt);
[0019] St= SVM(Dt);
[0020] Lt= LM(Dt);
[0021] 其中,Mt表示第t個MNBBL分類器,Rt表示第t個RFBL分類器,St表示第t個 SVMBL分類器,Lt表示第t個LMBL分類器;
[0022] (5)t=t+1 ;如果t<T,轉到⑵;其中,T為預設的訓練次數;
[0023] 步驟2,使用步驟1訓練好的四種基本分類器通過以下過程對待識別樣例X進行識 別得到對應于四種分類器的X的預測類別:
[0024] (1)根據第t個分類器選取的特征對X進行特征過濾得到過濾后的待識別樣例xt, te[l,T];
[0025] (2)使用四種基本分類器的第t個分類器對&進行識別得到識別結果Μt(xt)、 Rt (xt)、St (xt)和Lt (xt);
[0026] (3)對四種基本分類器采用簡單投票規(guī)則得到對應基本分類器x的預測類別yni、 yjRy1,數學表述如下:
[0027]
[0028]
[0029]
[0030]
[0031]
[0032] 步驟3,利用整合策略把四種基本分類器組合成為一個更強的分類器。
[0033] 作為優(yōu)選,步驟1所述訓練數據集D可以通過以下過程獲?。?br>[0034] (1)準備訓練語料并對之進行預處理得到初始語料集;
[0035] (2)對初始語料集按照識別目標規(guī)范化數據集樣例得到數據集的樣例;
[0036] (3)選定特征空間,并基于特征空間對數據集的樣例進行向量化得到訓練數據集 D〇
[0037] 作為優(yōu)選,步驟1中子步驟(3)進一步通過以下過程完成:
[0038] (1)按照特征選取比例參數max_features,對數據集進行特征選取并做標記;
[0039] (2)根據步驟(1)中選取的特征訓練集中的bootstrap樣例進行特征過濾,就可以 形成新的訓練數據集。
[0040] 作為優(yōu)選,步驟1中所述選取bootstrap樣例以及選取樣例特征均為隨機選擇。
[0041] 作為優(yōu)選,當步驟2中所述簡單投票規(guī)則得到多個類別的投票數相同且均最大 時,根據類別由低到高的優(yōu)先級順序確定X的預測類別。
[0042] 作為優(yōu)選,步驟3所述的整合策略為簡單投票規(guī)則、貝葉斯投票法、基于D-S證據 理論的整合方式中的任一種。
[0043] 作為優(yōu)選,當所述整合策略為簡單投票規(guī)則時,如果得到的多個類別的投票數相 同且均為最大,則按照基本分類器由高到低的優(yōu)先級順序MNBBBL>RFBL>SVMBL>LMBL確定X 的最終識別類別。
[0044] 有益效果
[0045] 本發(fā)明設計了一種基于集成學習的語種識別方法。相比現有方法,該方法可以識 別少數民族的短文本語言,且準確率得到了提高。
【附圖說明】
[0046] 圖1為本發(fā)明實施例一種基于集成學習的語種識別方法流程示意圖。
【具體實施方式】
[0047] 下面結合附圖和實施例,對本發(fā)明的【具體實施方式】作進一步詳細描述。
[0048] 下面以維語、哈薩克語和柯爾克孜語三種少數民族語言的識別為例對本發(fā)明的實 施步驟進行詳細說明:
[0049] 在詳細描述【具體實施方式】之前,先給出以下形式化符號和定義:
[0050] 訓練數據集D={(Xpyj,(x2,y2,),…,(xn,yn)},