一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法
【專利摘要】本發(fā)明涉及自然語言處理領(lǐng)域,特別涉及一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法,本發(fā)明應(yīng)用了雙向遞歸神經(jīng)網(wǎng)絡(luò)的技術(shù),通過對文本的基本元素,比如字、詞、標點符號等進行特征的自動學(xué)習(xí),然后通過遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進行序列建模,克服了傳統(tǒng)方式中需要手動設(shè)置特征的缺陷;不僅如此,本發(fā)明使用了雙向傳播的RNN,克服了單向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測過程中信息不對稱的問題,使得待識別的自然語言序列的分類判斷結(jié)果既依賴了前文信息又依賴了后文信息;使得信息提取和判斷的準確率更高,本發(fā)明方法特別適用于大數(shù)據(jù)分析中實體名稱提取,在大數(shù)據(jù)分析中具有重要的應(yīng)用價值。
【專利說明】
-種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明自然語言處理領(lǐng)域,特別設(shè)及一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方 法。
【背景技術(shù)】
[0002] 隨著隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了大量的、公開的網(wǎng)頁數(shù)據(jù),也因此催發(fā)了各種 基于大數(shù)據(jù)技術(shù)的新興產(chǎn)業(yè),比如互聯(lián)網(wǎng)醫(yī)療、互聯(lián)網(wǎng)教育、企業(yè)或者個人征信等。運些互 聯(lián)網(wǎng)產(chǎn)業(yè)的興起與繁榮離不開大量的數(shù)據(jù)信息分析;但是直接從網(wǎng)頁上獲取到數(shù)據(jù)大部分 都是非結(jié)構(gòu)化的,為了使用運些數(shù)據(jù),數(shù)據(jù)清洗工作成了各大公司耗費時間精力最多的地 方。而數(shù)據(jù)清洗當中特定信息提取,特別是命名實體的提取又是經(jīng)常發(fā)生的事情,比如做企 業(yè)征信,最常見的任務(wù)就是從大篇幅文本當中提取企業(yè)的名字。
[0003] 除了常見的按照"省市+關(guān)鍵字+行業(yè)+組織形式"的規(guī)則來命名之外,還存在大量 的例外,比如公司名沒有使用省市作為開頭,又或者在非正式文本里公司名可能W簡寫、縮 寫的方式出現(xiàn),運直接導(dǎo)致了使用傳統(tǒng)的方式來進行的信息解析的召回率不高。傳統(tǒng)的自 然語言處理方法使用條件隨機場(CRF)對文本進行序列建模,進而進行文本分析識別和發(fā) 現(xiàn)公司名,使用條件隨機場,首先需要根據(jù)待識別實體的特點來設(shè)計構(gòu)建特征模板。特征模 板包括指定窗口大小上下文的一階詞或者多階詞組,詞的前綴、后綴,詞性標注等狀態(tài)特 征;特征模板的構(gòu)造非常耗時耗力,但識別結(jié)果對特征模板的依賴程度極大;而手動設(shè)置的 特征模板往往僅依據(jù)部分樣本的特點,通用性差;而且通常只能用到局部的上下文信息,各 個特征模板的使用也是相互獨立的,預(yù)測不能依賴更長的歷史狀態(tài)信息,也無法利用更長 未來的信息反饋來糾正可能的歷史錯誤,預(yù)測過程復(fù)雜,預(yù)測結(jié)果難W實現(xiàn)全局最優(yōu)。
[0004] 為了提升企業(yè)名提取的質(zhì)量,研究一套基于自動化學(xué)習(xí)的方法來發(fā)現(xiàn)企業(yè)名稱的 流程是很有價值的。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供一種基于雙向遞歸神 經(jīng)網(wǎng)絡(luò)的信息提取方法。利用雙向遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主體名稱進行預(yù)測,本 發(fā)明方法在預(yù)測企業(yè)主體名稱時既依賴了前文信息又依賴了后文信息,預(yù)測的結(jié)果實現(xiàn)了 全局優(yōu)化,識別的可靠性更高;不僅如此,通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式,無需手動設(shè) 置特征模板,節(jié)省人力且通用性更好,可W在各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱,識別 的召回率較傳統(tǒng)基于規(guī)則的處理方法顯著提高。
[0006] 為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了 W下技術(shù)方案:
[0007] -種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法,使用雙向遞歸神經(jīng)網(wǎng)絡(luò)來識別待分 析文本中的企業(yè)主體名稱,包含W下實現(xiàn)步驟:
[000引(1)選取具有企業(yè)主體名稱的文檔進行人工標注,將其中的企業(yè)主體名稱分段標 記為:開始部分、中間部分、結(jié)束部分,將企業(yè)主體名稱W外的文字標記為無關(guān)部分;
[0009] (2)將經(jīng)過人工標注的訓(xùn)練樣本中的文字序列,先正向再反向輸入所述雙向遞歸 神經(jīng)網(wǎng)絡(luò)中來訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò),所述雙向遞歸神經(jīng)網(wǎng)絡(luò)采用W下向前算法公 式:
[0010]
[0011]
[0012]
[0013]
[0014]
[0015]
[0016] I為向量化的字或者詞的維度,H為隱含層的神經(jīng)元個數(shù),K是輸出層神經(jīng)元的個 數(shù),其中J<為t時刻向量化的字或者詞在第i維度的取值,為正向輸入(文字序列從頭至 尾正向輸入所述神經(jīng)網(wǎng)絡(luò))時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入,4為反 n 向輸入(文字序列從尾至頭反向輸入所述神經(jīng)網(wǎng)絡(luò))時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)隱含層 神經(jīng)元的輸入,?為正向輸入時t時刻隱含層神經(jīng)元的輸出,^為反向輸入時t時刻隱含層 神經(jīng)元的輸出,0〇為隱含層神經(jīng)元輸入到輸出的函數(shù),4為(先正向再反向輸入H時刻輸 出層神經(jīng)元的輸入,為t時刻輸出層神經(jīng)元的輸出,為一個概率值,表示第k個神經(jīng)元 的輸出值相對于K個神經(jīng)元輸出值總和的比值,取值最大的神經(jīng)元對應(yīng)的分類為t時刻 所述雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測的對應(yīng)字或詞的最終分類。
[0017] 具體的,^和^^是各個維度值均為0的向量,T為輸入序列的長度。
[0018] (3)將待分析文本中的文字序列輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)對輸入的文字序列進行分類,將分類結(jié)果中相鄰的屬于企業(yè)名稱部分的序列 所對應(yīng)的文字作為企業(yè)名稱整體提取出來。
[0019] 具體的,本發(fā)明方法包含對待處理文本進行分詞處理的步驟,所述待處理文本包 括標注文本(人工標注的文本)和待分析文本。將待處理文本適當分詞之后形成對應(yīng)的文字 序列,為后續(xù)處理提供便利。
[0020] 進一步的,所述步驟(1)根據(jù)分詞處理的結(jié)果對需要標注的文本中的文字序列進 行標注,將其中的企業(yè)名稱根據(jù)分詞結(jié)果分段標注為:開始部分、中間部分和結(jié)束部分,將 其他的文字序列標注為無關(guān)部分。
[0021] 進一步的,本發(fā)明方法中通過構(gòu)建詞典映射表來實現(xiàn)待處理文本序列中字或者詞 的向量化。
[0022] 進一步的,在標注文本中選取35%的樣本作為開發(fā)樣本,65%的樣本為訓(xùn)練樣本。 在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中僅保留在開發(fā)集上識別準確率最高的模型。
[0023] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的 信息提取方法,利用雙向遞歸神經(jīng)網(wǎng)絡(luò)來對文本中的企業(yè)主體名稱進行預(yù)測,本發(fā)明方法 使用雙向遞歸神經(jīng)網(wǎng)絡(luò)的方式在預(yù)測企業(yè)名稱時,在一次向前算法中先將文本序列從頭至 尾依次正向輸入所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,再從尾至頭反向輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中; 在正向和反向輸入的過程中各時刻雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包括上一時刻遞歸神 經(jīng)網(wǎng)絡(luò)的輸出信號。運樣在預(yù)測企業(yè)主體名稱時既依賴了前文信息又依賴了后文信息,預(yù) 測的結(jié)果實現(xiàn)了全局優(yōu)化,識別的可靠性更高。而且通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式,無 需手動設(shè)置特征模板,節(jié)省人力且通用性更好,可W在各種類型的文本中發(fā)現(xiàn)并提取企業(yè) 名稱,并可識別企業(yè)名稱的簡稱、縮寫,識別的召回率較傳統(tǒng)基于規(guī)則的處理方法顯著提 高,本發(fā)明方法可在海量的互聯(lián)網(wǎng)數(shù)據(jù)文本中發(fā)現(xiàn)并提取企業(yè)主體名稱,在數(shù)據(jù)分析領(lǐng)域 具有較高的應(yīng)用價值。
【附圖說明】:
[0024] 圖1為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法的實現(xiàn)過程示意圖。
[0025] 圖2為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法的實現(xiàn)信號局部流程示意圖。
[0026] 圖3為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法的實現(xiàn)信號流程示意圖。
[0027] 圖4為本基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法實施例1的實現(xiàn)信號流程示意圖。
【具體實施方式】
[0028] 下面結(jié)合試驗例及【具體實施方式】對本發(fā)明作進一步的詳細描述。但不應(yīng)將此理解 為本發(fā)明上述主題的范圍僅限于W下的實施例,凡基于本
【發(fā)明內(nèi)容】
所實現(xiàn)的技術(shù)均屬于本 發(fā)明的范圍。
[0029] 本發(fā)明提供一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法,利用雙向遞歸神經(jīng)網(wǎng)絡(luò) 來對待識別文本中的企業(yè)主體名稱進行預(yù)測。為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供W下技 術(shù)方案:
[0030] -種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法,通過雙向遞歸神經(jīng)網(wǎng)絡(luò)來識別待處 理文本中的企業(yè)主體名稱,包含如圖1所示的實現(xiàn)步驟:
[0031] (1)選取3000件具有企業(yè)主體名稱的文本進行人工標注,將其中的企業(yè)主體名稱 分段標記為:開始部分、中間部分和結(jié)束部分,將企業(yè)主體名稱W外的文字標記為無關(guān)部 分。具體的,將文本中的企業(yè)或者組織名稱的開始部分標注為B、中間部分標注為M、結(jié)束部 分標注為E,將其他不屬于企業(yè)或者組織機構(gòu)的文字標注為N,使用字母或者數(shù)字來標記文 字序列簡單且易于處理,為后續(xù)相關(guān)序列的操作提供便利。
[0032] (2)將經(jīng)過人工標記的訓(xùn)練樣本中的文字序列依次正向和反向輸入到所述雙向遞 歸神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò);(所述正向輸入是指將序列中的字或者詞按照 位置的前后順序,依次輸入對應(yīng)時刻的遞歸神經(jīng)網(wǎng)絡(luò)中,所述反向輸入是指將序列中的字 或者詞倒序,依次輸入對應(yīng)時刻的遞歸神經(jīng)網(wǎng)中)所述雙向歸神經(jīng)網(wǎng)絡(luò)每個當前時刻的輸 入信號還包括上一時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出信號,正向和反向信息輸入都結(jié)束 后,停止遞歸。
[0033] (3)將待分析文檔中的文字序列輸入到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過所述雙向 遞歸神經(jīng)網(wǎng)絡(luò)對輸入的文字序列進行分類,分別識別出待提取文字序列的類型(N、B、M或者 E),將分類結(jié)果中兩個相鄰N之間的B M E序列對應(yīng)的文字作為企業(yè)名稱整體提取出來。
[0034] 進一步的,本發(fā)明方法包含對待處理文本(所述待處理文本包括標注文本和待分 析文本)進行分詞處理的步驟。將待處理文本適當分詞之后形成對應(yīng)的文字序列,目前可用 的分詞工具很多比如說:斯坦福分詞器、ICTCLAS、盤古分詞、盾下分詞器……通過分詞將較 長的文本內(nèi)容分解成相對獨立的字詞單元,使待處理文本內(nèi)容離散化、序列化,為遞歸神經(jīng) 網(wǎng)絡(luò)的應(yīng)用提供基礎(chǔ)。
[0035] 進一步的,所述步驟(1)根據(jù)分詞處理的結(jié)果,對訓(xùn)練樣本中的企業(yè)主體名稱進行 相應(yīng)的標注。
[0036] 進一步的,為了識別非正式文本中的企業(yè)簡稱、縮寫,可W對應(yīng)選取一些(標注樣 本的1/3)包含企業(yè)簡稱、縮寫的非正式文本來進行標注,比如說將"3月9日晚間,XXYY集團 公司發(fā)布公告稱,擬W全資子公司香港XXYY股份有限公司為投資主體,出資300萬美元與其 他方共同成立XX人工智能科技公司,總股本1億股,香港XX占比15%。"經(jīng)過分詞處理為:"3 月/9日/晚間/,/XX/YY/集團公司/發(fā)布/公告/稱/,/擬/W/全資/子公司/香港/XX/YY/股份 有限公司/為/投資/主體/,/出資/300/萬美元/與/其他方/共同/成立/XX/人工智能/科技/ 公司/,/總/股本/1億股/,/香港/XX/占比/15%/。"將其中的"XX/YY/集團公司"標注為 "MME",件"香港/XX/YY/股份有限公哥'標注為"BMME"將"XX/人工智能/科技/公哥'標注為 "BMME",將"香港Ar標注為:"BM",而將其他字或者詞標注為N。運樣本標注文本中即包括 企業(yè)全稱也包括企業(yè)簡稱,標注1000件運樣的樣本,用來訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò)來訓(xùn) 練所述雙向遞歸神經(jīng)網(wǎng)絡(luò),當所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練完畢之后可W識別出類似結(jié)構(gòu)的 企業(yè)全稱和簡稱。
[0037] 具體的,所述巧驟(2)中,所述雙向遞向神經(jīng)網(wǎng)絡(luò)采用W下向前算法公式:
[00;3 引
[0039]
[0040]
[0041]
[0042]
[0043]
[0044] I為文字序列中的字或者詞向量化后的維度,H為隱含層的神經(jīng)元個數(shù),K是輸出層 神經(jīng)元的個數(shù),其中X;為t時刻向量化的字或者詞在第i維度的取值,為正向輸入(文字 序列正向輸入神經(jīng)網(wǎng)絡(luò))時,t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入(本發(fā)明 方法中所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的時刻序號與輸入文字序列的位置序號相對應(yīng),比如所述文 字序列中處于第3位置的字或者詞,對應(yīng)輸入第3時刻的雙向遞歸神經(jīng)網(wǎng)絡(luò)中為反向輸 入(文字序列反向輸入神經(jīng)網(wǎng)絡(luò))時,t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的輸出層神經(jīng)元的輸入, 為正向輸入時t時刻隱含層神經(jīng)元的輸出,?為反向輸入時t時刻隱含層神經(jīng)元的輸出,0 0為隱含層神經(jīng)元輸入到輸出的函數(shù),待^為*時刻輸出層神經(jīng)元的輸入,可^看化£4結(jié)合了 t時刻正向輸入時隱含層神經(jīng)元的輸出信號和反向輸入時的隱含層神經(jīng)元的輸出信號),4 的計算結(jié)果一直向前傳播直到所述雙向遞歸神經(jīng)網(wǎng)絡(luò)輸出該時刻的分類結(jié)果;運樣在計算 當前時刻對應(yīng)字或者詞的分類結(jié)果時既結(jié)合了歷史序列信息又結(jié)合了未來序列信息,依賴 了整個文本的上下文信息而非局部信息,從而使得預(yù)測結(jié)果達到了全局最優(yōu)。><為*時刻 輸出層神經(jīng)元的輸出,為一個概率值,表示第k個神經(jīng)元的輸出值相對于K個神經(jīng)元輸出 值總和的比值,通常??;最大的神經(jīng)元對應(yīng)的分類為該時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測 的最終分類。為正向輸入時乂;的權(quán)重系數(shù),W.;,為反向輸入時義;;的權(quán)重系數(shù),W方為 正向輸入時的權(quán)重系數(shù),W;-為反向輸入時的權(quán)重系數(shù),為^的權(quán)重系數(shù), 為皆的權(quán)重系數(shù)。
[0045] 和是各個維度值均為0的向量,T為輸入序列的長度。
[0046] 根據(jù)該向前算法公式,本發(fā)明方法的信號流向如圖2、圖3所示(其中vec-a、vec-b、 vec-c、vec-d、vec-e、vec-f、vec-g、vec-h、vec-i、vec-j、vec-k、vec-1、vec_m......vec-z等 代表詞典映射表中二維矩陣的行向量)。
[0047] 從上述向前算法公式可W看出,本發(fā)明方法使用雙向遞歸神經(jīng)網(wǎng)絡(luò)的方式在預(yù)測 企業(yè)名稱時,在一次向前算法中先將文本序列從頭至尾依次正向輸入所述遞歸神經(jīng)網(wǎng)絡(luò) 中,再從尾至頭反向輸入到所述遞歸神經(jīng)網(wǎng)絡(luò)中;在正向和反向輸入的過程中各時刻雙向 遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號包括該時刻向量化的字或者詞信號和上一時刻遞歸神經(jīng)網(wǎng)絡(luò)的 輸出信號,僅在反向輸入時所述雙向遞歸神經(jīng)網(wǎng)絡(luò)才輸出該時刻對應(yīng)字或者詞的分類結(jié) 果。運樣在預(yù)測企業(yè)主體名稱時既依賴了前文信息又依賴了后文信息,預(yù)測的結(jié)果為實現(xiàn) 了全局優(yōu)化,識別的可靠性更高。而且通過雙向遞歸神經(jīng)網(wǎng)絡(luò)的處理方式,無需手動設(shè)置特 征模板,節(jié)省人力且通用性更好,可W在各種類型的文本中發(fā)現(xiàn)并提取企業(yè)名稱,識別的召 回率較傳統(tǒng)基于規(guī)則的處理方法顯著提高。
[004引進一步的,本發(fā)明采用上述向前算法在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)中來逐層傳輸運算 數(shù)據(jù),在輸出層獲取到識別(預(yù)測)數(shù)據(jù),當預(yù)測結(jié)果與訓(xùn)練樣本的標注結(jié)果具有偏差時,通 過神經(jīng)網(wǎng)絡(luò)中經(jīng)典的誤差反向傳播算法來調(diào)整神經(jīng)網(wǎng)絡(luò)中的各個權(quán)重,誤差反向傳播方法 將誤差逐級反向傳播分攤到各層的所有神經(jīng)元,獲得各層神經(jīng)元的誤差信號,進而修正各 神經(jīng)元的權(quán)重。通過向前算法逐層傳輸運算數(shù)據(jù),并通過向后算法來逐漸修改各神經(jīng)元的 權(quán)重的過程就是神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程;重復(fù)上述過程,直到預(yù)測結(jié)果的正確率達到設(shè)定的 闊值,停止訓(xùn)練,此時可認為所述雙向遞歸神經(jīng)網(wǎng)絡(luò)模型已經(jīng)訓(xùn)練完成。
[0049] 進一步的,所述步驟(3)中,將所述雙向遞歸神經(jīng)網(wǎng)絡(luò)分類結(jié)果中N B M…E N、N B M…N、N M…E N中B M…E、B M…、M-'E對應(yīng)的文字作為企業(yè)名稱整體提取出來,其中M…為 至少1個M組成的序列,運樣就完成了企業(yè)名稱的判斷和提取。運樣本發(fā)明方法不僅可W判 斷出命名規(guī)則的企業(yè)名稱:BM…E,也可W發(fā)現(xiàn)非正式文本中的企業(yè)簡稱:B M…、M…E,比如 說一家企業(yè)名稱在正式文本為:"北京XXXX有限公司"而在非正式文本中則可能W "北京 XXXX"的形式出現(xiàn),省略了常規(guī)企業(yè)名稱提取中所依賴的關(guān)鍵后綴:"企業(yè)"、"公司"、"集團" 等,而通過本發(fā)明方法運樣的簡稱或者縮寫:B M…、M…E也可W被提取出來,極大的提高了 企業(yè)名稱發(fā)現(xiàn)的召回率,改善了企業(yè)名稱提取不全而出現(xiàn)的信息漏判問題。
[0050] 進一步的,本發(fā)明方法中通過詞典映射表來實現(xiàn)待處理文本中字或者詞的向量 化。所述詞典映射表為一個二維矩陣,其中每一個行向量對應(yīng)一個字或者詞,而運種行向量 與字詞的對應(yīng)關(guān)系是在構(gòu)建運個詞典映射表時設(shè)置的。
[0051 ] 進一步的,在人工標注文本的樣本中隨機選取35 %的樣本作為開發(fā)樣本,65%的 樣本為訓(xùn)練樣本。在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中僅保留在開發(fā)集上識別準確率最高 的模型,可W防止所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過擬合,使訓(xùn)練結(jié)果朝著更加合理的方向 進行;且開發(fā)樣本與訓(xùn)練樣本采用統(tǒng)一標注標準,降低了無關(guān)復(fù)雜度,使開發(fā)集驗證的結(jié)果 更加可靠,。
[0化2]實施例1
[005引比如在網(wǎng)絡(luò)獲取了如下的新聞文本:"成都AB控股集團股份有限公司之全資子公司 成都AB電子有限公司擬聯(lián)合成都CDEF科技有限公司及2名自然人投資設(shè)立成都ABEF大數(shù)據(jù)金 服有限公司,為W銀行為主的金融機構(gòu)提供金融服務(wù)的商業(yè)大數(shù)據(jù)解決方案。"將運段文本使 用分詞器進行分詞的結(jié)果如下:"成都/A/B/控股/集團/股份/有限公司/之/全資/子公司/成 都/A/B/電子/有限公司/擬/聯(lián)合/成都/C/D/E/F/科技/有限公司/及/2/名/自然人/投資/設(shè) 立/成都/A/B/E/F/大數(shù)據(jù)/金/服/有限公司/,/為/W/銀行/為主/的/金融/機構(gòu)/提供/金 融/服務(wù)/的/商業(yè)/大數(shù)據(jù)/解決方案/。"經(jīng)過分詞處理后形成了長度為55的文字序列,將上 述文字序列經(jīng)過事先設(shè)置好的詞典映射表后,形成了對應(yīng)包含55個向量數(shù)據(jù)的序列,將上 述向量數(shù)據(jù)序列依次輸入訓(xùn)練好的雙向遞歸神經(jīng)網(wǎng)絡(luò)中,經(jīng)過所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的預(yù) 測最終輸出:BMMMMMENNNBMMMENNBMMMMMENNNNNNBMMMMMMMENNNNNNNNNNNNNN 順的序列(信號 流程女日圖4戶Zf示,其中('vec_a''、('vec_b''、('vec_c''、('vec_d''、('vec_e''、('vec-f''、('vec-邑''、 "vec-h"、"vec-i"、"vec-j"、"vec-k"、"vec-l"、"vec-m"、"vec-n"......"vec-z" 為詞典映身才 表中對應(yīng)的行向量),分別將其中"BMMMMME"、"BMMM護、"BMMMMM護、"BMMMMMMM護所對應(yīng)的 "成都AB控股集團股份"、"成都AB電子有限公司"、"成都CDEF科技有限公司"、"成都ABEF大 數(shù)據(jù)金服有限公司"提取出來,就完成了對該文本中企業(yè)名稱的提取工作。
【主權(quán)項】
1. 一種基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的信息提取方法,其特征在于,使用雙向遞歸神經(jīng)網(wǎng)絡(luò) 來識別待分析文本中的企業(yè)主體名稱。2. 如權(quán)利要求1所述的方法,其特征在于,包含以下實現(xiàn)步驟: (1) 選取具有企業(yè)主體名稱的文檔作為訓(xùn)練樣本,并進行人工標注,將其中的企業(yè)主體 名稱分段標記為:開始部分、中間部分和結(jié)束部分,將企業(yè)主體名稱以外的文字標記為無關(guān) 部分; (2) 將經(jīng)過人工標記的訓(xùn)練樣本中的文字序列,先正向再反向輸入所述雙向遞歸神經(jīng) 網(wǎng)絡(luò)中,訓(xùn)練所述雙向遞歸神經(jīng)網(wǎng)絡(luò); (3) 將待分析文本中的文字序列,先正向再反向輸入訓(xùn)練好的所述雙向遞歸神經(jīng)網(wǎng)絡(luò) 中,經(jīng)過雙向遞歸神經(jīng)網(wǎng)絡(luò)判斷出文字序列中各個詞或者字的類型,并將其中相鄰的屬于 企業(yè)名稱的開始、中間和結(jié)束部分所對應(yīng)的字詞作為一個整體提取出來。3. 如權(quán)利要求2所述的方法,其特征在于,所述雙向遞歸神經(jīng)網(wǎng)絡(luò)采用如下向前算法公 式:I為向量化的字或者詞的維度,Η為隱含層的神經(jīng)元個數(shù),K是輸出層神經(jīng)元的個數(shù),其 中·^為t時刻向量化的字或者詞在第i維度的取值,< 為正向輸入時t時刻所述雙向遞歸神 經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元的輸入,^為反向輸入時t時刻所述雙向遞歸神經(jīng)網(wǎng)絡(luò)的隱含層神 經(jīng)元的輸入,$為正向輸入時t時刻隱含層神經(jīng)元的輸出,%為反向輸入時t時刻隱含層神 經(jīng)元的輸出,θ〇為隱含層神經(jīng)元輸入到輸出的函數(shù),4為t時刻輸出層神經(jīng)元的輸入,3^為 t時刻輸出層神經(jīng)元的輸出,為一個概率值,表示第k個神經(jīng)元的輸出值相對于K個神經(jīng)元 輸出值總和的比值。4. 如權(quán)利要求3所述的方法,其特征在于,$和%+|是各個維度值均為0的向量,其中T為 輸入文字序列的長度。5. 如權(quán)利要求1至4之一所述的方法,其特征在于,包含對待處理文本進行分詞的過程, 所述待處理文本包括標注文本和待分析文本。6. 如權(quán)利要求5所述的方法,其特征在于,通過構(gòu)建詞典映射表來實現(xiàn)待處理文本序列 中字或者詞的向量化,所述詞典映射表為一個矩陣,其中的每個行向量對應(yīng)一個字或者詞, 而行向量與字或者詞的對應(yīng)關(guān)系在構(gòu)建所述詞典映射時設(shè)置的。7. 如權(quán)利要求6所述的方法,其特征在于,在進行數(shù)據(jù)標注時,將待標注文本中的企業(yè) 名稱的開始部分標記為B、中間部分標記為M、結(jié)束部分標記為E,將企業(yè)主體名稱以外的文 字的無關(guān)部分標記為N。8. 如權(quán)利要求7所述的方法,其特征在于,所述步驟(3)中,將所述雙向遞歸神經(jīng)網(wǎng)絡(luò)分 類結(jié)果中Ν Β Μ…Ε Ν、Ν Β Μ…Ν、Ν Μ…E N中Β Μ…Ε、Β Μ…、Μ…E對應(yīng)的文字作為企業(yè)名稱 整體提取出來,其中Μ···為至少1個Μ組成的序列。9. 如權(quán)利要求8所述的方法,其特征在于,在標注文本中選取35%的樣本作為開發(fā)樣 本,65 %的樣本為訓(xùn)練樣本。10. 如權(quán)利要求9所述的方法,其特征在于,在所述雙向遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中僅保 留在開發(fā)集上識別準確率最尚的t旲型。
【文檔編號】G06F17/27GK105955952SQ201610284717
【公開日】2016年9月21日
【申請日】2016年5月3日
【發(fā)明人】劉世林, 何宏靖
【申請人】成都數(shù)聯(lián)銘品科技有限公司