本發(fā)明涉及信息提取及文本挖掘領(lǐng)域,特別涉及一種信息處理的方法及裝置。
背景技術(shù):
:大部分企業(yè)在運(yùn)作時(shí)都會(huì)產(chǎn)生大量的企業(yè)公文,企業(yè)的企業(yè)公文中包括大量有助于了解企業(yè)的有用信息。為了便于用戶快速了解企業(yè),可以采用計(jì)算機(jī)從企業(yè)公文中提取有用信息并顯示給用戶。企業(yè)公文在撰寫時(shí)常常使用自然語(yǔ)言進(jìn)行撰寫。在撰寫時(shí)為了避免文章中詞匯的重復(fù)使用,使文章更加簡(jiǎn)潔、緊湊,在寫作中指示代詞會(huì)被頻繁使用。例如,某公司的企業(yè)公文中可能大量使用本公司這個(gè)指示代詞來(lái)代替該公司的公司名稱,由于公司名稱包括的文字?jǐn)?shù)目往往較多,使用本公司代替公司名稱,使文章變的簡(jiǎn)潔、緊湊。在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問(wèn)題:由于企業(yè)公文包括大量的指示代詞,這樣計(jì)算機(jī)在對(duì)企業(yè)公文進(jìn)行信息提取時(shí),由于不知道指示代詞指代的對(duì)象是什么,給計(jì)算機(jī)對(duì)企業(yè)公文的分析增加難度,降低信息提取的效率和準(zhǔn)確性。技術(shù)實(shí)現(xiàn)要素:為了提高信息提取的效率和準(zhǔn)確性,本發(fā)明提供了一種信息處理的方法及裝置。所述技術(shù)方案如下:第一方面,提供了一種信息處理的方法,所述方法包括:通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;獲取所述指示代詞屬于的代詞分類;根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;在所述非結(jié)構(gòu)化文本文件中將所述指示代詞替換為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述獲取所述指示代詞屬于的代詞分類,包括:確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預(yù)設(shè)的至少一個(gè)指示代詞;根據(jù)所述指示代詞集合的集合標(biāo)識(shí),從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取所述指示代詞屬于的代詞分類??蛇x的,所述根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,包括:當(dāng)所述代詞分類為預(yù)指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;當(dāng)所述代詞分類為回指類局部有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;當(dāng)所述代詞分類為回指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中確定首次出現(xiàn)所述指示代詞的位置,查找位于所述位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱之后,還包括:根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別所述非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,所述規(guī)則表達(dá)式定義了實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu);將所述非結(jié)構(gòu)化文本文件包括的所述實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為所述實(shí)體機(jī)構(gòu)的全稱??蛇x的,所述根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別所述非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,包括:從所述非結(jié)構(gòu)化文本文件中識(shí)別出所述預(yù)設(shè)的規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的字符串,所述字符串包括實(shí)體機(jī)構(gòu)的簡(jiǎn)稱;從所述非結(jié)構(gòu)化文本文件中查找位于所述字符串之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱為所述實(shí)體機(jī)構(gòu)的全稱。第二方面,提供了一種信息處理的裝置,所述裝置包括:識(shí)別模塊,用于通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;獲取模塊,用于獲取所述指示代詞屬于的代詞分類;確定模塊,用于根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;替換模塊,用于在所述非結(jié)構(gòu)化文本文件中將所述指示代詞替換為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述獲取模塊包括:第一確定單元,用于確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預(yù)設(shè)的至少一個(gè)指示代詞;獲取單元,用于根據(jù)所述指示代詞集合的集合標(biāo)識(shí),從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取所述指示代詞屬于的代詞分類。可選的,所述確定模塊包括:第二確定單元,用于當(dāng)所述代詞分類為預(yù)指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;第三確定單元,用于當(dāng)所述代詞分類為回指類局部有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;第四確定單元,用于當(dāng)所述代詞分類為回指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中確定首次出現(xiàn)所述指示代詞的位置,查找位于所述位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述識(shí)別模塊,還用于根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別所述非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,所述規(guī)則表達(dá)式定義了實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu);所述替換模塊,還用于將所述非結(jié)構(gòu)化文本文件包括的所述實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為所述實(shí)體機(jī)構(gòu)的全稱??蛇x的,所述識(shí)別模塊包括:識(shí)別單元,用于從所述非結(jié)構(gòu)化文本文件中識(shí)別出所述預(yù)設(shè)的規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的字符串,所述字符串包括實(shí)體機(jī)構(gòu)的簡(jiǎn)稱;查詢標(biāo)記單元,用于從所述非結(jié)構(gòu)化文本文件中查找位于所述字符串之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱為所述實(shí)體機(jī)構(gòu)的全稱。第三方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)計(jì)算機(jī)程序,包括:用于通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱的指令;用于獲取所述指示代詞屬于的代詞分類的指令;用于根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱的指令;用于在所述非結(jié)構(gòu)化文本文件中將所述指示代詞替換為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱的指令。第四方面,提供了一種計(jì)算程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括在所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)的所述計(jì)算機(jī)程序,并且所述計(jì)算程序通過(guò)處理器進(jìn)行加載來(lái)實(shí)現(xiàn)如下的方法,包括:通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;獲取所述指示代詞屬于的代詞分類;根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;在所述非結(jié)構(gòu)化文本文件中將所述指示代詞替換為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。本發(fā)明提供的技術(shù)方案的有益效果是:通過(guò)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,獲取標(biāo)記的指示代詞屬于的代詞分類,根據(jù)該代詞分類和被標(biāo)記的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。由于將非結(jié)構(gòu)化文本文件中的每個(gè)指示代詞替換為各自所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,減少了對(duì)非結(jié)構(gòu)化文本文件的分析難度,提高了信息提取的效率和準(zhǔn)確性。附圖說(shuō)明圖1是本發(fā)明實(shí)施例1提供的一種信息處理的方法流程圖;圖2-1是本發(fā)明實(shí)施例2提供的一種信息處理的方法流程圖;圖2-2是本發(fā)明實(shí)施例2提供的一種非結(jié)構(gòu)化文本文件的示意圖;圖3-1是本發(fā)明實(shí)施例3提供的一種信息處理的方法流程圖;圖3-2是本發(fā)明實(shí)施例3提供的一種非結(jié)構(gòu)化文本文件的示意圖;圖4是本發(fā)明實(shí)施例4提供的一種信息處理的裝置結(jié)構(gòu)示意圖;圖5是本發(fā)明實(shí)施例5提供的一種終端設(shè)備的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。如下任一實(shí)施例的執(zhí)行主體可以為服務(wù)器或終端等,終端可以為臺(tái)式計(jì)算機(jī)、筆記本電腦或平板電腦等。實(shí)施例1參見(jiàn)圖1,本發(fā)明實(shí)施例提供了一種信息處理的方法,所述方法包括:步驟101:通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。步驟102:獲取該指示代詞屬于的代詞分類。步驟103:根據(jù)該代詞分類和被標(biāo)記的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。步驟104:在該非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,上述步驟102可以包括:1021:確定該指示代詞所屬于的指示代詞集合,該指示代詞集合包括預(yù)設(shè)的至少一個(gè)指示代詞。1022:根據(jù)該指示代詞集合的集合標(biāo)識(shí),從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取該指示代詞屬于的代詞分類??蛇x的,上述步驟103可以包括:1031:當(dāng)該代詞分類為預(yù)指類全局有效代詞時(shí),在非結(jié)構(gòu)化文本文件中查找位于該指示代詞之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。1032:當(dāng)該代詞分類為回指類局部有效代詞時(shí),在非結(jié)構(gòu)化文本文件中查找位于該指示代詞之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。1033:當(dāng)該代詞分類為回指類全局有效代詞時(shí),在非結(jié)構(gòu)化文本文件中確定首次出現(xiàn)該指示代詞的位置,查找位于該位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,在執(zhí)行完步驟101之后,還包括:步驟105:根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,該規(guī)則表達(dá)式定義了實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu)。步驟106:將非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為實(shí)體機(jī)構(gòu)的全稱。可選的,上述步驟105可以包括:1051:從非結(jié)構(gòu)化文本文件中識(shí)別出預(yù)設(shè)的規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的字符串,該字符串包括實(shí)體機(jī)構(gòu)的簡(jiǎn)稱。1052:從非結(jié)構(gòu)化文本文件中查找位于該字符串之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱為實(shí)體機(jī)構(gòu)的全稱。在本發(fā)明實(shí)施例中,通過(guò)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,獲取標(biāo)記的指示代詞屬于的代詞分類,根據(jù)該代詞分類和被標(biāo)記的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。由于將非結(jié)構(gòu)化文本文件中的每個(gè)指示代詞替換為各自所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,減少了對(duì)非結(jié)構(gòu)化文本文件的分析難度,提高了信息提取的效率和準(zhǔn)確性。實(shí)施例2參見(jiàn)圖2,本發(fā)明實(shí)施例提供了一種信息處理的方法,該方法用于獲取非結(jié)構(gòu)化文本文件包括的指示代詞和該指示代詞所指代的機(jī)構(gòu)名稱,包括:步驟201:通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)都是目前已有的系統(tǒng)。非結(jié)構(gòu)化文本文件是企業(yè)公文文件,非結(jié)構(gòu)化文本文件包括文字等內(nèi)容。例如,參見(jiàn)圖2-2所示的“北京###有限公司”的非結(jié)構(gòu)化文本文件,該非結(jié)構(gòu)化文本文件就是由文字組成。在本步驟中,將非結(jié)構(gòu)化文本文件輸入到分詞系統(tǒng)中,通過(guò)分詞系統(tǒng)對(duì)非結(jié)構(gòu)化文本文件中的文字進(jìn)行分詞,然后將經(jīng)過(guò)分詞的非結(jié)構(gòu)化文本文件輸入到實(shí)體識(shí)別系統(tǒng)中,通過(guò)實(shí)體識(shí)別系統(tǒng)對(duì)非結(jié)構(gòu)化文本文件包括的分詞一個(gè)一個(gè)地進(jìn)行識(shí)別。對(duì)于任一個(gè)分詞,當(dāng)實(shí)體識(shí)別系統(tǒng)識(shí)別出該分詞為實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱時(shí),在非結(jié)構(gòu)化文本文件中可以給該分詞添加用于標(biāo)記機(jī)構(gòu)名稱的標(biāo)記符號(hào),當(dāng)實(shí)體識(shí)別系統(tǒng)識(shí)別出該分詞為指示代詞時(shí),在非結(jié)構(gòu)化文本文件中可以給該分詞添加用于標(biāo)記指示代詞的標(biāo)記符號(hào)。例如,通過(guò)分詞系統(tǒng)對(duì)如圖2-2所示的非結(jié)構(gòu)化文本文件包括的文字進(jìn)行分詞,將該非結(jié)構(gòu)化文本文件分成“在”、“2017年”、“4月”、“北京###有限公司”、“在”、“污水”、“處理”、“技術(shù)”、“取得”等多個(gè)分詞。然后將經(jīng)過(guò)分詞的該非結(jié)構(gòu)化文本文件輸入到實(shí)體識(shí)別系統(tǒng),通過(guò)實(shí)體識(shí)別系統(tǒng)對(duì)分詞“在”、“2017年”、“4月”分詞進(jìn)行一一識(shí)別,識(shí)別出均不是機(jī)構(gòu)名稱,也均不是指示代詞。繼續(xù)通過(guò)實(shí)體識(shí)別系統(tǒng)對(duì)分詞“北京###有限公司”進(jìn)行識(shí)別,識(shí)別出為機(jī)構(gòu)名稱,在圖2-2所示的非結(jié)構(gòu)化文本文件中給該分詞添加標(biāo)記1,用于標(biāo)記機(jī)構(gòu)名稱。繼續(xù)通過(guò)實(shí)體識(shí)別系統(tǒng)對(duì)分詞“在”進(jìn)行識(shí)別,識(shí)別出即不是機(jī)構(gòu)名稱,又不是指示代詞。按上述流程對(duì)圖2-2所示的非結(jié)構(gòu)化文本文件中的每個(gè)分詞進(jìn)行識(shí)別,并在圖2-2所示的非結(jié)構(gòu)化文本文件中添加了標(biāo)記2、3、4、5、6、7和8,其中標(biāo)記2、3、4、6和8,用于標(biāo)記指示代詞,標(biāo)記5和7用于標(biāo)記機(jī)構(gòu)名稱。所謂實(shí)體機(jī)構(gòu)就是例如像企事業(yè)單位、公司、組織或網(wǎng)站等單位,所謂指示代詞用于表示指示概念的代詞,即用于指示或標(biāo)識(shí)人或事物的代詞。就是用于指代實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱的代詞。步驟202:對(duì)于非結(jié)構(gòu)化文本文件中的任一個(gè)指示代詞,獲取該指示代詞屬于的代詞分類。指示代詞的代詞分類通常包括三種,分別為預(yù)指類全局有效代詞、回指類全局有效代詞和回指類局部有效代詞。所謂預(yù)指類全局有效代詞是預(yù)指某個(gè)接下來(lái)會(huì)提到的語(yǔ)言單位,該類型的指示代詞所指代的機(jī)構(gòu)名稱的位置位于該指示代詞的位置之后;所謂回指類全局有效代詞是回指某個(gè)以前說(shuō)到過(guò)的語(yǔ)言單位,該類型的指示代詞所指代的機(jī)構(gòu)名稱的位置位于該指示代詞的位置之前且該指示代詞在整篇非結(jié)構(gòu)化文本文件中用于指示該機(jī)構(gòu)名稱;所謂回指類局部有效代詞是指指示代詞所指代的機(jī)構(gòu)名稱的位置位于該指示代詞的位置之前且該指示代詞在非結(jié)構(gòu)化文本文件中的一段或多段內(nèi)容中用于指示該機(jī)構(gòu)名稱。例如,參見(jiàn)圖2-2所示的非結(jié)構(gòu)化文本文件,對(duì)于標(biāo)記2和標(biāo)記3所標(biāo)記的指示代詞“本公司”就是一個(gè)回指類全局有效代詞,其所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱“北京###有限公司”的位置位于指示代詞“本公司”之前,且指示代詞“本公司”在整篇非結(jié)構(gòu)化文本文件中都指示機(jī)構(gòu)名稱“北京###有限公司”。標(biāo)記6所標(biāo)記的指示代詞“該公司”和標(biāo)記8所標(biāo)記的指示代詞“該公司”均為回指類局部有效代詞。標(biāo)記6標(biāo)記的指示代詞“該公司”指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”的位置位于指示代詞“該公司”之前,且指示代詞“該公司”在該非結(jié)構(gòu)化文本文件的第二段中都指示機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”。標(biāo)記8標(biāo)記的指示代詞“該公司”指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱“北京***網(wǎng)絡(luò)公司”的位置位于指示代詞“該公司”之前,且指示代詞“該公司”在該非結(jié)構(gòu)化文本文件的第三段中都指示機(jī)構(gòu)名稱“北京***網(wǎng)絡(luò)公司”。標(biāo)記4所標(biāo)記的指示代詞“子公司”為預(yù)指類全局有效代詞。標(biāo)記4標(biāo)記的指示代詞“子公司”指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”的位置位于指示代詞“子公司”之后,且指示代詞“子公司”在該非結(jié)構(gòu)化文本文件中都指示機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”。每個(gè)代詞分類對(duì)應(yīng)一個(gè)指示代詞集合,在執(zhí)行本步驟之前,本領(lǐng)域的技術(shù)人員可以對(duì)大量的非結(jié)構(gòu)化文本文件進(jìn)行分析得到當(dāng)前出現(xiàn)的指示代詞,對(duì)得到的每個(gè)指示代詞進(jìn)行分類,將每個(gè)指示代詞添加到其所屬代詞分類對(duì)應(yīng)的指示代詞集合中。每個(gè)指示代詞集合具有集合標(biāo)識(shí),對(duì)于每個(gè)代詞分類,事先將該代詞分類和該代詞分類對(duì)應(yīng)的指示代詞集合的集合標(biāo)識(shí)存儲(chǔ)在代詞分類與集合標(biāo)識(shí)的對(duì)應(yīng)關(guān)系中。指示代詞集合包括回指類全局有效代詞集合、回指類局部有效代詞集合和預(yù)指類全局有效代詞集合。參見(jiàn)下表1所示的代詞分類與集合標(biāo)識(shí)的對(duì)應(yīng)關(guān)系,回指類全局有效代詞集合的集合標(biāo)識(shí)為id1且其對(duì)應(yīng)的代詞分類為回指類全局有效代詞,回指類局部有效代詞集合的集合標(biāo)識(shí)為id2且其對(duì)應(yīng)的代詞分類為回指類局部有效代詞集合,預(yù)指類全局有效代詞集合的集合標(biāo)識(shí)為id3且其對(duì)應(yīng)的代詞分類為預(yù)指類全局有效代詞。表1代詞分類集合標(biāo)識(shí)回指類全局有效代詞id1回指類局部有效代詞id2預(yù)指類全局有效代詞id3本步驟可以為:確定該指示代詞所屬于的指示代詞集合,該指示代詞集合包括預(yù)設(shè)的至少一個(gè)指示代詞;根據(jù)該指示代詞集合的集合標(biāo)識(shí),從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取該指示代詞屬于的代詞分類。例如,對(duì)于標(biāo)記2所示的指示代詞“本公司”,確定該指示代詞“本公司”所屬的回指類全局有效代詞集合,根據(jù)該回指類全局有效代詞集合的集合標(biāo)識(shí)id1,從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取該指示代詞“本公司”屬于的代詞分類為“回指類全局有效代詞”。再例如,對(duì)于標(biāo)記4所示的指示代詞“子公司”,確定該指示代詞“子公司”所屬的預(yù)指類全局有效代詞集合,根據(jù)該預(yù)指類全局有效代詞集合的集合標(biāo)識(shí)id3,從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取該指示代詞“子公司”屬于的代詞分類為“預(yù)指類全局有效代詞”。還例如,對(duì)于標(biāo)記6所示的指示代詞“該公司”,確定該指示代詞“該公司”所屬的回指類局部有效代詞集合,根據(jù)該回指類局部有效代詞集合的集合標(biāo)識(shí)id2,從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取該指示代詞“該公司”屬于的代詞分類為“回指類局部有效代詞”。步驟203:當(dāng)該代詞分類為預(yù)指類全局有效代詞時(shí),在非結(jié)構(gòu)化文本文件中查找位于該指示代詞之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。例如,對(duì)于標(biāo)記4所標(biāo)記的指示代詞“子公司”,在圖2-2所示的非結(jié)構(gòu)化文本文件中查找位于該指示代詞“子公司”之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱,該機(jī)構(gòu)名稱為標(biāo)記5所標(biāo)記的機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”,將該機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”確定為該指示代詞“子公司”所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。步驟204:當(dāng)該代詞分類為回指類局部有效代詞時(shí),在非結(jié)構(gòu)化文本文件中查找位于該指示代詞之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。例如,對(duì)于標(biāo)記6所標(biāo)記的指示代詞“該公司”,在圖2-2所示的非結(jié)構(gòu)化文本文件中查找位于該指示代詞“該公司”之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱,該機(jī)構(gòu)名稱為標(biāo)記5所標(biāo)記的機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”,將該機(jī)構(gòu)名稱“北京###朝陽(yáng)分公司”確定為該指示代詞“該公司”所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。步驟205:當(dāng)該代詞分類為回指類全局有效代詞時(shí),在非結(jié)構(gòu)化文本文件中確定首次出現(xiàn)該指示代詞的位置,查找位于該位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。例如,對(duì)于標(biāo)記2所標(biāo)記的指示代詞“本公司”,在圖2-2所示的非結(jié)構(gòu)化文本文件中查找首次出現(xiàn)該指示代詞“本公司”的位置,該位置為標(biāo)記2所標(biāo)記的指示代詞的位置,在該位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱,該機(jī)構(gòu)名稱為標(biāo)記1所標(biāo)記的機(jī)構(gòu)名稱“北京###分公司”,將該機(jī)構(gòu)名稱“北京###分公司”確定為該指示代詞“本公司”所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。按上述202至205的步驟,獲取非結(jié)構(gòu)化文本文件中標(biāo)記的每個(gè)指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。步驟206:在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。其中,獲取的機(jī)構(gòu)名稱可能為實(shí)體機(jī)構(gòu)的簡(jiǎn)稱,所以在本實(shí)施例,還可以對(duì)每個(gè)獲取的機(jī)構(gòu)名稱進(jìn)行歸一化得到實(shí)體機(jī)構(gòu)的全稱,然后在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的全稱。該歸一化操作可以為,將該獲取的機(jī)構(gòu)名稱作為簡(jiǎn)稱,從已存儲(chǔ)的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱與全稱的對(duì)應(yīng)關(guān)系中獲取對(duì)應(yīng)的全稱,將該獲取的全稱作為該指示代詞所指代的實(shí)體機(jī)構(gòu)的全稱??蛇x的,上述步驟206可包括:當(dāng)該代詞分類為預(yù)指類全局有效代詞時(shí),在確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱之后,執(zhí)行機(jī)構(gòu)名稱歸一化,將當(dāng)前代詞內(nèi)容替換為歸一化處理后的機(jī)構(gòu)名稱,然后執(zhí)行后向輪詢迭代,迭代替換文章中該代詞之后位置出現(xiàn)的該代詞內(nèi)容,改為歸一化處理后的機(jī)構(gòu)名稱。當(dāng)該代詞分類為回指類全局有效代詞時(shí),在確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱之后,執(zhí)行機(jī)構(gòu)名稱歸一化,然后將文章中所有該代詞內(nèi)容替換為歸一化處理后的機(jī)構(gòu)名稱。在本發(fā)明實(shí)施例中,通過(guò)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,獲取標(biāo)記的指示代詞屬于的代詞分類,根據(jù)該代詞分類和被標(biāo)記的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。由于將非結(jié)構(gòu)化文本文件中的每個(gè)指示代詞替換為各自所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,減少了對(duì)非結(jié)構(gòu)化文本文件的分析難度,提高了信息提取的效率和準(zhǔn)確性。實(shí)施例3參見(jiàn)圖3,本發(fā)明實(shí)施例提供了一種信息處理的方法,該方法用于獲取非結(jié)構(gòu)化文本文件包括的機(jī)構(gòu)名稱的簡(jiǎn)稱和全稱,包括:步驟301:通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。本步驟的詳細(xì)實(shí)現(xiàn)過(guò)程可以參見(jiàn)步驟201中的相關(guān)內(nèi)容,在此不再詳細(xì)說(shuō)明。步驟302:根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式,從非結(jié)構(gòu)化文本文件中識(shí)別出該規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的文本內(nèi)容,該文本內(nèi)容包括實(shí)體機(jī)構(gòu)的簡(jiǎn)稱。預(yù)設(shè)的規(guī)則表達(dá)式定義了實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu)。例如,參見(jiàn)圖3-2所示的非結(jié)構(gòu)化文本文件,該非結(jié)構(gòu)化文本文件中的文字內(nèi)容“(下稱北京###)”就是實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu),該文本內(nèi)容包括實(shí)體結(jié)構(gòu)的簡(jiǎn)稱“北京###”。再如,該非結(jié)構(gòu)化文本文件中的文字內(nèi)容“(下稱北京***或北京網(wǎng)絡(luò))”的句式結(jié)構(gòu)也是實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu),該文本內(nèi)容包括實(shí)體結(jié)構(gòu)的簡(jiǎn)稱“北京***”和“北京網(wǎng)絡(luò)”。預(yù)設(shè)的規(guī)則表達(dá)式可以為“(\\(|().{0,5}?(稱).{0,20}?(\\)|))”和“(\\(|().{0,5}?(稱).{0,20}?(或|、).{0,20}?(\\)|))”等。對(duì)于規(guī)則表達(dá)式“(\\(|().{0,5}?(稱).{0,20}?(\\)|))”,這個(gè)規(guī)則表達(dá)式定義了一種句式結(jié)構(gòu)的文本內(nèi)容。在該句式結(jié)構(gòu)的文本內(nèi)容中包括文字“稱”,在文字“稱”之前具有一個(gè)英文或中文的左括號(hào),在文字“稱”與該左括號(hào)之間包括的文字?jǐn)?shù)目可以大于或等于0且小于或等于5;在文字“稱”之后具有一個(gè)英文或中文的右括號(hào),在該文字“稱”和該右括號(hào)之間包括的文字?jǐn)?shù)目可以大于或等于0且小于或等于20。例如,“(下稱北京###)”就是該規(guī)則表達(dá)式定義的句式結(jié)構(gòu)的文本內(nèi)容,該文本內(nèi)容包括文字“稱”,在文字“稱”之前包括中文左括號(hào),在中文左括號(hào)與該文字“稱”之間包括1個(gè)文字“下”;在文字“稱”之后包括中文右括號(hào),在該文字“稱”和中文右括號(hào)之間包括5個(gè)文字“北京###”。對(duì)于規(guī)則表達(dá)“(\\(|().{0,5}?(稱).{0,20}?(或|、).{0,20}?(\\)|))”,這個(gè)規(guī)則表達(dá)式定義了另一種句式結(jié)構(gòu)的文本內(nèi)容。在該句式結(jié)構(gòu)的文本內(nèi)容中包括文字“稱”和預(yù)設(shè)字符,預(yù)設(shè)字符位于該文字“稱”之后,預(yù)設(shè)字符可以為文字“或”或頓號(hào);在文字“稱”之前具有一個(gè)英文或中文的左括號(hào),在文字“稱”與該左括號(hào)之間包括的文字?jǐn)?shù)目可以大于或等于0且小于或等于5;在該文字“稱”和預(yù)設(shè)字符之間包括的文字?jǐn)?shù)目可以大于或等于0且小于或等于20;在預(yù)設(shè)字符之后具有一個(gè)英文或中文的右括號(hào),在預(yù)設(shè)字符和該右括號(hào)之間包括的文字?jǐn)?shù)目可以大于或等于0且小于或等于20。例如,“(下稱北京***或北京網(wǎng)絡(luò))”就是該規(guī)則表達(dá)式定義的句式結(jié)構(gòu)的文本內(nèi)容,該文本內(nèi)容包括文字“稱”和預(yù)設(shè)字符“或”,預(yù)設(shè)字符“或”位于文字“稱”之后;在文字“稱”之前包括中文左括號(hào),在中文左括號(hào)與該文字“稱”之間包括1個(gè)文字“下”;在該文字“稱”和預(yù)設(shè)字符“或”之間包括的5個(gè)文字“北京***”;在預(yù)設(shè)字符“或”之后包括中文右括號(hào),在該預(yù)設(shè)字符“或”和中文右括號(hào)之間包括4個(gè)文字“北京網(wǎng)絡(luò)”。本步驟的可以為:在非結(jié)構(gòu)化文本文件包括的第一個(gè)文字前設(shè)置分析窗口,每向該分析窗口中輸入一字符時(shí)利用預(yù)設(shè)的規(guī)則表達(dá)式分析該分析窗口中的文本內(nèi)容是否為該規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的文本內(nèi)容,如果是,則標(biāo)記該文本內(nèi)容。例如,在圖3-2所示的非結(jié)構(gòu)化文本文件中,利用規(guī)則表達(dá)式識(shí)別出規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的文本內(nèi)容,包括標(biāo)記2所示標(biāo)記的文本內(nèi)容“(下稱北京###)”和“(下稱北京***或北京網(wǎng)絡(luò))”。步驟303:從該非結(jié)構(gòu)化文本文件中查找位于該文本內(nèi)容之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并將該機(jī)構(gòu)名稱確定為該實(shí)體機(jī)構(gòu)的全稱。例如,對(duì)于文本內(nèi)容“(下稱北京###)”,在圖3-2所示的非結(jié)構(gòu)化文本文件中位于文本內(nèi)容“(下稱北京###)”之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱為標(biāo)記1所標(biāo)記的機(jī)構(gòu)名稱“北京###有限公司”。再如,對(duì)于文本內(nèi)容“(下稱北京***或北京網(wǎng)絡(luò))”,在圖3-2所示的非結(jié)構(gòu)化文本文件中位于文本內(nèi)容“(下稱北京***或北京網(wǎng)絡(luò))”之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱為標(biāo)記6所標(biāo)記的機(jī)構(gòu)名稱“北京***網(wǎng)絡(luò)公司”。步驟304:將該非結(jié)構(gòu)化文本文件包括的該實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為該實(shí)體機(jī)構(gòu)的全稱。本實(shí)施例的方法在指代消解過(guò)程的共指消解步驟中,收集全稱與簡(jiǎn)稱的對(duì)應(yīng)關(guān)系,經(jīng)人工校對(duì)后,正確的機(jī)構(gòu)(全稱-簡(jiǎn)稱)對(duì)應(yīng)關(guān)系將會(huì)被收集儲(chǔ)存,這些數(shù)據(jù)可用于對(duì)機(jī)構(gòu)全稱簡(jiǎn)稱進(jìn)行歸一化。在本發(fā)明實(shí)施例中,通過(guò)預(yù)設(shè)的規(guī)則表達(dá)式獲取非結(jié)構(gòu)化文本文件中的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱。然后將非結(jié)構(gòu)化文本文件中的每個(gè)實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為各自的全稱,從而減少了對(duì)非結(jié)構(gòu)化文本文件的分析難度,提高了信息提取的效率和準(zhǔn)確性。實(shí)施例4參見(jiàn)圖4,本發(fā)明實(shí)施例提供了一種信息處理的裝置400,所述裝置400包括:識(shí)別模塊401,用于通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;獲取模塊402,用于獲取所述指示代詞屬于的代詞分類;確定模塊403,用于根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;替換模塊404,用于在所述非結(jié)構(gòu)化文本文件中將所述指示代詞替換為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述獲取模塊402包括:第一確定單元,用于確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預(yù)設(shè)的至少一個(gè)指示代詞;獲取單元,用于根據(jù)所述指示代詞集合的集合標(biāo)識(shí),從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取所述指示代詞屬于的代詞分類??蛇x的,所述確定模塊403包括:第二確定單元,用于當(dāng)所述代詞分類為預(yù)指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;第三確定單元,用于當(dāng)所述代詞分類為回指類局部有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;第四確定單元,用于當(dāng)所述代詞分類為回指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中確定首次出現(xiàn)所述指示代詞的位置,查找位于所述位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述識(shí)別模塊401,還用于根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別所述非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,所述規(guī)則表達(dá)式定義了實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu);所述替換模塊404,還用于將所述非結(jié)構(gòu)化文本文件包括的所述實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為所述實(shí)體機(jī)構(gòu)的全稱??蛇x的,所述識(shí)別模塊包括:識(shí)別單元,用于從所述非結(jié)構(gòu)化文本文件中識(shí)別出所述預(yù)設(shè)的規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的字符串,所述字符串包括實(shí)體機(jī)構(gòu)的簡(jiǎn)稱;查詢標(biāo)記單元,用于從所述非結(jié)構(gòu)化文本文件中查找位于所述字符串之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱為所述實(shí)體機(jī)構(gòu)的全稱。在本發(fā)明實(shí)施例中,通過(guò)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,獲取標(biāo)記的指示代詞屬于的代詞分類,根據(jù)該代詞分類和被標(biāo)記的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。由于將非結(jié)構(gòu)化文本文件中的每個(gè)指示代詞替換為各自所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,減少了對(duì)非結(jié)構(gòu)化文本文件的分析難度,提高了信息提取的效率和準(zhǔn)確性。實(shí)施例5圖5是根據(jù)一示例性實(shí)施例示出的一種終端設(shè)備500的框圖,該終端設(shè)備可以用于執(zhí)行實(shí)施例1、實(shí)施例2或?qū)嵤├?所示的方法。參照?qǐng)D5,終端設(shè)備500可以包括以下一個(gè)或多個(gè)組件:處理組件502,存儲(chǔ)器504,電源組件506,多媒體組件508,音頻組件510,輸入/輸出(i/o)的接口512,傳感器組件514,以及通信組件516。處理組件502通??刂平K端設(shè)備500的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機(jī)操作和記錄操作相關(guān)聯(lián)的操作。處理組件502可以包括一個(gè)或多個(gè)處理器520來(lái)執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件502可以包括一個(gè)或多個(gè)模塊,便于處理組件502和其他組件之間的交互。例如,處理組件502可以包括多媒體模塊,以方便多媒體組件508和處理組件502之間的交互。存儲(chǔ)器504被配置為存儲(chǔ)各種類型的數(shù)據(jù)以支持在終端設(shè)備500的操作。這些數(shù)據(jù)的示例包括用于在終端設(shè)備500上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù),消息,圖片,視頻等。存儲(chǔ)器504可以由任何類型的易失性或非易失性存儲(chǔ)設(shè)備或者它們的組合實(shí)現(xiàn),如靜態(tài)隨機(jī)存取存儲(chǔ)器(sram),電可擦除可編程只讀存儲(chǔ)器(eeprom),可擦除可編程只讀存儲(chǔ)器(eprom),可編程只讀存儲(chǔ)器(prom),只讀存儲(chǔ)器(rom),磁存儲(chǔ)器,快閃存儲(chǔ)器,磁盤或光盤。電源組件506為終端設(shè)備500的各種組件提供電力。電源組件506可以包括電源管理系統(tǒng),一個(gè)或多個(gè)電源,及其他與為終端設(shè)備500生成、管理和分配電力相關(guān)聯(lián)的組件。多媒體組件508包括在所述終端設(shè)備500和用戶之間的提供一個(gè)輸出接口的屏幕。在一些實(shí)施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實(shí)現(xiàn)為觸摸屏,以接收來(lái)自用戶的輸入信號(hào)。觸摸面板包括一個(gè)或多個(gè)觸摸傳感器以感測(cè)觸摸、滑動(dòng)和觸摸面板上的手勢(shì)。所述觸摸傳感器可以不僅感測(cè)觸摸或滑動(dòng)動(dòng)作的邊界,而且還檢測(cè)與所述觸摸或滑動(dòng)操作相關(guān)的持續(xù)時(shí)間和壓力。在一些實(shí)施例中,多媒體組件508包括一個(gè)前置攝像頭和/或后置攝像頭。當(dāng)終端設(shè)備500處于操作模式,如拍攝模式或視頻模式時(shí),前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個(gè)前置攝像頭和后置攝像頭可以是一個(gè)固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。音頻組件510被配置為輸出和/或輸入音頻信號(hào)。例如,音頻組件510包括一個(gè)麥克風(fēng)(mic),當(dāng)終端設(shè)備500處于操作模式,如呼叫模式、記錄模式和語(yǔ)音識(shí)別模式時(shí),麥克風(fēng)被配置為接收外部音頻信號(hào)。所接收的音頻信號(hào)可以被進(jìn)一步存儲(chǔ)在存儲(chǔ)器504或經(jīng)由通信組件516發(fā)送。在一些實(shí)施例中,音頻組件510還包括一個(gè)揚(yáng)聲器,用于輸出音頻信號(hào)。i/o接口512為處理組件502和外圍接口模塊之間提供接口,上述外圍接口模塊可以是鍵盤,點(diǎn)擊輪,按鈕等。這些按鈕可包括但不限于:主頁(yè)按鈕、音量按鈕、啟動(dòng)按鈕和鎖定按鈕。傳感器組件514包括一個(gè)或多個(gè)傳感器,用于為終端設(shè)備500提供各個(gè)方面的狀態(tài)評(píng)估。例如,傳感器組件514可以檢測(cè)到終端設(shè)備500的打開(kāi)/關(guān)閉狀態(tài),組件的相對(duì)定位,例如所述組件為終端設(shè)備500的顯示器和小鍵盤,傳感器組件514還可以檢測(cè)終端設(shè)備500或終端設(shè)備500一個(gè)組件的位置改變,用戶與終端設(shè)備500接觸的存在或不存在,終端設(shè)備500方位或加速/減速和終端設(shè)備500的溫度變化。傳感器組件514可以包括接近傳感器,被配置用來(lái)在沒(méi)有任何的物理接觸時(shí)檢測(cè)附近物體的存在。傳感器組件514還可以包括光傳感器,如cmos或ccd圖像傳感器,用于在成像應(yīng)用中使用。在一些實(shí)施例中,該傳感器組件514還可以包括加速度傳感器,陀螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。通信組件516被配置為便于終端設(shè)備500和其他設(shè)備之間有線或無(wú)線方式的通信。終端設(shè)備500可以接入基于通信標(biāo)準(zhǔn)的無(wú)線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個(gè)示例性實(shí)施例中,通信組件516經(jīng)由廣播信道接收來(lái)自外部廣播管理系統(tǒng)的廣播信號(hào)或廣播相關(guān)信息。在一個(gè)示例性實(shí)施例中,所述通信組件516還包括近場(chǎng)通信(nfc)模塊,以促進(jìn)短程通信。例如,在nfc模塊可基于射頻識(shí)別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(huì)(irda)技術(shù),超寬帶(uwb)技術(shù),藍(lán)牙(bt)技術(shù)和其他技術(shù)來(lái)實(shí)現(xiàn)。在示例性實(shí)施例中,終端設(shè)備500可以被一個(gè)或多個(gè)應(yīng)用專用集成電路(asic)、數(shù)字信號(hào)處理器(dsp)、數(shù)字信號(hào)處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場(chǎng)可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實(shí)現(xiàn),用于執(zhí)行上述方法。在示例性實(shí)施例中,還提供了一種包括指令的非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),例如包括指令的存儲(chǔ)器504,上述指令可由終端設(shè)備500的處理器520執(zhí)行以完成上述方法。例如,所述非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是rom、隨機(jī)存取存儲(chǔ)器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲(chǔ)設(shè)備等。一種非臨時(shí)性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)所述存儲(chǔ)介質(zhì)中的指令由終端設(shè)備500的處理器執(zhí)行時(shí),使得終端設(shè)備500能夠執(zhí)行一種信息處理的方法,所述方法包括:通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;獲取所述指示代詞屬于的代詞分類;根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;在所述非結(jié)構(gòu)化文本文件中將所述指示代詞替換為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱??蛇x的,所述獲取所述指示代詞屬于的代詞分類,包括:確定所述指示代詞所屬于的指示代詞集合,所述指示代詞集合包括預(yù)設(shè)的至少一個(gè)指示代詞;根據(jù)所述指示代詞集合的集合標(biāo)識(shí),從集合標(biāo)識(shí)與代詞分類的對(duì)應(yīng)關(guān)系中獲取所述指示代詞屬于的代詞分類??蛇x的,所述根據(jù)所述代詞分類和被標(biāo)記的所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,包括:當(dāng)所述代詞分類為預(yù)指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之后的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;當(dāng)所述代詞分類為回指類局部有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中查找位于所述指示代詞之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱;當(dāng)所述代詞分類為回指類全局有效代詞時(shí),在所述非結(jié)構(gòu)化文本文件中確定首次出現(xiàn)所述指示代詞的位置,查找位于所述位置之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。可選的,所述通過(guò)分詞系統(tǒng)和實(shí)體識(shí)別系統(tǒng)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱之后,還包括:根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別所述非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,所述規(guī)則表達(dá)式定義了實(shí)體機(jī)構(gòu)的簡(jiǎn)稱對(duì)應(yīng)的句式結(jié)構(gòu);將所述非結(jié)構(gòu)化文本文件包括的所述實(shí)體機(jī)構(gòu)的簡(jiǎn)稱替換為所述實(shí)體機(jī)構(gòu)的全稱??蛇x的,所述根據(jù)預(yù)設(shè)的規(guī)則表達(dá)式識(shí)別所述非結(jié)構(gòu)化文本文件包括的實(shí)體機(jī)構(gòu)的簡(jiǎn)稱和全稱,包括:從所述非結(jié)構(gòu)化文本文件中識(shí)別出所述預(yù)設(shè)的規(guī)則表達(dá)式所定義的句式結(jié)構(gòu)的字符串,所述字符串包括實(shí)體機(jī)構(gòu)的簡(jiǎn)稱;從所述非結(jié)構(gòu)化文本文件中查找位于所述字符串之前的第一個(gè)被標(biāo)記的機(jī)構(gòu)名稱并確定為所述實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱為所述實(shí)體機(jī)構(gòu)的全稱。在本發(fā)明實(shí)施例中,通過(guò)標(biāo)記非結(jié)構(gòu)化文本文件中包括的指示代詞和實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,獲取標(biāo)記的指示代詞屬于的代詞分類,根據(jù)該代詞分類和被標(biāo)記的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,確定該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,在非結(jié)構(gòu)化文本文件中將該指示代詞替換為該指示代詞所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱。由于將非結(jié)構(gòu)化文本文件中的每個(gè)指示代詞替換為各自所指代的實(shí)體機(jī)構(gòu)的機(jī)構(gòu)名稱,減少了對(duì)非結(jié)構(gòu)化文本文件的分析難度,提高了信息提取的效率和準(zhǔn)確性。本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例的全部或部分步驟可以通過(guò)硬件來(lái)完成,也可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)12