中文企業(yè)名稱的識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)的技術(shù)領(lǐng)域,具體說(shuō)是一種通過(guò)確定左右邊界而實(shí)現(xiàn)的中文企業(yè)名稱的識(shí)別方法。
【背景技術(shù)】
[0002]未登錄詞識(shí)別是自然語(yǔ)言處理中一項(xiàng)關(guān)鍵技術(shù),在信息抽取、信息檢索、自動(dòng)問(wèn)答、機(jī)器翻譯等領(lǐng)域中已得到廣泛的應(yīng)用。在對(duì)互聯(lián)網(wǎng)上的信息進(jìn)行收集時(shí),需采集中文企業(yè)名稱,中文企業(yè)名稱是未登錄詞的一種,具有構(gòu)成成分復(fù)雜、數(shù)量巨大、名稱不斷變化更新、無(wú)法窮舉等特點(diǎn),被認(rèn)為是專用名詞當(dāng)中最難識(shí)別的,給自然語(yǔ)言處理、尤其是翻譯和機(jī)器理解帶來(lái)很大困擾。
[0003]對(duì)于中文企業(yè)名稱的識(shí)別,國(guó)內(nèi)的研究主要有:利用隱馬爾科夫模型并結(jié)合概率估值公式來(lái)評(píng)價(jià)在真實(shí)文本中構(gòu)成企業(yè)名稱的能力;基于層疊條件隨機(jī)場(chǎng)模型的中文機(jī)構(gòu)名自動(dòng)識(shí)別算法;基于類語(yǔ)言模型的中文機(jī)構(gòu)名稱自動(dòng)識(shí)別方法等。
[0004]在中文企業(yè)名稱中,往往存在多個(gè)不同的詞或短語(yǔ),組成比較豐富,企業(yè)名稱中用字和用詞的隨意性和名稱長(zhǎng)度的不確定性,都導(dǎo)致了中文企業(yè)名稱的識(shí)別過(guò)程較為困難,識(shí)別率也不高。
[0005]
【發(fā)明內(nèi)容】
本發(fā)明要解決的技術(shù)問(wèn)題是提供一種通過(guò)確定左右邊界而實(shí)現(xiàn)的中文企業(yè)名稱的識(shí)別方法。
[0006]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問(wèn)題所采取的技術(shù)方案是:
本發(fā)明的中文企業(yè)名稱的識(shí)別方法,包括以下步驟:
A、建立企業(yè)名稱知識(shí)庫(kù),包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,各詞集分別對(duì)應(yīng)包括地名詞匯、企業(yè)同名詞匯、行業(yè)飾名詞匯和企業(yè)專名禁止詞匯;
B、建立企業(yè)名稱概率知識(shí)庫(kù),包括單個(gè)漢字組成企業(yè)專名的概率知識(shí);
C、掃描文本,對(duì)文本進(jìn)行中文分詞;
D、當(dāng)文本掃描中出現(xiàn)地名詞匯時(shí),繼續(xù)掃描其后面的詞,若在2-5個(gè)漢字以后出現(xiàn)行業(yè)飾名詞匯且行業(yè)飾名后面緊鄰出現(xiàn)企業(yè)通名詞匯時(shí),觸發(fā)企業(yè)名稱識(shí)別;
E、判斷上述地名詞匯和行業(yè)飾名詞匯之間的漢字是否包含企業(yè)專名禁止詞匯,如果包含則終止識(shí)別,不包含則匯總計(jì)算這些漢字構(gòu)成企業(yè)專名的概率,形成專名概率加權(quán)計(jì)算結(jié)果;
F、判斷專名概率加權(quán)結(jié)果是否大于閾值,大于閾值則認(rèn)定當(dāng)前從地名到最后的企業(yè)通名之間的整個(gè)中文片段為中文企業(yè)名,小于則終止識(shí)別;
G、識(shí)別結(jié)果組織輸出為“以地名飾名開(kāi)頭的企業(yè)名稱”。
[0007]本發(fā)明的中文企業(yè)名稱的識(shí)別方法,包括以下步驟:
A、建立企業(yè)名稱知識(shí)庫(kù),包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,各詞集分別對(duì)應(yīng)包括地名詞匯、企業(yè)同名詞匯、行業(yè)飾名詞匯和企業(yè)專名禁止詞匯; B、統(tǒng)計(jì)資訊新聞數(shù)據(jù)得到企業(yè)名稱左鄰詞概率知識(shí);建立企業(yè)名稱概率知識(shí)庫(kù),包括單個(gè)漢字組成企業(yè)專名的概率知識(shí)和企業(yè)名稱左鄰詞概率知識(shí);
C、掃描文本,對(duì)文本進(jìn)行中文分詞;
D、當(dāng)掃描到行業(yè)飾名詞匯出現(xiàn)時(shí),繼續(xù)掃描其后是否緊鄰出現(xiàn)企業(yè)通名詞匯,如果緊鄰出現(xiàn),且當(dāng)前詞匯沒(méi)有被識(shí)別為“以地名飾名開(kāi)頭的企業(yè)名稱”,則觸發(fā)企業(yè)名稱識(shí)別;
E、以行業(yè)飾名詞匯為起點(diǎn),逐個(gè)詞匯往左掃描,判斷左側(cè)詞匯是否存在于企業(yè)專名禁止詞匯,如果存在則終止識(shí)別;
F、獲得步驟E中的左側(cè)詞匯中漢字,并匯總加權(quán)計(jì)算它們構(gòu)成企業(yè)專名的概率,同時(shí)獲得該詞匯更左側(cè)詞語(yǔ)的“企業(yè)名稱左鄰詞概率”,根據(jù)隱馬爾科夫概率模型,計(jì)算當(dāng)前的左側(cè)詞匯做為專名的整個(gè)企業(yè)名稱的識(shí)別概率;
G、繼續(xù)往左側(cè)掃描一個(gè)詞匯,將這個(gè)左側(cè)詞匯和步驟E的詞匯合并在一起做為企業(yè)專名看待,重復(fù)步驟F,直到專名漢字個(gè)數(shù)大于5則終止;
H、G步驟中獲得的多個(gè)識(shí)別概率,剔除概率值小于閾值的結(jié)果,選擇最大的一組結(jié)果,做為最終識(shí)別結(jié)果;
1、最終識(shí)別結(jié)果組織輸出。
[0008]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
本發(fā)明的中文企業(yè)名稱的識(shí)別方法,包括以下步驟:建立企業(yè)名稱知識(shí)庫(kù)和企業(yè)名稱概率知識(shí)庫(kù),企業(yè)名稱知識(shí)庫(kù)中包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,企業(yè)名稱概率知識(shí)庫(kù)中包括企業(yè)名稱左鄰詞概率知識(shí)和企業(yè)名稱左鄰詞概率知識(shí);掃描文本,對(duì)文本進(jìn)行分詞;分別完成以地名飾名開(kāi)頭的企業(yè)名稱識(shí)別和無(wú)地名飾名開(kāi)頭的企業(yè)名稱識(shí)別。利用本發(fā)明所述的中文企業(yè)名稱的識(shí)別方法可以加快文檔識(shí)別中的速度,且提高了企業(yè)名稱識(shí)別的準(zhǔn)確率。
【具體實(shí)施方式】
[0009]以下結(jié)合實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明:
本發(fā)明的中文企業(yè)名稱的識(shí)別方法,包括以下步驟:
A、建立企業(yè)名稱知識(shí)庫(kù),包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,各詞集分別對(duì)應(yīng)包括地名詞匯、企業(yè)同名詞匯、行業(yè)飾名詞匯和企業(yè)專名禁止詞匯;
B、建立企業(yè)名稱概率知識(shí)庫(kù),包括單個(gè)漢字組成企業(yè)專名的概率知識(shí)單個(gè)漢字組成企業(yè)專名的概率知識(shí)”,這個(gè)由常見(jiàn)的3600多個(gè)漢字構(gòu)成,在1000萬(wàn)以上的企業(yè)名錄中,統(tǒng)計(jì)得到每一個(gè)漢字組成企業(yè)專名的概率;
C、掃描文本,對(duì)文本進(jìn)行中文分詞;
D、當(dāng)文本掃描中出現(xiàn)地名詞匯時(shí),繼續(xù)掃描其后面的詞,若在2-5個(gè)漢字(企業(yè)專名通常是2-5個(gè)字)以后出現(xiàn)行業(yè)飾名詞匯且行業(yè)飾名后面緊鄰出現(xiàn)企業(yè)通名詞匯時(shí),觸發(fā)企業(yè)名稱識(shí)別;
E、判斷上述地名詞匯和行業(yè)飾名詞匯之間的漢字是否包含企業(yè)專名禁止詞匯,如果包含則終止識(shí)別,不包含則匯總計(jì)算這些漢字構(gòu)成企業(yè)專名的概率,形成專名概率加權(quán)計(jì)算結(jié)果;
F、判斷專名概率加權(quán)結(jié)果是否大于閾值,大于閾值則認(rèn)定當(dāng)前從地名到最后的企業(yè)通名之間的整個(gè)中文片段為中文企業(yè)名,小于則終止識(shí)別;
G、識(shí)別結(jié)果組織輸出為“以地名飾名開(kāi)頭的企業(yè)名稱”。
[0010]本發(fā)明的中文企業(yè)名稱的識(shí)別方法,包括以下步驟:
A、建立企業(yè)名稱知識(shí)庫(kù),包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,各詞集分別對(duì)應(yīng)包括地名詞匯、企業(yè)同名詞匯、行業(yè)飾名詞匯和企業(yè)專名禁止詞匯;
B、統(tǒng)計(jì)資訊新聞數(shù)據(jù)得到企業(yè)名稱左鄰詞概率知識(shí);建立企業(yè)名稱概率知識(shí)庫(kù),包括單個(gè)漢字組成企業(yè)專名的概率知識(shí)和企業(yè)名稱左鄰詞概率知識(shí);
C、掃描文本,對(duì)文本進(jìn)行中文分詞;
D、當(dāng)掃描到行業(yè)飾名詞匯出現(xiàn)時(shí),行業(yè)飾名可以同時(shí)出現(xiàn)多個(gè),如“天源浩業(yè)房地產(chǎn)經(jīng)紀(jì)有限公司”,也可能出現(xiàn)地名飾名,如“信和財(cái)富投資管理(北京)有限公司”,繼續(xù)掃描其后是否緊鄰出現(xiàn)企業(yè)通名詞匯,如果緊鄰出現(xiàn),且當(dāng)前詞匯沒(méi)有被識(shí)別為“以地名飾名開(kāi)頭的企業(yè)名稱”,則觸發(fā)企業(yè)名稱識(shí)別;
E、以行業(yè)飾名詞匯為起點(diǎn),逐個(gè)詞匯往左掃描,判斷左側(cè)詞匯是否存在于企業(yè)專名禁止詞匯,如果存在則終止識(shí)別;
F、獲得步驟E中的左側(cè)詞匯中漢字,并匯總加權(quán)計(jì)算它們構(gòu)成企業(yè)專名的概率,同時(shí)獲得該詞匯更左側(cè)詞語(yǔ)的“企業(yè)名稱左鄰詞概率”,根據(jù)隱馬爾科夫概率模型,計(jì)算當(dāng)前的左側(cè)詞匯做為專名的整個(gè)企業(yè)名稱的識(shí)別概率;
G、繼續(xù)往左側(cè)掃描一個(gè)詞匯,將這個(gè)左側(cè)詞匯和步驟E的詞匯合并在一起做為企業(yè)專名看待,重復(fù)步驟F,直到專名漢字個(gè)數(shù)大于5則終止;
H、G步驟中獲得的多個(gè)識(shí)別概率,剔除概率值小于閾值的結(jié)果,選擇最大的一組結(jié)果,做為最終識(shí)別結(jié)果;
1、最終識(shí)別結(jié)果組織輸出。
[0011]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例公開(kāi)如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會(huì)利用揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾,成為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種中文企業(yè)名稱的識(shí)別方法,包括以下步驟: A、建立企業(yè)名稱知識(shí)庫(kù),包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,各詞集分別對(duì)應(yīng)包括地名詞匯、企業(yè)同名詞匯、行業(yè)飾名詞匯和企業(yè)專名禁止詞匯; B、建立企業(yè)名稱概率知識(shí)庫(kù),包括單個(gè)漢字組成企業(yè)專名的概率知識(shí); C、掃描文本,對(duì)文本進(jìn)行中文分詞; D、當(dāng)文本掃描中出現(xiàn)地名詞匯時(shí),繼續(xù)掃描其后面的詞,若在2-5個(gè)漢字以后出現(xiàn)行業(yè)飾名詞匯且行業(yè)飾名后面緊鄰出現(xiàn)企業(yè)通名詞匯時(shí),觸發(fā)企業(yè)名稱識(shí)別; E、判斷上述地名詞匯和行業(yè)飾名詞匯之間的漢字是否包含企業(yè)專名禁止詞匯,如果包含則終止識(shí)別,不包含則匯總計(jì)算這些漢字構(gòu)成企業(yè)專名的概率,形成專名概率加權(quán)計(jì)算結(jié)果; F、判斷專名概率加權(quán)結(jié)果是否大于閾值,大于閾值則認(rèn)定當(dāng)前從地名到最后的企業(yè)通名之間的整個(gè)中文片段為中文企業(yè)名,小于則終止識(shí)別; G、識(shí)別結(jié)果組織輸出為“以地名飾名開(kāi)頭的企業(yè)名稱”。2.一種中文企業(yè)名稱的識(shí)別方法,包括以下步驟: A、建立企業(yè)名稱知識(shí)庫(kù),包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,各詞集分別對(duì)應(yīng)包括地名詞匯、企業(yè)同名詞匯、行業(yè)飾名詞匯和企業(yè)專名禁止詞匯; B、通過(guò)權(quán)利要求1所述的中文企業(yè)名稱的識(shí)別方法統(tǒng)計(jì)資訊新聞數(shù)據(jù)得到企業(yè)名稱左鄰詞概率知識(shí);建立企業(yè)名稱概率知識(shí)庫(kù),包括單個(gè)漢字組成企業(yè)專名的概率知識(shí)和企業(yè)名稱左鄰詞概率知識(shí); C、掃描文本,對(duì)文本進(jìn)行中文分詞; D、當(dāng)掃描到行業(yè)飾名詞匯出現(xiàn)時(shí),繼續(xù)掃描其后是否緊鄰出現(xiàn)企業(yè)通名詞匯,如果緊鄰出現(xiàn),且當(dāng)前詞匯沒(méi)有被識(shí)別為“以地名飾名開(kāi)頭的企業(yè)名稱”,則觸發(fā)企業(yè)名稱識(shí)別; E、以行業(yè)飾名詞匯為起點(diǎn),逐個(gè)詞匯往左掃描,判斷左側(cè)詞匯是否存在于企業(yè)專名禁止詞匯,如果存在則終止識(shí)別; F、獲得步驟E中的左側(cè)詞匯中漢字,并匯總加權(quán)計(jì)算它們構(gòu)成企業(yè)專名的概率,同時(shí)獲得該詞匯更左側(cè)詞語(yǔ)的“企業(yè)名稱左鄰詞概率”,根據(jù)隱馬爾科夫概率模型,計(jì)算當(dāng)前的左側(cè)詞匯做為專名的整個(gè)企業(yè)名稱的識(shí)別概率; G、繼續(xù)往左側(cè)掃描一個(gè)詞匯,將這個(gè)左側(cè)詞匯和步驟E的詞匯合并在一起做為企業(yè)專名看待,重復(fù)步驟F,直到專名漢字個(gè)數(shù)大于5則終止; H、G步驟中獲得的多個(gè)識(shí)別概率,剔除概率值小于閾值的結(jié)果,選擇最大的一組結(jié)果,做為最終識(shí)別結(jié)果; I、最終識(shí)別結(jié)果組織輸出。
【專利摘要】一種中文企業(yè)名稱的識(shí)別方法,包括以下步驟:建立企業(yè)名稱知識(shí)庫(kù)和企業(yè)名稱概率知識(shí)庫(kù),企業(yè)名稱知識(shí)庫(kù)中包括地名詞集、企業(yè)通名詞集、行業(yè)飾名詞集和企業(yè)專名禁止詞集,企業(yè)名稱概率知識(shí)庫(kù)中包括企業(yè)名稱左鄰詞概率知識(shí)和企業(yè)名稱左鄰詞概率知識(shí);掃描文本,對(duì)文本進(jìn)行分詞;分別完成以地名飾名開(kāi)頭的企業(yè)名稱識(shí)別和無(wú)地名飾名開(kāi)頭的企業(yè)名稱識(shí)別。利用本發(fā)明所述的中文企業(yè)名稱的識(shí)別方法可以加快文檔識(shí)別中的速度,且提高了企業(yè)名稱識(shí)別的準(zhǔn)確率。
【IPC分類】G06F17/27
【公開(kāi)號(hào)】CN105320645
【申請(qǐng)?zhí)枴緾N201510614480
【發(fā)明人】宋傳寶, 史墨軒, 郝靜
【申請(qǐng)人】天津海量信息技術(shù)有限公司
【公開(kāi)日】2016年2月10日
【申請(qǐng)日】2015年9月24日