利用分詞程序識(shí)別機(jī)構(gòu)名稱的裝置及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)通信技術(shù)領(lǐng)域,具體涉及利用分詞程序識(shí)別機(jī)構(gòu)名稱的裝置及方法。
【背景技術(shù)】
[0002]在現(xiàn)有技術(shù)中,進(jìn)行文本挖掘過(guò)程中,一個(gè)重要的操作是識(shí)別命名實(shí)體,例如,識(shí)別出文本中的人名、機(jī)構(gòu)名稱等。命名實(shí)體識(shí)別(NE)是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。
[0003]其中,機(jī)構(gòu)名稱指機(jī)關(guān)、團(tuán)體或其他企事業(yè)單位,包括學(xué)校、公司、醫(yī)院、研究所和政府機(jī)關(guān)等的名稱。機(jī)構(gòu)名稱是專有名詞的一個(gè)子集,數(shù)目特別龐大。與人名和地名相比,機(jī)構(gòu)名稱的形式不穩(wěn)定.隨著社會(huì)的發(fā)展,會(huì)有新機(jī)構(gòu)名稱出現(xiàn),舊的機(jī)構(gòu)名稱被淘汰、改組或更名。此外,機(jī)構(gòu)名稱的組成沒(méi)有國(guó)家統(tǒng)一規(guī)范,多數(shù)未能收入詞典。
[0004]因此,需要一種能夠從文本中提取機(jī)構(gòu)名稱的技術(shù)方案,以適應(yīng)機(jī)構(gòu)名稱的不斷變化。
【發(fā)明內(nèi)容】
[0005]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的利用分詞程序識(shí)別機(jī)構(gòu)名稱的裝置及方法。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種利用分詞程序識(shí)別機(jī)構(gòu)名稱的裝置,該裝置包括:
[0007]存儲(chǔ)模塊,適于存儲(chǔ)詞條詞典、詞性詞典、預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性、預(yù)設(shè)相關(guān)詞性連接規(guī)則和預(yù)設(shè)機(jī)構(gòu)名稱輸出條件;
[0008]分詞模塊,適于利用詞條詞典將待識(shí)別句子進(jìn)行分詞,獲取待識(shí)別句子中詞條;
[0009]識(shí)別模塊,適于從分詞所得詞條中提取在詞性詞典中查找到的符合預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性的詞條,根據(jù)預(yù)設(shè)相關(guān)詞性連接規(guī)則將提取的詞條進(jìn)行拼接,將拼接所得詞條作為候選機(jī)構(gòu)名稱加入候選集合中,從候選集合中選擇符合預(yù)設(shè)機(jī)構(gòu)名稱輸出條件的詞條;
[0010]輸出模塊,適于將從候選集合中選擇的詞條作為機(jī)構(gòu)名稱進(jìn)行輸出。
[0011]可選地,所述預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性包括如下詞性中至少一項(xiàng):地點(diǎn)、品牌、機(jī)構(gòu)名稱中領(lǐng)域、機(jī)構(gòu)名稱中后綴。
[0012]可選地,所述裝置還包括:
[0013]所述構(gòu)建模塊,適于根據(jù)搜索詞和搜索到的鏈接的相關(guān)信息構(gòu)建與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的過(guò)濾詞典,將構(gòu)建的過(guò)濾詞典存儲(chǔ)到所述存儲(chǔ)模塊中;
[0014]所述過(guò)濾模塊,適于利用所述存儲(chǔ)模塊中存儲(chǔ)的過(guò)濾詞典對(duì)所述識(shí)別模塊從候選集合中選擇的詞條進(jìn)行過(guò)濾;
[0015]所述輸出模塊,進(jìn)一步適于將所述過(guò)濾模塊過(guò)濾后的剩余詞條作為機(jī)構(gòu)名稱進(jìn)行輸出。
[0016]可選地,所述識(shí)別模塊,還適于從分詞所得詞條中提取在詞性詞典中查找到詞性為完整機(jī)構(gòu)名稱的詞條;
[0017]所述輸出模塊,還適于將所述識(shí)別模塊提取的詞性為完整機(jī)構(gòu)名稱的詞條作為機(jī)構(gòu)名稱進(jìn)行輸出。
[0018]可選地,所述識(shí)別模塊,還適于當(dāng)分詞所得詞條位于分詞所用詞條詞典中,并且沒(méi)有位于詞性詞典中時(shí),判斷所述詞條是否包括預(yù)設(shè)機(jī)構(gòu)名稱后綴;當(dāng)所述詞條包括預(yù)設(shè)機(jī)構(gòu)名稱后綴時(shí),將所述詞條作為完整機(jī)構(gòu)名稱添加到所述存儲(chǔ)模塊存儲(chǔ)的詞性詞典中。
[0019]可選地,所述識(shí)別模塊,還適于當(dāng)待識(shí)別句子中包括符合預(yù)設(shè)形式的詞條組合時(shí),根據(jù)詞條組合中至少一詞條中一個(gè)或多個(gè)字的出現(xiàn)頻率,確定是否將所述詞條組合作為候選機(jī)構(gòu)名稱加入候選集合中。
[0020]可選地,所述裝置還包括:
[0021]接收模塊,適于接收用戶輸入的校驗(yàn)信息;
[0022]所述識(shí)別模塊,還適于根據(jù)接收的校驗(yàn)信息修改所述存儲(chǔ)模塊中存儲(chǔ)的詞條詞典、詞性詞典、預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性、預(yù)設(shè)相關(guān)詞性連接規(guī)則、預(yù)設(shè)機(jī)構(gòu)名稱輸出條件或過(guò)濾詞典。
[0023]可選地,所述構(gòu)建模塊,進(jìn)一步適于從包括機(jī)構(gòu)名稱的搜索詞和搜索到的鏈接的相關(guān)信息中統(tǒng)計(jì)出與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的正例詞條,將所述正例詞條加入所述存儲(chǔ)模塊存儲(chǔ)的過(guò)濾詞典中。
[0024]可選地,所述構(gòu)建模塊,進(jìn)一步適于從沒(méi)有包括機(jī)構(gòu)名稱的搜索詞和搜索到的鏈接的相關(guān)信息中統(tǒng)計(jì)出與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的負(fù)例詞條,將所述負(fù)例詞條加入所述存儲(chǔ)模塊存儲(chǔ)的過(guò)濾詞典中。
[0025]可選地,所述構(gòu)建模塊,還適于根據(jù)搜索詞和搜索到的鏈接的相關(guān)信息中屬于預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性的詞條的個(gè)數(shù)以及所述詞條間的位置關(guān)系,確定所述搜索詞和所述相關(guān)?目息中是否包括機(jī)構(gòu)名稱。
[0026]根據(jù)本發(fā)明的另一方面,提供了一種利用分詞程序識(shí)別機(jī)構(gòu)名稱的方法,該方法包括:
[0027]利用詞條詞典將待識(shí)別句子進(jìn)行分詞,獲取待識(shí)別句子中詞條;
[0028]從分詞所得詞條中提取在詞性詞典中查找到的符合預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性的詞條;
[0029]根據(jù)預(yù)設(shè)相關(guān)詞性連接規(guī)則將提取的詞條進(jìn)行拼接,將拼接所得詞條作為候選機(jī)構(gòu)名稱加入候選集合中;
[0030]從候選集合中選擇符合預(yù)設(shè)機(jī)構(gòu)名稱輸出條件的詞條;
[0031]將從候選集合中選擇的詞條作為機(jī)構(gòu)名稱進(jìn)行輸出。
[0032]可選地,所述預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性包括如下詞性中至少一項(xiàng):地點(diǎn)、品牌、機(jī)構(gòu)名稱中領(lǐng)域、機(jī)構(gòu)名稱中后綴。
[0033]可選地,所述方法還包括:
[0034]根據(jù)搜索詞和搜索到的鏈接的相關(guān)信息構(gòu)建與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的過(guò)濾詞典;
[0035]利用過(guò)濾詞典對(duì)從候選集合中選擇的詞條進(jìn)行過(guò)濾;
[0036]所述將從候選集合中選擇的詞條作為機(jī)構(gòu)名稱進(jìn)行輸出,包括:
[0037]將利用過(guò)濾詞典進(jìn)行過(guò)濾后的剩余詞條作為機(jī)構(gòu)名稱進(jìn)行輸出。
[0038]可選地,所述方法還包括:
[0039]從分詞所得詞條中提取在詞性詞典中查找到詞性為完整機(jī)構(gòu)名稱的詞條;
[0040]將提取的詞性為完整機(jī)構(gòu)名稱的詞條作為機(jī)構(gòu)名稱進(jìn)行輸出。
[0041 ] 可選地,所述方法還包括:
[0042]當(dāng)分詞所得詞條位于分詞所用詞條詞典中,并且沒(méi)有位于詞性詞典中時(shí),判斷所述詞條是否包括預(yù)設(shè)機(jī)構(gòu)名稱后綴;
[0043]當(dāng)所述詞條包括預(yù)設(shè)機(jī)構(gòu)名稱后綴時(shí),將所述詞條作為完整機(jī)構(gòu)名稱添加到詞性詞典中。
[0044]可選地,所述方法還包括:
[0045]當(dāng)待識(shí)別句子中包括符合預(yù)設(shè)形式的詞條組合時(shí),根據(jù)詞條組合中至少一詞條中一個(gè)或多個(gè)字的出現(xiàn)頻率,確定是否將所述詞條組合作為候選機(jī)構(gòu)名稱加入候選集合中。
[0046]可選地,所述方法還包括:
[0047]接收用戶輸入的校驗(yàn)信息;
[0048]根據(jù)接收的校驗(yàn)信息修改詞條詞典、詞性詞典、預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性、預(yù)設(shè)相關(guān)詞性連接規(guī)則、預(yù)設(shè)機(jī)構(gòu)名稱輸出條件或過(guò)濾詞典。
[0049]可選地,所述根據(jù)搜索詞和搜索到的鏈接的相關(guān)信息構(gòu)建與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的過(guò)濾詞典,包括:
[0050]從包括機(jī)構(gòu)名稱的搜索詞和搜索到的鏈接的相關(guān)信息中統(tǒng)計(jì)出與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的正例詞條,將所述正例詞條加入過(guò)濾詞典中。
[0051]可選地,所述根據(jù)搜索詞和搜索到的鏈接的相關(guān)信息構(gòu)建與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的過(guò)濾詞典,包括:
[0052]從沒(méi)有包括機(jī)構(gòu)名稱的搜索詞和搜索到的鏈接的相關(guān)信息中統(tǒng)計(jì)出與至少一預(yù)設(shè)機(jī)構(gòu)名稱輸出條件相對(duì)應(yīng)的負(fù)例詞條,將所述負(fù)例詞條加入過(guò)濾詞典中。
[0053]可選地,所述方法還包括:
[0054]根據(jù)搜索詞和搜索到的鏈接的相關(guān)信息中屬于預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性的詞條的個(gè)數(shù)以及所述詞條間的位置關(guān)系,確定所述搜索詞和所述相關(guān)信息中是否包括機(jī)構(gòu)名稱。
[0055]根據(jù)本發(fā)明的技術(shù)方案可以利用詞條詞典將待識(shí)別句子進(jìn)行分詞,獲取待識(shí)別句子中詞條;從分詞所得詞條中提取在詞性詞典中查找到的符合預(yù)設(shè)機(jī)構(gòu)名稱相關(guān)詞性的詞條;根據(jù)預(yù)設(shè)相關(guān)詞性連接規(guī)則將提取的詞條進(jìn)行拼接,將拼接所得詞條作為候選機(jī)構(gòu)名稱加入候選集合中;從候選集合中選擇符合預(yù)設(shè)機(jī)構(gòu)名稱輸出條件的詞條;將從候選集