一種抽取核心詞的方法及裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種抽取核心詞的方法及裝置,能夠?qū)崿F(xiàn)從用戶輸入的查詢詞中抽取出較為準(zhǔn)確的核心詞,從而達(dá)到提高查詢準(zhǔn)確率的目的,包括:采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞;將所述查詢詞的分詞分別與核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及,獲取滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
【專利說明】—種抽取核心詞的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及詞語處理領(lǐng)域,特別涉及一種抽取核心詞的方法及裝置。
【背景技術(shù)】
[0002]在電子地圖查詢應(yīng)用中,根據(jù)用戶輸入的查詢詞進(jìn)行Ρ0Ι查詢時,通常的做法是,首先對用戶輸入的查詢詞進(jìn)行分詞,再將各分詞分別與Ρ0Ι數(shù)據(jù)庫進(jìn)行匹配,得到多個查詢結(jié)果,將查詢結(jié)果中出現(xiàn)頻次最高的查詢結(jié)果作為本次查詢的查詢結(jié)果。但是,該種查詢方式會存在以下技術(shù)缺陷:由于對查詢詞進(jìn)行切分會得到多個分詞,但是有些分詞并不是該查詢詞的核心詞(核心詞即為指能準(zhǔn)確表達(dá)查詢詞含義的最小完整詞語單位),如果根據(jù)這些非核心詞查詢得到的查詢結(jié)果出現(xiàn)的頻次最高,則將頻次最高的查詢結(jié)果作為查詢結(jié)果可能并不是用戶實際需要的結(jié)果,從而導(dǎo)致查詢結(jié)果不準(zhǔn)確或者錯誤。例如,用戶輸入的查詢詞“北京同仁堂中醫(yī)醫(yī)院”,切分得到的分詞為“北京”、“同仁堂”、“中醫(yī)醫(yī)院”,根據(jù)這三個分詞進(jìn)行查詢之后,發(fā)現(xiàn)“北京同仁堂藥店”出現(xiàn)的頻次最高,此時將“北京同仁堂藥店”作為查詢結(jié)果輸出,但是用戶實際要查的是一家中醫(yī)醫(yī)院而并不是藥店。
【發(fā)明內(nèi)容】
[0003]有鑒于此,本發(fā)明實施例的主要目的在于提供一種用于抽取核心詞的方法及裝置,能夠?qū)崿F(xiàn)從用戶輸入的查詢詞中抽取出較為準(zhǔn)確的核心詞,從而達(dá)到提高查詢準(zhǔn)確率的目的。
[0004]在本發(fā)明實施例的第一方面中,提供了一種抽取核心詞的方法,該方法可以包括:
[0005]采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞;
[0006]將所述查詢詞的分詞分別與預(yù)置的核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;
[0007]若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:
[0008]將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及,
[0009]將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
[0010]在本發(fā)明實施例的第二方面中,提供了一種抽取核心詞的裝置,該裝置可以包括:
[0011]分詞單元,用于采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞;
[0012]分詞匹配單元,用于將所述查詢詞的分詞分別與預(yù)置的核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;
[0013]第一核心詞抽取單元,用于若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及,將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
[0014]可見本發(fā)明具有如下有益效果:
[0015]現(xiàn)有技術(shù)根據(jù)查詢詞的分詞進(jìn)行查詢,并將頻次最高的查詢結(jié)果作為最終的查詢結(jié)果,與現(xiàn)有技術(shù)相比,本發(fā)明提出了抽取查詢詞的核心詞的方法,并以該抽取到的核心詞進(jìn)行查詢,由于核心詞是能夠準(zhǔn)確表達(dá)查詢詞含義的最小完整詞語單位,即能夠準(zhǔn)確的表達(dá)用戶的查詢意圖,因此根據(jù)查詢詞對應(yīng)的核心詞進(jìn)行查詢所得到的查詢結(jié)果較為準(zhǔn)確,從而達(dá)到提高查詢準(zhǔn)確率的目的。在抽取核心詞時,首先采用預(yù)置的分詞方式對查詢詞進(jìn)行分詞得到組成查詢詞的分詞,又將查詢詞的分詞分別與預(yù)置的核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配,由于核心詞詞庫中存儲的是已知準(zhǔn)確的核心詞,因此,若查詢詞的分詞中存在與核心詞詞庫匹配的分詞,則可以將與核心詞詞庫匹配的分詞作為查詢詞的核心詞,由于非核心詞詞庫中存儲的是已經(jīng)經(jīng)過驗證為不是核心詞的詞語,因此,與核心詞詞庫和非核心詞詞庫中的詞語均不匹配的未知分詞則是與核心詞詞庫匹配的詞語外,最有可能為核心詞的詞語,因此,再將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,可以提高抽取到準(zhǔn)確核心詞的概率,從而以該抽取到的準(zhǔn)確的核心詞進(jìn)行查詢,得到的查詢結(jié)果更準(zhǔn)確,從而提高查詢的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0016]圖1是本發(fā)明實施例提供的抽取核心詞的方法的流程圖之一;
[0017]圖2是本發(fā)明實施例提供的抽取核心詞的方法的流程圖之二 ;
[0018]圖3是本發(fā)明實施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之一。
[0019]圖4是本發(fā)明實施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之二 ;
[0020]圖5是本發(fā)明實施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之三;
[0021]圖6是本發(fā)明實施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之四;
[0022]圖7是本發(fā)明實施例提供的抽取核心詞的裝置的結(jié)構(gòu)示意圖之五。
【具體實施方式】
[0023]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本發(fā)明實施例作進(jìn)一步詳細(xì)的說明。
[0024]參見圖1,為本發(fā)明實施例提供的一種抽取核心詞的方法的流程圖,該方法可以應(yīng)用于地圖搜索、周邊搜索等任意需要輸入查詢詞進(jìn)行查詢的應(yīng)用場景,該方法可以預(yù)先配置用于保存已知核心詞的核心詞詞庫、及用于保存已知非核心詞的非核心詞詞庫,包括:
[0025]S110、采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞;
[0026]其中,預(yù)置的分詞方式可以包括基本分詞、混合分詞方式等分詞方式。在本發(fā)明中并不進(jìn)行限制。為了使本發(fā)明實施例更加易于理解,下面對混合分詞方式及基本分詞進(jìn)行簡單介紹:
[0027]基本分詞方式是將查詢詞與包含基本漢語單位的基本詞庫進(jìn)行匹配,按照匹配的詞語進(jìn)行切分得到各個分詞,其中,基本詞庫可以包含能夠成詞的基本漢語單位,也有可能是單字。例如,“中國移動網(wǎng)上營業(yè)廳”按照基本分詞方式切分獲得的分詞是:“中國”、“移動”、“網(wǎng)上”、“營業(yè)廳”。
[0028]混合分詞方式是將查詢詞與包含基本漢語單位的基本詞庫進(jìn)行匹配,按照匹配的詞語進(jìn)行切分得到各個基本分詞,再將各個基本分詞的各種組合與包含聯(lián)合詞語的擴(kuò)展詞庫進(jìn)行匹配,按照匹配的詞語進(jìn)行切分得到最終的各個分詞,其中擴(kuò)展詞庫可以包含基本詞庫中能夠聯(lián)合成詞的詞語組合。例如,“中國移動網(wǎng)上營業(yè)廳”按照混合分詞方式切分獲得的分詞是:“中國移動”、“網(wǎng)上”、“營業(yè)廳”。與基本分詞方式比較,混合分詞方式進(jìn)行分詞可以獲得個數(shù)較少的分詞,且每個分詞包含的信息較為詳細(xì)。考慮這一因素,本發(fā)明實施例中將混合分詞方式作為首選預(yù)置的分詞方式可以為優(yōu)選方式。
[0029]S120、將所述查詢詞的分詞分別與核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;
[0030]S130、若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:
[0031]將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及,將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
[0032]需要說明的是,一個查詢詞可以只有一個核心詞,也可以有多個核心詞。
[0033]具體地,例如,將預(yù)置的滿足核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,可以通過以下方式實現(xiàn):
[0034]若存在連續(xù)的未知分詞,則可以將連續(xù)的未知分詞拼接成一個分詞,將長度在預(yù)置的第二長度范圍(第二長度范圍可以是4?12個字節(jié),即2?6個漢字)內(nèi)的拼接得到的分詞確定為所述查詢詞的核心詞;
[0035]若存在非連續(xù)的未知分詞,則將長度在預(yù)置的第二長度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢詞的核心詞。
[0036]需要說明的是,連續(xù)的未知分詞指的是至少有兩個在查詢詞所處位置相鄰的分詞均為未知分詞,非連續(xù)的未知分詞指的是在查詢詞中與該未知分詞相鄰的前一分詞和后一分詞均不是未知分詞。
[0037]如:查詢詞為“中國民生銀行望京自助ATM機(jī)”,對該查詢詞進(jìn)行切分得到分詞分別為:“中國”、“民生”、“銀行”、“自助”、“ATM機(jī)”,其中“中國”、“銀行”為與非核心詞詞庫匹配的分詞,“民生”、“自助”、“ATM機(jī)”為未知分詞,則按照前述方式判斷可知,與“民生”相鄰的前一分詞“中國”和后一分詞“銀行”均為非未知詞,因此確定“民生”為一個非連續(xù)未知分詞,且其長度在預(yù)置的第二長度范圍內(nèi),確認(rèn)該“民生”為前述查詢詞的核心詞;而自助”、“ATM機(jī)”為相鄰的且連續(xù)的兩個未知分詞,因此將該自助”、“ATM機(jī)”拼接成一個分詞“自助ATM機(jī)”,判斷該拼接得到的分詞的長度在第二長度范圍內(nèi),因此將“自助ATM機(jī)”確定為前述查詢詞的核心詞。
[0038]應(yīng)用本發(fā)明實施例提供的抽取核心詞的方法,由于設(shè)置的核心詞詞庫中存儲的是已知準(zhǔn)確的核心詞,非核心詞詞庫中存儲的是已知的非核心詞,因此,本發(fā)明實施例中,將與核心詞詞庫匹配的分詞作為查詢詞的核心詞的準(zhǔn)確率較高,而未知分詞由于并不是非核心詞詞庫中的詞語,因此其在很大的概率上可能為核心詞。因此前述圖1所示的方法流程的步驟130中,對未知分詞是否為核心詞作進(jìn)一步的判斷。圖1所示方法至少可以在以下三種情況下抽取到準(zhǔn)確的核心詞:
[0039]情況1、組成查詢詞的分詞中僅存在與核心詞詞庫匹配的分詞和未知分詞,這種情況,本發(fā)明實施例提供的解決方案是:將與核心詞詞庫匹配的分詞確定為核心詞,并提取出滿足核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為核心詞;
[0040]情況2、組成查詢詞的分詞中僅存在與非核心詞詞庫匹配的分詞和未知分詞,這種情況,本發(fā)明實施例提供的解決方案是:提取出滿足核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為核心詞;
[0041]情況3、組成查詢詞的分詞中存在與核心詞詞庫匹配的分詞、且存在與非核心詞詞庫匹配的分詞、且存在未知分詞,這種情況,本發(fā)明實施例提供的解決方案是:將與核心詞詞庫匹配的分詞確定為核心詞、以及提取出滿足核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為核心詞。
[0042]可見,應(yīng)用本發(fā)明實施例可以抽取到準(zhǔn)確的核心詞,進(jìn)而相應(yīng)提高查詢的準(zhǔn)確率。
[0043]例如,可以在地圖搜索、周邊查詢等任意需要輸入查詢詞進(jìn)行查詢的應(yīng)用場景中應(yīng)用本發(fā)明實施例,如果所述查詢詞存在核心詞,則還可以以所述查詢詞的核心詞為關(guān)鍵詞,查詢與所述查詢詞對應(yīng)的興趣點(diǎn)(如目的地地址等),從而提高查詢的準(zhǔn)確率。
[0044]另外,除上述三種情況外,在實際應(yīng)用中還存在其他的一些情況,包括:
[0045]情況4、組成查詢詞的分詞均與非核心詞詞庫匹配,對于這種情況,本發(fā)明實施例提供的解決方案是:查詢所述查詢詞的分詞中為行政區(qū)域名稱的分詞;判斷是行政區(qū)域名稱的分詞相鄰的后一個分詞是否為行政區(qū)域名稱;若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個分詞拼接成一個分詞;將所述查詢詞的其他分詞和拼接得到的分詞作為所述查詢詞的新分詞,針對查詢詞的新分詞,重新執(zhí)行前述S120。
[0046]情況5、組成查詢詞的分詞均為未知分詞,對于這種情況,本發(fā)明實施例提供的解決方案是:判斷所述查詢詞的長度是否在預(yù)置的第一長度范圍(第二長度范圍可以是4?12個字節(jié),即2?6個漢字)內(nèi),若是,則將所述查詢詞確定為所述查詢詞的核心詞。
[0047]情況6、組成查詢詞的分詞均與核心詞詞庫匹配,對于這種情況,本發(fā)明實施例提供的解決方案是:將與核心詞詞庫的分詞作為查詢詞的核心詞。
[0048]情況7、組成查詢詞的分詞一部分與核心詞詞庫匹配而另一部分分詞與非核心詞詞庫匹配,對于這種情況,本發(fā)明實施例提供的解決方案與前述對情況6的解決方案一致,在此不再贅述。
[0049]為進(jìn)一步的使本領(lǐng)域技術(shù)人員能夠清楚的理解本發(fā)明技術(shù)方案,下面以一詳細(xì)的流程圖對本發(fā)明技術(shù)方案進(jìn)行詳細(xì)的描述,請參見圖2,該方法包括:
[0050]S210、采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞;
[0051]S220、將所述查詢詞的分詞分別與核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;
[0052]其中,核心詞詞庫及非核心詞詞庫可以預(yù)先通過軟件或人工整理海量詞語獲得。本發(fā)明實施例中的核心詞詞庫中存儲的核心詞滿足以下特征:核心詞由省市區(qū)名稱和非省市區(qū)名稱拼接而成構(gòu)成一個實體名,如“中國銀行”、“海口電器”、“北京大學(xué)”、“中國移動”等。在整理核心詞詞庫時,可以將省市區(qū)名稱作為核心詞的一部分,先利用軟件自動將省市區(qū)名稱后拼接上其他名詞,再通過人工篩選得到準(zhǔn)確的已知核心詞。該實施例中的非核心詞詞庫可以包括高頻詞庫、地點(diǎn)類型詞庫、或行政區(qū)域名稱詞庫。其中:
[0053]高頻詞庫可以預(yù)先通過如下實現(xiàn)方式獲得:針對每個城市,對該城市對應(yīng)的Ρ0Ι數(shù)據(jù)庫中的所有Ρ0Ι的名稱進(jìn)行分詞,統(tǒng)計出所有分詞的頻率,將頻率大于預(yù)設(shè)頻率閥值的分詞作為高頻詞,并將高頻詞添加到預(yù)置的高頻詞庫中,將高頻詞以格式(keyword,adcode, citycode,頻率)存儲至高頻詞庫中,其中,keyword即為高頻詞、adcode為行政區(qū)域代碼、citycode為行政區(qū)域?qū)?yīng)的電話號碼區(qū)號。如對北京市對應(yīng)的Ρ0Ι數(shù)據(jù)庫進(jìn)行分析,得到“辦事處”為高頻詞,則將該高頻詞存儲至高頻詞庫中的格式為:辦事處+北京市+010+頻率。對上海市對應(yīng)的Ρ0Ι數(shù)據(jù)庫進(jìn)行分析,得到“辦事處”為高頻詞,則將該高頻詞存儲至高頻詞庫中的格式為:辦事處+上海+021+頻率。
[0054]地點(diǎn)類型詞庫可以預(yù)先通過人工整理獲得,地點(diǎn)類型詞庫包括的詞語可以為“餐飲”、“酒店”、“旅館”、“銀行”、“停車場”、“商場”、“超市”等;
[0055]行政區(qū)域名稱詞庫可以預(yù)先通過人工整理獲得,行政區(qū)域名稱詞庫包括的行政區(qū)域名稱可以為省、市、區(qū)、鄉(xiāng)鎮(zhèn)、村、道路等名稱。
[0056]優(yōu)選地,為便于快速、直觀的獲知分詞與核心詞詞庫、非核心詞詞庫的匹配情況,在將分詞與核心詞庫和非核心詞庫進(jìn)行匹配的過程中,如果某分詞與核心詞詞庫或者非核心詞詞庫中的詞語匹配,則可以將該分詞標(biāo)記為與其匹配的核心詞詞庫或非核心詞詞庫對應(yīng)的標(biāo)識,如果某分詞與核心詞詞庫及非核心詞詞庫中的詞語均不匹配,則可以將該分詞標(biāo)記為未知,從而在匹配后可以根據(jù)該標(biāo)記快速的查詢到匹配結(jié)果。如:將與核心詞詞庫匹配的分詞標(biāo)記為4,與行政區(qū)域名稱詞庫匹配的分詞標(biāo)記為3,與地點(diǎn)類型詞庫匹配的分詞標(biāo)記為2,以及與高頻詞庫匹配的分詞標(biāo)記為1,其他情況標(biāo)記為0。將Ρ0Ι “??陔娖饔邢薰尽边M(jìn)行切分后得到分詞為“??凇?、“電器”、“有限公司”,將分詞與前述核心詞詞庫、高頻詞庫、地點(diǎn)類型詞庫、行政區(qū)域名稱詞庫進(jìn)行匹配后,根據(jù)匹配情況進(jìn)行標(biāo)記,結(jié)果為海口
(3)、電器(2)、有限公司(2)。
[0057]優(yōu)選地,在建立前述核心詞詞庫和非核心詞詞庫時,為避免同一個分詞可能同時可以劃定到多個詞庫中的情況,本發(fā)明實施例預(yù)先設(shè)置四個詞庫的優(yōu)先級,如:核心詞詞庫>行政區(qū)域名稱詞庫 > 地點(diǎn)類型詞庫 > 高頻詞庫。當(dāng)判斷某一分詞可以劃定到多個詞庫中時,則將該分詞存儲至優(yōu)先級較高的詞庫中,如“商場”既是類型詞也是高頻詞,則將“商場”添加到優(yōu)先級較高的地點(diǎn)類型詞庫中。
[0058]S230、若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:
[0059]S230.1、若存在連續(xù)的未知分詞,則將連續(xù)的未知分詞拼接成一個分詞,并判斷該拼接得到的分詞的長度是否在預(yù)置的第二長度范圍內(nèi);
[0060]S230.2、若是,則將拼接得到的分詞確定為所述查詢詞的核心詞,若否則確定該拼接得到的分詞不是查詢詞的核心詞;
[0061]S230.3、若存在非連續(xù)的未知分詞,則判斷所述非連續(xù)的未知分詞的長度是否在預(yù)置的第二長度范圍內(nèi);
[0062]S230.4、若是,則將所述非連續(xù)的未知分詞確定為所述查詢詞的核心詞,若否則確定所述非連續(xù)未知分詞不是所述查詢詞的核心詞;
[0063]S230.5、將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;
[0064]S240、若所述查詢詞的分詞均為未知分詞,則:
[0065]S240.1、判斷所述查詢詞的長度是否在預(yù)置的第一長度范圍內(nèi);
[0066]S240.2、若是,則將所述查詢詞確定為所述查詢詞的核心詞。若否則確定所述查詢詞不存在核心詞;或者,以預(yù)置的其他分詞方式對查詢詞進(jìn)行重新分詞,重復(fù)執(zhí)行前述S220 ;
[0067]例如,查詢詞“天安門”均不與核心詞詞庫和非核心詞詞庫中的詞語匹配,其長度在預(yù)置的第一長度范圍(如,2?6個漢字)以內(nèi),則可以將該查詢詞“天安門”本身確定為核心詞。
[0068]S250、若所述查詢詞的分詞均不與所述核心詞詞庫中詞語匹配,但均與所述非核心詞詞庫中的詞語匹配,則:
[0069]S250.1、查詢所述查詢詞的分詞中為行政區(qū)域名稱的分詞;
[0070]例如,可以查詢與行政區(qū)域名稱詞庫中的詞語匹配的分詞。
[0071]S250.2、判斷是行政區(qū)域名稱的分詞相鄰的后一個分詞是否為行政區(qū)域名稱;
[0072]S250.3、若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個分詞拼接成一個分詞,若是則不作處理;
[0073]例如,查詢詞“??陔娖饔邢薰尽苯?jīng)過切分后獲得的分詞為:???、電器、有限公司,若分詞均不與所述核心詞詞庫中詞語匹配,但均與所述非核心詞詞庫中的詞語匹配,則可以查詢到分詞中為行政區(qū)域名稱的分詞“??凇?,由于“??凇毕噜彽暮笠粋€分詞是“電器”不屬于行政區(qū)域名稱,因此,可以將“???”與“電器”拼接成一個分詞“??陔娖鳌?,
[0074]S250.4、將所述查詢詞的其他分詞和拼接得到的分詞作為所述查詢詞的新分詞,針對查詢詞的新分詞,重新執(zhí)行前述S220。
[0075]需要說明的是,上述S250.4中所述的查詢詞的其他分詞指的是在切分獲得分詞中除了該行政區(qū)域名稱的分詞及其相鄰的后一個分詞之外的其他分詞。
[0076]S260、若所述查詢詞的分詞均與核心詞詞庫中詞語匹配,或者查詢詞的分詞一部分與核心詞詞庫匹配而另一部分分詞與非核心詞詞庫匹配,則:
[0077]S260.1、將與核心詞詞庫中詞語匹配的分詞作為所述查詢詞的核心詞。
[0078]本發(fā)明人發(fā)現(xiàn),實際應(yīng)用中如果查詢詞的分詞均不與所述核心詞詞庫和非核心詞詞庫中的詞語匹配,則當(dāng)該查詢詞在一定長度范圍內(nèi)時,可以確定該查詢詞本身就是核心詞;當(dāng)查詢詞的分詞均與核心詞詞庫中詞語匹配,或者,查詢詞的一部分分詞與核心詞詞庫中詞語匹配而另一部分分詞與非核心詞詞庫中詞語匹配時,則與核心詞詞庫中詞語匹配的分詞就是查詢詞的核心詞;本發(fā)明人還發(fā)現(xiàn)行政區(qū)域名稱與其相鄰的后一個非行政區(qū)域名稱的分詞的拼接為核心詞的概率較高,因此,該實施例在查詢詞的分詞均不與所述核心詞詞庫中詞語匹配,但均與所述非核心詞詞庫中的詞語匹配的情況下,將為行政區(qū)域名稱的分詞與其相鄰的后一個分詞拼接成一個分詞,將查詢詞的其他分詞和拼接得到的分詞作為所述查詢詞的新分詞,針對查詢詞的新分詞,重新執(zhí)行所述將所述查詢詞的分詞分別與核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配的步驟,從而提高了提取出準(zhǔn)確的核心詞的概率。
[0079]另外,在應(yīng)用本發(fā)明上述實施例未抽取到核心詞的情況下,還可以切換至下一預(yù)置的分詞方式,重新應(yīng)用本發(fā)明實施例進(jìn)行核心詞的抽取,從而增加抽取到核心詞的概率。如預(yù)置的分詞方式包括基本分詞方式和混合分詞方式,優(yōu)選地,先采取混合分詞方式對查詢詞進(jìn)行切分,并對切分得到的分詞進(jìn)行核心詞抽取。在抽取不到核心詞時,在采取預(yù)置的基本分詞方式重新對查詢詞進(jìn)行分詞,并進(jìn)行后續(xù)的核心詞抽取流程。
[0080]參見圖3,為本發(fā)明實施例提供的一種抽取核心詞的裝置的結(jié)構(gòu)示意圖,該裝置可以配置于地圖搜索、提示輸入信息等任意需要按核心詞查詢的相關(guān)設(shè)備。如圖所示,該裝置可以包括:
[0081]分詞單元310,用于采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞;
[0082]分詞匹配單元320,用于將所述查詢詞的分詞分別與預(yù)置的核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;
[0083]第一核心詞抽取單元330,用于若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及,將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
[0084]第一核心詞抽取單元330,將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,具體用于:若存在連續(xù)的未知分詞,則將長度在預(yù)置的第二長度范圍內(nèi)的拼接得到的分詞確定為所述查詢詞的核心詞;若存在非連續(xù)的未知分詞,則將長度在預(yù)置的第二長度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢詞的核心
ο
[0085]應(yīng)用本發(fā)明實施例提供的抽取核心詞的裝置,由于設(shè)置的核心詞詞庫中存儲的是已知準(zhǔn)確的核心詞,非核心詞詞庫中存儲的是已知的非核心詞,因此,本發(fā)明實施例中,將與核心詞詞庫匹配的分詞作為查詢詞的核心詞的準(zhǔn)確率較高,而未知分詞由于并不是非核心詞詞庫中的詞語,因此其在很大的概率上可能為核心詞。因此,圖3所示裝置中的第一核心詞抽取單元330對未知分詞是否為核心詞作進(jìn)一步的判斷。因此,應(yīng)用本發(fā)明實施例提供的裝置,可以抽取到準(zhǔn)確的核心詞,進(jìn)而相應(yīng)提高查詢的準(zhǔn)確率。
[0086]優(yōu)選地,針對查詢詞的分詞均不與所述核心詞詞庫中詞語匹配,但均與所述非核心詞詞庫中的詞語匹配的情況,本發(fā)明實施例所述的裝置,還可以包括第一分詞重組單元340,如圖4所示。
[0087]第一分詞重組單元340,用于若所述查詢詞的分詞均不與所述核心詞詞庫中詞語匹配,但均與所述非核心詞詞庫中的詞語匹配,則:查詢所述查詢詞的分詞中為行政區(qū)域名稱的分詞;判斷是行政區(qū)域名稱的分詞相鄰的后一個分詞是否為行政區(qū)域名稱;若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個分詞拼接成一個分詞;將所述查詢詞的其他分詞和拼接得到的分詞作為所述查詢詞的新分詞,針對查詢詞的新分詞,觸發(fā)分詞匹配單元 320。
[0088]優(yōu)選地,針對查詢詞的分詞均為未知分詞,本發(fā)明實施例前述圖3或圖4的裝置還可以包括第二核心詞抽取單元350,如圖5所示為圖3所示的裝置中還包括第二核心詞抽取單元350:
[0089]第二核心詞抽取單元350,用于若所述查詢詞的分詞均為未知分詞,則:判斷所述查詢詞的長度是否在預(yù)置的第一長度范圍內(nèi),若是則將所述查詢詞確定為所述查詢詞的核心詞。
[0090]優(yōu)選地,本發(fā)明實施例前述圖3、圖4或圖5所示的裝置,還可以包括第三核心詞抽取單元360,如圖6所示為圖3所示的裝置中還包括第三核心詞抽取單元360:
[0091]第三核心詞抽取單元360,用于若所述查詢詞的分詞均與核心詞詞庫中詞語匹配,或者查詢詞的一部分分詞與核心詞詞庫中詞語匹配而另一部分分詞與非核心詞詞庫中詞語匹配,則:將與核心詞詞庫中詞語匹配的分詞作為所述查詢詞的核心詞。
[0092]在地圖搜索、周邊查詢等任意需要輸入查詢詞進(jìn)行查詢的應(yīng)用場景中均可應(yīng)用本發(fā)明技術(shù)方案。本發(fā)明實施例中的前述裝置還可以包括查詢單元370,如圖7為所述圖4所示的裝置中還包括第二核心詞抽取單元350和查詢單元370:
[0093]查詢單元370,用于若所述查詢詞存在核心詞,以所述查詢詞的核心詞為關(guān)鍵詞,查詢與所述查詢詞對應(yīng)的興趣點(diǎn)。
[0094]需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0095]以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種抽取核心詞的方法,其特征在于,包括: 采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞; 將所述查詢詞的分詞分別與預(yù)置的核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配;若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則: 將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及, 將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述查詢詞的分詞均與所述非核心詞詞庫中的詞語匹配,則所述方法還包括: 查詢所述查詢詞的分詞中為行政區(qū)域名稱的分詞; 判斷是行政區(qū)域名稱的分詞相鄰的后一個分詞是否為行政區(qū)域名稱; 若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個分詞拼接成一個分詞; 將所述查詢詞的其他分詞和拼接得到的分詞作為所述查詢詞的新分詞,針對查詢詞的新分詞,重新執(zhí)行所述將所述查詢詞的分詞分別與核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配的步驟。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述查詢詞的分詞均為未知分詞,則所述方法還包括: 判斷所述查詢詞的長度是否在預(yù)置的第一長度范圍內(nèi),若是,則將所述查詢詞確定為所述查詢詞的核心詞。
4.根據(jù)權(quán)利要求1?3任一項所述的方法,其特征在于,所述將預(yù)置的滿足核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,具體包括: 若存在連續(xù)的未知分詞,則將連續(xù)的未知分詞拼接成一個分詞,將長度在預(yù)置的第二長度范圍內(nèi)的拼接得到的分詞確定為所述查詢詞的核心詞; 若存在非連續(xù)的未知分詞,則將長度在預(yù)置的第二長度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢詞的核心詞。
5.根據(jù)權(quán)利要求1?3任一項所述的方法,其特征在于,若所述查詢詞存在核心詞,所述方法還包括: 以所述查詢詞的核心詞為關(guān)鍵詞,查詢與所述查詢詞對應(yīng)的興趣點(diǎn)。
6.一種抽取核心詞的裝置,其特征在于,包括: 分詞單元,用于采用預(yù)置的分詞方式對查詢詞進(jìn)行切分,得到組成所述查詢詞的分詞; 分詞匹配單元,用于將所述查詢詞的分詞分別與預(yù)置的核心詞詞庫和非核心詞詞庫中的詞語進(jìn)行匹配; 第一核心詞抽取單元,用于若所述查詢詞的分詞中存在與所述核心詞詞庫匹配的分詞和/或與所述非核心詞詞庫匹配的分詞,且存在未知分詞,則:將與所述核心詞詞庫匹配的分詞確定為所述查詢詞的核心詞;以及,將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,所述未知分詞是指與所述核心詞詞庫和所述非核心詞詞庫中的詞語均不匹配的分詞。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 第一分詞重組單元,用于若所述查詢詞的分詞均不與所述核心詞詞庫中詞語匹配,但均與所述非核心詞詞庫中的詞語匹配,則:查詢所述查詢詞的分詞中為行政區(qū)域名稱的分詞;判斷是行政區(qū)域名稱的分詞相鄰的后一個分詞是否為行政區(qū)域名稱;若否,則將該為行政區(qū)域名稱的分詞與其相鄰的后一個分詞拼接成一個分詞;將所述查詢詞的其他分詞和拼接得到的分詞作為所述查詢詞的新分詞,針對查詢詞的新分詞,觸發(fā)分詞匹配單元。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 第二核心詞抽取單元,用于若所述查詢詞的分詞均為未知分詞,則:判斷所述查詢詞的長度是否在預(yù)置的第一長度范圍內(nèi),若是則將所述查詢詞確定為所述查詢詞的核心詞。
9.根據(jù)權(quán)利要求6?8任一項所述的裝置,其特征在于,所述第一核心詞抽取單元將滿足預(yù)置的核心詞長度標(biāo)準(zhǔn)的未知分詞或拼接未知分詞得到的分詞作為所述查詢詞的核心詞,具體用于:若存在連續(xù)的未知分詞,則將長度在預(yù)置的第二長度范圍內(nèi)的拼接得到的分詞確定為所述查詢詞的核心詞;若存在非連續(xù)的未知分詞,則將長度在預(yù)置的第二長度范圍內(nèi)的非連續(xù)的未知分詞確定為所述查詢詞的核心詞。
10.根據(jù)權(quán)利要求6?8任一項所述的裝置,其特征在于,還包括: 查詢單元,用于若所述查詢詞存在核心詞,以所述查詢詞的核心詞為關(guān)鍵詞,查詢與所述查詢詞對應(yīng)的興趣點(diǎn)。
【文檔編號】G06F17/30GK104424177SQ201310376577
【公開日】2015年3月18日 申請日期:2013年8月26日 優(yōu)先權(quán)日:2013年8月26日
【發(fā)明者】彭松 申請人:高德軟件有限公司