一種基于多維度綜合詞庫的分詞方法
【專利摘要】本發(fā)明一種基于多維度綜合詞庫的構(gòu)建方法,選擇數(shù)據(jù)源,并進(jìn)行使用量統(tǒng)計;根據(jù)約束條件選擇關(guān)鍵詞;為關(guān)鍵詞創(chuàng)建多維的維護(hù)字段;根據(jù)共現(xiàn)關(guān)系,獲得原始關(guān)鍵詞的同義詞、以及英文關(guān)鍵詞復(fù)數(shù)的單數(shù)形式,完善詞庫內(nèi)容;制定中心關(guān)鍵詞識別規(guī)則,找出原始關(guān)鍵詞中包含的中心關(guān)鍵詞。本發(fā)明同時公開了一種基于多維度綜合詞庫的搜索分詞方法和中心關(guān)鍵詞識別方法。在本發(fā)明通過構(gòu)建一個具有多重維度的綜合詞庫,在詞庫中采用語義識別技術(shù),識別商品的中心關(guān)鍵詞,從而使得匹配有較好的基礎(chǔ)。本發(fā)明綜合運用字符串匹配分詞方法以及基于統(tǒng)計、詞庫的分詞方法,結(jié)合自動和人工的方式同時參與詞庫的維護(hù)升級,提高分詞準(zhǔn)確性。
【專利說明】—種基于多維度綜合詞庫的分詞方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索引擎技術(shù)中的分詞技術(shù),特別是涉及電子商務(wù)搜索中的分詞方法和對商品信息理解的技術(shù)。
【背景技術(shù)】
[0002]隨著電子商務(wù)高速發(fā)展,越來越多的供應(yīng)商提供了大量的商品在電子商務(wù)平臺上,進(jìn)行展現(xiàn)。眾多的采購商、購買者要在如此多的商品中,想尋找到符合自己需要的產(chǎn)品,根本離不開電子商務(wù)搜索引擎的幫助,只有通過它來搜索商品,才有可能查找、選擇產(chǎn)品,從而瀏覽詳細(xì)的產(chǎn)品信息。
[0003]在這種情況下,購買者通過搜索來查找商品,希望搜索結(jié)果中的產(chǎn)品不僅要全面,而且要準(zhǔn)確,這就對搜索的準(zhǔn)確率和查全率提出了更高的要求。而在搜索技術(shù)中,分詞技術(shù)是一項核心技術(shù),不僅僅只是簡單的分詞,而且涉及到對商品信息的理解,因此分詞結(jié)果的準(zhǔn)確性也影響著搜索結(jié)果的準(zhǔn)確性。
[0004]通用搜索引擎有對中英文分詞的實現(xiàn)技術(shù),目前常用如下幾種技術(shù)方法:
[0005]第一種是基于字符串匹配的分詞方法,包括正向匹配法,逆向匹配法,雙向匹配法等,按照不同長度優(yōu)先匹配的方法,又可分為最大匹配法和最小匹配法;
[0006]第二種是基于統(tǒng)計分析的分詞方法,就統(tǒng)計模型來分,包含條件隨機(jī)場模型和隱馬爾科夫模型等。從形式上來看,詞是由字組成的,若足夠流行和廣泛,該詞會被固定下來,通過正向和逆向匹配法可能得到不同的分詞結(jié)果,也可采用其他方法得到更多種分詞結(jié)果,通過計算分詞結(jié)果中詞或者字之間的共現(xiàn)頻率,共現(xiàn)度越高,說明緊密程度越高,越有可能成為最佳的分詞結(jié)果;
[0007]第三種是基于特定詞庫的分詞方法,不同領(lǐng)域通常有不同的領(lǐng)域詞庫,詞庫中可以標(biāo)注詞的詞性,拼音等信息,分詞的結(jié)果來源于詞庫中存在的詞,基于詞庫的分詞不能獨立存在,在確定詞庫后,需要選擇一種分詞算法配合。
[0008]第四種是基于語言理解的分詞方法。通過建立不同語言的句法,語法規(guī)則庫,然后對待分詞信息進(jìn)行句法,語法規(guī)則的分析,從而識別信息不同的成分,并在一定程度上消除歧義。
[0009]在目前常用的開源分詞器中,例如,IK分詞具有上述基于字符串匹配的分詞方法和基于特定詞庫的分詞方法的特點,它將詞庫打包在jar包中,對詞庫數(shù)據(jù)的維護(hù)需要重新打包,維護(hù)成本較高,并且當(dāng)發(fā)現(xiàn)不準(zhǔn)確時,無法對詞庫進(jìn)行調(diào)整,難以觀測分詞的效果?;谝?guī)則的分詞,例如2-4Gram分詞,并沒有對信息進(jìn)行理解,屬于一種字符串匹配的分詞方法。
[0010]在通常情況下,一般針對英文的分詞都是按照空格進(jìn)行分詞,但是在電子商務(wù)平臺的商品英文名稱中,存在這樣的情況,有些商品名稱的語義具有原子性,其不能拆分,例如hair color表示染發(fā)劑,car cover表示汽車的防護(hù)罩,這樣商品英文名稱需要識別出其原子性短語,因此需要對這些商品名稱進(jìn)行理解,將提取其中原子性短語作為對英文輸入串分詞一項要求。
[0011]在電子商務(wù)領(lǐng)域中,如果因為業(yè)務(wù)需要,往往會設(shè)計出不同的搜索策略,例如在搜索“電視機(jī)”時,希望所有的名稱中包含“電視”的商品,所有的名稱中包含“tv”的商品也能夠被檢索出來,在這種情況下,可以將“電視”、“tv”看成是“電視機(jī)”的同義詞。所以說,分詞不只是對信息進(jìn)行字面上進(jìn)行切分,而且還涉及到進(jìn)行理解,以便與搜索時,能夠讓用戶找到自己想找到的產(chǎn)品。
[0012]另外,歧義詞、錯詞、以及英文中的單復(fù)數(shù),都離不開對信息的理解,而目前的基于語言理解的分詞方法,雖然在一定程度上消除歧義,但該方法計算復(fù)雜度高,出現(xiàn)分詞錯誤后也難以調(diào)整,難以滿足電子商務(wù)搜索實時性的要求。
[0013]因此,通過分詞能解決電子商務(wù)搜索分詞中對信息理解的誤差,提高搜索準(zhǔn)確性,并能易于維護(hù)分詞結(jié)果是十分迫切的。
【發(fā)明內(nèi)容】
[0014]在本發(fā)明提供的方案中,通過構(gòu)建一個具有多重維度的綜合詞庫,該詞庫由程序批量生成,人工可參與編輯維護(hù),從而達(dá)到通過運營詞庫來提高準(zhǔn)確性;在詞庫中并采用語義識別技術(shù),識別商品的中心關(guān)鍵詞,從而使得匹配有較好的基礎(chǔ)。本發(fā)明綜合運用了字符串匹配分詞方法以及基于統(tǒng)計、詞庫的分詞方法,結(jié)合自動和人工的方式同時參與詞庫的維護(hù)升級,從而進(jìn)一步提高分詞準(zhǔn)確性。
[0015]本發(fā)明米用的技術(shù)方案為:一種基于多維度綜合詞庫的構(gòu)建方法,包括:
[0016]步驟一、選擇數(shù)據(jù)源,并進(jìn)行使用量統(tǒng)計;
[0017]在電子商務(wù)平臺的搜索日志中,選擇用戶在一段時間內(nèi)所使用的搜索關(guān)鍵詞,對每日每位用戶的搜索關(guān)鍵詞進(jìn)行去重,然后統(tǒng)計每個搜索關(guān)鍵詞的每日的用戶使用量,將一段時間內(nèi)搜索關(guān)鍵詞的每日的用戶使用量進(jìn)行累加,統(tǒng)計出搜索關(guān)鍵詞一段時間內(nèi)的用戶使用量,該用戶使用量代表了當(dāng)前搜索關(guān)鍵詞的熱點分布;
[0018]在電子商務(wù)平臺的商品關(guān)鍵詞信息作為數(shù)據(jù)源,并對同一個供應(yīng)商的商品關(guān)鍵詞進(jìn)行去重,然后統(tǒng)計有多少供應(yīng)商在描述商品的過程中使用了該商品關(guān)鍵詞,有多少商品使用了該商品關(guān)鍵詞,供應(yīng)商描述商品時使用的關(guān)鍵詞越多,表示該商品關(guān)鍵詞越熱門,競爭程度越激烈;使用某商品關(guān)鍵詞的商品越多,表示銷售該商品的商家競爭越激烈;
[0019]步驟二、根據(jù)約束條件選擇關(guān)鍵詞;
[0020]經(jīng)過使用量統(tǒng)計,將產(chǎn)生大量關(guān)鍵詞的候選集合,對這些候選關(guān)鍵詞數(shù)據(jù),選擇符合一定約束條件的關(guān)鍵詞進(jìn)入詞庫;
[0021]步驟三、為關(guān)鍵詞創(chuàng)建多維的維護(hù)字段;
[0022]在待維護(hù)的關(guān)鍵詞選定的基礎(chǔ)上,為這些關(guān)鍵詞創(chuàng)建待維護(hù)的字段,并根據(jù)這些字段創(chuàng)建的原則對應(yīng)把該詞庫按一定格式標(biāo)不;
[0023]步驟四、根據(jù)共現(xiàn)關(guān)系,獲得原始關(guān)鍵詞的同義詞、以及英文關(guān)鍵詞復(fù)數(shù)的單數(shù)形式,完善詞庫內(nèi)容;
[0024]通過每個關(guān)鍵詞與其它關(guān)鍵詞之間的共現(xiàn)次數(shù),選擇共現(xiàn)次數(shù)較高的關(guān)鍵詞作為同義詞,以及關(guān)鍵詞復(fù)數(shù)的單數(shù)形式;
[0025]步驟五、制定中心關(guān)鍵詞識別規(guī)則,找出原始關(guān)鍵詞中包含的中心關(guān)鍵詞;[0026]針對電子商務(wù)行業(yè)銷售商品的特點,除了通過上述過程構(gòu)建出電子商務(wù)領(lǐng)域詞庫,以便在分詞過程中利用該詞庫進(jìn)行分詞以外;針對電子商務(wù)買賣的是可銷售的物品時,提出了一種識別商品中心關(guān)鍵詞的一種方法,并將該識別出來的中心關(guān)鍵詞作為分詞結(jié)果的一部分,通過在識別出的中心關(guān)鍵詞前加上標(biāo)志以區(qū)分普通的分詞結(jié)果。
[0027]本發(fā)明還公開了一種基于多維度綜合詞庫的搜索分詞方法和中心關(guān)鍵詞識別方法。
[0028]本發(fā)明與現(xiàn)有技術(shù)比較的有益效果:
[0029]1、本發(fā)明利用統(tǒng)計的方法構(gòu)建多維度綜合詞庫,并提供人工維護(hù)詞庫的方法,從信息理解的角度對詞庫從多個維度進(jìn)行信息擴(kuò)展,對識別不準(zhǔn)確的原始關(guān)鍵詞,給出正確的分詞方法,并提交至詞庫中,從而投入較少,也可以獲得更加合理的分詞結(jié)果。
[0030]2、本發(fā)明所描述的方法簡單易懂,可維護(hù)性較高,算法實施高效、可行,對電子商務(wù)商品類搜索尤其適用,但不限于電子商務(wù)領(lǐng)域搜索。
[0031]3、本發(fā)明解決了目前分詞方法存在的計算負(fù)載性較高、方法單一以及人工可維護(hù)性較差的問題。
[0032]4、本發(fā)明中的分詞方法對語言的使用擴(kuò)展性強(qiáng),可以適用于其它語言的分詞處理,包括英文,日文,韓文等。
【專利附圖】
【附圖說明】
[0033]圖1是本發(fā)明的基于多維度綜合詞庫的構(gòu)建流程圖。
[0034]圖2是本發(fā)明的基于多維度綜合詞庫的分詞處理流程圖。
[0035]圖3是本發(fā)明的商品名稱的中心關(guān)鍵詞的識別方法。
【具體實施方式】
[0036]以下結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步詳細(xì)說明。
[0037]本實施例的電子商務(wù)領(lǐng)域多維度綜合詞庫構(gòu)建方法,包括:
[0038](I)選擇數(shù)據(jù)源,并進(jìn)行使用量統(tǒng)計;
[0039]在電子商務(wù)平臺上,每天都有大量的用戶通過搜索來查找產(chǎn)品,在搜索日志中,選擇用戶在一段時間內(nèi)所使用的搜索關(guān)鍵詞,對每日每位用戶的搜索關(guān)鍵詞進(jìn)行去重,然后統(tǒng)計每個搜索關(guān)鍵詞的每日的用戶使用量,將一段時間內(nèi)搜索關(guān)鍵詞的每日的用戶使用量進(jìn)行累加,統(tǒng)計出搜索關(guān)鍵詞一段時間內(nèi)的用戶使用量,該用戶使用量代表了當(dāng)前搜索關(guān)鍵詞的熱點分布;
[0040]在電子商務(wù)平臺上,為了進(jìn)行互聯(lián)網(wǎng)營銷,每個商品中都包含有商品關(guān)鍵詞信息,選擇這些商品關(guān)鍵詞作為數(shù)據(jù)源,并對同一個供應(yīng)商的商品關(guān)鍵詞進(jìn)行去重,然后統(tǒng)計有多少供應(yīng)商在描述商品的過程中使用了該商品關(guān)鍵詞,有多少商品使用了該商品關(guān)鍵詞,供應(yīng)商描述商品時使用的關(guān)鍵詞越多,表示該商品關(guān)鍵詞越熱門,競爭程度越激烈;使用某商品關(guān)鍵詞的商品越多,表示銷售該商品的商家競爭越激烈。
[0041](2)根據(jù)約束條件選擇關(guān)鍵詞;
[0042]經(jīng)過上述處理后,將產(chǎn)生大量關(guān)鍵詞的候選集合,這些關(guān)鍵詞并不一定都符合要求進(jìn)入詞庫,此時需要從上述候選關(guān)鍵詞數(shù)據(jù)中,選擇符合一定約束條件的關(guān)鍵詞進(jìn)入詞庫,約束條件包括:
[0043]?當(dāng)關(guān)鍵詞搜索數(shù)量,關(guān)鍵詞的供應(yīng)商使用數(shù)量,使用關(guān)鍵詞的商品數(shù)量超過一定閾值時,這些關(guān)鍵詞的分析和使用價值較大,將它們添加到詞庫中,作為待維護(hù)的關(guān)鍵詞;
[0044]?過濾掉一些明顯存在錯誤的原始關(guān)鍵詞,例如單字,單詞,搜索量較小的錯詞。
[0045](3)為關(guān)鍵詞創(chuàng)建多維的維護(hù)字段;
[0046]在待維護(hù)的關(guān)鍵詞選定的基礎(chǔ)上,為這些關(guān)鍵詞創(chuàng)建待維護(hù)的字段,這些字段創(chuàng)建的原則包括:
[0047]?該關(guān)鍵詞是否正確,若錯誤,那對應(yīng)的正確關(guān)鍵詞是什么;
[0048]?該關(guān)鍵詞是否可以銷售,若可以銷售,則可以作為產(chǎn)品的核心關(guān)鍵詞;
[0049]?該關(guān)鍵詞的核心關(guān)鍵詞是什么,例如自行車的核心關(guān)鍵詞是車;
[0050]?該關(guān)鍵詞是否為原子關(guān)鍵詞,例如鐵觀音就是原子關(guān)鍵詞,拆分沒有意義;
[0051]?對英文而言,單詞的原型是什么,這樣其復(fù)數(shù)、單數(shù)就可以明確地表達(dá)出來;
[0052]
【權(quán)利要求】
1.一種基于多維度綜合詞庫的構(gòu)建方法,其特征在于,包括: 步驟一、選擇數(shù)據(jù)源,并進(jìn)行使用量統(tǒng)計; 在電子商務(wù)平臺的搜索日志中,選擇用戶在一段時間內(nèi)所使用的搜索關(guān)鍵詞,對每日每位用戶的搜索關(guān)鍵詞進(jìn)行去重,然后統(tǒng)計每個搜索關(guān)鍵詞的每日的用戶使用量,將一段時間內(nèi)搜索關(guān)鍵詞的每日的用戶使用量進(jìn)行累加,統(tǒng)計出搜索關(guān)鍵詞一段時間內(nèi)的用戶使用量,該用戶使用量代表了當(dāng)前搜索關(guān)鍵詞的熱點分布; 在電子商務(wù)平臺的商品關(guān)鍵詞信息作為數(shù)據(jù)源,并對同一個供應(yīng)商的商品關(guān)鍵詞進(jìn)行去重,然后統(tǒng)計有多少供應(yīng)商在描述商品的過程中使用了該商品關(guān)鍵詞,有多少商品使用了該商品關(guān)鍵詞,供應(yīng)商描述商品時使用的關(guān)鍵詞越多,表示該商品關(guān)鍵詞越熱門,競爭程度越激烈;使用某商品關(guān)鍵詞的商品越多,表示銷售該商品的商家競爭越激烈; 步驟二、根據(jù)約束條件選擇關(guān)鍵詞; 經(jīng)過使用量統(tǒng)計,將產(chǎn)生大量關(guān)鍵詞的候選集合,對這些候選關(guān)鍵詞數(shù)據(jù),選擇符合一定約束條件的關(guān)鍵詞進(jìn)入詞庫; 步驟三、為關(guān)鍵詞創(chuàng)建多維的維護(hù)字段; 在待維護(hù)的關(guān)鍵詞選定的基礎(chǔ)上,為這些關(guān)鍵詞創(chuàng)建待維護(hù)的字段,并根據(jù)這些字段創(chuàng)建的原則對應(yīng)把該詞庫按一定格式標(biāo)不; 步驟四、根據(jù)共現(xiàn)關(guān)系,獲得原始關(guān)鍵詞的同義詞、以及英文關(guān)鍵詞復(fù)數(shù)的單數(shù)形式,完善詞庫內(nèi)容; 通過每個關(guān)鍵詞與其它關(guān)鍵詞之間的共現(xiàn)次數(shù),選擇共現(xiàn)次數(shù)較高的關(guān)鍵詞作為同義詞,以及關(guān)鍵詞復(fù)數(shù)的單數(shù)形式; 步驟五、制定中心關(guān)鍵詞識別規(guī)則,找出原始關(guān)鍵詞中包含的中心關(guān)鍵詞; 針對電子商務(wù)行業(yè)銷售商品的特點,除了通過上述過程構(gòu)建出電子商務(wù)領(lǐng)域詞庫,以便在分詞過程中利用該詞庫進(jìn)行分詞以外;針對電子商務(wù)買賣的是可銷售的物品時,提出了一種識別商品中心關(guān)鍵詞的一種方法,并將該識別出來的中心關(guān)鍵詞作為分詞結(jié)果的一部分,通過在識別出的中心關(guān)鍵詞前加上標(biāo)志以區(qū)分普通的分詞結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多維度綜合詞庫的構(gòu)建方法,其特征在于:步驟二中,約束條件包括: ?當(dāng)關(guān)鍵詞搜索數(shù)量,關(guān)鍵詞的供應(yīng)商使用數(shù)量,使用關(guān)鍵詞的商品數(shù)量超過一定閾值時,這些關(guān)鍵詞的分析和使用價值較大,將它們添加到詞庫中,作為待維護(hù)的關(guān)鍵詞;?過濾掉一些明顯存在錯誤的原始關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的基于多維度綜合詞庫的構(gòu)建方法,其特征在于:步驟三中,所述字段創(chuàng)建的原則包括: ?該關(guān)鍵詞是否正確,若錯誤,那對應(yīng)的正確關(guān)鍵詞是什么; ?該關(guān)鍵詞是否可以銷售,若可以銷售,則可以作為產(chǎn)品的核心關(guān)鍵詞; 籲該關(guān)鍵詞的核心關(guān)鍵詞是什么; ?該關(guān)鍵詞是否為原子關(guān)鍵詞; ?對英文而言,單詞的原型是什么; ?對于分詞結(jié)果不滿足實際需要的,需要通過“人工切分”來保存正確的切分結(jié)果。
4.根據(jù)權(quán)利要求1所述的基于多維度綜合詞庫的構(gòu)建方法,其特征在于:步驟四中,設(shè)定閾值,將共現(xiàn)頻率到達(dá)一定量的關(guān)鍵詞默認(rèn)作為同義詞,以及英文關(guān)鍵詞復(fù)數(shù)的原型。
5.根據(jù)權(quán)利要求1所述的基于多維度綜合詞庫的構(gòu)建方法,其特征在于:步驟五中,所述中心關(guān)鍵詞識別規(guī)則具體為: 籲首先分析各語言的語法結(jié)構(gòu),分析商品名稱的中心是偏左還是偏右,通過對中文和英文商品名稱的分析,中文和英文的商品的中心關(guān)鍵詞一般出現(xiàn)在商品名稱的右邊; ?在所構(gòu)建的詞庫中,已經(jīng)包含了哪些關(guān)鍵詞是可以銷售的,哪些關(guān)鍵詞是修飾型關(guān)鍵詞;自右向左掃描輸入的商品名稱,當(dāng)遇到修飾關(guān)鍵詞時,直接跳過,當(dāng)遇到括號時,認(rèn)為括號中的信息是對商品本身的補(bǔ)充說明,則作為修飾關(guān)鍵詞,當(dāng)識別出一個關(guān)鍵詞,該關(guān)鍵詞在詞庫中,并且是可銷售的關(guān)鍵詞,如果不存在語義轉(zhuǎn)換詞,那么該關(guān)鍵詞就是所識別出來的中心關(guān)鍵詞;如果存在語義轉(zhuǎn)換詞,則識別商品名稱中心關(guān)鍵詞的裝置,直接跳至這些語義轉(zhuǎn)換詞的前面繼續(xù)進(jìn)行識別,直到找到一個商品中心關(guān)鍵詞,或由于商品名稱信息表述上的原因而無法找到; ?商品中心關(guān)鍵詞必須來源于詞庫中的可銷售的關(guān)鍵詞。
6.一種基于多維度綜合詞庫的搜索分詞方法,其特征在于,包括: 步驟一、對接收到待分詞輸入字符串,按照最小語義單位進(jìn)行拆分; 步驟二、在最小語義單位的基礎(chǔ)上,結(jié)合綜合詞庫執(zhí)行逆向最大匹配算法; 步驟三、對分詞中具有同義詞的關(guān)鍵詞進(jìn)行處理; 步驟四、對分詞結(jié)果錯誤的處理。
7.根據(jù)權(quán)利要求6所述的基于多維度綜合詞庫的搜索分詞方法,其特征在于,步驟一中: 在接收到待分詞輸入字符串后,將接收的輸入字符串,按照各語言的斷句方式進(jìn)行切分;其中,中文最小的語義單位是漢字,而英文應(yīng)當(dāng)將連續(xù)的字母或連續(xù)的數(shù)字作為一個整體,空格在英文中作為分割符,不占據(jù)位置; 對輸入的句子,按照最小語義單位進(jìn)行拆分,在生成最小語義單位時,不區(qū)分掃描的順序,也就是說,從左向右和從右向左都可以達(dá)到識別出最小語義單位。
8.根據(jù)權(quán)利要求6所述的基于多維度綜合詞庫的搜索分詞方法,其特征在于,步驟四中: 基于多維度綜合詞庫中以最小語義粒度進(jìn)行維護(hù),當(dāng)遇到歧義無法識別的情況,配置人工切分分詞結(jié)果,從而獲取較高的分詞準(zhǔn)確性; 在獲取較為正確的分詞結(jié)果的基礎(chǔ)上,在分詞過程中,將識別商品信息的中心關(guān)鍵詞也作為分詞結(jié)果的重要組成部分。
9.一種基于多維度綜合詞庫的中心關(guān)鍵詞識別方法,其特征在于: 根據(jù)權(quán)利要求6至8之一所述的基于多維度綜合詞庫的搜索分詞方法得到分詞結(jié)果,基于一定的中心關(guān)鍵詞識別規(guī)則,識別出該商品的中心關(guān)鍵詞,進(jìn)一步提取分詞結(jié)果中的中心關(guān)鍵詞,利用分詞結(jié)果中的中心關(guān)鍵詞匹配,若基于多維度綜合詞庫中沒有對應(yīng)的中心關(guān)鍵詞,那么選擇其左邊的一個關(guān)鍵詞,繼續(xù)與詞庫繼續(xù)匹配,按照此方式,一直到首個關(guān)鍵詞為止。
10.根據(jù)權(quán)利要求9所述的基于多維度綜合詞庫的中心關(guān)鍵詞識別方法,其特征在于: 所述基于多維度綜合詞庫是根據(jù)權(quán)利要求1至5之一的構(gòu)建方法構(gòu)建。
【文檔編號】G06F17/27GK103942347SQ201410212388
【公開日】2014年7月23日 申請日期:2014年5月19日 優(yōu)先權(quán)日:2014年5月19日
【發(fā)明者】李仁勇 申請人:焦點科技股份有限公司