基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說(shuō)是一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種各樣的數(shù)據(jù)浩瀚如海,新聞?lì)?,微博?lèi),論壇類(lèi),電商類(lèi)等,有的客戶關(guān)注某個(gè)事件的動(dòng)態(tài),有的客戶關(guān)注某個(gè)品牌的口碑,有的客戶關(guān)注的是某個(gè)企業(yè)的信譽(yù),如何能精確快速的從互聯(lián)網(wǎng)上獲取客戶真正關(guān)心的數(shù)據(jù),需通過(guò)搜索引擎幫助篩選過(guò)濾數(shù)據(jù),然而檢索詞選擇洽當(dāng)與否,直接影響檢索效果。檢索詞中無(wú)用詞過(guò)多,會(huì)導(dǎo)致檢索效果降低,出現(xiàn)相關(guān)數(shù)據(jù)較少甚至零結(jié)果,而檢索詞限定過(guò)少,又會(huì)導(dǎo)致檢索到的數(shù)據(jù)量過(guò)大,還需進(jìn)一步進(jìn)行數(shù)據(jù)篩選,擴(kuò)大了檢索的工作量。
[0003]現(xiàn)有技術(shù)中有一種基于規(guī)則引擎的標(biāo)引服務(wù),該服務(wù)能將現(xiàn)實(shí)生活中用自然語(yǔ)言表達(dá)的用戶需求抽象出來(lái),畫(huà)成可視易懂的圖形,這些圖形按照規(guī)則引擎預(yù)定義的格式,將原始需求轉(zhuǎn)換成成千上萬(wàn)條規(guī)則,通過(guò)這些規(guī)則來(lái)標(biāo)引用戶感興趣的數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問(wèn)題所采取的技術(shù)方案是:
本發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,包括以下步驟:
A、從圖形的規(guī)則中抽取多個(gè)詞集以及這些詞集間的關(guān)系,這些原始檢索詞被抽象為N行與或表達(dá)式;
B、整理詞集和詞集間關(guān)系:為每個(gè)詞集按行號(hào)及在行中所處位置命名,對(duì)于含有相同詞的集合進(jìn)行合并;
C、分析每行表達(dá)式,統(tǒng)計(jì)同名詞集出現(xiàn)的次數(shù),以及每個(gè)詞數(shù)集的詞數(shù),尋找詞數(shù)少且覆蓋表達(dá)式行數(shù)多的詞數(shù)集計(jì)算該詞的行數(shù)覆蓋率,以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上,獲取中間權(quán)值;
D、對(duì)詞集進(jìn)行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無(wú)實(shí)際含義的詞語(yǔ);同時(shí)從近一個(gè)月詞集樣本中獲取每個(gè)詞的倒文檔率,即該詞的常見(jiàn)度,通過(guò)詞性和倒文檔率獲取詞與主題特征的相關(guān)度,從而為每個(gè)詞設(shè)置一個(gè)權(quán)重;
E、綜合詞數(shù)集的中間權(quán)值和詞數(shù)集下每個(gè)詞的權(quán)重,計(jì)算出每個(gè)詞數(shù)集的最終權(quán)值,選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞;最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開(kāi)方值。
[0006]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
本發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,能夠從成千上萬(wàn)條規(guī)則中快速提取出最小且需求關(guān)聯(lián)度最高的檢索詞集,其中分詞和倒文檔率能夠較好的識(shí)別詞性,從而準(zhǔn)確的分析出詞集與主題的關(guān)聯(lián)度,在標(biāo)引流程中獲得較高的召回率,覆蓋邏輯表達(dá)式最全且最小詞數(shù)集的優(yōu)化方法,使得最終產(chǎn)生的采集任務(wù)量減少,從而提高企業(yè)的生產(chǎn)效率。
【具體實(shí)施方式】
[0007]以下通過(guò)具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
[0008]發(fā)明的基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,包括以下步驟:
A、從圖形的規(guī)則中抽取多個(gè)詞集以及這些詞集間的關(guān)系,這些原始檢索詞被抽象為N行與或表達(dá)式;
B、整理詞集和詞集間關(guān)系:為每個(gè)詞集按行號(hào)及在行中所處位置命名,對(duì)于含有相同詞的集合進(jìn)行合并;
C、分析每行表達(dá)式,統(tǒng)計(jì)同名詞集出現(xiàn)的次數(shù),以及每個(gè)詞數(shù)集的詞數(shù),尋找詞數(shù)少且覆蓋表達(dá)式行數(shù)多的詞數(shù)集,根據(jù)這兩個(gè)維度給每個(gè)詞數(shù)集賦上一個(gè)權(quán)值;權(quán)值計(jì)算公式中,覆蓋率占主要部分,覆蓋率越高的詞集說(shuō)明與主題相關(guān)度越大;詞數(shù)的多少則影響最終生成的采集量,為了以較低的采集量獲取最全的數(shù)據(jù),以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上,獲取中間權(quán)值;
D、對(duì)詞集進(jìn)行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無(wú)實(shí)際含義的詞語(yǔ);同時(shí)從近一個(gè)月詞集樣本中獲取每個(gè)詞的倒文檔率,即該詞的常見(jiàn)度。通過(guò)詞性和倒文檔率獲取詞與主題特征的相關(guān)度,從而為每個(gè)詞設(shè)置一個(gè)權(quán)重;
E、綜合步驟C中詞數(shù)集的權(quán)值和詞數(shù)集下每個(gè)詞的權(quán)重,計(jì)算出每個(gè)詞數(shù)集的最終權(quán)值,選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞。根據(jù)大量樣本的實(shí)驗(yàn)調(diào)研,詞性和倒文檔率對(duì)權(quán)重的影響應(yīng)該限定在微調(diào)范圍,故最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開(kāi)方值。
[0009]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例公開(kāi)如上,然而,并非用以限定本發(fā)明,任何熟悉本專(zhuān)業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會(huì)利用揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾,成為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,包括以下步驟: A、從圖形的規(guī)則中抽取多個(gè)詞集以及這些詞集間的關(guān)系,這些原始檢索詞被抽象為N行與或表達(dá)式; B、整理詞集和詞集間關(guān)系:為每個(gè)詞集按行號(hào)及在行中所處位置命名,對(duì)于含有相同詞的集合進(jìn)行合并; C、分析每行表達(dá)式,統(tǒng)計(jì)同名詞集出現(xiàn)的次數(shù),以及每個(gè)詞數(shù)集的詞數(shù),尋找詞數(shù)少且覆蓋表達(dá)式行數(shù)多的詞數(shù)集計(jì)算該詞的行數(shù)覆蓋率,以詞數(shù)的倒數(shù)加權(quán)到覆蓋率上,獲取中間權(quán)值; D、對(duì)詞集進(jìn)行濾噪處理,使用分詞功能判斷詞的詞性,去掉副詞,感嘆詞,連詞等無(wú)實(shí)際含義的詞語(yǔ);同時(shí)從近一個(gè)月詞集樣本中獲取每個(gè)詞的倒文檔率,即該詞的常見(jiàn)度,通過(guò)詞性和倒文檔率獲取詞與主題特征的相關(guān)度,從而為每個(gè)詞設(shè)置一個(gè)權(quán)重; E、綜合詞數(shù)集的中間權(quán)值和詞數(shù)集下每個(gè)詞的權(quán)重,計(jì)算出每個(gè)詞數(shù)集的最終權(quán)值,選取最終權(quán)值最高且覆蓋所有邏輯條件的詞數(shù)集作為本次的檢索詞;最終權(quán)值=中間權(quán)值+詞集中詞的平均權(quán)重的開(kāi)方值。
【專(zhuān)利摘要】一種基于圖數(shù)據(jù)結(jié)構(gòu)的檢索詞優(yōu)化方法,從圖形的規(guī)則中抽取多個(gè)詞集以及這些詞集間的關(guān)系;整理詞集和關(guān)系,為每個(gè)詞集命名,將詞集和關(guān)系簡(jiǎn)化成多行與或表達(dá)式;分析每行表達(dá)式,給每個(gè)詞數(shù)集賦上一個(gè)權(quán)值;通過(guò)分詞和倒文檔率識(shí)別詞性,從而準(zhǔn)確的分析出詞集與主題的關(guān)聯(lián)度,從而能夠從成千上萬(wàn)條規(guī)則中快速提取出最小且需求關(guān)聯(lián)度最高的檢索詞集,其中在標(biāo)引流程中獲得較高的召回率,覆蓋邏輯表達(dá)式最全且最小詞數(shù)集的優(yōu)化方法,使得最終產(chǎn)生的采集任務(wù)量減少,從而提高企業(yè)的生產(chǎn)效率。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN105574085
【申請(qǐng)?zhí)枴緾N201510910407
【發(fā)明人】涂君蘭, 楊偉鋒
【申請(qǐng)人】天津海量信息技術(shù)有限公司
【公開(kāi)日】2016年5月11日
【申請(qǐng)日】2015年12月10日