两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法及系統(tǒng)的制作方法

文檔序號:6430167閱讀:307來源:國知局
專利名稱:網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法及系統(tǒng)的制作方法
網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法及系統(tǒng)
技術(shù)領(lǐng)域
本發(fā)明涉及搜索處理技術(shù),特別是涉及一種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的發(fā)展,用戶所進行的日常工作和娛樂活動越來越依賴于互聯(lián)網(wǎng)實現(xiàn),頻繁地通過計算機輸入信息來完成各種應(yīng)用,但是,用戶在輸入信息的過程中非常容易發(fā)生誤操作而輸入了錯誤的信息。據(jù)統(tǒng)計有10% 15%的用戶輸入的原始查詢信息是含有錯誤的,例如,用戶在搜索引擎的輸入框中輸入了“生于憂患死于安樂翻”,其實際的意圖是輸入“生于憂患死于安樂翻譯”,因此在需要通過輸入信息實現(xiàn)的各種應(yīng)用中常常由于碰觸了其他的鍵盤按鍵等原因而導致輸入錯誤,因此,在需要通過輸入信息實現(xiàn)的各種應(yīng)用中對輸入信息的糾錯就顯得尤為重要?!ぴ谒阉饕嬷?,傳統(tǒng)的糾錯過程常常是利用搜索引擎的糾錯搜索結(jié)果訪問日志,直接在現(xiàn)有的糾錯系統(tǒng)之上記錄用戶點擊糾錯結(jié)果的行為,以獲得錯誤查詢串與正確查詢串之間的糾錯關(guān)系,例如,用戶輸入“dahuaxiyou”這一錯誤查詢串,現(xiàn)有的糾錯系統(tǒng)將給出“大話西游”這一正確查詢串的提示,在用戶點擊了正確查詢串后,形成了 “dahuaxiyou”到“大話西游”的糾錯關(guān)系。然而,這一糾錯關(guān)系的形成必須依賴于現(xiàn)有的糾錯系統(tǒng),只能用于已經(jīng)設(shè)置了糾錯系統(tǒng)的應(yīng)用中,對于原本沒有設(shè)置糾錯系統(tǒng)的應(yīng)用而言,通過糾錯關(guān)系實現(xiàn)輸入信息的糾錯就顯得非常困難,存在著適用面窄的缺陷。

發(fā)明內(nèi)容基于此,有必要提供一種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其能降低對現(xiàn)有的糾錯系統(tǒng)的依賴性。此外,還有必要提供一種能降低對現(xiàn)有的糾錯系統(tǒng)的依賴性的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng)。一種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,包括如下步驟獲取搜索結(jié)果訪問日志,所述搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)所述查詢串得到的搜索結(jié)果中被訪問的網(wǎng)絡(luò)地址的對應(yīng)關(guān)系;獲取用戶輸入的第一查詢串;在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同;計算所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度;判斷所述關(guān)聯(lián)度是否大于閾值,若是,則建立所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,所述在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串的步驟為
根據(jù)所述第一查詢串在所述搜索結(jié)果訪問日志中查找與第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址;根據(jù)所述第一網(wǎng)絡(luò)地址從所述搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一網(wǎng)絡(luò)地址至少有一個相同。優(yōu)選地,所述計算所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度的步驟為從搜索結(jié)果訪問日志中統(tǒng)計第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),并計算第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率;從所述搜索結(jié)果訪問日志中統(tǒng)計第二查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及所述第一網(wǎng)絡(luò)地址對應(yīng)的總點擊次數(shù),并計算第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率;
根據(jù)所述第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率和第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率得到所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度。優(yōu)選地,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括通過所述搜索結(jié)果訪問日志統(tǒng)計第一查詢串的查詢次數(shù)以及所述第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù)得到第一查詢串的活躍度,并統(tǒng)計第二查詢串的查詢次數(shù)以及第二查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第二查詢串的活躍度;判斷所述第二查詢串的活躍度是否大于所述第一查詢串的活躍度,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括根據(jù)字形和/或拼音判斷所述第一查詢串與第二查詢串是否相似,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括分別對所述第一查詢串和第二查詢串進行分詞,并對分詞后的第一查詢串和第二查詢串進行詞性標注;比對所述詞性標注后的第一查詢串和第二查詢串得到所述第一查詢串和第二查詢串之間的差異詞;判斷所述差異詞是否為助詞或數(shù)字,若是,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括判斷糾錯關(guān)系中是否存在第二查詢串指向第一查詢串的糾錯關(guān)系,若是,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。一種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),包括獲取模塊,用于獲取搜索結(jié)果訪問日志,所述搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)所述查詢串得到的搜索結(jié)果中被訪問的網(wǎng)絡(luò)地址的對應(yīng)關(guān)系;所述獲取模塊還用于獲取用戶輸入的第一查詢串;查找模塊,用于在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同;關(guān)聯(lián)度計算模塊,用于計算所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度;關(guān)聯(lián)度判斷模塊,用于判斷所述關(guān)聯(lián)度是否大于閾值,若是,則建立所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,所述查找模塊包括地址查找單元,用于根據(jù)所述第一查詢串在所述搜索結(jié)果訪問日志中查找第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址;查詢串查找單元,用于根據(jù)所述第一網(wǎng)絡(luò)地址從所述搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一網(wǎng)絡(luò)地址至少有一個相同。
優(yōu)選地,所述關(guān)聯(lián)度計算模塊包括第一概率計算單元,用于從搜索結(jié)果訪問日志中統(tǒng)計第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),并計算第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率;第二概率計算單元,用于從所述搜索結(jié)果訪問日志中統(tǒng)計第二查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及所述第一網(wǎng)絡(luò)地址對應(yīng)的總點擊次數(shù),并計算第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率;求積單元,用于根據(jù)所述第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率和第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率得到所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度。優(yōu)選地,還包括活躍度統(tǒng)計模塊,用于通過所述搜索結(jié)果訪問日志統(tǒng)計第一查詢串的查詢次數(shù)以及所述第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第一查詢串的活躍度,并統(tǒng)計第二查詢串的查詢次數(shù)以及第二查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第二查詢串的活躍度;活躍度判斷模塊,用于判斷所述第二查詢串的活躍度是否大于所述第一查詢串的活躍度,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,還包括相似性判斷模塊,用于根據(jù)字形和/或拼音判斷所述第一查詢串與第二查詢串是否相似,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,還包括分詞模塊,用于分別對所述第一查詢串和第二查詢串進行分詞,并對分詞后的第一查詢串和第二查詢串進行詞性標注;比對模塊,用于比對所述詞性標注后的第一查詢串和第二查詢串得到所述第一查詢串和第二查詢串之間的差異詞,判斷所述差異詞是否為助詞或數(shù)字,若是,則消除所述第一查詢串指向第二查詢串的糾錯關(guān)系。優(yōu)選地,還包括指向判斷模塊,用于判斷糾錯關(guān)系中是否存在第二查詢串指向第一查詢串的糾錯關(guān)系,若是,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。上述網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法及系統(tǒng)中,在用戶輸入了第一查詢串后,通過搜索結(jié)果訪問日志查找得到第二查詢串,該第二查詢串所對應(yīng)的網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址相同,進而建立第一查詢串指向第二查詢串的糾錯關(guān)系,只需要搜索結(jié)果訪問日志即可生成糾錯關(guān)系,降低了對現(xiàn)有的糾錯系統(tǒng)的依賴性,拓寬了適用面,使得用戶的信息輸入過程更加靈活和準確。

圖I為一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法的流程圖;圖2為一個實施例中用戶進行搜索時的點擊訪問行為示意圖;圖3為圖I中在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串的方法流程圖;圖4為圖I中計算第一查詢串和第二查詢串之間的關(guān)聯(lián)度的方法流程圖;圖5為另一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法的流程圖;·圖6為另一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法的流程圖;圖7為一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng)的結(jié)構(gòu)示意圖;圖8為圖7中查找模塊的結(jié)構(gòu)示意圖;圖9為圖7中關(guān)聯(lián)度計算模塊的結(jié)構(gòu)示意圖;圖10為另一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng)的結(jié)構(gòu)示意圖;圖11為另一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng)的結(jié)構(gòu)示意圖;圖12為另一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng)的結(jié)構(gòu)示意圖;圖13為一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成的整體應(yīng)用框圖。
具體實施方式圖I示出了一個實施例中網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成的方法流程,包括如下步驟步驟SI 10,獲取搜索結(jié)果訪問日志。本實施例中,搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)查詢串得到的搜索結(jié)果中被訪問的網(wǎng)絡(luò)地址的對應(yīng)關(guān)系。用戶的所有信息輸入過程以及對各種搜索結(jié)果的點擊行為均會存儲到搜索結(jié)果訪問日志中,通過搜索結(jié)果訪問日志可查看用戶在搜索、查詢等操作中所觸發(fā)的點擊行為以及對搜索結(jié)果中網(wǎng)絡(luò)地址的訪問行為,并且將查詢串與用戶訪問的網(wǎng)絡(luò)地址建立對應(yīng)關(guān)系。例如,用戶通過搜索引擎的輸入框輸入了第一查詢串,并點擊“搜索”按鈕進行第一查詢串的搜索,搜索結(jié)果訪問日志將存儲用戶對第一查詢串所進行的點擊搜索行為,即,在由第一查詢串所得到的搜索結(jié)果中,用戶對任一搜索結(jié)果網(wǎng)絡(luò)地址的點擊均被存儲于搜索結(jié)果訪問日志中,并與查詢串建立對應(yīng)關(guān)系,系統(tǒng)通過這一對應(yīng)關(guān)系可以查找到每一查詢串所對應(yīng)的網(wǎng)絡(luò)地址,也可以查找到網(wǎng)絡(luò)地址所對應(yīng)的各個查詢串。步驟S120,獲取用戶輸入的第一查詢串。本實施例中,為了進行網(wǎng)絡(luò)信息的搜索,用戶在輸入框中輸入與網(wǎng)絡(luò)信息相關(guān)的第一查詢串,觸發(fā)了關(guān)于第一查詢串的網(wǎng)絡(luò)搜索,此時獲取這一第一查詢串,以通過后續(xù)處理過程對第一查詢串糾錯。步驟S130,在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,該第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同。本實施例中,在搜索結(jié)果訪問日志中,對于兩個不同的查詢串所進行的不同搜索,用戶在這兩次搜索過程中均訪問了同一個搜索結(jié)果的網(wǎng)絡(luò)地址,則說明這兩個查詢串之間是存在著一定聯(lián)系的。用戶在搜索過程中的點擊行為是多種多樣的,因此在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中,第一查詢串對應(yīng)了多個網(wǎng)絡(luò)地址,第二查詢串也對應(yīng)用了多個網(wǎng)絡(luò)地址。為了從對應(yīng)關(guān)系中查找出與第一查詢串存在一定聯(lián)系的第二查詢串,第二查詢串所對應(yīng)的多個網(wǎng)絡(luò)地址中應(yīng)當存在至少一個網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址相同,即可通過對應(yīng)關(guān)系中第一查詢串對應(yīng)的一個網(wǎng)絡(luò)地址查找出同樣也對應(yīng)了這一網(wǎng)絡(luò)地址的第二查詢串,也可以在對應(yīng)關(guān)系中第一查詢串對應(yīng)的多個網(wǎng)絡(luò)地址進行查找得到第二查詢串,該第二查詢串也對應(yīng)了多個與第一查詢串所對應(yīng)的多個網(wǎng)絡(luò)地址相同的網(wǎng)絡(luò)地址。例如,如圖2所示,用戶在搜索引擎的輸入框中輸入了 “生于憂患死于安樂翻”的查詢串,點擊“搜索”按鍵后產(chǎn)生了多個搜索結(jié)果的網(wǎng)絡(luò)地址,此時,用戶訪問了搜索結(jié)果的網(wǎng)絡(luò)地址10 ;當用戶在搜索引擎的輸入框中輸入了 “生于憂患死于安樂翻譯”的查詢串時, 點擊“搜索”按鍵后產(chǎn)生的多個搜索結(jié)果的網(wǎng)絡(luò)地址中,用戶也對搜索結(jié)果的網(wǎng)絡(luò)地址10進行了訪問操作,由此可見,“生于憂患死于安樂翻”的查詢串與“生于憂患死于安樂翻譯”的查詢串之間是存在著聯(lián)系的。通過搜索結(jié)果訪問日志查找被訪問的網(wǎng)絡(luò)地址相同兩個對應(yīng)關(guān)系,進而通過存在相同網(wǎng)絡(luò)地址的兩個對應(yīng)關(guān)系得到存在著聯(lián)系的兩個查詢串。在一個具體的實施例中,如圖3所示,步驟S130的具體過程為步驟S131,根據(jù)第一查詢串在搜索結(jié)果訪問日志中查找第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址。本實施例中,根據(jù)用戶在輸入框中輸入的第一查詢串對搜索結(jié)果訪問日志中的訪問行為進行查找,以得到搜索結(jié)果訪問日志中第一查詢串的搜索過程中被點擊訪問的網(wǎng)絡(luò)地址,將這一被點擊的網(wǎng)絡(luò)地址作為第一網(wǎng)絡(luò)地址,第一網(wǎng)絡(luò)地址可能是一個或者多個網(wǎng)絡(luò)地址。步驟S133,根據(jù)第一網(wǎng)絡(luò)地址從搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與第一網(wǎng)絡(luò)地址至少有一個相同。本實施例中,根據(jù)由第一查詢串查找到的第一網(wǎng)絡(luò)地址,再次查詢搜索結(jié)果訪問日志中的對應(yīng)關(guān)系,以查找到網(wǎng)絡(luò)地址與第一網(wǎng)絡(luò)地址相同的其它查詢串,這些查詢串即為第二查詢串。第一網(wǎng)絡(luò)地址根據(jù)實際需要可以是一個網(wǎng)絡(luò)地址,也可以是多個網(wǎng)絡(luò)地址。步驟S150,計算第一查詢串和第二查詢串之間的關(guān)聯(lián)度。本實施例中,第一查詢串和第二查詢串之間的關(guān)聯(lián)度表征了第一查詢串與第二查詢串之間關(guān)聯(lián)關(guān)系的強弱程度,關(guān)聯(lián)度越高,則第一查詢串和第二查詢串之間的聯(lián)系就越緊密,對用戶輸入信息所實現(xiàn)的糾錯也就越精確。在一個具體的實施例中,如圖4所示,步驟S150的具體過程為步驟S151,從搜索結(jié)果訪問日志中統(tǒng)計第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),并計算第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率。本實施例中,統(tǒng)計搜索結(jié)果訪問日志中查詢串為第一查詢串的搜索過程中第一網(wǎng)絡(luò)地址被用戶點擊的點擊次數(shù)以及查詢串為第一查詢串的搜索過程中生成的所有網(wǎng)絡(luò)地址的點擊次數(shù),進而通過如下公式計算得到第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率
η其中,#(q- > url)為第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù),Σ#(《->Mr()為
1=\
第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù)。步驟S153,從搜索結(jié)果訪問日志中統(tǒng)計第二查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一網(wǎng)絡(luò)地址對應(yīng)的總點擊次數(shù),并計算第一網(wǎng)絡(luò)地址與第二查詢地址相關(guān)的概率。本實施例中,統(tǒng)計搜索結(jié)果訪問日志中查詢串為第二查詢串搜索過程中第一網(wǎng)絡(luò)地址對應(yīng)的點擊次數(shù)以及在所有的搜索過程中涉及第一網(wǎng)絡(luò)地址的總點擊次數(shù),進而通過如下公式計算出被點擊的第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率
「_] = RH
'TJ#(url->qi)
i=\
η其中,#(url->q)為第二查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù),Σ#(μγ/_ >免)為
1=\
第一網(wǎng)絡(luò)地址對應(yīng)的總點擊次數(shù)。步驟S155,根據(jù)第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率和第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率得到第一查詢串與第二查詢串之間的關(guān)聯(lián)度。本實施例中,通過第一網(wǎng)絡(luò)地址建立查詢串之間的關(guān)聯(lián)關(guān)系,進而根據(jù)第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率和第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率之積計算得到這兩個查詢串之間的關(guān)聯(lián)度,具體的關(guān)聯(lián)度計算過程可通過如下公式進行
ηP(q2 ki) = XPiurli \qx)xP(q2 |Urli)
i=l其中,P(UrliIq1)為第一查詢串中某一個第一網(wǎng)絡(luò)地址的點擊概率,P (q21 Urli)為某一第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率,P(UrlJq1)和P(Ci2Iurli)中所涉及的第一網(wǎng)絡(luò)地址為同一網(wǎng)絡(luò)地址。步驟S170,判斷關(guān)聯(lián)度是否大于閾值,若是,則進入步驟S190,若否,則結(jié)束。本實施例中,根據(jù)預先設(shè)定的閾值判斷關(guān)聯(lián)度是否大閾值,以選取關(guān)聯(lián)關(guān)系較強的兩個查詢串。步驟S190,建立第一查詢串指向第二查詢串的糾錯關(guān)系。本實施例中,第一查詢串指向第二查詢串的糾錯關(guān)系為第一查詢串到第二查詢串的單向映射關(guān)系。例如,在輸入框中,用戶輸入“生于憂患死于安樂翻”的查詢串時,由于存在糾錯關(guān)系,則在輸入框的下拉提示列表中顯示“生于憂患死于安樂翻譯”的查詢串,以提示用戶輸入的查詢串可能有誤,以方便用戶選擇輸入正確的查詢串。在另一個實施例中,上述網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法中,在得到第一查詢串指向第二查詢串的糾錯關(guān)系之后,為保證糾錯關(guān)系的準確性,還需要引入查詢串之間糾錯關(guān)系的特征來選取各種查詢串之間的糾錯關(guān)系。查詢串之間糾錯關(guān)系的特征包括查詢串的活躍度,查詢串的活躍度表明了該查詢串被用戶使用的頻率,活躍度高則說明有非常多的用戶通過這一查詢串進行搜索等操作。如圖5所示,建立第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括步驟S501,通過搜索結(jié)果訪問日志統(tǒng)計第一查詢串的查詢次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第一查詢串的活躍度,并統(tǒng)計第二查詢串對應(yīng)的查詢次數(shù)以及第二查詢串的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第二查詢串的活躍度。本實施例中,第一查詢串的查詢次數(shù)指的采用第一查詢串進行搜索的次數(shù),第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù)與第一查詢串對應(yīng)的查詢次數(shù)得到第一查詢串的活躍度,進而通過搜索結(jié)果訪問日志統(tǒng)計第二查詢串的活躍度。步驟S503,判斷第二查詢串的活躍度是否大于第一查詢串的活躍度,若否,則進入步驟S505,若是,則結(jié)束。
本實施例中,在糾錯關(guān)系中,由于用戶輸入的第一查詢串是發(fā)生了錯誤的查詢串,因此第二查詢串的活躍度應(yīng)當是大于第一查詢串的活躍度的,即第二查詢串的查詢次數(shù)大于第一查詢串的查詢次數(shù),第二查詢串的所有網(wǎng)絡(luò)地址點擊次數(shù)大于第一查詢串的所有網(wǎng)絡(luò)地址點擊次數(shù)。步驟S505,清除第一查詢串指向第二查詢串的糾錯關(guān)系。本實施例中,若第二查詢串的活躍度并沒有大于第一查詢串的活躍度,則說明第一查詢串和第二查詢串之間的糾錯關(guān)系并不是正確的糾錯關(guān)系,需要將這一糾錯關(guān)系清除。在另一個實施例中,上述網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法查詢串之間糾錯關(guān)系的特征還包括了字形和/或拼音的相似性。上述建立第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括根據(jù)字形和/拼音判斷第一查詢串與第二查詢串是否相似,若否,則清除第一查詢串指向第二查詢串的糾錯關(guān)系,若是,則結(jié)束。本實施例中,在正確的糾錯關(guān)系中,第一查詢串與第二查詢串應(yīng)當是比較相似的,因此,可根據(jù)兩個查詢串之間字形或者拼音的相似性來選取出正確的糾錯關(guān)系。具體地,在通過字形的相似性選取糾錯關(guān)系時,可計算第一查詢串和第二查詢串之間的編輯距離或者相似度,進而根據(jù)計算得到的編輯距離或者相似度判斷第一查詢串和第二查詢串之間是否相似。編輯距離可以是通過增、刪的方式將這兩個查詢串變?yōu)橄嗤牟樵兇淖钚〔僮鞔螖?shù)。例如,若第一查詢串為“多萬dnf”,第二查詢串為“多玩dnf ”,則對第一查詢串和第二查詢串是相似的,這是一正確的糾錯關(guān)系,不需要清除;若第一查詢串為“手機樂”,第二查詢串為“手機樂園”,則這一第一查詢串和第二查詢串也是相似的。在通過拼音的相似性選取糾錯關(guān)系時,首先對第一查詢串和第二查詢串進行注意,然后再計算第一查詢串和第二查詢串對應(yīng)的拼音之前的編輯距離或者相似度,如果編輯距離大于設(shè)定的距離閾值,則認為第一查詢串和第二查詢串之間的糾錯關(guān)系是不正確的,如果相似度大于設(shè)定的相似閾值,則認為第一查詢串和第二查詢串之間的糾錯關(guān)系是正確的。例如,若第一查詢串為“和蕭山谷底”,第二查詢串為“鶴嘯山谷地”,則這一糾錯關(guān)系的拼音是相似的,因此這一糾錯關(guān)系是正確的;若第一查詢串為“guojizuqiu”,第二查詢串為“國際足球”則這一糾錯關(guān)系的拼音也是相似的。
在另一個實施例中,上述網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法對第一查詢串指向第二查詢串之間的糾錯關(guān)系還通過設(shè)定的過濾規(guī)則進行篩選,如圖6所示,對于第一查詢串指向第二查詢串的糾錯關(guān)系的篩選還包括如下步驟步驟S601,分別對第一查詢串和第二查詢串進行分詞,并對分詞后的第一查詢串和第二查詢串進行詞性標注。本實施例中,可通過各種分詞運算分別對第一查詢串和第二查詢串進行分詞處理,進而對分詞后的第一查詢串和第二查詢串進行詞性標注。步驟S603,比對詞性標注后的第一查詢串和第二查詢串得到第一查詢串和第二查詢串之間的差異詞。步驟S605,判斷差異詞是否為助詞或數(shù)字,若是,則進入步驟S607,若否,則結(jié)束。本實施例中,若第一查詢串為“非城勿擾第I期”,第二查詢串為“非城勿擾第2 期”,則差異詞為數(shù)字,說明第一查詢串和第二查詢串之間是不正確的糾錯關(guān)系,需要將其清除。若第一查詢串為“月份的英文”,第二查詢串為“月份英文”則差異詞為助詞,需要消除這一糾錯關(guān)系。步驟S607,清除第一查詢串指向第二查詢串的糾錯關(guān)系。在另一個實施例中,各種查詢串之間的糾錯關(guān)系的過濾規(guī)則還包括了查詢串之問的糾錯關(guān)系是單向的,對于第一查詢串指向第二查詢串的糾錯關(guān)系的篩選還包括判斷糾錯關(guān)系中是否存在第二查詢串指向第一查詢串的糾錯關(guān)系,若是,則清除第一查詢串指向第二查詢串的糾錯關(guān)系,若否,則結(jié)束。本實施例中,由于糾錯關(guān)系中第一查詢串為發(fā)生了錯誤的查詢串,而第二查詢串應(yīng)當為第一查詢串的正確輸入,因此,若糾錯關(guān)系中存在了第二查詢串指向第一查詢串的糾錯關(guān)系,則說明第一查詢串和第二查詢串之間的關(guān)系可能只是同義詞,并不是能用戶的錯誤輸入所進行的糾正,需要將這一糾錯關(guān)系刪除。例如,第一查詢串為“成都王府井電影城”,第二查詢串為“成都王府井電影院”,這也存在著第二查詢串指向第一查詢串的糾錯關(guān)系,第一查詢串和第二查詢串是一對同義詞,因此,清除這一糾錯關(guān)系。圖7示出了一個實施例的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),包括獲取模塊10、查找模塊20、關(guān)聯(lián)度計算模塊30以及關(guān)聯(lián)度判斷模塊40。獲取模塊10,用于獲取搜索結(jié)果訪問日志。本實施例中,搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)該查詢串得到的搜索結(jié)果中被訪問的網(wǎng)絡(luò)地址的對應(yīng)關(guān)系。用戶的所有信息輸入過程以及對各種搜索結(jié)果的點擊行為均會存儲到搜索結(jié)果訪問日志中,通過搜索結(jié)果訪問日志可查看用戶在搜索、查詢等操作中所觸發(fā)的點擊行為以及對搜索結(jié)果中網(wǎng)絡(luò)地址的訪問行為,并且將查詢串與用戶訪問的網(wǎng)絡(luò)地址建立對應(yīng)關(guān)系。例如,用戶通過搜索引擎的輸入框輸入了第一查詢串,并點擊“搜索”按鈕進行第一查詢串的搜索,搜索結(jié)果訪問日志將存儲用戶對第一查詢串所進行的點擊搜索行為,即,在由第一查詢串所得到的搜索結(jié)果中,用戶對任一搜索結(jié)果網(wǎng)絡(luò)地址的點擊均被存儲于搜索結(jié)果訪問日志中,并與查詢串建立對應(yīng)關(guān)系,系統(tǒng)通過這一對應(yīng)關(guān)系可以查找到每一查詢串所對應(yīng)的網(wǎng)絡(luò)地址,也可以查找到網(wǎng)絡(luò)地址所對應(yīng)的各個查詢串。
獲取模塊10還用于獲取用戶輸入的第一查詢串。本實施例中,為了進行網(wǎng)絡(luò)信息的搜索,用戶在輸入框中輸入與網(wǎng)絡(luò)信息相關(guān)的第一查詢串,觸發(fā)了關(guān)于第一查詢串的網(wǎng)絡(luò)搜索,此時獲取模塊10獲取這一第一查詢串,以通過后續(xù)處理過程對第一查詢串糾錯。查找模塊20,用于在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同。本實施例中,在搜索結(jié)果訪問日志中,對于兩個不同的查詢串所進行的不同搜索,用戶在這兩次搜索過程中均訪問了同一個搜索結(jié)果的網(wǎng)絡(luò)地址,則說明這兩個查詢串之間是存在著一定聯(lián)系的。用戶在搜索過程中的點擊行為是多種多樣的,因此在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中,第一查詢串對應(yīng)了多個網(wǎng)絡(luò)地址,第二查詢串也對應(yīng)用了多個網(wǎng)絡(luò)地址。為了從對應(yīng)關(guān)系中查找出與第一查詢串存在一定聯(lián)系的第二查詢串,第二查詢串所對 應(yīng)的多個網(wǎng)絡(luò)地址中應(yīng)當存在至少一個網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址相同,即可通過對應(yīng)關(guān)系中第一查詢串對應(yīng)的一個網(wǎng)絡(luò)地址查找出同樣也對應(yīng)了這一網(wǎng)絡(luò)地址的第二查詢串,也可以在對應(yīng)關(guān)系中第一查詢串對應(yīng)的多個網(wǎng)絡(luò)地址進行查找得到第二查詢串,該第二查詢串也對應(yīng)了多個與第一查詢串所對應(yīng)的多個網(wǎng)絡(luò)地址相同的網(wǎng)絡(luò)地址。例如,如圖2所示,用戶在搜索引擎的輸入框中輸入了 “生于憂患死于安樂翻”的查詢串,點擊“搜索”按鍵后產(chǎn)生了多個搜索結(jié)果的網(wǎng)絡(luò)地址,此時,用戶訪問了搜索結(jié)果的網(wǎng)絡(luò)地址10 ;當用戶在搜索引擎的輸入框中輸入了 “生于憂患死于安樂翻譯”的查詢串時,點擊“搜索”按鍵后產(chǎn)生的多個搜索結(jié)果的網(wǎng)絡(luò)地址中,用戶也對搜索結(jié)果的網(wǎng)絡(luò)地址10進行了訪問操作,由此可見,“生于憂患死于安樂翻”的查詢串與“生于憂患死于安樂翻譯”的查詢串之間是存在著聯(lián)系的。查找模塊20通過搜索結(jié)果訪問日志查找被訪問的網(wǎng)絡(luò)地址相同兩個對應(yīng)關(guān)系,進而通過存在相同網(wǎng)絡(luò)地址的兩個對應(yīng)關(guān)系得到存在著聯(lián)系的兩個查詢串。在一個具體的實施例中,如圖8所示,查找模塊20包括了地址查找單元210以及查詢串查找單元230。地址查找單元210,用于根據(jù)第一查詢串在搜索結(jié)果訪問日志中查找第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址。本實施例中,地址查找單元210根據(jù)用戶在輸入框中輸入的第一查詢串對搜索結(jié)果訪問日志中的訪問行為進行查找,以得到搜索結(jié)果訪問日志中第一查詢串的搜索過程中被點擊訪問的網(wǎng)絡(luò)地址,將這一被點擊的網(wǎng)絡(luò)地址作為第一網(wǎng)絡(luò)地址,第一網(wǎng)絡(luò)地址可能是一個或者多個網(wǎng)絡(luò)地址。查詢串查找單元230,用于根據(jù)第一網(wǎng)絡(luò)地址從搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,該第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與第一網(wǎng)絡(luò)地址至少有一個相同。本實施例中,查詢串查找單元230根據(jù)由第一查詢串查找到的第一網(wǎng)絡(luò)地址,再次查詢搜索結(jié)果訪問日志中的對應(yīng)關(guān)系查詢,以查找到網(wǎng)絡(luò)地址與第一網(wǎng)絡(luò)地址相同的其它查詢串,這些查詢串即為第二查詢串。第一網(wǎng)絡(luò)地址根據(jù)實際需要可以是一個網(wǎng)絡(luò)地址,也可以是多個網(wǎng)絡(luò)地址。關(guān)聯(lián)度計算模塊30,用于計算第一查詢串與第二查詢串之間的關(guān)聯(lián)度。本實施例中,第一查詢串和第二查詢串之間的關(guān)聯(lián)度表征了第一查詢串與第二查詢串之間關(guān)聯(lián)關(guān)系的強弱程度,關(guān)聯(lián)度越高,則第一查詢串和第二查詢串之間的聯(lián)系就越緊密,對用戶輸入信息所實現(xiàn)的糾錯也就越精確。在一個具體的實施例中,如圖9所示,關(guān)聯(lián)度計算模塊30包括第一概率計算單元310、第二概率計算單元330以及求積單元350。第一概率計算單元310,用于從搜索結(jié)果訪問日志中統(tǒng)計第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),并計算第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率。本實施例中,第一概率計算單元310統(tǒng)計搜索結(jié)果訪問日志中查詢串為第一查詢串的搜索過程中第一網(wǎng)絡(luò)地址被用戶點擊的點擊次數(shù)以及查詢串為第一查詢串的搜索過程中生成的所有網(wǎng)絡(luò)地址的點擊次數(shù),進而通過如下公式計算得到第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率
權(quán)利要求
1.一種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,包括如下步驟 獲取搜索結(jié)果訪問日志,所述搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)所述查詢串得到的搜索結(jié)果中被訪問的網(wǎng)絡(luò)地址的對應(yīng)關(guān)系; 獲取用戶輸入的第一查詢串; 在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同; 計算所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度; 判斷所述關(guān)聯(lián)度是否大于閾值,若是,則建立所述第一查詢串指向第二查詢串的糾錯關(guān)系。
2.根據(jù)權(quán)利要求I所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其特征在于,所述在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串的步驟為 根據(jù)所述第一查詢串在所述搜索結(jié)果訪問日志中查找與第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址; 根據(jù)所述第一網(wǎng)絡(luò)地址從所述搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一網(wǎng)絡(luò)地址至少有一個相同。
3.根據(jù)權(quán)利要求2所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其特征在于,所述計算所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度的步驟為 從搜索結(jié)果訪問日志中統(tǒng)計第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),并計算第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率; 從所述搜索結(jié)果訪問日志中統(tǒng)計第二查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及所述第一網(wǎng)絡(luò)地址對應(yīng)的總點擊次數(shù),并計算第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率; 根據(jù)所述第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率和第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率得到所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度。
4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其特征在于,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括 通過所述搜索結(jié)果訪問日志統(tǒng)計第一查詢串的查詢次數(shù)以及所述第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第一查詢串的活躍度,并統(tǒng)計第二查詢串的查詢次數(shù)以及第二查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第二查詢串的活躍度; 判斷所述第二查詢串的活躍度是否大于所述第一查詢串的活躍度,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
5.根據(jù)權(quán)利要求I所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其特征在于,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括 根據(jù)字形和/或拼音判斷所述第一查詢串與第二查詢串是否相似,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
6.根據(jù)權(quán)利要求I所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其特征在于,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括 分別對所述第一查詢串和第二查詢串進行分詞,并對分詞后的第一查詢串和第二查詢串進行詞性標注; 比對所述詞性標注后的第一查詢串和第二查詢串得到所述第一查詢串和第二查詢串之間的差異詞; 判斷所述差異詞是否為助詞或數(shù)字,若是,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
7.根據(jù)權(quán)利要求I所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法,其特征在于,所述建立所述第一查詢串指向第二查詢串的糾錯關(guān)系的步驟之后還包括 判斷糾錯關(guān)系中是否存在第二查詢串指向第一查詢串的糾錯關(guān)系,若是,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
8.—種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,包括 獲取模塊,用于獲取搜索結(jié)果訪問日志,所述搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)所述查詢串得到的搜索結(jié)果中被訪問的網(wǎng)絡(luò)地址的對應(yīng)關(guān)系; 所述獲取模塊還用于獲取用戶輸入的第一查詢串; 查找模塊,用于在搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同; 關(guān)聯(lián)度計算模塊,用于計算所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度; 關(guān)聯(lián)度判斷模塊,用于判斷所述關(guān)聯(lián)度是否大于閾值,若是,則建立所述第一查詢串指向第二查詢串的糾錯關(guān)系。
9.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,所述查找模塊包括 地址查找單元,用于根據(jù)所述第一查詢串在所述搜索結(jié)果訪問日志中查找第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址; 查詢串查找單元,用于根據(jù)所述第一網(wǎng)絡(luò)地址從所述搜索結(jié)果訪問日志的對應(yīng)關(guān)系中查找第二查詢串,所述第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與所述第一網(wǎng)絡(luò)地址至少有一個相同。
10.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,所述關(guān)聯(lián)度計算模塊包括 第一概率計算單元,用于從搜索結(jié)果訪問日志中統(tǒng)計第一查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),并計算第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率; 第二概率計算單元,用于從所述搜索結(jié)果訪問日志中統(tǒng)計第二查詢串對應(yīng)的第一網(wǎng)絡(luò)地址點擊次數(shù)以及所述第一網(wǎng)絡(luò)地址對應(yīng)的總點擊次數(shù),并計算第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率; 求積單元,用于根據(jù)所述第一查詢串中第一網(wǎng)絡(luò)地址的點擊概率和第一網(wǎng)絡(luò)地址與第二查詢串相關(guān)的概率得到所述第一查詢串與第二查詢串之間的關(guān)聯(lián)度。
11.根據(jù)權(quán)利要求10所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,還包括 活躍度統(tǒng)計模塊,用于通過所述搜索結(jié)果訪問日志統(tǒng)計第一查詢串的查詢次數(shù)以及所述第一查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第一查詢串的活躍度,并統(tǒng)計第二查詢串的查詢次數(shù)以及第二查詢串對應(yīng)的所有網(wǎng)絡(luò)地址點擊次數(shù),得到第二查詢串的活躍度; 活躍度判斷模塊,用于判斷所述第二查詢串的活躍度是否大于所述第一查詢串的活躍度,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
12.根據(jù)權(quán)利要求8所述網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,還包括相似性判斷模塊,用于根據(jù)字形和/或拼音判斷所述第一查詢串與第二查詢串是否相似,若否,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
13.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,還包括 分詞模塊,用于分別對所述第一查詢串和第二查詢串進行分詞,并對分詞后的第一查詢串和第二查詢串進行詞性標注; 比對模塊,用于比對所述詞性標注后的第一查詢串和第二查詢串得到所述第一查詢串和第二查詢串之間的差異詞,判斷所述差異詞是否為助詞或數(shù)字,若是,則消除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
14.根據(jù)權(quán)利要求8所述的網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成系統(tǒng),其特征在于,還包括 指向判斷模塊,用于判斷糾錯關(guān)系中是否存在第二查詢串指向第一查詢串的糾錯關(guān)系,若是,則清除所述第一查詢串指向第二查詢串的糾錯關(guān)系。
全文摘要
一種網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法包括獲取搜索結(jié)果訪問日志,搜索結(jié)果訪問日志包括用戶輸入的查詢串與根據(jù)查詢串得到的搜索結(jié)果中被訪問網(wǎng)絡(luò)地址的對應(yīng)關(guān)系;獲取輸入的第一查詢串;在對應(yīng)關(guān)系中查找第二查詢串,第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址至少有一個相同;計算第一查詢串與第二查詢串之間的關(guān)聯(lián)度;判斷關(guān)聯(lián)度是否大于閾值,若是則建立第一查詢串指向第二查詢串的糾錯關(guān)系。網(wǎng)絡(luò)搜索中的糾錯關(guān)系生成方法及系統(tǒng)輸入第一查詢串后通過搜索結(jié)果訪問日志查找到第二查詢串建立糾錯關(guān)系,第二查詢串對應(yīng)的網(wǎng)絡(luò)地址與第一查詢串對應(yīng)的網(wǎng)絡(luò)地址相同,由搜索結(jié)果訪問日志即可生成糾錯關(guān)系,降低了對現(xiàn)有糾錯系統(tǒng)的依賴性。
文檔編號G06F17/30GK102915313SQ20111022436
公開日2013年2月6日 申請日期2011年8月5日 優(yōu)先權(quán)日2011年8月5日
發(fā)明者李超, 宋國龍, 賈自艷 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
盖州市| 黑龙江省| 浑源县| 巴林左旗| 千阳县| 沙河市| 年辖:市辖区| 象州县| 延长县| 龙江县| 镇安县| 策勒县| 独山县| 会昌县| 织金县| 观塘区| 米林县| 梧州市| 什邡市| 呈贡县| 慈利县| 鄂托克前旗| 阿城市| 建湖县| 镇原县| 乌拉特后旗| 禹城市| 泗水县| 沿河| 集贤县| 乐都县| 通州区| 西乌珠穆沁旗| 鄂州市| 长沙县| 双鸭山市| 庐江县| 新密市| 太湖县| 卢氏县| 灵宝市|