两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法

文檔序號(hào):6613869閱讀:267來(lái)源:國(guó)知局
專利名稱:一種互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),特別是涉及一種互聯(lián)網(wǎng)上搜索技術(shù)。

背景技術(shù)
對(duì)于將散布于互聯(lián)網(wǎng)上各個(gè)獨(dú)立網(wǎng)站上的產(chǎn)品與相關(guān)數(shù)據(jù)搜集起來(lái),并提供統(tǒng)一的檢索服務(wù)的互聯(lián)網(wǎng)產(chǎn)品搜索服務(wù)而言,一個(gè)很重要的問(wèn)題是將來(lái)自于多個(gè)獨(dú)立數(shù)據(jù)源的數(shù)據(jù)以統(tǒng)一的方式進(jìn)行描述,并整合。業(yè)務(wù)中涉及到的數(shù)據(jù)雖然散布于各個(gè)獨(dú)立的網(wǎng)站,但是在內(nèi)容上都是關(guān)于產(chǎn)品的數(shù)據(jù),這就需要將數(shù)據(jù)描述提升到知識(shí)的層次,以統(tǒng)一的知識(shí)表述的方式描述各個(gè)不同來(lái)源的數(shù)據(jù),使數(shù)據(jù)的管理與維護(hù)方便、高效。提升到知識(shí)層面的產(chǎn)品數(shù)據(jù)還可以給網(wǎng)上產(chǎn)品數(shù)據(jù)的抽取提供指導(dǎo)性信息,提高數(shù)據(jù)獲取的自動(dòng)化程度,另外也可以為更精確的檢索與更個(gè)性化的檢索提供基礎(chǔ)。
從學(xué)術(shù)研究的角度,這在本質(zhì)層面上是知識(shí)表述問(wèn)題。知識(shí)表述(KnowledgeRepresentation)是人工智能研究中傳統(tǒng)的領(lǐng)域,誕生了語(yǔ)義網(wǎng)(Semantic Network)等經(jīng)典的知識(shí)表示方法。隨著互聯(lián)網(wǎng)的興起與普及,以及關(guān)于語(yǔ)義互聯(lián)網(wǎng)(Semantic Web)的需求的日益高漲,知識(shí)表示重新獲得了關(guān)注,并且使得更為嚴(yán)密的領(lǐng)域知識(shí)表示機(jī)制本體論(Ontology)的研究與應(yīng)用變得極為活躍。W3C研制的Web本體語(yǔ)言O(shè)WL(Web Ontology Language)也獲得了廣泛的重視與活躍的應(yīng)用。
另一方面,隨著國(guó)際貿(mào)易的增加與跨國(guó)界的互聯(lián)網(wǎng)商務(wù)活動(dòng)的加強(qiáng),經(jīng)濟(jì)活動(dòng)中的主要對(duì)象——各種產(chǎn)品數(shù)據(jù)的統(tǒng)一表示的問(wèn)題也變得越來(lái)越重要,吸引了很多學(xué)術(shù)界與商業(yè)組織的注意,從而催生了不少定位于國(guó)際通用標(biāo)準(zhǔn)的產(chǎn)品數(shù)據(jù)的分類體系,如聯(lián)合國(guó)產(chǎn)品與服務(wù)標(biāo)準(zhǔn)代碼(United Nation Standard Product and Service Code,UNSPSC),在歐洲廣泛應(yīng)用的eC1@ss等。但是目前已有的這些分類方案存在這樣幾個(gè)方面的問(wèn)題。第一,對(duì)產(chǎn)品的描述還不充分,未達(dá)到知識(shí)層面的描述。UNSPSC只有產(chǎn)品的分層分類體系。eC1@ss有產(chǎn)品的分層分類,以及具體產(chǎn)品種類的屬性描述。不同的分類體系的分類標(biāo)準(zhǔn)與出發(fā)點(diǎn)是不同的,但是這些分類體系還沒(méi)有包括對(duì)分類標(biāo)準(zhǔn)的規(guī)范化形式化的描述,并且也沒(méi)有包含對(duì)各種產(chǎn)品功能的規(guī)范化描述與部件配件等產(chǎn)品之間的關(guān)系的描述,難以為計(jì)算機(jī)程序深度識(shí)認(rèn)與處理。第二,這些現(xiàn)有的分類系統(tǒng)還只是面向傳統(tǒng)貿(mào)易業(yè)務(wù),不能對(duì)以文本形式存在的網(wǎng)上的產(chǎn)品數(shù)據(jù)的識(shí)別與獲取提供充分的支持,因此不能充分適應(yīng)基于互聯(lián)網(wǎng)的產(chǎn)品搜索業(yè)務(wù)的需要。
另外,目前互聯(lián)網(wǎng)上搜索引擎技術(shù)方案都是一種通用的垂直搜索引擎技術(shù)方案,其獲取數(shù)據(jù)的來(lái)源主要依靠注冊(cè)用戶輸入信息去獲得產(chǎn)品信息,其技術(shù)方案的實(shí)現(xiàn)依賴于用戶的主動(dòng)性輸入,通用性和搜索精確度比較差。


發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種通用性強(qiáng),精確度高的互聯(lián)網(wǎng)搜索系統(tǒng); 本發(fā)明的另一個(gè)目的在于提供一種智能化的互聯(lián)網(wǎng)搜索系統(tǒng); 本發(fā)明的另一個(gè)目的在于提供一種通用性強(qiáng),精確度高的互聯(lián)網(wǎng)搜索方法; 本發(fā)明的再一個(gè)目的在于提供一種智能化的互聯(lián)網(wǎng)搜索方法。
為達(dá)到上述目的,本發(fā)明提供的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)包括用于從互聯(lián)網(wǎng)下載原始網(wǎng)頁(yè)的下載器,用于對(duì)原始網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取的數(shù)據(jù)提取器,用于對(duì)從數(shù)據(jù)提取器獲得的相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行加工的數(shù)據(jù)加工器,用于存儲(chǔ)由數(shù)據(jù)加工器生成的產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)的產(chǎn)品數(shù)據(jù)服務(wù)器,用于從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索用戶所需要的檢索結(jié)果、并帶有檢索界面的檢索引擎,所述搜索系統(tǒng)還包括知識(shí)庫(kù)服務(wù)器,用于提供產(chǎn)品信息數(shù)據(jù)給數(shù)據(jù)提取器,并提供分類信息數(shù)據(jù)給數(shù)據(jù)加工器及檢索引擎。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其中所述產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)構(gòu)成包括邏輯層數(shù)據(jù)、表示層數(shù)據(jù)和存儲(chǔ)層數(shù)據(jù)。
本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其中所述產(chǎn)品知識(shí)庫(kù)服務(wù)器的邏輯層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品分類詞數(shù)據(jù)和產(chǎn)品屬性詞數(shù)據(jù),所述產(chǎn)品表示層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品屬性詞數(shù)據(jù)以及相應(yīng)同義詞數(shù)據(jù)、產(chǎn)品分類數(shù)據(jù)、產(chǎn)品功能描述數(shù)據(jù)和產(chǎn)品性能描述數(shù)據(jù)。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其中所述數(shù)據(jù)提取器是依據(jù)所述產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品表示層數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,所述數(shù)據(jù)加工器是依據(jù)所述產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品邏輯層數(shù)據(jù)進(jìn)行數(shù)據(jù)加工,所述搜索引擎是將檢索界面讀入的用戶原始檢索數(shù)據(jù)結(jié)合產(chǎn)品知識(shí)庫(kù)服務(wù)器中的邏輯層數(shù)據(jù)再?gòu)漠a(chǎn)品數(shù)據(jù)服務(wù)器中檢索產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其中所述產(chǎn)品知識(shí)庫(kù)服務(wù)器根據(jù)產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器以及數(shù)據(jù)加工器所提供的產(chǎn)品數(shù)據(jù)進(jìn)行自動(dòng)更新,其更新步驟為 a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器中數(shù)據(jù), b.檢索更新維護(hù)備用數(shù)據(jù), c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合, d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識(shí)庫(kù)服務(wù)器, e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識(shí)庫(kù)服務(wù)器,將無(wú)效錯(cuò)誤的數(shù)據(jù)集合丟棄。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其中所述數(shù)據(jù)提取器執(zhí)行如下步驟 a.將原始網(wǎng)頁(yè)數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁(yè)數(shù)據(jù), b.獲取文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, c.讀取產(chǎn)品知識(shí)庫(kù)服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致, e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁(yè)作為產(chǎn)品相關(guān)網(wǎng)頁(yè)數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁(yè)數(shù)據(jù), f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁(yè)被處理完畢, 所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)包括如下步驟 g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁(yè)提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù), h.對(duì)每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值, i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)連同分類標(biāo)記寫(xiě)入產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁(yè)保存為產(chǎn)品知識(shí)庫(kù)服務(wù)器自動(dòng)更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁(yè)數(shù)據(jù)處理完畢, 本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述搜索引擎執(zhí)行如下步驟 a.獲得用戶原始檢索數(shù)據(jù), b.依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對(duì)原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù), c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù), d.生成結(jié)果頁(yè)面。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法通過(guò)含由下載器,數(shù)據(jù)提取器,數(shù)據(jù)加工器,產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品知識(shí)庫(kù)服務(wù)器,檢索引擎組成的搜索系統(tǒng),執(zhí)行產(chǎn)品數(shù)據(jù)的搜索,其特征在于該方法的步驟包括對(duì)于因特網(wǎng)上的產(chǎn)品原始網(wǎng)頁(yè)信息,通過(guò)下載器獲取其產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù),依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)通過(guò)數(shù)據(jù)提取器判定并提取產(chǎn)品相關(guān)網(wǎng)頁(yè)數(shù)據(jù),依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù),通過(guò)產(chǎn)品數(shù)據(jù)服務(wù)器存儲(chǔ)產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù),依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)檢索,所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)通過(guò)數(shù)據(jù)提取器判定包括如下步驟 a.將原始網(wǎng)頁(yè)數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁(yè)數(shù)據(jù), b.獲取文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, c.讀取產(chǎn)品知識(shí)庫(kù)服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致, e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁(yè)作為產(chǎn)品相關(guān)網(wǎng)頁(yè)數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁(yè)數(shù)據(jù), f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁(yè)被處理完畢, 所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)包括如下步驟 g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁(yè)提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù), h.對(duì)每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值, i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)連同分類標(biāo)記寫(xiě)入產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁(yè)保存為產(chǎn)品知識(shí)庫(kù)服務(wù)器自動(dòng)更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁(yè)數(shù)據(jù)處理完畢。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法,其中所述互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法還包括一個(gè)如下的自動(dòng)更新知識(shí)庫(kù)服務(wù)器的步驟 a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器中數(shù)據(jù), b.檢索更新維護(hù)備用數(shù)據(jù), c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合, d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識(shí)庫(kù)服務(wù)器, e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識(shí)庫(kù)服務(wù)器,將無(wú)效錯(cuò)誤的數(shù)據(jù)集合丟棄。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法,其中所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)檢索的步驟包括 a.獲得用戶原始檢索數(shù)據(jù), b.依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對(duì)原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù), c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù), d.生成結(jié)果頁(yè)面。
本發(fā)明提供的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)的優(yōu)點(diǎn)是產(chǎn)品網(wǎng)頁(yè)的搜索更加精確,更加規(guī)范和高效。
本發(fā)明提供的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法的優(yōu)點(diǎn)是面向互聯(lián)網(wǎng)產(chǎn)品搜索業(yè)務(wù),系統(tǒng)、全面、規(guī)范化描述關(guān)于產(chǎn)品的各個(gè)方面的數(shù)據(jù),并且以這樣的數(shù)據(jù)為核心,構(gòu)建涉及到互聯(lián)網(wǎng)產(chǎn)品搜索業(yè)務(wù)各個(gè)方面的系統(tǒng)體系結(jié)構(gòu)方案,使得互聯(lián)網(wǎng)搜索方法更加精確,通用性更強(qiáng)。
下面將結(jié)合實(shí)施例參照附圖進(jìn)行詳細(xì)說(shuō)明,以對(duì)本發(fā)明的目的、特征和優(yōu)點(diǎn)有深入的理解。



圖1為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的系統(tǒng)工作原理示意圖; 圖2為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的產(chǎn)品知識(shí)庫(kù)服務(wù)器邏輯構(gòu)成示意圖; 圖3為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的具體知識(shí)庫(kù)服務(wù)器的數(shù)據(jù)分類標(biāo)準(zhǔn)示例; 圖4為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的具體知識(shí)庫(kù)服務(wù)器的數(shù)據(jù)分類進(jìn)一步示意圖; 圖5為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的原始網(wǎng)頁(yè)示意圖; 圖6為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的產(chǎn)品實(shí)例和功能映射方法圖; 圖7為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的搜索引擎檢索方法流程圖; 圖8為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的產(chǎn)品知識(shí)庫(kù)服務(wù)器自動(dòng)更新方法流程圖; 圖9為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的數(shù)據(jù)提取器工作方法及數(shù)據(jù)加工器加工方法流程圖; 圖10為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的數(shù)據(jù)加工器更具體的工作方法流程圖。

具體實(shí)施例方式 下面以實(shí)施例對(duì)技術(shù)方案做詳細(xì)說(shuō)明。
參照?qǐng)D1,本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法的系統(tǒng)構(gòu)成為,從互聯(lián)網(wǎng)抓取數(shù)據(jù)的下載器,數(shù)據(jù)提取器,數(shù)據(jù)加工器,產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品知識(shí)庫(kù)服務(wù)器,提供檢索結(jié)果給檢索界面的檢索引擎。系統(tǒng)包括數(shù)據(jù)的獲取、表示與存儲(chǔ)、檢索,以及維護(hù)更新。數(shù)據(jù)交互以細(xì)箭頭表示,數(shù)據(jù)流程以粗箭頭表示。
大的數(shù)據(jù)流動(dòng)包含兩個(gè)線路一是產(chǎn)品數(shù)據(jù)的流動(dòng),二是知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)與系統(tǒng)其他部分的交互與循環(huán)更新。第一個(gè)流動(dòng)線路是以文本形式散布于互聯(lián)網(wǎng)上各個(gè)獨(dú)立網(wǎng)站的產(chǎn)品數(shù)據(jù)經(jīng)數(shù)據(jù)獲取、表示存儲(chǔ)、以及檢索最終以規(guī)整、便于瀏覽與理解的形式展現(xiàn)于用戶。在第二個(gè)數(shù)據(jù)流動(dòng)中,知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)以各種形式流向各個(gè)不同的系統(tǒng)部分,起到系統(tǒng)支撐作用,并且通過(guò)對(duì)知識(shí)庫(kù)服務(wù)器維護(hù)更新達(dá)到系統(tǒng)內(nèi)信息循環(huán)。
參照?qǐng)D2,本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法的產(chǎn)品知識(shí)庫(kù)服務(wù)器,構(gòu)成上分為三個(gè)層次,第一層是邏輯層次,第二層是表現(xiàn)層次,第三層是存儲(chǔ)層次。第一層包含關(guān)于產(chǎn)品知識(shí)數(shù)據(jù)的形式化表示,第二層包含關(guān)于產(chǎn)品的各個(gè)層面的知識(shí)數(shù)據(jù)在網(wǎng)上的區(qū)別性語(yǔ)言特征方面的知識(shí),第三層是第一、第二層數(shù)據(jù)內(nèi)容的物理存儲(chǔ)層面。
產(chǎn)品知識(shí)庫(kù)服務(wù)器邏輯層次采用形式化方法以清晰無(wú)疑義地盡可能全面、準(zhǔn)確地描述關(guān)于產(chǎn)品的各方面的知識(shí)數(shù)據(jù)。產(chǎn)品描述的范圍包括以下幾個(gè)方面產(chǎn)品的生產(chǎn),產(chǎn)品的功能與使用,產(chǎn)品的流通。產(chǎn)品的生產(chǎn)包括生產(chǎn)者,生產(chǎn)日期,國(guó)家地區(qū),品牌,產(chǎn)品代號(hào)等基本信息,以及產(chǎn)品的產(chǎn)業(yè)領(lǐng)域(工業(yè)、農(nóng)業(yè)等)等信息。產(chǎn)品的功能與使用信息包括產(chǎn)品功能的形式化描述,產(chǎn)品規(guī)格屬性描述,產(chǎn)品使用的領(lǐng)域描述。產(chǎn)品功能的形式化描述由一定的動(dòng)詞集合中抽象形成的謂詞邏輯系統(tǒng)進(jìn)行描述,這一部分描述包含產(chǎn)品之間的部件、配件、附件等關(guān)系。產(chǎn)品的規(guī)格屬性由聯(lián)系到具體產(chǎn)品類別的屬性集合與其上的屬性取值,以及計(jì)量單位系統(tǒng)進(jìn)行描述。產(chǎn)品的使用領(lǐng)域與生產(chǎn)產(chǎn)業(yè)領(lǐng)域相聯(lián)系又有區(qū)別,如從使用領(lǐng)域的角度,可以一些針織紡織品可以描述為床上用品。生產(chǎn)領(lǐng)域與使用領(lǐng)域的區(qū)分可以提供關(guān)于整體產(chǎn)品數(shù)據(jù)的多種不同的邏輯視圖與瀏覽角度,可以滿足不同的檢索需求。產(chǎn)品的流通信息包括交易、付款、包裝、儲(chǔ)運(yùn)等方面的信息; 產(chǎn)品知識(shí)庫(kù)服務(wù)器邏輯層次產(chǎn)品描述的方法目前UNSPSC、eC1@ss等標(biāo)準(zhǔn)與阿里巴巴、環(huán)球資源等大部分B2B商業(yè)網(wǎng)站描述產(chǎn)品的方法都基于分層的分類體系。不同的分類體系分類標(biāo)準(zhǔn)與出發(fā)點(diǎn)都互不相同。UNSPSC是基于生產(chǎn)產(chǎn)業(yè)領(lǐng)域的覆蓋面較廣的分類體系,而eC1@ss分類標(biāo)準(zhǔn)以采購(gòu)為出發(fā)點(diǎn)將各種產(chǎn)品分類。分類體系可以為產(chǎn)品數(shù)據(jù)的整理與管理,以及屬性的歸納等工作提供基礎(chǔ)的框架,因此是十分有用的。但是現(xiàn)有的分類體系的分類標(biāo)準(zhǔn)與視角互不相同,而且也缺乏對(duì)各自分類標(biāo)準(zhǔn)與內(nèi)在邏輯的規(guī)范化描述,這一點(diǎn)對(duì)大部分工作需要機(jī)器來(lái)處理的互聯(lián)網(wǎng)產(chǎn)品搜索業(yè)務(wù)來(lái)講是比較不利的。針對(duì)這種問(wèn)題,產(chǎn)品描述的方法采用基于本體的形式化描述方法,以分層分類的概念化與概念屬性機(jī)制為手段,以某一方面的產(chǎn)品知識(shí)為基準(zhǔn)建立基礎(chǔ)分類并規(guī)范化描述分類標(biāo)準(zhǔn)與內(nèi)在邏輯,在此基礎(chǔ)上,再將其他方面的產(chǎn)品知識(shí)以同樣手段加以整合,最終建立比較全面的規(guī)范化的產(chǎn)品知識(shí)數(shù)據(jù)描述。
產(chǎn)品知識(shí)庫(kù)服務(wù)器表現(xiàn)層次上互聯(lián)網(wǎng)產(chǎn)品搜索與傳統(tǒng)貿(mào)易的一個(gè)顯著不同點(diǎn)是需要識(shí)認(rèn)、收集、整理散布于互聯(lián)網(wǎng)上的產(chǎn)品數(shù)據(jù),而互聯(lián)網(wǎng)上的產(chǎn)品數(shù)據(jù)絕大部分以文本的形式存在,關(guān)于產(chǎn)品的真正有價(jià)值的規(guī)范化信息隱藏于各種文本形式的數(shù)據(jù)背后,這就需要透過(guò)表層的文本數(shù)據(jù)獲取相應(yīng)的規(guī)范化數(shù)據(jù)。表現(xiàn)層的知識(shí)數(shù)據(jù)包含的是關(guān)于產(chǎn)品的抽象知識(shí)數(shù)據(jù)與其文本表現(xiàn)的對(duì)應(yīng)、映射關(guān)系。這樣的知識(shí)可以幫助計(jì)算機(jī)系統(tǒng)從文本數(shù)據(jù)中識(shí)別、獲取相應(yīng)的產(chǎn)品數(shù)據(jù)。表現(xiàn)層的知識(shí)有產(chǎn)品詞、屬性詞以及相應(yīng)同義詞,關(guān)于產(chǎn)品分類的區(qū)別性詞匯分布數(shù)據(jù),輔之以關(guān)于功能描述、性能描述的常見(jiàn)詞匯以及特征性語(yǔ)言結(jié)構(gòu)為主要內(nèi)容。
產(chǎn)品知識(shí)庫(kù)服務(wù)器存儲(chǔ)層上主要實(shí)現(xiàn)上述兩個(gè)層面知識(shí)數(shù)據(jù)的底層物理存儲(chǔ)、維護(hù)、管理。
參照?qǐng)D1和圖2,本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法的系統(tǒng)工作過(guò)程為數(shù)據(jù)下載器調(diào)度網(wǎng)絡(luò)爬蟲(chóng),負(fù)責(zé)從互聯(lián)網(wǎng)上下載網(wǎng)頁(yè)和其他相關(guān)數(shù)據(jù),數(shù)據(jù)提取器接收從產(chǎn)品知識(shí)庫(kù)服務(wù)器中的表示層生成的關(guān)于產(chǎn)品的文本特征數(shù)據(jù)從網(wǎng)頁(yè)中提取產(chǎn)品數(shù)據(jù),數(shù)據(jù)加工器根據(jù)提取結(jié)果,依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的分類知識(shí)數(shù)據(jù)對(duì)提取結(jié)果進(jìn)行加工,進(jìn)行數(shù)據(jù)質(zhì)量評(píng)價(jià)、排除重復(fù)數(shù)據(jù)項(xiàng)、分類整理等操作,并將結(jié)果數(shù)據(jù)提交產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品數(shù)據(jù)服務(wù)器存儲(chǔ)經(jīng)數(shù)據(jù)獲取過(guò)程獲得的規(guī)范化產(chǎn)品數(shù)據(jù)。檢索引擎從檢索界面接受原始檢索,并依據(jù)從產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)信息并根據(jù)從知識(shí)庫(kù)接受的檢索擴(kuò)展邏輯從產(chǎn)品數(shù)據(jù)服務(wù)器中生成檢索結(jié)果返回檢索界面展現(xiàn)。
本發(fā)明的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法的系統(tǒng)中的維護(hù)更新方法為產(chǎn)品數(shù)據(jù)服務(wù)器與產(chǎn)品知識(shí)庫(kù)服務(wù)器數(shù)據(jù)一致性保持是依據(jù)產(chǎn)品數(shù)據(jù)服務(wù)器中新增的項(xiàng)目,主動(dòng)要求產(chǎn)品知識(shí)服務(wù)器進(jìn)行更新。知識(shí)庫(kù)服務(wù)器更新的數(shù)據(jù)有兩個(gè)部分,一是數(shù)據(jù)加工器的反饋數(shù)據(jù),這部分?jǐn)?shù)據(jù)包括現(xiàn)有知識(shí)庫(kù)服務(wù)器不能覆蓋或者一致性較差的數(shù)據(jù)集合以及相應(yīng)統(tǒng)計(jì)數(shù)據(jù),二是從產(chǎn)品數(shù)據(jù)服務(wù)器中生成的知識(shí)庫(kù)服務(wù)器中活躍部分的統(tǒng)計(jì)數(shù)據(jù)。知識(shí)庫(kù)維護(hù)更新根據(jù)這些數(shù)據(jù)對(duì)知識(shí)庫(kù)進(jìn)行調(diào)整和更新。
下面以更具體的實(shí)施例來(lái)描述本發(fā)明的方法和系統(tǒng) 表1為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的相關(guān)網(wǎng)頁(yè)數(shù)據(jù)示意表; 表2為本發(fā)明互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng)和方法的產(chǎn)品數(shù)據(jù)服務(wù)器的數(shù)據(jù)存儲(chǔ)格式示例表; 參照?qǐng)D3,產(chǎn)品知識(shí)庫(kù)服務(wù)器邏輯層中的基礎(chǔ)數(shù)據(jù)是產(chǎn)品基礎(chǔ)分類體系。這個(gè)分類是盡可能詳細(xì)、全面的產(chǎn)品分類。如“辦公用品及相關(guān)產(chǎn)品”細(xì)分為“辦公設(shè)備”,“辦公設(shè)備附件”,“辦公設(shè)備”又可進(jìn)一步分類為“紙張文件處理設(shè)備”,“桌面用具設(shè)備”,“紙張文件處理設(shè)備”又可進(jìn)一步細(xì)分為“打印機(jī)”,“復(fù)印機(jī)”,“打字機(jī)”。
參照?qǐng)D3和圖4,邏輯層中的其他知識(shí)有產(chǎn)品屬性描述、功能分類體系、部件配件關(guān)系等。產(chǎn)品屬性列舉某一種具體產(chǎn)品類別共同具有的屬性。如打印機(jī)的屬性有打印速度、打印分辨率等。功能分類有產(chǎn)品基礎(chǔ)分類歸納而來(lái),著重抽象單一的功能,而不是具體的產(chǎn)品類別,目的是更好的描述具有復(fù)合功能的產(chǎn)品。如不少辦公用打印機(jī)具有打印、復(fù)印、傳真等多項(xiàng)功能。部件配件關(guān)系描述的是產(chǎn)品之間部件、配件、周邊產(chǎn)品等的關(guān)系,例如打印機(jī)產(chǎn)品的部件、配件、周邊產(chǎn)品描述為墨盒、色帶、硒鼓等等。
產(chǎn)品知識(shí)庫(kù)服務(wù)器的表示層表現(xiàn)層的知識(shí)有產(chǎn)品詞、屬性詞以及相應(yīng)同義詞,關(guān)于產(chǎn)品分類的區(qū)別性詞匯分布數(shù)據(jù),輔之以關(guān)于功能描述、性能描述的常見(jiàn)詞匯以及特征性語(yǔ)言結(jié)構(gòu)為主要內(nèi)容。知識(shí)庫(kù)中表示層的數(shù)據(jù)有與邏輯層中基礎(chǔ)產(chǎn)品分類體系對(duì)應(yīng)的產(chǎn)品詞、產(chǎn)品的屬性詞、屬性詞的同義詞、屬性取值的文本字符串等。
參照?qǐng)D4、圖5、表1、圖6、圖9,例如數(shù)據(jù)提取器定位到如圖4的打印機(jī)產(chǎn)品頁(yè)面數(shù)據(jù),數(shù)據(jù)提取器調(diào)取知識(shí)庫(kù)服務(wù)器中表現(xiàn)層關(guān)于打印機(jī)的描述數(shù)據(jù),依據(jù)獲得的相關(guān)數(shù)據(jù)過(guò)濾出如關(guān)于color,speed,cartridge,resolution…等特征性的專業(yè)詞匯數(shù)據(jù)。數(shù)據(jù)提取器還對(duì)產(chǎn)品頁(yè)面做處理,去除網(wǎng)頁(yè)標(biāo)簽,保留關(guān)于產(chǎn)品的有效文本數(shù)據(jù),轉(zhuǎn)化為一定格式作為相關(guān)網(wǎng)頁(yè)數(shù)據(jù)以供后續(xù)處理。
參照?qǐng)D4、圖5、表1、圖6、圖9,圖10數(shù)據(jù)加工器對(duì)數(shù)據(jù)提取器的輸出進(jìn)行進(jìn)一步處理。主要任務(wù)是分類、建立屬性映射、建立功能映射、部件關(guān)系映射等。分類指的是按照產(chǎn)品知識(shí)庫(kù)服務(wù)器中邏輯層基礎(chǔ)產(chǎn)品分類標(biāo)準(zhǔn)以及類別的屬性、屬性取值以及功能等對(duì)數(shù)據(jù)提取模塊的輸出的產(chǎn)品實(shí)例判斷對(duì)應(yīng)的產(chǎn)品類別。每個(gè)類別有其對(duì)應(yīng)的產(chǎn)品屬性與功能。屬性映射指的是判斷產(chǎn)品實(shí)例具有的屬性,并判斷其取值,功能映射指的是判斷該產(chǎn)品實(shí)例具有的功能。數(shù)據(jù)加工器的輸出數(shù)據(jù)進(jìn)入如表2所描述的產(chǎn)品數(shù)據(jù)服務(wù)器中存儲(chǔ)。產(chǎn)品數(shù)據(jù)服務(wù)器中存放經(jīng)過(guò)數(shù)據(jù)加工模塊處理過(guò)的產(chǎn)品數(shù)據(jù)及其他相關(guān)數(shù)據(jù)。這個(gè)服務(wù)器是數(shù)據(jù)存儲(chǔ)服務(wù)器,除了可以使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)之外,還有XML等其他數(shù)據(jù)結(jié)構(gòu)。主要存放的是產(chǎn)品基礎(chǔ)數(shù)據(jù)、產(chǎn)品屬性映射、功能映射、部件關(guān)系映射等。數(shù)據(jù)加工器的輸出數(shù)據(jù)信息即搜索引擎所需要的產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)。
表1
表2 參照?qǐng)D2和圖8,上述描述中的數(shù)據(jù)加工器及產(chǎn)品數(shù)據(jù)服務(wù)器會(huì)記錄產(chǎn)品知識(shí)庫(kù)服務(wù)器中所提供的相應(yīng)信息的準(zhǔn)確性及其命中率,將經(jīng)常出現(xiàn)的卻未被知識(shí)庫(kù)服務(wù)器所記憶的產(chǎn)品信息,如分類,屬性等按照上面描述的產(chǎn)品知識(shí)庫(kù)服務(wù)器的構(gòu)成自動(dòng)維護(hù)和更新入產(chǎn)品知識(shí)庫(kù)服務(wù)器。上述過(guò)程按照活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合按照如圖10的流程進(jìn)行信息處理,自動(dòng)更新產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息。知識(shí)庫(kù)服務(wù)器的生成和維護(hù)在必要時(shí)候當(dāng)然也可以按照本發(fā)明闡述的方法單獨(dú)設(shè)置更新維護(hù)模塊,提供人工維護(hù)介入知識(shí)庫(kù)服務(wù)器的維護(hù)和增加,維護(hù),修改相關(guān)數(shù)據(jù)。
參照?qǐng)D2和圖7,檢索引擎通過(guò)檢索界面獲得用戶的原始檢索輸入,檢索引擎通過(guò)擴(kuò)展邏輯利用產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息對(duì)原始檢索進(jìn)行擴(kuò)展,形成更精確和智能的擴(kuò)展檢索詞,再?gòu)漠a(chǎn)品數(shù)據(jù)服務(wù)器中檢索出用戶想看到的檢索結(jié)果,生成檢索頁(yè)面。例如以相關(guān)產(chǎn)品擴(kuò)展為例,相關(guān)產(chǎn)品擴(kuò)展指的是將檢索擴(kuò)展到功能上同屬一個(gè)組的產(chǎn)品類別上,原始查詢輸入為“打印機(jī)”,映射到知識(shí)庫(kù)服務(wù)器中,在基礎(chǔ)產(chǎn)品分類中可以找到“紙張文件處理”這個(gè)產(chǎn)品組,其中有“打印機(jī)”、“復(fù)印機(jī)”、“打字機(jī)”等多種產(chǎn)品,因此按照相關(guān)產(chǎn)品擴(kuò)展邏輯,將原始查詢輸入“打印機(jī)”擴(kuò)展為“打印機(jī)+復(fù)印機(jī)+打字機(jī)”,提交檢索算法進(jìn)行檢索并排序,將結(jié)果按照“打印機(jī)”、“復(fù)印機(jī)”、“打字機(jī)”進(jìn)行分類輸出到結(jié)果頁(yè)面。通過(guò)上述方法可使得檢索進(jìn)行地更精確,更智能,更方便。上述進(jìn)入產(chǎn)品數(shù)據(jù)服務(wù)器中的產(chǎn)品數(shù)據(jù)要經(jīng)過(guò)檢索引擎最終呈現(xiàn)于用戶的檢索結(jié)果頁(yè)面。原始查詢輸入映射到知識(shí)庫(kù)服務(wù)器進(jìn)行擴(kuò)充,再經(jīng)檢索算法生成結(jié)果并排序,最終返回用戶檢索界面。這一過(guò)程在圖1中對(duì)應(yīng)于檢索界面、檢索引擎、產(chǎn)品數(shù)據(jù)服務(wù)器、產(chǎn)品知識(shí)庫(kù)服務(wù)器以及它們之間的交互。檢索擴(kuò)展起到將原始查詢進(jìn)行擴(kuò)展,并將結(jié)果按照擴(kuò)展的邏輯進(jìn)行分類的作用。目的是通過(guò)盡可能少的查詢可以檢索到互相聯(lián)系的盡可能全面的產(chǎn)品。檢索擴(kuò)展邏輯可以有相關(guān)產(chǎn)品擴(kuò)展、部件配件關(guān)系擴(kuò)展等。
權(quán)利要求
1.一種互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),包括
用于從互聯(lián)網(wǎng)下載原始網(wǎng)頁(yè)的下載器,
用于對(duì)原始網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取的數(shù)據(jù)提取器,
用于對(duì)從數(shù)據(jù)提取器獲得的相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行加工的數(shù)據(jù)加工器,
用于存儲(chǔ)由數(shù)據(jù)加工器生成的產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)的產(chǎn)品數(shù)據(jù)服務(wù)器,
用于從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索用戶所需要的檢索結(jié)果、并帶有檢索界面的檢索引擎,
其特征在于
所述搜索系統(tǒng)還包括知識(shí)庫(kù)服務(wù)器,用于提供產(chǎn)品信息數(shù)據(jù)給數(shù)據(jù)提取器,并提供分類信息數(shù)據(jù)給數(shù)據(jù)加工器及檢索引擎。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)構(gòu)成包括邏輯層數(shù)據(jù)、表示層數(shù)據(jù)和存儲(chǔ)層數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述產(chǎn)品知識(shí)庫(kù)服務(wù)器的邏輯層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品分類詞數(shù)據(jù)和產(chǎn)品屬性詞數(shù)據(jù),所述產(chǎn)品表示層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品屬性詞數(shù)據(jù)以及相應(yīng)同義詞數(shù)據(jù)、產(chǎn)品分類數(shù)據(jù)、產(chǎn)品功能描述數(shù)據(jù)和產(chǎn)品性能描述數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述數(shù)據(jù)提取器是依據(jù)所述產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品表示層數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,所述數(shù)據(jù)加工器是依據(jù)所述產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品邏輯層數(shù)據(jù)進(jìn)行數(shù)據(jù)加工,所述搜索引擎是將檢索界面讀入的用戶原始檢索數(shù)據(jù)結(jié)合產(chǎn)品知識(shí)庫(kù)服務(wù)器中的邏輯層數(shù)據(jù)再?gòu)漠a(chǎn)品數(shù)據(jù)服務(wù)器中檢索產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述產(chǎn)品知識(shí)庫(kù)服務(wù)器根據(jù)產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器以及數(shù)據(jù)加工器所提供的產(chǎn)品數(shù)據(jù)進(jìn)行自動(dòng)更新,其更新步驟為
a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器中數(shù)據(jù),
b.檢索更新維護(hù)備用數(shù)據(jù),
c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合,
d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識(shí)庫(kù)服務(wù)器,
e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識(shí)庫(kù)服務(wù)器,將無(wú)效錯(cuò)誤的數(shù)據(jù)集合丟棄。
6.根據(jù)權(quán)利要求4或5所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述數(shù)據(jù)提取器執(zhí)行如下步驟
a.將原始網(wǎng)頁(yè)數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁(yè)數(shù)據(jù),
b.獲取文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
c.讀取產(chǎn)品知識(shí)庫(kù)服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致,
e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁(yè)作為產(chǎn)品相關(guān)網(wǎng)頁(yè)數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁(yè)數(shù)據(jù),
f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁(yè)被處理完畢,
所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)包括如下步驟
g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁(yè)提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù),
h.對(duì)每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值,
i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)連同分類標(biāo)記寫(xiě)入產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁(yè)保存為產(chǎn)品知識(shí)庫(kù)服務(wù)器自動(dòng)更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁(yè)數(shù)據(jù)處理完畢。
7.根據(jù)權(quán)利要求6所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),其特征在于所述搜索引擎執(zhí)行如下步驟
a.獲得用戶原始檢索數(shù)據(jù),
b.依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對(duì)原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù),
c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù),
d.生成結(jié)果頁(yè)面。
8.一種互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法,該方法通過(guò)含由下載器,數(shù)據(jù)提取器,數(shù)據(jù)加工器,產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品知識(shí)庫(kù)服務(wù)器,檢索引擎組成的搜索系統(tǒng),執(zhí)行產(chǎn)品數(shù)據(jù)的搜索,其特征在于該方法的步驟包括對(duì)于因特網(wǎng)上的產(chǎn)品原始網(wǎng)頁(yè)信息,通過(guò)下載器獲取其產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù),依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)通過(guò)數(shù)據(jù)提取器判定并提取產(chǎn)品相關(guān)網(wǎng)頁(yè)數(shù)據(jù),依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù),通過(guò)產(chǎn)品數(shù)據(jù)服務(wù)器存儲(chǔ)產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù),依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)檢索,所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的數(shù)據(jù)通過(guò)數(shù)據(jù)提取器判定包括如下步驟
a.將原始網(wǎng)頁(yè)數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁(yè)數(shù)據(jù),
b.獲取文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
c.讀取產(chǎn)品知識(shí)庫(kù)服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁(yè)的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致,
e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁(yè)作為產(chǎn)品相關(guān)網(wǎng)頁(yè)數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁(yè)數(shù)據(jù),
f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁(yè)被處理完畢,
所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)包括如下步驟
g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁(yè)提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù),
h.對(duì)每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值,
i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁(yè)數(shù)據(jù)連同分類標(biāo)記寫(xiě)入產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁(yè)保存為產(chǎn)品知識(shí)庫(kù)服務(wù)器自動(dòng)更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁(yè)數(shù)據(jù)處理完畢。
9.根據(jù)權(quán)利要求8所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法,其特征在于,所述互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法還包括一個(gè)如下的自動(dòng)更新知識(shí)庫(kù)服務(wù)器的步驟
a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫(kù)服務(wù)器中數(shù)據(jù),
b.檢索更新維護(hù)備用數(shù)據(jù),
c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合,
d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識(shí)庫(kù)服務(wù)器,
e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識(shí)庫(kù)服務(wù)器,將無(wú)效錯(cuò)誤的數(shù)據(jù)集合丟棄。
10.根據(jù)權(quán)利要求8或9所述的互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索方法,其特征在于,所述依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的信息通過(guò)檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)檢索的步驟包括
a.獲得用戶原始檢索數(shù)據(jù),
b.依據(jù)產(chǎn)品知識(shí)庫(kù)服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對(duì)原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù),
c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù),
d.生成結(jié)果頁(yè)面。
全文摘要
本發(fā)明提供了一種互聯(lián)網(wǎng)上基于知識(shí)庫(kù)的搜索系統(tǒng),包括用于從互聯(lián)網(wǎng)下載原始網(wǎng)頁(yè)的下載器,用于對(duì)原始網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)提取的數(shù)據(jù)提取器,用于對(duì)從數(shù)據(jù)提取器獲得的相關(guān)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行加工的數(shù)據(jù)加工器,用于存儲(chǔ)由數(shù)據(jù)加工器生成的產(chǎn)品網(wǎng)頁(yè)數(shù)據(jù)的產(chǎn)品數(shù)據(jù)服務(wù)器,用于從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索用戶所需要的檢索結(jié)果、并帶有檢索界面的檢索引擎,所述搜索系統(tǒng)還包括知識(shí)庫(kù)服務(wù)器,用于提供產(chǎn)品信息數(shù)據(jù)給數(shù)據(jù)提取器,并提供分類信息數(shù)據(jù)給數(shù)據(jù)加工器及檢索引擎。本發(fā)明同時(shí)還提供了該系統(tǒng)的搜索方法。本發(fā)明提供的系統(tǒng)和方法主要用于產(chǎn)品數(shù)據(jù)的互聯(lián)網(wǎng)搜索引擎,為用戶提供了一種通用性強(qiáng),精確度高的互聯(lián)網(wǎng)搜索工具。
文檔編號(hào)G06F17/30GK101281525SQ20071017800
公開(kāi)日2008年10月8日 申請(qǐng)日期2007年11月23日 優(yōu)先權(quán)日2007年11月23日
發(fā)明者雙 王 申請(qǐng)人:北京九城網(wǎng)絡(luò)軟件有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
乃东县| 仁怀市| 亚东县| 临潭县| 云安县| 北票市| 东兰县| 齐齐哈尔市| 满洲里市| 东台市| 宜章县| 沁水县| 广饶县| 咸阳市| 金沙县| 伊宁县| 九龙县| 陵水| 荃湾区| 万载县| 天柱县| 井冈山市| 梁河县| 肃南| 万源市| 巫溪县| 祥云县| 贵州省| 若尔盖县| 南昌市| 沙雅县| 黄石市| 萍乡市| 密云县| 墨竹工卡县| 平利县| 十堰市| 淳安县| 新兴县| 河南省| 扎囊县|