專利名稱:一種互聯(lián)網(wǎng)信息搜索方法及一種搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種互聯(lián)網(wǎng)信息搜索方法及一種搜索引擎。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的人開始通過計(jì)算機(jī)網(wǎng)絡(luò)搜索引擎在互聯(lián)網(wǎng)中定位 自己需要的信息。常見的網(wǎng)絡(luò)搜索引擎,例如Google, com, Yahoo, com都是通過網(wǎng)絡(luò)爬蟲獲 得Internet上的網(wǎng)頁,然后由搜索引擎分析網(wǎng)頁中的內(nèi)容,確定并保存搜索條件和這些網(wǎng) 頁之間的索引關(guān)系。網(wǎng)絡(luò)搜索用戶向搜索引擎服務(wù)器提交搜索條件后,網(wǎng)絡(luò)搜索引擎就根 據(jù)事先分析的結(jié)果向網(wǎng)絡(luò)搜索用戶發(fā)送搜索結(jié)果,這個(gè)搜索結(jié)果包含和這個(gè)搜索條件相關(guān) 的網(wǎng)頁的URL (Unifom Resource Locator,統(tǒng)一資源定位符)集合的信息,這些URL集合一 般是以鏈接的方式呈現(xiàn)給搜索用戶。隨著互聯(lián)網(wǎng)的極度膨脹,人們?cè)絹碓揭蕾囉诟鞣N搜索引擎查找信息。但是,它們的 可信賴度到底有多大呢?根據(jù)專家的評(píng)測(cè),目前主要的搜索引擎返回的相關(guān)結(jié)果的比率不 足45%。例如,用戶想搜索一家公司的主頁以及有助于了解該公司的其他信息,但返回的搜 索結(jié)果中,很大一部分是關(guān)于該公司招聘信息的網(wǎng)頁URL,并沒有其他有助于了解該公司的 信息。甚至,返回的第一個(gè)搜索結(jié)果也不是該公司的主頁鏈接,而是介紹該公司產(chǎn)品的網(wǎng)頁 鏈接。因此,要想獲得一個(gè)比較全面、準(zhǔn)確的搜索結(jié)果,就必須反復(fù)使用多個(gè)關(guān)鍵詞進(jìn)行搜 索。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種互聯(lián)網(wǎng)信息搜索方法及一種搜索引擎,能 夠提高搜索準(zhǔn)確率。為了解決上述問題,本發(fā)明公開了一種互聯(lián)網(wǎng)信息搜索方法,包括接收用戶輸入的查詢信息;對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則從預(yù)置的公 司信息索引庫中查找與該查詢信息相匹配的結(jié)果;其中,所述公司信息索引庫至少包括公 司主頁信息;將搜索結(jié)果返回并展示。其中,如果所述查詢信息為查詢?cè)~,則根據(jù)預(yù)置的公司名稱列表,判斷該查詢?cè)~是 否為公司名稱,如果是,則表明用戶要查找公司信息。其中,如果所述查詢信息為英文網(wǎng)址,則對(duì)該英文網(wǎng)址進(jìn)行分析,當(dāng)該英文網(wǎng)址為 域名信息時(shí),表明用戶要查找公司信息。本發(fā)明還提供了一種互聯(lián)網(wǎng)信息搜索方法,包括接收用戶輸入的查詢信息;對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則按照索引庫中預(yù)置的索引分類,從公司信息索引分類中查找與該查詢信息相匹配的結(jié)果;其中,所述公 司信息索引分類中至少包括公司主頁信息;將搜索結(jié)果返回并展示。其中,所述公司信息索引分類通過以下方式預(yù)置對(duì)索引庫中所有的網(wǎng)頁地址進(jìn) 行解析,將解析結(jié)果為域名的網(wǎng)頁判斷為公司主頁;然后將至少包括公司主頁的地址歸為 一類并建立索引,成為公司信息索引分類。本發(fā)明還提供了一種搜索引擎,包括公司信息索引庫,用于建立至少包括公司主頁信息的索引;接收單元,用于接收用戶輸入的查詢信息;搜索單元,用于對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果 是,則從所述公司信息索引庫中查找與該查詢信息相匹配的結(jié)果;結(jié)果返回單元,用于將搜索結(jié)果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評(píng)價(jià)信息、公司熱點(diǎn)新聞 fn息ο本發(fā)明還提供了一種搜索引擎,包括索引庫,用于分類建立信息索引,其中一類為至少包括公司主頁信息的公司信息 索引分類;接收單元,用于接收用戶輸入的查詢信息;索引單元,用于對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果 是,則從所述索引庫中的公司信息索引分類中查找與該查詢信息相匹配的結(jié)果;其中,所述 公司信息索引分類中至少包括公司主頁信息;結(jié)果返回單元,用于將搜索結(jié)果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評(píng)價(jià)信息、公司熱點(diǎn)新聞 fn息ο與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)本發(fā)明根據(jù)用戶的實(shí)際需求,將搜索引擎索引庫中的公司主頁信息單獨(dú)建立一個(gè) 公司信息索引庫,或單獨(dú)設(shè)為一個(gè)公司信息索引分類,當(dāng)用戶需要查詢公司主頁時(shí),直接到 該公司信息索引庫或公司信息索引分類中查詢即可,因此極大地提高了搜索準(zhǔn)確率。而且,公司信息索引庫或公司信息索引分類中還可以包括其他有助于了解公司的 信息,如公司的地址、對(duì)公司的評(píng)價(jià)、公司近期出現(xiàn)的熱點(diǎn)新聞等信息。這些信息可以幫助 用戶快速了解一家公司的情況。
圖1是本發(fā)明實(shí)施例一所述一種互聯(lián)網(wǎng)信息搜索方法的流程圖;圖2是本發(fā)明實(shí)施例二所述一種互聯(lián)網(wǎng)信息搜索方法的流程圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí) 施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
隨著信息檢索技術(shù)的飛速發(fā)展,文本信息檢索技術(shù)進(jìn)入了一個(gè)比較成熟的階段, 從最原始的關(guān)鍵字匹配到現(xiàn)在的基于上下文的分析、模式匹配、實(shí)例匹配以及應(yīng)用統(tǒng)計(jì)策 略進(jìn)行分析等等,已經(jīng)形成了一套比較完整的思路和完善的算法,并被廣泛應(yīng)用到了各類 搜索引擎上。搜索引擎系統(tǒng)為用戶提供搜索網(wǎng)頁的方法是首先網(wǎng)頁收集器通過網(wǎng)絡(luò)蜘蛛等網(wǎng)頁抓取程序從互聯(lián)網(wǎng)上抓取網(wǎng)頁,把網(wǎng)頁送入 原始網(wǎng)頁數(shù)據(jù)庫,網(wǎng)頁收集器從網(wǎng)頁中提取URL交給搜集控制器判斷,搜集控制器得到網(wǎng) 頁的URL,控制網(wǎng)絡(luò)蜘蛛抓取其它網(wǎng)頁,反復(fù)循環(huán)直到把所有的網(wǎng)頁抓取完成。然后,系統(tǒng)從原始網(wǎng)頁數(shù)據(jù)庫中得到文本信息,對(duì)單個(gè)網(wǎng)頁進(jìn)行預(yù)處理,送入“文 本索引器”模塊建立索引,形成索引數(shù)據(jù)庫;同時(shí)進(jìn)行鏈接信息提取,把鏈接信息送入鏈接 分析模塊建立網(wǎng)頁評(píng)級(jí),形成鏈接評(píng)級(jí)庫,其中,鏈接信息包括錨文本、鏈接本身等信息。用戶通過提交查詢請(qǐng)求給查詢服務(wù)器,查詢服務(wù)器在索引數(shù)據(jù)庫中進(jìn)行相關(guān)網(wǎng)頁 的查找,同時(shí)鏈接評(píng)級(jí)庫把查詢請(qǐng)求和鏈接信息結(jié)合起來對(duì)搜索結(jié)果進(jìn)行相關(guān)度的評(píng)價(jià), 通過查詢服務(wù)器按照相關(guān)度進(jìn)行排序,并提取關(guān)鍵字的內(nèi)容摘要,最后通過用戶接口格式 化查詢顯示內(nèi)容并返回給用戶。本發(fā)明針對(duì)用戶需要查找公司主頁及了解公司相關(guān)信息的需求,對(duì)現(xiàn)有的搜索引 擎系統(tǒng)進(jìn)行了改進(jìn),將搜索引擎索引庫中的公司主頁以及有助于了解公司相關(guān)信息的網(wǎng)頁 歸為一類,單獨(dú)建立一個(gè)公司信息索引庫,或者在搜索引擎索引庫中單獨(dú)建立一個(gè)公司信 息索引分類。當(dāng)用戶需要查詢公司主頁時(shí),直接到該公司信息索引庫或公司信息索引分類 中查詢即可,因此極大地提高了搜索準(zhǔn)確率。其中,根據(jù)搜索引擎索引庫建立公司信息索引庫或公司信息索引分類的方法是 對(duì)搜索引擎索引庫中所有的網(wǎng)頁地址進(jìn)行解析,將解析結(jié)果為域名的網(wǎng)頁判斷為公司主 頁;然后將公司主頁歸為一類并建立索引庫或索引分類。例如,搜索引擎索引庫中某些網(wǎng)頁 的地址為www. sohu. com/, www. lenovo. com. cn/,這些網(wǎng)址為域名,則相應(yīng)的網(wǎng)頁即為公司 的主頁。還例如,某網(wǎng)址為www. lenovo. com. cn/about/channel/,按照網(wǎng)址間的“/”進(jìn)行分 隔,雖然該網(wǎng)址包含域名www. lenovo. com. cn/,但是還包含其他信息about/channel/,這 表示該網(wǎng)頁不是主頁。按照上述方法,就可以將搜索引擎索引庫中的公司主頁與其他網(wǎng)頁 加以區(qū)別,然后單獨(dú)建立一個(gè)公司信息索引庫或公司信息索引分類。參照?qǐng)D1,是本發(fā)明實(shí)施例一所述一種互聯(lián)網(wǎng)信息搜索方法的流程圖。S101,接收用戶輸入的查詢信息;其中,所述查詢信息可以是查詢?cè)~,如公司名稱;也可以是英文網(wǎng)址,如某公司的 網(wǎng)址。S102,對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則從預(yù) 置的公司信息索引庫中查找與該查詢信息相匹配的結(jié)果;其中,所述公司信息索引庫至少 包括公司主頁信息;如果所述查詢信息為查詢?cè)~,則根據(jù)預(yù)置的公司名稱列表,判斷該查詢?cè)~是否為 公司名稱,如果是,則表明用戶要查找公司信息。然后,直接到所述公司信息索引庫中進(jìn)行 搜索。如果不是,則到原始的索引庫中查詢。其中,所述公司名稱列表中收集了公司信息索 引庫中的所有公司名稱。所述查詢?cè)~可以為公司全稱,也可以是公司簡(jiǎn)稱,總之查詢?cè)~包含在某個(gè)公司名稱中即可判斷為用戶需要查詢公司信息。如果所述查詢信息為英文網(wǎng)址,則對(duì)該英文網(wǎng)址進(jìn)行分析,當(dāng)該英文網(wǎng)址為域名 信息時(shí),表明用戶要查找公司信息。S103,將搜索結(jié)果返回并展示。優(yōu)選的,所述公司信息索引庫還可以包括其他有助于了解公司的信息,如公司的 地址、對(duì)公司的評(píng)價(jià)、公司近期出現(xiàn)的熱點(diǎn)新聞等信息。這些信息可以幫助用戶快速了解一 家公司的情況。上述搜索方法可以提高搜索公司信息的準(zhǔn)確率,當(dāng)用戶希望了解一個(gè)公司的情況 時(shí),搜索引擎從所述公司信息索引庫中直接進(jìn)行查詢即可,這樣就過濾掉了很多與該公司 無關(guān)的信息,如招聘信息等,這些不是用戶希望了解的信息。參照?qǐng)D2,是本發(fā)明實(shí)施例二所述一種互聯(lián)網(wǎng)信息搜索方法的流程圖。S201,接收用戶輸入的查詢信息;其中,所述查詢信息可以是查詢?cè)~,如公司名稱;也可以是英文網(wǎng)址,如某公司的 網(wǎng)址。S202,對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則按照 索引庫中預(yù)置的索引分類,從公司信息索引分類中查找與該查詢信息相匹配的結(jié)果;其中, 所述公司信息索引分類中至少包括公司主頁信息;如果所述查詢信息為查詢?cè)~,則根據(jù)預(yù)置的公司名稱列表,判斷該查詢?cè)~是否為 公司名稱,如果是,則表明用戶要查找公司信息。然后,直接到所述公司信息索引庫中進(jìn)行 搜索。如果不是,則到原始的索引庫中查詢。其中,所述公司名稱列表中收集了公司信息索 引分類中的所有公司名稱。所述查詢?cè)~可以為公司全稱,也可以是公司簡(jiǎn)稱,總之查詢?cè)~包 含在某個(gè)公司名稱中即可判斷為用戶需要查詢公司信息。如果所述查詢信息為英文網(wǎng)址,則對(duì)該英文網(wǎng)址進(jìn)行分析,當(dāng)該英文網(wǎng)址為域名 信息時(shí),表明用戶要查找公司信息。S203,將搜索結(jié)果返回并展示。優(yōu)選的,所述公司信息索引分類中還可以包括其他有助于了解公司的信息,如公 司的地址、對(duì)公司的評(píng)價(jià)、公司近期出現(xiàn)的熱點(diǎn)新聞等信息。這些信息可以幫助用戶快速了 解一家公司的情況?;谏鲜龇椒ǖ拿枋?,本發(fā)明實(shí)施例還提供了一種搜索引擎,其結(jié)構(gòu)如下公司信息索引庫,用于建立至少包括公司主頁信息的索引;接收單元,用于接收用戶輸入的查詢信息;搜索單元,用于對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果 是,則從所述公司信息索引庫中查找與該查詢信息相匹配的結(jié)果;結(jié)果返回單元,用于將搜索結(jié)果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評(píng)價(jià)信息、公司熱點(diǎn)新聞 fn息ο本發(fā)明實(shí)施例還提供了另一種結(jié)構(gòu)的搜索引擎,包括索引庫,用于分類建立信息索引,其中一類為至少包括公司主頁信息的公司信息 索引分類;
接收單元,用于接收用戶輸入的查詢信息;索引單元,用于對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果 是,則從所述索引庫中的公司信息索引分類中查找與該查詢信息相匹配的結(jié)果;其中,所述 公司信息索引分類中至少包括公司主頁信息;結(jié)果返回單元,用于將搜索結(jié)果返回并展示。優(yōu)選的,所述公司信息索引庫還包括公司地址信息、公司評(píng)價(jià)信息、公司熱點(diǎn)新聞 fn息ο本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與 其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于系統(tǒng)實(shí)施例 而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部 分說明即可。以上對(duì)本發(fā)明所提供的一種互聯(lián)網(wǎng)信息搜索方法及一種搜索引擎,進(jìn)行了詳細(xì)介 紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只 是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā) 明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理 解為對(duì)本發(fā)明的限制。
權(quán)利要求
一種互聯(lián)網(wǎng)信息搜索方法,其特征在于,包括接收用戶輸入的查詢信息;對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則從預(yù)置的公司信息索引庫中查找與該查詢信息相匹配的結(jié)果;其中,所述公司信息索引庫至少包括公司主頁信息;將搜索結(jié)果返回并展示。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于如果所述查詢信息為查詢?cè)~,則根據(jù)預(yù)置的公司名稱列表,判斷該查詢?cè)~是否為公司 名稱,如果是,則表明用戶要查找公司信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于如果所述查詢信息為英文網(wǎng)址,則對(duì)該英文網(wǎng)址進(jìn)行分析,當(dāng)該英文網(wǎng)址為域名信息 時(shí),表明用戶要查找公司信息。
4.一種互聯(lián)網(wǎng)信息搜索方法,其特征在于,包括 接收用戶輸入的查詢信息;對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則按照索引庫中預(yù) 置的索引分類,從公司信息索引分類中查找與該查詢信息相匹配的結(jié)果;其中,所述公司信 息索引分類中至少包括公司主頁信息; 將搜索結(jié)果返回并展示。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述公司信息索引分類通過以下方式預(yù)置對(duì)索引庫中所有的網(wǎng)頁地址進(jìn)行解析,將解析結(jié)果為域名的網(wǎng)頁判斷為公司主頁;然 后將至少包括公司主頁的地址歸為一類并建立索引,成為公司信息索引分類。
6.一種搜索引擎,其特征在于,包括公司信息索引庫,用于建立至少包括公司主頁信息的索引; 接收單元,用于接收用戶輸入的查詢信息;搜索單元,用于對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則 從所述公司信息索引庫中查找與該查詢信息相匹配的結(jié)果; 結(jié)果返回單元,用于將搜索結(jié)果返回并展示。
7.根據(jù)權(quán)利要求6所述的搜索引擎,其特征在于所述公司信息索引庫還包括公司地址信息、公司評(píng)價(jià)信息、公司熱點(diǎn)新聞信息。
8.一種搜索引擎,其特征在于,包括索引庫,用于分類建立信息索引,其中一類為至少包括公司主頁信息的公司信息索引 分類;接收單元,用于接收用戶輸入的查詢信息;索引單元,用于對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則 從所述索引庫中的公司信息索引分類中查找與該查詢信息相匹配的結(jié)果;其中,所述公司 信息索引分類中至少包括公司主頁信息;結(jié)果返回單元,用于將搜索結(jié)果返回并展示。
9.根據(jù)權(quán)利要求8所述的搜索引擎,其特征在于所述公司信息索引庫還包括公司地址信息、公司評(píng)價(jià)信息、公司熱點(diǎn)新聞信息。
全文摘要
本發(fā)明提供了一種互聯(lián)網(wǎng)信息搜索方法及一種搜索引擎,能夠提高搜索準(zhǔn)確率。所述方法包括接收用戶輸入的查詢信息;對(duì)所述查詢信息進(jìn)行識(shí)別,判斷用戶是否要查找公司信息,如果是,則從預(yù)置的公司信息索引庫中查找與該查詢信息相匹配的結(jié)果;其中,所述公司信息索引庫至少包括公司主頁信息;將搜索結(jié)果返回并展示。當(dāng)用戶需要查詢公司主頁時(shí),直接到該公司信息索引庫中查詢即可,因此極大地提高了搜索準(zhǔn)確率。
文檔編號(hào)G06F17/30GK101923548SQ200910087278
公開日2010年12月22日 申請(qǐng)日期2009年6月15日 優(yōu)先權(quán)日2009年6月15日
發(fā)明者李東亞, 郭勇 申請(qǐng)人:北京華智大為科技有限公司