一種文檔索引的建立方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種文檔索引的建立方法和裝置,所述方法包括:提取網(wǎng)頁中的文本信息;判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。本發(fā)明實(shí)施例將具有與該電話號(hào)碼匹配的通訊特征信息的網(wǎng)頁優(yōu)先展示,提高了搜索的準(zhǔn)確率,進(jìn)而減少在搜索結(jié)果中翻頁查找、重新輸入搜索關(guān)鍵詞等方式進(jìn)行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
【專利說明】一種文檔索引的建立方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索【技術(shù)領(lǐng)域】,特別是涉及一種文檔索引的建立方法和一種文檔索引的建立裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)的迅速發(fā)展,網(wǎng)絡(luò)上的信息急劇增加。用戶為了在海量的信息中尋找所需的信息,通常使用搜索引擎進(jìn)行搜索。
[0003]搜索引擎指自動(dòng)從因特網(wǎng)搜集信息,經(jīng)過一定整理以后,提供給用戶進(jìn)行查詢的系統(tǒng)。信息浩瀚萬千,而且毫無秩序,所有的信息像汪洋上的一個(gè)個(gè)小島,網(wǎng)頁鏈接是這些小島之間縱橫交錯(cuò)的橋梁,而搜索引擎,則為用戶繪制一幅一目了然的信息地圖,供用戶隨時(shí)查閱。
[0004]但是,如圖1所示,用戶在搜索常用電話號(hào)碼(如2223256)時(shí),搜索引擎仍按通用算法給出結(jié)果。由于標(biāo)題和鏈接的權(quán)重較高,排在前面的結(jié)果往往在標(biāo)題或鏈接中出現(xiàn)查詢?cè)~,而這些結(jié)果有時(shí)并非用戶所需,準(zhǔn)確率低。用戶在未搜索到所需的信息時(shí),通常在搜索結(jié)果中翻頁查找、重新輸入搜索關(guān)鍵詞等方式進(jìn)行搜索,操作麻煩,搜索引擎和本地系統(tǒng)的資源消耗大,帶寬消耗大,搜索效率低。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種文檔索引的建立方法和相應(yīng)的一種文檔索引的建立裝置。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種文檔索引的建立方法,包括:
[0007]提取網(wǎng)頁中的文本信息;
[0008]判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;
[0009]采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
[0010]可選地,所述網(wǎng)頁包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域;
[0011]所述提取網(wǎng)頁中的文本信息的步驟包括:
[0012]提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
[0013]可選地,所述通訊特征信息包括指定位數(shù)的電話號(hào)碼;
[0014]所述判斷所述文本信息中是否具有通訊特征信息的步驟包括:
[0015]對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞;
[0016]當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;
[0017]若是,則判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
[0018]可選地,所述通訊特征信息還包括電話區(qū)號(hào);
[0019]所述判斷所述文本信息中是否具有通訊特征信息的步驟還包括:
[0020]判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào);所述第二目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞。
[0021]可選地,所述判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為區(qū)號(hào)信息的步驟包括:
[0022]判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào);
[0023]或者,
[0024]判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
[0025]可選地,所述指定位數(shù)為7位或8位。
[0026]可選地,所述采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引的步驟包括:
[0027]記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
[0028]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0029]根據(jù)本發(fā)明的另一方面,提供了一種文檔索引的建立裝置,包括:
[0030]第一提取模塊,適于提取網(wǎng)頁中的文本信息;
[0031]判斷模塊,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調(diào)用第二提取豐吳塊;
[0032]第二提取模塊,適于提取所述通訊特征信息;
[0033]建立模塊,適于采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
[0034]可選地,所述網(wǎng)頁包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域;
[0035]所述第一提取模塊還適于:
[0036]提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
[0037]可選地,所述通訊特征信息包括指定位數(shù)的電話號(hào)碼;所述判斷模塊還適于:
[0038]對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞;
[0039]當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;
[0040]若是,則判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
[0041]可選地,所述通訊特征信息還包括電話區(qū)號(hào);所述判斷模塊還適于:
[0042]判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào);所述第二目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞。
[0043]可選地,所述判斷模塊還適于:
[0044]判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào);
[0045]或者,
[0046]判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
[0047]13、如權(quán)利要求10或11或12所述的裝置,其特征在于,所述指定位數(shù)為7位或8位。
[0048]可選地,所述建立模塊還適于:
[0049]記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
[0050]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0051 ] 本發(fā)明實(shí)施例在網(wǎng)頁中的文本信息中具有通訊特征信息時(shí),采用通訊特征信息和網(wǎng)頁建立文檔索引,通過標(biāo)記通訊特征信息,以支持后續(xù)其他用戶在搜索電話號(hào)碼時(shí),將具有與該電話號(hào)碼匹配的通訊特征信息的網(wǎng)頁優(yōu)先展示,提高了搜索的準(zhǔn)確率,進(jìn)而減少在搜索結(jié)果中翻頁查找、重新輸入搜索關(guān)鍵詞等方式進(jìn)行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
[0052]本發(fā)明實(shí)施例中將通訊特征信息及出現(xiàn)的位置記錄在文檔索引中,可以在搜索結(jié)果項(xiàng)中的網(wǎng)頁摘要信息獲取到電話號(hào)碼及其歸屬的信息,減少用戶點(diǎn)擊搜索結(jié)果的頻次,減少網(wǎng)頁服務(wù)器、當(dāng)前電子設(shè)備的資源以及帶寬的消耗。
[0053]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0054]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0055]圖1示出了一種搜索結(jié)果示例圖;
[0056]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種文檔索引的建立方法實(shí)施例的步驟流程圖;
[0057]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索結(jié)果示例圖;
[0058]圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索的方法實(shí)施例1的步驟流程圖;
[0059]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索的方法實(shí)施例2方法實(shí)施例的步驟流程圖;
[0060]圖6不出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索結(jié)果不例圖;
[0061]圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種文檔索引的建立裝置實(shí)施例的結(jié)構(gòu)框圖;以及
[0062]圖8示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索的裝置實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0063]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0064]參照?qǐng)D2,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種文檔索引的建立方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0065]步驟201,提取網(wǎng)頁中的文本信息;
[0066]搜索引擎的處理流程一般可以分為二個(gè)部分,第一部分是前端用戶請(qǐng)求,第二部分是后端制作數(shù)據(jù)。
[0067]一、前端用戶請(qǐng)求處理過程可以包括:
[0068]1.用戶輸入關(guān)鍵字;
[0069]2.查詢?cè)~分析,搜索引擎對(duì)關(guān)鍵字分詞;
[0070]3.檢索,根據(jù)分詞結(jié)果,從事先制作的文檔索引中,找出相關(guān)的網(wǎng)頁集合;
[0071]4.排序,對(duì)候選的網(wǎng)頁集合,根據(jù)內(nèi)容相關(guān)性、時(shí)效性等維度進(jìn)行排序;
[0072]5.展現(xiàn):將排序后的網(wǎng)頁進(jìn)行展現(xiàn)。
[0073]二、后端制作數(shù)據(jù)過程可以包括:
[0074]1.網(wǎng)頁抓取,爬蟲通過網(wǎng)頁間的鏈接關(guān)系,抓取互聯(lián)網(wǎng)的網(wǎng)頁并保存;
[0075]2.索引制作,對(duì)已抓取保存的網(wǎng)頁進(jìn)行分析,對(duì)網(wǎng)頁標(biāo)題和頁面文本分詞,根據(jù)分詞結(jié)果制作文檔索引,供前端檢索使用。
[0076]爬蟲抓取的網(wǎng)頁可以保存在網(wǎng)頁數(shù)據(jù)庫中形成大量的搜索資源,而網(wǎng)頁內(nèi)容中可以包括大量的文本信息。則在本發(fā)明實(shí)施例中,可以從網(wǎng)頁數(shù)據(jù)庫中提取網(wǎng)頁中的文本信息。
[0077]在本發(fā)明實(shí)施例的一種可選示例中,所述網(wǎng)頁包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域;則在本發(fā)明實(shí)施例中,步驟201可以包括如下子步驟:
[0078]子步驟S11,提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
[0079]不同性質(zhì)和類別的網(wǎng)站,網(wǎng)頁的內(nèi)容安排一般是不同的。但是一般的網(wǎng)頁的基本內(nèi)容包括標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)廣告欄等。這些元素在網(wǎng)頁的位置安排,就是網(wǎng)頁的整體布局。
[0080]每個(gè)網(wǎng)頁的最頂端都有一條信息,這條信息往往出現(xiàn)在瀏覽器的標(biāo)題欄,而非網(wǎng)頁中,但是這條信息也是網(wǎng)頁布局中的一部分。這條信息是對(duì)這個(gè)網(wǎng)頁中主要內(nèi)容的提示,即標(biāo)題。
[0081]LOGO是網(wǎng)站所有者對(duì)外宣傳自身形象的工具。
[0082]網(wǎng)頁的上端即是這個(gè)頁面的頁眉。頁眉并不是在所有的網(wǎng)頁中都有,其往往在一個(gè)頁面中相當(dāng)重要的位置,容易引起瀏覽者的注意,所以很多網(wǎng)站都會(huì)在頁眉中設(shè)置宣傳本網(wǎng)站的內(nèi)容,如網(wǎng)站宗旨、網(wǎng)站LOGO等。
[0083]主體內(nèi)容是網(wǎng)頁中的最重要的元素。主體內(nèi)容并不完整,往往由下一級(jí)內(nèi)容的標(biāo)題、內(nèi)容提要、內(nèi)容摘編的超鏈接構(gòu)成。主體內(nèi)容借助超鏈接,可以利用一個(gè)頁面,高度概括幾個(gè)頁面所表達(dá)的內(nèi)容,而首頁的主體內(nèi)容甚至能在一個(gè)頁面中高度概括整個(gè)網(wǎng)站的內(nèi)容。
[0084]網(wǎng)頁的最底端部分被稱為頁腳,頁腳部分通常被用來介紹網(wǎng)站所有者的具體信息和聯(lián)絡(luò)方式,如名稱、地址、聯(lián)系方式、版權(quán)信息等。其中一些內(nèi)容被做成標(biāo)題式的超鏈接,引導(dǎo)瀏覽者進(jìn)一步了解詳細(xì)的內(nèi)容。
[0085]功能區(qū)是網(wǎng)站主要功能的集中表現(xiàn)。一般位于網(wǎng)頁的右上方或右側(cè)邊欄。功能區(qū)包括:電子郵件、信息發(fā)布、用戶名注冊(cè)、登陸網(wǎng)站等內(nèi)容。有些網(wǎng)站使用了 IP定位功能,定位瀏覽者所在地,然后可在功能區(qū)顯示當(dāng)?shù)氐奶鞖?、新聞等個(gè)性化信息。
[0086]導(dǎo)航區(qū)可以通過一定的技術(shù)手段,為網(wǎng)站的訪問者提供一定的途徑,時(shí)期可以方便地訪問所需的內(nèi)容,導(dǎo)航區(qū)一般分為4種位置,分別是左側(cè)、右側(cè)、頂部和底部。一般網(wǎng)站使用的導(dǎo)航區(qū)都是單一的,也可以多導(dǎo)航,如采用了左側(cè)導(dǎo)航與底部導(dǎo)航相結(jié)合的方式。但是無論采用幾個(gè)導(dǎo)航區(qū),網(wǎng)站中的每個(gè)頁面的導(dǎo)航區(qū)位置均是固定的。
[0087]廣告區(qū)是網(wǎng)站實(shí)現(xiàn)贏利或自我展示的區(qū)域。一般位于網(wǎng)頁的頁眉、右側(cè)和底部。廣告區(qū)內(nèi)容以文字、圖像、Flash動(dòng)畫為主。通過吸引瀏覽者點(diǎn)擊鏈接的方式達(dá)成廣告效果。廣告區(qū)設(shè)置要達(dá)到明顯、合理、引人注目,這對(duì)整個(gè)網(wǎng)站的布局很重要。
[0088]需要說明的是,頁腳在一般的文檔索引中不會(huì)被收錄,但是,由于頁腳部分通常被用來介紹網(wǎng)站所有者的具體信息和聯(lián)絡(luò)方式,在用戶搜索電話號(hào)碼的情景中的地位較為重要,因此,本發(fā)明實(shí)施例中可以收錄頁腳部分。
[0089]步驟202,判斷所述文本信息中是否具有通訊特征信息;若是,則執(zhí)行步驟203 ;
[0090]通訊特征信息,可以為表征用于通信的信息。
[0091]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息可以包括指定位數(shù)的電話號(hào)碼;
[0092]電話號(hào)碼是一連串?dāng)?shù)字的組合,一組號(hào)碼對(duì)應(yīng)一個(gè)電話線,如要撥打至另一方,可以撥對(duì)方的對(duì)應(yīng)號(hào)碼組合。在電話號(hào)碼剛開始使用時(shí),號(hào)碼較短,大約只有兩三個(gè)數(shù)字,也只能撥打給附近的電話用戶,逐漸地,電話系統(tǒng)越趨發(fā)達(dá),涵蓋范圍達(dá)全球,電話號(hào)碼也相對(duì)增長。電話號(hào)碼除了連接電話,也可連接電腦及傳真機(jī)。電話管理部門為電話機(jī)設(shè)定的號(hào)碼。一般7或8位數(shù)組成的(手機(jī)號(hào)碼為11位),早期有過5或6位的情況。
[0093]則在本發(fā)明實(shí)施例中,步驟202可以包括如下子步驟:
[0094]子步驟S21,對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞;
[0095]下面介紹一些常用的分詞方法:
[0096]1、基于字符串匹配的分詞方法:是指按照一定的策略將待分析的漢字串與一個(gè)預(yù)置的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞
[0097]2、基于特征掃描或標(biāo)志切分的分詞方法:是指優(yōu)先在待分析字符串中識(shí)別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率;或者將分詞和詞類標(biāo)注結(jié)合起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而提高切分的準(zhǔn)確率。
[0098]3、基于理解的分詞方法:是指通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分:分詞子系統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過程。這種分詞方法需要使用大量的語言知識(shí)和信息。
[0099]4、基于統(tǒng)計(jì)的分詞方法:是指,中文信息中由于字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度,所以可以對(duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息,以及計(jì)算兩個(gè)漢字Χ、γ的相鄰共現(xiàn)概率。互現(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典。
[0100]子步驟S22,當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;若是,則執(zhí)行子步驟S23 ;
[0101]通訊標(biāo)識(shí),可以為標(biāo)識(shí)電話號(hào)碼的信息,例如,“請(qǐng)聯(lián)系”、“電話”、“手機(jī)”、“Tel”、“Mobile” 等等。
[0102]其中,所述第一目標(biāo)文本分詞可以為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞,例如,若文本分詞“電話”與通訊標(biāo)識(shí)匹配,則文本分詞“電話”后的文本分詞可以為第一目標(biāo)文本分詞。
[0103]子步驟S23,判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
[0104]在本發(fā)明實(shí)施例中,在第一目標(biāo)文本分詞為指定位數(shù)的數(shù)字時(shí),可以判斷該指定位數(shù)的數(shù)字為指定位數(shù)的電話號(hào)碼。
[0105]例如,若文本分詞“電話”后的第一目標(biāo)文本分詞為“ 2223256 ”,由于“ 2223256 ”為7位的數(shù)字序列,則可以判斷“2223256”為7位的電話號(hào)碼。
[0106]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息還可以包括電話區(qū)號(hào);電話區(qū)號(hào)是指各行政區(qū)域常用電話區(qū)劃號(hào)碼,這些號(hào)碼主要用于國內(nèi)、國際長途電話接入。比如,中國大陸國際區(qū)號(hào)86,成都區(qū)號(hào)28。而在使用國內(nèi)長途電話時(shí),區(qū)號(hào)前要加撥O。
[0107]則在本發(fā)明實(shí)施例中,步驟202可以包括如下子步驟:
[0108]子步驟S24,判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則執(zhí)行子步驟S25 ;
[0109]區(qū)號(hào)標(biāo)識(shí),可以為標(biāo)識(shí)電話區(qū)號(hào)的信息,例如,“(010)2223256”中的“O”為區(qū)號(hào)標(biāo)識(shí)、“ 010-2223256 ”中的“”為區(qū)號(hào)標(biāo)識(shí)等等。
[0110]其中,所述第二目標(biāo)文本分詞可以為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞,例如,若文本分詞“電話”與通訊標(biāo)識(shí)匹配,則文本分詞“電話”后的文本分詞可以為第二目標(biāo)文本分詞。
[0111]子步驟S25,判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào);
[0112]在本發(fā)明實(shí)施例中,在目標(biāo)文本分詞與通訊標(biāo)識(shí)匹配時(shí),可以判斷該目標(biāo)文本分詞對(duì)應(yīng)的為文本分詞的電話號(hào)碼。
[0113]在本發(fā)明實(shí)施例的一種可選示例中,子步驟S25可以包括如下子步驟:
[0114]子步驟S251,判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào);
[0115]例如,“(010) 2223256”中的“ O ”為區(qū)號(hào)標(biāo)識(shí),則文本分詞“010”可以為電話區(qū)號(hào)。
[0116]或者,
[0117]子步驟S252,判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
[0118]例如,“ 010-2223256 ”中的“”為區(qū)號(hào)標(biāo)識(shí),,則文本分詞“ 010 ”可以為電話區(qū)號(hào)。
[0119]步驟204,提取所述通訊特征信息;
[0120]在本發(fā)明實(shí)施例中,若判斷網(wǎng)頁中的文本信息中具有通訊特征信息,則可以提取該通訊特征信息,例如指定位數(shù)的電話號(hào)碼、電話區(qū)號(hào)等等,以建立文檔索引。
[0121]步驟205,采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
[0122]在具體實(shí)現(xiàn)中,文檔索引可以包括倒排索引、正排索引等等,而文檔索引可以由索引表和主文件兩部分構(gòu)成。
[0123]索引表可以是一張指示邏輯記錄和物理記錄之間對(duì)應(yīng)關(guān)系的表。索引表中的每項(xiàng)稱作索引項(xiàng)。索引項(xiàng)是按鍵(或邏輯記錄號(hào))順序排列。
[0124]在本發(fā)明的一種可選實(shí)施例中,步驟205可以包括如下子步驟:
[0125]子步驟S31,記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
[0126]子步驟S32,將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0127]本發(fā)明實(shí)施例中,可以將出現(xiàn)的位置記錄寫入倒排索引中,以在搜索結(jié)果項(xiàng)中作為網(wǎng)頁摘要信息進(jìn)行展示。
[0128]在很多情景中,用戶搜索電話號(hào)碼,需要獲取的信息大多是確定這個(gè)是電話號(hào)碼以及這個(gè)電話號(hào)碼的歸屬,如公司、店鋪等等。若用戶在搜索結(jié)果項(xiàng)中的摘要信息獲取到電話號(hào)碼及其歸屬的信息,往往無需點(diǎn)擊該搜索結(jié)果項(xiàng)進(jìn)行詳細(xì)的查詢。
[0129]本發(fā)明實(shí)施例中將通訊特征信息及出現(xiàn)的位置記錄在文檔索引中,可以在搜索結(jié)果項(xiàng)中的網(wǎng)頁摘要信息獲取到電話號(hào)碼及其歸屬的信息,減少用戶點(diǎn)擊搜索結(jié)果的頻次,減少網(wǎng)頁服務(wù)器、當(dāng)前電子設(shè)備的資源以及帶寬的消耗。
[0130]倒排索引源于實(shí)際應(yīng)用中需要根據(jù)屬性的值來查找記錄。這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引(inverted index)。帶有倒排索引的文件稱為倒排索引文件,簡稱倒排文件(inverted file)。
[0131]倒排文件(倒排索引),索引對(duì)象是文檔或者文檔集合(例如網(wǎng)頁)中的單詞等,用來存儲(chǔ)這些單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置,是對(duì)文檔或者文檔集合的一種常用的索引機(jī)制。
[0132]在具體實(shí)現(xiàn)中,通訊特征信息的出現(xiàn)位置可以包括出現(xiàn)的網(wǎng)頁、出現(xiàn)的網(wǎng)頁及其在該網(wǎng)頁中的位置。
[0133]以英文為例,以下為要被索引的網(wǎng)頁中的文本信息:
[0134]Tl = "it is what it is";
[0135]T2 = "what is it";
[0136]? = 〃it is a banana";
[0137]以下為倒排索引:
[0138]"a": {(2,2)}
[0139]"banana": {(2, 3)}
[0140]〃is": {(0,I), (0, 4), (I, I), (2,I)}
[0141]〃it": {(0,0),(0, 3), (1,2), (2,0)}
[0142]"what": {(0,2),(1,0)}
[0143]其中,〃banana〃: {(2,3)}為〃banana〃在第三個(gè)網(wǎng)頁(T3)的文本信息里,而且在第三個(gè)網(wǎng)頁的位置是第四個(gè)單詞(地址為3)。
[0144]一般的頁面分析不對(duì)特別的點(diǎn)(如電話號(hào)碼、電話區(qū)號(hào))做標(biāo)識(shí),有可能主要針對(duì)標(biāo)題或站長給出的關(guān)鍵字等重點(diǎn)部分做文檔索引,在文檔索引中可能會(huì)被忽略很多東西,用戶有查詢電話號(hào)碼的需求時(shí),返回不了用戶所需的結(jié)果。
[0145]此外,銀行、網(wǎng)上商城等各大商業(yè)機(jī)構(gòu),一般會(huì)設(shè)置5位的電話號(hào)碼、400開頭的電話號(hào)碼,而這些電話號(hào)碼,通常會(huì)被該商業(yè)機(jī)構(gòu)通過競價(jià)的方式優(yōu)先提升到搜索結(jié)果的首頁進(jìn)行展示。
[0146]而7位或8位的電話號(hào)碼為一般為小公司、小店鋪等小型機(jī)構(gòu)的電話號(hào)碼,通常無力支付競價(jià)所需的費(fèi)用,一般設(shè)置低于標(biāo)題、網(wǎng)址等的重要性,在搜索結(jié)果中通常被埋藏在很深的位置,甚至無法搜索到。
[0147]本發(fā)明實(shí)施例在網(wǎng)頁中的文本信息中具有通訊特征信息時(shí),采用通訊特征信息和網(wǎng)頁建立文檔索引,通過標(biāo)記通訊特征信息,形象地可稱為建立大范圍內(nèi)(如全國)的電話簿,以支持后續(xù)其他用戶在搜索電話號(hào)碼時(shí),將具有與該電話號(hào)碼匹配的通訊特征信息的網(wǎng)頁優(yōu)先展示,提高了搜索的準(zhǔn)確率,進(jìn)而減少在搜索結(jié)果中翻頁查找、重新輸入搜索關(guān)鍵詞等方式進(jìn)行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
[0148]參照?qǐng)D3,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索方法實(shí)施例1的步驟流程圖,具體可以包括如下步驟:
[0149]步驟301,接收用戶的搜索關(guān)鍵詞;
[0150]在具體實(shí)現(xiàn)中,用戶可以從任何一種電子設(shè)備訪問搜索引擎,例如手機(jī)、PDA (Personal Digital Assistant,個(gè)人數(shù)字助理)、膝上型計(jì)算機(jī)、掌上電腦等等,本發(fā)明實(shí)施例對(duì)此不加以限制。
[0151]這些電子設(shè)備可以支持包括Android (安卓)、1S、WindowsPhone或者windows等的操作系統(tǒng),通??梢赃\(yùn)行通過互聯(lián)網(wǎng)訪問網(wǎng)頁的瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序。
[0152]在本發(fā)明實(shí)施例的一種可選示例中,用戶可以在瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序中打開搜索引擎所在的網(wǎng)頁,在該網(wǎng)頁中通常會(huì)包括搜索框,用戶可以在該搜索框中輸入搜索關(guān)鍵詞。
[0153]在本發(fā)明實(shí)施例的另一種可選示例中,瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序中可以安裝有搜索插件(plug-1ns,可以通過與搜索引擎進(jìn)行交互,在瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序中增加搜索功能),該搜索插件可以提供搜索框,用戶可以在該搜索框中輸入搜索關(guān)鍵詞。
[0154]瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序在用戶輸入的搜索關(guān)鍵詞時(shí),可以將其組裝成搜索請(qǐng)求,向搜索引擎發(fā)送搜索請(qǐng)求,以請(qǐng)求搜索引擎搜索與該搜索關(guān)鍵詞相關(guān)的信息。
[0155]在實(shí)際應(yīng)用中,該搜索請(qǐng)求可以為HTTP (Hypertext transfer protocol,超文本傳輸協(xié)議)請(qǐng)求。其中,搜索請(qǐng)求的內(nèi)容可以包括用戶請(qǐng)求加載的網(wǎng)頁的標(biāo)識(shí)和/或網(wǎng)頁的特征。網(wǎng)頁標(biāo)識(shí)可以是能夠代表一個(gè)唯一確定的網(wǎng)頁的信息,例如統(tǒng)一資源標(biāo)識(shí)符(Uniform Resource Identifier, URI),統(tǒng)一資源標(biāo)識(shí)符又具體可以包括統(tǒng)一資源定位符(Uniform Resource Locator,URL),或者統(tǒng)一資源名稱(Uniform Resource Name, URN)等等。
[0156]瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序可以通過DNS (Domain Name System,域名解析系統(tǒng))解析查找該網(wǎng)頁URL中的域名(Domain Name)所映射的IP(Internet Protocol,網(wǎng)絡(luò)之間互連的協(xié)議)地址。在獲取IP地址成功之后,瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序可以向該IP地址所在的搜索引擎請(qǐng)求連接。在成功連接該IP地址所在的搜索引擎之后,瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序可以將請(qǐng)求頭信息通過HTTP協(xié)議向此IP地址所在的搜索引擎發(fā)起搜索請(qǐng)求。
[0157]搜索引擎接收到搜索請(qǐng)求,則可以從該搜索請(qǐng)求中提取搜索關(guān)鍵詞,則可以根據(jù)該搜索關(guān)鍵詞在文檔索引中快速檢出搜索結(jié)果,在該搜索結(jié)果中可以包括一個(gè)或多個(gè)搜索結(jié)果項(xiàng)。
[0158]步驟302,識(shí)別所述搜索關(guān)鍵詞中的一個(gè)或多個(gè)搜索信息;
[0159]在本發(fā)明實(shí)施例中,可以通過分詞處理等手段識(shí)別所述搜索關(guān)鍵詞中的一個(gè)或多個(gè)搜索信息。
[0160]例如,若搜索關(guān)鍵詞為“ 2223256 ”,則該搜索關(guān)鍵詞包括一個(gè)搜索信息“ 2223256 ” ;若搜索關(guān)鍵詞為“電話2223256”,則該搜索關(guān)鍵詞包括搜索信息“電話”、“2223256”。
[0161]步驟303,當(dāng)所述搜索信息包括指定位數(shù)的數(shù)字序列時(shí),提高搜索結(jié)果中具有與所述指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重。
[0162]在實(shí)際應(yīng)用中,用戶搜索指定位數(shù)(如7位或8位)的數(shù)字序列,則其查詢目的可能為查詢電話號(hào)碼。
[0163]在搜索結(jié)果項(xiàng)中的通訊特征信息(如電話號(hào)碼)與該指定位數(shù)(如7位或8位)的數(shù)字序列匹配時(shí),可以提高該搜索結(jié)果項(xiàng)的權(quán)重,以提高該搜索結(jié)果項(xiàng)在搜索結(jié)果中的展示順序。
[0164]例如,如圖4所示,若用戶搜索“2223256”,可以將包含電話“2223256”的搜索結(jié)果項(xiàng)的展示位置提升至搜索結(jié)果的前幾項(xiàng),方便用戶快捷查詢。
[0165]本發(fā)明實(shí)施例對(duì)于接收到的搜索關(guān)鍵詞,識(shí)別其中的一個(gè)或多個(gè)搜索信息,在搜索信息包括指定位數(shù)的數(shù)字序列時(shí),提高搜索結(jié)果中具有與指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重,將具有與電話號(hào)碼匹配的通訊特征信息的網(wǎng)頁優(yōu)先展示,提高了搜索的準(zhǔn)確率,進(jìn)而減少在搜索結(jié)果中翻頁查找、重新輸入搜索關(guān)鍵詞等方式進(jìn)行搜索,提高了操作的簡便性,減少了搜索引擎和本地系統(tǒng)的資源的消耗,減少帶寬消耗,提高了搜索效率。
[0166]參照?qǐng)D5,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索方法實(shí)施例2的步驟流程圖,具體可以包括如下步驟:
[0167]步驟501,建立文檔索引;
[0168]在本發(fā)明的一種可選實(shí)施例中,步驟501可以包括如下子步驟:
[0169]子步驟S41,提取網(wǎng)頁中的文本信息;
[0170]在本發(fā)明實(shí)施例的一種可選示例中,所述網(wǎng)頁可以包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域,則在本示例中,子步驟S41可以包括如下子步驟:
[0171]子步驟S411,提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
[0172]子步驟S42,判斷所述文本信息中是否具有通訊特征信息;若是,則執(zhí)行子步驟S43 ;
[0173]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息可以包括指定位數(shù)的電話號(hào)碼,所述指定位數(shù)可以為7位或8位。則在本發(fā)明實(shí)施例中,子步驟S42可以包括如下子步驟:
[0174]子步驟S421,對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞;
[0175]子步驟S422,當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;若是,則執(zhí)行子步驟S423 ;
[0176]所述第一目標(biāo)文本分詞可以為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;
[0177]子步驟S423,判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
[0178]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息還可以包括電話區(qū)號(hào);則在本發(fā)明實(shí)施例中,子步驟S42還可以包括如下子步驟:
[0179]子步驟S424,判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則執(zhí)行子步驟S425 ;
[0180]所述第二目標(biāo)文本分詞可以為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;
[0181]子步驟S425,判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào)。
[0182]在本發(fā)明實(shí)施例的一種可選示例中,子步驟S425可以包括如下子步驟:
[0183]子步驟S4251,判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào);
[0184]或者,
[0185]子步驟S4252,判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
[0186]子步驟S43,提取所述通訊特征信息;
[0187]子步驟S44,采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
[0188]在本發(fā)明的一種可選實(shí)施例中,子步驟S44可以包括如下子步驟:
[0189]子步驟S441,記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
[0190]子步驟S442,將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0191]在本發(fā)明實(shí)施例中,由于步驟501與方法實(shí)施例1的應(yīng)用基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例1的部分說明即可,本發(fā)明實(shí)施例在此不加以詳述。
[0192]步驟502,接收用戶的搜索關(guān)鍵詞;
[0193]步驟503,識(shí)別所述搜索關(guān)鍵詞中的一個(gè)或多個(gè)搜索信息;
[0194]步驟504,當(dāng)所述搜索信息包括指定位數(shù)的數(shù)字序列時(shí),提高搜索結(jié)果中具有與所述指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重。
[0195]步驟505,當(dāng)所述搜索信息包括通訊標(biāo)識(shí)時(shí),提高具有與所述通訊標(biāo)識(shí)匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重;
[0196]在具體實(shí)現(xiàn)中,用戶搜索與通訊特征詞匹配的通訊標(biāo)識(shí),則其查詢目的可能為查詢電話號(hào)碼,則可以提高包含該通訊特征詞的搜索結(jié)果項(xiàng)的權(quán)重,以進(jìn)一步提高該搜索結(jié)果項(xiàng)在搜索結(jié)果中的展示順序。
[0197]本發(fā)明實(shí)施例當(dāng)搜索信息包括通訊標(biāo)識(shí)時(shí),提高具有與通訊標(biāo)識(shí)匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重,進(jìn)一步提高了搜索的準(zhǔn)確率。
[0198]步驟506,獲取當(dāng)前所在位置的電話區(qū)號(hào);
[0199]在本發(fā)明實(shí)施例中,可以獲取用戶當(dāng)前所在的位置,再查詢?cè)撐恢脤?duì)應(yīng)的電話區(qū)號(hào)。
[0200]若用戶通過手機(jī)等移動(dòng)設(shè)備提交搜索關(guān)鍵詞時(shí),可以定位當(dāng)前的經(jīng)瑋度,通過逆地理編碼等方式識(shí)別該經(jīng)瑋度所在的位置。
[0201]若用戶通過電腦等固定設(shè)備提交搜索關(guān)鍵詞時(shí),可以查詢當(dāng)前的IP地址(Internet Protocol Address,又譯為網(wǎng)際協(xié)議地址),再識(shí)別該IP地址所在的位置。
[0202]步驟507,當(dāng)所述電話區(qū)號(hào)與所述通訊特征信息匹配時(shí),提高具有所述通訊特征信息的搜索結(jié)果的權(quán)重。
[0203]在具體實(shí)現(xiàn)中,用戶當(dāng)前所在位置的區(qū)號(hào)與通訊特征詞(如電話區(qū)號(hào))匹配,則可以提高包含該通訊特征詞(如電話區(qū)號(hào))的搜索結(jié)果項(xiàng)的權(quán)重,以進(jìn)一步提高該搜索結(jié)果項(xiàng)在搜索結(jié)果中的展示順序。
[0204]本發(fā)明實(shí)施例在當(dāng)前位置的電話區(qū)號(hào)與通訊特征信息匹配時(shí),提高具有該通訊特征信息的搜索結(jié)果的權(quán)重,進(jìn)一步提高了搜索的準(zhǔn)確率。
[0205]在實(shí)際應(yīng)用中,所述搜索結(jié)果項(xiàng)可以包括網(wǎng)頁摘要信息,所述網(wǎng)頁摘要信息可以包括所述通訊特征信息(如電話號(hào)碼、電話區(qū)號(hào))在網(wǎng)頁中出現(xiàn)的位置對(duì)應(yīng)的網(wǎng)頁信息。
[0206]例如,如圖6所示,若用戶搜索“電話2223256”,可以將包含電話“電話”(通訊標(biāo)識(shí))、“2223256” (指定位數(shù)的數(shù)字序列)的搜索結(jié)果項(xiàng)的展示位置提升至搜索結(jié)果的前幾項(xiàng),方便用戶快捷查詢。
[0207]本發(fā)明實(shí)施例中將通訊特征信息及出現(xiàn)的位置制作網(wǎng)頁摘要信息,可以在搜索結(jié)果項(xiàng)中的摘要信息獲取到電話號(hào)碼及其歸屬的信息,減少用戶點(diǎn)擊搜索結(jié)果的頻次,減少網(wǎng)頁服務(wù)器、當(dāng)前電子設(shè)備的資源以及帶寬的消耗。
[0208]步驟508,按照所述權(quán)重對(duì)所述一個(gè)或多個(gè)搜索結(jié)果項(xiàng)進(jìn)行順序排序;
[0209]本發(fā)明實(shí)施例中,可以按照權(quán)重對(duì)一個(gè)或多個(gè)搜索結(jié)果項(xiàng)進(jìn)行順序排序,權(quán)重越高的搜索結(jié)果項(xiàng),排序越在前,權(quán)重越低的搜索結(jié)果項(xiàng),排序越在后。
[0210]步驟509,將順序排序后的搜索結(jié)果返回客戶端進(jìn)行展示。
[0211]在HTTP協(xié)議下,瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序可以從搜索引擎所在的服務(wù)器接收到HTML (Hypertext Markup Language,超文本標(biāo)記語言)類型的文檔。
[0212]瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序可以解析HTML文檔,生成樹狀結(jié)構(gòu)的對(duì)象,即DOM(Document Object Model,文件對(duì)象模型),每個(gè)對(duì)象是DOM上的一個(gè)結(jié)點(diǎn),而這些對(duì)象可以代表文字、圖片等網(wǎng)頁資源。瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序可以開始顯示此HTML文檔,并獲取其中內(nèi)嵌的網(wǎng)頁資源的地址,然后瀏覽器再向服務(wù)器發(fā)起請(qǐng)求來獲取這些網(wǎng)頁資源,并在瀏覽器或內(nèi)置微型瀏覽器的應(yīng)用程序的HTML文檔中顯示搜索結(jié)果。
[0213]對(duì)于方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
[0214]參照?qǐng)D7,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種文檔索引的建立裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
[0215]第一提取模塊701,適于提取網(wǎng)頁中的文本信息;
[0216]判斷模塊702,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調(diào)用第二提取模塊703 ;
[0217]第二提取模塊703,適于提取所述通訊特征信息;
[0218]建立模塊704,適于采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
[0219]在本發(fā)明實(shí)施例的一種可選示例中,所述網(wǎng)頁可以包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域;
[0220]所述第一提取模塊701還可以適于:
[0221]提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
[0222]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息可以包括指定位數(shù)的電話號(hào)碼;所述判斷模塊702還可以適于:
[0223]對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞;
[0224]當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;
[0225]若是,則判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
[0226]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息還可以包括電話區(qū)號(hào);所述判斷模塊702還可以適于:
[0227]判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào);所述第二目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞。
[0228]在本發(fā)明實(shí)施例的一種可選示例中,所述判斷模塊702還可以適于:
[0229]判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào);
[0230]或者,
[0231]判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
[0232]在本發(fā)明實(shí)施例的一種可選示例中,所述指定位數(shù)可以為7位或8位。
[0233]在本發(fā)明的一種可選實(shí)施例中,所述建立模塊704還可以適于:
[0234]記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
[0235]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0236]參照?qǐng)D8,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種搜索的裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
[0237]接收模塊801,適于接收用戶的搜索關(guān)鍵詞;
[0238]識(shí)別模塊802,適于識(shí)別所述搜索關(guān)鍵詞中的一個(gè)或多個(gè)搜索信息;
[0239]第一提高模塊803,適于在所述搜索信息包括指定位數(shù)的數(shù)字序列時(shí),提高搜索結(jié)果中具有與所述指定位數(shù)的數(shù)字序列匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重。
[0240]在本發(fā)明的一種可選實(shí)施例中,所述裝置還可以包括如下模塊:
[0241]第二提高模塊,適于在所述搜索信息包括通訊標(biāo)識(shí)時(shí),提高具有與所述通訊標(biāo)識(shí)匹配的通訊特征信息的搜索結(jié)果項(xiàng)的權(quán)重。
[0242]在本發(fā)明的一種可選實(shí)施例中,所述裝置還可以包括如下模塊:
[0243]獲取模塊,適于獲取當(dāng)前所在位置的電話區(qū)號(hào);
[0244]第三提高模塊,適于在所述電話區(qū)號(hào)與所述通訊特征信息匹配時(shí),提高具有所述通訊特征信息的搜索結(jié)果的權(quán)重。
[0245]在本發(fā)明的一種可選實(shí)施例中,所述裝置還可以包括如下模塊:
[0246]排序模塊,適于按照所述權(quán)重對(duì)所述一個(gè)或多個(gè)搜索結(jié)果項(xiàng)進(jìn)行順序排序;
[0247]返回模塊,適于將順序排序后的搜索結(jié)果返回客戶端進(jìn)行展示。
[0248]在本發(fā)明的一種可選實(shí)施例中,所述搜索結(jié)果項(xiàng)可以包括網(wǎng)頁摘要信息,所述網(wǎng)頁摘要信息可以包括所述通訊特征信息在網(wǎng)頁中出現(xiàn)的位置對(duì)應(yīng)的網(wǎng)頁信息。
[0249]在本發(fā)明的一種可選實(shí)施例中,所述裝置還可以包括如下模塊:
[0250]文檔索引建立模塊,適于建立文檔索引。
[0251]在本發(fā)明的一種可選實(shí)施例中,所述文檔索引建立模塊還可以適于:
[0252]提取網(wǎng)頁中的文本信息;
[0253]判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;
[0254]采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
[0255]在本發(fā)明實(shí)施例的一種可選示例中,所述網(wǎng)頁可以包括頁面標(biāo)題、網(wǎng)頁標(biāo)識(shí)、頁眉、頁腳、導(dǎo)航、主體內(nèi)容中的至少一個(gè)區(qū)域;
[0256]所述文檔索引建立模塊還可以適于:
[0257]提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
[0258]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息可以包括指定位數(shù)的電話號(hào)碼;所述文檔索引建立模塊還可以適于:
[0259]對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞;
[0260]當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;
[0261]若是,則判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
[0262]在本發(fā)明的一種可選實(shí)施例中,所述通訊特征信息還可以包括電話區(qū)號(hào);所述文檔索引建立模塊還可以適于:
[0263]判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào);所述第二目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞。
[0264]在本發(fā)明實(shí)施例的一種可選示例中,所述文檔索引建立模塊還可以適于:
[0265]判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào);
[0266]或者,
[0267]判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
[0268]在本發(fā)明實(shí)施例的一種可選示例中,所述指定位數(shù)可以為7位或8位。
[0269]在本發(fā)明的一種可選實(shí)施例中,所述文檔索引建立模塊還可以適于:
[0270]記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
[0271]將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
[0272]對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0273]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0274]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0275]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0276]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0277]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0278]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的文檔索引的建立設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0279]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權(quán)利要求】
1.一種文檔索引的建立方法,包括: 提取網(wǎng)頁中的文本信息; 判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息; 采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
2.如權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)頁包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域; 所述提取網(wǎng)頁中的文本信息的步驟包括: 提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
3.如權(quán)利要求1-2任一項(xiàng)所述的方法,其特征在于,所述通訊特征信息包括指定位數(shù)的電話號(hào)碼; 所述判斷所述文本信息中是否具有通訊特征信息的步驟包括: 對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞; 當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;若是,則判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
4.如權(quán)利要求1-3任一項(xiàng)所述的方法,其特征在于,所述通訊特征信息還包括電話區(qū)號(hào); 所述判斷所述文本信息中是否具有通訊特征信息的步驟還包括: 判斷第二目標(biāo)文本分詞中是否具有區(qū)號(hào)標(biāo)識(shí);若是,則判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為電話區(qū)號(hào);所述第二目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞。
5.如權(quán)利要去1-4任一項(xiàng)所述的方法,其特征在于,所述判斷所述目標(biāo)文本分詞對(duì)應(yīng)的文本分詞為區(qū)號(hào)信息的步驟包括: 判斷所述目標(biāo)文本分詞包含的文本分詞為電話區(qū)號(hào); 或者, 判斷在所述目標(biāo)文本分詞之前的文本分詞為電話區(qū)號(hào)。
6.如權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述指定位數(shù)為7位或8位。
7.如權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引的步驟包括: 記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置; 將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
8.一種文檔索引的建立裝置,包括: 第一提取模塊,適于提取網(wǎng)頁中的文本信息; 判斷模塊,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調(diào)用第二提取模塊; 第二提取模塊,適于提取所述通訊特征信息; 建立模塊,適于采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
9.如權(quán)利要求8所述的裝置,其特征在于,所述網(wǎng)頁包括頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域; 所述第一提取模塊還適于: 提取網(wǎng)頁中頁面標(biāo)題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個(gè)區(qū)域的文本信息。
10.如權(quán)利要求8-9任一項(xiàng)所述的裝置,其特征在于,所述通訊特征信息包括指定位數(shù)的電話號(hào)碼;所述判斷模塊還適于: 對(duì)所述文本信息進(jìn)行分詞處理,獲得一個(gè)或多個(gè)文本分詞; 當(dāng)所述文本分詞與預(yù)設(shè)的通訊標(biāo)識(shí)匹配時(shí),判斷第一目標(biāo)文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標(biāo)文本分詞為與所述通訊標(biāo)識(shí)匹配的文本分詞之后的文本分詞;若是,則判斷所述第一目標(biāo)文本分詞為指定位數(shù)的電話號(hào)碼。
【文檔編號(hào)】G06F17/30GK104504069SQ201410806931
【公開日】2015年4月8日 申請(qǐng)日期:2014年12月22日 優(yōu)先權(quán)日:2014年12月22日
【發(fā)明者】王翀, 陳進(jìn)平 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司