两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種頁面信息提取方法和裝置制造方法

文檔序號:6486707閱讀:135來源:國知局
一種頁面信息提取方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種頁面信息提取方法和裝置,所述方法包括:S?1、獲取全網(wǎng)的網(wǎng)頁頁面;S2、逐一將所獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到視覺分塊;S3、基于語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊;S4、利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的識別為地址信息塊;S5、從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息;S6、將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。相較于現(xiàn)有技術(shù),本發(fā)明能自動對全網(wǎng)中結(jié)構(gòu)變化多樣且數(shù)量巨大的對象進(jìn)行挖掘,節(jié)省人力成本,提高準(zhǔn)確率和召回率。
【專利說明】一種頁面信息提取方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息處理【技術(shù)領(lǐng)域】,特別涉及一種頁面信息提取方法和裝置?!尽颈尘凹夹g(shù)】】
[0002]隨著互聯(lián)網(wǎng)和信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘+@取信息的主要來源。由于web網(wǎng)頁每天都以幾何級數(shù)激增,為了使用戶能夠快速準(zhǔn)確的獲得自己感興趣的信息,通常會先對這些海量的頁面數(shù)據(jù)進(jìn)行信息提取。信息提取的任務(wù)是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,以便人們可以像查詢數(shù)據(jù)庫一樣獲取自己需要的信息。例如,可以利用信息提取的方法提取網(wǎng)頁中包含的實(shí)體機(jī)構(gòu)名稱、地址、聯(lián)系電話等聯(lián)系方式,獲取地理興趣點(diǎn)數(shù)據(jù),以利用后續(xù)用戶檢索或查詢時提供較好的搜索結(jié)果。
[0003]現(xiàn)有的信息提取方法通常是基于模板的結(jié)構(gòu)化信息提取方法,通過人工編寫模板的規(guī)則,對互聯(lián)網(wǎng)中的頁面信息進(jìn)行挖掘,得到結(jié)構(gòu)化信息。采用這種方式不僅需要消耗巨大的人工代價,而且還要求挖掘?qū)ο笤陧撁嬷杏邢嗤慕Y(jié)構(gòu)特點(diǎn),因而受到人力成本和頁面結(jié)構(gòu)一致性的限制,無法大規(guī)模應(yīng)用。對于挖掘?qū)ο髷?shù)量巨大且頁面結(jié)構(gòu)變化多樣的情況,如獲取全網(wǎng)中實(shí)體機(jī)構(gòu)的地理興趣點(diǎn)數(shù)據(jù),現(xiàn)有基于模板的結(jié)構(gòu)化信息抽取方式無法滿足抽取的準(zhǔn)確率和信息召回率要求。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本發(fā)明提供了一種頁面信息提取方法和裝置,能夠自動對全網(wǎng)中結(jié)構(gòu)變化多樣且數(shù)量巨大的對象進(jìn)行挖掘,節(jié)省人力成本,提高準(zhǔn)確率和信息召回率,能提取到更全面的結(jié)構(gòu)化信息,提升檢索的數(shù)據(jù)覆蓋率。
[0005]具體技術(shù)方案如下:
[0006]一種頁面信息提取方法,該方法包括以下步驟:
[0007]S1、獲取全網(wǎng)的網(wǎng)頁頁面;
[0008]S2、逐一將所獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊;
[0009]S3、基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊;
[0010]S4、利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊;
[0011]S5、從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息;
[0012]S6、將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
[0013]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S2具體包括:
[0014]逐一解析所獲取的網(wǎng)頁頁面,建立當(dāng)前網(wǎng)頁頁面的文檔對象模型樹;
[0015]計算所述文檔對象模型樹中每個節(jié)點(diǎn)的位置、大小和長寬信息,構(gòu)成視覺樹;
[0016]遍歷所述視覺樹,計算每個節(jié)點(diǎn)的子樹信息;
[0017]根據(jù)所述節(jié)點(diǎn)位置、層疊樣式表信息和子樹信息對所述視覺樹進(jìn)行分塊處理,得到視覺分塊;
[0018]將所述節(jié)點(diǎn)與視覺分塊對應(yīng),構(gòu)成視覺分塊樹。
[0019]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S3具體包括:
[0020]記錄所述視覺分塊的塊節(jié)點(diǎn)信息,計算所述塊節(jié)點(diǎn)的位置;
[0021]利用塊節(jié)點(diǎn)的語義特征進(jìn)行標(biāo)注,得到所述標(biāo)注分塊,包括標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。
[0022]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述地址信息樹的構(gòu)建方法,包括:
[0023]逐一獲取地址實(shí)例庫中的實(shí)例地址;
[0024]對當(dāng)前的實(shí)例地址進(jìn)行分詞處理,得到該實(shí)例地址的詞項(xiàng);
[0025]利用預(yù)設(shè)的地址標(biāo)識詞典,識別實(shí)例地址中詞項(xiàng)的后綴成分;
[0026]利用預(yù)設(shè)的地址信息詞典和上下文關(guān)系對所述詞項(xiàng)進(jìn)行成分分析,識別所述詞項(xiàng)的成分;
[0027]將識別到的成分添加到地址信息樹中對應(yīng)的節(jié)點(diǎn),形成地址信息樹。
[0028]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述從地址信息塊中提取興趣點(diǎn)名稱,具體為:
[0029]利用地址信息塊中的文本與預(yù)設(shè)的命名實(shí)體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點(diǎn)名稱;
[0030]或者,利用地址信息塊中的文本與預(yù)設(shè)的語義規(guī)則相比對,將滿足預(yù)設(shè)語義規(guī)則的文本識別為地址信息塊中的興趣點(diǎn)名稱。
[0031]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述從地址信息塊中提取對應(yīng)的地址信息,具體包括:
[0032]判斷地址信息塊中的文本是否有地址提示詞;
[0033]對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進(jìn)行分詞,識別出至少一個地址信息;
[0034]對于無提示詞的文本,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的文本識別為地址信息。
[0035]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟SI之后和步驟S6之前,還包括:
[0036]獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁或聯(lián)系頁;
[0037]從所述站點(diǎn)首頁或聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0038]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述獲取站點(diǎn)首頁的方法采用以下所列的一種或任意結(jié)合:
[0039]從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進(jìn)行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁;
[0040]通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進(jìn)行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進(jìn)行跳轉(zhuǎn)處理,得到相對應(yīng)的站點(diǎn)首頁;
[0041]或者,利用站點(diǎn)的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構(gòu)造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有的站點(diǎn)首頁。
[0042]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述獲取網(wǎng)頁頁面對應(yīng)的聯(lián)系頁的方法,具體包括:
[0043]利用站點(diǎn)的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標(biāo)題及網(wǎng)址樣式特征構(gòu)造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有站點(diǎn)的聯(lián)系信息頁。
[0044]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在步驟S6之前,還包括:
[0045]對同一站點(diǎn)內(nèi)多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn),確定站點(diǎn)的興趣點(diǎn)名稱。
[0046]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述校驗(yàn)方法包括:
[0047]根據(jù)預(yù)設(shè)的可信度規(guī)則和興趣點(diǎn)名稱的提取位置,對所提取的興趣點(diǎn)名稱確定名稱可信度;
[0048]或者,統(tǒng)計所提取的興趣點(diǎn)名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度;
[0049]將名稱可信度滿足預(yù)設(shè)要求的興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱。
[0050]一種頁面信息提取裝置,該裝置包括:
[0051]網(wǎng)頁獲取模塊,用于獲取全網(wǎng)的網(wǎng)頁頁面;
[0052]視覺分塊處理模塊,用于逐一將所述網(wǎng)頁獲取模塊獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊;
[0053]標(biāo)注模塊,用于基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊;
[0054]地址信息塊獲取模塊,用于利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊;
[0055]第一信息提取模塊,用于從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息;
[0056]關(guān)聯(lián)模塊,用于將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
[0057]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述視覺分塊處理模塊具體配置為:
[0058]逐一解析所獲取的網(wǎng)頁頁面,建立當(dāng)前網(wǎng)頁頁面的文檔對象模型樹;
[0059]計算所述文檔對象模型樹中每個節(jié)點(diǎn)的位置、大小和長寬信息,構(gòu)成視覺樹;
[0060]遍歷所述視覺樹,計算每個節(jié)點(diǎn)的子樹信息;
[0061]根據(jù)所述節(jié)點(diǎn)位置、層疊樣式表信息和子樹信息對所述視覺樹進(jìn)行分塊處理,得到視覺分塊;
[0062]將所述節(jié)點(diǎn)與視覺分塊對應(yīng),構(gòu)成視覺分塊樹。
[0063]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述標(biāo)注模塊具體配置為:
[0064]記錄所述視覺分塊的塊節(jié)點(diǎn)信息,計算所述塊節(jié)點(diǎn)的位置;
[0065]利用塊節(jié)點(diǎn)的語義特征進(jìn)行標(biāo)注,得到所述標(biāo)注分塊,包括標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。
[0066]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述地址信息樹通過地址信息樹構(gòu)建模塊預(yù)先建立,所述地址信息樹構(gòu)建模塊包括:
[0067]實(shí)例地址獲取子模塊,用于逐一獲取地址實(shí)例庫中的實(shí)例地址;
[0068]分詞子模塊,用于對所述實(shí)例地址獲取子模塊獲取的當(dāng)前的實(shí)例地址進(jìn)行分詞處理,得到該實(shí)例地址的詞項(xiàng);
[0069]后綴識別子模塊,用于利用預(yù)設(shè)的地址標(biāo)識詞典,識別實(shí)例地址中詞項(xiàng)的后綴成分;
[0070]成分識別子模塊,用于利用預(yù)設(shè)的地址信息詞典和上下文關(guān)系對所述詞項(xiàng)進(jìn)行成分分析,識別所述詞項(xiàng)的成分;
[0071]成分節(jié)點(diǎn)確定子模塊,用于將所述后綴識別子模塊和成分識別子模塊識別到的成分添加到地址信息樹中對應(yīng)的節(jié)點(diǎn),形成地址信息樹。
[0072]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述第一信息提取模塊從地址信息塊中提取興趣點(diǎn)名稱,具體配置為:
[0073]利用地址信息塊中的文本與預(yù)設(shè)的命名實(shí)體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點(diǎn)名稱;
[0074]或者,利用地址信息塊中的文本與預(yù)設(shè)的語義規(guī)則相比對,將滿足預(yù)設(shè)語義規(guī)則的文本識別為地址信息塊中的興趣點(diǎn)名稱。
[0075]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述第一信息提取模塊從地址信息塊中提取對應(yīng)的地址信息,具體配置為:
[0076]判斷地址信息塊中的文本是否有地址提示詞;
[0077]對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進(jìn)行分詞,識別出至少一個地址信息;
[0078]對于無提示詞的文本,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的文本識別為地址信息。
[0079]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0080]站點(diǎn)結(jié)構(gòu)分析模塊,用于獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁或聯(lián)系頁;
[0081]第二信息提取模塊,用于從所述站點(diǎn)首頁或聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0082]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述站點(diǎn)結(jié)構(gòu)分析模塊獲取站點(diǎn)首頁的具體配置包括以下所列的一種或任意結(jié)合:
[0083]從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進(jìn)行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁;
[0084]通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進(jìn)行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進(jìn)行跳轉(zhuǎn)處理,得到相對應(yīng)的站點(diǎn)首頁;
[0085]或者,利用站點(diǎn)的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構(gòu)造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有的站點(diǎn)首頁。
[0086]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述站點(diǎn)結(jié)構(gòu)分析模塊獲取網(wǎng)頁頁面對應(yīng)的聯(lián)系頁具體配置包括:
[0087]利用站點(diǎn)的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標(biāo)題及網(wǎng)址樣式特征構(gòu)造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有站點(diǎn)的聯(lián)系信息頁。
[0088]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括:
[0089]校驗(yàn)?zāi)K,用于對所述第一信息提取模塊或所述第二信息提取模塊獲取的同一站點(diǎn)內(nèi)多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn),確定站點(diǎn)的興趣點(diǎn)名稱。
[0090]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述校驗(yàn)?zāi)K的具體配置包括:
[0091]根據(jù)預(yù)設(shè)的可信度規(guī)則和興趣點(diǎn)名稱的提取位置,對所提取的興趣點(diǎn)名稱確定名稱可信度;[0092]或者,統(tǒng)計所提取的興趣點(diǎn)名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度;
[0093]將名稱可信度滿足預(yù)設(shè)要求的興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱。
[0094]由以上技術(shù)方案可以看出,本發(fā)明提供的頁面信息提取方法和裝置,利用互聯(lián)網(wǎng)中實(shí)體機(jī)構(gòu)的組織結(jié)構(gòu)特點(diǎn)及信息語義特征,基于視覺分塊技術(shù)獲取包含地址信息的網(wǎng)頁塊,從中提取實(shí)體機(jī)構(gòu)的聯(lián)系信息,并結(jié)合站點(diǎn)首頁和聯(lián)系頁中的信息,通過對多來源數(shù)據(jù)的校驗(yàn)、整合與關(guān)聯(lián),獲取結(jié)構(gòu)化的地理位置信息,提高了信息的準(zhǔn)確率,并能夠自動面向整個互聯(lián)網(wǎng)的實(shí)體機(jī)構(gòu)進(jìn)行信息召回,能提取到更全面的結(jié)構(gòu)化信息,提升檢索的數(shù)據(jù)覆蓋率,降低人力成本,提高了信息召回率。
【【專利附圖】

【附圖說明】】
[0095]圖1為本發(fā)明實(shí)施例一提供的頁面信息提取方法流程圖;
[0096]圖2為本發(fā)明實(shí)施例一提供的基于視覺特征分塊的方法流程圖;
[0097]圖3a為“北京市海淀醫(yī)院”站點(diǎn)網(wǎng)頁中的版權(quán)塊示意圖;
[0098]圖3b為一個包含地址信息的文本塊示意圖;
[0099]圖4為本發(fā)明實(shí)施例一提供的地址信息樹構(gòu)建方法流程圖;
[0100]圖5為本發(fā)明實(shí)施例二提供的頁面信息提取方法流程圖;
[0101]圖6為本發(fā)明實(shí)施例三提供的頁面信息提取裝置示意圖;
[0102]圖7為本發(fā)明實(shí)施例三提供的頁地址信息樹構(gòu)建模塊示意圖;
[0103]圖8為本發(fā)明實(shí)施例四提供的頁面信息提取裝置示意圖。
【【具體實(shí)施方式】】
[0104]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
[0105]電子地圖中興趣點(diǎn)(point of interest, POI)數(shù)據(jù),通常包括名稱、地址、聯(lián)系電話、類別、位置坐標(biāo)等信息。通常,一條POI數(shù)據(jù)代表電子地圖中的一個位置實(shí)體。興趣點(diǎn)可以是一定地域內(nèi)比較重要或使用頻率較高的面向整個社會的場所,如銀行、主要商場、主要商務(wù)大樓、飯店賓館、政府機(jī)關(guān)、娛樂場所、主要風(fēng)景名勝等,也可以是某一地域內(nèi)屬于某一行業(yè)的單位所在地址,如企業(yè)或單位所在的地址。
[0106]在互聯(lián)網(wǎng)上存在大量的實(shí)體機(jī)構(gòu)的網(wǎng)站站點(diǎn),通常包含平臺類二級域名實(shí)體站點(diǎn)(如阿里巴巴)和實(shí)體機(jī)構(gòu)官網(wǎng)兩個類別。在這些站點(diǎn)中通常包含該實(shí)體機(jī)構(gòu)的名稱及地址等相關(guān)信息,這些信息存在于互聯(lián)網(wǎng)中的站點(diǎn)結(jié)構(gòu)、頁面結(jié)構(gòu)及頁面中的文本信息塊中,例如,通常在站點(diǎn)聯(lián)系頁、版權(quán)塊或其他主體塊中存在該站點(diǎn)的地址信息。
[0107]本發(fā)明利用互聯(lián)網(wǎng)中實(shí)體機(jī)構(gòu)站點(diǎn)的結(jié)構(gòu)特點(diǎn)及站點(diǎn)頁面之間信息語義特征的聯(lián)系,提取該些實(shí)體機(jī)構(gòu)的地址信息作為地理興趣點(diǎn)。在地理興趣點(diǎn)的提取中,通過網(wǎng)頁內(nèi)容提取興趣點(diǎn)信息,用以構(gòu)建和完善電子地圖的數(shù)據(jù)信息,以便后續(xù)用作垂直搜索,提供較好的搜索結(jié)果。
[0108]實(shí)施例一
[0109]圖1是本實(shí)施例提供的頁面信息提取方法流程圖,如圖1所示,該方法包括:
[0110]步驟S101、獲取全網(wǎng)的網(wǎng)頁頁面。[0111]利用網(wǎng)絡(luò)爬蟲,抓取互聯(lián)網(wǎng)中各網(wǎng)頁頁面,至少包括網(wǎng)頁頁面的網(wǎng)址和源代碼。例如,url網(wǎng)址為“http://www.hdhospital.com/OverView, aspx”為北京市海淀醫(yī)院站點(diǎn)內(nèi)的一個頁面,利用網(wǎng)絡(luò)爬蟲抓取該網(wǎng)頁頁面,記錄對應(yīng)的urI網(wǎng)址,并獲取該網(wǎng)頁頁面對應(yīng)的網(wǎng)頁源代碼(如HTML代碼)。
[0112]步驟S102、逐一將所獲取網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊。
[0113]對步驟SlOl獲取的網(wǎng)頁頁面基于視覺特征進(jìn)行分塊,如圖2所示,具體包括:
[0114]步驟S102_l、逐一解析所獲取的網(wǎng)頁頁面,建立當(dāng)前網(wǎng)頁頁面的文檔對象模型樹。
[0115]對當(dāng)前網(wǎng)頁頁面的源代碼進(jìn)行解析,生成文檔對象模型樹(D0M樹)。
[0116]步驟S102_2、計算所述文檔對象模型樹中每個節(jié)點(diǎn)的位置、大小和長寬信息,構(gòu)成視覺樹。
[0117]利用頁面標(biāo)簽確定每個節(jié)點(diǎn),如“ <head></head> ”、“ <body></body> ”等,處于標(biāo)簽的起始位置和終點(diǎn)位置之間的內(nèi)容為同一個節(jié)點(diǎn)內(nèi)容,并計算對每個節(jié)點(diǎn)的位置以及節(jié)點(diǎn)中包含內(nèi)容的長寬、大小信息,構(gòu)成視覺樹。
[0118]步驟S102_3、遍歷所述視覺樹,計算每個節(jié)點(diǎn)的子樹信息。
[0119]根據(jù)頁面標(biāo)簽信息確定節(jié)點(diǎn)中包含的子樹信息。
[0120]例如,“<head>〈/head>”節(jié)點(diǎn)中包含 “<title>〈/title>”, “<body>〈/body>” 中包含“〈(1;[¥>〈/(1;[¥>”、“〈丨31316>〈八31316>”等頁面標(biāo)簽,逐級遍歷這些節(jié)點(diǎn)的子樹信息,計算子樹上每個節(jié)點(diǎn)的位置、大小和長寬信息。
[0121]步驟S1024、根據(jù)所述節(jié)點(diǎn)位置、層疊樣式表信息和子樹信息對所述視覺樹進(jìn)行分塊處理,得到視覺分塊。
[0122]層疊樣式表(CSS)信息包括選擇符、屬性及屬性值,例如,body {color: black},其中屬性可以包括字體、字號、字重、顏色等,在HTML代碼的CSS信息中,選擇符可以包括主體、標(biāo)題、邊框、背景色等信息。將利用這些CSS信息的相似程度來確定是否在同一個視覺分塊內(nèi)。
[0123]根據(jù)遍歷的結(jié)果和節(jié)點(diǎn)位置,將每個節(jié)點(diǎn)的子樹信息根據(jù)CSS信息進(jìn)行分塊,得到視覺分塊。
[0124]步驟S102_5、將所述節(jié)點(diǎn)與視覺分塊對應(yīng),構(gòu)成視覺分塊樹。
[0125]根據(jù)各節(jié)點(diǎn)位置,將節(jié)點(diǎn)內(nèi)包含的內(nèi)容對應(yīng)到相應(yīng)的視覺分塊中,形成視覺分塊樹。
[0126]繼續(xù)參見圖1,步驟S103、基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊。具體包括:
[0127]步驟S103_l、記錄所述視覺分塊的塊節(jié)點(diǎn)信息,計算所述塊節(jié)點(diǎn)的位置。
[0128]根據(jù)步驟S102確定的視覺分塊信息,記錄每一個塊節(jié)點(diǎn)的信息和位置。
[0129]步驟S103_2、利用塊節(jié)點(diǎn)的語義特征進(jìn)行標(biāo)注,得到所述標(biāo)注分塊,包括標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。
`[0130]例如,識別到在網(wǎng)頁頁面的邊緣塊(如處于底部的視覺分塊)中有“版權(quán)所有”、“copyright”等語義相關(guān)的文字時,則將該視覺分塊標(biāo)注為版權(quán)塊,圖3a是北京市海淀醫(yī)院這一站點(diǎn)的版權(quán)塊示意圖,如圖3a所示,包含文字“版權(quán)所有”。[0131]采用類似的方法,識別出標(biāo)注資源塊、標(biāo)注功能塊和標(biāo)注語義塊,其中,標(biāo)注資源塊包括:文本塊、交互塊、圖片塊等;標(biāo)注功能塊包括:版權(quán)塊、導(dǎo)航塊等;標(biāo)注語義塊包括標(biāo)題塊、核心正文塊等。
[0132]步驟S104、利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊。
[0133]識別出含有地址信息的標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。例如,圖3b是包含地址信息的文本塊,經(jīng)過本步驟后,將被識別為地址信息塊。
[0134]步驟S105、從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0135]具體地,從地址信息塊中提取興趣點(diǎn)名稱,可以但不限于采用以下方法:
[0136]利用地址信息塊中的文本與預(yù)設(shè)的命名實(shí)體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點(diǎn)名稱。
[0137]其中,預(yù)設(shè)的命名實(shí)體詞典中包括大量已有的實(shí)體機(jī)構(gòu)名稱,如果地址信息塊中的文本能與該詞典相匹配,則將該文本識別為興趣點(diǎn)名稱。
[0138]或者,利用地址信息塊中的文本與預(yù)設(shè)的語義規(guī)則相比對,將滿足預(yù)設(shè)語義規(guī)則的文本識別為地址信息塊中的興趣點(diǎn)名稱。
[0139]興趣點(diǎn)名稱通常具有相同的后綴,而且該興趣點(diǎn)名稱在同一個站點(diǎn)內(nèi)的地址信息塊中出現(xiàn)的頻次超過一定閾值,例如,以“XXX公司” “XXX有限公司” “XXX醫(yī)院”等,則提取符合這些語義規(guī)則的文本作為興趣點(diǎn)名稱。
[0140]當(dāng)然,也可以采用以上兩種方式相結(jié)合的方式,先通過預(yù)設(shè)的命名實(shí)體詞典來匹配,對于不能匹配的地址信息塊再采用語義規(guī)則來判斷,這樣有利于發(fā)現(xiàn)未被命名實(shí)體詞典收錄的興趣點(diǎn)名稱。
[0141]從地址信息塊中提取對應(yīng)的地址信息,可以但不限于采用以下方法:
[0142]判斷地址信息塊中的文本是否有地址提示詞。
[0143]對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進(jìn)行分詞,識別出至少一個地址信息。
[0144]如圖3b所示的地址信息塊中的文本即包含有地址提示詞“地址:”。獲取該提示詞后面的文本“北京市海淀區(qū)黃莊中關(guān)村大街29號”,并利用預(yù)先構(gòu)建的地址信息樹,識別出該文本即為一個地址信息。
[0145]對于無提示詞的文本,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的文本識別為地址信息。
[0146]地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關(guān)村”等。地址標(biāo)識詞典中包括各級別的地名標(biāo)識,例如,省、市、區(qū)、縣、街道、小區(qū)等。
[0147]對于無提示詞的文本,則分析分詞的詞項(xiàng)是否有該些地理名詞或地理標(biāo)識,并判斷該文本是否按照行政級別的順序正向或逆向排列,若是,則認(rèn)為該文本為一個地址信息。
[0148]步驟S106、將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
[0149]對于同一站點(diǎn),可以從多個地址信息塊中提取到興趣點(diǎn)名稱與地址信息,并將該些興趣點(diǎn)名稱與地址信息歸類到同一個站點(diǎn)下進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。具體地,結(jié)構(gòu)化信息包括:興趣點(diǎn)名稱、地址、電話、郵編、傳真、聯(lián)系人、郵箱等信息。[0150]圖4是地址信息樹構(gòu)建的方法流程圖,如圖4所示,地址信息樹的構(gòu)建可以但不限于采用以下方法,具體包括:
[0151]步驟S401、逐一獲取地址實(shí)例庫中的實(shí)例地址。
[0152]地址實(shí)例庫中包括現(xiàn)有已收集的地圖POI數(shù)據(jù)地址,包括大量具體的實(shí)例地址數(shù)據(jù),例如,“北京市海淀區(qū)中關(guān)村大街29號”、“北京市海淀區(qū)上地十街百度大廈”等。
[0153]步驟S402、對當(dāng)前的實(shí)例地址進(jìn)行分詞處理,得到該實(shí)例地址的詞項(xiàng)。
[0154]采用現(xiàn)有的分詞方法,如最大正向匹配法等,對獲取的每一條實(shí)例地址進(jìn)行分析。例如,對“北京市海淀區(qū)上地十街百度大廈”分詞,得到分詞結(jié)果“北京市/海淀區(qū)/上地/十街/百度/大廈”的各個詞項(xiàng)。
[0155]步驟S403、利用預(yù)設(shè)的地址標(biāo)識詞典,識別實(shí)例地址中詞項(xiàng)的后綴成分。
[0156]預(yù)設(shè)地址標(biāo)識詞典中包括各級別的地名標(biāo)識,例如,省、市、區(qū)、縣、街道、小區(qū)等。
[0157]對實(shí)例地址的詞項(xiàng)進(jìn)行后綴成分識別,確定地名標(biāo)識所在級別。例如,“北京市”和“海淀區(qū)”可以直接通過后綴識別為城市和區(qū)縣級別的成分。
[0158]步驟S404、利用預(yù)設(shè)的地址信息詞典和上下文關(guān)系對所述詞項(xiàng)進(jìn)行成分分析,識別所述詞項(xiàng)的成分。
[0159]地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關(guān)村”等。
[0160]對于不能識別后綴成分的詞項(xiàng),采用預(yù)設(shè)的地址信息詞典進(jìn)行分析,再利用上下文關(guān)系(如后綴)進(jìn)行組合成一個成分。例如,“十街”是街道后綴,“上地”與該街道后綴可組合成一個成分“上地十街”,同理,“大廈”是建筑后綴,得到另一成分“百度大廈”。
[0161]步驟S405、將識別到的成分添加到地址信息樹中對應(yīng)的節(jié)點(diǎn),形成地址信息樹。
[0162]根據(jù)識別到的成分,按照詞項(xiàng)的成分所在的級別添加到地址信息樹中對應(yīng)的節(jié)點(diǎn)上,形成包含“北京市/海淀區(qū)/上地十街/百度大廈”等具有層級關(guān)系的地址信息樹。
[0163]實(shí)施例二
[0164]圖5是本實(shí)施例提供的頁面信息提取方法流程圖,如圖5所示,包括:
[0165]步驟S501、獲取全網(wǎng)的網(wǎng)頁頁面。
[0166]步驟S502、逐一對所述網(wǎng)頁頁面進(jìn)行分析。
[0167]對步驟S501獲取的全網(wǎng)的網(wǎng)頁頁面逐一進(jìn)行分析,執(zhí)行步驟S503至步驟S505后進(jìn)入步驟S507,或者執(zhí)行步驟S506后進(jìn)入步驟S507。
[0168]步驟S503、將所述網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊。
[0169]步驟S504、基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊。
[0170]步驟S505、利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊。將所識別到的地址信息塊添加到地址信息塊庫中。
[0171]上述步驟S501、步驟S503、步驟S504和步驟S505與實(shí)施例一中步驟SlOl至步驟S104對應(yīng)相同,于此不再贅述。
[0172]步驟S506、獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁或聯(lián)系頁。
[0173]獲取站點(diǎn)首頁的方法可以采用以下所列方法Al中的一種或任意結(jié)合:[0174]方法A:從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進(jìn)行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁。
[0175]對于平臺類二級域名實(shí)體站點(diǎn)的首頁,則直接采用該實(shí)體站點(diǎn)的二級域名進(jìn)行跳轉(zhuǎn),例如,“http://fsj0769.cn.alibaba.com/”為“東莞市立信塑料制品有限公司”的站點(diǎn)首頁的網(wǎng)頁地址。
[0176]對于實(shí)體機(jī)構(gòu)官網(wǎng)具有獨(dú)立域名,因此,抽取獨(dú)立域名進(jìn)行跳轉(zhuǎn),獲取實(shí)體機(jī)構(gòu)的站點(diǎn)首頁。例如,網(wǎng)頁頁面的 url 網(wǎng)址為:http://www.hdhospital.com/OverView.aspx,從該url網(wǎng)址中去掉路徑部分,取出域名地址“www.hdhospital.com”,利用該域名地址進(jìn)行跳轉(zhuǎn)處理,跳轉(zhuǎn)結(jié)果指向“http://www.hdhospital.com/”,則該跳轉(zhuǎn)結(jié)果為對應(yīng)的站點(diǎn)首頁。
[0177]方法B:通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進(jìn)行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進(jìn)行跳轉(zhuǎn)處理,得到相對應(yīng)的站點(diǎn)首頁。
[0178]這種方式與方法A相類似,區(qū)別在于先對取出的域名地址作去重處理后,再統(tǒng)一進(jìn)行域名地址的跳轉(zhuǎn),可提聞效率。
[0179]方法C:利用站點(diǎn)的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構(gòu)造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有的站點(diǎn)首頁。
[0180]鏈接錨文本特征可以與提取興趣點(diǎn)名稱時預(yù)設(shè)的語義規(guī)則一致,例如具有相同的后綴信息:“XXX公司”或“XXX醫(yī)院”等。而網(wǎng)址樣式特征,則例如,“http://www.XXX.com/index.html”、“http://www.XXX.com/”、“http://www.XXX.com/default, aspx”等等為站點(diǎn)的首頁網(wǎng)址,從中提取得到首頁的網(wǎng)址樣式特征,可以包括“index”、“defaUlt”等。利用這些特征構(gòu)造首頁分類器,再對網(wǎng)頁頁面進(jìn)行分類得到站點(diǎn)首頁。
[0181]獲取網(wǎng)頁頁面對應(yīng)的聯(lián)系頁的方法,具體包括:
[0182]利用站點(diǎn)的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標(biāo)題及網(wǎng)址樣式特征構(gòu)造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有站點(diǎn)的聯(lián)系信息頁。
[0183]鏈接錨文本和頁面標(biāo)題的特征主要為相關(guān)的語義特征,包括“聯(lián)系我們”、“聯(lián)絡(luò)方”、“公司名片”、“詳細(xì)信息”等,而網(wǎng)址樣式特征則主要為在網(wǎng)址中包括“contact”、“COnneCt”、“l(fā)XfS”等等,利用分析得到的這些特征采用正則表達(dá)式構(gòu)造聯(lián)系頁分類器,再對網(wǎng)頁頁面進(jìn)行分類得到聯(lián)系頁。
[0184]最后,將獲取得到的站點(diǎn)首頁或聯(lián)系頁,添加到首頁或聯(lián)系頁庫中。
[0185]步驟S507、判斷是否還有未處理的網(wǎng)頁頁面,如是,則返回步驟S502,獲取下一個網(wǎng)頁頁面進(jìn)行分析,否則利用步驟S508和步驟S509的結(jié)果,執(zhí)行步驟S510。
[0186]步驟S508、從地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0187]本步驟的處理過程與實(shí)施例一中的步驟S105相同,于此不再贅述。
[0188]步驟S509、從站點(diǎn)首頁或聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0189]本步驟與實(shí)施例一中步驟S105的差別僅在于網(wǎng)頁來源不同,具體包括:
[0190]將所述站點(diǎn)首頁或聯(lián)系頁的頁面標(biāo)題識別為興趣點(diǎn)名稱。
[0191]判斷所述站點(diǎn)首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞。[0192]對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預(yù)設(shè)的地址信息樹進(jìn)行分詞,識別出至少一個地址信息。
[0193]對于無提示詞的頁面內(nèi)容,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的頁面內(nèi)容識別為地址信息。
[0194]值得一提的是,分支二(包括步驟S506和步驟S509)是依據(jù)站點(diǎn)結(jié)構(gòu)特征來進(jìn)行分析的,與分支一(包括步驟S503至步驟S505和步驟S508)相對獨(dú)立,本發(fā)明對兩個分支的處理順序并不作限定,只需在步驟S501和步驟S510之間完成處理即可。
[0195]步驟S510、對同一站點(diǎn)內(nèi)的多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn),確定站點(diǎn)的興趣點(diǎn)名稱。
[0196]所述多個位置來源的興趣點(diǎn)名稱可以是從多個地址信息塊中提取而來的興趣點(diǎn)名稱,也可以是從站點(diǎn)首頁、聯(lián)系頁以及站內(nèi)包含的地址信息塊中提取而來的興趣點(diǎn)名稱。
[0197]對于同一個站點(diǎn),如果獲取的興趣點(diǎn)名稱一致,則將該興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱;如果獲取的興趣點(diǎn)名稱不一致,則對多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn)。校驗(yàn)方法包括:
[0198]根據(jù)預(yù)設(shè)的可信度規(guī)則和興趣點(diǎn)名稱的提取位置,對所提取的興趣點(diǎn)名稱確定名稱可信度?;蛘撸y(tǒng)計所提取的興趣點(diǎn)名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度。
[0199]預(yù)設(shè)的可信度規(guī)則可以但不限于采用以下優(yōu)先級順序(由高到低):頁面標(biāo)題(pagetitle) >地址塊 > 版權(quán)塊 > 聯(lián)系信息頁 > 鏈接錨文本 > 其他分塊。對于優(yōu)先級不低于聯(lián)系信息頁的位置,也可以直接抽取得到興趣點(diǎn)名稱。
[0200]具體的,先從所述站點(diǎn)首頁的頁面標(biāo)題中抽取出整個標(biāo)題內(nèi)容,判斷該標(biāo)題內(nèi)容是否為單一名稱,若是,則將該標(biāo)題內(nèi)容作為該站點(diǎn)的興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0201]從地址塊內(nèi)部利用命名實(shí)體識別抽取實(shí)體名稱,判斷是否優(yōu)先級別較高的名稱為空且塊內(nèi)抽取名稱唯一,若是,則將該實(shí)體名稱識別為興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0202]從版權(quán)塊中抽取出實(shí)體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實(shí)體名稱識別為興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0203]從聯(lián)系信息頁抽取實(shí)體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實(shí)體名稱識別為興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0204]獲取指向站點(diǎn)首頁的鏈接錨文本(即前鏈錨文本),統(tǒng)計所有鏈接錨文本出現(xiàn)的頻次,并根據(jù)統(tǒng)計的頻次賦予各鏈接錨文本相應(yīng)的權(quán)重。
[0205]最后,將名稱可信度滿足預(yù)設(shè)要求的興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱。
[0206]步驟S511、將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
[0207]經(jīng)過步驟S510確定了同一個站點(diǎn)的興趣點(diǎn)名稱之后,同樣的,對于提取的地址信息也可以從不同的來源中擇一作為對應(yīng)站點(diǎn)的地址信息,最后形成準(zhǔn)確率高的結(jié)構(gòu)化信
肩、O
[0208]以上是對本發(fā)明所提供的方法進(jìn)行的詳細(xì)描述,下面對本發(fā)明提供的頁面信息提取裝置進(jìn)行詳細(xì)描述。
[0209]實(shí)施例三[0210]圖6是本實(shí)施例提供的頁面信息提取裝置示意圖。如圖6所示,該裝置包括:
[0211]網(wǎng)頁獲取模塊601,用于獲取全網(wǎng)的網(wǎng)頁頁面。
[0212]利用網(wǎng)絡(luò)爬蟲,抓取互聯(lián)網(wǎng)中各網(wǎng)頁頁面,至少包括網(wǎng)頁頁面的網(wǎng)址和源代碼。
[0213]例如,url網(wǎng)址為 “http://www.hdhospital.com/OverView, aspx” 為北京市海淀醫(yī)院站點(diǎn)內(nèi)的一個頁面,利用網(wǎng)絡(luò)爬蟲抓取該網(wǎng)頁頁面,記錄對應(yīng)的url網(wǎng)址,并獲取該網(wǎng)頁頁面對應(yīng)的網(wǎng)頁源代碼(如HTML代碼)。
[0214]視覺分塊處理模塊602,用于逐一將獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊。
[0215]視覺分塊處理模塊602,對網(wǎng)頁獲取模塊601獲取的網(wǎng)頁頁面基于視覺特征進(jìn)行分塊,具體配置為:
[0216]先逐一解析所獲取的網(wǎng)頁頁面,建立當(dāng)前網(wǎng)頁頁面的文檔對象模型樹。
[0217]對當(dāng)前網(wǎng)頁頁面的源代碼進(jìn)行解析,生成文檔對象模型樹(D0M樹)。
[0218]其次,計算所述文檔對象模型樹中每個節(jié)點(diǎn)的位置、大小和長寬信息,構(gòu)成視覺樹。
[0219]利用頁面標(biāo)簽確定每個節(jié)點(diǎn),如“ <head></head> ”、“ <body></body> ”等,處于標(biāo)簽的起始位置和終點(diǎn)位置之間的內(nèi)容為同一個節(jié)點(diǎn)內(nèi)容,并計算對每個節(jié)點(diǎn)的位置以及節(jié)點(diǎn)中包含內(nèi)容的長寬、大小信息,構(gòu)成視覺樹。
[0220]再次,遍歷所述視覺樹,計`算每個節(jié)點(diǎn)的子樹信息。
[0221]根據(jù)頁面標(biāo)簽信息確定節(jié)點(diǎn)中包含的子樹信息。
[0222]例如,“<head>〈/head>”節(jié)點(diǎn)中包含 “<title>〈/title>”, “<body>〈/body>” 中包含“〈(1;[¥>〈/(1;[¥>”、“〈丨31316>〈八31316>”等頁面標(biāo)簽,逐級遍歷這些節(jié)點(diǎn)的子樹信息,計算子樹上每個節(jié)點(diǎn)的位置、大小和長寬信息。
[0223]進(jìn)而,根據(jù)所述節(jié)點(diǎn)位置、層疊樣式表信息和子樹信息對所述視覺樹進(jìn)行分塊處理,得到視覺分塊。
[0224]層疊樣式表(CSS)信息包括選擇符、屬性及屬性值,例如,body {color:black},其中屬性可以包括字體、字號、字重、顏色等,在HTML代碼的CSS信息中,選擇符可以包括主體、標(biāo)題、邊框、背景色等信息。將利用這些CSS信息的相似程度來確定是否在同一個視覺分塊內(nèi)。
[0225]根據(jù)遍歷的結(jié)果和節(jié)點(diǎn)位置,將每個節(jié)點(diǎn)的子樹信息根據(jù)CSS信息進(jìn)行分塊,得到視覺分塊。
[0226]最后,將所述節(jié)點(diǎn)與視覺分塊對應(yīng),構(gòu)成視覺分塊樹。
[0227]根據(jù)各節(jié)點(diǎn)位置,將節(jié)點(diǎn)內(nèi)包含的內(nèi)容對應(yīng)到相應(yīng)的視覺分塊中,形成視覺分塊樹。
[0228]標(biāo)注模塊603,用于基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊。具體配置為:
[0229]首先,記錄所述視覺分塊的塊節(jié)點(diǎn)信息,計算所述塊節(jié)點(diǎn)的位置。
[0230]根據(jù)視覺分塊處理模塊602確定的視覺分塊信息,記錄每一個塊節(jié)點(diǎn)的信息和位置。[0231]然后,利用塊節(jié)點(diǎn)的語義特征進(jìn)行標(biāo)注,得到所述標(biāo)注分塊,包括標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。
[0232]例如,識別到在網(wǎng)頁頁面的邊緣塊(如處于底部的視覺分塊)中有“版權(quán)所有”、“copyright”等語義相關(guān)的文字時,則將該視覺分塊標(biāo)注為版權(quán)塊,圖3a是北京市海淀醫(yī)院這一站點(diǎn)的版權(quán)塊示意圖,如圖3a所示,包含文字“版權(quán)所有”。
[0233]采用類似的方法,識別出標(biāo)注資源塊、標(biāo)注功能塊和標(biāo)注語義塊,其中,標(biāo)注資源塊包括:文本塊、交互塊、圖片塊等;標(biāo)注功能塊包括:版權(quán)塊、導(dǎo)航塊等;標(biāo)注語義塊包括標(biāo)題塊、核心正文塊等。
[0234]地址信息塊獲取模塊604,用于利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊。
[0235]識別出含有地址信息的標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。例如,圖3b是包含地址信息的文本塊,經(jīng)過本模塊后,將被識別為地址信息塊。
[0236]第一信息提取模塊605,用于從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0237]具體地,從地址信息塊中提取興趣點(diǎn)名稱,可以但不限于采用以下方法:
[0238]利用地址信息塊中的文本與預(yù)設(shè)的命名實(shí)體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點(diǎn)名稱。
[0239]其中,預(yù)設(shè)的命名實(shí)體詞典中包括大量已有的實(shí)體機(jī)構(gòu)名稱,如果地址信息塊中的文本能與該詞典相匹配,則將該文本識別為興趣點(diǎn)名稱。
[0240]或者,利用地址信息塊中的文本與預(yù)設(shè)的語義規(guī)則相比對,將滿足預(yù)設(shè)語義規(guī)則的文本識別為地址信息塊中的興趣點(diǎn)名稱。
[0241]興趣點(diǎn)名稱通常具有相同的后綴,而且該興趣點(diǎn)名稱在同一個站點(diǎn)內(nèi)的地址信息塊中出現(xiàn)的頻次超過一定閾值,例如,以“XXX公司” “XXX有限公司” “XXX醫(yī)院”等,則提取符合這些語義規(guī)則的文本作為興趣點(diǎn)名稱。
[0242]當(dāng)然,也可以采用以上兩種方式相結(jié)合的方式,先通過預(yù)設(shè)的命名實(shí)體詞典來匹配,對于不能匹配的地址信息塊再采用語義規(guī)則來判斷,這樣有利于發(fā)現(xiàn)未被命名實(shí)體詞典收錄的興趣點(diǎn)名稱。
[0243]相應(yīng)地,從地址信息塊中提取對應(yīng)的地址信息,可以但不限于采用以下方法:
[0244]判斷地址信息塊中的文本是否有地址提示詞。
[0245]對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進(jìn)行分詞,識別出至少一個地址信息。
[0246]如圖3b所示的地址信息塊中的文本即包含有地址提示詞“地址:”。獲取該提示詞后面的文本“北京市海淀區(qū)黃莊中關(guān)村大街29號”,并利用預(yù)先構(gòu)建的地址信息樹,識別出該文本即為一個地址信息。
[0247]對于無提示詞的文本,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的文本識別為地址信息。
[0248]地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關(guān)村”等。地址標(biāo)識詞典中包括各級別的地名標(biāo)識,例如,省、市、區(qū)、縣、街道、小區(qū)等。[0249]對于無提示詞的文本,則分析分詞的詞項(xiàng)是否有該些地理名詞或地理標(biāo)識,并判斷該文本是否按照行政級別的順序正向或逆向排列,若是,則認(rèn)為該文本為一個地址信息。
[0250]關(guān)聯(lián)模塊606,用于將第一信息提取模塊605提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
[0251]對于同一站點(diǎn),可以從多個地址信息塊中提取到興趣點(diǎn)名稱與地址信息,并將該些興趣點(diǎn)名稱與地址信息歸類到同一個站點(diǎn)下進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。具體地,結(jié)構(gòu)化信息包括:興趣點(diǎn)名稱、地址、電話、郵編、傳真、聯(lián)系人、郵箱等信息。
[0252]圖7是地址信息樹構(gòu)建模塊示意圖,如圖7所示,包括:
[0253]實(shí)例地址獲取子模塊701,用于逐一獲取地址實(shí)例庫中的實(shí)例地址。
[0254]地址實(shí)例庫中包括現(xiàn)有已收集的地圖POI數(shù)據(jù)地址,包括大量具體的實(shí)例地址數(shù)據(jù),例如,“北京市海淀區(qū)中關(guān)村大街29號”、“北京市海淀區(qū)上地十街百度大廈”等。
[0255]分詞子模塊702,用于對當(dāng)前的實(shí)例地址進(jìn)行分詞處理,得到該實(shí)例地址的詞項(xiàng)。
[0256]采用現(xiàn)有的分詞方法,如最大正向匹配法等,對獲取的每一條實(shí)例地址進(jìn)行分析。例如,對“北京市海淀區(qū)上地十街百度大廈”分詞,得到分詞結(jié)果“北京市/海淀區(qū)/上地/十街/百度/大廈”的各個詞項(xiàng)。
[0257]后綴識別子模塊703,用于利用預(yù)設(shè)的地址標(biāo)識詞典,識別實(shí)例地址中詞項(xiàng)的后綴成分。
[0258]預(yù)設(shè)地址標(biāo)識詞典中包括各級別的地名標(biāo)識,例如,省、市、區(qū)、縣、街道、小區(qū)等。
[0259]對實(shí)例地址的詞項(xiàng)進(jìn)行后綴成分識別,確定地名標(biāo)識所在級別。例如,“北京市”和“海淀區(qū)”可以直接通過后綴識別為城市和區(qū)縣級別的成分。
[0260]成分識別子模塊704,用于利用預(yù)設(shè)的地址信息詞典和上下文關(guān)系對所述詞項(xiàng)進(jìn)行成分分析,識別所述詞項(xiàng)的成分。
[0261]地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關(guān)村”等。
[0262]對于不能識別后綴成分的詞項(xiàng),采用預(yù)設(shè)的地址信息詞典進(jìn)行分析,再利用上下文關(guān)系(如后綴)進(jìn)行組合成一個成分。例如,“十街”是街道后綴,“上地”與該街道后綴可組合成一個成分“上地十街”,同理,“大廈”是建筑后綴,得到另一成分“百度大廈”。
[0263]成分節(jié)點(diǎn)確定子模塊705,用于將識別到的成分添加到地址信息樹中對應(yīng)的節(jié)點(diǎn),形成地址信息樹。
[0264]根據(jù)識別到的成分,按照詞項(xiàng)的成分所在的級別添加到地址信息樹中對應(yīng)的節(jié)點(diǎn)上,形成包含“北京市/海淀區(qū)/上地十街/百度大廈”等具有層級關(guān)系的地址信息樹。
[0265]實(shí)施例四
[0266]圖8是本實(shí)施例提供的頁面信息提取裝置示意圖,如圖8所示,包括:
[0267]網(wǎng)頁獲取模塊801,用于獲取全網(wǎng)的網(wǎng)頁頁面。
[0268]視覺分塊處理模塊802,用于將所述網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊。
[0269]標(biāo)注模塊803,用于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊。[0270]地址信息塊獲取模塊804,用于利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊。
[0271]第一信息提取模塊805,用于從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0272]上述模塊801至805與實(shí)施例三中601至605對應(yīng)相同,于此不再贅述。
[0273]站點(diǎn)結(jié)構(gòu)分析模塊806,用于獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁或聯(lián)系頁,包括:
[0274]站點(diǎn)首頁獲取子模塊8061,用于獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁。
[0275]聯(lián)系頁獲取子模塊8062,用于獲取所述網(wǎng)頁頁面對應(yīng)的聯(lián)系頁。
[0276]站點(diǎn)首頁獲取子模塊8061獲取站點(diǎn)首頁可以采用以下所列方法A?C中的一種或任意結(jié)合:
[0277]方法A:從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進(jìn)行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁。
[0278]對于平臺類二級域名實(shí)體站點(diǎn)的首頁,則直接采用該實(shí)體站點(diǎn)的二級域名進(jìn)行跳轉(zhuǎn),例如,“http://fsj0769.cn.alibaba.com/”為“東莞市立信塑料制品有限公司”的站點(diǎn)首頁的網(wǎng)頁地址。
[0279]對于實(shí)體機(jī)構(gòu)官網(wǎng)具有獨(dú)立域名,因此,抽取獨(dú)立域名進(jìn)行跳轉(zhuǎn),獲取實(shí)體機(jī)構(gòu)的站點(diǎn)首頁。例如,網(wǎng)頁頁面的 url 網(wǎng)址為:http://www.hdhospital.com/OverView, aspx,從該url網(wǎng)址中去掉路徑部分,取出域名地址“www.hdhospital.com”,利用該域名地址進(jìn)行跳轉(zhuǎn)處理,跳轉(zhuǎn)結(jié)果指向“http://www.hdhospital.com/”,則該跳轉(zhuǎn)結(jié)果為對應(yīng)的站點(diǎn)首頁。
[0280]方法B:通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進(jìn)行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進(jìn)行跳轉(zhuǎn)處理,得到相對應(yīng)的站點(diǎn)首頁。
[0281]這種方式與方法A相類似,區(qū)別在于先對取出的域名地址作去重處理后,再統(tǒng)一進(jìn)行域名地址的跳轉(zhuǎn),可提聞效率。
[0282]方法C:利用站點(diǎn)的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構(gòu)造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有的站點(diǎn)首頁。
[0283]鏈接錨文本特征可以與提取興趣點(diǎn)名稱時預(yù)設(shè)的語義規(guī)則一致,例如具有相同的后綴信息:“XXX公司”或“XXX醫(yī)院”等。而網(wǎng)址樣式特征,則例如,“http://www.XXX.com/index.html”、“http://www.XXX.com/”、“http://www.XXX.com/default, aspx”等等為站點(diǎn)的首頁網(wǎng)址,從中提取得到首頁的網(wǎng)址樣式特征,可以包括“index”、“defaUlt”等。利用這些特征構(gòu)造首頁分類器,再對網(wǎng)頁頁面進(jìn)行分類得到站點(diǎn)首頁。
[0284]聯(lián)系頁獲取子模塊8062獲取網(wǎng)頁頁面對應(yīng)的聯(lián)系頁,具體包括:
[0285]利用站點(diǎn)的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標(biāo)題及網(wǎng)址樣式特征構(gòu)造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有站點(diǎn)的聯(lián)系信息頁。
[0286]鏈接錨文本和頁面標(biāo)題的特征主要為相關(guān)的語義特征,包括“聯(lián)系我們”、“聯(lián)絡(luò)方”、“公司名片”、“詳細(xì)信息”等,而網(wǎng)址樣式特征則主要為在網(wǎng)址中包括“contact”、“COnneCt”、“l(fā)XfS”等等,利用分析得到的這些特征采用正則表達(dá)式構(gòu)造聯(lián)系頁分類器,再對網(wǎng)頁頁面進(jìn)行分類得到聯(lián)系頁。
[0287]第二信息提取模塊807,用于從所述站點(diǎn)首頁或聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息,相應(yīng)地,包括:
[0288]首頁信息提取子模塊8071,用于從站點(diǎn)首頁獲取子模塊8061獲取的站點(diǎn)首頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0289]聯(lián)系頁信息提取子模塊8072,用于從聯(lián)系頁獲取子模塊8062獲取的聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
[0290]第二信息提取模塊807與實(shí)施例三中第一信息提取模塊605的配置相類似,差別僅在于提取的網(wǎng)頁來源不同,具體配置包括:
[0291]將所述站點(diǎn)首頁或聯(lián)系頁的頁面標(biāo)題識別為興趣點(diǎn)名稱。
[0292]判斷所述站點(diǎn)首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞。
[0293]對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預(yù)設(shè)的地址信息樹進(jìn)行分詞,識別出至少一個地址信息。
[0294]對于無提示詞的頁面內(nèi)容,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的頁面內(nèi)容識別為地址信息。
[0295]校驗(yàn)?zāi)K808,用于對第一信息提取模塊805和第二信息提取模塊807獲取的同一站點(diǎn)內(nèi)的多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn),確定站點(diǎn)的興趣點(diǎn)名稱。
[0296]所述多個位置來源的興趣點(diǎn)名稱可以是從多個地址信息塊中提取而來的興趣點(diǎn)名稱,也可以是從站點(diǎn)首頁、聯(lián)系頁以及站內(nèi)包含的地址信息塊中提取而來的興趣點(diǎn)名稱。
[0297]對于同一個站點(diǎn),如果獲取的興趣點(diǎn)名稱一致,則將該興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱;如果獲取的興趣點(diǎn)名稱不一致,則對多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn)。校驗(yàn)方法包括:
[0298]根據(jù)預(yù)設(shè)的可信度規(guī)則和興趣點(diǎn)名稱的提取位置,對所提取的興趣點(diǎn)名稱確定名稱可信度。或者,統(tǒng)計所提取的興趣點(diǎn)名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度。
[0299]預(yù)設(shè)的可信度規(guī)則可以但不限于采用以下優(yōu)先級順序(由高到低):頁面標(biāo)題(pagetitle) >地址塊 > 版權(quán)塊 > 聯(lián)系信息頁 > 鏈接錨文本 > 其他分塊。對于優(yōu)先級不低于聯(lián)系信息頁的位置,也可以直接抽取得到興趣點(diǎn)名稱。
[0300]具體的,先從所述站點(diǎn)首頁的頁面標(biāo)題中抽取出整個標(biāo)題內(nèi)容,判斷該標(biāo)題內(nèi)容是否為單一名稱,若是,則將該標(biāo)題內(nèi)容作為該站點(diǎn)的興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0301]從地址塊內(nèi)部利用命名實(shí)體識別抽取實(shí)體名稱,判斷是否優(yōu)先級別較高的名稱為空且塊內(nèi)抽取名稱唯一,若是,則將該實(shí)體名稱識別為興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0302]從版權(quán)塊中抽取出實(shí)體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實(shí)體名稱識別為興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0303]從聯(lián)系信息頁抽取實(shí)體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實(shí)體名稱識別為興趣點(diǎn)名稱;否則,抽取的興趣點(diǎn)名稱為空。
[0304]獲取指向站點(diǎn)首頁的鏈接錨文本(即前鏈錨文本),統(tǒng)計所有鏈接錨文本出現(xiàn)的頻次,并根據(jù)統(tǒng)計的頻次賦予各鏈接錨文本相應(yīng)的權(quán)重。[0305]最后,將名稱可信度滿足預(yù)設(shè)要求的興趣點(diǎn)名稱作為站點(diǎn)的興趣點(diǎn)名稱。
[0306]關(guān)聯(lián)模塊809,用于將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信
肩、O
[0307]經(jīng)過校驗(yàn)?zāi)K808確定了同一個站點(diǎn)的興趣點(diǎn)名稱之后,同樣的,關(guān)聯(lián)模塊809對于提取的地址信息也可以從不同的來源中擇一作為對應(yīng)站點(diǎn)的地址信息,最后形成準(zhǔn)確率高的結(jié)構(gòu)化信息。
[0308]本發(fā)明提供的頁面信息提取方法和裝置,基于站點(diǎn)結(jié)構(gòu)及信息語義特征相結(jié)合,提取實(shí)體機(jī)構(gòu)站點(diǎn)的聯(lián)系信息,用作地圖興趣點(diǎn)數(shù)據(jù),以便后續(xù)用作垂直搜索,提供較好的搜索結(jié)果。
[0309]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種頁面信息提取方法,其特征在于,包括: 51、獲取全網(wǎng)的網(wǎng)頁頁面; 52、逐一將所獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊; 53、基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊; 54、利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊; 55、從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息; 56、將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2具體包括: 逐一解析所獲取的網(wǎng)頁頁面,建立當(dāng)前網(wǎng)頁頁面的文檔對象模型樹; 計算所述文檔對象模型樹中每個節(jié)點(diǎn)的位置、大小和長寬信息,構(gòu)成視覺樹; 遍歷所述視覺樹,計算每個節(jié)點(diǎn)的子樹信息; 根據(jù)所述節(jié)點(diǎn)位置、層疊樣式表信息和子樹信息對所述視覺樹進(jìn)行分塊處理,得到視覺分塊; 將所述節(jié)點(diǎn)與視覺分塊對應(yīng),構(gòu)成視覺分塊樹。
3.根據(jù)權(quán)利要求1所述`的方法,其特征在于,所述步驟S3具體包括: 記錄所述視覺分塊的塊節(jié)點(diǎn)信息,計算所述塊節(jié)點(diǎn)的位置; 利用塊節(jié)點(diǎn)的語義特征進(jìn)行標(biāo)注,得到所述標(biāo)注分塊,包括標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述地址信息樹的構(gòu)建方法,包括: 逐一獲取地址實(shí)例庫中的實(shí)例地址; 對當(dāng)前的實(shí)例地址進(jìn)行分詞處理,得到該實(shí)例地址的詞項(xiàng); 利用預(yù)設(shè)的地址標(biāo)識詞典,識別實(shí)例地址中詞項(xiàng)的后綴成分; 利用預(yù)設(shè)的地址信息詞典和上下文關(guān)系對所述詞項(xiàng)進(jìn)行成分分析,識別所述詞項(xiàng)的成分; 將識別到的成分添加到地址信息樹中對應(yīng)的節(jié)點(diǎn),形成地址信息樹。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從地址信息塊中提取興趣點(diǎn)名稱,具體為: 利用地址信息塊中的文本與預(yù)設(shè)的命名實(shí)體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點(diǎn)名稱; 或者,利用地址信息塊中的文本與預(yù)設(shè)的語義規(guī)則相比對,將滿足預(yù)設(shè)語義規(guī)則的文本識別為地址信息塊中的興趣點(diǎn)名稱。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從地址信息塊中提取對應(yīng)的地址信息,具體包括: 判斷地址信息塊中的文本是否有地址提示詞; 對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進(jìn)行分詞,識別出至少一個地址信息; 對于無提示詞的文本,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的文本識別為地址信息。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟SI之后和步驟S6之前,還包括: 獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁或聯(lián)系頁; 從所述站點(diǎn)首頁或聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信息。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述獲取站點(diǎn)首頁的方法采用以下所列的一種或任意結(jié)合: 從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進(jìn)行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁; 通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進(jìn)行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進(jìn)行跳轉(zhuǎn)處理,得到相對應(yīng)的站點(diǎn)首頁; 或者,利用站點(diǎn)的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構(gòu)造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有的站點(diǎn)首頁。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述獲取網(wǎng)頁頁面對應(yīng)的聯(lián)系頁的方法,具體包括: 利用站點(diǎn)的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標(biāo)題及網(wǎng)址樣式特征構(gòu)造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有站點(diǎn)的聯(lián)系信息頁。
10.根據(jù)權(quán)利要求1或7`所述的方法,其特征在于,在步驟S6之前,還包括: 對同一站點(diǎn)內(nèi)多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn),確定站點(diǎn)的興趣點(diǎn)名稱。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述校驗(yàn)方法包括: 根據(jù)預(yù)設(shè)的可信度規(guī)則和興趣點(diǎn)名稱的提取位置,對所提取的興趣點(diǎn)名稱確定名稱可信度; 或者,統(tǒng)計所提取的興趣點(diǎn)名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度; 將名稱可信度滿足預(yù)設(shè)要求的興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱。
12.—種頁面信息提取裝置,其特征在于,包括: 網(wǎng)頁獲取模塊,用于獲取全網(wǎng)的網(wǎng)頁頁面; 視覺分塊處理模塊,用于逐一將所述網(wǎng)頁獲取模塊獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標(biāo)簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進(jìn)行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊; 標(biāo)注模塊,用于基于視覺分塊的語義特征對所述視覺分塊進(jìn)行標(biāo)注,得到標(biāo)注分塊;地址信息塊獲取模塊,用于利用預(yù)先構(gòu)建的地址信息樹對所述標(biāo)注分塊中的文本逐句進(jìn)行分析,將含有地址信息的標(biāo)注分塊識別為地址信息塊; 第一信息提取模塊,用于從所述地址信息塊中提取興趣點(diǎn)名稱和對應(yīng)的地址信息; 關(guān)聯(lián)模塊,用于將提取到的興趣點(diǎn)名稱與地址信息進(jìn)行關(guān)聯(lián),得到結(jié)構(gòu)化信息。
13.根據(jù)權(quán)利要求12所述的裝置方法,其特征在于,所述視覺分塊處理模塊具體配置為: 逐一解析所獲取的網(wǎng)頁頁面,建立當(dāng)前網(wǎng)頁頁面的文檔對象模型樹; 計算所述文檔對象模型樹中每個節(jié)點(diǎn)的位置、大小和長寬信息,構(gòu)成視覺樹;遍歷所述視覺樹,計算每個節(jié)點(diǎn)的子樹信息; 根據(jù)所述節(jié)點(diǎn)位置、層疊樣式表信息和子樹信息對所述視覺樹進(jìn)行分塊處理,得到視覺分塊; 將所述節(jié)點(diǎn)與視覺分塊對應(yīng),構(gòu)成視覺分塊樹。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述標(biāo)注模塊具體配置為: 記錄所述視覺分塊的塊節(jié)點(diǎn)信息,計算所述塊節(jié)點(diǎn)的位置; 利用塊節(jié)點(diǎn)的語義特征進(jìn)行標(biāo)注,得到所述標(biāo)注分塊,包括標(biāo)注語義塊、標(biāo)注功能塊和標(biāo)注資源塊。
15.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述地址信息樹通過地址信息樹構(gòu)建模塊預(yù)先建立,所述地址信息樹構(gòu)建模塊包括: 實(shí)例地址獲取子模塊,用于逐一獲取地址實(shí)例庫中的實(shí)例地址; 分詞子模塊,用于對所述實(shí)例地址獲取子模塊獲取的當(dāng)前的實(shí)例地址進(jìn)行分詞處理,得到該實(shí)例地址的詞項(xiàng); 后綴識別子模塊,用于利用預(yù)設(shè)的地址標(biāo)識詞典,識別實(shí)例地址中詞項(xiàng)的后綴成分; 成分識別子模塊,用于利用預(yù)設(shè)的地址信息詞典和上下文關(guān)系對所述詞項(xiàng)進(jìn)行成分分析,識別所述詞項(xiàng)的成分; 成分節(jié)點(diǎn)確定子模塊,用于將所述 后綴識別子模塊和成分識別子模塊識別到的成分添加到地址信息樹中對應(yīng)的節(jié)點(diǎn),形成地址信息樹。
16.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第一信息提取模塊從地址信息塊中提取興趣點(diǎn)名稱,具體配置為: 利用地址信息塊中的文本與預(yù)設(shè)的命名實(shí)體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點(diǎn)名稱; 或者,利用地址信息塊中的文本與預(yù)設(shè)的語義規(guī)則相比對,將滿足預(yù)設(shè)語義規(guī)則的文本識別為地址信息塊中的興趣點(diǎn)名稱。
17.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述第一信息提取模塊從地址信息塊中提取對應(yīng)的地址信息,具體配置為: 判斷地址信息塊中的文本是否有地址提示詞; 對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進(jìn)行分詞,識別出至少一個地址信息; 對于無提示詞的文本,先進(jìn)行分詞處理,利用預(yù)設(shè)的地址信息詞典或地址標(biāo)識詞典進(jìn)行地址成分的識別,將匹配程度滿足預(yù)設(shè)要求的文本識別為地址信息。
18.根據(jù)權(quán)利要求12所述的裝置方法,其特征在于,該裝置還包括: 站點(diǎn)結(jié)構(gòu)分析模塊,用于獲取所述網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁或聯(lián)系頁; 第二信息提取模塊,用于從所述站點(diǎn)首頁或聯(lián)系頁中提取興趣點(diǎn)名稱和對應(yīng)的地址信肩、O
19.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述站點(diǎn)結(jié)構(gòu)分析模塊獲取站點(diǎn)首頁的具體配置包括以下所列的一種或任意結(jié)合: 從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進(jìn)行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應(yīng)的站點(diǎn)首頁;通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進(jìn)行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進(jìn)行跳轉(zhuǎn)處理,得到相對應(yīng)的站點(diǎn)首頁; 或者,利用站點(diǎn)的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構(gòu)造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有的站點(diǎn)首頁。
20.根據(jù)權(quán)利要求18所述的裝置,其特征在于,所述站點(diǎn)結(jié)構(gòu)分析模塊獲取網(wǎng)頁頁面對應(yīng)的聯(lián)系頁具體配置包括: 利用站點(diǎn)的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標(biāo)題及網(wǎng)址樣式特征構(gòu)造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進(jìn)行分析,得到所有站點(diǎn)的聯(lián)系信息頁。
21.根據(jù)權(quán)利要求12或18所述的裝置,其特征在于,該裝置還包括: 校驗(yàn)?zāi)K,用于對所述第一信息提取模塊或所述第二信息提取模塊獲取的同一站點(diǎn)內(nèi)多個位置來源的興趣點(diǎn)名稱進(jìn)行校驗(yàn),確定站點(diǎn)的興趣點(diǎn)名稱。
22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述校驗(yàn)?zāi)K的具體配置包括: 根據(jù)預(yù)設(shè)的可信度規(guī)則和興趣點(diǎn)名稱的提取位置,對所提取的興趣點(diǎn)名稱確定名稱可信度; 或者,統(tǒng)計所提取的興趣點(diǎn)名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度; 將名稱可信度滿足預(yù)設(shè)要`求的興趣點(diǎn)名稱作為該站點(diǎn)的興趣點(diǎn)名稱。
【文檔編號】G06F17/30GK103514234SQ201210227184
【公開日】2014年1月15日 申請日期:2012年6月30日 優(yōu)先權(quán)日:2012年6月30日
【發(fā)明者】王松 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
宜都市| 平潭县| 罗田县| 承德市| 沁源县| 双峰县| 岢岚县| 绥阳县| 甘孜| 惠安县| 临安市| 定兴县| 广灵县| 甘德县| 浦东新区| 长子县| 郁南县| 临安市| 壶关县| 家居| 上虞市| 蓬安县| 绥化市| 呼玛县| 固始县| 隆化县| 罗田县| 颍上县| 三原县| 景泰县| 兴海县| 韶关市| 安阳县| 洪雅县| 南投县| 蒙自县| 崇义县| 天柱县| 长汀县| 宁阳县| 新泰市|