两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

篩選興趣點(diǎn)poi數(shù)據(jù)的方法及裝置的制造方法_2

文檔序號(hào):9350011閱讀:來(lái)源:國(guó)知局
OI數(shù)據(jù),解決了現(xiàn)有技術(shù)中難以從互聯(lián)網(wǎng)中收集到的較為準(zhǔn)確的大量POI數(shù)據(jù)的問題。
[0045]步驟SllO:獲取包括POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面及網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度。
[0046]其中,步驟SllO獲取包括POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面的步驟具體包括:從互聯(lián)網(wǎng)中獲取多個(gè)POI數(shù)據(jù);爬取包括地址信息的多個(gè)網(wǎng)頁(yè)頁(yè)面;將多個(gè)POI數(shù)據(jù)中的地址信息及多個(gè)網(wǎng)頁(yè)頁(yè)面包含的地址信息分別歸一化為經(jīng)瑋度信息;基于同一經(jīng)瑋度信息,在多個(gè)POI數(shù)據(jù)的經(jīng)瑋度信息與多個(gè)網(wǎng)頁(yè)頁(yè)面中經(jīng)瑋度信息中進(jìn)行匹配;對(duì)于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁(yè)頁(yè)面,根據(jù)該P(yáng)OI數(shù)據(jù)對(duì)應(yīng)的POI名稱在該網(wǎng)頁(yè)頁(yè)面中進(jìn)行查找,確定該網(wǎng)頁(yè)頁(yè)面中是否包括該P(yáng)OI數(shù)據(jù)的POI名稱;當(dāng)該網(wǎng)頁(yè)頁(yè)面中包括該P(yáng)OI數(shù)據(jù)的POI名稱時(shí),確定該網(wǎng)頁(yè)頁(yè)面包括該興趣點(diǎn)POI數(shù)據(jù)。
[0047]首先,從互聯(lián)網(wǎng)中獲取多個(gè)POI數(shù)據(jù)。例如,可利用網(wǎng)絡(luò)爬蟲類的程序,從互聯(lián)網(wǎng)中爬取多個(gè)包括POI數(shù)據(jù)的網(wǎng)頁(yè);隨后從多個(gè)包括POI數(shù)據(jù)的網(wǎng)頁(yè)中提取多個(gè)POI數(shù)據(jù)。POI數(shù)據(jù)包括地址信息和POI名稱;優(yōu)選地,POI數(shù)據(jù)還可以包括聯(lián)系方式、郵編和網(wǎng)絡(luò)標(biāo)簽等等。
[0048]隨后,爬取包括地址信息的多個(gè)網(wǎng)頁(yè)頁(yè)面。具體地,利用網(wǎng)絡(luò)爬蟲類的程序,從互聯(lián)網(wǎng)中爬取包括地址關(guān)鍵詞的多個(gè)網(wǎng)頁(yè)頁(yè)面;提取多個(gè)網(wǎng)頁(yè)頁(yè)面中與地址關(guān)鍵詞相關(guān)聯(lián)的多個(gè)文本信息。例如,對(duì)于一個(gè)網(wǎng)頁(yè)頁(yè)面,提取該網(wǎng)頁(yè)頁(yè)面的文本內(nèi)容,在文本內(nèi)容中查找“地址”、“位于”或“坐落于”等可能包括地址信息的地址關(guān)鍵詞;提取地址關(guān)鍵詞附近的文本片段;根據(jù)設(shè)定的分隔符以及片段長(zhǎng)度對(duì)文本片段進(jìn)行分割,比如文本片段距離地址關(guān)鍵詞的文本長(zhǎng)度大于設(shè)定的閾值、和/或文本片段出現(xiàn)設(shè)定的分隔符(比如空格、逗號(hào)、句號(hào)等),則對(duì)文本片段進(jìn)行分割;將分割結(jié)果中,分割處(例如分隔符處)與地址關(guān)鍵詞之間的文本片段,作為該網(wǎng)頁(yè)頁(yè)面中與地址關(guān)鍵詞相關(guān)聯(lián)的文本信息;對(duì)于提取自網(wǎng)頁(yè)頁(yè)面中的每個(gè)文本信息,從該文本信息中提取出地址信息,作為該網(wǎng)頁(yè)頁(yè)面的地址信息。
[0049]接著,將多個(gè)POI數(shù)據(jù)中的地址信息及多個(gè)網(wǎng)頁(yè)頁(yè)面包含的地址信息分別歸一化為經(jīng)瑋度信息。預(yù)先獲取包括全國(guó)的省、市、縣(區(qū))、鄉(xiāng)鎮(zhèn)、道路等的地址信息、經(jīng)瑋度信息,以及地址信息與經(jīng)瑋度信息之間的對(duì)應(yīng)關(guān)系的地理信息庫(kù)。例如,對(duì)于每個(gè)POI數(shù)據(jù)中的地址信息,從預(yù)先獲取的地理信息庫(kù)中查找出該地址信息所對(duì)應(yīng)的經(jīng)瑋度信息,將查找出的經(jīng)瑋度信息確定為該P(yáng)OI數(shù)據(jù)的經(jīng)瑋度信息。同時(shí),對(duì)于每個(gè)網(wǎng)頁(yè)頁(yè)面包含的地址信息,從預(yù)先獲取的地理信息庫(kù)中查找出該地址信息所對(duì)應(yīng)的經(jīng)瑋度信息,將查找出的經(jīng)瑋度信息確定為該網(wǎng)頁(yè)頁(yè)面的經(jīng)瑋度信息。
[0050]隨后,基于同一經(jīng)瑋度信息,在多個(gè)POI數(shù)據(jù)的經(jīng)瑋度信息與多個(gè)網(wǎng)頁(yè)頁(yè)面中經(jīng)瑋度信息中進(jìn)行匹配。具體地,對(duì)于每個(gè)POI數(shù)據(jù),判斷各網(wǎng)頁(yè)頁(yè)面中,是否存在經(jīng)瑋度信息與該P(yáng)OI數(shù)據(jù)的經(jīng)瑋度信息相一致的網(wǎng)頁(yè)頁(yè)面,若是,則確定出該P(yáng)OI數(shù)據(jù)與該網(wǎng)頁(yè)頁(yè)面相匹配,即確定出該P(yáng)OI數(shù)據(jù)與該網(wǎng)頁(yè)頁(yè)面具有相同經(jīng)瑋度信息,否則,忽略該P(yáng)OI數(shù)據(jù)。
[0051]隨后,對(duì)于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁(yè)頁(yè)面,根據(jù)該P(yáng)OI數(shù)據(jù)對(duì)應(yīng)的POI名稱在該網(wǎng)頁(yè)頁(yè)面中進(jìn)行查找,確定該網(wǎng)頁(yè)頁(yè)面中是否包括該P(yáng)OI數(shù)據(jù)的POI名稱。
[0052]接著,對(duì)于具有相同經(jīng)瑋度信息的POI數(shù)據(jù)及網(wǎng)頁(yè)頁(yè)面,當(dāng)該網(wǎng)頁(yè)頁(yè)面中包括該P(yáng)OI數(shù)據(jù)的POI名稱時(shí),確定該網(wǎng)頁(yè)頁(yè)面包括該興趣點(diǎn)POI數(shù)據(jù)。
[0053]其中,步驟SllO獲取網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度的步驟具體包括:根據(jù)網(wǎng)頁(yè)頁(yè)面在第一時(shí)長(zhǎng)內(nèi)的用戶訪問次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng),獲取網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度。其中,用戶訪問次數(shù)可為用戶對(duì)指向網(wǎng)頁(yè)頁(yè)面的鏈接的點(diǎn)擊次數(shù)。
[0054]例如,根據(jù)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面標(biāo)識(shí)在用戶歷史訪問記錄中查詢,確定在第一時(shí)長(zhǎng)內(nèi),如近30日內(nèi),該網(wǎng)頁(yè)頁(yè)面對(duì)應(yīng)鏈接的用戶點(diǎn)擊次數(shù)和/或該網(wǎng)頁(yè)頁(yè)面的平均每次瀏覽時(shí)長(zhǎng),隨后基于關(guān)注度計(jì)算公式,通過對(duì)用戶點(diǎn)擊次數(shù)和/或平均每次瀏覽時(shí)長(zhǎng)賦予相應(yīng)的權(quán)重進(jìn)行加權(quán)計(jì)算,來(lái)確定網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度;其中,用戶歷史訪問記錄中包括網(wǎng)頁(yè)頁(yè)面對(duì)應(yīng)鏈接的用戶點(diǎn)擊和/或用戶對(duì)網(wǎng)頁(yè)頁(yè)面的瀏覽記錄。
[0055]步驟S120:根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度。
[0056]可選地,當(dāng)網(wǎng)頁(yè)頁(yè)面中僅包括一個(gè)POI數(shù)據(jù)時(shí),確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度的方式具體為:將網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度作為該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度。
[0057]可選地,如圖2所示,當(dāng)網(wǎng)頁(yè)頁(yè)面中包括多個(gè)POI數(shù)據(jù)時(shí),根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,確定該網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的用戶關(guān)注度的步驟,進(jìn)一步包括:
[0058]步驟S221:按照預(yù)定頻率抓取第二時(shí)長(zhǎng)內(nèi)網(wǎng)頁(yè)頁(yè)面中的頁(yè)面內(nèi)容;步驟S222:提取每次抓取到的頁(yè)面內(nèi)容中的POI數(shù)據(jù);步驟S223:判斷第二時(shí)長(zhǎng)網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更;步驟S224:當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,并結(jié)合網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的個(gè)數(shù),將網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度平均分配至該網(wǎng)頁(yè)頁(yè)面中的各POI數(shù)據(jù)。
[0059]步驟S221:按照預(yù)定頻率抓取第二時(shí)長(zhǎng)內(nèi)網(wǎng)頁(yè)頁(yè)面中的頁(yè)面內(nèi)容。
[0060]具體地,對(duì)于包括多個(gè)POI數(shù)據(jù)的網(wǎng)頁(yè)頁(yè)面,可利用網(wǎng)絡(luò)爬蟲類的程序,從互聯(lián)網(wǎng)中按照預(yù)定頻率抓取在第二時(shí)長(zhǎng)內(nèi)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容,如以I次/日的頻率,抓取180日內(nèi)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容。
[0061]步驟S222:提取每次抓取到的頁(yè)面內(nèi)容中的POI數(shù)據(jù)。
[0062]例如,對(duì)于首次抓取到的頁(yè)面內(nèi)容,從中提取文本內(nèi)容,并在文本內(nèi)容中查找“地址”、“位于”或“坐落于”等可能包括地址信息的地址關(guān)鍵詞;提取地址關(guān)鍵詞附近的文本片段;根據(jù)設(shè)定的分隔符以及片段長(zhǎng)度對(duì)文本片段進(jìn)行分割,比如文本片段距離地址關(guān)鍵詞的文本長(zhǎng)度大于設(shè)定的閾值、和/或文本片段出現(xiàn)設(shè)定的分隔符(比如空格、逗號(hào)、句號(hào)等),則對(duì)文本片段進(jìn)行分割;將分割結(jié)果中,分割處(例如分隔符處)與地址關(guān)鍵詞之間的文本片段,作為該網(wǎng)頁(yè)頁(yè)面中與地址關(guān)鍵詞相關(guān)聯(lián)的文本信息;隨后,對(duì)于各個(gè)文本信息,從各個(gè)文本信息中提取出地址信息,并基于各個(gè)地址信息,分別提取距離其各自最近的名稱作為POI名稱,即提取到各個(gè)POI數(shù)據(jù)。對(duì)于之后抓取到的頁(yè)面內(nèi)容,可基于首次已確定的POI數(shù)據(jù)所在的頁(yè)面位置處直接提取。
[0063]步驟S223:判斷第二時(shí)長(zhǎng)網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容中POI數(shù)據(jù)是否發(fā)生變更。
[0064]具體地,以I次/日的頻率抓取到180日內(nèi)該網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容,即180張?jiān)摼W(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容,比較從180張網(wǎng)頁(yè)頁(yè)面的頁(yè)面內(nèi)容中提到的各個(gè)POI數(shù)據(jù)是否相同,若相同則確定POI數(shù)據(jù)發(fā)生未變更。例如,一個(gè)網(wǎng)頁(yè)頁(yè)面中包括三個(gè)POI數(shù)據(jù),用P1、P2和P3表示;P1的POI名稱為大董烤鴨店(團(tuán)結(jié)湖店),P2的POI名稱為大董烤鴨店(東四十條店),P3的POI名稱為大董烤鴨店(玉淵潭店);以I次/日的頻率抓取到180日內(nèi)該網(wǎng)頁(yè)頁(yè)面的180張頁(yè)面內(nèi)容,提取該180張頁(yè)面內(nèi)容中P1、P2和P3分別對(duì)應(yīng)的POI名稱和地址信息,即比較180個(gè)Pl的POI名稱和地址信息、180個(gè)P2的POI名稱和地址信息以及180個(gè)P3的POI名稱和地址信息分別是否相同。
[0065]步驟S224:當(dāng)POI數(shù)據(jù)發(fā)生變更時(shí),根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,并結(jié)合網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的個(gè)數(shù),將網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度平均分配至該網(wǎng)頁(yè)頁(yè)面中的各POI數(shù)據(jù)。
[0066]具體地,當(dāng)網(wǎng)頁(yè)頁(yè)面中任一 POI數(shù)據(jù)發(fā)生變更時(shí),根據(jù)網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度,并結(jié)合網(wǎng)頁(yè)頁(yè)面中包括的POI數(shù)據(jù)的個(gè)數(shù),通過計(jì)算n/m可確定各個(gè)POI數(shù)據(jù)的用戶關(guān)注度;其中,網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度為n,網(wǎng)頁(yè)頁(yè)面中包含的POI數(shù)據(jù)的個(gè)數(shù)為m。
[0067]可選地,當(dāng)POI數(shù)據(jù)發(fā)生未變更時(shí),將網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度作為該網(wǎng)頁(yè)頁(yè)面中包括的各POI數(shù)據(jù)的用戶關(guān)注度。
[0068]在此,若一個(gè)網(wǎng)頁(yè)頁(yè)面中出現(xiàn)的POI數(shù)據(jù)自始至終沒有發(fā)生過變化,則此網(wǎng)頁(yè)頁(yè)面中的各個(gè)POI數(shù)據(jù)應(yīng)該直接繼承網(wǎng)頁(yè)的用戶關(guān)注度;例如,一篇新聞報(bào)道網(wǎng)頁(yè)中出現(xiàn)過一個(gè)公司的多個(gè)分公司名稱及相應(yīng)的分公司地址信息,即多個(gè)POI數(shù)據(jù),則這篇新聞網(wǎng)頁(yè)中的各個(gè)POI數(shù)據(jù)可直接繼承網(wǎng)頁(yè)的用戶關(guān)注度。再例如,一個(gè)團(tuán)購(gòu)類網(wǎng)頁(yè)頁(yè)面,此網(wǎng)頁(yè)頁(yè)面中的團(tuán)購(gòu)信息包含多個(gè)POI數(shù)據(jù),而該團(tuán)購(gòu)類網(wǎng)頁(yè)頁(yè)面中的POI數(shù)據(jù)是會(huì)隨著時(shí)間的變化發(fā)生變化,故該多個(gè)POI數(shù)據(jù)是不應(yīng)該直接繼承網(wǎng)頁(yè)的用戶關(guān)注度,而可根據(jù)網(wǎng)頁(yè)頁(yè)面中包含的POI數(shù)據(jù)的個(gè)數(shù)來(lái)平均分配網(wǎng)頁(yè)頁(yè)面的用戶關(guān)注度。
[0069]參照?qǐng)D1,步驟S130:基于各P
當(dāng)前第2頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
共和县| 临颍县| 个旧市| 郯城县| 抚顺县| 富蕴县| 江安县| 定襄县| 正定县| 景泰县| 南部县| 高碑店市| 海城市| 调兵山市| 满洲里市| 汤原县| 铜陵市| 沛县| 安阳县| 惠来县| 崇阳县| 克东县| 大关县| 泉州市| 赣州市| 茌平县| 广东省| 聂拉木县| 馆陶县| 荥阳市| 五家渠市| 巴南区| 阿鲁科尔沁旗| 陕西省| 宁远县| 库尔勒市| 无为县| 霞浦县| 广安市| 师宗县| 阳西县|