两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于Web動態(tài)信息抓取技術(shù)的詳情頁面自動生成方法與流程

文檔序號:11864853閱讀:1133來源:國知局

本發(fā)明涉及一種基于Web動態(tài)信息抓取技術(shù)的詳情頁面自動生成方法。



背景技術(shù):

目前國內(nèi)主流爬蟲都是直接使用http協(xié)議,下載指定url的靜態(tài)html內(nèi)容,并對內(nèi)容進行分析和抽取。此方法在搜索引擎、輿情監(jiān)控、垂直門戶網(wǎng)站等領(lǐng)域得到了大規(guī)模應(yīng)用。

但在電子商務(wù)領(lǐng)域,出于安全性、加載速度、頁面靜態(tài)化等因素的考慮,大部分網(wǎng)站的商品頁面中的價格、商品規(guī)格、圖文詳情等都是通過js以及ajax加載的動態(tài)html內(nèi)容。這使得傳統(tǒng)的網(wǎng)絡(luò)爬蟲系統(tǒng),根本無法有效的自動獲取商品信息。

隨著互聯(lián)網(wǎng)的發(fā)展,國內(nèi)大量線下零售企業(yè)均開始建設(shè)自有電商平臺,如廣百百貨的廣百薈、廣州友誼商場的網(wǎng)上商城,以實現(xiàn)商品線上線下一體售賣。但是傳統(tǒng)零售企業(yè)如果想把自己大量的商品在線上售賣,就需要對每個商品錄制詳細(xì)的商品圖文信息,工作量十分巨大。以大家電為例,僅冰箱、洗衣機、彩電、空調(diào)四大類商品,常用的型號就有8千到1萬,如果按照5個人的錄入團隊,1個人平均每小時錄入4個PC版商品+4個移動版的圖文詳情介紹,則需要3-4個月的時間,效率低。



技術(shù)實現(xiàn)要素:

本發(fā)明要解決的技術(shù)問題是提供一種效率高的基于Web動態(tài)信息抓取技術(shù)的詳情頁面自動生成方法。

為解決上述問題,本發(fā)明采用如下技術(shù)方案:

一種基于Web動態(tài)信息抓取技術(shù)的詳情頁面自動生成方法,包括以下步驟:

1)抓取程序模塊啟動瀏覽器;

2)模仿人的操作打開商品的詳情頁;

3)抓取頁面內(nèi)的信息,并下載關(guān)聯(lián)的圖片;

4)人工審核。

作為優(yōu)選,所述抓取程序模塊由Selenium測試工具和爬蟲程序搭建。

作為優(yōu)選,所述步驟1)的具體步驟包括:

1.1)在抓取程序模塊上輸入商品的基本信息和目標(biāo)商城;

1.2)抓取程序模塊基于Selenium測試工具的功能實現(xiàn)模仿人的操作啟動瀏覽器;

1.3)登錄商城;

1.4)通過步驟1.1)預(yù)設(shè)的關(guān)鍵字,在目標(biāo)網(wǎng)站進行搜索,找到對應(yīng)的商品。

作為優(yōu)選,所述步驟2)的具體步驟包括:

2.2)打開商品的詳情頁;

2.3)等待瀏覽器加載完靜態(tài)和動態(tài)內(nèi)容。

作為優(yōu)選,所述步驟3)的具體步驟包括:

3.1)基于爬蟲程序的功能實現(xiàn)自動抓取該頁面內(nèi)的商品價格、規(guī)格參數(shù)和商品詳情信息,并下載關(guān)聯(lián)的圖片;

3.2)將抓取到的圖文信息的格式進行轉(zhuǎn)化。

作為優(yōu)選,所述步驟1.4)若找不到對應(yīng)的商品則重新返回到步驟1.1)重新輸入商品的基本信息和目標(biāo)商城。

本發(fā)明的有益效果為:通過模仿人在瀏覽器發(fā)起鼠標(biāo)點擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個真實的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點。

具體實施方式

一種基于Web動態(tài)信息抓取技術(shù)的詳情頁面自動生成方法,包括以下步驟:

1)抓取程序模塊啟動瀏覽器;

2)模仿人的操作打開商品的詳情頁;

3)抓取頁面內(nèi)的信息,并下載關(guān)聯(lián)的圖片;

4)商城管理人員查看已抓取的商品信息,對存在問題的內(nèi)容進行快速修改,通過審核后信息開始應(yīng)用于自己的商城。

本發(fā)明的有益效果為:通過模仿人在瀏覽器發(fā)起鼠標(biāo)點擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個真實的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點。

實施例2

一種基于Web動態(tài)信息抓取技術(shù)的詳情頁面自動生成方法,包括以下步驟:

1.在抓取程序模塊上輸入商品的基本信息和目標(biāo)商城;抓取程序模塊基于Selenium測試工具的功能實現(xiàn)模仿人的操作啟動瀏覽器,登錄商城;通過預(yù)設(shè)的關(guān)鍵字,在目標(biāo)網(wǎng)站進行搜索,找到對應(yīng)的商品,若找不到對應(yīng)的商品則重新輸入商品的基本信息和目標(biāo)商城;

2)打開商品的詳情頁,等待瀏覽器加載完靜態(tài)和動態(tài)內(nèi)容;

3)基于爬蟲程序的功能實現(xiàn)自動抓取該頁面內(nèi)的商品價格、規(guī)格參數(shù)和商品詳情信息,并下載關(guān)聯(lián)的圖片;然后將抓取到的圖文信息轉(zhuǎn)化為我方商城的商品數(shù)據(jù)格式;

4)商城管理人員查看已抓取的商品信息,對存在問題的內(nèi)容進行快速修改,通過審核后信息開始應(yīng)用于自己的商城。

所述抓取程序模塊由Selenium測試工具和爬蟲程序搭建,基于Selenium技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)信息自動抓取程序,具有可以控制瀏覽器的行為,模仿人在瀏覽器發(fā)起鼠標(biāo)點擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,模仿一個商城會員的操作:打開瀏覽器->登錄目標(biāo)商城->查找目標(biāo)商品->打開商品詳情頁面->等待瀏覽器加載完靜態(tài)和動態(tài)內(nèi)容,然后再抽取商品名稱、價格、圖文詳情等內(nèi)容,操作完全模擬一個真實的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實用戶看到的圖文信息是完全一致的。

本發(fā)明的有益效果為:采用Selenium技術(shù)和網(wǎng)絡(luò)爬蟲技術(shù)通過模仿人在瀏覽器發(fā)起鼠標(biāo)點擊、鍵盤輸入等操作,并可監(jiān)控操作后瀏覽器內(nèi)容的變化,再結(jié)合網(wǎng)絡(luò)爬蟲的抓取的信息功能,完全模擬一個真實的用戶在瀏覽器的瀏覽操作,因此抓取的信息和真實用戶看到的圖文信息是完全一致的。相比于傳統(tǒng)的網(wǎng)絡(luò)爬蟲產(chǎn)品兼容性好、速度快、數(shù)據(jù)抓取準(zhǔn)確等特點。

以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何不經(jīng)過創(chuàng)造性勞動想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
海宁市| 博爱县| 永登县| 渝北区| 来宾市| 丰城市| 开鲁县| 陇西县| 琼海市| 保靖县| 松原市| 黑水县| 海淀区| 永丰县| 涿州市| 商水县| 砚山县| 芦溪县| 元阳县| 疏附县| 灵山县| 隆安县| 铜川市| 永定县| 平武县| 河东区| 江西省| 临泉县| 胶州市| 长沙县| 德庆县| 曲阳县| 莎车县| 双鸭山市| 多伦县| 环江| 山阳县| 石嘴山市| 大悟县| 竹北市| 富阳市|