一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦方法與流程

文檔序號：12177195閱讀：1190來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦方法與流程

本發(fā)明涉及一種基于網(wǎng)頁數(shù)據(jù)的興趣推薦方法。

背景技術(shù)：

大數(shù)據(jù)應(yīng)用處理方面：

近些年來，大數(shù)據(jù)一詞被越來越多的提及和應(yīng)用，人們通常用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù)，并且隨著互聯(lián)網(wǎng)的普及應(yīng)用，人們基本實(shí)現(xiàn)了可以不受時間和地點(diǎn)的約束，隨時隨地從互聯(lián)網(wǎng)獲取自己想要的信息并同時產(chǎn)生著新的信息?？梢姅?shù)據(jù)量爆炸式的增長離不開互聯(lián)網(wǎng)的飛速發(fā)展，網(wǎng)絡(luò)中產(chǎn)生的信息成為新信息的主要來源。單從互聯(lián)網(wǎng)來看，每天產(chǎn)生的數(shù)據(jù)量級就早已遠(yuǎn)遠(yuǎn)超出了普通計(jì)算機(jī)可以處理的范圍，在這些數(shù)據(jù)中蘊(yùn)含大量的有用的和無用的信息，這些數(shù)據(jù)大部分還沒有被人們所利用，是有待研究和挖掘的數(shù)據(jù)。

在眾多的網(wǎng)絡(luò)信息當(dāng)中，數(shù)以億計(jì)的網(wǎng)頁是承載這些信息的主要載體。它們大部分由文本、圖片或視頻這類非結(jié)構(gòu)化的數(shù)據(jù)組成，這種非結(jié)構(gòu)化數(shù)據(jù)既不容易被存儲和分析，還包含了大量的無用信息。于是，如何處理這些信息并且有效的加以利用成為了很多專家學(xué)者和企業(yè)所關(guān)注的問題。

推薦系統(tǒng)方面：

互聯(lián)網(wǎng)營銷的迅速發(fā)展，使得企業(yè)間的競爭變得日益激烈。這種營銷方式徹底顛覆了傳統(tǒng)的讓客戶被動接受廣告的局面，而是使企業(yè)的營銷理念轉(zhuǎn)變?yōu)?，誰最有可能對我的產(chǎn)品有需求，我再推薦給誰的方式，也就是個性化推薦服務(wù)。這種營銷模式既可以節(jié)約企業(yè)投放廣告的成本，又能大大提高投放廣告的精度。其最成功的經(jīng)典案例就是亞馬遜的圖書推薦系統(tǒng)，成為了各大電商效仿的對象。那么如何尋找最有可能對產(chǎn)品有需求的用戶就成為了企業(yè)在營銷中最關(guān)心的問題。正所謂知已知彼才能百戰(zhàn)百勝，哪個企業(yè)能夠深入了解用戶的上網(wǎng)習(xí)慣、興趣特征和近期關(guān)注點(diǎn)，然后“投其所好”，哪個企業(yè)才在市場競爭中占據(jù)更加有利的地位。而用戶興趣建模就可以幫助企業(yè)找到最有可能對產(chǎn)品有需求的用戶。

興趣推薦方面：

在傳統(tǒng)購物環(huán)境下，鑒于消費(fèi)者的消費(fèi)偏好具有一定的動態(tài)轉(zhuǎn)移性，優(yōu)秀的售貨員通常根據(jù)消費(fèi)者的購買歷史及當(dāng)前的購買興趣為其推薦商品。網(wǎng)絡(luò)環(huán)境下，以推薦功能為核心的購物助手一定程度上降低了網(wǎng)絡(luò)消費(fèi)者的搜索成本，但所采用的推薦算法一般僅以用戶對商品的歷史評分為推薦依據(jù)，或根據(jù)用戶在網(wǎng)頁的瀏覽記錄和頻率進(jìn)行推薦，往往忽略了消費(fèi)者消費(fèi)偏好動態(tài)轉(zhuǎn)移的特征和搜索相關(guān)關(guān)鍵詞的變動，導(dǎo)致了推薦精度的下降。因此，預(yù)提高推薦的精度，必須關(guān)注消費(fèi)者消費(fèi)偏好的動態(tài)轉(zhuǎn)變，或關(guān)注搜索相關(guān)關(guān)鍵詞的變動。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦算法，通過對用戶上網(wǎng)時搜索和瀏覽的網(wǎng)頁進(jìn)行研究，針對一個具體的行業(yè)，通話優(yōu)化切詞方法，提高切詞準(zhǔn)確率完善詞庫，從而準(zhǔn)確地分析用戶興趣喜好特征。本發(fā)明的技術(shù)方案如下：

一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦算法，包括下列步驟

1)定位目標(biāo)群體

通過對搜索引擎后臺數(shù)據(jù)中網(wǎng)民的搜索詞和瀏覽過的網(wǎng)頁信息進(jìn)行分析，推測某類人群的表象的興趣和潛在興趣，確定目標(biāo)人群；

2)獲取目標(biāo)人群搜索瀏覽數(shù)據(jù)

在確定了目標(biāo)人群之后，從搜索引擎后臺數(shù)據(jù)中心可以獲得目標(biāo)人群在任何時間段內(nèi)在搜索引擎上所有的檢索詞數(shù)據(jù)和瀏覽過的URL，抓取URL的頁面標(biāo)題，頁面描述和頁面關(guān)鍵詞的方法，獲得網(wǎng)頁中最能代表和體現(xiàn)目標(biāo)人群意愿的信息；

3)非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化

加載相關(guān)詞包，詞包為根據(jù)用戶常用的搜索詞建立的標(biāo)簽體系；

通過文本挖掘技術(shù)將所有目標(biāo)群體搜索的query和瀏覽網(wǎng)址的標(biāo)題文本進(jìn)行分詞；

為減少由于詞包不全導(dǎo)致的分詞錯誤，用詞包對文本進(jìn)行分詞后，選出頻率較高的詞，完善詞包，進(jìn)行再次分詞，在分詞階段只留取名詞、動詞和形容詞；

4)興趣建模

在分詞之后，需要從中提取和非目標(biāo)人群相比區(qū)分度大的詞，提取搜索和網(wǎng)頁數(shù)據(jù)文本中的關(guān)鍵詞；再通過k-means聚類算法實(shí)現(xiàn)對用戶興趣的細(xì)分，用戶興趣細(xì)分是用戶行為分析的重要內(nèi)容，通過對用戶興趣的細(xì)分對用戶貼上不同的標(biāo)簽；

挖掘潛在用戶，挖掘潛在用戶的思路通常是根據(jù)一部分已知消費(fèi)過的用戶樣本，通過統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法找到在這一部分樣本當(dāng)中存在的規(guī)律，通過apriori算法，找到文本當(dāng)中詞與詞之間存在的某種關(guān)系，然后通過詞與詞之間的關(guān)系，找到有價值的信息，從而實(shí)現(xiàn)推薦。

本發(fā)明的有益效果如下：

1.本專利提出了一種通過完善詞庫來提高切詞準(zhǔn)確率的方法，降低了切詞出現(xiàn)錯誤的幾率，從而提高了最終推薦結(jié)果的準(zhǔn)確率。

2.本專利提出了基于行業(yè)具體分析特定人群的興趣喜好特征，并作出精確推薦

3.本專利的算法簡單常用，非常方便進(jìn)行編寫和并行化處理。

附圖說明

圖1本發(fā)明的技術(shù)方案的總流程圖。

圖2分詞的標(biāo)簽體系。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行說明。

本發(fā)明提出的方法的基本思想是：通過對用戶上網(wǎng)時搜索和瀏覽的網(wǎng)頁進(jìn)行研究，針對一個具體的行業(yè)，通話優(yōu)化切詞方法，提高切詞準(zhǔn)確率完善詞庫，從而準(zhǔn)確地分析用戶興趣喜好特征，并進(jìn)行興趣推薦。方案整體示意圖如圖(1)，具體步驟如下：

1定位目標(biāo)群體

以旅游行業(yè)為例，研究說明如何搭建以旅游為興趣核心的用戶興趣模型。首先需要明確研究的目的，是希望通過對搜索引擎后臺數(shù)據(jù)中網(wǎng)民的搜索詞和瀏覽過的網(wǎng)頁信息進(jìn)行分析，推測某類人群的表象的興趣和潛在興趣，根據(jù)得到的用戶興趣，再反過來對電子商務(wù)和搜索引擎的廣告投放進(jìn)行指導(dǎo)。

那么如何確定所研究的用戶是否喜歡旅游，是確定目標(biāo)群體的關(guān)鍵。在搜索引擎上的搜索和瀏覽行為，體現(xiàn)的是用戶主動的需求，用戶不感興趣的東西是不會搜索或是瀏覽的，所以每個用戶搜索的詞和瀏覽的網(wǎng)頁，都是符合自己的興趣和需要的，和自己無關(guān)或是不感興趣的網(wǎng)頁，基本是不會瀏覽的。通常訪問旅游網(wǎng)站的人通常是對旅游有需求的，而在旅游網(wǎng)站里消費(fèi)過的就更能夠說明對旅游是有興趣的，所以選取訪問過旅游網(wǎng)站訂單頁的用戶作為目標(biāo)群體進(jìn)行研究。

2獲取目標(biāo)人群搜索瀏覽的數(shù)據(jù)

在確定了目標(biāo)人群之后，需要找到這些人并獲得他們在一段時間內(nèi)的搜索和瀏覽數(shù)據(jù)。從搜索引擎后臺數(shù)據(jù)中心可以獲得目標(biāo)人群在任何時間段內(nèi)在搜索引擎上所有的檢索詞數(shù)據(jù)和瀏覽過的URL，由于用戶是以id形式存在的，不會涉及個人信息泄露，也不存在侵犯隱私的問題。但由于URL網(wǎng)址并不直接包含信息，需要對每個記錄的URL的內(nèi)容進(jìn)行爬取。如果用爬蟲技術(shù)爬取網(wǎng)頁的所有內(nèi)容，有可能會獲得很多無用的信息，因?yàn)榫W(wǎng)民在點(diǎn)擊網(wǎng)頁的時候通常只是被網(wǎng)頁的標(biāo)題和描述所吸引，有可能在點(diǎn)入后對網(wǎng)頁的內(nèi)容并不感興趣，所以本發(fā)明使用Python中的Beautiful Soup包抓取URL的頁面標(biāo)題，頁面描述和頁面關(guān)鍵詞的方法，獲得網(wǎng)頁中最能代表和體現(xiàn)目標(biāo)人群意愿的信息。

3非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化

通過上述的文本挖掘技術(shù)將所有目標(biāo)群體搜索的query和瀏覽網(wǎng)址的標(biāo)題文本進(jìn)行分詞，在分詞之前需要加載旅游相關(guān)詞包。首先從搜狗細(xì)胞詞庫中下載了旅游詞匯大全、全國旅行社名錄和全國機(jī)場名稱的一系列旅游相關(guān)詞庫，將它們加載到分詞的詞庫中；其次是人群標(biāo)簽體系，該標(biāo)簽體系包含三個級別，一級標(biāo)簽有14個，二級標(biāo)簽79個，三級標(biāo)簽354個。如圖(2)所示。

在加載了相關(guān)詞包后還需要考慮到這批文本的特殊性，故為了減少由于詞庫中詞包不全導(dǎo)致的分詞錯誤，需要用現(xiàn)有詞包對文本進(jìn)行分詞后，選出頻率較高的詞，查看是否有單字過多、分詞不準(zhǔn)的情況發(fā)生，然后再完善詞包，進(jìn)行再次分詞。由于例如助詞、連詞和語氣詞等詞性的詞并沒有重要的含義，需要去掉一些常見的無意義詞，如“的”、“是”等，這些詞會成為興趣建模的噪音，所以在分詞階段只留取了名詞、動詞和形容詞，因?yàn)橹挥羞@類詞中才有可能保留有關(guān)用戶興趣的信息。

4興趣建模

在分詞之后，需要從中提取和非目標(biāo)人群相比區(qū)分度大的詞。利用TF-IDF算法提取搜索和網(wǎng)頁數(shù)據(jù)文本中的關(guān)鍵詞。再通過k-means聚類算法實(shí)現(xiàn)對用戶興趣的細(xì)分，用戶興趣細(xì)分是用戶行為分析的重要內(nèi)容，可以通過對用戶興趣的細(xì)分對用戶貼上不同的標(biāo)簽。最后則是挖掘潛在用戶，挖掘潛在用戶的思路通常是根據(jù)一部分已知消費(fèi)過的用戶樣本，通過統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法找到在這一部分樣本當(dāng)中存在的規(guī)律。對于本專利來說，在通過對目標(biāo)群體搜索和瀏覽的文本進(jìn)行權(quán)重設(shè)定和聚類分析之后，可以通過apriori算法，找到文本當(dāng)中詞與詞之間存在的某種關(guān)系，然后通過詞與詞之間的關(guān)系，就能夠找到有價值的信息，從而實(shí)現(xiàn)推薦。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱培愷;王寶亮;
技術(shù)所有人：天津大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

網(wǎng)頁結(jié)構(gòu)化信息抽取相關(guān)技術(shù)

結(jié)構(gòu)化數(shù)據(jù)相關(guān)技術(shù)

非結(jié)構(gòu)化數(shù)據(jù)相關(guān)技術(shù)

網(wǎng)頁結(jié)構(gòu)化相關(guān)技術(shù)

非結(jié)構(gòu)化數(shù)據(jù)存儲相關(guān)技術(shù)

半結(jié)構(gòu)化數(shù)據(jù)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦方法與流程