两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦方法與流程

文檔序號:12177195閱讀:1190來源:國知局
一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦方法與流程

本發(fā)明涉及一種基于網(wǎng)頁數(shù)據(jù)的興趣推薦方法。



背景技術(shù):

大數(shù)據(jù)應(yīng)用處理方面:

近些年來,大數(shù)據(jù)一詞被越來越多的提及和應(yīng)用,人們通常用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并且隨著互聯(lián)網(wǎng)的普及應(yīng)用,人們基本實(shí)現(xiàn)了可以不受時間和地點(diǎn)的約束,隨時隨地從互聯(lián)網(wǎng)獲取自己想要的信息并同時產(chǎn)生著新的信息??梢姅?shù)據(jù)量爆炸式的增長離不開互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)中產(chǎn)生的信息成為新信息的主要來源。單從互聯(lián)網(wǎng)來看,每天產(chǎn)生的數(shù)據(jù)量級就早已遠(yuǎn)遠(yuǎn)超出了普通計(jì)算機(jī)可以處理的范圍,在這些數(shù)據(jù)中蘊(yùn)含大量的有用的和無用的信息,這些數(shù)據(jù)大部分還沒有被人們所利用,是有待研究和挖掘的數(shù)據(jù)。

在眾多的網(wǎng)絡(luò)信息當(dāng)中,數(shù)以億計(jì)的網(wǎng)頁是承載這些信息的主要載體。它們大部分由文本、圖片或視頻這類非結(jié)構(gòu)化的數(shù)據(jù)組成,這種非結(jié)構(gòu)化數(shù)據(jù)既不容易被存儲和分析,還包含了大量的無用信息。于是,如何處理這些信息并且有效的加以利用成為了很多專家學(xué)者和企業(yè)所關(guān)注的問題。

推薦系統(tǒng)方面:

互聯(lián)網(wǎng)營銷的迅速發(fā)展,使得企業(yè)間的競爭變得日益激烈。這種營銷方式徹底顛覆了傳統(tǒng)的讓客戶被動接受廣告的局面,而是使企業(yè)的營銷理念轉(zhuǎn)變?yōu)?,誰最有可能對我的產(chǎn)品有需求,我再推薦給誰的方式,也就是個性化推薦服務(wù)。這種營銷模式既可以節(jié)約企業(yè)投放廣告的成本,又能大大提高投放廣告的精度。其最成功的經(jīng)典案例就是亞馬遜的圖書推薦系統(tǒng),成為了各大電商效仿的對象。那么如何尋找最有可能對產(chǎn)品有需求的用戶就成為了企業(yè)在營銷中最關(guān)心的問題。正所謂知已知彼才能百戰(zhàn)百勝,哪個企業(yè)能夠深入了解用戶的上網(wǎng)習(xí)慣、興趣特征和近期關(guān)注點(diǎn),然后“投其所好”,哪個企業(yè)才在市場競爭中占據(jù)更加有利的地位。而用戶興趣建模就可以幫助企業(yè)找到最有可能對產(chǎn)品有需求的用戶。

興趣推薦方面:

在傳統(tǒng)購物環(huán)境下,鑒于消費(fèi)者的消費(fèi)偏好具有一定的動態(tài)轉(zhuǎn)移性,優(yōu)秀的售貨員通常根據(jù)消費(fèi)者的購買歷史及當(dāng)前的購買興趣為其推薦商品。網(wǎng)絡(luò)環(huán)境下,以推薦功能為核心的購物助手一定程度上降低了網(wǎng)絡(luò)消費(fèi)者的搜索成本,但所采用的推薦算法一般僅以用戶對商品的歷史評分為推薦依據(jù),或根據(jù)用戶在網(wǎng)頁的瀏覽記錄和頻率進(jìn)行推薦,往往忽略了消費(fèi)者消費(fèi)偏好動態(tài)轉(zhuǎn)移的特征和搜索相關(guān)關(guān)鍵詞的變動,導(dǎo)致了推薦精度的下降。因此,預(yù)提高推薦的精度,必須關(guān)注消費(fèi)者消費(fèi)偏好的動態(tài)轉(zhuǎn)變,或關(guān)注搜索相關(guān)關(guān)鍵詞的變動。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦算法,通過對用戶上網(wǎng)時搜索和瀏覽的網(wǎng)頁進(jìn)行研究,針對一個具體的行業(yè),通話優(yōu)化切詞方法,提高切詞準(zhǔn)確率完善詞庫,從而準(zhǔn)確地分析用戶興趣喜好特征。本發(fā)明的技術(shù)方案如下:

一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦算法,包括下列步驟

1)定位目標(biāo)群體

通過對搜索引擎后臺數(shù)據(jù)中網(wǎng)民的搜索詞和瀏覽過的網(wǎng)頁信息進(jìn)行分析,推測某類人群的表象的興趣和潛在興趣,確定目標(biāo)人群;

2)獲取目標(biāo)人群搜索瀏覽數(shù)據(jù)

在確定了目標(biāo)人群之后,從搜索引擎后臺數(shù)據(jù)中心可以獲得目標(biāo)人群在任何時間段內(nèi)在搜索引擎上所有的檢索詞數(shù)據(jù)和瀏覽過的URL,抓取URL的頁面標(biāo)題,頁面描述和頁面關(guān)鍵詞的方法,獲得網(wǎng)頁中最能代表和體現(xiàn)目標(biāo)人群意愿的信息;

3)非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化

加載相關(guān)詞包,詞包為根據(jù)用戶常用的搜索詞建立的標(biāo)簽體系;

通過文本挖掘技術(shù)將所有目標(biāo)群體搜索的query和瀏覽網(wǎng)址的標(biāo)題文本進(jìn)行分詞;

為減少由于詞包不全導(dǎo)致的分詞錯誤,用詞包對文本進(jìn)行分詞后,選出頻率較高的詞,完善詞包,進(jìn)行再次分詞,在分詞階段只留取名詞、動詞和形容詞;

4)興趣建模

在分詞之后,需要從中提取和非目標(biāo)人群相比區(qū)分度大的詞,提取搜索和網(wǎng)頁數(shù)據(jù)文本中的關(guān)鍵詞;再通過k-means聚類算法實(shí)現(xiàn)對用戶興趣的細(xì)分,用戶興趣細(xì)分是用戶行為分析的重要內(nèi)容,通過對用戶興趣的細(xì)分對用戶貼上不同的標(biāo)簽;

挖掘潛在用戶,挖掘潛在用戶的思路通常是根據(jù)一部分已知消費(fèi)過的用戶樣本,通過統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法找到在這一部分樣本當(dāng)中存在的規(guī)律,通過apriori算法,找到文本當(dāng)中詞與詞之間存在的某種關(guān)系,然后通過詞與詞之間的關(guān)系,找到有價值的信息,從而實(shí)現(xiàn)推薦。

本發(fā)明的有益效果如下:

1.本專利提出了一種通過完善詞庫來提高切詞準(zhǔn)確率的方法,降低了切詞出現(xiàn)錯誤的幾率,從而提高了最終推薦結(jié)果的準(zhǔn)確率。

2.本專利提出了基于行業(yè)具體分析特定人群的興趣喜好特征,并作出精確推薦

3.本專利的算法簡單常用,非常方便進(jìn)行編寫和并行化處理。

附圖說明

圖1本發(fā)明的技術(shù)方案的總流程圖。

圖2分詞的標(biāo)簽體系。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行說明。

本發(fā)明提出的方法的基本思想是:通過對用戶上網(wǎng)時搜索和瀏覽的網(wǎng)頁進(jìn)行研究,針對一個具體的行業(yè),通話優(yōu)化切詞方法,提高切詞準(zhǔn)確率完善詞庫,從而準(zhǔn)確地分析用戶興趣喜好特征,并進(jìn)行興趣推薦。方案整體示意圖如圖(1),具體步驟如下:

1定位目標(biāo)群體

以旅游行業(yè)為例,研究說明如何搭建以旅游為興趣核心的用戶興趣模型。首先需要明確研究的目的,是希望通過對搜索引擎后臺數(shù)據(jù)中網(wǎng)民的搜索詞和瀏覽過的網(wǎng)頁信息進(jìn)行分析,推測某類人群的表象的興趣和潛在興趣,根據(jù)得到的用戶興趣,再反過來對電子商務(wù)和搜索引擎的廣告投放進(jìn)行指導(dǎo)。

那么如何確定所研究的用戶是否喜歡旅游,是確定目標(biāo)群體的關(guān)鍵。在搜索引擎上的搜索和瀏覽行為,體現(xiàn)的是用戶主動的需求,用戶不感興趣的東西是不會搜索或是瀏覽的,所以每個用戶搜索的詞和瀏覽的網(wǎng)頁,都是符合自己的興趣和需要的,和自己無關(guān)或是不感興趣的網(wǎng)頁,基本是不會瀏覽的。通常訪問旅游網(wǎng)站的人通常是對旅游有需求的,而在旅游網(wǎng)站里消費(fèi)過的就更能夠說明對旅游是有興趣的,所以選取訪問過旅游網(wǎng)站訂單頁的用戶作為目標(biāo)群體進(jìn)行研究。

2獲取目標(biāo)人群搜索瀏覽的數(shù)據(jù)

在確定了目標(biāo)人群之后,需要找到這些人并獲得他們在一段時間內(nèi)的搜索和瀏覽數(shù)據(jù)。從搜索引擎后臺數(shù)據(jù)中心可以獲得目標(biāo)人群在任何時間段內(nèi)在搜索引擎上所有的檢索詞數(shù)據(jù)和瀏覽過的URL,由于用戶是以id形式存在的,不會涉及個人信息泄露,也不存在侵犯隱私的問題。但由于URL網(wǎng)址并不直接包含信息,需要對每個記錄的URL的內(nèi)容進(jìn)行爬取。如果用爬蟲技術(shù)爬取網(wǎng)頁的所有內(nèi)容,有可能會獲得很多無用的信息,因?yàn)榫W(wǎng)民在點(diǎn)擊網(wǎng)頁的時候通常只是被網(wǎng)頁的標(biāo)題和描述所吸引,有可能在點(diǎn)入后對網(wǎng)頁的內(nèi)容并不感興趣,所以本發(fā)明使用Python中的Beautiful Soup包抓取URL的頁面標(biāo)題,頁面描述和頁面關(guān)鍵詞的方法,獲得網(wǎng)頁中最能代表和體現(xiàn)目標(biāo)人群意愿的信息。

3非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化

通過上述的文本挖掘技術(shù)將所有目標(biāo)群體搜索的query和瀏覽網(wǎng)址的標(biāo)題文本進(jìn)行分詞,在分詞之前需要加載旅游相關(guān)詞包。首先從搜狗細(xì)胞詞庫中下載了旅游詞匯大全、全國旅行社名錄和全國機(jī)場名稱的一系列旅游相關(guān)詞庫,將它們加載到分詞的詞庫中;其次是人群標(biāo)簽體系,該標(biāo)簽體系包含三個級別,一級標(biāo)簽有14個,二級標(biāo)簽79個,三級標(biāo)簽354個。如圖(2)所示。

在加載了相關(guān)詞包后還需要考慮到這批文本的特殊性,故為了減少由于詞庫中詞包不全導(dǎo)致的分詞錯誤,需要用現(xiàn)有詞包對文本進(jìn)行分詞后,選出頻率較高的詞,查看是否有單字過多、分詞不準(zhǔn)的情況發(fā)生,然后再完善詞包,進(jìn)行再次分詞。由于例如助詞、連詞和語氣詞等詞性的詞并沒有重要的含義,需要去掉一些常見的無意義詞,如“的”、“是”等,這些詞會成為興趣建模的噪音,所以在分詞階段只留取了名詞、動詞和形容詞,因?yàn)橹挥羞@類詞中才有可能保留有關(guān)用戶興趣的信息。

4興趣建模

在分詞之后,需要從中提取和非目標(biāo)人群相比區(qū)分度大的詞。利用TF-IDF算法提取搜索和網(wǎng)頁數(shù)據(jù)文本中的關(guān)鍵詞。再通過k-means聚類算法實(shí)現(xiàn)對用戶興趣的細(xì)分,用戶興趣細(xì)分是用戶行為分析的重要內(nèi)容,可以通過對用戶興趣的細(xì)分對用戶貼上不同的標(biāo)簽。最后則是挖掘潛在用戶,挖掘潛在用戶的思路通常是根據(jù)一部分已知消費(fèi)過的用戶樣本,通過統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法找到在這一部分樣本當(dāng)中存在的規(guī)律。對于本專利來說,在通過對目標(biāo)群體搜索和瀏覽的文本進(jìn)行權(quán)重設(shè)定和聚類分析之后,可以通過apriori算法,找到文本當(dāng)中詞與詞之間存在的某種關(guān)系,然后通過詞與詞之間的關(guān)系,就能夠找到有價值的信息,從而實(shí)現(xiàn)推薦。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
来安县| 汪清县| 康马县| 锡林郭勒盟| 定州市| 临洮县| 福泉市| 永丰县| 石河子市| 海林市| 晋中市| 平和县| 遂溪县| 福泉市| 香格里拉县| 崇义县| 永仁县| 平定县| 东海县| 司法| 宁远县| 石台县| 四子王旗| 望奎县| 泰安市| 岗巴县| 瓮安县| 永定县| 金湖县| 永州市| 横山县| 三门峡市| 侯马市| 罗平县| 弋阳县| 盘山县| 泽普县| 嘉定区| 东阿县| 马山县| 德格县|