本發(fā)明涉及一種基于網(wǎng)頁數(shù)據(jù)的興趣推薦方法。
背景技術(shù):
大數(shù)據(jù)應(yīng)用處理方面:
近些年來,大數(shù)據(jù)一詞被越來越多的提及和應(yīng)用,人們通常用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并且隨著互聯(lián)網(wǎng)的普及應(yīng)用,人們基本實(shí)現(xiàn)了可以不受時間和地點(diǎn)的約束,隨時隨地從互聯(lián)網(wǎng)獲取自己想要的信息并同時產(chǎn)生著新的信息??梢姅?shù)據(jù)量爆炸式的增長離不開互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)中產(chǎn)生的信息成為新信息的主要來源。單從互聯(lián)網(wǎng)來看,每天產(chǎn)生的數(shù)據(jù)量級就早已遠(yuǎn)遠(yuǎn)超出了普通計(jì)算機(jī)可以處理的范圍,在這些數(shù)據(jù)中蘊(yùn)含大量的有用的和無用的信息,這些數(shù)據(jù)大部分還沒有被人們所利用,是有待研究和挖掘的數(shù)據(jù)。
在眾多的網(wǎng)絡(luò)信息當(dāng)中,數(shù)以億計(jì)的網(wǎng)頁是承載這些信息的主要載體。它們大部分由文本、圖片或視頻這類非結(jié)構(gòu)化的數(shù)據(jù)組成,這種非結(jié)構(gòu)化數(shù)據(jù)既不容易被存儲和分析,還包含了大量的無用信息。于是,如何處理這些信息并且有效的加以利用成為了很多專家學(xué)者和企業(yè)所關(guān)注的問題。
推薦系統(tǒng)方面:
互聯(lián)網(wǎng)營銷的迅速發(fā)展,使得企業(yè)間的競爭變得日益激烈。這種營銷方式徹底顛覆了傳統(tǒng)的讓客戶被動接受廣告的局面,而是使企業(yè)的營銷理念轉(zhuǎn)變?yōu)?,誰最有可能對我的產(chǎn)品有需求,我再推薦給誰的方式,也就是個性化推薦服務(wù)。這種營銷模式既可以節(jié)約企業(yè)投放廣告的成本,又能大大提高投放廣告的精度。其最成功的經(jīng)典案例就是亞馬遜的圖書推薦系統(tǒng),成為了各大電商效仿的對象。那么如何尋找最有可能對產(chǎn)品有需求的用戶就成為了企業(yè)在營銷中最關(guān)心的問題。正所謂知已知彼才能百戰(zhàn)百勝,哪個企業(yè)能夠深入了解用戶的上網(wǎng)習(xí)慣、興趣特征和近期關(guān)注點(diǎn),然后“投其所好”,哪個企業(yè)才在市場競爭中占據(jù)更加有利的地位。而用戶興趣建模就可以幫助企業(yè)找到最有可能對產(chǎn)品有需求的用戶。
興趣推薦方面:
在傳統(tǒng)購物環(huán)境下,鑒于消費(fèi)者的消費(fèi)偏好具有一定的動態(tài)轉(zhuǎn)移性,優(yōu)秀的售貨員通常根據(jù)消費(fèi)者的購買歷史及當(dāng)前的購買興趣為其推薦商品。網(wǎng)絡(luò)環(huán)境下,以推薦功能為核心的購物助手一定程度上降低了網(wǎng)絡(luò)消費(fèi)者的搜索成本,但所采用的推薦算法一般僅以用戶對商品的歷史評分為推薦依據(jù),或根據(jù)用戶在網(wǎng)頁的瀏覽記錄和頻率進(jìn)行推薦,往往忽略了消費(fèi)者消費(fèi)偏好動態(tài)轉(zhuǎn)移的特征和搜索相關(guān)關(guān)鍵詞的變動,導(dǎo)致了推薦精度的下降。因此,預(yù)提高推薦的精度,必須關(guān)注消費(fèi)者消費(fèi)偏好的動態(tài)轉(zhuǎn)變,或關(guān)注搜索相關(guān)關(guān)鍵詞的變動。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦算法,通過對用戶上網(wǎng)時搜索和瀏覽的網(wǎng)頁進(jìn)行研究,針對一個具體的行業(yè),通話優(yōu)化切詞方法,提高切詞準(zhǔn)確率完善詞庫,從而準(zhǔn)確地分析用戶興趣喜好特征。本發(fā)明的技術(shù)方案如下:
一種基于非結(jié)構(gòu)化網(wǎng)頁數(shù)據(jù)的興趣推薦算法,包括下列步驟
1)定位目標(biāo)群體
通過對搜索引擎后臺數(shù)據(jù)中網(wǎng)民的搜索詞和瀏覽過的網(wǎng)頁信息進(jìn)行分析,推測某類人群的表象的興趣和潛在興趣,確定目標(biāo)人群;
2)獲取目標(biāo)人群搜索瀏覽數(shù)據(jù)
在確定了目標(biāo)人群之后,從搜索引擎后臺數(shù)據(jù)中心可以獲得目標(biāo)人群在任何時間段內(nèi)在搜索引擎上所有的檢索詞數(shù)據(jù)和瀏覽過的URL,抓取URL的頁面標(biāo)題,頁面描述和頁面關(guān)鍵詞的方法,獲得網(wǎng)頁中最能代表和體現(xiàn)目標(biāo)人群意愿的信息;
3)非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化
加載相關(guān)詞包,詞包為根據(jù)用戶常用的搜索詞建立的標(biāo)簽體系;
通過文本挖掘技術(shù)將所有目標(biāo)群體搜索的query和瀏覽網(wǎng)址的標(biāo)題文本進(jìn)行分詞;
為減少由于詞包不全導(dǎo)致的分詞錯誤,用詞包對文本進(jìn)行分詞后,選出頻率較高的詞,完善詞包,進(jìn)行再次分詞,在分詞階段只留取名詞、動詞和形容詞;
4)興趣建模
在分詞之后,需要從中提取和非目標(biāo)人群相比區(qū)分度大的詞,提取搜索和網(wǎng)頁數(shù)據(jù)文本中的關(guān)鍵詞;再通過k-means聚類算法實(shí)現(xiàn)對用戶興趣的細(xì)分,用戶興趣細(xì)分是用戶行為分析的重要內(nèi)容,通過對用戶興趣的細(xì)分對用戶貼上不同的標(biāo)簽;
挖掘潛在用戶,挖掘潛在用戶的思路通常是根據(jù)一部分已知消費(fèi)過的用戶樣本,通過統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法找到在這一部分樣本當(dāng)中存在的規(guī)律,通過apriori算法,找到文本當(dāng)中詞與詞之間存在的某種關(guān)系,然后通過詞與詞之間的關(guān)系,找到有價值的信息,從而實(shí)現(xiàn)推薦。
本發(fā)明的有益效果如下:
1.本專利提出了一種通過完善詞庫來提高切詞準(zhǔn)確率的方法,降低了切詞出現(xiàn)錯誤的幾率,從而提高了最終推薦結(jié)果的準(zhǔn)確率。
2.本專利提出了基于行業(yè)具體分析特定人群的興趣喜好特征,并作出精確推薦
3.本專利的算法簡單常用,非常方便進(jìn)行編寫和并行化處理。
附圖說明
圖1本發(fā)明的技術(shù)方案的總流程圖。
圖2分詞的標(biāo)簽體系。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行說明。
本發(fā)明提出的方法的基本思想是:通過對用戶上網(wǎng)時搜索和瀏覽的網(wǎng)頁進(jìn)行研究,針對一個具體的行業(yè),通話優(yōu)化切詞方法,提高切詞準(zhǔn)確率完善詞庫,從而準(zhǔn)確地分析用戶興趣喜好特征,并進(jìn)行興趣推薦。方案整體示意圖如圖(1),具體步驟如下:
1定位目標(biāo)群體
以旅游行業(yè)為例,研究說明如何搭建以旅游為興趣核心的用戶興趣模型。首先需要明確研究的目的,是希望通過對搜索引擎后臺數(shù)據(jù)中網(wǎng)民的搜索詞和瀏覽過的網(wǎng)頁信息進(jìn)行分析,推測某類人群的表象的興趣和潛在興趣,根據(jù)得到的用戶興趣,再反過來對電子商務(wù)和搜索引擎的廣告投放進(jìn)行指導(dǎo)。
那么如何確定所研究的用戶是否喜歡旅游,是確定目標(biāo)群體的關(guān)鍵。在搜索引擎上的搜索和瀏覽行為,體現(xiàn)的是用戶主動的需求,用戶不感興趣的東西是不會搜索或是瀏覽的,所以每個用戶搜索的詞和瀏覽的網(wǎng)頁,都是符合自己的興趣和需要的,和自己無關(guān)或是不感興趣的網(wǎng)頁,基本是不會瀏覽的。通常訪問旅游網(wǎng)站的人通常是對旅游有需求的,而在旅游網(wǎng)站里消費(fèi)過的就更能夠說明對旅游是有興趣的,所以選取訪問過旅游網(wǎng)站訂單頁的用戶作為目標(biāo)群體進(jìn)行研究。
2獲取目標(biāo)人群搜索瀏覽的數(shù)據(jù)
在確定了目標(biāo)人群之后,需要找到這些人并獲得他們在一段時間內(nèi)的搜索和瀏覽數(shù)據(jù)。從搜索引擎后臺數(shù)據(jù)中心可以獲得目標(biāo)人群在任何時間段內(nèi)在搜索引擎上所有的檢索詞數(shù)據(jù)和瀏覽過的URL,由于用戶是以id形式存在的,不會涉及個人信息泄露,也不存在侵犯隱私的問題。但由于URL網(wǎng)址并不直接包含信息,需要對每個記錄的URL的內(nèi)容進(jìn)行爬取。如果用爬蟲技術(shù)爬取網(wǎng)頁的所有內(nèi)容,有可能會獲得很多無用的信息,因?yàn)榫W(wǎng)民在點(diǎn)擊網(wǎng)頁的時候通常只是被網(wǎng)頁的標(biāo)題和描述所吸引,有可能在點(diǎn)入后對網(wǎng)頁的內(nèi)容并不感興趣,所以本發(fā)明使用Python中的Beautiful Soup包抓取URL的頁面標(biāo)題,頁面描述和頁面關(guān)鍵詞的方法,獲得網(wǎng)頁中最能代表和體現(xiàn)目標(biāo)人群意愿的信息。
3非結(jié)構(gòu)數(shù)據(jù)結(jié)構(gòu)化
通過上述的文本挖掘技術(shù)將所有目標(biāo)群體搜索的query和瀏覽網(wǎng)址的標(biāo)題文本進(jìn)行分詞,在分詞之前需要加載旅游相關(guān)詞包。首先從搜狗細(xì)胞詞庫中下載了旅游詞匯大全、全國旅行社名錄和全國機(jī)場名稱的一系列旅游相關(guān)詞庫,將它們加載到分詞的詞庫中;其次是人群標(biāo)簽體系,該標(biāo)簽體系包含三個級別,一級標(biāo)簽有14個,二級標(biāo)簽79個,三級標(biāo)簽354個。如圖(2)所示。
在加載了相關(guān)詞包后還需要考慮到這批文本的特殊性,故為了減少由于詞庫中詞包不全導(dǎo)致的分詞錯誤,需要用現(xiàn)有詞包對文本進(jìn)行分詞后,選出頻率較高的詞,查看是否有單字過多、分詞不準(zhǔn)的情況發(fā)生,然后再完善詞包,進(jìn)行再次分詞。由于例如助詞、連詞和語氣詞等詞性的詞并沒有重要的含義,需要去掉一些常見的無意義詞,如“的”、“是”等,這些詞會成為興趣建模的噪音,所以在分詞階段只留取了名詞、動詞和形容詞,因?yàn)橹挥羞@類詞中才有可能保留有關(guān)用戶興趣的信息。
4興趣建模
在分詞之后,需要從中提取和非目標(biāo)人群相比區(qū)分度大的詞。利用TF-IDF算法提取搜索和網(wǎng)頁數(shù)據(jù)文本中的關(guān)鍵詞。再通過k-means聚類算法實(shí)現(xiàn)對用戶興趣的細(xì)分,用戶興趣細(xì)分是用戶行為分析的重要內(nèi)容,可以通過對用戶興趣的細(xì)分對用戶貼上不同的標(biāo)簽。最后則是挖掘潛在用戶,挖掘潛在用戶的思路通常是根據(jù)一部分已知消費(fèi)過的用戶樣本,通過統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)方法找到在這一部分樣本當(dāng)中存在的規(guī)律。對于本專利來說,在通過對目標(biāo)群體搜索和瀏覽的文本進(jìn)行權(quán)重設(shè)定和聚類分析之后,可以通過apriori算法,找到文本當(dāng)中詞與詞之間存在的某種關(guān)系,然后通過詞與詞之間的關(guān)系,就能夠找到有價值的信息,從而實(shí)現(xiàn)推薦。