本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種興趣信息識(shí)別的方法及裝置。
背景技術(shù):
隨著信息技術(shù)的快速發(fā)展,用戶的興趣愛好和關(guān)注點(diǎn)受到商家越來(lái)越多的關(guān)注,通過(guò)識(shí)別用戶的興趣愛好和關(guān)注點(diǎn)標(biāo)簽,可以增加互聯(lián)網(wǎng)營(yíng)銷的精準(zhǔn)性。通常,由于互聯(lián)網(wǎng)用戶不會(huì)主動(dòng)填寫和提交此類信息,只能通過(guò)被動(dòng)采集互聯(lián)網(wǎng)用戶的行為數(shù)據(jù)獲取用戶的興趣愛好和關(guān)注點(diǎn)等興趣信息信息。其中,用戶的行為數(shù)據(jù)包括用戶訪問(wèn)的訪問(wèn)頁(yè)URL(Uniform Resource Locator,URL,即統(tǒng)一資源定位符)、訪問(wèn)頁(yè)域名、訪問(wèn)頁(yè)標(biāo)題等信息。
目前,通常通過(guò)域名標(biāo)簽系統(tǒng)對(duì)用戶興趣信息進(jìn)行識(shí)別。具體是通過(guò)從域名標(biāo)簽系統(tǒng)中獲取與用戶訪問(wèn)的網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息作為用戶興趣信息。但是,由于域名標(biāo)簽系統(tǒng)中保存的網(wǎng)頁(yè)域名信息局限性較大,無(wú)法對(duì)所有網(wǎng)頁(yè)域名信息進(jìn)行覆蓋,從而造成現(xiàn)有興趣信息的識(shí)別精度較低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明實(shí)施例提供一種興趣信息的識(shí)別方法及裝置,主要目的是提高興趣信息的識(shí)別精度。
依據(jù)本發(fā)明一個(gè)方面,提供了一種興趣信息的識(shí)別方法,包括:
獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;
從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;
將所述標(biāo)簽信息配置為所述用戶的興趣信息。
依據(jù)本發(fā)明一個(gè)方面,提供了一種興趣信息的識(shí)別裝置,包括:
獲取單元,用于獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信 息包括網(wǎng)頁(yè)標(biāo)題信息;
所述獲取單元,還用于從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息
配置單元,用于將所述標(biāo)簽信息配置為所述用戶的興趣信息。
借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明實(shí)施例提供的一種興趣信息的識(shí)別方法及裝置,首先獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;然后從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;將所述標(biāo)簽信息配置為所述用戶的興趣信息。與目前通過(guò)域名標(biāo)簽系統(tǒng)識(shí)別用戶興趣信息相比,本發(fā)明通過(guò)網(wǎng)頁(yè)標(biāo)題信息識(shí)別用戶興趣信息,可以避免由于域名標(biāo)簽系統(tǒng)中保存的域名信息局限性較大,無(wú)法對(duì)所有域名信息進(jìn)行覆蓋造成的興趣信息的識(shí)別精度較低的問(wèn)題,進(jìn)而可以提高識(shí)別興趣信息的識(shí)別精度。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1為本發(fā)明實(shí)施例提供的一種興趣信息的識(shí)別方法流程圖;
圖2為本發(fā)明實(shí)施例提供的另一種興趣信息的識(shí)別方法流程圖;
圖3為本發(fā)明實(shí)施例提供的一種興趣信息的識(shí)別裝置的方框圖;
圖4為本發(fā)明實(shí)施例提供的另一種興趣信息的識(shí)別裝置的方框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開 而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供一種興趣信息的識(shí)別方法,如圖1所示,所述方法包括:
101、獲取用戶的頁(yè)面訪問(wèn)記錄信息。
其中,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息,所述網(wǎng)頁(yè)標(biāo)題信息根據(jù)用戶訪問(wèn)的訪問(wèn)頁(yè)面獲取,網(wǎng)頁(yè)標(biāo)題信息可以為電影、新聞、游戲,本發(fā)明實(shí)施例不做具體限定。其中,可以通過(guò)WD系統(tǒng)(Gridsum Web Dissector,即在線營(yíng)銷效果優(yōu)化和用戶行為分析系統(tǒng))獲取頁(yè)面訪問(wèn)記錄信息。例如,用戶瀏覽WD系統(tǒng)監(jiān)測(cè)的某網(wǎng)站,當(dāng)用戶點(diǎn)擊新聞圖標(biāo)時(shí),WD系統(tǒng)自動(dòng)獲取該用戶訪問(wèn)的網(wǎng)頁(yè)標(biāo)題信息。
對(duì)于本發(fā)明實(shí)施例,所述獲取用戶的頁(yè)面訪問(wèn)記錄信息具體可以為:首先,啟動(dòng)WD系統(tǒng)監(jiān)測(cè)用戶預(yù)訪問(wèn)的網(wǎng)站;其次,WD系統(tǒng)自動(dòng)獲取用戶的頁(yè)面訪問(wèn)記錄信息,其中,用戶的頁(yè)面訪問(wèn)記錄信息包含網(wǎng)頁(yè)標(biāo)題信息。例如,WD系統(tǒng)正在監(jiān)測(cè)某電影類網(wǎng)站,用戶瀏覽電影時(shí)訊網(wǎng)頁(yè)時(shí),WD系統(tǒng)自動(dòng)對(duì)“電影時(shí)訊”的網(wǎng)頁(yè)標(biāo)題信息進(jìn)行采集。
102、從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息。
其中,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息。所述標(biāo)簽信息為可以反應(yīng)網(wǎng)頁(yè)標(biāo)題信息特征的信息。例如,對(duì)于電影購(gòu)票網(wǎng)頁(yè)標(biāo)題信息,標(biāo)簽信息可以為電影。
對(duì)于本發(fā)明實(shí)施例,可以通過(guò)預(yù)置算法對(duì)預(yù)置存儲(chǔ)位置中的網(wǎng)頁(yè)標(biāo)題信息進(jìn)行分類,并按類別為網(wǎng)頁(yè)標(biāo)題信息配置對(duì)應(yīng)的標(biāo)簽信息。其中,預(yù)置存儲(chǔ)位置中保存的分類器模型可以為支持向量機(jī)、邏輯回歸等分類算法,本實(shí)施例不做具體限定。例如,首先爬取指定類別的網(wǎng)站標(biāo)題信息:“易車網(wǎng)”、“51汽車網(wǎng)”,爬取下來(lái)的網(wǎng)頁(yè)標(biāo)題信息自動(dòng)配置為“汽車”標(biāo)簽,存儲(chǔ)在預(yù)置存儲(chǔ)位置中;然后根據(jù)已知“汽車”標(biāo)簽的網(wǎng)頁(yè)標(biāo)題信息訓(xùn)練分類器,將訓(xùn)練后的分類器存儲(chǔ)在預(yù)置存儲(chǔ)位置中;當(dāng)用戶訪問(wèn)58二手車時(shí),將訪問(wèn)的網(wǎng)頁(yè)標(biāo)題信息輸入已訓(xùn)練好的分類器中,分類器輸出“汽車”標(biāo) 簽。
103、將所述標(biāo)簽信息配置為所述用戶的興趣信息。
其中,興趣信息具體可以為反應(yīng)用戶興趣愛好和關(guān)注點(diǎn)的信息。
進(jìn)一步地,對(duì)于本發(fā)明實(shí)施例,當(dāng)將用戶訪問(wèn)的所有網(wǎng)頁(yè)標(biāo)題信息均輸入分類器分類后獲取多個(gè)標(biāo)簽,確認(rèn)最終用戶興趣標(biāo)簽,其中,確認(rèn)方法可以根據(jù)業(yè)務(wù)要求決定,包括確認(rèn)所有標(biāo)簽為用戶的興趣標(biāo)簽,或?qū)?biāo)簽出現(xiàn)次數(shù)進(jìn)行排序,確認(rèn)出現(xiàn)次數(shù)最多的為用戶興趣標(biāo)簽,本發(fā)明實(shí)施例不做具體限定。例如,從分類器獲取的標(biāo)簽包括“汽車”、“家電”、“游戲”,根據(jù)業(yè)務(wù)要求將所有用戶訪問(wèn)的網(wǎng)頁(yè)標(biāo)題信息產(chǎn)生的標(biāo)簽均確認(rèn)為用戶的興趣標(biāo)簽,則用戶的興趣標(biāo)簽為“汽車”、“家電”、“游戲”。
對(duì)于本發(fā)明實(shí)施例,具體的應(yīng)用場(chǎng)景可以如下所示,但不限于此,包括:如關(guān)注標(biāo)簽為財(cái)經(jīng)和汽車,如“財(cái)經(jīng)網(wǎng)”、“和訊網(wǎng)”、“網(wǎng)易財(cái)經(jīng)”、“汽車之家”、“太平洋汽車網(wǎng)”,通過(guò)爬蟲爬取汽車類網(wǎng)頁(yè)標(biāo)題信息和財(cái)經(jīng)類網(wǎng)頁(yè)標(biāo)題信息,通過(guò)輸入給支持向量機(jī)分類器進(jìn)行訓(xùn)練,建立模型,用戶瀏覽WD系統(tǒng)監(jiān)測(cè)的網(wǎng)站時(shí),將用戶訪問(wèn)的網(wǎng)頁(yè)標(biāo)題信息“易車網(wǎng)”、“和訊網(wǎng)”輸入給分類器進(jìn)行分類,根據(jù)業(yè)務(wù)要求獲取所有標(biāo)簽為用戶興趣標(biāo)簽,確認(rèn)得到標(biāo)簽為汽車和財(cái)經(jīng)。
本發(fā)明實(shí)施例提供的一種興趣信息的識(shí)別方法,首先獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;然后從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;將所述標(biāo)簽信息配置為所述用戶的興趣信息。與目前通過(guò)域名標(biāo)簽系統(tǒng)識(shí)別用戶興趣信息相比,本發(fā)明通過(guò)網(wǎng)頁(yè)標(biāo)題信息識(shí)別用戶興趣信息,可以避免由于域名標(biāo)簽系統(tǒng)中保存的域名信息局限性較大,無(wú)法對(duì)所有域名信息進(jìn)行覆蓋造成的興趣信息的識(shí)別精度較低的問(wèn)題,進(jìn)而可以提高識(shí)別興趣信息的識(shí)別精度。
進(jìn)一步地,本發(fā)明實(shí)施例提供另一種興趣信息的識(shí)別方法,如圖2所示,所述方法包括:
201、從各個(gè)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息。
其中,所述各個(gè)數(shù)據(jù)源為可以包含根據(jù)業(yè)務(wù)要求指定的所有網(wǎng)站。例 如,待關(guān)注的標(biāo)簽為視頻,則指定數(shù)據(jù)源為“優(yōu)酷”、“土豆”、“樂(lè)視”。
對(duì)于本發(fā)明實(shí)施例,步驟201之前還可以包括:從所述各個(gè)數(shù)據(jù)源中獲取符合預(yù)置條件的熱點(diǎn)數(shù)據(jù)源,其中,預(yù)置條件可以為用戶使用率較高、熱點(diǎn)新聞量較多,本發(fā)明實(shí)施例不做限定。例如,預(yù)置條件為用戶使用率較高,此時(shí),會(huì)從所有數(shù)據(jù)源中獲取用戶使用率較高的網(wǎng)站,例如,“土豆”、“樂(lè)視”等作為熱點(diǎn)數(shù)據(jù)源?;诖耍襟E201具體可以為:從所述熱點(diǎn)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息,即從“土豆”、“樂(lè)視”等熱點(diǎn)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息。對(duì)于本發(fā)明實(shí)施例,通過(guò)從熱點(diǎn)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息,可以使得獲取的網(wǎng)頁(yè)標(biāo)題信息的針對(duì)性更強(qiáng),可以進(jìn)一步提升用戶的興趣信息的識(shí)別精度。
進(jìn)一步地,步驟201具體還可以為:按照預(yù)設(shè)時(shí)間間隔從各個(gè)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息,其中,預(yù)設(shè)時(shí)間間隔可以為一天、12小時(shí)、6小時(shí),本發(fā)明實(shí)施例不做限定。例如,設(shè)置預(yù)設(shè)時(shí)間間隔為一天,則每天從電影網(wǎng)站中爬取電影票選購(gòu)網(wǎng)頁(yè)標(biāo)題信息。對(duì)于本發(fā)明實(shí)施例,通過(guò)每天獲取熱點(diǎn)數(shù)據(jù)源下的網(wǎng)頁(yè)標(biāo)題信息,可以保證獲取到的網(wǎng)頁(yè)標(biāo)題信息為最近的實(shí)時(shí)信息,從而進(jìn)一步提高用戶興趣信息的識(shí)別精度。
202、將所述網(wǎng)頁(yè)標(biāo)題信息劃分為不同類別。
其中,所述類別可以為電影類、新聞?lì)悺①?gòu)物類等,本方案實(shí)施例不做限定。具體劃分的類別也可以依據(jù)數(shù)據(jù)源的類別進(jìn)行劃分,例如,數(shù)據(jù)源中包含“優(yōu)酷”、“樂(lè)視”,這可以將網(wǎng)頁(yè)標(biāo)題信息劃分為視頻。
203、為每一類別中的網(wǎng)頁(yè)標(biāo)題信息配置與所述類別對(duì)應(yīng)的標(biāo)簽信息。
其中,所述標(biāo)簽信息為可以反應(yīng)網(wǎng)頁(yè)標(biāo)題信息特征的信息。例如,通過(guò)爬蟲爬取網(wǎng)頁(yè)標(biāo)題信息分為電影類、新聞?lì)悺⒂螒蝾惖木W(wǎng)頁(yè)標(biāo)題信息:“優(yōu)酷”、“頭條”、“7k7k小游戲”,配置的標(biāo)簽信息為視頻標(biāo)簽信息、新聞標(biāo)簽信息、游戲標(biāo)簽信息。例如,預(yù)設(shè)爬取類別為視頻、新聞、購(gòu)物,爬取網(wǎng)頁(yè)標(biāo)題信息為“優(yōu)酷”、“土豆”、“頭條”、“淘寶”,則將“優(yōu)酷”、“土豆”劃分為視頻類別,“頭條”劃分為新聞?lì)悇e,“淘寶”劃分為購(gòu)物類別,相應(yīng)地,為“優(yōu)酷”、“土豆”配置的標(biāo)簽信息為視頻,為“頭條”比分配置的標(biāo)簽信息為新聞,為“淘寶”配置的標(biāo)簽信息為購(gòu)物。
204、將各個(gè)網(wǎng)頁(yè)標(biāo)題信息以及與所述各個(gè)網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息保存在所述預(yù)置存儲(chǔ)位置。
其中,所述預(yù)置存儲(chǔ)位置可以為數(shù)據(jù)庫(kù)、分類器等,本發(fā)明實(shí)施例不做限定。例如,將新聞?lì)愴?yè)面標(biāo)題及對(duì)應(yīng)的新聞標(biāo)簽信息保存在分類器中。
對(duì)于本發(fā)明實(shí)施例,可以通過(guò)預(yù)置算法對(duì)預(yù)置存儲(chǔ)位置中的網(wǎng)頁(yè)標(biāo)題信息進(jìn)行分類,并按類別為網(wǎng)頁(yè)標(biāo)題信息配置對(duì)應(yīng)的標(biāo)簽信息。預(yù)置算法可以為各種機(jī)械學(xué)習(xí)算法,通過(guò)將收集的網(wǎng)頁(yè)標(biāo)題信息數(shù)據(jù)集進(jìn)行訓(xùn)練分類,生成各類別對(duì)應(yīng)的標(biāo)簽信息,其中,機(jī)械學(xué)習(xí)算法可以包括支持向量機(jī)算法、神經(jīng)網(wǎng)絡(luò)算法等,本發(fā)明實(shí)施例不做限定。例如,首先爬取指定類別的網(wǎng)站標(biāo)題信息:“163郵箱”、“126郵箱”,爬取下來(lái)的網(wǎng)頁(yè)標(biāo)題信息自動(dòng)配置為“郵箱”標(biāo)簽,存儲(chǔ)在預(yù)置存儲(chǔ)位置中;然后根據(jù)已知“郵箱”標(biāo)簽的網(wǎng)頁(yè)標(biāo)題信息訓(xùn)練分類器,將訓(xùn)練后的分類器存儲(chǔ)在預(yù)置存儲(chǔ)位置中;當(dāng)用戶訪問(wèn)“QQ郵箱”時(shí),將訪問(wèn)的網(wǎng)頁(yè)標(biāo)題信息輸入已訓(xùn)練好的分類器中,分類器輸出“郵箱”標(biāo)簽。
205、獲取用戶的頁(yè)面訪問(wèn)記錄信息。
其中,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息,所述網(wǎng)頁(yè)標(biāo)題信息根據(jù)用戶訪問(wèn)的訪問(wèn)頁(yè)面獲取。其中,可以通過(guò)WD系統(tǒng)(Gridsum Web Dissector,即在線營(yíng)銷效果優(yōu)化和用戶行為分析系統(tǒng))獲取頁(yè)面訪問(wèn)記錄信息。
對(duì)于本發(fā)明實(shí)施例,所述獲取用戶的頁(yè)面訪問(wèn)記錄信息具體可以為:首先,啟動(dòng)WD系統(tǒng)監(jiān)測(cè)用戶預(yù)訪問(wèn)的網(wǎng)站;其次,WD系統(tǒng)自動(dòng)獲取用戶的頁(yè)面訪問(wèn)記錄信息,其中,用戶的頁(yè)面訪問(wèn)記錄信息包含網(wǎng)頁(yè)標(biāo)題信息。例如,WD系統(tǒng)正在監(jiān)測(cè)某游戲類網(wǎng)站,用戶瀏覽單機(jī)游戲網(wǎng)頁(yè)時(shí),WD系統(tǒng)自動(dòng)對(duì)“單機(jī)游戲”的網(wǎng)頁(yè)標(biāo)題信息進(jìn)行采集。
206、從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息。
其中,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息。
對(duì)于本發(fā)明實(shí)施例,步驟206之前還可以包括判斷域名標(biāo)簽系統(tǒng)中是否存在所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,所述域名標(biāo)簽系統(tǒng)中保存有不 同網(wǎng)頁(yè)域名信息分別對(duì)應(yīng)的標(biāo)簽信息。此時(shí),步驟206具體可以包括:若域名標(biāo)簽系統(tǒng)中不存在所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,則從所述預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息;若域名標(biāo)簽系統(tǒng)中存在所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,則從所述域名標(biāo)簽系統(tǒng)中獲取與所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,其中,域名標(biāo)簽系統(tǒng)中包含域名信息配置成功的標(biāo)簽信息。例如,域名標(biāo)簽系統(tǒng)中含有電影、新聞標(biāo)簽,以及電影、新聞標(biāo)簽分別對(duì)應(yīng)的網(wǎng)頁(yè)域名信息www.dianying.com、www.xinwen.com,此時(shí)獲取到的用戶訪問(wèn)記錄信息中的網(wǎng)頁(yè)域名信息為www.dianying.com,判斷域名標(biāo)簽系統(tǒng)中存在www.dianying.com對(duì)應(yīng)的標(biāo)簽為電影,則將電影識(shí)別為用戶的興趣信息。再如,獲取到的用戶訪問(wèn)記錄信息中的網(wǎng)頁(yè)域名信息為www.tiyu.com,判斷域名標(biāo)簽系統(tǒng)中不存在該網(wǎng)頁(yè)域名信息新聞標(biāo)簽,則根據(jù)網(wǎng)頁(yè)標(biāo)題信息從預(yù)置存儲(chǔ)位置中識(shí)別用戶的興趣信息。對(duì)于本發(fā)明實(shí)施例,當(dāng)域名標(biāo)簽系統(tǒng)中存在網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息時(shí),直接通過(guò)域名標(biāo)簽系統(tǒng)識(shí)別用戶的興趣信息,可以進(jìn)一步提升用戶興趣信息的識(shí)別效率。
207、將所述標(biāo)簽信息配置為所述用戶的興趣信息。
其中,興趣信息具體可以為反應(yīng)用戶興趣愛好和關(guān)注點(diǎn)的信息。
進(jìn)一步地,對(duì)于本發(fā)明實(shí)施例,當(dāng)將用戶訪問(wèn)的所有網(wǎng)頁(yè)標(biāo)題信息均輸入分類器分類后獲取多個(gè)標(biāo)簽,確認(rèn)最終用戶興趣標(biāo)簽,其中,確認(rèn)方法可以根據(jù)業(yè)務(wù)要求決定,包括確認(rèn)所有標(biāo)簽為用戶的興趣標(biāo)簽,或?qū)?biāo)簽出現(xiàn)次數(shù)進(jìn)行排序,確認(rèn)出現(xiàn)次數(shù)最多的為用戶興趣標(biāo)簽,本發(fā)明實(shí)施例不做具體限定。
對(duì)于本發(fā)明實(shí)施例,具體的應(yīng)用場(chǎng)景可以如下所示,但不限于此,包括:設(shè)置熱點(diǎn)數(shù)據(jù)源為新聞,域名標(biāo)簽系統(tǒng)中包含的網(wǎng)頁(yè)域名信息為www.dianying.com、www.youxi.com,分別對(duì)應(yīng)的標(biāo)簽為電影和游戲,通過(guò)每天爬取新聞?lì)惖木W(wǎng)站信息獲取網(wǎng)頁(yè)標(biāo)題信息:“騰訊新聞”、“搜狐新聞”,將獲取的網(wǎng)頁(yè)標(biāo)題信息輸入分類器進(jìn)行訓(xùn)練,將訓(xùn)練好的分類器保存,WD系統(tǒng)獲取用戶訪問(wèn)信息,獲取用戶訪問(wèn)的網(wǎng)頁(yè)標(biāo)題信息為騰訊新聞,網(wǎng)頁(yè)域名信息為www.tengxunxinwen.com,首先判斷域名標(biāo)簽系統(tǒng)中不存在 www.tengxunxinwen.com對(duì)應(yīng)的標(biāo)簽,則將“騰訊新聞”輸入已訓(xùn)練好的分類器,確認(rèn)得到“騰訊新聞”為新聞標(biāo)簽信息。從而增加了識(shí)別用戶興趣信息的覆蓋范圍,提高了識(shí)別興趣信息的識(shí)別精度。
本發(fā)明實(shí)施例提供的另一種興趣信息的識(shí)別方法,首先獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;然后從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;將所述標(biāo)簽信息配置為所述用戶的興趣信息。與目前通過(guò)域名標(biāo)簽系統(tǒng)識(shí)別用戶興趣信息相比,本發(fā)明通過(guò)網(wǎng)頁(yè)標(biāo)題信息識(shí)別用戶興趣信息,可以避免由于域名標(biāo)簽系統(tǒng)中保存的域名信息局限性較大,無(wú)法對(duì)所有域名信息進(jìn)行覆蓋造成的興趣信息的識(shí)別精度較低的問(wèn)題,進(jìn)而可以提高識(shí)別興趣信息的識(shí)別精度。
該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
進(jìn)一步地,作為圖1所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供一種興趣信息的識(shí)別裝置,如圖3所示,所述裝置可以包括:獲取單元31、配置單元32。
所述獲取單元31,可以用于獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;
所述獲取單元31,還可以用于從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;
所述配置單元32,可以用于將所述獲取單元31獲取的所述標(biāo)簽信息配置為所述用戶的興趣信息。
本發(fā)明實(shí)施例提供的一種興趣信息的識(shí)別裝置,首先獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;然后從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;將所述標(biāo)簽信息配置為所述用戶的興趣信息。與目前通過(guò)域名標(biāo)簽系統(tǒng)識(shí)別用戶興趣信息相比,本發(fā)明 通過(guò)網(wǎng)頁(yè)標(biāo)題信息識(shí)別用戶興趣信息,可以避免由于域名標(biāo)簽系統(tǒng)中保存的域名信息局限性較大,無(wú)法對(duì)所有域名信息進(jìn)行覆蓋造成的興趣信息的識(shí)別精度較低的問(wèn)題,進(jìn)而可以提高識(shí)別興趣信息的識(shí)別精度。
該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。
進(jìn)一步地,作為圖2所示方法的具體實(shí)現(xiàn),本發(fā)明實(shí)施例提供另一種興趣信息的識(shí)別裝置,如圖4所示,所述裝置可以包括:獲取單元41、配置單元42、判斷單元43。
所述獲取單元41,可以用于獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;
所述獲取單元41,還可以用于從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;
所述配置單元42,可以用于將所述獲取單元41獲取的所述標(biāo)簽信息配置為所述用戶的興趣信息。
進(jìn)一步地,所述獲取單元41具體可以包括:
獲取模塊4101,可以用于從各個(gè)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息;
劃分模塊4102,可以用于將所述獲取模塊4101獲取的網(wǎng)頁(yè)標(biāo)題信息劃分為不同類別;
配置模塊4103,可以用于為所述劃分模塊4102劃分的每一類別中的網(wǎng)頁(yè)標(biāo)題信息配置與所述類別對(duì)應(yīng)的標(biāo)簽信息;
保存模塊4104,可以用于將各個(gè)網(wǎng)頁(yè)標(biāo)題信息以及與所述各個(gè)網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息保存在所述預(yù)置存儲(chǔ)位置。
進(jìn)一步地,所述獲取單元41,還用于從所述各個(gè)數(shù)據(jù)源中獲取符合預(yù)置條件的熱點(diǎn)數(shù)據(jù)源。
進(jìn)一步地,所述獲取單元41,具體用于從所述熱點(diǎn)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息。
進(jìn)一步地,所述獲取單元41,具體還用于按照預(yù)設(shè)時(shí)間間隔從各個(gè)數(shù)據(jù)源中分別獲取對(duì)應(yīng)的網(wǎng)頁(yè)標(biāo)題信息。
進(jìn)一步地,所述裝置還可以包括:
判斷單元43,可以用于判斷域名標(biāo)簽系統(tǒng)中是否存在所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,所述域名標(biāo)簽系統(tǒng)中保存有不同網(wǎng)頁(yè)域名信息分別對(duì)應(yīng)的標(biāo)簽信息。
進(jìn)一步地,所述獲取單元41,具體用于若判斷單元43判斷出域名標(biāo)簽系統(tǒng)中不存在所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,則從所述預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息。
進(jìn)一步地,所述獲取單元41,具體還用于若判斷單元43判斷出域名標(biāo)簽系統(tǒng)中存在所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息,則從所述域名標(biāo)簽系統(tǒng)中獲取與所述網(wǎng)頁(yè)域名信息對(duì)應(yīng)的標(biāo)簽信息。
本發(fā)明實(shí)施例提供的另一種興趣信息的識(shí)別裝置,首先獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;然后從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;將所述標(biāo)簽信息配置為所述用戶的興趣信息。與目前通過(guò)域名標(biāo)簽系統(tǒng)識(shí)別用戶興趣信息相比,本發(fā)明通過(guò)網(wǎng)頁(yè)標(biāo)題信息識(shí)別用戶興趣信息,可以避免由于域名標(biāo)簽系統(tǒng)中保存的域名信息局限性較大,無(wú)法對(duì)所有域名信息進(jìn)行覆蓋造成的興趣信息的識(shí)別精度較低的問(wèn)題,進(jìn)而可以提高識(shí)別興趣信息的識(shí)別精度。
所述一種興趣信息的識(shí)別裝置包括處理器和存儲(chǔ)器,上述獲取單元和配置單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)提高識(shí)別興趣信息的識(shí)別精度。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí), 適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取用戶的頁(yè)面訪問(wèn)記錄信息,所述頁(yè)面訪問(wèn)記錄信息包括網(wǎng)頁(yè)標(biāo)題信息;從預(yù)置存儲(chǔ)位置獲取與所述網(wǎng)頁(yè)標(biāo)題信息對(duì)應(yīng)的標(biāo)簽信息,所述預(yù)置存儲(chǔ)位置保存有不同網(wǎng)頁(yè)標(biāo)題信息分別對(duì)應(yīng)的標(biāo)簽信息;將所述標(biāo)簽信息配置為所述用戶的興趣信息。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。