內(nèi)容關聯(lián)推薦方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術領域,特別涉及一種內(nèi)容關聯(lián)推薦方法及裝置。
【背景技術】
[0002]互聯(lián)網(wǎng)的大規(guī)模發(fā)展使得每個用戶均可自由參與到網(wǎng)絡信息的創(chuàng)建與傳播中,這一方面造就了網(wǎng)絡信息的大爆炸,給用戶提供了更多的信息;另一方面又造成了網(wǎng)絡信息的混亂,為用戶發(fā)現(xiàn)實際可用信息帶來了極大障礙。對于網(wǎng)絡數(shù)據(jù)來說,文本信息是具有一定表達規(guī)律的內(nèi)容,比較容易建立關聯(lián)以便用戶搜索或進行推薦;但其他非文本內(nèi)容,比如圖片、音頻、視頻等,從數(shù)據(jù)層面看其表達的隨機性很大且細微的更改就會發(fā)生極大變化,并無明顯的表達規(guī)律,很難直接發(fā)現(xiàn)相互之間的聯(lián)系,也很難利用關聯(lián)方式進行搜索或推薦。
[0003]現(xiàn)有技術一般通過文本描述或文本標簽來標識非文本內(nèi)容,以便建立非文本內(nèi)容之間的關聯(lián),然而只有經(jīng)過專業(yè)的人工描述或經(jīng)過大量統(tǒng)計分析的內(nèi)容才存在較為詳細的文本描述或標簽。在實際情況中,雖然目前互聯(lián)網(wǎng)中傳播的大數(shù)據(jù)以復制拷貝內(nèi)容為主,這些內(nèi)容在傳播過程中會不斷累積一些描述信息可用于分析,但隨著用戶參與意識及自由度的提高,越來越多的用戶自制內(nèi)容出現(xiàn)在互聯(lián)網(wǎng)中,這些自制內(nèi)容本身可拿到的描述性文本十分缺失。
[0004]互聯(lián)網(wǎng)非文本自制內(nèi)容以用戶自由創(chuàng)作的視頻、音頻和圖片為主,這些自制內(nèi)容以即興創(chuàng)作為主,很少會帶有正規(guī)的文本描述。即便有些較為專業(yè)的制作人、制作團隊或上傳者會給自制內(nèi)容添加描述或是打上標簽,但一方面這些描述或標簽并無規(guī)范,另一方面這些附加信息在傳播的過程中也極易丟失。因此現(xiàn)有技術中很難對非文本內(nèi)容進行專業(yè)的分析,更無法高效地發(fā)掘內(nèi)容之間的關聯(lián),因而也無法準確地進行非文本內(nèi)容的搜索與推薦。
【發(fā)明內(nèi)容】
[0005]基于現(xiàn)有技術的缺陷,本發(fā)明的目的是提供一種內(nèi)容關聯(lián)推薦方法及裝置,以高效準確地建立非文本內(nèi)容之間的關聯(lián)。
[0006]根據(jù)本發(fā)明的一個方面,提供了一種內(nèi)容關聯(lián)推薦方法,包括步驟:
[0007]采集用戶對非文本內(nèi)容的訪問數(shù)據(jù);
[0008]根據(jù)所述訪問數(shù)據(jù)構建行為矩陣;
[0009]將所述行為矩陣進行矩陣分解得到用戶興趣向量和內(nèi)容類別向量;
[0010]根據(jù)所述用戶興趣向量和所述內(nèi)容類別向量計算用戶/非文本內(nèi)容之間的相似度以及用戶對非文本內(nèi)容的偏好度;
[0011 ] 根據(jù)所述相似度和/或所述偏好度進行關聯(lián)推薦。
[0012]優(yōu)選地,所述方法還包括步驟:
[0013]在采集所述訪問數(shù)據(jù)后,對所述訪問數(shù)據(jù)進行數(shù)據(jù)清洗、整合與統(tǒng)計,獲得用戶與非文本內(nèi)容的行為關聯(lián)信息集合;其中所述行為關聯(lián)信息按所述用戶對所述非文本內(nèi)容的有效訪問行為打分。
[0014]優(yōu)選地,通過奇異值分解進行所述矩陣分解。
[0015]優(yōu)選地,使用協(xié)同過濾算法進行所述奇異值分解。
[0016]優(yōu)選地,通過計算所述內(nèi)容類別向量之間的余弦距離或者歐幾里得距離來計算非文本內(nèi)容之間的相似度;通過計算所述用戶興趣向量與所述內(nèi)容類別向量的內(nèi)積來計算用戶對非文本內(nèi)容的偏好度。
[0017]根據(jù)本發(fā)明的另一個方面,還提供了一種內(nèi)容關聯(lián)推薦裝置,包括:
[0018]數(shù)據(jù)采集模塊,用于采集用戶對非文本內(nèi)容的訪問數(shù)據(jù);
[0019]矩陣構建模塊,用于根據(jù)所述訪問數(shù)據(jù)構建行為矩陣;
[0020]矩陣分解模塊,用于將所述行為矩陣進行矩陣分解得到用戶興趣向量和內(nèi)容類別向量;
[0021]計算模塊,用于根據(jù)所述用戶興趣向量和所述內(nèi)容類別向量計算用戶/非文本內(nèi)容之間的相似度以及用戶對非文本內(nèi)容的偏好度;
[0022]關聯(lián)推薦模塊,用于根據(jù)所述相似度和/或所述偏好度進行關聯(lián)推薦。
[0023]優(yōu)選地,所述裝置還包括:
[0024]數(shù)據(jù)處理模塊,用于在采集所述訪問數(shù)據(jù)后,對所述訪問數(shù)據(jù)進行數(shù)據(jù)清洗、整合與統(tǒng)計,獲得用戶與非文本內(nèi)容的行為關聯(lián)信息集合;其中所述行為關聯(lián)信息按所述用戶對所述非文本內(nèi)容的有效訪問行為打分。
[0025]優(yōu)選地,所述矩陣分解模塊通過奇異值分解進行所述矩陣分解。
[0026]優(yōu)選地,所述矩陣分解模塊包括:
[0027]協(xié)同過濾模塊,用于使用協(xié)同過濾算法進行所述奇異值分解。
[0028]優(yōu)選地,所述計算模塊包括:
[0029]相似度計算模塊,用于通過計算所述內(nèi)容類別向量之間的余弦距離或者歐幾里得距離來計算非文本內(nèi)容之間的相似度;
[0030]偏好度計算模塊,用于通過計算所述用戶興趣向量與所述內(nèi)容類別向量的內(nèi)積來計算用戶對非文本內(nèi)容的偏好度。
[0031]本發(fā)明實施例提供了一種內(nèi)容關聯(lián)推薦方法及裝置,其技術方案通過用戶訪問數(shù)據(jù)的矩陣分解得到規(guī)律性極強的用戶興趣向量和內(nèi)容類別向量,從而可以進行較為規(guī)范和嚴謹?shù)南嗨贫群推枚扔嬎?,得到表述清楚、準確、嚴格的非文本內(nèi)容之間以及用戶與非文本內(nèi)容之間的關聯(lián),從而可進行更加精準的推薦,提升用戶體驗度。
【附圖說明】
[0032]圖1是本發(fā)明一個實施例中內(nèi)容關聯(lián)推薦方法的基本流程示意圖;
[0033]圖2是本發(fā)明一個實施例中內(nèi)容關聯(lián)推薦裝置的模塊結(jié)構示意圖。
【具體實施方式】
[0034]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明了,下面結(jié)合【具體實施方式】并參照附圖,對本發(fā)明進一步詳細說明。應該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此外,在以下說明中,省略了對公知結(jié)構和技術的描述,以避免不必要地混淆本發(fā)明的概念。
[0035]非文本內(nèi)容由于缺少足夠的規(guī)律信息而難以分析和關聯(lián),但近年來,視頻網(wǎng)站的發(fā)展如火如荼,視頻網(wǎng)站上的內(nèi)容越來越多的趨向于自制,這些自制內(nèi)容一部分來自視頻網(wǎng)站公司本身,一部分來自社會上的視頻制作團隊,與廣告主一樣,這些視頻制作團隊也需要推廣他們的自制內(nèi)容。因此,催生出一種產(chǎn)品需求,即根據(jù)用戶喜好或當前觀看視頻內(nèi)容來推薦待推廣視頻,這些視頻既包括需要推廣的自制內(nèi)容,也包括制作精良的較長時長的廣告。依靠現(xiàn)有技術,要直接找到視頻間的相似性計算方法是非常困難的,很難滿足上述推廣需求。
[0036]本發(fā)明實施例提出一種基于矩陣分解的內(nèi)容關聯(lián)推薦方法,將視頻和廣告統(tǒng)一看成無差別的非文本內(nèi)容,利用用戶對非文本內(nèi)容的操作行為矩陣分解來實現(xiàn)各內(nèi)容之間的相似度計算,從而實現(xiàn)關聯(lián)性極強的混合推薦。如圖1所示,在本發(fā)明實施例中,內(nèi)容關聯(lián)推薦方法包括步驟:
[0037]SI,采集用戶對非文本內(nèi)容的訪問數(shù)據(jù);
[0038]S2,根據(jù)所述訪問數(shù)據(jù)構建行為矩陣;
[0039]S3,將所述行為矩陣進行矩陣分解得到用戶興趣向量和內(nèi)容類別向量;
[0040]S4,根據(jù)所述用戶興趣向量和所述內(nèi)容類別向量計算用戶/非文本內(nèi)容之間的相似度以及用戶對非文本內(nèi)容的偏好度;
[0041]S5,根據(jù)所述相似度和/或所述偏好度進行關聯(lián)推薦。
[0042]具體地,在本發(fā)明優(yōu)選實施例中,以網(wǎng)絡視頻為例進一步說明上述方法的優(yōu)選實施方式。本發(fā)明實施例中,將廣告視頻也看成是無差別的視頻,在表達形式上統(tǒng)一處理。
[0043]首先在步驟SI中,訪問數(shù)據(jù)可通過采集服務器后臺訪問日志獲取,也可利用在用戶端或中間設備中植入的插件、代理等方式采集。本發(fā)明實施例中使用近期的視頻播放日志、廣告點擊日志和廣告展示日志數(shù)據(jù),可先對三者進行數(shù)據(jù)清洗后整合并統(tǒng)計,數(shù)據(jù)清洗主要是去掉熱播視頻,因為熱播視頻大部分人都產(chǎn)生了觀看行為,并不具備代表性。
[0044]步驟S2中,利用訪問數(shù)據(jù)確定用戶對視頻的訪問行為而構建行為矩陣。假設訪問數(shù)據(jù)中采集到m個用戶關于η個視頻的訪問行為,構建行為矩陣,其中矩陣元素&1]表示第i個用戶對第j個視頻的有效訪問行為打分。具體地,若視頻j為廣告,用戶i觀看并點擊了該廣告,則\為I ;用戶i觀看但未點擊該廣告或用戶i未觀看該廣告,則a ^為O ;若視頻j為非廣告的普通視頻,用戶觀看了該視頻,則\為I ;用戶未觀看該視頻,則a ^為O。優(yōu)選地,對日志數(shù)據(jù)進行分析時,以日志中的用戶cookie來識別和標識各個用戶,以日志中的視頻id來識別和標識各個視頻,則用戶與視頻的行為關聯(lián)經(jīng)提取后可表示為〈cookie,id,行為〉的集合,其中行為就是上述矩陣元素&1]的取值方式,由此可以比較方便快捷地得到行為矩陣。
[0045]步驟S3中,在獲得用戶對視頻的行為矩陣后,通過矩陣分解獲得用戶和視頻各自的向量表示。優(yōu)選通過奇異值分解(SVD,Singular Value Decomposit1n)進行矩陣分解,上述行為矩陣被分解為;其中k可理解為用戶興趣或視頻類別的分類數(shù)量,通常選取遠小于m和η的值,比如k = 10 ;是一個對角陣,對角線上存儲的是從大到小有序的奇異值;為用戶矩陣;為視頻矩陣。進一步地,矩陣U的第i個行向量U1為用戶i的興趣向量表示,向量長度(即興趣維度)為k,U的列向量被稱為左奇異向量;矩陣V的第j個