媒體數(shù)據(jù)推薦方法及服務器的制造方法
【專利摘要】本發(fā)明公開了一種媒體數(shù)據(jù)推薦方法及服務器,包括:生成各地區(qū)的地區(qū)特征向量;接收到推薦內容獲取指令;獲取目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;形成備選媒體數(shù)據(jù)組;對備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行目標用戶興趣熱度評分;提取出與目標用戶的位置信息相關的地區(qū)特征向量;對所述備選媒體數(shù)據(jù)組中媒體數(shù)據(jù)進行地區(qū)信息評分;結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的綜合評分;將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。本發(fā)明提出的媒體數(shù)據(jù)推薦方法及服務器,針對特定用戶,能夠很好地向其推薦更加滿足其真實需求的媒體數(shù)據(jù)。
【專利說明】
媒體數(shù)據(jù)推薦方法及服務器
技術領域
[0001]本發(fā)明涉及數(shù)據(jù)分析與處理技術領域,特別是指一種媒體數(shù)據(jù)推薦方法及服務器。
【背景技術】
[0002]隨著科學技術的不斷發(fā)展,互聯(lián)網(wǎng)、電腦、移動終端(智能手機、平板電腦等)已進入了千家萬戶,覆蓋了人類生活的方方面面,成為了人類生活不可或缺的一部分?,F(xiàn)代人的生活、學習、工作習慣都少不了對這些現(xiàn)代科技的使用;特別是在平常的生活中,利用電腦、移動終端等通過互聯(lián)網(wǎng)或移動互聯(lián)網(wǎng)觀看視頻、查看新聞等等,都是現(xiàn)代人在大多數(shù)閑暇時間中的一項重要的娛樂、休閑活動。
[0003]現(xiàn)有技術中,各種門戶網(wǎng)站、新聞APP等都會在首頁或下級分類菜單的預覽界面中展示各種各樣的新聞資訊,而這些新聞資訊通常是按時間先后進行排序推薦,而不存在針對用戶的個性化推薦內容。而常見的視頻播放類軟件,通常也是按照時間先后或點擊次數(shù)來向用戶推薦視頻,稍好一些的軟件,會根據(jù)用戶的歷史記錄,推薦一些用戶可能感興趣的視頻,但這并不足以滿足用戶的真實需求。
【發(fā)明內容】
[0004]有鑒于此,本發(fā)明的目的在于提出一種媒體數(shù)據(jù)推薦方法及服務器,針對特定用戶,能夠很好地向其推薦更加滿足其真實需求的媒體數(shù)據(jù)。
[0005]基于上述目的本發(fā)明提供的媒體數(shù)據(jù)推薦方法,應用于服務器,包括:
[0006]基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量;
[0007]接收到目標用戶發(fā)出的推薦內容獲取指令;
[0008]獲取目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;
[0009]根據(jù)目標用戶的歷史訪問數(shù)據(jù),從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組;
[0010]根據(jù)目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行目標用戶興趣熱度評分;
[0011]根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量;
[0012]利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行地區(qū)信息評分;
[0013]結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的綜合評分;
[0014]將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。
[0015]在一些實施方式中,所述基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量的步驟包括:
[0016]獲取預先設定的媒體數(shù)據(jù)分類樹;
[0017]獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù);
[0018]將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組;
[0019]將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行特征提取訓練;
[0020]從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量。
[0021]在一些實施方式中,所述將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行訓練的步驟包括:
[0022]將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類;
[0023]通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征;
[0024]所述媒體數(shù)據(jù)分類樹結合最低一級的子分類的分類特征,為特征提取訓練結果。
[0025]在一些實施方式中,所述利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行地區(qū)信息評分的步驟包括:
[0026]提取備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的特征向量;
[0027]計算媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;
[0028]得到的余弦相似度值用于表征媒體數(shù)據(jù)的地區(qū)信息評分。
[0029]在一些實施方式中,所述從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù)的步驟包括:
[0030]對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;
[0031]在抓取媒體數(shù)據(jù)時,按照媒體數(shù)據(jù)的特性評分的高低順序進行抓取。
[0032 ]本發(fā)明的另一方面提供了一種媒體數(shù)據(jù)推薦服務器,包括:
[0033]地區(qū)特征向量生成模塊,用于基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量;
[0034]指令接收模塊,用于接收目標用戶發(fā)出的推薦內容獲取指令;
[0035]用戶數(shù)據(jù)獲取模塊,用于在接收到目標用戶發(fā)出的推薦內容獲取指令后,獲取目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;
[0036]數(shù)據(jù)抓取模塊,用于根據(jù)目標用戶的歷史訪問數(shù)據(jù),從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組;
[0037]興趣熱度評分模塊,用于根據(jù)目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行目標用戶興趣熱度評分;
[0038]地區(qū)特征向量提取模塊,用于根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量;
[0039]地區(qū)信息評分模塊,用于利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行地區(qū)信息評分;
[0040]綜合評分模塊,用于結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的綜合評分;
[0041 ]媒體數(shù)據(jù)推薦推薦模塊,用于將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。
[0042]在一些實施方式中,所述地區(qū)特征向量生成模塊,包括:
[0043]分類樹獲取單元,用于獲取預先設定的媒體數(shù)據(jù)分類樹;
[0044]用戶信息獲取單元,用于獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù);
[0045]地區(qū)劃分單元,用于將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組;
[0046]特征提取訓練單元,用于將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行特征提取訓練;
[0047]地區(qū)特征向量生成單元,用于從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量。
[0048]在一些實施方式中,所述特征提取訓練單元,還用于將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類;通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征;以及,將媒體數(shù)據(jù)分類樹結合最低一級的子分類的分類特征,作為特征提取訓練結果。
[0049]在一些實施方式中,所述地區(qū)信息評分模塊,還用于提取備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的特征向量;計算媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;得到的余弦相似度值用于表征媒體數(shù)據(jù)的地區(qū)信息評分。
[0050]在一些實施方式中,所述數(shù)據(jù)抓取模塊,還用于對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;在抓取媒體數(shù)據(jù)時,按照媒體數(shù)據(jù)的特性評分的高低順序進行抓取。
[0051]從上面所述可以看出,本發(fā)明提供的媒體數(shù)據(jù)推薦方法及服務器,通過首先將區(qū)域用戶按地區(qū)進行劃分,并基于該地區(qū)的用戶數(shù)據(jù)得到地區(qū)特征向量,然后在接收到某一目標用戶發(fā)出推薦內容獲取指令時,基于該目標用戶的歷史訪問數(shù)據(jù)抓取相應的媒體數(shù)據(jù),然后對這些媒體數(shù)據(jù)進行目標用戶興趣熱點評分,接著根據(jù)目標用戶的位置信息提前相應的地區(qū)特征向量,然后計算地區(qū)信息評分,結合二種評分得到綜合評分,按綜合評分的排序向目標用戶推薦媒體數(shù)據(jù);從而在向目標用戶推薦媒體數(shù)據(jù)時,不但能夠針對目標用戶的興趣熱點進行推薦,還結合了目標用戶所在地區(qū)的群體熱點來進行推薦,從而達到更加精確地向目標用戶推薦媒體數(shù)據(jù)的效果,提升了用戶體驗。
【附圖說明】
[0052]圖1為本發(fā)明提供的媒體數(shù)據(jù)推薦方法的一個實施例的流程示意圖;
[0053]圖2為本發(fā)明提供的媒體數(shù)據(jù)推薦方法的另一個實施例的流程示意圖;
[0054]圖3為本發(fā)明提供的媒體數(shù)據(jù)推薦服務器實施例的模塊結構示意圖;
[0055]圖4為本發(fā)明提供的媒體數(shù)據(jù)推薦服務器實施例中地區(qū)特征向量生成模塊的模塊結構示意圖;
[0056]圖5為本發(fā)明提供的媒體數(shù)據(jù)推薦方法及服務器實施例中媒體數(shù)據(jù)分類樹的結構示意圖;
[0057]圖6為本發(fā)明提供的媒體數(shù)據(jù)推薦方法及服務器實施例中媒體數(shù)據(jù)分類樹中帶有挖掘出的特征的結構示意圖。
【具體實施方式】
[0058]為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
[0059]需要說明的是,本發(fā)明實施例中所有使用“第一”和“第二”的表述均是為了區(qū)分兩個相同名稱非相同的實體或者非相同的參量,可見“第一” “第二”僅為了表述的方便,不應理解為對本發(fā)明實施例的限定,后續(xù)實施例對此不再一一說明。
[0060]本發(fā)明的第一個方面,提供了一種針對特定用戶,能夠很好地向其推薦更加滿足其真實需求的媒體數(shù)據(jù)的媒體數(shù)據(jù)推薦方法。如圖1所示,為本發(fā)明提供的媒體數(shù)據(jù)推薦方法的一個實施例的流程示意圖。
[0061]所述媒體數(shù)據(jù)推薦方法,應用于服務器(特別是用于推薦媒體數(shù)據(jù)的服務器),包括以下步驟:
[0062]步驟101:基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)(數(shù)據(jù)來源是日志),生成各地區(qū)的地區(qū)特征向量;
[0063]這里的區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)是指全國的用戶的全部或部分(數(shù)據(jù)量需要足夠大,以進行聚類算法)的用戶信息及歷史訪問數(shù)據(jù),地區(qū)通常是指地級市級別的地區(qū),當然也可以是縣級市或縣,不過由于統(tǒng)計到縣的意義不大,所以統(tǒng)計到地級市就足夠了;地區(qū)特征向量是指從該地區(qū)的用戶群中能夠統(tǒng)計得到的表征該地區(qū)的用戶的興趣熱點的多個特征而組成的向量;該地區(qū)特征向量體現(xiàn)了各地區(qū)的一些興趣傾向屬性和權重,每個地區(qū)特征向量中的值通常是不同的,體現(xiàn)了各地區(qū)人們興趣的聚合;
[0064]步驟102:接收到目標用戶發(fā)出的推薦內容獲取指令;
[0065]即某一特定用戶打開了某門戶網(wǎng)站(或其下級分類菜單,如足球)或者某視頻播放軟件(或其下級分類菜單,如足球),由于需要展示主頁或下級菜單的頁面,從而向服務器發(fā)送了推薦內容獲取指令,而服務器接收到了這個指令;
[0066]步驟103:獲取目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;
[0067]其中,用戶信息則包括用戶的ID、用戶的級別(是否VIP)等,歷史訪問數(shù)據(jù)則包括用戶近期的觀看、查看歷史記錄數(shù)據(jù)等,位置信息為用戶當前所在的地理位置,其可通過用戶電腦的IP地址或用戶手機的GPS定位等進行獲取;
[0068]步驟104:根據(jù)目標用戶的歷史訪問數(shù)據(jù),從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組;
[0069]從目標用戶的歷史訪問數(shù)據(jù)中,能夠統(tǒng)計得到目標用戶近期的多個興趣熱點(例如足球、美劇等等),根據(jù)每個興趣熱點,從媒體數(shù)據(jù)庫中抓取與相應的興趣熱點相關的媒體數(shù)據(jù),每個興趣熱點所抓取的媒體數(shù)據(jù)的數(shù)量的范圍為50?500個,通常為200個左右;基于每個興趣熱點抓取的媒體數(shù)據(jù)組合成為備選媒體數(shù)據(jù)組;
[0070]步驟105:根據(jù)該目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行目標用戶興趣熱度評分;
[0071 ] S卩,根據(jù)目標用戶的歷史訪問數(shù)據(jù)得出目標用戶的每個興趣熱點的不同熱度,例如,目標用戶在過去30天內,瀏覽過“足球”分類40次,瀏覽過“美劇”分類20次,那么“足球”的熱度則是“美劇”熱度的2倍左右,當然這只是一種示例,對于熱度的計算還可以根據(jù)該興趣熱點出現(xiàn)時間的遠近來進行階梯型計算熱度(例如,隨著時間推移,距當前時間久的媒體數(shù)據(jù)將做減權處理)等等,然后根據(jù)熱度得出每個媒體數(shù)據(jù)的目標用戶興趣熱度評分;
[0072]步驟106:根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量;例如,目標用戶當前的位置信息為北京市海淀區(qū)中關村某棟大樓,那么與其相對應的地區(qū)特征向量則為北京市所對應的地區(qū)特征向量;
[0073]步驟107:利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行地區(qū)信息評分;即計算媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的相似度,利用該相似度來得出地區(qū)信息評分;
[0074]步驟108:結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)的綜合評分;
[0075]步驟109:將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。
[0076]從上述實施例可以看出,本發(fā)明提供的媒體數(shù)據(jù)推薦方法,通過首先將區(qū)域用戶按地區(qū)進行劃分,并基于該地區(qū)的用戶數(shù)據(jù)得到地區(qū)特征向量,然后在接收到某一目標用戶發(fā)出推薦內容獲取指令時,基于該目標用戶的歷史訪問數(shù)據(jù)抓取相應的媒體數(shù)據(jù),然后對這些媒體數(shù)據(jù)進行目標用戶興趣熱點評分,接著根據(jù)目標用戶的位置信息提前相應的地區(qū)特征向量,然后計算地區(qū)信息評分,結合二種評分得到綜合評分,按綜合評分的排序向目標用戶推薦媒體數(shù)據(jù);從而在向目標用戶推薦媒體數(shù)據(jù)時,不但能夠針對目標用戶的興趣熱點進行推薦,還結合了目標用戶所在地區(qū)的群體熱點來進行推薦,從而達到更加精確地向目標用戶推薦媒體數(shù)據(jù)的效果,提升了用戶體驗。
[0077]對于各地區(qū)(比如北京市)來說,將其看做一個特殊的對象,該對象有一些基本的特征,通過一個特征向量來描述這個地區(qū)的信息。“北京市”含有哪些特征不是簡單通過人工設定的,而是基于所有在北京的用戶數(shù)據(jù),根據(jù)分類體系和數(shù)據(jù)挖掘共同訓練出來的一個模型。
[0078]因此,進一步的,在一些可選實施方式中,所述基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量的步驟101(該步驟可以預先在線下完成),還可進一步包括以下步驟:
[0079]獲取預先設定的媒體數(shù)據(jù)分類樹(分類樹的結構圖來自預先設置的配置文件);所述的媒體數(shù)據(jù)分類樹是預先被設置好的,其中的下級分類、下下級分類等子分類都是預先設置完成的;如圖5所示,假設所述媒體數(shù)據(jù)分類樹包括:體育、財經(jīng)、音樂為一級分類(即頻道,且一級分類權值只對新用戶起作用),體育有二級分類足球、籃球和Fl;
[0080]獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù);
[0081]將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組;
[0082]將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行特征提取訓練;
[0083]生成的特征提取訓練結果即為每個地區(qū)相應的地區(qū)特征向量。
[0084]通過采用基于媒體數(shù)據(jù)分類樹的結構進行特征提取訓練,能夠很好防止過擬合,這樣可以有效的防止噪音特征數(shù)據(jù)對有效數(shù)據(jù)的影響。
[0085]更進一步的,在一些實施方式中,所述將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行訓練的步驟包括:
[0086]將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類;即首先將媒體數(shù)據(jù)分配到與其特征相應的媒體數(shù)據(jù)分類樹的各個分類中,這一步通過初步將媒體數(shù)據(jù)進行預分類,可以很好防止過擬合;
[0087]通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征;由于媒體數(shù)據(jù)分類樹僅包含一個初步的分類結構,其中的具體的特征需要通過聚類算法來挖掘得出;
[0088]所述媒體數(shù)據(jù)分類樹結合其每個最低一級的子分類的分類特征,即為特征提取訓練結果。
[0089]其中,根據(jù)分類與聚類的結果,還能得出相應的特征的權重。下面舉例介紹所述特征提取訓練的過程:
[0090](I)假設“北京市”有100萬人且這些人只看兩類媒體數(shù)據(jù),這100萬人中有80萬人??大w育類媒體數(shù)據(jù),有50萬人??簇斀?jīng)類媒體數(shù)據(jù)(有30萬人兩者都看);通過對數(shù)據(jù)分析,“北京”這個對象的特征就有了兩個大的分類(體育、財經(jīng)),可以得出,feature_體育=1+0.8,featureJltS = 1+0.5 ;
[0091 ] (2)假設在??础绑w育”類別這80萬人中,有60萬人??醋闱颍?0萬人??椿@球,那么:f eature_足球=1+0.75,f eature_籃球=1+0.5,這樣就得出了根據(jù)分類樹中分類的權重;
[0092](3)假設其中,如圖6所示,看北京國安有40萬人,北京北控20萬人,看北京首鋼的40萬人;那么對于體育這個一級分類下,根據(jù)已有的分類體系知道在北京體育有三個二級分類;注意:分類體系是已經(jīng)設計好的,而分類體系下的特征(如北京國安,北京北控等)則是通過數(shù)據(jù)挖掘獲得的;可以得出:
[0093]作&加代_北京國安=(1+0.75)*(1+0.67)=2.92,
[0094]featurejb京北控=(1+0.75)*( 1+0.33) =2.32,
[0095]featurejt;京首鋼=(1+0.5)*( 1+1) =3 ;
[0096](4)這樣通過訓練出來的“北京市”對象的特征向量是這樣的,在體育頻道:featurejb京首鋼=3,featurejb京國安=2.92,feature—北京北控=2.32。
[0097]通常情況下,對于一級分類的權重只對于新用戶會起作用,下面的子分類只作用于具體頻道。比如一個老用戶,那么在起始頁面將不會對其起作用,當其點擊進入“體育”這個頻道下,體育下的子分類權重開始起作用。假設該老用戶??大w育媒體數(shù)據(jù)并且有很多與足球相關的內容,那么推薦系統(tǒng)會為該用戶從倒排索引中拉出很多備選媒體數(shù)據(jù),經(jīng)過一些其他打分過程后,再進行此過程評分。比如備選了很多媒體數(shù)據(jù),有各種類型,經(jīng)過“北京”這個對象評分后,必然要將與feature_北京首鋼,feature_北京國安等相關的媒體數(shù)據(jù)加權。
[0098]對于上述示例,需要注意的是:
[00"] I)這里feature_北京國安和feature_北京首鋼都是40萬人觀看,但權值不同,這是因為通過人數(shù)的百分比來設定權值,更能突出人群興趣的密集度;
[0100]2)通過現(xiàn)成的分類樹+數(shù)據(jù)挖掘的方式確定地區(qū)對象的特征向量可以很好防止過擬合,這樣可以有效的防止噪音特征數(shù)據(jù)對有效數(shù)據(jù)的影響。
[0101]可選的,在一些實施方式中,所述利用所述與用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行地區(qū)信息評分的步驟107還可進一步包括下述步驟:
[0102]提取每個媒體數(shù)據(jù)的特征向量;
[0103]分別計算每個媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;
[0104]得到的余弦相似度值用于表征每個媒體數(shù)據(jù)的地區(qū)信息評分。
[0105]其中,余弦相似度,又稱為余弦相似性,是通過計算兩個向量的夾角余弦值來評估他們的相似度;此余弦值就可以用來表征這兩個向量的相似性;夾角越小,余弦值越接近于I,它們的方向更加吻合,則越相似。
[0106]較佳的,在一些可選實施方式中,所述從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù)的步驟104還可進一步包括以下步驟:
[0107]對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于每個媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;
[0108]在抓取媒體數(shù)據(jù)時,按照媒體數(shù)據(jù)的特性評分的高低順序進行抓取。
[0109]所述頻道特性是指特定頻道所具有的特殊屬性,包括目標用戶所在的頻道的一些熱點事件時間節(jié)點。比如如果是體育頻道的話,該頻道的熱點事件時間節(jié)點就可能是世界杯、奧運會等;如果是資訊頻道,那么該頻道的熱點事件時間節(jié)點就可能是國內的一些國內一些重要會議、國際戰(zhàn)事(敘利亞問題等)等。當然,這個是需要從目標用戶的歷史行為和當前頻道的熱點協(xié)同推薦出來的,比如目標用戶平時喜歡看足球,那么如果足球世界杯和奧運會同時開始的時候,足球世界杯相關的媒體數(shù)據(jù)將在體育頻道加權優(yōu)先推薦。
[0110]如圖2所示,為本發(fā)明提供的媒體數(shù)據(jù)推薦方法的另一個實施例的流程示意圖。
[0111]所述媒體數(shù)據(jù)推薦方法,包括以下步驟:
[0112]步驟201:獲取預先設定的媒體數(shù)據(jù)分類樹;
[0113]步驟202:獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù);
[0114]步驟203:將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組;
[0115]步驟204:將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類;
[0116]步驟205:通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征;
[0117]步驟206:將媒體數(shù)據(jù)分類樹結合其每個最低一級的子分類的分類特征,得出特征提取訓練結果;
[0118]步驟207:從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量;
[0119]步驟208:接收到某一目標用戶發(fā)出的推薦內容獲取指令;
[0120]步驟209:獲取該目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;
[0121 ]步驟210:對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于每個媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;
[0122]步驟211:根據(jù)該目標用戶的歷史訪問數(shù)據(jù),按照媒體數(shù)據(jù)的特性評分的高低順序從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組;
[0123]步驟212:根據(jù)該目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行目標用戶興趣熱度評分;
[0124]步驟213:根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量;
[0125]步驟214:提取每個媒體數(shù)據(jù)的特征向量;
[0126]步驟215:分別計算每個媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;
[0127]步驟216:得到的余弦相似度值用于表征每個媒體數(shù)據(jù)的地區(qū)信息評分;
[0128]步驟217:結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)的綜合評分;
[0129]步驟218:將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。
[0130]從上述實施例可以看出,本發(fā)明提供的媒體數(shù)據(jù)推薦方法,通過首先將區(qū)域用戶按地區(qū)進行劃分,并基于該地區(qū)的用戶數(shù)據(jù)得到地區(qū)特征向量,然后在接收到某一用戶發(fā)出推薦內容獲取指令時,基于該目標用戶的歷史訪問數(shù)據(jù)抓取相應的媒體數(shù)據(jù),然后對這些媒體數(shù)據(jù)進行目標用戶興趣熱點評分,接著根據(jù)目標用戶的位置信息提前相應的地區(qū)特征向量,然后計算地區(qū)信息評分,結合二種評分得到綜合評分,按綜合評分的排序向目標用戶推薦媒體數(shù)據(jù);從而在向目標用戶推薦媒體數(shù)據(jù)時,不但能夠針對目標用戶的興趣熱點進行推薦,還結合了目標用戶所在地區(qū)的群體熱點來進行推薦,從而達到更加精確地向目標用戶推薦媒體數(shù)據(jù)的效果,提升了用戶體驗。此外,通過現(xiàn)成的分類樹+數(shù)據(jù)挖掘的方式確定地區(qū)對象的特征向量可以很好防止過擬合,這樣可以有效的防止噪音特征數(shù)據(jù)對有效數(shù)據(jù)的影響。
[0131]本發(fā)明的另一方面還提供了一種針對特定用戶,能夠很好地向其推薦更加滿足其真實需求的媒體數(shù)據(jù)的媒體數(shù)據(jù)推薦服務器。如圖3所示,為本發(fā)明提供的媒體數(shù)據(jù)推薦服務器實施例的模塊結構示意圖。
[0132]所述媒體數(shù)據(jù)推薦服務器,包括:
[0133]地區(qū)特征向量生成模塊301,用于基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)(數(shù)據(jù)來源是日志),生成各地區(qū)的地區(qū)特征向量;
[0134]這里的區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)是指全國的用戶的用戶信息及歷史訪問數(shù)據(jù),地區(qū)通常是指地級市級別的地區(qū),當然也可以是縣級市或縣,不過由于統(tǒng)計到縣的意義不大,所以統(tǒng)計到地級市就足夠了;地區(qū)特征向量是指從該地區(qū)的用戶群中能夠統(tǒng)計得到的表征該地區(qū)的用戶的興趣熱點的多個特征而組成的向量;該地區(qū)特征向量體現(xiàn)了各地區(qū)的一些興趣傾向屬性和權重,每個地區(qū)特征向量中的值通常是不同的,體現(xiàn)了各地區(qū)人們興趣的聚合;
[0135]指令接收模塊302,用于接收目標用戶發(fā)出的推薦內容獲取指令;即某一目標用戶打開了某門戶網(wǎng)站(或其下級分類菜單,如足球)或者某視頻播放軟件(或其下級分類菜單,如足球),由于需要展示主頁或下級菜單的頁面,從而向服務器發(fā)送了推薦內容獲取指令,而服務器接收到了這個指令;
[0136]用戶數(shù)據(jù)獲取模塊303,用于在接收到某一目標用戶發(fā)出的推薦內容獲取指令后,獲取該目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;其中,用戶信息則包括目標用戶的ID、目標用戶的級別(是否VIP)等,歷史訪問數(shù)據(jù)則包括目標用戶近期的觀看、查看記錄等,位置信息為目標用戶當前所在的地理位置,其可通過目標用戶電腦的IP地址或目標用戶手機的GPS定位等進彳丁獲??;
[0137]數(shù)據(jù)抓取模塊304,用于根據(jù)該目標用戶的歷史訪問數(shù)據(jù),從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組;
[0138]從目標用戶的歷史訪問數(shù)據(jù)中,能夠統(tǒng)計得到目標用戶近期的多個興趣熱點(例如足球、美劇等等),根據(jù)每個興趣熱點,從媒體數(shù)據(jù)庫中抓取與相應的興趣熱點相關的媒體數(shù)據(jù),每個興趣熱點所抓取的媒體數(shù)據(jù)的數(shù)量的范圍為50?500個,通常為200個左右;基于每個興趣熱點抓取的媒體數(shù)據(jù)組合成為備選媒體數(shù)據(jù)組;
[0139]興趣熱度評分模塊305,用于根據(jù)該目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行目標用戶興趣熱度評分;
[0140]S卩,根據(jù)目標用戶的歷史訪問數(shù)據(jù)得出目標用戶的每個興趣熱點的不同熱度,例如,目標用戶在過去30天內,瀏覽過“足球”分類40次,瀏覽過“美劇”分類20次,那么“足球”的熱度則是“美劇”熱度的2倍左右,當然這只是一種示例,對于熱度的計算還可以根據(jù)該興趣熱點出現(xiàn)時間的遠近來進行階梯型計算熱度(例如,隨著時間推移,距當前時間久的媒體數(shù)據(jù)將做減權處理)等等,然后根據(jù)熱度得出每個媒體數(shù)據(jù)的目標用戶興趣熱度評分;
[0141]地區(qū)特征向量提取模塊306,用于根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量;例如,目標用戶當前的位置信息為北京市海淀區(qū)中關村某棟大樓,那么與其相對應的地區(qū)特征向量則為北京市所對應的地區(qū)特征向量;
[0142]地區(qū)信息評分模塊307,用于利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行地區(qū)信息評分;即計算媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的相似度,利用該相似度來得出地區(qū)信息評分;
[0143]綜合評分模塊308,用于結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)的綜合評分;
[0144]媒體數(shù)據(jù)推薦推薦模塊309,用于將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。
[0145]從上述實施例可以看出,本發(fā)明提供的媒體數(shù)據(jù)推薦服務器,通過首先將區(qū)域用戶按地區(qū)進行劃分,并基于該地區(qū)的用戶數(shù)據(jù)得到地區(qū)特征向量,然后在接收到某一目標用戶發(fā)出推薦內容獲取指令時,基于該目標用戶的歷史訪問數(shù)據(jù)抓取相應的媒體數(shù)據(jù),然后對這些媒體數(shù)據(jù)進行目標用戶興趣熱點評分,接著根據(jù)目標用戶的位置信息提前相應的地區(qū)特征向量,然后計算地區(qū)信息評分,結合二種評分得到綜合評分,按綜合評分的排序向目標用戶推薦媒體數(shù)據(jù);從而在向目標用戶推薦媒體數(shù)據(jù)時,不但能夠針對目標用戶的興趣熱點進行推薦,還結合了目標用戶所在地區(qū)的群體熱點來進行推薦,從而達到更加精確地向目標用戶推薦媒體數(shù)據(jù)的效果,提升了用戶體驗。
[0146]對于各地區(qū)(比如北京市)來說,將其看做一個特殊的對象,該對象有一些基本的特征,通過一個特征向量來描述這個地區(qū)的信息?!氨本┦小焙心男┨卣鞑皇呛唵瓮ㄟ^人工設定的,而是基于所有在北京的用戶數(shù)據(jù),根據(jù)分類體系和數(shù)據(jù)挖掘共同訓練出來的一個模型。
[0147]因此,進一步的,如圖4所示,在一些可選實施方式中,所述地區(qū)特征向量生成模塊301,還可進一步包括:
[0148]分類樹獲取單元3011,用于獲取預先設定的媒體數(shù)據(jù)分類樹(分類樹的結構圖來自預先設置的配置文件);所述的媒體數(shù)據(jù)分類樹是預先被設置好的,其中的下級分類、下下級分類等子分類都是預先設置完成的;如圖5所示,假設所述媒體數(shù)據(jù)分類樹包括:體育、財經(jīng)、音樂為一級分類(即頻道,且一級分類權值只對新用戶起作用),體育有二級分類足球、籃球和Fl;
[0149]用戶信息獲取單元3012,用于獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù);
[0150]地區(qū)劃分單元3013,用于將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組;
[0151]特征提取訓練單元3014,用于將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行特征提取訓練;
[0152]地區(qū)特征向量生成單元3015,用于從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量。
[0153]通過采用基于媒體數(shù)據(jù)分類樹的結構進行特征提取訓練,能夠很好防止過擬合,這樣可以有效的防止噪音特征數(shù)據(jù)對有效數(shù)據(jù)的影響。
[0154]更進一步的,在一些實施方式中,所述特征提取訓練單元3014,還用于將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類(即首先將媒體數(shù)據(jù)分配到與其特征相應的媒體數(shù)據(jù)分類樹的各個分類中,這一步通過初步將媒體數(shù)據(jù)進行預分類,可以很好防止過擬合);通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征(由于媒體數(shù)據(jù)分類樹僅包含一個初步的分類結構,其中的具體的特征需要通過聚類算法來挖掘得出);以及,將媒體數(shù)據(jù)分類樹結合其每個最低一級的子分類的分類特征,作為特征提取訓練結果。
[0155]其中,根據(jù)分類與聚類的結果,還能得出相應的特征的權重。下面舉例介紹所述特征提取訓練的過程:
[0156](I)假設“北京市”有100萬人且這些人只看兩類媒體數(shù)據(jù),這100萬人中有80萬人??大w育類媒體數(shù)據(jù),有50萬人??簇斀?jīng)類媒體數(shù)據(jù)(有30萬人兩者都看);通過對數(shù)據(jù)分析,“北京”這個對象的特征就有了兩個大的分類(體育、財經(jīng)),可以得出,feature_體育=1+0.8,featureJltS = 1+0.5 ;
[0157](2)假設在??础绑w育”類別這80萬人中,有60萬人常看足球,40萬人常看籃球,那么:f eature_足球=1+0.75,f eature_籃球=1+0.5,這樣就得出了根據(jù)分類樹中分類的權重;
[0158](3)假設其中,如圖6所示,看北京國安有40萬人,北京北控20萬人,看北京首鋼的40萬人;那么對于體育這個一級分類下,根據(jù)已有的分類體系知道在北京體育有三個二級分類;注意:分類體系是已經(jīng)設計好的,而分類體系下的特征(如北京國安,北京北控等)則是通過數(shù)據(jù)挖掘獲得的;可以得出:
[0159]作已忉代_北京國安=(1+0.75)*(1+0.67)=2.92,
[0160]featurejb京北控=(1+0.75)*( 1+0.33) =2.32,
[0161 ] featurejb 京首鋼=(1+0.5)*( 1+1) =3 ;
[0162](4)這樣通過訓練出來的“北京市”對象的特征向量是這樣的,在體育頻道:featurejb京首鋼=3,featurejb京國安=2.92,feature—北京北控=2.32。
[0163]通常情況下,對于一級分類的權重只對于新用戶會起作用,下面的子分類只作用于具體頻道。比如一個老用戶,那么在起始頁面將不會對其起作用,當其點擊進入“體育”這個頻道下,體育下的子分類權重開始起作用。假設該老用戶??大w育媒體數(shù)據(jù)并且有很多與足球相關的內容,那么推薦系統(tǒng)會為該用戶從倒排索引中拉出很多備選媒體數(shù)據(jù),經(jīng)過一些其他打分過程后,再進行此過程評分。比如備選了很多媒體數(shù)據(jù),有各種類型,經(jīng)過“北京”這個對象評分后,必然要將與feature_北京首鋼,feature_北京國安等相關的媒體數(shù)據(jù)加權。
[0164]對于上述示例,需要注意的是:
[ΟΙ65] I)這里feature_北京國安和feature_北京首鋼都是40萬人觀看,但權值不同,這是因為通過人數(shù)的百分比來設定權值,更能突出人群興趣的密集度;
[0166]2)通過現(xiàn)成的分類樹+數(shù)據(jù)挖掘的方式確定地區(qū)對象的特征向量可以很好防止過擬合,這樣可以有效的防止噪音特征數(shù)據(jù)對有效數(shù)據(jù)的影響。
[0167]可選的,在一些實施方式中,所述地區(qū)信息評分模塊307,還用于提取每個媒體數(shù)據(jù)的特征向量;分別計算每個媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;得到的余弦相似度值用于表征每個媒體數(shù)據(jù)的地區(qū)信息評分。
[0168]其中,余弦相似度,又稱為余弦相似性,是通過計算兩個向量的夾角余弦值來評估他們的相似度;此余弦值就可以用來表征這兩個向量的相似性;夾角越小,余弦值越接近于I,它們的方向更加吻合,則越相似。
[0169]較佳的,在一些可選實施方式中,所述數(shù)據(jù)抓取模塊304,還用于對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于每個媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;在抓取媒體數(shù)據(jù)時,按照媒體數(shù)據(jù)的特性評分的高低順序進行抓取。
[0170]所述頻道特性是指特定頻道所具有的特殊屬性,包括目標用戶所在的頻道的一些熱點事件時間節(jié)點。比如如果是體育頻道的話,該頻道的熱點事件時間節(jié)點就可能是世界杯、奧運會等;如果是資訊頻道,那么該頻道的熱點事件時間節(jié)點就可能是國內的一些國內一些重要會議、國際戰(zhàn)事(敘利亞問題等)等。當然,這個是需要從目標用戶的歷史行為和當前頻道的熱點協(xié)同推薦出來的,比如目標用戶平時喜歡看足球,那么如果足球世界杯和奧運會同時開始的時候,足球世界杯相關的媒體數(shù)據(jù)將在體育頻道加權優(yōu)先推薦。
[0171]下面結合附圖2,介紹本發(fā)明提供的媒體數(shù)據(jù)推薦服務器如何應用于本發(fā)明提供的媒體數(shù)據(jù)推薦方法的另一個實施例。
[0172]所述媒體數(shù)據(jù)推薦方法,包括以下步驟:
[0173]步驟201:分類樹獲取單元3011獲取預先設定的媒體數(shù)據(jù)分類樹;
[0174]步驟202:用戶信息獲取單元3012獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù);
[0175]步驟203:地區(qū)劃分單元3013將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組;
[0176]步驟204:特征提取訓練單元3014將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類;
[0177]步驟205:特征提取訓練單元3014通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征;
[0178]步驟206:特征提取訓練單元3014將媒體數(shù)據(jù)分類樹結合其每個最低一級的子分類的分類特征,得出特征提取訓練結果;
[0179]步驟207:地區(qū)特征向量生成單元3015從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量;
[0180]步驟208:指令接收模塊302接收到某一目標用戶發(fā)出的推薦內容獲取指令;
[0181]步驟209:用戶數(shù)據(jù)獲取模塊303獲取該目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息;
[0182]步驟210:數(shù)據(jù)抓取模塊304對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于每個媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;
[0183]步驟211:數(shù)據(jù)抓取模塊304根據(jù)該目標用戶的歷史訪問數(shù)據(jù),按照媒體數(shù)據(jù)的特性評分的高低順序從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組;
[0184]步驟212:興趣熱度評分模塊305根據(jù)該目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行目標用戶興趣熱度評分;
[0185]步驟212:地區(qū)特征向量提取模塊306根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量;
[0186]步驟213:地區(qū)信息評分模塊307提取每個媒體數(shù)據(jù)的特征向量;
[0187]步驟214:地區(qū)信息評分模塊307分別計算每個媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;
[0188]步驟215:地區(qū)信息評分模塊307得到的余弦相似度值用于表征每個媒體數(shù)據(jù)的地區(qū)信息評分;
[0189]步驟216:綜合評分模塊308結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)的綜合評分;
[0190]步驟217:媒體數(shù)據(jù)推薦推薦模塊309將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。
[0191]從上述實施例可以看出,本發(fā)明提供的媒體數(shù)據(jù)推薦服務器,通過首先將區(qū)域用戶按地區(qū)進行劃分,并基于該地區(qū)的用戶數(shù)據(jù)得到地區(qū)特征向量,然后在接收到某一目標用戶發(fā)出推薦內容獲取指令時,基于該目標用戶的歷史訪問數(shù)據(jù)抓取相應的媒體數(shù)據(jù),然后對這些媒體數(shù)據(jù)進行目標用戶興趣熱點評分,接著根據(jù)目標用戶的位置信息提前相應的地區(qū)特征向量,然后計算地區(qū)信息評分,結合二種評分得到綜合評分,按綜合評分的排序向目標用戶推薦媒體數(shù)據(jù);從而在向目標用戶推薦媒體數(shù)據(jù)時,不但能夠針對目標用戶的興趣熱點進行推薦,還結合了目標用戶所在地區(qū)的群體熱點來進行推薦,從而達到更加精確地向目標用戶推薦媒體數(shù)據(jù)的效果,提升了用戶體驗。此外,通過現(xiàn)成的分類樹+數(shù)據(jù)挖掘的方式確定地區(qū)對象的特征向量可以很好防止過擬合,這樣可以有效的防止噪音特征數(shù)據(jù)對有效數(shù)據(jù)的影響。
[0192]所屬領域的普通技術人員應當理解:以上任何實施例的討論僅為示例性的,并非旨在暗示本公開的范圍(包括權利要求)被限于這些例子;在本發(fā)明的思路下,以上實施例或者不同實施例中的技術特征之間也可以進行組合,并存在如上所述的本發(fā)明的不同方面的許多其它變化,為了簡明它們沒有在細節(jié)中提供。因此,凡在本發(fā)明的精神和原則之內,所做的任何省略、修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【主權項】
1.一種媒體數(shù)據(jù)推薦方法,應用于服務器,其特征在于,包括: 基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量; 接收到目標用戶發(fā)出的推薦內容獲取指令; 獲取目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息; 根據(jù)目標用戶的歷史訪問數(shù)據(jù),從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組; 根據(jù)目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行目標用戶興趣熱度評分; 根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量; 利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行地區(qū)信息評分; 結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的綜合評分; 將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。2.根據(jù)權利要求1所述的方法,其特征在于,所述基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量的步驟包括: 獲取預先設定的媒體數(shù)據(jù)分類樹; 獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù); 將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組; 將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行特征提取訓練; 從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量。3.根據(jù)權利要求2所述的方法,其特征在于,所述將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行訓練的步驟包括: 將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類; 通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征; 所述媒體數(shù)據(jù)分類樹結合最低一級的子分類的分類特征,為特征提取訓練結果。4.根據(jù)權利要求1所述的方法,其特征在于,所述利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的每個媒體數(shù)據(jù)進行地區(qū)信息評分的步驟包括: 提取備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的特征向量; 計算媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度; 得到的余弦相似度值用于表征媒體數(shù)據(jù)的地區(qū)信息評分。5.根據(jù)權利要求1所述的方法,其特征在于,所述從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù)的步驟包括: 對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序; 在抓取媒體數(shù)據(jù)時,按照媒體數(shù)據(jù)的特性評分的高低順序進行抓取。6.一種媒體數(shù)據(jù)推薦服務器,其特征在于,包括: 地區(qū)特征向量生成模塊,用于基于區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù),生成各地區(qū)的地區(qū)特征向量; 指令接收模塊,用于接收目標用戶發(fā)出的推薦內容獲取指令; 用戶數(shù)據(jù)獲取模塊,用于在接收到目標用戶發(fā)出的推薦內容獲取指令后,獲取目標用戶的用戶信息、歷史訪問數(shù)據(jù)及位置信息; 數(shù)據(jù)抓取模塊,用于根據(jù)目標用戶的歷史訪問數(shù)據(jù),從媒體數(shù)據(jù)庫中抓取多個與目標用戶興趣相關的媒體數(shù)據(jù),形成為備選媒體數(shù)據(jù)組; 興趣熱度評分模塊,用于根據(jù)目標用戶的歷史訪問數(shù)據(jù),對備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行目標用戶興趣熱度評分; 地區(qū)特征向量提取模塊,用于根據(jù)目標用戶的位置信息,提取出與目標用戶的位置信息相關的地區(qū)特征向量; 地區(qū)信息評分模塊,用于利用所述與目標用戶的位置信息相關的地區(qū)特征向量,對所述備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)進行地區(qū)信息評分; 綜合評分模塊,用于結合目標用戶興趣熱度評分和地區(qū)信息評分,得到備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的綜合評分; 媒體數(shù)據(jù)推薦推薦模塊,用于將綜合評分排名靠前的多個媒體數(shù)據(jù)推薦給目標用戶。7.根據(jù)權利要求6所述的服務器,其特征在于,所述地區(qū)特征向量生成模塊,包括: 分類樹獲取單元,用于獲取預先設定的媒體數(shù)據(jù)分類樹; 用戶信息獲取單元,用于獲取區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù); 地區(qū)劃分單元,用于將區(qū)域用戶的用戶信息及歷史訪問數(shù)據(jù)按地區(qū)進行劃分,形成地區(qū)用戶數(shù)據(jù)組; 特征提取訓練單元,用于將每個地區(qū)用戶數(shù)據(jù)組分別按照媒體數(shù)據(jù)分類樹的結構進行特征提取訓練; 地區(qū)特征向量生成單元,用于從生成的特征提取訓練結果中得出每個地區(qū)相應的地區(qū)特征向量。8.根據(jù)權利要求7所述的服務器,其特征在于,所述特征提取訓練單元,還用于將地區(qū)用戶數(shù)據(jù)組中的媒體數(shù)據(jù)根據(jù)媒體數(shù)據(jù)分類樹進行分類;通過聚類算法,從每個最低一級的子分類的媒體數(shù)據(jù)中挖掘得到該子分類的分類特征;以及,將媒體數(shù)據(jù)分類樹結合最低一級的子分類的分類特征,作為特征提取訓練結果。9.根據(jù)權利要求6所述的服務器,其特征在于,所述地區(qū)信息評分模塊,還用于提取備選媒體數(shù)據(jù)組中的媒體數(shù)據(jù)的特征向量;計算媒體數(shù)據(jù)的特征向量與地區(qū)特征向量的余弦相似度;得到的余弦相似度值用于表征媒體數(shù)據(jù)的地區(qū)信息評分。10.根據(jù)權利要求6所述的服務器,其特征在于,所述數(shù)據(jù)抓取模塊,還用于對媒體數(shù)據(jù)庫中的媒體數(shù)據(jù),基于媒體數(shù)據(jù)所屬的頻道特性,進行預先的特性評分及排序;在抓取媒體數(shù)據(jù)時,按照媒體數(shù)據(jù)的特性評分的高低順序進行抓取。
【文檔編號】G06F17/30GK105868237SQ201510908059
【公開日】2016年8月17日
【申請日】2015年12月9日
【發(fā)明人】何星維
【申請人】樂視網(wǎng)信息技術(北京)股份有限公司