一種基于Web挖掘的視頻推薦方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一種基于Web挖掘的視頻推薦方法和系統(tǒng),屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 如今已經(jīng)進(jìn)入了一個數(shù)據(jù)爆炸的時代,Web2. 0的蓬勃發(fā)展使得內(nèi)容的創(chuàng)建和分 享變得越來越容易,互聯(lián)網(wǎng)用戶每天都有大量的圖片、博客、視頻發(fā)布到網(wǎng)上,人們逐漸從 信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費(fèi)者還是信息生產(chǎn)者 都遇到了極大的挑戰(zhàn):對于信息消費(fèi)者,信息的爆炸性增長使得人們找到他們需要的信息 將變得越來越難;而對于信息生產(chǎn)者,為了讓自己生產(chǎn)的信息脫穎而出,受到廣大用戶的關(guān) 注,也是一件棘手的事情,推薦系統(tǒng)就是為了解決這一矛盾的重要工具。
[0003] 然而現(xiàn)有的推薦系統(tǒng)仍然面臨許多困難和挑戰(zhàn):主要包括:1、數(shù)據(jù)稀疏性是推薦 系統(tǒng)面臨的主要問題。協(xié)同過濾推薦算法基于用戶-項目評分矩陣,通過相似度計算找出 與目標(biāo)用戶度較高的用戶進(jìn)行推薦,評分?jǐn)?shù)據(jù)的稀疏將導(dǎo)致推薦結(jié)果不準(zhǔn)確;2、在大數(shù)據(jù) 環(huán)境下,當(dāng)推薦系統(tǒng)的用戶數(shù)量達(dá)到千萬級別時,推薦算法將面臨嚴(yán)重的可擴(kuò)展問題。許多 在線網(wǎng)站需要對用戶產(chǎn)生及時的推薦結(jié)果,而現(xiàn)有的推薦算法都不具有可擴(kuò)展性;3、推薦 系統(tǒng)中特征提取問題。一方面互聯(lián)網(wǎng)的大量信息以多媒體形式存在,由于多媒體信息自動 特征提取技術(shù)的限制,多媒體信息推薦研究緩慢,另一方面對文本信息進(jìn)行推薦時,面臨過 擬合的現(xiàn)象。
[0004] Web挖掘是將數(shù)據(jù)挖掘應(yīng)用于Web以便從其文檔和服務(wù)中自動發(fā)現(xiàn)抽取信息。它 是一個跨學(xué)科的領(lǐng)域,涉及到人工智能、知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)等學(xué)科的知 識。同時,Web挖掘也存在語義分析難、深層數(shù)據(jù)庫信息抽取復(fù)雜以及網(wǎng)站內(nèi)容時效性弱等 問題。而本發(fā)明能夠很好地解決上面的問題。
【發(fā)明內(nèi)容】
[0005] 為了克服傳統(tǒng)推薦系統(tǒng)中由于用戶評論信息少而帶來的數(shù)據(jù)稀疏性問題,緩解新 用戶或新項目無評分的推薦冷啟動問題,本發(fā)明提出了一種基于Web挖掘給用戶推薦視頻 的方法和系統(tǒng),該方法能夠主動給用戶推薦個性化的視頻,提高了用戶觀看視頻的滿意度, 并且推薦結(jié)果非常準(zhǔn)確。
[0006] 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于Web挖掘的視頻推薦方 法,該方法包括如下步驟:
[0007] 步驟1 :通過Web挖掘?qū)τ脩魹g覽日志進(jìn)行分析,獲取用戶觀看視頻的行為和屬性 數(shù)據(jù)。該數(shù)據(jù)包括用戶的注冊信息、用戶搜索視頻的記錄、用戶觀看視頻記錄以及用戶對視 頻的評分;所述Web挖掘數(shù)據(jù)預(yù)處理包括四個步驟,即:數(shù)據(jù)凈化、用戶識別、會話識別和路 徑補(bǔ)充。
[0008] 步驟2 :對采集后的用戶數(shù)據(jù)進(jìn)行預(yù)處理后存儲在數(shù)據(jù)庫中,從該數(shù)據(jù)庫中獲取 每個視頻的屬性信息,并根據(jù)該屬性信息提取用戶的興趣標(biāo)記,利用分類回歸樹建立個性 化興趣t吳型;
[0009] 根據(jù)步驟2所述CART生成決策樹時用基尼(Gini)指數(shù)選擇最優(yōu)特征,Gini指數(shù) 計算公式為:
式2
[0011] 式中。1<是樣本點(diǎn)屬于第k類的概率。
[0012] 步驟3 :采用協(xié)同過濾推薦算法對用戶生成推薦視頻;
[0013] 步驟4 :對每個用戶的興趣喜好進(jìn)行標(biāo)記,把具有相同標(biāo)記的用戶劃歸為一個類, 在同一個類中的用戶之間實(shí)現(xiàn)相互推薦。
[0014] 本發(fā)明的上述方法應(yīng)用于Web挖掘的視頻推薦系統(tǒng)。
[0015] 本發(fā)明還提供了一種基于Web挖掘的視頻推薦系統(tǒng),該系統(tǒng)包括:行為記錄模塊、 模型分析模塊、推薦算法模塊。
[0016] 行為記錄模塊的功能是:采集用戶信息的行為記錄模塊是通過分析用戶搜索、觀 看視頻記錄獲取用戶喜好;
[0017] 模型分析模塊的功能是:建立用戶興趣的模型分析模塊,采用分類回歸樹獲取用 戶興趣t吳型;
[0018] 推薦算法模塊的功能是:利用協(xié)同過濾推薦算法,實(shí)時地從視頻庫中篩選出用戶 感興趣視頻進(jìn)行推薦,同時把相同興趣的用戶推薦給目標(biāo)用戶。協(xié)同過濾算法計算用戶A 與用戶B之間的相似度,其所采用的計算公式為:
[0019]
[0020] 其中A為用戶A,B為用戶B,sim(A,B)為用戶之間的興趣相似度,N㈧表示用戶 A曾經(jīng)有過正反饋的視頻個數(shù),N(B)表示用戶B曾經(jīng)有過正反饋的視頻個數(shù)。
[0021] 本發(fā)明的系統(tǒng)采用相似度計算公式,用于懲罰用戶A、B共同興趣列表中,熱門視 頻對他們相似度的影響,推薦結(jié)果更準(zhǔn)確,更高效。
[0022] 有益效果:
[0023] 1、本發(fā)明是基于Web挖掘的個性化推薦系統(tǒng)通過使用Web挖掘技術(shù)實(shí)現(xiàn)隱式的 數(shù)據(jù)采集方式,在不需要用戶的參與就能獲得用戶與項目之間潛在的喜好關(guān)系或者評分信 息,不僅僅提高了用戶體驗(yàn),還能有效減少惡意評論對系統(tǒng)準(zhǔn)確性的干擾。
[0024] 2、本發(fā)明是基于Web挖掘發(fā)現(xiàn)的用戶偏好信息,具有客觀性,比僅僅依靠用戶評 分?jǐn)?shù)據(jù)相比更準(zhǔn)確、更具說服力,還能在一定程度上降低由于用戶評分信息較少而帶來的 數(shù)據(jù)稀疏性問題,緩解推薦系統(tǒng)中由于新用戶或者新項目無評分而導(dǎo)致的推薦冷啟動問 題。
[0025] 3、本發(fā)明能主動給用戶推薦個性化的視頻,避免用戶被動地搜索視頻,提高用戶 觀看視頻的滿意度。
[0026] 4、本發(fā)明在視頻推薦系統(tǒng)中進(jìn)行好友推薦,讓共同興趣的用戶能成為好友。
【附圖說明】
[0027] 圖1為本發(fā)明基于用戶的協(xié)同過濾推薦原理示意圖。
[0028] 圖2為本發(fā)明基于項目的協(xié)同過濾推薦原理示意圖。
[0029] 圖3為本發(fā)明的方法流程圖。
[0030] 圖4為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0031] 下面結(jié)合說明書附圖對本發(fā)明創(chuàng)造作進(jìn)一步的詳細(xì)說明。
[0032] 本發(fā)明技術(shù)術(shù)語包括:
[0033] 知識發(fā)現(xiàn):是指意為從數(shù)據(jù)庫中發(fā)現(xiàn)知識,它代表從低層次數(shù)據(jù)中提取高層次知 識的全過程,包括數(shù)據(jù)信息的收集,數(shù)據(jù)原型的確定,相關(guān)函數(shù)的分析,知識的抽取和數(shù)據(jù) 模式分析。
[0034] 個性化視頻推薦系統(tǒng):是指通過建立用戶與視頻信息之間的二元關(guān)系,獲取用戶 的選擇、搜索以及觀看評分記錄,利用數(shù)據(jù)挖掘發(fā)現(xiàn)用戶的喜好并主動向用戶推薦用戶感 興趣的視頻。
[0035] 冷啟動問題:是指新用戶或新項目無評分導(dǎo)致系統(tǒng)無法推薦。冷啟動主要分為三 類:
[0036] 用戶冷啟動:是指當(dāng)新用戶加入系統(tǒng)后,系統(tǒng)中沒有用戶的行為數(shù)據(jù),無法根據(jù)他 的歷史行為為其推薦感興趣的項目,從而無法實(shí)現(xiàn)個性化推薦。
[0037] 項目冷啟動:是指主要解決如何將新的項目推薦給可能對它感興趣的用戶。
[0038] 系統(tǒng)冷啟動:是指主要解決如何在一個新開發(fā)的網(wǎng)站上設(shè)計個性化推薦系統(tǒng),從 而在網(wǎng)站剛發(fā)布時就讓用戶體驗(yàn)個性化服務(wù)。
[0039] 本發(fā)明的推薦系統(tǒng)包括3個部分,即:搜集用戶信息的行為記錄模塊、分析用戶喜 好的模型分析模塊以及推薦算法模塊,其中推薦算法是最核心的部分。根據(jù)不同的推薦算 法,推薦系統(tǒng)可以分為協(xié)同過濾系統(tǒng)、基于內(nèi)容推薦系統(tǒng)、基于關(guān)聯(lián)規(guī)則推薦系統(tǒng)以及混合 推薦,各種推薦方法優(yōu)缺點(diǎn)比較如下表,包括:
[0040] 主要推薦方法對比 [0041 ]
[0042] 在本發(fā)明的實(shí)現(xiàn)方法中首先要獲取用戶數(shù)據(jù)。Web用戶訪問數(shù)據(jù)可以從三個方面 收集:服務(wù)器端(即:Server)、客戶端(即:Client)、代理端(即:Proxy)。Web挖掘最常 用的數(shù)據(jù)源是服務(wù)器端的數(shù)據(jù)。通常在使用Web日志文件中的數(shù)據(jù)作為數(shù)據(jù)源進(jìn)行分析和 知識挖掘時,最初獲取的數(shù)據(jù)總是雜亂無章的、冗余且不完整的,不符合Web挖掘?qū)?shù)據(jù)源 的要求。因此,必須首先對Web日志數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,才能使數(shù)據(jù)更好地應(yīng)用于Web挖 掘。
[0043] 如圖1所示,本發(fā)明的數(shù)據(jù)預(yù)處理就是將Web服務(wù)器中日志數(shù)據(jù)整理成事務(wù)數(shù)據(jù) 庫,供挖掘階段使用,Web挖掘數(shù)據(jù)預(yù)處理主要分為以下四個步驟:數(shù)據(jù)凈化、用戶識別、會 話識別和路徑補(bǔ)充,包括:
[0044] 步驟1 :數(shù)據(jù)凈化
[0045] 數(shù)據(jù)凈化指刪除事務(wù)數(shù)據(jù)庫無關(guān)的數(shù)據(jù),主要包含以下內(nèi)容:
[0046] 步驟1-1 :在網(wǎng)絡(luò)傳輸過程中產(chǎn)生的錯誤數(shù)據(jù);
[0047] 步驟1-2 :由用戶發(fā)送請求以外的方式完成的服務(wù);
[0048] 步驟1-3 :-些非HTML文件,如圖片文件,通??梢酝ㄟ^后綴(即:gif,jpeg,jpg 等)識別。
[0049] 步驟2:用戶識別
[0050] 用戶是一個獨(dú)立的個體,它通過一個瀏覽器訪問一個或多個Web站點(diǎn)。但在實(shí)際 操作中,由于本地Cache和代理服務(wù)器(即:Proxy)的存在,使得用戶的識別非常困難,比 如:不同的用戶可能使用同一個代理服務(wù)器,在日志文件中會形成相同的IP地址;同時由 于代理服務(wù)器中的緩存功能,使得同一個用戶的訪問請求被誤認(rèn)為不同的用戶。用戶可以 用一個瀏覽器,也可以用多個瀏覽器;可以訪問一個服務(wù)器,也可以訪問