內(nèi)容推薦系統(tǒng)及方法
【專利摘要】本發(fā)明提供一種內(nèi)容推薦系統(tǒng),該系統(tǒng)包括:斷詞模塊,用于對資料庫中的文件進行斷詞;提取模塊,用于過濾斷詞結(jié)果,并計算過濾結(jié)果中詞的重要程度,以重要程度為依據(jù),提取出文件的關鍵詞;統(tǒng)計模塊,用于統(tǒng)計用戶歷史記錄內(nèi)的文件的關鍵詞及每個關鍵詞的重要程度,并計算出關鍵詞適合度,以適合度為依據(jù),篩選出用戶的興趣關鍵詞;及檢索模塊,用于根據(jù)用戶的興趣關鍵詞從資料庫中檢索文件,并根據(jù)興趣關鍵詞在文件中的比重來計算文件的關注度,以關注度為依據(jù)選取文件返回給用戶。本發(fā)明還提供一種內(nèi)容推薦方法。
【專利說明】內(nèi)容推薦系統(tǒng)及方法
【技術領域】
[0001]本發(fā)明涉及文字信息檢索技術,尤其涉及一種內(nèi)容推薦系統(tǒng)及方法。
【背景技術】
[0002]信息技術的不斷發(fā)展極大提高了人們獲取信息的便利性。無論是通過互聯(lián)網(wǎng)的各大門戶網(wǎng)站、電子商務系統(tǒng)還是通過企業(yè)內(nèi)部的各種資源共享系統(tǒng)的方式,海量的信息開放給用戶自由查閱。
[0003]目前信息量的日益龐大,很大程度上增加了用戶獲取有效信息的繁重性和復雜度。如何根據(jù)用戶在網(wǎng)絡上查閱文件的行為,分析用戶閱讀興趣并檢索有效信息提供給用戶是信息檢索中一個重要的課題。
【發(fā)明內(nèi)容】
[0004]鑒于以上內(nèi)容,有必要提供一種內(nèi)容推薦系統(tǒng)及方法,可以有效利用用戶網(wǎng)絡上的檢索行為,統(tǒng)計并分析用戶閱讀興趣,獲取有效的文件信息提供給用戶。
[0005]所述的內(nèi)容推薦系統(tǒng)包括:斷詞模塊,用于對資料庫中的文件進行斷詞;提取模塊,用于過濾斷詞結(jié)果,并計算過濾結(jié)果中詞的重要程度,以重要程度為依據(jù),提取出文件的關鍵詞;統(tǒng)計模塊,用于統(tǒng)計用戶查閱的歷史記錄內(nèi)文件的關鍵詞及重要程度,并計算出關鍵詞的適合度,以適合度為依據(jù),篩選出用戶的興趣關鍵詞;及檢索模塊,用于根據(jù)用戶的興趣關鍵詞從資料庫中檢索文件,并根據(jù)興趣關鍵詞在文件中的比重來計算文件的關注度,以關注度為依據(jù)選取文件返回給用戶。
[0006]所述的內(nèi)容推薦方法包括:對資料庫的文件斷詞;過濾斷詞結(jié)果,并計算過濾結(jié)果中詞的重要程度,以重要程度為依據(jù)提取文件的關鍵詞;統(tǒng)計用戶查閱的歷史記錄內(nèi)文件的關鍵詞及重要程度,并計算出關鍵詞的適合度,以適合度為依據(jù)篩選出用戶的興趣關鍵詞;及根據(jù)用戶的興趣關鍵詞從資料庫中檢索文件,并根據(jù)興趣關鍵詞在文件中的比重來計算文件的關注度,以關注度為依據(jù)選取文件返回給用戶。
[0007]本發(fā)明可以提取文字信息的關鍵詞借以分析用戶檢索行為并統(tǒng)計用戶的興趣關鍵詞,獲取符合用戶自身特點的信息推送給用戶,降低了用戶檢索和信息過濾的復雜度和繁重性。
【專利附圖】
【附圖說明】
[0008]圖1是本
【發(fā)明內(nèi)容】
推薦系統(tǒng)較佳實施例的應用環(huán)境圖。
[0009]圖2是本
【發(fā)明內(nèi)容】
推薦系統(tǒng)較佳實施例的功能模塊圖。
[0010]圖3是本
【發(fā)明內(nèi)容】
推薦方法較佳實施例的方法流程圖。
[0011]圖4是本
【發(fā)明內(nèi)容】
推薦系統(tǒng)較佳實施例中文件匯總記錄的示意圖。
[0012]圖5是本
【發(fā)明內(nèi)容】
推薦系統(tǒng)較佳實施例中文件關鍵詞記錄的示意圖。
[0013]圖6是本
【發(fā)明內(nèi)容】
推薦系統(tǒng)較佳實施例中用戶興趣關鍵詞記錄的示意圖。
[0014]主要元件符號說明
【權(quán)利要求】
1.一種內(nèi)容推薦系統(tǒng),其特征在于,該系統(tǒng)包括: 斷詞模塊:用于對資料庫中的文件進行斷詞; 提取模塊:用于過濾斷詞結(jié)果,并計算過濾結(jié)果中詞的重要程度,并以重要程度作為依據(jù),提取出文件的關鍵詞; 統(tǒng)計模塊:用于統(tǒng)計用戶查閱的歷史記錄內(nèi)文件的關鍵詞及重要程度,并計算出關鍵詞的適合度,以適合度作為依據(jù),篩選出用戶的興趣關鍵詞;及 檢索模塊:用于根據(jù)用戶的興趣關鍵詞從資料庫中檢索文件,并根據(jù)興趣關鍵詞在文件中的比重來計算文件的關注度,以關注度作為依據(jù)選取文件返回給用戶。
2.如權(quán)利要求1所述的內(nèi)容推薦系統(tǒng),其特征在于,該系統(tǒng)還包括解析模塊,用于將資料庫中的文件解析為具有標題及文字正文的結(jié)構(gòu)性的文字信息以便后續(xù)斷詞。
3.如權(quán)利要求1所述的內(nèi)容推薦系統(tǒng),其特征在于,所述斷詞模塊在對中文文字信息斷詞時采用混合式斷詞法,即先用規(guī)則式詞庫斷詞法對文字信息進行第一階段的斷詞,再用統(tǒng)計式斷詞法對第一階段斷詞后的斷詞結(jié)果進行頻率統(tǒng)計,列出所有可能的詞。
4.如權(quán)利要求1所述的內(nèi)容推薦系統(tǒng),其特征在于,所述提取模塊先根據(jù)常用詞詞庫對斷詞結(jié)果進行過濾,再利用加權(quán)法計算過濾后的詞的重要程度,并根據(jù)每個詞的重要程度進行降序排列,取前m個詞作為文件的關鍵詞,將提取的關鍵詞記錄在文件關鍵詞記錄表中,該表的欄位包括文件ID、項次、關鍵詞、重要程度,其中,所述詞的重要程度=該詞在文字正文出現(xiàn)的次數(shù) X正文權(quán)重+該詞在標題中出現(xiàn)次數(shù)X標題權(quán)重。
5.如權(quán)利要求4所述的內(nèi)容推薦系統(tǒng),其特征在于,所述統(tǒng)計模塊獲取用戶最近一個時間范圍的歷史記錄,根據(jù)歷史記錄內(nèi)文件ID查詢文件關鍵詞記錄表,匯總查詢結(jié)果的關鍵詞及每個關鍵詞的重要程度,根據(jù)該重要程度計算每個關鍵詞的適合度,以適合度對關鍵詞降序排序,取前r個關鍵詞作為興趣關鍵詞,將篩選的興趣關鍵詞記錄在用戶興趣關鍵詞記錄表中,該表欄位包括用戶ID、項次、興趣關鍵詞、適合度,其中,所述適合度為篩選興趣關鍵詞的依據(jù),計算公式為:
其中,F(xiàn)eq為匯總查詢結(jié)果的關鍵詞的重要程度,K為k天內(nèi)標題出現(xiàn)該關鍵字的文件篇數(shù),N為η天內(nèi)的文件總篇數(shù)。
6.如權(quán)利要求5所述的內(nèi)容推薦系統(tǒng),其特征在于,所述檢索模塊從資料庫中檢索出文件標題與興趣關鍵詞匹配的文件,根據(jù)興趣關鍵詞及適合度計算出檢索結(jié)果中各文件的關注度,以關注度降序排序,獲取前s個文件返回給用戶,其中,所述文件的關注度是指興趣關鍵詞在文件標題中的比重,計算公式為:文件關注度=Σ (興趣關鍵詞在文件標題出現(xiàn)次數(shù)X該興趣關鍵詞的適合度)。
7.一種內(nèi)容推薦方法,其特征在于,該方法包括: 斷詞步驟:對資料庫的文件斷詞; 提取步驟:過濾斷詞結(jié)果,并計算過濾結(jié)果中詞的重要程度,并以重要程度為依據(jù)提取文件的關鍵詞; 統(tǒng)計步驟:統(tǒng)計用戶查閱的歷史記錄內(nèi)文件的關鍵詞及重要程度,并計算出關鍵詞的適合度,以適合度為依據(jù)篩選用戶的興趣關鍵詞;及 檢索步驟:根據(jù)用戶的興趣關鍵詞進行檢索,并以興趣關鍵詞在文件中的比重來計算文件的關注度,以關注度為依據(jù)選取文件返回給用戶。
8.如權(quán)利要求7所述的內(nèi)容推薦方法,其特征在于,在斷詞步驟前還包括:解析步驟,將資料庫中的文件解析為具有標題及文字正文的結(jié)構(gòu)性的文字信息以便斷詞。
9.如權(quán)利要求7所述的內(nèi)容推薦方法,其特征在于,所述斷詞步驟在對中文文字信息斷詞時采用混合式斷詞法,即先用規(guī)則式詞庫斷詞法對文字信息進行第一階段的斷詞,再用統(tǒng)計式斷詞法對第一階段斷詞后的斷詞結(jié)果進行頻率統(tǒng)計,列出所有可能的詞。
10.如權(quán)利要求7所述的內(nèi)容推薦方法,其特征在于,所述提取步驟包括: 根據(jù)常用詞詞庫對斷詞結(jié)果進行過濾; 利用加權(quán)法計算過濾后的詞的重要程度,計算公式為:詞的重要程度=該詞在文字正文出現(xiàn)的次數(shù)X正文權(quán)重+該詞在標題中出現(xiàn)次數(shù)X標題權(quán)重; 根據(jù)每個詞的重要程度進行降序排列,取前Π1個詞作為文件的關鍵詞; 將提取的關鍵詞記錄在文件關鍵詞記錄表中,該文件關鍵詞記錄表的欄位包括文件ID、項次、關鍵詞、重要程度。
11.如權(quán)利要求10所述的內(nèi)容推薦方法,其特征在于,所述統(tǒng)計步驟包括: 獲取用戶最近的一個時間范圍的歷史記錄; 根據(jù)歷史記錄內(nèi)文件ID查詢文件關鍵詞記錄,匯總查詢結(jié)果的關鍵詞以及每個關鍵詞的重要程度; 根據(jù)匯總的重要程度計算出每個關鍵詞的適合度,所述關鍵詞的適合度是篩選興趣關鍵詞的依據(jù),根據(jù)以下公式計算:
其中,F(xiàn)eq為匯總查詢結(jié)果的關鍵詞的重要程度,K為k天內(nèi)標題出現(xiàn)該關鍵字的文件篇數(shù),N為η天內(nèi)的文件總篇數(shù); 根據(jù)適合度對關鍵詞降序排序,取前r個關鍵詞作為興趣關鍵詞。
12.如權(quán)利要求11所述的內(nèi)容推薦方法,其特征在于,所述檢索步驟包括: 從資料庫中檢索出文件標題與興趣關鍵詞匹配的文件; 根據(jù)興趣關鍵詞及適合度計算出檢索結(jié)果中各文件的關注度,所述文件的關注度是指興趣關鍵詞在文件標題中的比重,計算公式為:文件關注度=Σ (興趣關鍵詞在文件標題出現(xiàn)次數(shù)X該興趣關鍵詞的適合度); 根據(jù)關注度對各文件降序排序,獲取前s個文件返回給用戶。
【文檔編號】G06F17/30GK104050163SQ201310076147
【公開日】2014年9月17日 申請日期:2013年3月11日 優(yōu)先權(quán)日:2013年3月11日
【發(fā)明者】強振雄, 林奇玲, 李建緯, 李宜臻, 歐政敏 申請人:捷達世軟件(深圳)有限公司, 鴻海精密工業(yè)股份有限公司