文本文件推薦方法及系統(tǒng)的制作方法

文檔序號(hào)：6400533閱讀：286來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：文本文件推薦方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域，尤其涉及一種文本文件推薦方法及系統(tǒng)。
背景技術(shù)：
互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展，網(wǎng)上信息爆炸式增長(zhǎng)，用戶為了找到自己需要的信息，可能需要花費(fèi)大量的時(shí)間瀏覽并過(guò)濾大量無(wú)關(guān)信息。為解決這種因信息過(guò)載而導(dǎo)致的信息利用率下降的問(wèn)題，推薦系統(tǒng)在互聯(lián)網(wǎng)領(lǐng)域得到廣泛應(yīng)用。推薦系統(tǒng)就是，通過(guò)建立用戶與信息產(chǎn)品之間的二元關(guān)系，利用已有的選擇過(guò)程或相似性關(guān)系挖掘每位用戶潛在感興趣的對(duì)象，進(jìn)而進(jìn)行個(gè)性化的推薦，其本質(zhì)就是信息過(guò)濾。目前互聯(lián)網(wǎng)上基于文本文件內(nèi)容的推薦系統(tǒng)，是根據(jù)用戶當(dāng)前搜索瀏覽的文本文件，得出當(dāng)前文本文件的詞語(yǔ)特征向量，并與系統(tǒng)中其它待推薦文本文件的詞語(yǔ)特征向量計(jì)算兩者間的相似度，按照計(jì)算出的相似度將若干個(gè)待推薦文本文件推薦給用戶；具體過(guò)程如

圖1所示，通常包括以下步驟:SlOl:對(duì)當(dāng)前文本文件進(jìn)行預(yù)處理。具體地，在用戶搜索、并瀏覽一個(gè)文本文件時(shí)，推薦系統(tǒng)將該文本文件作為當(dāng)前文本文件進(jìn)行預(yù)處理，為后續(xù)提取該當(dāng)前文本文件的詞語(yǔ)特征向量做準(zhǔn)備。對(duì)當(dāng)前文本文件進(jìn)行預(yù)處理的過(guò)程中，包括:對(duì)該當(dāng)前文本文件進(jìn)行分詞、去除停用詞后得到當(dāng)前文本文件的詞語(yǔ)集合。分詞就是將文本文件中連續(xù)的字序列劃分為一個(gè)個(gè)詞語(yǔ)的過(guò)程；經(jīng)分詞后劃分出的詞語(yǔ)，再去除停用詞，刪除如“的”、“呀”等對(duì)于文件沒(méi)有實(shí)際意義的詞，從而構(gòu)成該文本文件的詞語(yǔ)集合。S102:提取當(dāng)前文本文件的詞語(yǔ)特征向量。具體地，對(duì)文本文件預(yù)處理后得到的是詞語(yǔ)集合；詞語(yǔ)集合還不能簡(jiǎn)潔準(zhǔn)確地表示該文本文件的內(nèi)容信息，還需要通過(guò)一定的算法來(lái)提取該文本文件的內(nèi)容特征；當(dāng)前的文本文件推薦系統(tǒng)，通常采用向量空間模型表征文本文件的內(nèi)容特征，即詞語(yǔ)特征向量。計(jì)算文本文件的詞語(yǔ)特征向量主要采用的方法可以有TF-1DF (termfrequency-1nverse document frequency,詞步頁(yè)-逆向文件步頁(yè)率)，TextRank 等方法。以下以TF-1DF方法為例，簡(jiǎn)介相關(guān)算法。TF-1DF是一種統(tǒng)計(jì)方法，用以評(píng)估一個(gè)詞語(yǔ)對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的頻數(shù)，即TF (Term Frequency,詞頻)值，成正比增加，但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率，即IDF (Inverse DocumentFrequency,逆向文件頻率)值,成反比下降。比如，對(duì)于某一文本文件R的詞語(yǔ)集合中的詞語(yǔ)ti;它在該文本文件中重要性可表示為如下公式1: tfl = max{m|k = (L2,...,T)}(公式 1)其中，分子Iii是文本文件R中的第i個(gè)詞語(yǔ)\出現(xiàn)的頻數(shù)；
分母maX{nk,j|k= (1，2，…，T) }是文本文件R中所有詞語(yǔ)出現(xiàn)的最大次數(shù)，T是文本文件R的總詞語(yǔ)數(shù)。某一特定詞語(yǔ)\的IDF值，可以由語(yǔ)料庫(kù)中總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目，再將得到的商取對(duì)數(shù)得到，即如下公式2:
權(quán)利要求
1.一種文本文件推薦方法，包括: 確定出當(dāng)前文本文件的詞語(yǔ)集合后，確定該詞語(yǔ)集合中的每個(gè)詞語(yǔ)的詞頻TF值或詞頻-逆向文件頻率TF-1DF值；根據(jù)所述詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-1DF值，確定出所述當(dāng)前文本文件的隱含主題特征向量，該隱含主題特征向量中的各元素分別為隱含主題集合中各隱含主題在所述當(dāng)前文本文件中的出現(xiàn)概率；分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量與各待推薦文本文件的隱含主題特征向量之間的相似度；選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦。
2.如權(quán)利要求1所述的方法，其中，所述根據(jù)所述詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-1DF值，確定出所述當(dāng)前文本文件的隱含主題特征向量，具體包括: 將所述詞語(yǔ)集合中的各詞語(yǔ)的TF值分別作為向量P中的各元素，或者將所述詞語(yǔ)集合中的各詞語(yǔ)的TF-1DF值分別作為向量P中的各元素后，根據(jù)如下公式6確定所述當(dāng)前文本文件的隱含主題特征向量: Q=PXff (公式 6) 其中，Q為所述當(dāng)前文本文件的隱含主題特征向量，W是由所述語(yǔ)料庫(kù)的詞語(yǔ)集合中各詞語(yǔ)對(duì)所述隱含主題集合中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣，是預(yù)先根據(jù)所述語(yǔ)料庫(kù)中各文本文件進(jìn)行訓(xùn)練后得到的。
3.如權(quán)利要求1所述的方法，其中，所述根據(jù)所述詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-1DF值，確定出所述當(dāng)前文本文件的隱含主題特征向量，具體包括: 在原語(yǔ)料庫(kù)的基礎(chǔ)上，增加所述當(dāng)前文本文件，形成包括所述當(dāng)前文本文件、以及各待推薦文本文件的新語(yǔ)料庫(kù)；根據(jù)所述新語(yǔ)料庫(kù)中各文本文件的詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-1DF值，運(yùn)用概率潛在語(yǔ)義分析PLSA模型進(jìn)行訓(xùn)練，得到Z矩陣；所述Z矩陣是由所述新語(yǔ)料庫(kù)的各文本文件中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣；根據(jù)所述Z矩陣中，所述當(dāng)前文本文件中各隱含主題變量的出現(xiàn)概率，得到所述當(dāng)前文本文件的隱含主題特征向量；并根據(jù)所述Z矩陣中，各待推薦文本文件中各隱含主題變量的出現(xiàn)概率，分別得到各待推薦文本文件的隱含主題特征向量。
4.如權(quán)利要求1-3任一所述的方法，其中，所述分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量，與各待推薦文本文件的隱含主題特征向量之間的相似度，具體包括: 對(duì)于各待推薦文本文件中的一個(gè)待推薦文本文件，根據(jù)所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間的夾角，確定所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間相似度。
5.如權(quán)利要4所述的方法，其中，所述根據(jù)所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間的夾角，確定所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間相似度，具體包括: 根據(jù)如下公式5確定所述當(dāng)前文本文件的隱含主題特征向量與該待推薦文本文件的隱含主題特征向量之間相似度:
6.如權(quán)利要求1-3任一所述的方法，其中，所述選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦，具體為: 將計(jì)算出的相似度進(jìn)行大小排序，選擇出排序在前的設(shè)定個(gè)數(shù)的相似度作為符合所述篩選條件的相似度，將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦；或者選擇出大于或等于設(shè)定閾值的相似度作為符合所述篩選條件的相似度，將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦。
7.一種文本文件推薦系統(tǒng)，包括: 詞語(yǔ)集合確定模塊，用于確定當(dāng)前文本文件的詞語(yǔ)集合；特征值確定模塊，用于確定所述詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-1DF值；隱含主題特征向量確定模塊，用于根據(jù)所述特征值確定模塊確定的TF值或TF-1DF值，確定出所述當(dāng)前文本文件的隱含主題特征向量，該隱含主題特征向量中的各元素分別為隱含主題集合中各隱含主題在所述當(dāng)前文本文件中的出現(xiàn)概率；相似度計(jì)算模塊，用于分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量與各待推薦文本文件的隱含主題特征向量之間的相似度；推薦模塊，用于選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦。
8.如權(quán)利要求7所述的系統(tǒng)，其中，所述隱含主題特征向量確定模塊具體包括: 賦值單元，用于將所述詞語(yǔ)集合中的各詞語(yǔ)的TF值分別作為向量P中的各元素，或者將所述詞語(yǔ)集合中的各詞語(yǔ)的TF-1DF值分別作為向量P中的各元素；隱含主題特征向量計(jì)算單元，用于根據(jù)所述向量P以及如下公式確定所述當(dāng)前文本文件的隱含主題特征向量:Q=PXW;其中，Q為所述當(dāng)前文本文件的隱含主題特征向量，W是由所述語(yǔ)料庫(kù)的詞語(yǔ)集合中各詞語(yǔ)對(duì)所述隱含主題集合中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣，是預(yù)先根據(jù)所述語(yǔ)料庫(kù)中各文本文件進(jìn)行訓(xùn)練后得到的。
9.如權(quán)利要求7所述的系統(tǒng)，其中，所述隱含主題特征向量確定模塊具體包括: 語(yǔ)料庫(kù)更新單元，用于在原語(yǔ)料庫(kù)的基礎(chǔ)上，增加所述當(dāng)前文本文件，形成包括所述當(dāng)前文本文件、以及各待推薦文本文件的更新后的新語(yǔ)料庫(kù)；訓(xùn)練單元，用于根據(jù)所述新語(yǔ)料庫(kù)中各文本文件的詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-1DF值，運(yùn)用PLSA模型進(jìn)行訓(xùn)練，得到Z矩陣；其中，所述Z矩陣是由所述新語(yǔ)料庫(kù)的各文本文件中各隱含主題變量的出現(xiàn)概率作為元素所構(gòu)成的矩陣；隱含主題特征向量確定單元，用于根據(jù)所述Z矩陣中，所述當(dāng)前文本文件中各隱含主題變量的出現(xiàn)概率，得到所述當(dāng)前文本文件的隱含主題特征向量；并根據(jù)所述Z矩陣中，各待推薦文本文件中各隱含主題變量在的出現(xiàn)概率，分別得到各待推薦文本文件的隱含主題特征向量。
10.如權(quán)利要求7所述的系統(tǒng)，其中，所述推薦模塊具體包括: 排序單元，用于將計(jì)算出的相似度進(jìn)行大小排序；選擇單元，用于選擇出排序在前的設(shè)定個(gè)數(shù)的相似度作為符合所述篩選條件的相似度，將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦；或者選擇出大于設(shè)定閾值的相似度作為符合所述篩選條件的相似度，將符合所述篩選條件的相似度所對(duì)應(yīng)的待推薦文本文件進(jìn)行推薦。
全文摘要
本發(fā)明公開(kāi)了一種文本文件推薦方法及系統(tǒng)，所述方法包括確定出當(dāng)前文本文件的詞語(yǔ)集合后，確定該詞語(yǔ)集合中的每個(gè)詞語(yǔ)的TF值或TF-IDF值，確定出當(dāng)前文本文件的隱含主題特征向量，分別計(jì)算所述當(dāng)前文本文件的隱含主題特征向量與各待推薦文本文件的隱含主題特征向量之間的相似度，選擇隱含主題特征向量與所述當(dāng)前文本文件的隱含主題特征向量的相似度符合預(yù)設(shè)的篩選條件的待推薦文本文件進(jìn)行推薦。由于隱含主題特征向量來(lái)計(jì)算文本文件之間相似度，從而使得文本文件推薦系統(tǒng)的推薦方法更加準(zhǔn)確。
文檔編號(hào)G06F17/27GK103207899SQ20131008857
公開(kāi)日2013年7月17日申請(qǐng)日期2013年3月19日優(yōu)先權(quán)日2013年3月19日
發(fā)明者劉洋申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉洋
技術(shù)所有人：新浪網(wǎng)技術(shù)(中國(guó))有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

etx4文件系統(tǒng)修復(fù)方法相關(guān)技術(shù)

文本分析系統(tǒng)相關(guān)技術(shù)

超文本系統(tǒng)相關(guān)技術(shù)

文本分類系統(tǒng)相關(guān)技術(shù)

在線文本語(yǔ)音合成系統(tǒng)相關(guān)技術(shù)

两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本文件推薦方法及系統(tǒng)的制作方法