两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

根據(jù)相關(guān)網(wǎng)頁和當(dāng)前行為確定用戶當(dāng)前興趣的方法和系統(tǒng)的制作方法

文檔序號:6402855閱讀:215來源:國知局
專利名稱:根據(jù)相關(guān)網(wǎng)頁和當(dāng)前行為確定用戶當(dāng)前興趣的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法和系統(tǒng),用于針對用戶興趣偏好推送數(shù)據(jù)業(yè)務(wù)領(lǐng)域。
背景技術(shù)
數(shù)據(jù)業(yè)務(wù)推送在2011年開始了全面的綻放,行業(yè)內(nèi)涌現(xiàn)出眾多機(jī)構(gòu),數(shù)據(jù)業(yè)務(wù)推送也從第一階段的網(wǎng)站組合(媒體選擇很重要,根據(jù)媒體的受眾特點(diǎn)進(jìn)行組合和選擇),到第二階段上下文定向(內(nèi)容優(yōu)化很重要,根據(jù)內(nèi)容吸引受眾的類型進(jìn)行組合),再到現(xiàn)在第三個(gè)階段以人群定向技術(shù)為核心的人群定向推送方式轉(zhuǎn)變,更著重于對人群的識別。此外,基于位置的數(shù)據(jù)業(yè)務(wù)推送在另外一個(gè)維度上發(fā)展和成熟。本發(fā)明的目的在于根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣,實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)的定向推送,提高數(shù)據(jù)業(yè)務(wù)推送的可信度,提高用戶喜好度。

發(fā)明內(nèi)容
本發(fā)明提供一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,包括步驟:對用戶當(dāng)前的行為特征進(jìn)行基于決策樹算法分類,獲得用戶當(dāng)前行為興趣;對用戶當(dāng)前的興趣類別的網(wǎng)頁進(jìn)行文本分析,獲得網(wǎng)頁文本屬性信息,根據(jù)網(wǎng)頁文本屬性信息,獲取用戶當(dāng)前內(nèi)容興趣;根據(jù)用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),形成用戶興趣,得到用戶當(dāng)前興趣。其中,獲得用戶當(dāng)前行為特征的步驟包括:統(tǒng)計(jì)短信行為;統(tǒng)計(jì)通信行為;統(tǒng)計(jì)上網(wǎng)行為;通過PCA方法對用戶行為特征進(jìn)行刪減;確定用戶當(dāng)前行為特征。另外,獲取用 戶當(dāng)前內(nèi)容興趣的步驟包括:獲取相應(yīng)關(guān)鍵詞及其索引;計(jì)算用戶對關(guān)鍵詞的關(guān)注度;根據(jù)關(guān)注度閾值,獲取用戶的興趣偏好。優(yōu)選的,獲取相應(yīng)關(guān)鍵詞的步驟包括:①對全文進(jìn)行分詞處理,即中文詞間象英文一樣用空格分開;②過濾掉停用詞;③提取文本標(biāo)題,將標(biāo)題詞集存入向量Vh ;④提取文本第一段、第二段、末段,將內(nèi)容詞集存入向量V。;⑤如果Ivh n V」〈p,則判斷文本標(biāo)題為“抽象型”標(biāo)題,其中,P為一個(gè)給定閾值,根據(jù)實(shí)驗(yàn)確定為3 ;⑥,如果x e {疑問詞庫},文本標(biāo)題也判斷為“抽象型”標(biāo)題;⑦如果標(biāo)題無(5)或(6)中特征,則判斷其為“具體型”標(biāo)題;對于“抽象型”的標(biāo)題,采用TFIDF方法在全文中查找權(quán)值高于一定閾值的詞作為候選詞,然后通過候選詞所在的位置判斷該詞是否為關(guān)鍵字,所在句子的權(quán)值越高,成為關(guān)鍵字的可能性越大,對與“具體型”標(biāo)題,將標(biāo)題分詞后,得到的名詞和動(dòng)詞就為該文本的關(guān)鍵字,計(jì)算句子權(quán)重時(shí),賦予標(biāo)題詞列表中的詞更大的權(quán)重比例因子,通過以上方法,能夠獲得每個(gè)句子的權(quán)重,能夠計(jì)算出每個(gè)句子的權(quán)值,而且更新了關(guān)鍵詞列表的權(quán)重,每個(gè)文章對應(yīng)的關(guān)鍵詞鏈表按權(quán)重排序即為該文的關(guān)鍵詞。此外,計(jì)算用戶對關(guān)鍵詞的關(guān)注度的步驟包括:將相同類屬A下所有主題向量中的關(guān)鍵詞加入到此類屬下的關(guān)鍵詞列表K中;將相同類屬下關(guān)鍵詞添加過程中出現(xiàn)的重復(fù)關(guān)鍵詞歸一,重復(fù)關(guān)鍵詞觸發(fā)了候選相似主題的聚集,并將該詞所屬的所有網(wǎng)頁歸并到一起組成一個(gè)候選相似主題組;對于每個(gè)重復(fù)關(guān)鍵詞所在的候選相似主題組,比較該詞在這組主題向量中的原始權(quán)值,找出權(quán)值最大者所在的主題向量作為這一組主題向量的核心主題代表(并將之加入到K中);計(jì)算核心主題與所在候選相似主題組中每個(gè)主題向量的相似度,設(shè)定一個(gè)閾值,所有超出域值者加入到主題組Ki中形成相似主題組Ki組,也即形成了一個(gè)話題Ki ;以前面所找出的核心主題作為話題Ki的代表,將話題Ki中所有主題向量所在主題的頻度疊加將為調(diào)整后的核心主題熱度,將調(diào)整后的核心主題加入到候選熱點(diǎn)主題列表中;根據(jù)前面所述的熱度計(jì)量方法計(jì)算出K中每一個(gè)主題的關(guān)注度。另外,得到用戶當(dāng)前興趣的步驟包括:針對同一個(gè)訓(xùn)練集,訓(xùn)練不同的分類器,SP決策樹弱分類器,然后把這些決策樹弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器,形成用戶興趣的最終分類,采用AdaBoost算法對用戶行為分類器和用戶內(nèi)容興趣分類器的結(jié)果進(jìn)行迭代調(diào)整,獲得不同決策樹弱分類器的權(quán)重,進(jìn)而獲得用戶當(dāng)前興趣。本發(fā)明還提供一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的系統(tǒng),包括行為信息分析子模塊、內(nèi)容信息分析子模塊和集成學(xué)習(xí)子模塊,行為信息分析子模塊對用戶當(dāng)前的行為特征進(jìn)行基于決策樹算法分類,獲得用戶當(dāng)前行為興趣;內(nèi)容信息分析子模塊對用戶當(dāng)前的興趣類別的網(wǎng)頁進(jìn)行文本分析,獲得網(wǎng)頁文本屬性信息,根據(jù)網(wǎng)頁文本屬性信息,獲取用戶當(dāng)前內(nèi)容興趣;集成學(xué)習(xí)子模塊根據(jù)用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),形成用戶興趣,得到用戶當(dāng)前興趣。


圖1是一種移動(dòng)終端通過無線網(wǎng)關(guān)瀏覽頁面的系統(tǒng)結(jié)構(gòu)圖;圖2是一種在移動(dòng)服務(wù)器上通過無線網(wǎng)關(guān)實(shí)時(shí)獲取移動(dòng)終端用戶興趣偏好的方法;圖3是本發(fā)明時(shí)間窗口調(diào)節(jié)和網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)模塊的操作流程圖;圖4是本發(fā)明網(wǎng)頁分類/內(nèi)容信息處理子模塊的操作流程圖;圖5a是本發(fā)明構(gòu)建網(wǎng)頁文本分類器的方法;圖5b是本發(fā)明網(wǎng)頁文本分類器的使用方法;圖6是本發(fā)明用戶內(nèi)容興趣提取子模塊操作流程圖;圖7是本發(fā)明的用戶興趣偏好的示例性樹狀結(jié)構(gòu);圖8為數(shù)據(jù)業(yè)務(wù)推送模塊操作流程
圖9是本發(fā)明位置分析模塊操作流程圖;圖10是本發(fā)明位置信息關(guān)聯(lián)流程圖。
具體實(shí)施例方式以下參照附圖1 10進(jìn)一步說明本發(fā)明的根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法和系統(tǒng)以及其適用的數(shù)據(jù)推送業(yè)務(wù)實(shí)施例。圖1是移動(dòng)終端通過如WAP網(wǎng)關(guān)的無線網(wǎng)關(guān)瀏覽頁面的系統(tǒng)結(jié)構(gòu)圖。本發(fā)明提供一種基于無線網(wǎng)絡(luò)的數(shù)據(jù)業(yè)務(wù)推送系統(tǒng),其通過無線網(wǎng)關(guān)獲得用戶使用如手機(jī)的移動(dòng)終端的日志信息后,對當(dāng)前一段時(shí)間范圍內(nèi)用戶使用手機(jī)行為進(jìn)行過濾處理,獲得用戶行為特征,使用戶對內(nèi)容的興趣和行為習(xí)慣結(jié)合形成用戶的興趣偏好,并與移動(dòng)終端的位置信息實(shí)時(shí)關(guān)聯(lián)起來,向移動(dòng)終端進(jìn)行信息推送,所述系統(tǒng)由圖1中虛線框所標(biāo)記的部分示出,包括時(shí)間窗口調(diào)節(jié)和網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)模塊、用戶興趣提取模塊、數(shù)據(jù)業(yè)務(wù)推送模塊和位置分析模塊,其中:時(shí)間窗口調(diào)節(jié)和網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)模塊從無線網(wǎng)關(guān)接收瀏覽頁面的URL,對當(dāng)前一段時(shí)間范圍內(nèi)用戶瀏覽網(wǎng)頁進(jìn)行過濾處理,獲得用戶感興趣的相關(guān)網(wǎng)頁和用戶行為特征;用戶興趣提取模塊包括行為信息分析子模塊、內(nèi)容信息分析子模塊和集成學(xué)習(xí)子模塊,行為信息分析子模塊根據(jù)用戶行為特征,對時(shí)間序列進(jìn)行統(tǒng)計(jì)和篩選、降維,形成用戶行為興趣,輸出為用戶當(dāng)前行為興趣,內(nèi)容信息分析子模塊根據(jù)用戶感興趣的相關(guān)網(wǎng)頁的URL地址,對網(wǎng)頁內(nèi)容進(jìn)行文本處理,提取網(wǎng)頁主題,并根據(jù)所述的網(wǎng)頁主題和網(wǎng)頁其他屬性信息,形成用戶內(nèi)容興趣,輸出為用戶當(dāng)前 內(nèi)容興趣,集成學(xué)習(xí)子模塊根據(jù)用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),形成用戶興趣,輸出為用戶當(dāng)前興趣;位置分析模塊通過GMLC網(wǎng)關(guān)獲得用戶當(dāng)前的瀏覽位置信息;數(shù)據(jù)業(yè)務(wù)推送模塊根據(jù)用戶興趣提取模塊輸出的當(dāng)前用戶興趣,利用規(guī)則關(guān)聯(lián)策略,判斷是否可以進(jìn)行本地化信息推送服務(wù);對不符合本地化服務(wù)特點(diǎn)的當(dāng)前用戶興趣,服務(wù)推送模塊將其與對應(yīng)的預(yù)推送信息進(jìn)行匹配,根據(jù)匹配結(jié)果選取匹配度最高的推送信息;對符合本地化服務(wù)特點(diǎn)的當(dāng)前用戶興趣,根據(jù)來自位置分析模塊的用戶當(dāng)前的瀏覽位置信息,獲得位置關(guān)聯(lián)信息,再利用匹配策略,將用戶當(dāng)前興趣與位置關(guān)聯(lián)信息進(jìn)行匹配,并根據(jù)匹配結(jié)果選擇匹配度最高的位置關(guān)聯(lián)信息作為推送信息,向移動(dòng)終端進(jìn)行推送。其中所述無線網(wǎng)關(guān)包括WAP GW、增強(qiáng)GGSN、獨(dú)立綜合網(wǎng)關(guān)等設(shè)備,在后面的說明中,以常見的WAP GW為例介紹整個(gè)發(fā)明的內(nèi)容。其中瀏覽頁面由網(wǎng)絡(luò)中的sp/cp服務(wù)器提供,移動(dòng)終端通過無線網(wǎng)關(guān)訪問這些頁面。本發(fā)明提供一種基于無線網(wǎng)絡(luò)的數(shù)據(jù)業(yè)務(wù)推送方法,如圖2所示,其通過無線網(wǎng)關(guān)獲得用戶使用如手機(jī)的移動(dòng)終端的日志信息后,對當(dāng)前一段時(shí)間范圍內(nèi)用戶使用手機(jī)行為進(jìn)行過濾處理,獲得用戶行為特征,使用戶對內(nèi)容的興趣和行為習(xí)慣結(jié)合形成用戶的興趣偏好,并與移動(dòng)終端的位置信息實(shí)時(shí)關(guān)聯(lián)起來,向移動(dòng)終端進(jìn)行信息推送,包括:從無線網(wǎng)關(guān)接收瀏覽頁面的URL,對當(dāng)前一段時(shí)間范圍內(nèi)用戶瀏覽網(wǎng)頁進(jìn)行過濾處理,獲得用戶感興趣的相關(guān)網(wǎng)頁和用戶行為特征;根據(jù)用戶行為特征,對時(shí)間序列進(jìn)行統(tǒng)計(jì)和篩選、降維,形成用戶行為興趣,作為用戶當(dāng)前行為興趣,根據(jù)用戶感興趣的相關(guān)網(wǎng)頁的URL地址,對網(wǎng)頁內(nèi)容進(jìn)行文本處理,提取網(wǎng)頁主題,并根據(jù)所述的網(wǎng)頁主題和網(wǎng)頁其他屬性信息,形成用戶內(nèi)容興趣,作為用戶當(dāng)前內(nèi)容興趣,根據(jù)上述用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),形成用戶興趣,作為用戶當(dāng)前興趣;通過GMLC網(wǎng)關(guān)獲得用戶當(dāng)前的瀏覽位置信息;根據(jù)當(dāng)前用戶興趣,利用規(guī)則關(guān)聯(lián)策略,判斷是否可以進(jìn)行本地化信息推送服務(wù);對不符合本地化服務(wù)特點(diǎn)的當(dāng)前用戶興趣,將其與對應(yīng)的預(yù)推送信息進(jìn)行匹配,根據(jù)匹配結(jié)果選取匹配度最高的推送信息;對符合本地化服務(wù)特點(diǎn)的當(dāng)前用戶興趣,根據(jù)用戶當(dāng)前的瀏覽位置信息,獲得位置關(guān)聯(lián)信息,再利用匹配策略,將用戶當(dāng)前興趣與位置關(guān)聯(lián)信息進(jìn)行匹配,并根據(jù)匹配結(jié)果選擇匹配度最高的位置關(guān)聯(lián)信息作為推送信息,向移動(dòng)終端進(jìn)行推送。時(shí)間窗口調(diào)節(jié)和網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)模塊包括時(shí)間窗口調(diào)節(jié)子模塊和網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)子模塊,網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)子模塊包括行為信息統(tǒng)計(jì)子模塊和網(wǎng)頁分類子模塊。圖3是時(shí)間窗口調(diào)節(jié)和網(wǎng)頁數(shù)據(jù)分類統(tǒng)計(jì)模塊的操作流程圖。時(shí)間窗口調(diào)節(jié)子模塊執(zhí)行時(shí)間窗口調(diào)節(jié)方法,根據(jù)用戶的上網(wǎng)速度和習(xí)慣,確定和調(diào)節(jié)時(shí)間窗口,反映用戶當(dāng)前時(shí)間段的集中興趣。為了獲得用戶感興趣的相關(guān)網(wǎng)頁和用戶行為特征,所述系統(tǒng)需要對當(dāng)前一段時(shí)間范圍內(nèi)用戶瀏覽網(wǎng)頁進(jìn)行過濾處理,現(xiàn)有技術(shù)中需要統(tǒng)計(jì)處理的時(shí)間范圍區(qū)間通常是固定值,如對用戶在一個(gè)較長時(shí)間段內(nèi)的興趣偏好做處理,如一天、一月甚至一年,這樣的處理雖然在分析用戶興趣方面比較全面和準(zhǔn)確,但是分析的網(wǎng)頁內(nèi)容龐大,實(shí)時(shí)性較差,或以單個(gè)上網(wǎng)行為或者單個(gè)瀏覽網(wǎng)頁為觸發(fā)條件,上一次網(wǎng)或?yàn)g覽一個(gè)網(wǎng)頁做一次推薦,這樣雖然是實(shí)時(shí)推薦,但是系統(tǒng)會(huì)·返回太多的推薦內(nèi)容,增加了無線通信網(wǎng)絡(luò)的負(fù)擔(dān),也降低了用戶體驗(yàn)的趣味?;诂F(xiàn)有技術(shù)的上述問題,本發(fā)明采用了一中時(shí)間窗口的調(diào)節(jié)方法,能夠兼顧用戶長期興趣偏好和短時(shí)興趣偏好,在兩者間進(jìn)行調(diào)節(jié)和控制,通過調(diào)節(jié)時(shí)間窗口來控制獲取網(wǎng)頁的數(shù)量,調(diào)節(jié)時(shí)間窗口的大小達(dá)到實(shí)時(shí)的效果,更為及時(shí)和準(zhǔn)確。所述時(shí)間窗口的調(diào)節(jié)方法可由時(shí)間窗口調(diào)節(jié)子模塊執(zhí)行。該方法的目的是以用戶當(dāng)前上網(wǎng)時(shí)間為開始,以一個(gè)符合用戶上網(wǎng)速度和習(xí)慣的時(shí)間范圍為基準(zhǔn),分析在該時(shí)間范圍內(nèi)用戶通過上網(wǎng)反映出來的興趣類別。所述時(shí)間窗口的調(diào)節(jié)方法根據(jù)用戶不同的上網(wǎng)速度和習(xí)慣,設(shè)定時(shí)間窗口的初始設(shè)定時(shí)間值,之后時(shí)間窗口的設(shè)定時(shí)間隨著用戶的上網(wǎng)習(xí)慣而進(jìn)行自動(dòng)調(diào)節(jié),步驟為:統(tǒng)計(jì)用戶歷史上網(wǎng)密度= 其中,T為一段歷史時(shí)間,M為用戶在T時(shí)間段內(nèi)上網(wǎng)行為數(shù)量;
a初始設(shè)定時(shí)間值為i = 其中,α為一經(jīng)驗(yàn)值,用來調(diào)節(jié)時(shí)間窗口大小,設(shè)定的時(shí)間范圍保證用戶有一定的上網(wǎng)量和上網(wǎng)時(shí)間,設(shè)置的時(shí)間范圍較短,使得用戶興趣比較集中,且用戶的位移范圍不大;一定時(shí)間周期后,再次計(jì)算用戶在一個(gè)新的時(shí)間段內(nèi)的上網(wǎng)密設(shè)定時(shí)間值為:
權(quán)利要求
1.一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,其特征在于:包括步驟: 對用戶當(dāng)前的行為特征進(jìn)行基于決策樹算法分類,獲得用戶當(dāng)前行為興趣; 對用戶當(dāng)前的興趣類別的網(wǎng)頁進(jìn)行文本分析,獲得網(wǎng)頁文本屬性信息,根據(jù)網(wǎng)頁文本屬性信息,獲取用戶當(dāng)前內(nèi)容興趣; 根據(jù)用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),形成用戶興趣,得到用戶當(dāng)前興趣。
2.如權(quán)利要求1所述的一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,其特征在于:獲得用戶當(dāng)前行為特征的步驟包括:統(tǒng)計(jì)短信行為;統(tǒng)計(jì)通信行為;統(tǒng)計(jì)上網(wǎng)行為;通過PCA方法對用戶行為特征進(jìn)行刪減;確定用戶當(dāng)前行為特征。
3.如權(quán)利要求1或2所述的一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,其特征在于:獲取用戶當(dāng)前內(nèi)容興趣的步驟包括: 獲取相應(yīng)關(guān)鍵詞及其索引; 計(jì)算用戶對關(guān)鍵詞 的關(guān)注度; 根據(jù)關(guān)注度閾值,獲取用戶的興趣偏好。
4.如權(quán)利要求3所述的一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,其特征在于:獲取相應(yīng)關(guān)鍵詞的步驟包括: ①對全文進(jìn)行分詞處理,即中文詞間象英文一樣用空格分開; ②過濾掉停用詞; ③提取文本標(biāo)題,將標(biāo)題詞集存入向量Vh; ④提取文本第一段、第二段、末段,將內(nèi)容詞集存入向量V。; ⑤如果Ivhη V。I〈P,則判斷文本標(biāo)題為“抽象型”標(biāo)題,其中,P為一個(gè)給定閾值,根據(jù)實(shí)驗(yàn)確定為3 ; ⑥Vxe Fk,如果X e {疑問詞庫},文本標(biāo)題也判斷為“抽象型”標(biāo)題; ⑦如果標(biāo)題無(5)或(6)中特征,則判斷其為“具體型”標(biāo)題; 對于“抽象型”的標(biāo)題,采用TFIDF方法在全文中查找權(quán)值高于一定閾值的詞作為候選詞,然后通過候選詞所在的位置判斷該詞是否為關(guān)鍵字,所在句子的權(quán)值越高,成為關(guān)鍵字的可能性越大, 對與“具體型”標(biāo)題,將標(biāo)題分詞后,得到的名詞和動(dòng)詞就為該文本的關(guān)鍵字,計(jì)算句子權(quán)重時(shí),賦予標(biāo)題詞列表中的詞更大的權(quán)重比例因子, 通過以上方法,能夠獲得每個(gè)句子的權(quán)重,能夠計(jì)算出每個(gè)句子的權(quán)值,而且更新了關(guān)鍵詞列表的權(quán)重,每個(gè)文章對應(yīng)的關(guān)鍵詞鏈表按權(quán)重排序即為該文的關(guān)鍵詞。
5.如權(quán)利要求3所述的一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,其特征在于:計(jì)算用戶對關(guān)鍵詞的關(guān)注度的步驟包括: 將相同類屬A下所有主題向量中的關(guān)鍵詞加入到此類屬下的關(guān)鍵詞列表K中; 將相同類屬下關(guān)鍵詞添加過程中出現(xiàn)的重復(fù)關(guān)鍵詞歸一,重復(fù)關(guān)鍵詞觸發(fā)了候選相似主題的聚集,并將該詞所屬的所有網(wǎng)頁歸并到一起組成一個(gè)候選相似主題組;對于每個(gè)重復(fù)關(guān)鍵詞所在的候選相似主題組,比較該詞在這組主題向量中的原始權(quán)值,找出權(quán)值最大者所在的主題向量作為這一組主題向量的核心主題代表(并將之加入到K中); 計(jì)算核心主題與所在候選相似主題組中每個(gè)主題向量的相似度,設(shè)定一個(gè)閾值,所有超出域值者加入到主題組Ki中形成相似主題組Ki組,也即形成了一個(gè)話題Ki ; 以前面所找出的核心主題作為話題Ki的代表,將話題Ki中所有主題向量所在主題的頻度疊加將為調(diào)整后的核心主題熱度,將調(diào)整后的核心主題加入到候選熱點(diǎn)主題列表中; 根據(jù)前面所述的熱度計(jì)量方法計(jì)算出K中每一個(gè)主題的關(guān)注度。
6.如權(quán)利要求1、2、4和5之一所述的一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,其特征在于:得到用戶當(dāng)前興趣的步驟包括:針對同一個(gè)訓(xùn)練集,訓(xùn)練不同的分類器,即決策樹弱分類器,然后把這些決策樹弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器,形成用戶興趣的最終分類,采用AdaBoost算法對用戶行為分類器和用戶內(nèi)容興趣分類器的結(jié)果進(jìn)行迭代調(diào)整,獲得不同決策樹弱分類器的權(quán)重,進(jìn)而獲得用戶當(dāng)前興趣。
7.一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的系統(tǒng),其特征在于:包括行為信息分析子模塊、內(nèi)容信息分析子模塊和集成學(xué)習(xí)子模塊, 行為信息分析子模塊對用戶當(dāng)前的行為特征進(jìn)行基于決策樹算法分類,獲得用戶當(dāng)前行為興趣; 內(nèi)容信息分析子模塊對用戶當(dāng)前的興趣類別的網(wǎng)頁進(jìn)行文本分析,獲得網(wǎng)頁文本屬性信息,根據(jù)網(wǎng)頁文本屬性信息,獲取用戶當(dāng)前內(nèi)容興趣; 集成學(xué)習(xí)子模塊根據(jù)用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),形成用戶興趣,得到用戶當(dāng)前興趣。
全文摘要
一種根據(jù)用戶感興趣的相關(guān)網(wǎng)頁和用戶當(dāng)前行為特征確定用戶當(dāng)前興趣的方法,包括步驟對用戶當(dāng)前的行為特征進(jìn)行基于決策樹算法分類,獲得用戶當(dāng)前行為興趣;對用戶當(dāng)前的興趣類別的網(wǎng)頁進(jìn)行文本分析,獲得網(wǎng)頁文本屬性信息,根據(jù)網(wǎng)頁文本屬性信息,獲取用戶當(dāng)前內(nèi)容興趣;根據(jù)用戶當(dāng)前行為興趣和當(dāng)前內(nèi)容興趣,使用集成學(xué)習(xí)技術(shù),得到用戶當(dāng)前興趣,實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)的定向推送,提高數(shù)據(jù)業(yè)務(wù)推送的可信度,提高用戶喜好度。
文檔編號G06F17/30GK103235823SQ201310162870
公開日2013年8月7日 申請日期2013年5月6日 優(yōu)先權(quán)日2013年5月6日
發(fā)明者劉臻, 呂琳媛, 肖思源, 劉潤然, 佘莉 申請人:上海河廣信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
伊吾县| 荥经县| 陈巴尔虎旗| 阳曲县| 香格里拉县| 马鞍山市| 陆河县| 邮箱| 奈曼旗| 郁南县| 柳林县| 黄大仙区| 广丰县| 响水县| 永川市| 勐海县| 安丘市| 和顺县| 常德市| 射洪县| 新源县| 泸溪县| 呼和浩特市| 绩溪县| 阜新市| 梁河县| 克拉玛依市| 浪卡子县| 七台河市| 阿拉尔市| 洛阳市| 通许县| 滁州市| 二手房| 合阳县| 广南县| 锦屏县| 新巴尔虎左旗| 海林市| 青河县| 亚东县|