專利名稱:一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法及裝置。
背景技術(shù):
定向廣告也叫智能廣告,即將特定的網(wǎng)絡(luò)廣告發(fā)送給特定的人群。通常情況下,定向廣告系統(tǒng)是根據(jù)用戶在互聯(lián)網(wǎng)上的行為,例如搜索、瀏覽網(wǎng)頁、點(diǎn)擊廣告等,對用戶推送符合當(dāng)前用戶需求的廣告。定向廣告系統(tǒng)一般采用關(guān)鍵詞的方式來描述用戶在互聯(lián)網(wǎng)上的行為,獲取用戶信息,從而對用戶進(jìn)行分類,向其投放特定的廣告?,F(xiàn)有技術(shù)中,
公開日期為2012年2月22日的中國專利“關(guān)鍵詞計(jì)算方法及系統(tǒng)”提出了一種關(guān)鍵詞計(jì)算技術(shù),參見圖1,一種關(guān)鍵詞計(jì)算方法流程示意圖,該方法為:接收用戶輸入的搜索詞,采用第一計(jì)算策略獲取與所述搜索詞的相關(guān)性滿足預(yù)設(shè)第一相關(guān)性要求的關(guān)鍵詞作為計(jì)算詞詞源;獲取所述用戶的推廣集合中的已有關(guān)鍵詞,并計(jì)算所述搜索詞與已有關(guān)鍵詞的相關(guān)性;判斷所述搜索詞與已有關(guān)鍵詞的相關(guān)性是否達(dá)到預(yù)設(shè)的觸發(fā)閾值,若是,則觸發(fā)個(gè)性化計(jì)算,若否,則將所述計(jì)算詞詞源作為計(jì)算結(jié)果計(jì)算給所述用戶;其中,所述觸發(fā)個(gè)性化計(jì)算具體包括:對所述計(jì)算詞詞源進(jìn)行擴(kuò)充,采用第二計(jì)算策略獲取與所述搜索詞或所述用戶的已有關(guān)鍵詞的相關(guān)性滿足第二相關(guān)性要求的關(guān)鍵詞作為擴(kuò)充詞添加到所述計(jì)算詞詞源中;將擴(kuò)充后的計(jì)算詞詞源作為計(jì)算結(jié)果計(jì)算給所述用戶。上述現(xiàn)有技術(shù)只挖掘了用戶在互聯(lián)網(wǎng)上的一種行為:搜索行為。但是,用戶在互聯(lián)網(wǎng)上的行為還包括瀏覽行為。用戶的瀏覽行為,即為用戶未直接使用搜索引擎輸入搜索詞,而是采用其他方式瀏覽網(wǎng)頁的行為,例如用戶通過輸入網(wǎng)址、點(diǎn)擊鏈接、或是使用搜索引擎輸入搜索詞多次跳轉(zhuǎn)來瀏覽當(dāng)前網(wǎng)頁。用戶的搜索行為,即為用戶直接使用搜索引擎輸入搜索詞的行為。因此,在用戶行為數(shù)據(jù)中主要包含了用戶搜索行為數(shù)據(jù)和用戶瀏覽行為數(shù)據(jù)。用戶搜索行為數(shù)據(jù)為用戶直接使用搜索引擎輸入的搜索詞的集合,其雖然更有效的表達(dá)了用戶的意圖,但十分稀疏,并且存在著歧義性等缺陷。用戶瀏覽行為數(shù)據(jù)為用戶未直接使用搜索引擎輸入搜索詞而進(jìn)行瀏覽的所有網(wǎng)頁的集合,其雖然覆蓋了 90%的用戶數(shù)據(jù),但是包含的特征數(shù)目高達(dá)幾百億,對用戶訪問的每個(gè)網(wǎng)頁抽取正文進(jìn)行計(jì)算,會耗費(fèi)大量的時(shí)間和海量的計(jì)算資源,并且訪問網(wǎng)頁包含的用戶興趣隨意性很強(qiáng),致使關(guān)鍵詞計(jì)算結(jié)果有很大的隨機(jī)性。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提出一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法及裝置,能夠使得系統(tǒng)在計(jì)算用戶關(guān)鍵詞時(shí)代價(jià)較小,且覆蓋全面的用戶行為,可以充分利用用戶信息,得到更快更精準(zhǔn)的用戶分類結(jié)果,進(jìn)而能夠?qū)崿F(xiàn)廣告的有效推廣。為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
—種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法,所述方法包括:對于用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述其他用戶搜索詞,生成第一類用戶關(guān)鍵詞;對于用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶關(guān)鍵詞;對于用戶搜索行為數(shù)據(jù)中直接輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三類用戶關(guān)鍵詞;對所述用戶瀏覽和搜索行為生成的所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞;對所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。進(jìn)一步地,所述第一類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成;所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁的關(guān)鍵詞計(jì)算過程為:從互聯(lián)網(wǎng)上海量的其他用戶的搜索行為數(shù)據(jù)中,選擇所有能夠跳轉(zhuǎn)至所述某一網(wǎng)頁的搜索詞,并對所述選擇的搜索詞進(jìn)行分詞,然后將各分詞組合在一起,生成url-query矩陣;從所述url-query矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前N個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中N為大于或等于I的整數(shù)。進(jìn)一步地,所述第二類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成;所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁的關(guān)鍵詞計(jì)算過程為:抓取所述某一網(wǎng)頁內(nèi)容,將所述某一網(wǎng)頁內(nèi)容中的標(biāo)題、正文和meta信息進(jìn)行分詞,然后將各分詞組合在一起,生成url-word矩陣;從所述url-word矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前M個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中M為大于I或等于I的整數(shù)。進(jìn)一步地,對所述用戶瀏覽和搜索行為生成的所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞具體包括:統(tǒng)計(jì)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞中各關(guān)鍵詞的權(quán)值信息;根據(jù)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞不同數(shù)據(jù)來源的權(quán)重,對三類用戶關(guān)鍵詞中相同關(guān)鍵詞的權(quán)值信息進(jìn)行加權(quán)求和,將所述三類用戶關(guān)鍵詞中相同關(guān)鍵詞合并,融合得到所述統(tǒng)一的用戶關(guān)鍵詞;其中,所述權(quán)重由交叉驗(yàn)證得到。進(jìn)一步地,所述對所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞具體包括:按照所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞從屬的主題不同,將表達(dá)新語義的關(guān)鍵詞的排序提前;選取所述統(tǒng)一的用戶關(guān)鍵詞中前面部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。本發(fā)明還提供了一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置,所述裝置包括:第一類用戶關(guān)鍵詞計(jì)算模塊,用于對于用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述其他用戶搜索詞,生成第一類用戶關(guān)鍵詞;第二類用戶關(guān)鍵詞計(jì)算模塊,用于對于用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶關(guān)鍵詞;第三類用戶關(guān)鍵詞計(jì)算模塊,用于對于用戶搜索行為數(shù)據(jù)中直接輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三類用戶關(guān)鍵詞;融合模塊,用于對生成的所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞;排序選擇模塊,用于對所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。進(jìn)一步地,所述第一類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成;所述第一用戶關(guān)鍵詞計(jì)算模塊對所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁關(guān)鍵詞的計(jì)算包括:第一矩陣生成子模塊,用于從互聯(lián)網(wǎng)上海量的其他用戶的搜索行為數(shù)據(jù)中,選擇所有能夠跳轉(zhuǎn)至所述某一網(wǎng)頁的搜索詞,并對所述選擇的搜索詞進(jìn)行分詞,然后將各分詞組合在一起,生成url-query矩陣;第一關(guān)鍵詞提取子模塊,從所述url-query矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前N個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中N為大于或等于I的整數(shù)。進(jìn)一步地,所述第二類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成;所述第二用戶關(guān)鍵詞計(jì)算模塊對所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁關(guān)鍵詞的計(jì)算包括:第二矩陣生成子模塊,用于抓取所述某一網(wǎng)頁內(nèi)容,將所述某一網(wǎng)頁內(nèi)容中的標(biāo)題、正文和meta信息進(jìn)行分詞,然后將各分詞組合在一起,生成url-word矩陣;第二關(guān)鍵詞提取子模塊,用于從所述url-word矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前M個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中M為大于I或等于I的整數(shù)。進(jìn)一步地,所述融合模塊包括:權(quán)值信息統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞中各關(guān)鍵詞的權(quán)值信息;加權(quán)求和子模塊,用于根據(jù)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞不同數(shù)據(jù)來源的權(quán)重,對三類用戶關(guān)鍵詞中相同關(guān)鍵詞的權(quán)值信息進(jìn)行加權(quán)求和,將所述三類用戶關(guān)鍵詞中相同關(guān)鍵詞合并,融合得到所述統(tǒng)一的用戶關(guān)鍵詞;其中,所述權(quán)重由交叉驗(yàn)證得到。
進(jìn)一步地,所述排序選擇模塊具體用于:按照所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞從屬的主題不同,將表達(dá)新語義的關(guān)鍵詞的排序提前;選取所述統(tǒng)一的用戶關(guān)鍵詞中前面部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。本發(fā)明提出的技術(shù)方案針對用戶瀏覽行為中有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù)、無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),及用戶搜索行為中直接輸入的搜索詞三類數(shù)據(jù)計(jì)算得到統(tǒng)一的用戶關(guān)鍵詞,并將所述統(tǒng)一的用戶關(guān)鍵詞進(jìn)行融合排序,選取得到反應(yīng)用戶全方面信息的關(guān)鍵詞,能夠使得在計(jì)算用戶關(guān)鍵詞時(shí)代價(jià)較小,且覆蓋全面的用戶行為,可以充分利用用戶信息,得到更快更精準(zhǔn)的用戶分類結(jié)果,進(jìn)而實(shí)現(xiàn)廣告的有效推廣。
圖1是本發(fā)明背景技術(shù)提供的一種關(guān)鍵詞計(jì)算方法流程示意圖;圖2是本發(fā)明實(shí)施例一提供的一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法示意圖;圖3是本發(fā)明實(shí)施例二提供的一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置示意圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)一步說明本發(fā)明的技術(shù)方案。以下各實(shí)施例均是以用戶Q為例,詳細(xì)闡述本發(fā)明所提出的一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法及系統(tǒng)的技術(shù)方案。本發(fā)明提出的技術(shù)方案同樣適用于其他用戶。實(shí)施例一本實(shí)施例中將用戶Q的瀏覽和搜索行為數(shù)據(jù)分為三類:有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù)(A類數(shù)據(jù)),無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù)(B類數(shù)據(jù)),用戶Q直接使用搜索引擎時(shí)輸入的搜索詞數(shù)據(jù)(C類數(shù)據(jù)),其中A類和B類數(shù)據(jù)屬于用戶Q瀏覽行為數(shù)據(jù),C類數(shù)據(jù)屬于用戶Q搜索行為數(shù)據(jù)。圖2是本發(fā)明實(shí)施例一提供的一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法示意圖。參見圖2,本實(shí)施例對基于用戶Q瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法作如下詳細(xì)闡述。對于用戶Q的瀏覽行為Wl關(guān)鍵詞計(jì)算過程,可分為A類數(shù)據(jù)關(guān)鍵詞計(jì)算過程Sll和B類數(shù)據(jù)關(guān)鍵詞計(jì)算過程S12。對于用戶Q的A類數(shù)據(jù)關(guān)鍵詞計(jì)算過程SI I,是根據(jù)其他用戶是通過輸入哪些搜索詞后直接訪問用戶Q的A類數(shù)據(jù),來推斷用戶Q如果采用搜索行為時(shí)最可能輸入的搜索詞,并將其推斷出的最可能輸入的搜索詞作為第一類用戶Q關(guān)鍵詞。第一類用戶Q關(guān)鍵詞由用戶Q的A類數(shù)據(jù)中各網(wǎng)頁的關(guān)鍵詞組合而成。用戶Q的A類數(shù)據(jù)中某一網(wǎng)頁的關(guān)鍵詞計(jì)算過程為:從互聯(lián)網(wǎng)上海量的其他用戶的搜索行為數(shù)據(jù)中,選擇所有能夠直接跳轉(zhuǎn)至該網(wǎng)頁的搜索詞,并運(yùn)用最大匹配法分詞技術(shù)對選擇的搜索詞進(jìn)行分詞,然后將各分詞組合在一起,生成url-query矩陣;從生成的url-query矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前N個(gè)分詞作為該網(wǎng)頁的關(guān)鍵詞,其中,某一分詞的詞頻為該分詞在url-query矩陣中出現(xiàn)的次數(shù)除以url-query矩陣中所有分詞出現(xiàn)的次數(shù)之和,文本頻率為用戶Q的A類數(shù)據(jù)中網(wǎng)頁總數(shù)目除以包含有該分詞的網(wǎng)頁總數(shù)目,N為大于或等于I的正整數(shù)。對于用戶Q的B類數(shù)據(jù)關(guān)鍵詞計(jì)算過程S12,根據(jù)網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶Q關(guān)鍵詞。第二類用戶Q關(guān)鍵詞由用戶Q的B類數(shù)據(jù)中各網(wǎng)頁的關(guān)鍵詞組合而成。采用網(wǎng)頁關(guān)鍵詞計(jì)算模型計(jì)算用戶Q的B類數(shù)據(jù)中某一網(wǎng)頁關(guān)鍵詞的具體過程為:先抓取用戶Q瀏覽的無其他用戶搜索詞跳轉(zhuǎn)的該網(wǎng)頁內(nèi)容,然后運(yùn)用最大匹配法分詞技術(shù)將該網(wǎng)頁內(nèi)容中的標(biāo)題,正文和meta信息進(jìn)行分詞,并加起來生成url-word矩陣;從生成的url-word矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前M個(gè)分詞作為該網(wǎng)頁的關(guān)鍵詞,其中,某一分詞的詞頻為該分詞在url-word矩陣中出現(xiàn)的次數(shù)除以url-word矩陣中所有分詞出現(xiàn)的次數(shù)之和,文本頻率為用戶Q的B類數(shù)據(jù)中網(wǎng)頁總數(shù)目除以包含有該分詞的網(wǎng)頁總數(shù)目,M為大于或等于I的正整數(shù)。對于上述所有涉及的分詞技術(shù),本實(shí)施例還可以選用反向最大匹配法、二次掃描法、聯(lián)想-回溯法等。S13:對于用戶Q的搜索行為W2,C類數(shù)據(jù)的關(guān)鍵詞計(jì)算過程為:根據(jù)用戶Q直接使用搜索引擎時(shí)輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三類用戶Q關(guān)鍵詞,以達(dá)到補(bǔ)充用戶Q使用的搜索詞中包含了相應(yīng)的意圖卻未直接使用的關(guān)鍵詞。其中,協(xié)同過濾技術(shù)為本領(lǐng)域普通技術(shù)人員所熟知的,這里不再贅述。S14:將上述得到的三類用戶Q關(guān)鍵詞進(jìn)行合并融合。在步驟S14中,合并融合過程具體為:統(tǒng)計(jì)第一類用戶關(guān)鍵詞、第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞中各關(guān)鍵詞的權(quán)值信息;其中,第一類用戶Q關(guān)鍵詞中的各關(guān)鍵詞對應(yīng)一個(gè)權(quán)值信息,所述權(quán)值信息可以優(yōu)選為該關(guān)鍵詞在其對應(yīng)的url-query矩陣中出現(xiàn)的次數(shù);第二類用戶Q關(guān)鍵詞中的各關(guān)鍵詞對應(yīng)一個(gè)權(quán)值信息,所述權(quán)值信息可以優(yōu)選為該關(guān)鍵詞在其對應(yīng)的url-word矩陣中出現(xiàn)的次數(shù);第三類用戶Q關(guān)鍵詞中的各關(guān)鍵詞對應(yīng)一個(gè)權(quán)值信息,所述權(quán)值信息可以優(yōu)選為該關(guān)鍵詞在用戶Q的C類數(shù)據(jù)中出現(xiàn)的次數(shù);根據(jù)第一類用戶Q關(guān)鍵詞、第二類用戶Q關(guān)鍵詞、第三類用戶Q關(guān)鍵詞不同數(shù)據(jù)來源的權(quán)重,對三類用戶Q關(guān)鍵詞中相同關(guān)鍵詞的權(quán)值信息進(jìn)行加權(quán)求和,將三類用戶Q關(guān)鍵詞中相同關(guān)鍵詞合并,融合得到統(tǒng)一的用戶Q關(guān)鍵詞,并將統(tǒng)一的用戶Q關(guān)鍵詞各關(guān)鍵詞的權(quán)值信息進(jìn)行歸一化處理;其中,權(quán)重可由交叉驗(yàn)證得到;其中,交叉驗(yàn)證為:將已經(jīng)建立的測試數(shù)據(jù)集分成η (η>3)份,隨機(jī)取其中η-1份調(diào)優(yōu)得到最優(yōu)參數(shù),然后使用剩下的一份進(jìn)行驗(yàn)證,去在測試數(shù)據(jù)集上性能最佳的參數(shù)為最終參數(shù)。交叉驗(yàn)證形式可以采用K折交叉驗(yàn)證、Holdout驗(yàn)證、留一驗(yàn)證;本實(shí)施例中優(yōu)選采用K折交叉驗(yàn)證,K優(yōu)選為10。S15:根據(jù)各關(guān)鍵詞從屬的主題不同,將表達(dá)新語義的關(guān)鍵詞排序提前,從所述排序后的統(tǒng)一的用戶Q關(guān)鍵詞中,選取前面部分或全部用戶Q關(guān)鍵詞作為反應(yīng)用戶Q全方面信息的關(guān)鍵詞。進(jìn)而,根據(jù)計(jì)算得到的反應(yīng)用戶Q全方面信息的關(guān)鍵詞向用戶Q推廣適合該用戶的廣告。在步驟S15中,主題由LDA (Latent Dirichlet Allocation,潛在狄利克雷分配)主題模型計(jì)算得到。LDA主題模型通過已有的大量數(shù)據(jù)訓(xùn)練得到主題-文檔矩陣和關(guān)鍵詞-主題矩陣。所述大量的數(shù)據(jù)為所有的統(tǒng)一的用戶關(guān)鍵詞歸一化處理后的權(quán)值信息。主題-文檔矩陣中第i行j列元素表示第i個(gè)主題在文檔j中的權(quán)重,關(guān)鍵詞-主題矩陣中第m行η列元素表示第m個(gè)關(guān)鍵詞在主題η中的權(quán)重,1、j、m、n均為大于或等于I的正整數(shù),i與η相等。關(guān)鍵詞為所有用戶生成的統(tǒng)一的用戶關(guān)鍵詞中的關(guān)鍵詞,文檔j由第j個(gè)用戶生成的統(tǒng)一的用戶關(guān)鍵詞組合而成。對統(tǒng)一的用戶Q關(guān)鍵詞排序的過程具體為:將關(guān)鍵詞-主題矩陣中與用戶Q對應(yīng)的所有行向量(統(tǒng)一的用戶Q關(guān)鍵詞在不同主題中的權(quán)重),與主題-文檔矩陣中與用戶Q對應(yīng)的列向量(不同主題在由統(tǒng)一的用戶Q關(guān)鍵詞組合而成的文檔中的權(quán)重)作點(diǎn)積,并將點(diǎn)積得到的權(quán)重按照從大到小的順序?qū)y(tǒng)一的用戶Q關(guān)鍵詞進(jìn)行排序。排序在前的關(guān)鍵詞,說明該關(guān)鍵詞表達(dá)新語義的可能性大。本實(shí)施例中對于用戶Q的A類數(shù)據(jù),根據(jù)其他用戶是通過輸入哪些搜索詞后直接訪問用戶Q的A類數(shù)據(jù),來推斷用戶Q如果采用搜索行為時(shí)最可能輸入的搜索詞,并將其推斷出的最可能輸入的搜索詞作為第一類用戶Q關(guān)鍵詞;對于用戶Q的B數(shù)據(jù),采用網(wǎng)頁關(guān)鍵詞計(jì)算模型計(jì)算得到第二類用戶Q關(guān)鍵詞;對于用戶Q的C類數(shù)據(jù),結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三類用戶Q關(guān)鍵詞;對三類用戶Q關(guān)鍵詞進(jìn)行合并融合排序,最終計(jì)算得到反應(yīng)用戶Q全方面信息的關(guān)鍵詞。本實(shí)施例提出的方案能夠使得在計(jì)算用戶關(guān)鍵詞時(shí)代價(jià)較小,且覆蓋全面的用戶行為,可以充分利用用戶信息,得到更快更精準(zhǔn)的用戶分類結(jié)果,進(jìn)而能夠?qū)崿F(xiàn)廣告的有效推廣。實(shí)施例二本實(shí)施例對用戶Q行為數(shù)據(jù)的分類與實(shí)施例一相同,這里不再贅述。圖3是本發(fā)明實(shí)施例二提供的一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置示意圖。參見圖3,所述裝置包括:第一類用戶關(guān)鍵詞計(jì)算模塊21,用于計(jì)算生成第一類用戶Q關(guān)鍵詞;第二類用戶關(guān)鍵詞計(jì)算模塊22,用于計(jì)算生成第二類用戶Q關(guān)鍵詞;第三類用戶關(guān)鍵詞計(jì)算模塊23,用于計(jì)算生成第三類用戶Q關(guān)鍵詞;融合模塊24,用于將生成的第一、二、三類用戶Q關(guān)鍵詞進(jìn)行合并融合,生成統(tǒng)一的用戶Q關(guān)鍵詞;排序選擇模塊25,用于對統(tǒng)一的用戶Q關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序選擇,最終得到反應(yīng)用戶Q全方面信息的關(guān)鍵
ο其中,第一類用戶關(guān)鍵詞計(jì)算模塊21,具體用于根據(jù)其他用戶是通過輸入哪些搜索詞后直接訪問用戶Q的A類數(shù)據(jù),來推斷用戶Q如果采用搜索行為時(shí)最可能輸入的搜索詞,并將其推斷出的最可能輸入的搜索詞作為第一類用戶Q關(guān)鍵詞。第一類用戶Q關(guān)鍵詞由用戶Q的A類數(shù)據(jù)中各網(wǎng)頁的關(guān)鍵詞組合而成。第一類用戶關(guān)鍵詞計(jì)算模塊21對用戶Q的A類數(shù)據(jù)中某一網(wǎng)頁關(guān)鍵詞的計(jì)算包括:第一矩陣生成子模塊(未示出),從互聯(lián)網(wǎng)上海量的其他用戶的搜索行為數(shù)據(jù)中,選擇所有能夠直接跳轉(zhuǎn)至該網(wǎng)頁的搜索詞,并運(yùn)用最大匹配法分詞技術(shù)對選擇的搜索詞進(jìn)行分詞,然后將各分詞組合在一起,生成url-query矩陣;第一關(guān)鍵詞提取 子模塊(未示出),從生成的url-query矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前N個(gè)分詞作為該網(wǎng)頁的關(guān)鍵詞,其中,某一分詞的詞頻為該分詞在url-query矩陣中出現(xiàn)的次數(shù)除以url-query矩陣中所有分詞出現(xiàn)的次數(shù)之和,文本頻率為用戶Q的A類數(shù)據(jù)中網(wǎng)頁總數(shù)目除以包含有該分詞的網(wǎng)頁總數(shù)目,N為大于或等于I的正整數(shù)。第二類用戶關(guān)鍵詞計(jì)算模塊22,用于對用戶Q的B類數(shù)據(jù)根據(jù)所述網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶Q關(guān)鍵詞。第二類用戶Q關(guān)鍵詞由用戶Q的B類數(shù)據(jù)中各網(wǎng)頁的關(guān)鍵詞組合而成。第二類用戶關(guān)鍵詞計(jì)算模塊22對用戶Q的B類數(shù)據(jù)中某一網(wǎng)頁關(guān)鍵詞的計(jì)算包括:第二矩陣生成子模塊(未示出),先抓取用戶Q瀏覽的無其他用戶搜索詞跳轉(zhuǎn)的該網(wǎng)頁內(nèi)容,然后運(yùn)用最大匹配法分詞技術(shù)將該網(wǎng)頁內(nèi)容中的標(biāo)題,正文和meta信息進(jìn)行分詞,并加起來生成url-word矩陣;第二關(guān)鍵詞子模塊(未示出),從生成的url-word矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前M個(gè)分詞作為該網(wǎng)頁的關(guān)鍵詞,其中,某一分詞的詞頻為該分詞在url-word矩陣中出現(xiàn)的次數(shù)除以url-word矩陣中所有分詞出現(xiàn)的次數(shù)之和,文本頻率為用戶Q的B類數(shù)據(jù)中網(wǎng)頁總數(shù)目除以包含有該分詞的網(wǎng)頁總數(shù)目,M為大于或等于I的正整數(shù)。對于上述所有涉及的分詞技術(shù),本實(shí)施例還可以選用反向最大匹配法、二次掃描法、聯(lián)想-回溯法等。第三類用戶關(guān)鍵詞計(jì)算模塊23,具體用于根據(jù)用戶Q直接使用搜索引擎時(shí)輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三用戶Q關(guān)鍵詞,以達(dá)到補(bǔ)充用戶Q使用的搜索詞中包含了相應(yīng)的意圖卻未直接使用的關(guān)鍵詞。融合模塊24進(jìn)一步包括:權(quán)值信息統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)第一類用戶關(guān)鍵詞、第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞中各關(guān)鍵詞的權(quán)值信息;加權(quán)求和子模塊,用于根據(jù)第一類用戶關(guān)鍵詞、第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞不同數(shù)據(jù)來源的權(quán)重,對三類用戶關(guān)鍵詞中相同關(guān)鍵詞的權(quán)值信息進(jìn)行加權(quán)求和,將三類用戶關(guān)鍵詞中相同關(guān)鍵詞合并,融合得到統(tǒng)一的用戶關(guān)鍵詞,并將統(tǒng)一的用戶Q關(guān)鍵詞各關(guān)鍵詞的權(quán)值信息進(jìn)行歸一化處理;其中,權(quán)重可由交叉驗(yàn)證得到;其中,交叉驗(yàn)證為:將已經(jīng)建立的測試數(shù)據(jù)集分成η (η>3)份,隨機(jī)取其中η-1份調(diào)優(yōu)得到最優(yōu)參數(shù),然后使用剩下的一份進(jìn)行驗(yàn)證,去在測試數(shù)據(jù)集上性能最佳的參數(shù)為最終參數(shù)。交叉驗(yàn)證形式可以采用K折交叉驗(yàn)證、Holdout驗(yàn)證、留一驗(yàn)證;本實(shí)施例中優(yōu)選采用K折交叉驗(yàn)證,K優(yōu)選為10。第一類用戶Q關(guān)鍵詞中的各關(guān)鍵詞對應(yīng)的權(quán)值信息優(yōu)選為該關(guān)鍵詞在其對應(yīng)的url-query矩陣中出現(xiàn)的次數(shù)。第二類用戶Q關(guān)鍵詞中的各關(guān)鍵詞對應(yīng)的權(quán)值信息優(yōu)選為該關(guān)鍵詞在其對應(yīng)的urliord矩陣中出現(xiàn)的次數(shù)。第三類用戶Q關(guān)鍵詞中的各關(guān)鍵詞對應(yīng)的權(quán)值信息優(yōu)選為該關(guān)鍵詞在用戶Q的C類數(shù)據(jù)中出現(xiàn)的次數(shù)。排序選擇模塊25,具體用于根據(jù)統(tǒng)一的用戶Q關(guān)鍵詞中各關(guān)鍵詞從屬的主題不同,將表達(dá)新語義的關(guān)鍵詞排序提前,從所述排序后的統(tǒng)一的用戶Q關(guān)鍵詞中,選取前面部分或全部用戶Q關(guān)鍵詞作為反應(yīng)用戶Q全方面信息的關(guān)鍵詞。其中,主題由排序選擇模塊25采用LDA (Latent Dirichlet Allocation,潛在狄利克雷分配)主題模型計(jì)算得到。LDA主題模型通過已有的大量數(shù)據(jù)訓(xùn)練得到主題-文檔矩陣和關(guān)鍵詞-主題矩陣。所述大量的數(shù)據(jù)為所有的統(tǒng)一的用戶關(guān)鍵詞歸一化處理后的權(quán)值信息。主題-文檔矩陣中第i行j列元素表示第i個(gè)主題在文檔j中的權(quán)重,關(guān)鍵詞-主題矩陣中第m行η列元素表示第m個(gè)關(guān)鍵詞在主題η中的權(quán)重,1、j、m、η均為大于或等于I的正整數(shù),i與η相等。關(guān)鍵詞為所有用戶生成的統(tǒng)一的用戶關(guān)鍵詞中的關(guān)鍵詞,文檔j由第j個(gè)用戶生成的統(tǒng)一的用戶關(guān)鍵詞組合而成。排序選擇模塊25對統(tǒng)一的用戶Q關(guān)鍵詞排序具體包括:將關(guān)鍵詞-主題矩陣中與用戶Q對應(yīng)的所有行向量(統(tǒng)一的用戶Q關(guān)鍵詞在不同主題中的權(quán)重),與主題-文檔矩陣中與用戶Q對應(yīng)的列向量(不同主題在由統(tǒng)一的用戶Q關(guān)鍵詞組合而成的文檔中的權(quán)重)作點(diǎn)積,并將點(diǎn)積得到的值按照從大到小的順序?qū)y(tǒng)一的用戶Q關(guān)鍵詞進(jìn)行排序。排序在前的關(guān)鍵詞,說明該關(guān)鍵詞表達(dá)新語義的可能性大。本實(shí)施例將第一類用戶關(guān)鍵詞計(jì)算模塊21計(jì)算的第一類用戶Q關(guān)鍵詞、第二類用戶關(guān)鍵詞計(jì)算模塊22計(jì)算的第二類用戶Q關(guān)鍵詞、第三類用戶關(guān)鍵詞計(jì)算模塊23生成的第三類用戶Q關(guān)鍵詞,通過融合模塊24進(jìn)行合并融合,經(jīng)排序選擇模塊25排序計(jì)算,最終選取得到反應(yīng)用戶Q全方面信息的關(guān)鍵詞。本實(shí)施例提出的方案能夠使得系統(tǒng)在計(jì)算用戶關(guān)鍵詞時(shí)代價(jià)較小,且覆蓋全面的用戶行為,可以充分利用用戶信息,得到更快更精準(zhǔn)的用戶分類結(jié)果,進(jìn)而能夠?qū)崿F(xiàn)廣告的有效推廣。以上實(shí)施例提供的技術(shù)方案中的全部或部分內(nèi)容可以通過軟件編程實(shí)現(xiàn),其軟件程序存儲在可讀取的存儲介質(zhì)中,存儲介質(zhì)例如:計(jì)算機(jī)中的硬盤、光盤或軟盤。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法,其特征在于,所述方法包括: 對于用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述其他用戶搜索詞,生成第一類用戶關(guān)鍵詞; 對于用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶關(guān)鍵詞; 對于用戶搜索行為數(shù)據(jù)中直接輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三類用戶關(guān)鍵詞; 對所述用戶瀏覽和搜索行為生成的所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞; 對所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法,其特征在于,所述第一類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成; 所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁的關(guān)鍵詞計(jì)算過程為:從互聯(lián)網(wǎng)上海量的其他用戶的搜索行為數(shù)據(jù)中,選擇所有能夠跳轉(zhuǎn)至所述某一網(wǎng)頁的搜索詞,并對所述選擇的搜索詞進(jìn)行分詞,然后將各分詞組合在一起,生成url-query矩陣; 從所述url-query 矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前N個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中N為大于或等于I的整數(shù)。
3.根據(jù)權(quán)利要求1所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法,其特征在于,所述第二類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成; 所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁的關(guān)鍵詞計(jì)算過程為: 抓取所述某一網(wǎng)頁內(nèi)容,將所述某一網(wǎng)頁內(nèi)容中的標(biāo)題、正文和meta信息進(jìn)行分詞,然后將各分詞組合在一起,生成url-word矩陣; 從所述urliord矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前M個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中M為大于I或等于I的整數(shù)。
4.根據(jù)權(quán)利要求1所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法,其特征在于,對所述用戶瀏覽和搜索行為生成的所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞具體包括: 統(tǒng)計(jì)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞中各關(guān)鍵詞的權(quán)值信息; 根據(jù)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞不同數(shù)據(jù)來源的權(quán)重,對三類用戶關(guān)鍵詞中相同關(guān)鍵詞的權(quán)值信息進(jìn)行加權(quán)求和,將所述三類用戶關(guān)鍵詞中相同關(guān)鍵詞合并,融合得到所述統(tǒng)一的用戶關(guān)鍵詞; 其中,所述權(quán)重由交叉驗(yàn)證得到。
5.根據(jù)權(quán)利要求1所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法,其特征在于,所述對所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞具體包括: 按照所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞從屬的主題不同,將表達(dá)新語義的關(guān)鍵詞的排序提前;選取所述統(tǒng)一的用戶關(guān)鍵詞中前面部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。
6.一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置,其特征在于,所述系統(tǒng)包括: 第一類用戶關(guān)鍵詞計(jì)算模塊,用于對于用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述其他用戶搜索詞,生成第一類用戶關(guān)鍵詞; 第二類用戶關(guān)鍵詞計(jì)算模塊,用于對于用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶關(guān)鍵詞; 第三類用戶關(guān)鍵詞計(jì)算模塊,用于對于用戶搜索行為數(shù)據(jù)中直接輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦,生成第三類用戶關(guān)鍵詞; 融合模塊,用于對生成的所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞; 排序選擇模塊,用于對所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。
7.根據(jù)權(quán)利要求6所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置,其特征在于,所述第一類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成; 所述第一用戶關(guān)鍵詞計(jì)算模塊對所述用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁關(guān)鍵詞的計(jì)算包括: 第一矩陣生成子模塊,用于從互聯(lián)網(wǎng)上海量的其他用戶的搜索行為數(shù)據(jù)中,選擇所有能夠跳轉(zhuǎn)至所述某一網(wǎng)頁的搜索詞,并對所述選擇的搜索詞進(jìn)行分詞,然后將各分詞組合在一起,生成url-query矩陣; 第一關(guān)鍵詞提取子模塊,從所述url-query矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前N個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中N為大于或等于I的整數(shù)。
8.根據(jù)權(quán)利要求6所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置,其特征在于,所述第二類用戶關(guān)鍵詞由所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的各網(wǎng)頁的關(guān)鍵詞組合而成; 所述第二用戶關(guān)鍵詞計(jì)算模塊對所述用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的某一網(wǎng)頁關(guān)鍵詞的計(jì)算包括: 第二矩陣生成子模塊,用于抓取所述某一網(wǎng)頁內(nèi)容,將所述某一網(wǎng)頁內(nèi)容中的標(biāo)題、正文和meta信息進(jìn)行分詞,然后將各分詞組合在一起,生成url-word矩陣; 第二關(guān)鍵詞提取子模塊,用于從所述urliord矩陣中獲取詞頻與文本頻率的自然對數(shù)比值最大的前M個(gè)分詞作為所述某一網(wǎng)頁的關(guān)鍵詞,其中M為大于I或等于I的整數(shù)。
9.根據(jù)權(quán)利要求6所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置,其特征在于,所述融合模塊包括: 權(quán)值信息統(tǒng)計(jì)子模塊,用于統(tǒng)計(jì)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞中各關(guān)鍵詞的權(quán)值信息; 加權(quán)求和子模塊,用于根據(jù)所述第一類用戶關(guān)鍵詞和/或第二類用戶關(guān)鍵詞、第三類用戶關(guān)鍵詞不同數(shù)據(jù)來源的權(quán)重,對三類用戶關(guān)鍵詞中相同關(guān)鍵詞的權(quán)值信息進(jìn)行加權(quán)求和,將所述三類用戶關(guān)鍵詞中相同關(guān)鍵詞合并,融合得到所述統(tǒng)一的用戶關(guān)鍵詞; 其中,所述權(quán)重由交叉驗(yàn)證得到。
10.根據(jù)權(quán)利要求6所述的基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算裝置,其特征在于,所述排序選擇模塊具體用于:按照所述統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞從屬的主題不同,將表達(dá)新語義的關(guān)鍵詞的排序提前;選取所述統(tǒng)一的用戶關(guān)鍵詞中前面部分或全部關(guān)鍵詞作為反應(yīng)用戶全 方面信息的關(guān)鍵詞。
全文摘要
本發(fā)明公開了一種基于用戶瀏覽和搜索行為的關(guān)鍵詞計(jì)算方法及裝置,該方法包括對于用戶瀏覽行為數(shù)據(jù)中有其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)其他用戶搜索詞生成第一類用戶關(guān)鍵詞;對于用戶瀏覽行為數(shù)據(jù)中無其他用戶搜索詞跳轉(zhuǎn)的網(wǎng)頁數(shù)據(jù),根據(jù)所述網(wǎng)頁數(shù)據(jù)中的標(biāo)題、正文和meta信息,生成第二類用戶關(guān)鍵詞;對于用戶搜索行為數(shù)據(jù)中直接輸入的搜索詞,結(jié)合協(xié)同過濾技術(shù)進(jìn)行關(guān)鍵詞推薦生成第三類用戶關(guān)鍵詞;對三類用戶關(guān)鍵詞進(jìn)行合并融合,得到統(tǒng)一的用戶關(guān)鍵詞;對統(tǒng)一的用戶關(guān)鍵詞中各關(guān)鍵詞進(jìn)行排序,選取部分或全部關(guān)鍵詞作為反應(yīng)用戶全方面信息的關(guān)鍵詞。本發(fā)明提出的技術(shù)方案能夠使得系統(tǒng)計(jì)算用戶關(guān)鍵詞代價(jià)較小,覆蓋用戶行為全面。
文檔編號G06Q30/02GK103164521SQ20131007700
公開日2013年6月19日 申請日期2013年3月11日 優(yōu)先權(quán)日2013年3月11日
發(fā)明者張一凡, 羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司