两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

網(wǎng)頁數(shù)據(jù)分析方法及裝置制造方法

文檔序號:6627797閱讀:151來源:國知局
網(wǎng)頁數(shù)據(jù)分析方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁數(shù)據(jù)分析方法及裝置。該網(wǎng)頁數(shù)據(jù)分析方法包括:獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞;獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。通過本發(fā)明,實現(xiàn)了通過利用用戶需求決定的關(guān)鍵詞之間的依存關(guān)系對網(wǎng)頁數(shù)據(jù)進行聚類,使聚類結(jié)果能準確反映用戶需求的效果。
【專利說明】網(wǎng)頁數(shù)據(jù)分析方法及裝置

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)分析領(lǐng)域,具體而言,涉及一種網(wǎng)頁數(shù)據(jù)分析方法及裝置。

【背景技術(shù)】
[0002]用戶通常會抱有一定的目的和意圖瀏覽網(wǎng)站。對于網(wǎng)站而言,了解用戶訪問的真實意圖非常重要。網(wǎng)站通常會通過用戶瀏覽網(wǎng)站的行為軌跡構(gòu)造模型,訓(xùn)練分類器的方法對訪問網(wǎng)站的用戶進行分類,或是通過網(wǎng)站站內(nèi)搜索詞(Query)的熱度對用戶需求進行描述。
[0003]站內(nèi)搜索的方式是用戶主動尋找信息的行為,可以一定程度上描述用戶需求。傳統(tǒng)的站內(nèi)搜索詞聚類技術(shù)依賴于搜索詞本身,通過詞語間字面上的重疊進行計算,實現(xiàn)方案一般為:第一步:對關(guān)鍵詞進行字面上的拆解(包括逐子或分詞),拆解以后的關(guān)鍵詞可以表示為詞(字)為單元的序列串;第二步:然后逐一計算每一對關(guān)鍵詞對的相似度(jaccard或編輯距離等),即比較兩個搜索詞的詞串的吻合程度,并返回相似度的度量;第三步:使用聚類算法進行聚類,聚類算法包括k-means聚類或?qū)哟尉垲惖?,不同的聚類算法實現(xiàn)方式不同但實質(zhì)上并無差別。由于傳統(tǒng)技術(shù)是通過關(guān)鍵詞字面上的吻合程度來建立聯(lián)系,并不符合實際情況,僅僅是生硬的構(gòu)造一種相關(guān)依存關(guān)系,因此不能準確的解釋用戶需求。比如“三星”和“蘋果”不包含任何字面上的匹配,但是相關(guān)性應(yīng)該很高,另外“本田”和“本源”是完全無關(guān)的兩類詞,但是字面上仍然存在著相關(guān)依存關(guān)系。并且,現(xiàn)有的站內(nèi)搜索詞聚類技術(shù)需要計算每兩個關(guān)鍵詞之間的相似度,因此時間復(fù)雜度為ο (n2),不適用于大規(guī)模數(shù)據(jù)挖掘。
[0004]針對相關(guān)技術(shù)中網(wǎng)頁數(shù)據(jù)分析方法僅僅依賴于搜索詞字面上的重疊程度,從而導(dǎo)致的數(shù)據(jù)分析結(jié)果不能準確解釋用戶需求的問題,目前尚未提出有效的解決方案。


【發(fā)明內(nèi)容】

[0005]針對現(xiàn)有的網(wǎng)頁數(shù)據(jù)分析方法僅僅依賴于搜索詞字面上的重疊程度,導(dǎo)致數(shù)據(jù)分析結(jié)果不能準確解釋用戶需求的問題而提出本發(fā)明,為此,本發(fā)明的主要目的在于提供一種網(wǎng)頁數(shù)據(jù)分析方法及裝置,以解決上述問題。
[0006]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁數(shù)據(jù)分析方法。該方法包括:獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞;獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
[0007]進一步地,獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞包括:在網(wǎng)頁加載腳本文件代碼;接收用戶在網(wǎng)頁的輸入行為;以及通過腳本文件代碼讀取網(wǎng)頁的輸入行為所攜帶的m個關(guān)鍵詞。
[0008]進一步地,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括:確定假設(shè)條件,其中,假設(shè)條件是假設(shè)的m個關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系;根據(jù)假設(shè)條件創(chuàng)建圖模型{G,S},其中,G代表m個關(guān)鍵詞的集合,S代表m個關(guān)鍵詞之間的依存關(guān)系的集合;以及通過圖模型,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0009]進一步地,通過圖模型,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括:根據(jù)m個關(guān)鍵詞之間的依存關(guān)系的強度計算轉(zhuǎn)移概率,其中,轉(zhuǎn)移概率是每個關(guān)鍵詞屬于與其存在依存關(guān)系的關(guān)鍵詞的概率;以及按照轉(zhuǎn)移概率對m個關(guān)鍵詞進行迭代,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0010]進一步地,按照轉(zhuǎn)移概率對m個關(guān)鍵詞進行迭代,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括:假設(shè)在進行迭代之前第i個關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,簇是一類關(guān)鍵詞的集合,i = 1,2...m ;按照轉(zhuǎn)移概率對第i個關(guān)鍵詞進行一次迭代,計算迭代后第i個關(guān)鍵詞屬于的第k關(guān)鍵詞族,其中,k e {1,2...1-1, i+1...m};判斷第i族和第k族的差異是否小于預(yù)設(shè)值,其中,預(yù)設(shè)值是預(yù)先設(shè)定的關(guān)鍵詞簇允許的誤差值;如果第i簇和第k簇的差異大于預(yù)設(shè)值,則繼續(xù)進行迭代;以及如果第i簇和第k簇的差異小于或者等于預(yù)設(shè)值,則停止迭代,獲取第i個關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
[0011]進一步地,將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞之后,方法還包括:對多個同一類關(guān)鍵詞分別進行命名;以及按照每一類關(guān)鍵詞包含的關(guān)鍵詞的數(shù)量,對命名后的多個同一類關(guān)鍵詞進行排序。
[0012]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁數(shù)據(jù)分析裝置,該裝置包括:第一獲取單元,用于獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞;第二獲取單元,用于獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及劃分單兀,用于將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
[0013]進一步地,第一獲取單元包括:加載模塊,用于在網(wǎng)頁加載腳本文件代碼;接收模塊,用于接收用戶在網(wǎng)頁的輸入行為;以及讀取模塊,用于通過腳本文件代碼讀取網(wǎng)頁的輸入行為所攜帶的m個關(guān)鍵詞。
[0014]進一步地,第二獲取單元包括:第一確定模塊,用于確定假設(shè)條件,其中,假設(shè)條件是假設(shè)的m個關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系;創(chuàng)建模塊,用于根據(jù)假設(shè)條件創(chuàng)建圖模型{G,S},其中,G代表m個關(guān)鍵詞的集合,S代表m個關(guān)鍵詞之間的依存關(guān)系的集合;以及第一獲取模塊,用于通過圖模型,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0015]進一步地,第一獲取模塊包括:計算模塊,用于根據(jù)m個關(guān)鍵詞之間的依存關(guān)系的強度計算轉(zhuǎn)移概率,其中,轉(zhuǎn)移概率是每個關(guān)鍵詞屬于與其存在依存關(guān)系的關(guān)鍵詞的概率;以及第二獲取模塊,按照轉(zhuǎn)移概率對m個關(guān)鍵詞進行迭代,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
[0016]進一步地,第二獲取模塊包括:假設(shè)子模塊,用于假設(shè)在進行迭代之前第i個關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,簇是一類關(guān)鍵詞的集合,i = l,2...m;計算子模塊,用于按照轉(zhuǎn)移概率對第i個關(guān)鍵詞進行一次迭代,計算迭代后第i個關(guān)鍵詞屬于的第k關(guān)鍵詞簇,其中,ke {1,2...1-1, i+1...m};判斷子模塊,用于判斷第i簇和第k簇的差異是否小于預(yù)設(shè)值,其中,預(yù)設(shè)值是預(yù)先設(shè)定的關(guān)鍵詞簇允許的誤差值;迭代子模塊,用于如果第i簇和第k簇的差異大于預(yù)設(shè)值,則繼續(xù)進行迭代;以及獲取子模塊,用于如果第i簇和第k簇的差異小于或者等于預(yù)設(shè)值,則停止迭代,獲取第i個關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
[0017]進一步地,該裝置還包括:命名單元,用于對多個同一類關(guān)鍵詞分別進行命名;以及排序單元,用于按照每一類關(guān)鍵詞包含的關(guān)鍵詞的數(shù)量,對命名后的多個同一類關(guān)鍵詞進行排序。
[0018]通過本發(fā)明,采用包括以下步驟的方法:獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞;獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系;以及將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞,解決了現(xiàn)有網(wǎng)頁數(shù)據(jù)分析方法僅僅依賴于搜索詞字面上的重疊程度,導(dǎo)致數(shù)據(jù)分析結(jié)果不能準確解釋用戶需求的問題,進而達到了通過利用用戶需求決定的關(guān)鍵詞之間的依存關(guān)系對網(wǎng)頁數(shù)據(jù)進行聚類,從而通過聚類結(jié)果準確反映用戶需求的效果。

【專利附圖】

【附圖說明】
[0019]構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0020]圖1是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第一實施例的流程圖;
[0021]圖2是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第二實施例的流程圖;
[0022]圖3是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第三實施例的流程圖;
[0023]圖4是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第四實施例的流程圖;
[0024]圖5是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第五實施例的流程圖;
[0025]圖6是根據(jù)本發(fā)明的數(shù)據(jù)分析方法的第六實施例的流程圖;
[0026]圖7是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第一實施例的結(jié)構(gòu)框圖;
[0027]圖8是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第二實施例的結(jié)構(gòu)框圖;
[0028]圖9是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第三實施例的結(jié)構(gòu)框圖;以及
[0029]圖10是根據(jù)本發(fā)明的數(shù)據(jù)分析裝置的第六實施例的結(jié)構(gòu)框圖。

【具體實施方式】
[0030]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。
[0031]圖1是根據(jù)本發(fā)明的網(wǎng)頁數(shù)據(jù)分析方法的第一實施例的流程圖。如圖1所示,該方法包括如下步驟:
[0032]步驟S102,獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞。
[0033]用戶需求與用戶輸入的關(guān)鍵詞之間應(yīng)存在多對多的依存關(guān)系,即每個用戶需求可以通過用戶輸入的不同的關(guān)鍵詞來表示意圖,每個關(guān)鍵詞也可以表示多個不同的用戶需求意圖。為了簡化問題,該方法定義用戶需求與用戶輸入的關(guān)鍵詞之間存在一對多的依存關(guān)系。通過對用戶在網(wǎng)站中輸入的關(guān)鍵詞進行聚類的方式可以對用戶需求進行識別。
[0034]步驟S104,獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在依存關(guān)系。
[0035]對于用戶的一次網(wǎng)頁數(shù)據(jù)搜索行為,往往搜索的各關(guān)鍵詞之間存在關(guān)系,這種關(guān)系不是各個關(guān)鍵詞字面上的相似性,而是關(guān)鍵詞體現(xiàn)的用戶需求相同。比如,用戶在進行網(wǎng)頁數(shù)據(jù)搜索時,搜索的關(guān)鍵詞之間可能存在以下依存關(guān)系:一個關(guān)鍵詞是前個一關(guān)鍵詞的歸屬Gii = f Gv1)),或后一個關(guān)鍵詞是所有前面關(guān)鍵詞的歸屬(Iii = f (k^!, ki_2, ki_3,…,kD)等等。
[0036]步驟S106,將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
[0037]因為具有依存關(guān)系的一類關(guān)鍵詞對應(yīng)同一用戶需求,因此按照依存關(guān)系可以將用戶輸入的關(guān)鍵詞分為幾類。通過這種聚類的方式,能夠挖掘出深層次的關(guān)鍵詞聚合關(guān)系,從而準確地表示用戶需求。例如能發(fā)現(xiàn)“違章”、“電子眼”、“電子jin”和“電子敬察”之間的關(guān)系。
[0038]該實施例由于采取了以下步驟:獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞;獲取m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞;以及將m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞,使得網(wǎng)頁數(shù)據(jù)分析是基于用戶需求決定的關(guān)鍵詞之間的依存關(guān)系,而不再片面地依賴關(guān)鍵詞之間的字面重疊程度。該方法突破了傳統(tǒng)query聚合過程基于query本身字面匹配假設(shè)的局限性,采用用戶行為數(shù)據(jù)進行數(shù)據(jù)挖掘,構(gòu)建出更符合用戶需求的數(shù)學(xué)模型。
[0039]圖2是根據(jù)本發(fā)明的網(wǎng)頁數(shù)據(jù)分析方法的第二實施例的流程圖。該實施例可以作為圖1所示實施例的一種優(yōu)選實施方式,如圖2所示,該網(wǎng)頁數(shù)據(jù)分析方法包括:
[0040]步驟S201,在網(wǎng)頁加載腳本文件代碼。
[0041]腳本文件類似于DOS操作系統(tǒng)中的批處理文件,它可以將不同的命令組合起來,并按確定的順序自動連續(xù)地執(zhí)行。腳本程序相對一般程序開發(fā)來說比較接近自然語言,可以不經(jīng)編譯而是解釋執(zhí)行。
[0042]腳本語言種類較多,一般的腳本語言的執(zhí)行只同具體的解釋執(zhí)行器有關(guān),所以只要系統(tǒng)上有相應(yīng)語言的解釋程序就可以做到跨平臺。優(yōu)選地,在該方法中可使用javascript,通過在網(wǎng)站中添加javascript代碼來獲取用戶在進行網(wǎng)頁瀏覽時的行為數(shù)據(jù)。
[0043]步驟S202,接收用戶在網(wǎng)頁的輸入行為。
[0044]用戶在網(wǎng)站中進行搜索,其輸入的數(shù)據(jù)可以通過javascript代碼監(jiān)測并實現(xiàn)動態(tài)讀取。
[0045]步驟S204,通過腳本文件代碼讀取網(wǎng)頁的輸入行為所攜帶的m個關(guān)鍵詞。
[0046]用戶在一次會話中進行的站內(nèi)搜索行為,能夠構(gòu)成一條站內(nèi)搜索的序列,表示為
[Keywordl, Keyword2, Keyword3,......]。用唯一鍵表示每條會話,能夠形成如下格式的數(shù)據(jù):
[0047]

【權(quán)利要求】
1.一種網(wǎng)頁數(shù)據(jù)分析方法,其特征在于,包括: 獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞; 獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在所述依存關(guān)系;以及 將所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞包括: 在所述網(wǎng)頁加載腳本文件代碼; 接收所述用戶在所述網(wǎng)頁的輸入行為;以及 通過腳本文件代碼讀取所述網(wǎng)頁的輸入行為所攜帶的m個關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括: 確定假設(shè)條件,其中,所述假設(shè)條件是假設(shè)的所述m個關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系; 根據(jù)所述假設(shè)條件創(chuàng)建圖模型{G,S},其中,所述G代表所述m個關(guān)鍵詞的集合,所述S代表所述m個關(guān)鍵詞之間的依存關(guān)系的集合;以及 通過所述圖模型,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過所述圖模型,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括: 根據(jù)所述m個關(guān)鍵詞之間的依存關(guān)系的強度計算轉(zhuǎn)移概率,其中,所述轉(zhuǎn)移概率是每個關(guān)鍵詞屬于與其存在所述依存關(guān)系的關(guān)鍵詞的概率;以及 按照所述轉(zhuǎn)移概率對所述m個關(guān)鍵詞進行迭代,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,按照所述轉(zhuǎn)移概率對所述m個關(guān)鍵詞進行迭代,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞包括: 假設(shè)在進行所述迭代之前第i個關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,所述簇是一類關(guān)鍵詞的集合,所述i = 1,2...m ; 按照所述轉(zhuǎn)移概率對所述第i個關(guān)鍵詞進行一次迭代,計算迭代后所述第i個關(guān)鍵詞屬于的第k關(guān)鍵詞簇,其中,所述k e {1,2...1-1, i+1...m}; 判斷所述第i簇和所述第k簇的差異是否小于預(yù)設(shè)值,其中,所述預(yù)設(shè)值是預(yù)先設(shè)定的所述關(guān)鍵詞簇允許的誤差值; 如果所述第i簇和所述第k簇的差異大于所述預(yù)設(shè)值,則繼續(xù)進行迭代;以及如果所述第i簇和所述第k簇的差異小于或者等于所述預(yù)設(shè)值,則停止迭代,獲取所述第i個關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,將所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞之后,所述方法還包括: 對多個所述同一類關(guān)鍵詞分別進行命名;以及 按照每一類關(guān)鍵詞包含的所述關(guān)鍵詞的數(shù)量,對命名后的多個所述同一類關(guān)鍵詞進行排序。
7.—種網(wǎng)頁數(shù)據(jù)分析裝置,其特征在于,包括: 第一獲取單元,用于獲取用戶在網(wǎng)頁上輸入的m個關(guān)鍵詞; 第二獲取單元,用于獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞,其中,對應(yīng)的用戶需求相同的關(guān)鍵詞之間存在所述依存關(guān)系;以及 劃分單元,用于將所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞劃分為同一類關(guān)鍵詞。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一獲取單元包括: 加載模塊,用于在所述網(wǎng)頁加載腳本文件代碼; 接收模塊,用于接收所述用戶在所述網(wǎng)頁的輸入行為;以及 讀取模塊,用于通過腳本文件代碼讀取所述網(wǎng)頁的輸入行為所攜帶的m個關(guān)鍵詞。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第二獲取單元包括: 第一確定模塊,用于確定假設(shè)條件,其中,所述假設(shè)條件是假設(shè)的所述m個關(guān)鍵詞的輸入行為中包含的邏輯關(guān)系; 創(chuàng)建模塊,用于根據(jù)所述假設(shè)條件創(chuàng)建圖模型{G,S},其中,所述G代表所述m個關(guān)鍵詞的集合,所述S代表所述m個關(guān)鍵詞之間的依存關(guān)系的集合;以及 第一獲取模塊,用于通過所述圖模型,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一獲取模塊包括: 計算模塊,用于根據(jù)所述m個關(guān)鍵詞之間的依存關(guān)系的強度計算轉(zhuǎn)移概率,其中,所述轉(zhuǎn)移概率是每個關(guān)鍵詞屬于與其存在所述依存關(guān)系的關(guān)鍵詞的概率;以及 第二獲取模塊,按照所述轉(zhuǎn)移概率對所述m個關(guān)鍵詞進行迭代,獲取所述m個關(guān)鍵詞中存在依存關(guān)系的關(guān)鍵詞。
11.根據(jù)權(quán)利要求10所述的裝置,所述第二獲取模塊包括: 假設(shè)子模塊,用于假設(shè)在進行所述迭代之前第i個關(guān)鍵詞屬于第i關(guān)鍵詞簇,其中,所述簇是一類關(guān)鍵詞的集合,所述i = 1,2...m ; 計算子模塊,用于按照所述轉(zhuǎn)移概率對所述第i個關(guān)鍵詞進行一次迭代,計算迭代后所述第i個關(guān)鍵詞屬于的第k關(guān)鍵詞簇,其中,所述k e {1,2...1-1, i+1...m}; 判斷子模塊,用于判斷所述第i簇和所述第k簇的差異是否小于預(yù)設(shè)值,其中,所述預(yù)設(shè)值是預(yù)先設(shè)定的所述關(guān)鍵詞簇允許的誤差值; 迭代子模塊,用于如果所述第i簇和所述第k簇的差異大于所述預(yù)設(shè)值,則繼續(xù)進行迭代;以及 獲取子模塊,用于如果所述第i簇和所述第k簇的差異小于或者等于所述預(yù)設(shè)值,則停止迭代,獲取所述第i個關(guān)鍵詞屬于的關(guān)鍵詞簇中的所有關(guān)鍵詞。
12.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括: 命名單元,用于對多個所述同一類關(guān)鍵詞分別進行命名;以及 排序單元,用于按照每一類關(guān)鍵詞包含的所述關(guān)鍵詞的數(shù)量,對命名后的多個所述同一類關(guān)鍵詞進行排序。
【文檔編號】G06F17/30GK104199969SQ201410487202
【公開日】2014年12月10日 申請日期:2014年9月22日 優(yōu)先權(quán)日:2014年9月22日
【發(fā)明者】何鑫 申請人:北京國雙科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
斗六市| 读书| 江川县| 淳化县| 华安县| 松阳县| 柘荣县| 卓资县| 石城县| 香格里拉县| 邯郸市| 南投县| 桐城市| 宁陕县| 南昌县| 峨山| 大荔县| 探索| 瓦房店市| 鹤岗市| 游戏| 铁岭县| 平安县| 娄烦县| 巫山县| 岫岩| 射阳县| 城固县| SHOW| 突泉县| 西乌珠穆沁旗| 沁水县| 林甸县| 怀安县| 湄潭县| 汝阳县| 白银市| 新晃| 辰溪县| 江源县| 泾川县|