基于多義性關(guān)鍵詞的文本過濾方法及裝置制造方法
【專利摘要】本發(fā)明公開一種基于多義性關(guān)鍵詞的文本過濾方法及裝置,其方法包括:以指定關(guān)鍵詞收集文本集;基于文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;預(yù)定多義性關(guān)鍵詞包括所述指定關(guān)鍵詞;計算文本向量與預(yù)定多義性關(guān)鍵詞向量的相似度;過濾出相似度小于預(yù)定閾值的文本向量所對應(yīng)的文本。本發(fā)明基于多義性TAG篩選出其主流含義所對應(yīng)的文本列表,進而篩選出用戶所需要的文本,其成本小,效率高,過濾效果好,且無需人工干預(yù),對所有多義性關(guān)鍵詞均適用。
【專利說明】基于多義性關(guān)鍵詞的文本過濾方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種基于多義性關(guān)鍵詞的文本過濾方法及
>J-U ρ?α裝直。
【背景技術(shù)】
[0002]許多詞匯經(jīng)常具有多個含義,而在不同語境下,其主要含義也會有所不同。比如“蘋果”這個詞有科技、水果、報紙等相關(guān)含義。而對于絕大多數(shù)資訊用戶來說,關(guān)注的往往是其科技含義及相關(guān)文章內(nèi)容。因此需要將其它含義的文章從用戶訂閱的文章列表中去除。
[0003]如圖1所示,圖1是提取出“小米”這個多義詞TAG (從文章正文提取出來的關(guān)鍵詞,能夠代表文章主體內(nèi)容)的文章列表,從該文章列表中,可以發(fā)現(xiàn)里面不僅有小米公司相關(guān)文章,還有小米粥、人名等相關(guān)內(nèi)容。而對于訂閱“小米”的用戶來說,最關(guān)心的應(yīng)該是其科技含義,其它含義的文章則不希望出現(xiàn)在此。
[0004]目前,基于上述現(xiàn)象的一種解決方式是進行人工審核,對于含義與用戶理解不一致的情況的文章,在發(fā)布給用戶之前進行人工校驗,將不合格的文章進行刪除處理,以保證文章列表的一致性。
[0005]現(xiàn)有的這種人工審核方式,雖然過濾效果好,但是效率低,當(dāng)TAG數(shù)量較多時,由于資訊更新很快,因此需要人工成本也較高。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的主要目的在于提供一種成本低且效率高的基于多義性關(guān)鍵詞的文本過濾方法及裝置。
[0007]為了達到上述目的,本發(fā)明提出一種基于多義性關(guān)鍵詞的文本過濾方法,包括:
[0008]以指定關(guān)鍵詞收集文本集;
[0009]基于所述文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;所述預(yù)定多義性關(guān)鍵詞包括所述指定關(guān)鍵詞;
[0010]計算所述文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度;
[0011]過濾出相似度小于預(yù)定閾值的文本向量所對應(yīng)的文本。
[0012]本發(fā)明還提出一種基于多義性關(guān)鍵詞的文本過濾裝置,包括:
[0013]收集模塊,用于以指定關(guān)鍵詞收集文本集;
[0014]向量生成模塊,用于基于所述文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;所述預(yù)定多義性關(guān)鍵詞包括所述指定關(guān)鍵詞;
[0015]相似度計算模塊,用于計算所述文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度;
[0016]過濾模塊,用于過濾出相似度小于預(yù)定閾值的文本向量所對應(yīng)的文本。
[0017]本發(fā)明提出的一種基于多義性關(guān)鍵詞的文本過濾方法及裝置,通過以指定關(guān)鍵詞收集文本集;基于所述文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;計算文本向量與預(yù)定多義性關(guān)鍵詞向量的相似度,根據(jù)相似度大小過濾出相似度小于預(yù)定閾值的文本向量,從而篩選出用戶需要的多義性關(guān)鍵詞的主流含義對應(yīng)文章,其成本小,效率高,過濾效果好,且無需人工干預(yù),對所有多義性關(guān)鍵詞均適用。
【專利附圖】
【附圖說明】
[0018]圖1是現(xiàn)有技術(shù)中提取出“小米”多義詞TAG的文章列表的示意圖;
[0019]圖2是本發(fā)明基于多義性關(guān)鍵詞的文本過濾方法較佳實施例的流程示意圖;
[0020]圖3是本發(fā)明中以關(guān)鍵詞收集文本集的一種實例示意圖;
[0021]圖4是基于圖3中的文本集統(tǒng)計的預(yù)定多義性關(guān)鍵詞出現(xiàn)的文本次數(shù)排序示意圖;
[0022]圖5是基于圖4得到的關(guān)鍵詞“蘋果”的文章與TAG向量相似度最差的前10條示意圖;
[0023]圖6是基于圖4得到的關(guān)鍵詞“蘋果”的文章與TAG向量相似度最高的前10條示意圖;
[0024]圖7a和圖7b分別是基于關(guān)鍵詞“小米”得到的相似度最低和最聞10條的不意圖;
[0025]圖8是本發(fā)明基于多義性關(guān)鍵詞的文本過濾裝置較佳實施例的結(jié)構(gòu)示意圖。
[0026]為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進一步詳述。
【具體實施方式】
[0027]本發(fā)明實施例的解決方案主要是:以指定關(guān)鍵詞收集文本集,對于多義性關(guān)鍵詞,篩選出其主流含義所對應(yīng)的文本列表;基于該文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;計算文本向量與預(yù)定多義性關(guān)鍵詞向量的相似度,根據(jù)相似度大小過濾出相似度小于預(yù)定閾值的文本向量,從而篩選出用戶需要的多義性關(guān)鍵詞的主流含義對應(yīng)文章。
[0028]如圖1所示,本發(fā)明較佳實施例提出一種基于多義性關(guān)鍵詞的文本過濾方法,包括:
[0029]步驟SlOl,以指定關(guān)鍵詞收集文本集;
[0030]本實施例通過基于多義性TAG篩選出其主流含義所對應(yīng)的文本列表,進而篩選出用戶所需要的文本。其中,多義性TAG是指從文本正文中提取出來的具有多種含義的關(guān)鍵詞,其能夠代表文章主體內(nèi)容。
[0031]比如“蘋果”一詞有科技公司/產(chǎn)品、水果等含義,是一個多義性TAG。而對于資訊文章來說,其主流含義是偏科技。本實施例從提取出“蘋果”這個TAG來篩選出主流含義所對應(yīng)的文章,以保證其含義的一致性。
[0032]當(dāng)用戶需要搜索某一類文本時,比如需要搜索“蘋果”科技含義這類文章時,給定“蘋果”這一關(guān)鍵詞,并從實時數(shù)據(jù)庫中收集該指定關(guān)鍵詞下的所有文本列表及正文。
[0033]如圖3所示,圖3是以指定關(guān)鍵詞“蘋果”搜集到的“蘋果”及其部分文章列表的標(biāo)題。
[0034]上述實時數(shù)據(jù)庫用于存儲后臺服務(wù)系統(tǒng)從互聯(lián)網(wǎng)中實時獲取的各種文本。在收集文本時,也可以直接從互聯(lián)網(wǎng)各網(wǎng)站中搜索包含有該指定關(guān)鍵詞的各種文本。
[0035]步驟S102,基于所述文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;所述預(yù)定多義性關(guān)鍵詞包括所述指定關(guān)鍵詞;
[0036]對于預(yù)定多義性關(guān)鍵詞向量的生成,其過程如下:
[0037]當(dāng)收集到指定關(guān)鍵詞下的所有文本后,對每一文本,從中提取若干類預(yù)定多義性關(guān)鍵詞(包括用戶指定的關(guān)鍵詞),統(tǒng)計每一類預(yù)定多義性關(guān)鍵詞在所有文本中出現(xiàn)的文本次數(shù);然后根據(jù)統(tǒng)計的文本次數(shù)及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成每一類預(yù)定多義性關(guān)鍵詞的詞向量。
[0038]比如,對于收集的每一篇文章,一般會提取出1-5個預(yù)定多義性關(guān)鍵詞,針對每一個多義性關(guān)鍵詞,計算其在多少篇文章中出現(xiàn)。如圖4所示,圖4是含有“蘋果”一詞的所有文章里,各預(yù)定多義性關(guān)鍵詞出現(xiàn)的文本次數(shù)(即文本篇數(shù))從高到低的排序序列及對應(yīng)的預(yù)定多義性關(guān)鍵詞名稱,由圖4可以看出:其主流資訊含義與科技相關(guān)。
[0039]然后根據(jù)統(tǒng)計的文本次數(shù)及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成每一類預(yù)定多義性關(guān)鍵詞的詞向量(以下簡稱TAG向量),其中TAG向量的每一個元素表示一個預(yù)定多義性關(guān)鍵詞,其值表示含有此預(yù)定多義性關(guān)鍵詞的文章的出現(xiàn)次數(shù),比如:〈蘋果,695〉,〈iPhone, 173〉…〈iOS, 16>...。
[0040]對于文本向量的生成,其過程如下:
[0041]對每一文本進行分詞,并判斷上述所統(tǒng)計的TAG向量中的每一預(yù)定多義性關(guān)鍵詞在該文本中是否出現(xiàn)過,根據(jù)判斷結(jié)果標(biāo)定相應(yīng)的值,比如,若出現(xiàn)則標(biāo)定為1,沒出現(xiàn)則為標(biāo)定0,由此基于該標(biāo)定的值及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成該文本的文本向量,該文本向量的長度與上述TAG向量的長度相同。
[0042]在文本向量中,每一個向量元素代表其所在位置的預(yù)定多義性關(guān)鍵詞在此文本中是否出現(xiàn)。比如:〈蘋果,1>,〈iPhone, l>...〈i0S,0>…。
[0043]步驟S103,計算所述文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度;
[0044]然后,計算文本向量與TAG向量的相似度,相似度可以采用余弦公式來度量,具體采用如下公式:
【權(quán)利要求】
1.一種基于多義性關(guān)鍵詞的文本過濾方法,其特征在于,包括: 以指定關(guān)鍵詞收集文本集; 基于所述文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;所述預(yù)定多義性關(guān)鍵詞包括所述指定關(guān)鍵詞; 計算所述文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度; 過濾出相似度小于預(yù)定閾值的文本向量所對應(yīng)的文本。
2.根據(jù)權(quán)利要I所述的方法,其特征在于,所述以指定關(guān)鍵詞收集文本集的步驟包括: 以指定關(guān)鍵詞從實時數(shù)據(jù)庫中收集該指定關(guān)鍵詞下的所有文本列表及正文。
3.根據(jù)權(quán)利要I所述的方法,其特征在于,所述基于文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量的步驟包括: 對于所述文本集中的每一文本,從中提取若干類預(yù)定多義性關(guān)鍵詞; 統(tǒng)計每一類預(yù)定多義性關(guān)鍵詞在所述文本集中出現(xiàn)的文本次數(shù); 根據(jù)統(tǒng)計的文本次數(shù)及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成每一類預(yù)定多義性關(guān)鍵詞的詞向量; 對每一文本進行分詞,并判斷所統(tǒng)計的詞向量中的每一預(yù)定多義性關(guān)鍵詞在該文本中是否出現(xiàn)過; 根據(jù)判斷結(jié)果標(biāo)定相應(yīng)的值,基于該標(biāo)定的值及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成該文本的文本向量。
4.根據(jù)權(quán)利要1、2或3所述的方法,其特征在于,所述過濾出相似度小于預(yù)定閾值的文本向量所對應(yīng)的文本的步驟之前包括: 對所有文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度進行排序。
5.根據(jù)權(quán)利要I所述的方法,其特征在于,所述預(yù)定多義性關(guān)鍵詞屬于同一類詞。
6.一種基于多義性關(guān)鍵詞的文本過濾裝置,其特征在于,包括: 收集模塊,用于以指定關(guān)鍵詞收集文本集; 向量生成模塊,用于基于所述文本集生成預(yù)定多義性關(guān)鍵詞向量及文本向量;所述預(yù)定多義性關(guān)鍵詞包括所述指定關(guān)鍵詞; 相似度計算模塊,用于計算所述文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度; 過濾模塊,用于過濾出相似度小于預(yù)定閾值的文本向量所對應(yīng)的文本。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述收集模塊還用于以指定關(guān)鍵詞從實時數(shù)據(jù)庫中收集該指定關(guān)鍵詞下的所有文本列表及正文。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述向量生成模塊還用于對于所述文本集中的每一文本,從中提取若干類預(yù)定多義性關(guān)鍵詞;統(tǒng)計每一類預(yù)定多義性關(guān)鍵詞在所述文本集中出現(xiàn)的文本次數(shù);根據(jù)統(tǒng)計的文本次數(shù)及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成每一類預(yù)定多義性關(guān)鍵詞的詞向量;對每一文本進行分詞,并判斷所統(tǒng)計的詞向量中的每一預(yù)定多義性關(guān)鍵詞在該文本中是否出現(xiàn)過;根據(jù)判斷結(jié)果標(biāo)定相應(yīng)的值,基于該標(biāo)定的值及對應(yīng)的預(yù)定多義性關(guān)鍵詞的名稱生成該文本的文本向量。
9.根據(jù)權(quán)利要求6、7或8所述的裝置,其特征在于,所述相似度計算模塊還用于對所有文本向量與所述預(yù)定多義性關(guān)鍵詞向量的相似度進行排序。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述預(yù)定多義性關(guān)鍵詞屬于同一類詞。
【文檔編號】G06F17/30GK104008098SQ201310055818
【公開日】2014年8月27日 申請日期:2013年2月21日 優(yōu)先權(quán)日:2013年2月21日
【發(fā)明者】蔡兵 申請人:騰訊科技(深圳)有限公司