行檢測之后,服務器可以提 取文本集合中不包含敏感詞的文本信息。
[0102] 需要說明的是,步驟301至步驟306與上述實施例中的步驟201至步驟206類似, 詳細技術(shù)細節(jié)請參考上述實施例,本實施例在此不再贅述。
[0103] 步驟307,若提取得到的文本信息有兩條或者兩條以上,根據(jù)預定評分項計算兩條 或者兩條以上的文本信息中的每一條文本信息的得分;
[0104] 當服務器提取得到的文本信息有兩條或者兩條以上時,為了能夠挑選出價值更高 的文本信息,服務器還可以根據(jù)預定評分項計算兩條或者兩條以上的文本信息中的每一條 文本信息的得分。其中,預定評分項包括文本信息的特征信息、文本信息的信息量和文本信 息的活躍度中的至少一種。
[0105] 具體的,服務器根據(jù)預定評分項計算兩條或者兩條以上的文本信息中的每一條文 本信息的得分的步驟可以包括:
[0106] 第一,若預定評分項包括文本信息的特征信息,則獲取每一條文本信息的特征信 息,特征信息包括文本信息的內(nèi)容、文本信息中的鏈接地址、文本信息被轉(zhuǎn)播的次數(shù)、文本 信息被評論的次數(shù)以及文本信息被瀏覽的次數(shù)中的至少一種,根據(jù)特征信息計算每一條文 本信息的第一得分;
[0107] 具體的,
[0108] 當特征信息包括文本信息的內(nèi)容時,服務器可以先獲取每一條文本信息的內(nèi)容, 計算文本信息的內(nèi)容的特征值,進而查詢第二關(guān)聯(lián)關(guān)系得到對于內(nèi)容的得分。其中,第二關(guān) 聯(lián)關(guān)系為內(nèi)容的特征值與內(nèi)容的得分呈正相關(guān)關(guān)系。
[0109] 當特征信息包括文本信息的鏈接地址時,服務器可以先獲取鏈接地址所對應的頁 面中的內(nèi)容,計算頁面內(nèi)容的特征值,進而通過查詢第三關(guān)聯(lián)關(guān)系來計算對于鏈接地址的 得分。其中,第三關(guān)聯(lián)關(guān)系為鏈接地址所對應的頁面的內(nèi)容的特征值與鏈接地址的得分呈 正相關(guān)關(guān)系。
[0110] 當特征信息包括文本信息被轉(zhuǎn)播的次數(shù)時,服務器可以獲取文本信息被轉(zhuǎn)播的次 數(shù),進而通過查詢第四關(guān)聯(lián)關(guān)系計算對于被轉(zhuǎn)播次數(shù)的得分。其中,第四關(guān)聯(lián)關(guān)系為文本信 息被轉(zhuǎn)播的次數(shù)與被轉(zhuǎn)播次數(shù)的得分呈正相關(guān)關(guān)系。比如,由于文本信息被轉(zhuǎn)播的次數(shù)越 多,說明這條文本信息被其它用戶喜歡的可能性也就越大,所以服務器對該條文本信息被 轉(zhuǎn)播次數(shù)的得分也可以越高。
[0111] 當特征信息包括文本信息被評論的次數(shù)時,服務器可以獲取文本信息被評論的次 數(shù),進而通過查詢第五關(guān)聯(lián)關(guān)系的方式計算對于被評論次數(shù)的得分。其中,第五關(guān)聯(lián)關(guān)系為 文本信息被評論的次數(shù)與被評論次數(shù)的得分呈正相關(guān)關(guān)系。
[0112] 當特征信息包括文本信息被瀏覽的次數(shù)時,服務器可以獲取文本信息被瀏覽的次 數(shù),進而通過查詢第五關(guān)聯(lián)關(guān)系的方式計算對于被瀏覽次數(shù)的得分。其中,第五關(guān)聯(lián)關(guān)系為 文本信息被瀏覽的次數(shù)與被瀏覽次數(shù)的得分呈正相關(guān)關(guān)系。
[0113] 在服務器計算得到上述各個得分之后,服務器可以根據(jù)各個得分以及各個得分所 對應的權(quán)重計算第一得分。比如,服務器計算得到的各個得分依次為5、7、9、6和8,各個得 分所對應的權(quán)重分別為〇.l、〇. 3、0. 2、0. 2、0. 2,則服務器計算得到的第一得分為5*0. 1+7* 0? 3+9*0. 2+6*0. 2+8*0. 2=7. 2 分。
[0114] 需要說明的是,由于當文本信息是短文本信息時,文本信息中的內(nèi)容較少,在對內(nèi) 容進行特征提取進而計算特征值時并不能很好的表示文本信息的特征,所以本實施例采用 文本信息的內(nèi)容與文本信息的鏈接地址、文本信息被轉(zhuǎn)播的次數(shù)、文本信息被評論的次數(shù) 以及文本信息被瀏覽的次數(shù)中的至少一種的結(jié)合共同來計算對于文本信息特征的得分,提 高了對文本信息的提取準確度。
[0115] 第二,若預定評分項包括文本信息的信息量,則計算每一條文本信息中的每一個 關(guān)鍵詞的權(quán)值,計算每一條文本信息中所有關(guān)鍵詞的權(quán)值之和,根據(jù)第一關(guān)聯(lián)關(guān)系計算每 一條文本信息的第二得分,第一關(guān)聯(lián)關(guān)系為文本信息中的所有關(guān)鍵詞的權(quán)值之和與第二得 分呈正相關(guān)關(guān)系;
[0116] 具體的,服務器可以通過TF-IDF算法來計算每一條文本信息中的每一個關(guān)鍵詞 的權(quán)值,并在計算得到每一個關(guān)鍵詞的權(quán)值之后,服務器計算各個關(guān)鍵詞的權(quán)值之和;同時 由于關(guān)鍵詞的權(quán)值越大,說明該關(guān)鍵詞表征文本信息的含義的效果也就越好,所以當服務 器計算得到的文本信息中的各個關(guān)鍵詞的權(quán)值之和越大時,說明該文本信息表達的信息量 越多,服務器對文本信息的信息量的評分也可以越高,所以服務器可以通過查詢文本信息 中的所有關(guān)鍵詞的權(quán)值之和與第二得分之間的第一關(guān)聯(lián)關(guān)系來計算文本信息的第二得分, 本實施例在此不再贅述。
[0117] 其中,設(shè)關(guān)鍵詞i的權(quán)值為Wi;j、詞頻為TFi;j、逆文檔頻率為IDF i;j,則服務器計算 得到的關(guān)鍵詞1的權(quán)值為:1^可?^_*10?^,1和]_均為正整數(shù)。具體的,服務器可以先統(tǒng)計 關(guān)鍵詞i在一條文本信息中出現(xiàn)的次數(shù)n以及文本信息中所有詞語的個數(shù)N,然后計算關(guān)鍵 詞i在文本信息中的詞頻,詞頻可以表示為TFi^n/N ;另外,服務器可以計算文本集合中所 有文本信息的個數(shù)M,包含關(guān)鍵詞i的文本信息的個數(shù)m,然后計算關(guān)鍵詞i的逆文檔頻率, 逆文檔頻率可以表示為IDFtjZlogW/m)。
[0118] 第三,若預定評分項包括文本信息的活躍度,則獲取每一條文本信息的活躍參數(shù), 活躍參數(shù)包括文本信息被轉(zhuǎn)播的次數(shù)、文本信息被評論的次數(shù)以及文本信息被瀏覽的次數(shù) 中的至少一種,根據(jù)活躍參數(shù)計算每一條文本信息的第三得分;
[0119] 由于活躍參數(shù)的參數(shù)值越大,說明該條文本信息被其它用戶的關(guān)注程度也就越 高,該條文本信息的價值也就越高,所以服務器在獲取到活躍參數(shù)之后,服務器可以根據(jù)活 躍參數(shù)與第三得分之間的正相關(guān)關(guān)系計算第三得分。
[0120] 在實際實現(xiàn)時,如果活躍參數(shù)包括上述幾種中的兩種或者三種,則服務器在計算 得到對應每一種活躍參數(shù)的得分之后,服務器可以根據(jù)各種活躍參數(shù)的得分以及各自對應 的權(quán)重計算第三得分。比如,服務器計算得到文本信息被轉(zhuǎn)播的次數(shù)所對應的得分為7分、 文本信息被評論的次數(shù)的得分為6分以及文本信息被瀏覽的次數(shù)的得分為8分,并且各自 對應的權(quán)重分別為〇. 6、0. 2和0. 2,則第三得分為7. 2*0. 6+6*0. 2+8*0. 2=7分。
[0121] 第四,根據(jù)第一得分、第二得分和第三得分中的至少一種以及各自對應的權(quán)重計 算兩條或者兩條以上的文本信息中的每一條文本信息的得分。
[0122] 在服務器計算得到第一得分、第二得分和第三得分之后,服務器可以根據(jù)第一得 分、第二得分和第三得分中的至少一種以及各自對應的權(quán)重計算兩條或者兩條以上的文本 信息中的每一條文本信息的得分。具體可以表示為:得分=第一得分*第一權(quán)重+第二得 分*第二權(quán)重+第三得分*第三權(quán)重。其中,各個得分所對應的權(quán)重可以根據(jù)實際使用需 求進行配置,本實施例對其具體比例并不做限定。比如計算得到的第一得分為7. 2分、第二 得分為6分以及第三得分為7分,第一權(quán)重、第二權(quán)重和第三權(quán)重分別為0. 3、0. 5和0. 2,則 服務器計算得到的該文本信息的得分為7. 2*0. 3+6*0. 5+7*0. 2=6. 56分。
[0123] 步驟308,根據(jù)兩條或者兩條以上的文本信息的得分對兩條或者兩條以上的文本 信息進行排名;
[0124] 在服務器計算得到提取得到的各條文本信息的得分之后,為了后續(xù)步驟的執(zhí)行, 服務器可以按照計算得到的每條文本信息的得分由高到低的順序進行排名。
[0125] 步驟309,選擇兩條或者兩條以上的文本信息中排名在前n位的文本信息,n為正 整數(shù)。
[0126] 由于文本信息的排名越高,說明該條文本信息被其它用戶關(guān)注的程度也即該條文 本信息的價值也就越高,所以在服務器對兩條或者兩條以上的文本信息進行排名之后,月艮 務器可以選擇兩條或者兩條以上的文本信息中排名在前n位的文本信息。其中,n為整數(shù)。
[0127] 綜上所述,本實施例提供的文本提取方法,通過提取文本集合中的每個文本信息 中的關(guān)鍵詞,對于每一個關(guān)鍵詞,通過至少兩個哈希函數(shù)中的每一個哈希函數(shù)分別計算每 一個關(guān)鍵詞在預定陣列中所對應的位置,進而檢測關(guān)鍵詞在預定陣列中所對應的位置處存 儲的內(nèi)容是否都是預定標識,當檢測結(jié)果為都是預定標識時,判定關(guān)鍵詞為敏感詞,進而提 取文本集合中不包含敏感詞的文本信息;其中,預定陣列為目標位置處存儲有預定標識的 陣列,目標位置為通過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏 感詞進行哈希計算后,計算得到的哈希值在預定陣列中所對應的位置;解決了【背景技術(shù)】中 服務器提取文本信息的提取效率較低的問題;達到了當通過多個哈希函數(shù)計算得到的關(guān)鍵 詞在預定陣列中所對應的位置處存儲的內(nèi)容都是預定標識時,即可判定關(guān)鍵詞是敏感詞, 提_ 了文本彳目息的提取效率的效果。
[0128] 本實施例在提取得到的文本信息有兩條或者兩條以上時,服務器繼續(xù)對提取得到 的每一條文本信息進行評分,進而選擇評分排名在前n位的文本信息,提高了提取得到的 文本信息的質(zhì)量。
[0129] 需要補充說明的是,在上述各個方法實施例中,服務器可以根據(jù)敏感詞庫中的敏 感詞的個數(shù)以及允許的對關(guān)鍵詞進行判定時的最大錯誤率來設(shè)置陣列的長度。其具體設(shè)置 方法可以包括 :
[0130] 設(shè)陣列長度為L,全集中的元素的個數(shù)為u個,允許由于哈希沖突而引起的最大錯 誤率為e;X為全集中任意n個元素的集合也即敏感詞的集合,F(xiàn)(X)表示X的位數(shù)組,那 么對于集合X中的任意一個元素X,在s=F(X)中查詢x都能查詢到肯定的結(jié)果,即s能夠接 受X。s能夠接受的不僅僅是X中的元素,它還能夠接受(u-n)個false positive。因此, 對于一個確定的位數(shù)組來說,它能夠接受總共n+(u-n)個元素。在n+(u-n)個元素中,s真 正表示的只有其中n個,所以一個確定的位數(shù)組可以表示
個集合,L位的位數(shù) 組共有f個不同的組合,進而可以推出,L位的位數(shù)組可以表示
個集合,敏感 詞庫中n個元素的集合總共有
個,因此,要讓1位的位數(shù)組能夠表示所有n個敏感詞的 集合,必須有
,也即:
[0132] 上述公式中近似的前提是n與u相比很小,這也是實際情況中常常發(fā)生的,根據(jù)上 述公式,我們得出的結(jié)論:在錯誤率不大于e的情況下,L至少要等于nlog2(l/e)才能表 示任意n個敏感詞的敏感詞庫,所以服務器選擇的預定陣列的長度至少為nlog2(l/e),本 實施例在此不再贅述。
[0133] 請參考圖4,其示出了本發(fā)明一個實施例提供的敏感詞判定方法的方法流程圖,該 敏感詞判定方法包括:
[0134] 步驟401,根據(jù)至少兩個預定哈希函數(shù)以及敏感詞庫中的各個敏感詞構(gòu)建預定陣 列;
[0135] 為了后續(xù)步驟的執(zhí)行,服務器可以根據(jù)至少兩個預定哈希函數(shù)以及敏感詞庫中的 各個敏感詞構(gòu)建預定陣列。
[0136] 具體的,服務器構(gòu)建預定陣列的步驟可以包括:
[0137] 第一,選擇一個預定長度的空陣列;
[01