两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

文本提取方法、敏感詞判定方法、裝置和服務器的制造方法_4

文檔序號:8922569閱讀:來源:國知局
38] 為了后續(xù)步驟的執(zhí)行,服務器可以先選擇一個預定長度的空陣列。
[0139] 第二,對于敏感庫中的每一個敏感詞,通過至少兩個預定哈希函數(shù)中的每一個哈 希函數(shù)對敏感詞進行哈希計算,并在計算得到的哈希值所對應的位置存儲預定標識,將存 入預定標識之后的陣列作為預定陣列。
[0140] 需要說明的是,本步驟與上述實施例中的步驟201類似,詳細技術細節(jié)請參考步 驟201,本實施例在此不再贅述。
[0141] 步驟402,對于關鍵詞庫中的每一個關鍵詞,通過至少兩個預定哈希函數(shù)中的每一 個哈希函數(shù)分別計算關鍵詞在預定陣列中所對應的位置;
[0142] 對于關鍵詞庫中的每一個關鍵詞,服務器可以通過至少兩個哈希函數(shù)中的每一個 哈希函數(shù)分別計算關鍵詞在預定陣列中所對應的位置。
[0143] 其中,預定陣列為目標位置處存儲有預定標識的陣列,目標位置為通過至少兩個 預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計算得到 的哈希值在預定陣列中所對應的位置。
[0144] 需要說明的一點是,為了減小預定陣列所占據(jù)的存儲空間,進而減小占用的內存, 在實際實現(xiàn)時預定標識可以是一個預定比特;當然,當無需考慮內存占用情況時,預定標識 還可以是任意內容,本實施例對預定標識的具體表示形式并不做限定。
[0145] 需要說明的另一點時,本實施例中計算關鍵詞庫中的關鍵詞在預定陣列中所對應 的位置的計算方式與上述實施例中計算服務器提取得到的關鍵詞在預定陣列中所對應的 位置的計算方式類似,具體技術細節(jié)請參考上述實施例中的步驟203,本實施例在此不再贅 述。
[0146] 步驟403,檢測關鍵詞在預定陣列中所對應的位置處存儲的內容是否都是預定標 識;
[0147] 在服務器計算得到關鍵詞在預定陣列中所對應的位置后,服務器可以檢測關鍵詞 在預定陣列中所對應的位置處存儲的內容是否都是預定標識。
[0148] 步驟404,若檢測結果為都是預定標識,則判定關鍵詞為敏感詞。
[0149] 由于不同的哈希函數(shù)在對不同的關鍵詞進行多次哈希計算時,計算得到的多個哈 希值都相同的概率極小甚至根本不可能,所以當服務器的檢測結果為關鍵詞在預定陣列中 所對應的位置處存儲的內容都是預定標識時,服務器可以判定該關鍵詞就是敏感詞庫中的 敏感詞。
[0150] 而由于同一詞語在使用多個哈希函數(shù)進行多次哈希計算時,每次計算得到的哈希 值都不會變化,所以當服務器的檢測結果為至少一處存儲的內容不是預定標識時,服務器 可以判定其它幾處存儲的內容是預定標識可能是因為哈希沖突引起的,而關鍵詞本身并不 是該位置所對應的敏感詞,所以服務器可以判定關鍵詞不是敏感詞。
[0151] 綜上所述,本實施例提供的敏感詞判定方法,對于對關鍵詞庫中的每一個關鍵詞, 通過至少兩個哈希函數(shù)中的每一個哈希函數(shù)分別計算每一個關鍵詞在預定陣列中所對應 的位置,進而檢測關鍵詞在預定陣列中所對應的位置處存儲的內容是否都是預定標識,當 檢測結果為都是預定標識時,判定關鍵詞為敏感詞;其中,預定陣列為目標位置處存儲有 預定標識的陣列,目標位置為通過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫 中的每個敏感詞進行哈希計算后,計算得到的哈希值在預定陣列中所對應的位置;解決了
【背景技術】中在判斷某一關鍵詞是否是敏感詞時,服務器可能需要處理哈希沖突之后才能最 終確定,進而導致的敏感詞的判定效率低的問題;達到了當通過多個哈希函數(shù)計算得到的 關鍵詞在預定陣列中所對應的位置處存儲的內容都是預定標識時,即可判定關鍵詞是敏感 詞,提高了敏感詞的判定效率的效果。
[0152] 請參考圖5,其示出了本發(fā)明一個實施例提供的文本提取裝置的結構方框圖,該文 本提取裝置可以通過軟件、硬件或者兩者的組合實現(xiàn)成為服務器中的全部或者部分,該文 本提取裝置可以包括:關鍵詞提取模塊510、位置計算模塊520、內容檢測模塊530、敏感詞 判定模塊540和文本提取模塊550 ;
[0153] 關鍵詞提取模塊510,用于對于文本集合中的每一條文本信息,提取文本信息中的 關鍵詞;
[0154] 位置計算模塊520,用于對于所述關鍵詞提取模塊510提取到的每一個關鍵詞,通 過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)分別計算所述關鍵詞在預定陣列中所對應 的位置,所述預定陣列為目標位置處存儲有預定標識的陣列,所述目標位置為通過所述至 少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計 算得到的哈希值在所述預定陣列中所對應的位置;
[0155] 內容檢測模塊530,用于檢測所述關鍵詞在所述預定陣列中所對應的位置處存儲 的內容是否都是所述預定標識;
[0156] 敏感詞判定模塊540,用于在所述內容檢測模塊530的檢測結果為都是所述預定 標識時,判定所述關鍵詞為敏感詞;
[0157] 文本提取模塊550,用于提取所述文本集合中不包含敏感詞的文本信息。
[0158] 綜上所述,本實施例提供的文本提取裝置,通過提取文本集合中的每個文本信息 中的關鍵詞,對于每一個關鍵詞,通過至少兩個哈希函數(shù)中的每一個哈希函數(shù)分別計算每 一個關鍵詞在預定陣列中所對應的位置,進而檢測關鍵詞在預定陣列中所對應的位置處存 儲的內容是否都是預定標識,當檢測結果為都是預定標識時,判定關鍵詞為敏感詞,進而提 取文本集合中不包含敏感詞的文本信息;其中,預定陣列為目標位置處存儲有預定標識的 陣列,目標位置為通過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏 感詞進行哈希計算后,計算得到的哈希值在預定陣列中所對應的位置;解決了【背景技術】中 服務器提取文本信息的提取效率較低的問題;達到了當通過多個哈希函數(shù)計算得到的關鍵 詞在預定陣列中所對應的位置處存儲的內容都是預定標識時,即可判定關鍵詞是敏感詞, 提_ 了文本彳目息的提取效率的效果。
[0159] 請參考圖6,其示出了本發(fā)明另一實施例提供的文本提取裝置的結構方框圖,該文 本提取裝置可以通過軟件、硬件或者兩者的組合實現(xiàn)成為服務器中的全部或者部分,該文 本提取裝置可以包括:關鍵詞提取模塊610、位置計算模塊620、內容檢測模塊630、敏感詞 判定模塊640和文本提取模塊650 ;
[0160] 關鍵詞提取模塊610,用于對于文本集合中的每一條文本信息,提取文本信息中的 關鍵詞;
[0161] 位置計算模塊620,用于對于所述關鍵詞提取模塊610提取到的每一個關鍵詞,通 過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)分別計算所述關鍵詞在預定陣列中所對應 的位置,所述預定陣列為目標位置處存儲有預定標識的陣列,所述目標位置為通過所述至 少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計 算得到的哈希值在所述預定陣列中所對應的位置;
[0162] 內容檢測模塊630,用于檢測所述關鍵詞在所述預定陣列中所對應的位置處存儲 的內容是否都是所述預定標識;
[0163] 敏感詞判定模塊640,用于在所述內容檢測模塊630的檢測結果為都是所述預定 標識時,判定所述關鍵詞為敏感詞;
[0164] 文本提取模塊650,用于提取所述文本集合中不包含敏感詞的文本信息。
[0165] 在本實施例的第一種可能的實現(xiàn)方式中,若提取得到的所述文本信息有兩條或者 兩條以上,所述裝置還包括:得分計算模塊660、文本排名模塊670和文本選擇模塊680 ;
[0166] 得分計算模塊660,用于根據(jù)預定評分項計算所述兩條或者兩條以上的文本信息 中的每一條文本信息的得分,所述預定評分項包括文本信息的特征信息、文本信息的信息 量和文本信息的活躍度中的至少一種;
[0167] 文本排名模塊670,用于根據(jù)所述得分計算模塊660計算得到的所述兩條或者兩 條以上的文本信息的得分對所述兩條或者兩條以上的文本信息進行排名;
[0168] 文本選擇模塊680,用于選擇所述兩條或者兩條以上的文本信息中排名在前n位 的文本信息,所述n為正整數(shù)。
[0169] 在本實施例的第二種可能的實現(xiàn)方式中,所述得分計算模塊660,包括:
[0170] 第一計算單元661,用于在所述預定評分項包括文本信息的特征信息時,獲取每一 條文本信息的特征信息,所述特征信息包括文本信息的內容、文本信息中的鏈接地址、文本 信息被轉播的次數(shù)、文本信息被評論的次數(shù)以及文本信息被瀏覽的次數(shù)中的至少一種,根 據(jù)所述特征信息計算每一條文本信息的第一得分;
[0171] 第二計算單元662,用于在所述預定評分項包括文本信息的信息量時,計算每一條 文本信息中的每一個關鍵詞的權值,計算每一條文本信息中所有關鍵詞的權值之和,根據(jù) 第一關聯(lián)關系計算每一條文本信息的第二得分,所述第一關聯(lián)關系為文本信息中的所有關 鍵詞的權值之和與所述第二得分呈正相關關系;
[0172] 第三計算單元663,用于在所述預定評分項包括文本信息的活躍度時,獲取每一條 文本信息的活躍參數(shù),所述活躍參數(shù)包括文本信息被轉播的次數(shù)、文本信息被評論的次數(shù) 以及文本信息被瀏覽的次數(shù)中的至少一種,根據(jù)所述活躍參數(shù)計算每一條文本信息的第三 得分;
[0173] 得分計算單元664,用于根據(jù)所述第一得分、所述第二得分和所述第三得分中的至 少一種以及各自對應的權重計算所述兩條或者兩條以上的文本信息中的每一條文本信息 的得分。
[0174] 在本實施例的第三種可能的實現(xiàn)方式中,
[0175] 所述第二計算單元662,還用于在關鍵詞i的權值為Wu、詞頻為TFu以及逆文檔 頻率為IDFu時,所述關鍵詞i的權值為:
[0176] ff. ^TF.^IDF.j;
[0177] 其中,所述i和j均為正整數(shù)。
[0178] 綜上所述,本實施例提供的文本提取裝置,通過提取文本集合中的每個文本信息 中的關鍵詞,對于每一個關鍵詞,通過至少兩個哈希函數(shù)中的每一個哈希函數(shù)分別計算每 一個關鍵詞在預定陣列中所對應的位置,進而檢測關鍵詞在預定陣列中所對應的位置處存 儲的內容是否都是預定標識,當檢測結果為都是預定標識時,判定關鍵詞為敏感詞,進而提 取文本集合中不包含敏感詞的文本信息;其中,預定陣列為目標位置處存儲有預定標識的 陣列,目標位置為通過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏 感詞進行哈希計算后,計算得到的哈希值在預定陣列中所對應的位置;解決了【背景技術】中 服務器提取文本信息的提取效率較低的問題;達到了當通過多個哈希函數(shù)計算得到的關鍵 詞在預定陣列中所對應的位置處存儲的內容都是預定標識時,即可判定關鍵詞是敏感詞, 提_ 了文本彳目息的提取效率的效果。
[0179] 本實施例在提取得到的文本信息有兩條或者兩條以上時,服務器繼續(xù)對提取得到 的每一條文本信息進行評分,進而選擇評分排名在前n位的文本信息,提高了提取得到的 文本信息的質量。
[0180] 請參考圖7,其示出了本發(fā)明一個實施例提供的敏感詞判定裝置的結構方框圖, 該敏感詞判定裝置可以通過軟件、硬件
當前第4頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
吴忠市| 彭阳县| 那坡县| 东宁县| 清徐县| 泸西县| 财经| 兴文县| 视频| 芦溪县| 资兴市| 永寿县| 本溪| 桃源县| 宁明县| 新乡市| 桃源县| 鹰潭市| 正镶白旗| 高台县| 满城县| 都江堰市| 麻城市| 宜都市| 宁晋县| 雷波县| 肇源县| 饶平县| 峨眉山市| 界首市| 南宁市| 宣汉县| 长岭县| 灯塔市| 新竹县| 汕头市| 繁昌县| 老河口市| 博罗县| 扎囊县| 屯留县|