文本提取方法、敏感詞判定方法、裝置和服務器的制造方法
【技術領域】
[0001] 本發(fā)明實施例涉及互聯(lián)網(wǎng)技術領域,特別涉及一種文本提取方法、敏感詞判定方 法、裝置和服務器。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的發(fā)展,用戶可以發(fā)布文本信息,并且為了向其它用戶展示用戶 發(fā)布的各條文本信息中價值較高的文本信息,服務器通常需要提取多條文本信息中的一部 分文本信息,進而向其它用戶展示提取到的文本信息。
[0003] 目前,常見的一種文本提取方法包括:服務器獲取目標用戶最近一次發(fā)布的文本 信息;提取文本信息中的關鍵詞;對于提取得到的每個關鍵詞,通過預定哈希函數(shù)計算關 鍵詞的哈希值;檢測計算得到的哈希值在哈希表中所對應的存儲空間中存儲的內容是否是 該關鍵詞;若檢測結果為存儲的內容是該關鍵詞,則確定該關鍵詞是敏感詞;若檢測結果 為存儲的內容為空,則確定該關鍵詞不是敏感詞;當服務器檢測到文本信息中有一個關鍵 詞是敏感詞時,服務器拋棄本條文本信息,并繼續(xù)對歷史發(fā)布的其它文本信息進行檢測,直 至提取到目標文本信息,目標文本信息中的各個關鍵詞都不是敏感詞。其中,哈希表是指通 過上述哈希函數(shù)對敏感詞庫中的各個敏感詞進行哈希計算之后,將敏感詞存儲在計算得到 的哈希值所對應的位置后建立的表格。
[0004] 在實現(xiàn)本發(fā)明實施例的過程中,發(fā)明人發(fā)現(xiàn)【背景技術】至少存在如下問題:
[0005] 由于在哈希計算時會存在哈希沖突,所以當服務器對某一關鍵詞進行檢測時,月艮 務器可能會檢測到計算得到某一關鍵詞的哈希值所對應的存儲空間不為空且存儲的內容 也不是關鍵詞的情況,此時服務器就需要處理哈希沖突之后才能最終判斷該關鍵詞是否是 敏感詞,所以服務器提取文本信息的提取效率較低。
【發(fā)明內容】
[0006] 為了解決【背景技術】中服務器提取文本信息時的提取效率較低的問題,本發(fā)明實施 例提供了一種文本提取方法、敏感詞判定方法、裝置和服務器。所述技術方案如下:
[0007] 第一方面,提供了一種文本提取方法,所述方法包括:
[0008] 對于文本集合中的每一條文本信息,提取文本信息中的關鍵詞;
[0009] 對于提取到的每一個關鍵詞,通過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)分 別計算所述關鍵詞在預定陣列中所對應的位置,所述預定陣列為目標位置處存儲有預定標 識的陣列,所述目標位置為通過所述至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞 庫中的每個敏感詞進行哈希計算后,計算得到的哈希值在所述預定陣列中所對應的位置;
[0010] 檢測所述關鍵詞在所述預定陣列中所對應的位置處存儲的內容是否都是所述預 定標識;
[0011] 若檢測結果為都是所述預定標識,則判定所述關鍵詞為敏感詞;
[0012] 提取所述文本集合中不包含敏感詞的文本信息。
[0013] 第二方面,提供了一種敏感詞判定方法,所述方法包括:
[0014] 對于關鍵詞庫中的每一個關鍵詞,通過至少兩個預定哈希函數(shù)中的每一個哈希函 數(shù)分別計算所述關鍵詞在預定陣列中所對應的位置,所述預定陣列為目標位置處存儲有預 定標識的陣列,所述目標位置為通過所述至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏 感詞庫中的每個敏感詞進行哈希計算后,計算得到的哈希值在所述預定陣列中所對應的位 置;
[0015] 檢測所述關鍵詞在所述預定陣列中所對應的位置處存儲的內容是否都是所述預 定標識;
[0016] 若檢測結果為都是所述預定標識,則判定所述關鍵詞為敏感詞。
[0017] 第三方面,提供了一種文本提取裝置,所述裝置包括:
[0018] 關鍵詞提取模塊,用于對于文本集合中的每一條文本信息,提取文本信息中的關 鍵詞;
[0019] 位置計算模塊,用于對于所述關鍵詞提取模塊提取到的每一個關鍵詞,通過至少 兩個預定哈希函數(shù)中的每一個哈希函數(shù)分別計算所述關鍵詞在預定陣列中所對應的位置, 所述預定陣列為目標位置處存儲有預定標識的陣列,所述目標位置為通過所述至少兩個預 定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計算得到的 哈希值在所述預定陣列中所對應的位置;
[0020] 內容檢測模塊,用于檢測所述關鍵詞在所述預定陣列中所對應的位置處存儲的內 容是否都是所述預定標識;
[0021] 敏感詞判定模塊,用于在所述內容檢測模塊的檢測結果為都是所述預定標識時, 判定所述關鍵詞為敏感詞;
[0022] 文本提取模塊,用于提取所述文本集合中不包含敏感詞的文本信息。
[0023] 第四方面,提供了一種敏感詞判定裝置,所述裝置包括:
[0024] 位置計算模塊,用于對于關鍵詞庫中的每一個關鍵詞,通過至少兩個預定哈希函 數(shù)中的每一個哈希函數(shù)分別計算所述關鍵詞在預定陣列中所對應的位置,所述預定陣列為 目標位置處存儲有預定標識的陣列,所述目標位置為通過所述至少兩個預定哈希函數(shù)中的 每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計算得到的哈希值在所述預 定陣列中所對應的位置;
[0025] 內容檢測模塊,用于檢測所述關鍵詞在所述預定陣列中所對應的位置處存儲的內 容是否都是所述預定標識;
[0026] 敏感詞判定模塊,用于在所述內容檢測模塊的檢測結果為都是所述預定標識時, 判定所述關鍵詞為敏感詞。
[0027] 第五方面,提供了一種服務器,所述服務器包括第三方面所述的文本提取裝置。
[0028] 第六方面,提供了一種服務器,所述服務器包括第四方面所述的敏感詞判定裝置。
[0029] 本發(fā)明實施例提供的技術方案的有益效果是:
[0030] 通過提取文本集合中的每個文本信息中的關鍵詞,對于每一個關鍵詞,通過至少 兩個哈希函數(shù)中的每一個哈希函數(shù)分別計算每一個關鍵詞在預定陣列中所對應的位置,進 而檢測關鍵詞在預定陣列中所對應的位置處存儲的內容是否都是預定標識,當檢測結果為 都是預定標識時,判定關鍵詞為敏感詞,進而提取文本集合中不包含敏感詞的文本信息;其 中,預定陣列為目標位置處存儲有預定標識的陣列,目標位置為通過至少兩個預定哈希函 數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計算得到的哈希值在 預定陣列中所對應的位置;解決了【背景技術】中服務器提取文本信息的提取效率較低的問 題;達到了當通過多個哈希函數(shù)計算得到的關鍵詞在預定陣列中所對應的位置處存儲的內 容都是預定標識時,即可判定關鍵詞是敏感詞,提高了文本信息的提取效率的效果。
【附圖說明】
[0031] 為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0032] 圖1是本發(fā)明一個實施例提供的文本提取方法的方法流程圖;
[0033] 圖2是本發(fā)明另一個實施例提供的文本提取方法的方法流程圖;
[0034] 圖3是本發(fā)明再一個實施例提供的文本提取方法的方法流程圖;
[0035] 圖4是本發(fā)明一個實施例提供的敏感詞判定方法的方法流程圖;
[0036] 圖5是本發(fā)明一個實施例提供的文本提取裝置的結構方框圖;
[0037] 圖6是本發(fā)明另一實施例提供的文本提取裝置的結構方框圖;
[0038] 圖7是本發(fā)明一個實施例提供的敏感詞判定裝置的結構方框圖。
【具體實施方式】
[0039] 為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明作進 一步地詳細描述,顯然,所描述的實施例僅僅是本發(fā)明一部份實施例,而不是全部的實施 例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的 所有其它實施例,都屬于本發(fā)明保護的范圍。
[0040] 為了避免在哈希計算時關鍵詞與某一敏感詞的哈希值相同時,服務器需要先處理 哈希沖突然后才能判定該關鍵詞是否是敏感詞,敏感詞的判定效率較低,也即文本信息的 提取效率低的問題,發(fā)明人提出同時使用至少兩個哈希函數(shù)中的每一個哈希函數(shù)對關鍵詞 進行判定,進而提高文本信息的提取效率的解決方案。具體的,服務器先通過至少兩個哈希 函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行計算,并在計算得到的哈希值所 對應的位置處直接存儲預定標識。當需要對某一關鍵詞進行判定時,服務器使用相同的哈 希函數(shù)對關鍵詞進行計算,并在檢測到計算得到的哈希值所對應的位置都存儲有預定標識 時,直接將該關鍵詞判定為敏感詞;而只要檢測到有一處位置存儲的內容不是預定標識,月艮 務器即可判定該關鍵詞所對應的其它位置會存儲有預定標識很可能是因為哈希沖突引起 的,所以服務器可以直接將該關鍵詞判定為敏感詞;所以在發(fā)明人提供的方案中,服務器可 以很容易的判定一個關鍵詞是否是敏感詞,而不需要在處理哈希沖突之后才能得到最終判 定結果,達到了提高敏感詞的判定效率,也即提高了文本信息的提取效率的效果。下面,將 結合具體的實施例對發(fā)明人提供的這種方案進行詳細介紹和說明。
[0041] 請參考圖1,其示出了本發(fā)明一個實施例提供的文本提取方法的方法流程圖,該文 本提取方法可以包括:
[0042] 步驟101,對于文本集合中的每一條文本信息,提取文本信息中的關鍵詞;
[0043] 步驟102,對于提取到的每一個關鍵詞,通過至少兩個預定哈希函數(shù)中的每一個哈 希函數(shù)分別計算關鍵詞在預定陣列中所對應的位置;
[0044] 其中,預定陣列為目標位置處存儲有預定標識的陣列,目標位置為通過至少兩個 預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏感詞進行哈希計算后,計算得到 的哈希值在預定陣列中所對應的位置。
[0045] 步驟103,檢測關鍵詞在預定陣列中所對應的位置處存儲的內容是否都是預定標 識;
[0046] 步驟104,若檢測結果為都是預定標識,則判定關鍵詞為敏感詞;
[0047] 步驟105,提取文本集合中不包含敏感詞的文本信息。
[0048] 綜上所述,本實施例提供的文本提取方法,通過提取文本集合中的每個文本信息 中的關鍵詞,對于每一個關鍵詞,通過至少兩個哈希函數(shù)中的每一個哈希函數(shù)分別計算每 一個關鍵詞在預定陣列中所對應的位置,進而檢測關鍵詞在預定陣列中所對應的位置處存 儲的內容是否都是預定標識,當檢測結果為都是預定標識時,判定關鍵詞為敏感詞,進而提 取文本集合中不包含敏感詞的文本信息;其中,預定陣列為目標位置處存儲有預定標識的 陣列,目標位置為通過至少兩個預定哈希函數(shù)中的每一個哈希函數(shù)對敏感詞庫中的每個敏 感詞進行哈希計算后,計算得到的哈希值在預定陣列中所對應的位置;解決了【背景技術】中 服務器提取文本信息的提取效率較低的問題;達到了當通過多個哈希函數(shù)計算得到的關鍵 詞在預定陣列中所對應的位置處存儲的內容都是預定標識時,即可判定關鍵詞是敏感詞, 提_ 了文本彳目息的提取效率的效果。
[00