一種含敏感度計(jì)算的網(wǎng)頁過濾方法
【專利摘要】本發(fā)明涉及一種含敏感度計(jì)算的網(wǎng)頁過濾方法,屬于信息過濾【技術(shù)領(lǐng)域】。本發(fā)明通包括步驟:S1,實(shí)驗(yàn)語料庫收集;S2,語料庫的構(gòu)建及敏感信息語料庫的構(gòu)建;S3,頁面信息預(yù)處理;S4,頁面詞語總數(shù)統(tǒng)計(jì)及敏感詞語總數(shù)統(tǒng)計(jì);S5,頁面敏感度的判斷。本發(fā)明采用含頁面敏感度計(jì)算的搜索結(jié)果中有效地剔除了敏感信息,且根據(jù)當(dāng)前頁面的鏈接計(jì)算該鏈接所含信息的敏感度,從而可以深度挖掘敏感信息并予以避免;通過閾值的控制以及敏感度的計(jì)算可有效地將不同暴力指數(shù)的暴力游戲頁面顯示出來,從而可以有效地控制不同級別或年齡段人群的需求。
【專利說明】一種含敏感度計(jì)算的網(wǎng)頁過濾方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種含敏感度計(jì)算的網(wǎng)頁過濾方法,屬于信息過濾【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]敏感信息過濾是當(dāng)前自然語言處理研究中的熱點(diǎn)問題之一,如何判斷一個(gè)文本或網(wǎng)頁信息中是否含有敏感性信息問題,是當(dāng)前搜索引擎以及社交網(wǎng)絡(luò)研究的關(guān)鍵問題。目前網(wǎng)絡(luò)環(huán)境中充斥著大量違背倫理道德、社會(huì)安定等信息。
[0003]為了凈化網(wǎng)絡(luò)環(huán)境,已經(jīng)出現(xiàn)了很多敏感性詞匯過濾的方法。通常在敏感信息過濾中,敏感詞庫的收集、敏感詞過濾的方法、對應(yīng)語料庫和敏感詞庫的組織結(jié)構(gòu)以及敏感詞的匹配策略均是敏感信息過濾的重要組成部分,其直接影響敏感信息過濾的準(zhǔn)確率和效率。通常人們?yōu)榱吮苊饷舾性~過濾而主觀地加上一些如〃$、&、*〃等一些特殊字符。一般的敏感信息過濾算法遇到這種情況則無法判斷該詞是否為敏感詞、從而可通過人為干預(yù)避開過濾算法的作用。普通的敏感信息過濾策略通過捕獲頁面信息中的敏感詞,只要含有敏感詞匯均不予以顯現(xiàn)。從安全控制級別以及信息需要的角度來看,這種策略不能靈活地修改控制力度。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供了一種含敏感度計(jì)算的網(wǎng)頁過濾方法,以用于解決普通的過濾算法不能靈活地修改控制力度的問題。
[0005]本發(fā)明的技術(shù)方案是:一種含敏感度計(jì)算的網(wǎng)頁過濾方法,所述網(wǎng)頁過濾方法的具體步驟如下:
A、實(shí)驗(yàn)語料庫收集:收集敏感詞作為敏感詞語料庫;收集敏感詞及非敏感詞作為語料庫,將敏感詞語料庫添加到語料庫中形成新的語料庫;
B、語料庫的構(gòu)建及敏感信息語料庫的構(gòu)建:根據(jù)語料庫及敏感信息語料庫規(guī)模的不同分別以不同的組織結(jié)構(gòu)存放在內(nèi)存里:其敏感信息語料庫規(guī)模較小,采用List結(jié)構(gòu);語料庫規(guī)模較大,采用Trie樹結(jié)構(gòu);
C、頁面信息預(yù)處理:首先對頁面信息進(jìn)行URL鏈接提取,用以獲取二級頁面信息,將當(dāng)前頁面和二級頁面信息進(jìn)行無效詞語及符號(hào)刪除;
D、頁面詞語總數(shù)統(tǒng)計(jì)及敏感詞語總數(shù)統(tǒng)計(jì):
將頁面信息的分詞結(jié)果與語料庫一一比對,把匹配到的詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl, vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有詞語出現(xiàn)的總次數(shù)Ta ;
將頁面信息的分詞結(jié)果與敏感信息語料庫一一比對,把匹配到的敏感詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl,vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有敏感詞語出現(xiàn)的總次數(shù)Ts ;
E、頁面敏感度的判斷:根據(jù)頁面所有詞語出現(xiàn)的總次數(shù)7;和所有敏感詞語出現(xiàn)的總次數(shù)Ts,計(jì)算敏感度S二 arcsin、TjTa\并將S與閾值Vs進(jìn)行比較:
如果K > &則說明頁面信息敏感度沒有超過閾值,顯示頁面信息;
如果K ( A則說明頁面信息敏感度超過了閾值,不顯示頁面信息。
[0006]所述無效詞語及符號(hào)包括語氣助詞以及數(shù)字。
[0007]所述閾值匕的取值范圍為0-1。
[0008]本發(fā)明的有益效果是:采用含頁面敏感度計(jì)算的搜索結(jié)果中有效地剔除了敏感信息,且根據(jù)當(dāng)前頁面的鏈接計(jì)算該鏈接所含信息的敏感度,從而可以深度挖掘敏感信息并予以避免;通過閾值的控制以及敏感度的計(jì)算可有效地將不同暴力指數(shù)的暴力游戲頁面顯示出來,從而可以有效地控制不同級別或年齡段人群的需求。
【專利附圖】
【附圖說明】
[0009]圖1為本發(fā)明的流程圖。
【具體實(shí)施方式】
[0010]實(shí)施例1:如圖1所示,一種含敏感度計(jì)算的網(wǎng)頁過濾方法,所述網(wǎng)頁過濾方法的具體步驟如下:
A、實(shí)驗(yàn)語料庫收集:收集敏感詞作為敏感詞語料庫;收集敏感詞及非敏感詞作為語料庫,將敏感詞語料庫添加到語料庫中形成新的語料庫;
B、語料庫的構(gòu)建及敏感信息語料庫的構(gòu)建:根據(jù)語料庫及敏感信息語料庫規(guī)模的不同分別以不同的組織結(jié)構(gòu)存放在內(nèi)存里:其敏感信息語料庫規(guī)模較小,采用List結(jié)構(gòu);語料庫規(guī)模較大,采用Trie樹結(jié)構(gòu);
C、頁面信息預(yù)處理:首先對頁面信息進(jìn)行URL鏈接提取,用以獲取二級頁面信息,將當(dāng)前頁面和二級頁面信息進(jìn)行無效詞語及符號(hào)刪除;
D、頁面詞語總數(shù)統(tǒng)計(jì)及敏感詞語總數(shù)統(tǒng)計(jì):
將頁面信息的分詞結(jié)果與語料庫一一比對,把匹配到的詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl, vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有詞語出現(xiàn)的總次數(shù)Ta ;
將頁面信息的分詞結(jié)果與敏感信息語料庫一一比對,把匹配到的敏感詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl,vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有敏感詞語出現(xiàn)的總次數(shù)Ts ;
E、頁面敏感度的判斷:根據(jù)頁面所有詞語出現(xiàn)的總次數(shù)7;和所有敏感詞語出現(xiàn)的總次數(shù)Ts,計(jì)算敏感度S二 arcsin、TjTa\并將S與閾值Vs進(jìn)行比較:
如果K > &則說明頁面信息敏感度沒有超過閾值,顯示頁面信息;
如果K ( A則說明頁面信息敏感度超過了閾值,不顯示頁面信息。
[0011]所述無效詞語及符號(hào)包括語氣助詞以及數(shù)字。[0012]所述閾值匕的取值范圍為0-1。
[0013]實(shí)施例2:如圖1所示,一種含敏感度計(jì)算的網(wǎng)頁過濾方法,所述網(wǎng)頁過濾方法的具體步驟如下:
A、實(shí)驗(yàn)語料庫收集:收集敏感詞作為敏感詞語料庫;收集敏感詞及非敏感詞作為語料庫,將敏感詞語料庫添加到語料庫中形成新的語料庫;
B、語料庫的構(gòu)建及敏感信息語料庫的構(gòu)建:根據(jù)語料庫及敏感信息語料庫規(guī)模的不同分別以不同的組織結(jié)構(gòu)存放在內(nèi)存里:其敏感信息語料庫規(guī)模較小,采用List結(jié)構(gòu);語料庫規(guī)模較大,采用Trie樹結(jié)構(gòu);
C、頁面信息預(yù)處理:首先對頁面信息進(jìn)行URL鏈接提取,用以獲取二級頁面信息,將當(dāng)前頁面和二級頁面信息進(jìn)行無效詞語及符號(hào)刪除;
D、頁面詞語總數(shù)統(tǒng)計(jì)及敏感詞語總數(shù)統(tǒng)計(jì):
將頁面信息的分詞結(jié)果與語料庫一一比對,把匹配到的詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl, vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有詞語出現(xiàn)的總次數(shù)Ta ;
將頁面信息的分詞結(jié)果與敏感信息語料庫一一比對,把匹配到的敏感詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl,vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有敏感詞語出現(xiàn)的總次數(shù)Ts ;
E、頁面敏感度的判斷:根據(jù)頁面所有詞語出現(xiàn)的總次數(shù)7;和所有敏感詞語出現(xiàn)的總次數(shù)Ts,計(jì)算敏感度S二 arcsin、TjTa\并將S與閾值Vs進(jìn)行比較:
如果K > &則說明頁面信息敏感度沒有超過閾值,顯示頁面信息;
如果K ( A則說明頁面信息敏感度超過了閾值,不顯示頁面信息。
[0014]所述無效詞語及符號(hào)包括語氣助詞以及數(shù)字。
[0015]所述閾值匕的取值范圍為0-1。
[0016]所述方法的具體實(shí)施步驟為:
步驟s1:實(shí)驗(yàn)語料庫收集。
[0017]實(shí)驗(yàn)訓(xùn)練語料庫來源于兩部分:第一部分是1998年人民日報(bào)的切分預(yù)料(約19980122個(gè)漢字,含重復(fù)字,其中包含環(huán)境、人文、交通、社會(huì)、經(jīng)濟(jì)、體育、藝術(shù)、政治、犯罪、外交、生活等多個(gè)方面的信息)作為語料庫;第二部分是通過爬取和暴力、反動(dòng)、色情、恐怖、賭博、教唆犯罪等相關(guān)的頁面信息(一共爬取了 100000個(gè)頁面)作為敏感信息語料庫;將得到的敏感信息語料庫添加到語料庫中,以形成新的語料庫。
[0018]步驟s2:語料庫(上述新的語料庫)的構(gòu)建及敏感信息語料庫的構(gòu)建。
[0019]語料庫的構(gòu)建結(jié)構(gòu)取決于訓(xùn)練得到的字典規(guī)模。
[0020]Trie樹結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)可有效減少分詞處理詞語匹配時(shí)對整個(gè)語料庫的掃描。它首先對詞語首字匹配,若匹配到對應(yīng)的字則將首字設(shè)為root進(jìn)行下一個(gè)字的匹配,若首字不匹配則說明以該字為首的詞語也不可能匹配,從而可以大大減少匹配詞語時(shí)的時(shí)間消耗。Trie樹搜索算法在最壞情況下的時(shí)間復(fù)雜度為0(level), level是Trie樹的層數(shù)。
[0021]敏感信息語料庫的構(gòu)建。敏感信息語料庫與前面的語料庫主要的不同之處在于它的規(guī)模較語料庫要小很多,其屬于前面的語料庫的一部分,但不含詞頻。主要是用與分詞后敏感信息的提取,以獲取頁面中的敏感信息。敏感信息語料庫采用Python List結(jié)構(gòu)存儲(chǔ)在內(nèi)存中,主要是因?yàn)镻ython的List結(jié)構(gòu)提供了不同的數(shù)據(jù)類型支持以及豐富的API,且在數(shù)據(jù)規(guī)模較小的情況下,判斷List中是否含有某一元素效率極高。
[0022]步驟s3:頁面信息預(yù)處理。利用Python開源組件BeautifulSoup中的prettify函數(shù)來格式化頁面信息,通過在頁面信息中查找標(biāo)簽’ <a>’開頭的語句定位url鏈接所處的位置,然后通過獲取以’<a>’開始的信息中’href’后面的鏈接來獲取當(dāng)前頁面信息中的所有url鏈接。根據(jù)當(dāng)前頁面URL鏈接獲取該些鏈接所指頁面信息。除掉獲取到的頁面信息中無用的詞語(如:啊、的、得、呢等)及阿拉伯?dāng)?shù)字(0-9)。
[0023]步驟s4:頁面詞語總數(shù)統(tǒng)計(jì)及敏感詞語總數(shù)統(tǒng)計(jì)(包括當(dāng)前頁面及二級頁面信息)。通過Trie樹查找算法將頁面中的信息分詞后,存儲(chǔ)在Python Dictionary結(jié)構(gòu)中,其Dictionary中元素的組織結(jié)構(gòu)為:{key:value,...},采用以頁面信息中的詞語為key,詞語出現(xiàn)的次數(shù)為value,根據(jù)Dictionary的特點(diǎn)(key值不能為重復(fù)值這一特性),對于重復(fù)的key,通過對Dictionary中key的value值加1來統(tǒng)計(jì)詞語出現(xiàn)的次數(shù)。判斷某一敏感詞是否重復(fù)出現(xiàn)來統(tǒng)計(jì)該敏感詞出現(xiàn)的詞頻: 設(shè)某敏感詞為K1,第一次出現(xiàn)K1時(shí),其保存的數(shù)據(jù)結(jié)構(gòu)為{K1:1},若下一個(gè)敏感詞仍為K1時(shí),Dictionary的結(jié)構(gòu)為{Kl:2}即將value增加1,否則保存為{K2:l},依次類推。為了方便計(jì)算詞語的總次數(shù),將Dictionary中的{keyl: valuel, key2: value2,...}結(jié)構(gòu)轉(zhuǎn)換為逆序嵌套List,即為[[wl, vl], [w2, v2],...]結(jié)構(gòu),采用經(jīng)過由Dictionary轉(zhuǎn)換而來的List存儲(chǔ)格式可以極大地減少空間的浪費(fèi),可方便地統(tǒng)計(jì)某敏感詞出現(xiàn)的次數(shù),且提高了數(shù)據(jù)的聚合性。
[0024]步驟s5:頁面敏感度的判斷。
[0025]通過上述步驟將獲取到的所有敏感詞語出現(xiàn)的總次數(shù)Ts以及所有詞語出現(xiàn)的總次數(shù)Ta求反正弦arcsin、TjTa\并將其值與閾值Vs進(jìn)行比較。
[0026]if arcsin (TjTa) < Vs:
htm = html.get (’title’)+ 〃 〃 + html.get (’rel’)//顯不頁面標(biāo)題以及url 鏈接elif arcsin (Ts/Ta) >= Vs:htm = null //不顯示任何消息表1暴力游戲領(lǐng)域頁面敏感度計(jì)算實(shí)驗(yàn)結(jié)果
閾值控制級別閾值為0閾值為0.5閾值為1
搜索類別暴力-戲
搜索規(guī)糢(條)100100100
不含敏感詞記錄數(shù)(條)75196
符合率(%)7%51%96%
通過以上的實(shí)驗(yàn)和實(shí)例數(shù)據(jù)分析,閾值為0即沒有任何的敏感度過濾處理時(shí)搜索結(jié)果中含有近93%的超過未成年人可接受的信息暴力信息,而符合未成年人的游戲信息顯示的較少,且在閾值控制級別不同的情況下搜索到的含暴力信息的數(shù)據(jù)量也相對有所不同,實(shí)驗(yàn)表明通過控制不同級別的閾值控制可以有效地控制搜索結(jié)果中的敏感信息量。
[0027]上面結(jié)合附圖對本發(fā)明的【具體實(shí)施方式】作了詳細(xì)說明,但是本發(fā)明并不限于上述實(shí)施方式,在本領(lǐng)域普通技術(shù)人員所具備的知識(shí)范圍內(nèi),還可以在不脫離本發(fā)明宗旨的前提下作出各種變化。
【權(quán)利要求】
1.一種含敏感度計(jì)算的網(wǎng)頁過濾方法,其特征在于:所述網(wǎng)頁過濾方法的具體步驟如下:A、實(shí)驗(yàn)語料庫收集:收集敏感詞作為敏感詞語料庫;收集敏感詞及非敏感詞作為語料庫,將敏感詞語料庫添加到語料庫中形成新的語料庫;B、語料庫的構(gòu)建及敏感信息語料庫的構(gòu)建:根據(jù)語料庫及敏感信息語料庫規(guī)模的不同分別以不同的組織結(jié)構(gòu)存放在內(nèi)存里:其敏感信息語料庫規(guī)模較小,采用List結(jié)構(gòu);語料庫規(guī)模較大,采用Trie樹結(jié)構(gòu);C、頁面信息預(yù)處理:首先對頁面信息進(jìn)行URL鏈接提取,用以獲取二級頁面信息,將當(dāng)前頁面和二級頁面信息進(jìn)行無效詞語及符號(hào)刪除;D、頁面詞語總數(shù)統(tǒng)計(jì)及敏感詞語總數(shù)統(tǒng)計(jì):將頁面信息的分詞結(jié)果與語料庫一一比對,把匹配到的詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl, vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有詞語出現(xiàn)的總次數(shù)Ta ;將頁面信息的分詞結(jié)果與敏感信息語料庫一一比對,把匹配到的敏感詞語及該詞語出現(xiàn)的總次數(shù)以{keyl: valuel, key2: value2,...}結(jié)構(gòu)存放在 Python 的 Dictionary 中,然后將Dictionary結(jié)構(gòu)轉(zhuǎn)換成[[wl,vl], [w2, v2],...]形式的逆序嵌套List ;通過計(jì)算List中嵌套List的value之和便可統(tǒng)計(jì)出頁面所有敏感詞語出現(xiàn)的總次數(shù)Ts ;E、頁面敏感度的判斷:根據(jù)頁面所有詞語出現(xiàn)的總次數(shù)7;和所有敏感詞語出現(xiàn)的總次數(shù)Ts,計(jì)算敏感度S二 arcsin、TjTa\并將S與閾值Vs進(jìn)行比較:如果K > &則說明頁面信息敏感度沒有超過閾值,顯示頁面信息;如果K ( A則說明頁面信息敏感度超過了閾值,不顯示頁面信息。
2.根據(jù)權(quán)利要求1所述的含敏感度計(jì)算的網(wǎng)頁過濾方法,其特征在于:所述無效詞語及符號(hào)包括語氣助詞以及數(shù)字。
3.根據(jù)權(quán)利要求1或2所述的含敏感度計(jì)算的網(wǎng)頁過濾方法,其特征在于:所述閾值匕的取值范圍為0-1。
【文檔編號(hào)】G06F17/30GK103678602SQ201310685717
【公開日】2014年3月26日 申請日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】張晶, 劉志, 陳沫良, 嚴(yán)涵, 沈江炎 申請人:昆明理工大學(xué)