两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

騷擾短信判別方法及裝置的制造方法_2

文檔序號:9646603閱讀:來源:國知局
用的“終端”、“終端設(shè)備”既包括無線信號接收器的設(shè)備,其僅具備無發(fā)射能力的無線信號接收器的設(shè)備,又包括接收和發(fā)射硬件的設(shè)備,其具有能夠在雙向通信鏈路上,執(zhí)行雙向通信的接收和發(fā)射硬件的設(shè)備。這種設(shè)備可以包括:蜂窩或其他通信設(shè)備,其具有單線路顯示器或多線路顯示器或沒有多線路顯示器的蜂窩或其他通信設(shè)備;PCS (Personal Communicat1ns Service,個人通信系統(tǒng)),其可以組合語音、數(shù)據(jù)處理、傳真和/或數(shù)據(jù)通信能力;PDA(Personal Digital Assistant,個人數(shù)字助理),其可以包括射頻接收器、尋呼機(jī)、互聯(lián)網(wǎng)/內(nèi)聯(lián)網(wǎng)訪問、網(wǎng)絡(luò)瀏覽器、記事本、日歷和/或GPS (Global Posit1ning System,全球定位系統(tǒng))接收器;常規(guī)膝上型和/或掌上型計(jì)算機(jī)或其他設(shè)備,其具有和/或包括射頻接收器的常規(guī)膝上型和/或掌上型計(jì)算機(jī)或其他設(shè)備。這里所使用的“終端”、“終端設(shè)備”可以是便攜式、可運(yùn)輸、安裝在交通工具(航空、海運(yùn)和/或陸地)中的,或者適合于和/或配置為在本地運(yùn)行,和/或以分布形式,運(yùn)行在地球和/或空間的任何其他位置運(yùn)行。這里所使用的“終端”、“終端設(shè)備”還可以是通信終端、上網(wǎng)終端、音樂/視頻播放終端,例如可以是PDA、MID(Mobile Internet Device,移動互聯(lián)網(wǎng)設(shè)備)和/或具有音樂/視頻播放功能的移動電話,也可以是智能電視、機(jī)頂盒等設(shè)備。
[0069]本技術(shù)領(lǐng)域技術(shù)人員可以理解,這里所使用的遠(yuǎn)端網(wǎng)絡(luò)設(shè)備,其包括但不限于計(jì)算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此,云由基于云計(jì)算(Cloud Computing)的大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個超級虛擬計(jì)算機(jī)。本發(fā)明的實(shí)施例中,遠(yuǎn)端網(wǎng)絡(luò)設(shè)備、終端設(shè)備與WNS服務(wù)器之間可通過任何通信方式實(shí)現(xiàn)通信,包括但不限于,基于3GPP、LTE、WIMAX的移動通信、基于TCP/IP、UDP協(xié)議的計(jì)算機(jī)網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。
[0070]參考圖1所示,為了更精準(zhǔn)地判別用戶移動終端接收的短信是否為騷擾短信,本發(fā)明提供一種騷擾短信判別方法,具體包括以下步驟:
[0071]S11、解析原始短信內(nèi)容以獲取其中的各個詞和數(shù)字信息;
[0072]本發(fā)明實(shí)施例主要用于判別銀行發(fā)送的消費(fèi)信息、余額信息等包含重要數(shù)字信息的短信是否為騷擾短信,故而在先對短信內(nèi)容進(jìn)行解析,以獲取其中的數(shù)字信息。參考圖2所示,所述解析過程具體如下:
[0073]步驟1、刪除原始短信中的特定信息;
[0074]所述特定信息具體包括短信中的URL、IP地址、移動電話、客戶電話、固定電話等信息,將該些信息刪除,以防止對表征消費(fèi)金額、物流單號等有用數(shù)字信息的干擾。
[0075]步驟2、對短信內(nèi)容基于語法進(jìn)行分詞,以獲取短信中的詞、數(shù)字及相應(yīng)詞性;
[0076]基于漢語的標(biāo)準(zhǔn)語法對短信內(nèi)容進(jìn)行分詞,以能夠表達(dá)完整意思的詞作為一個分詞,從而將短信內(nèi)容進(jìn)行分割,分割成不同的詞及一個或多個數(shù)字,每個詞分別確定其相應(yīng)的詞性,數(shù)字對應(yīng)的詞性設(shè)定為m。其中,當(dāng)表征金額等數(shù)字中存在標(biāo)點(diǎn)符號時,如200.00元,則將其中的標(biāo)點(diǎn)符號刪掉,使其形成一串?dāng)?shù)字。
[0077]步驟3、提取其中的數(shù)字信息。
[0078]基于上述分解后的短信內(nèi)容,以詞性為區(qū)別特征,提取詞性為m的信息,則提取所有的數(shù)字信息。
[0079]由此,通過對短信內(nèi)容進(jìn)行分詞解析,提取出其中的各個詞和數(shù)字信息,以用于后續(xù)的處理。
[0080]S12、以所述數(shù)字信息為基準(zhǔn)分別計(jì)算各個詞到各數(shù)字的距離;
[0081]以上述步驟提取的一個或多個數(shù)字信息為基準(zhǔn),計(jì)算由上述步驟提取的短信中的各個詞分別到各個數(shù)字信息的距離,所述距離具體以每個字作為單位距離進(jìn)行表征。即,統(tǒng)計(jì)各個詞分別到各個數(shù)字的字?jǐn)?shù),以該字?jǐn)?shù)分別作為各個詞到各個數(shù)字的距離。
[0082]S13、將所述距離作為權(quán)重,各個詞作為維度,對短信內(nèi)容進(jìn)行描述以生成相應(yīng)的多個特征向量;
[0083]將計(jì)算得出的短信中的各個詞分別到短信中各個數(shù)字的距離作為權(quán)重,即表征每個詞對各個數(shù)字的為正確數(shù)字的影響程度。以各個詞作為維度,即表征短信中存在多少影響各個數(shù)字正確性的詞。以所述距離作為權(quán)重,各個詞作為維度,生成多個特征向量,以描述該短信內(nèi)容。具體為,分別以所述各個數(shù)字作為基準(zhǔn),將其前面和后面的詞作為維度,計(jì)算其前面和后面的詞分別到各個數(shù)字的距離,將相應(yīng)距離作為權(quán)重,從而生成多個不同的特征向量。
[0084]S14、將每個特征向量分別輸入分類模型以獲得輸出結(jié)果;
[0085]所述分類模型為預(yù)先訓(xùn)練的模型,即通過預(yù)先準(zhǔn)備的樣本集合訓(xùn)練分類模型,以便后續(xù)通過該分類模型對短信進(jìn)行分類,從而確定短信是否為騷擾短信。優(yōu)選的,采用adaboost算法訓(xùn)練分類模型。參考圖3所示,所述訓(xùn)練分類模型的步驟具體如下:
[0086]步驟11、對樣本集合中的每條原始短信內(nèi)容進(jìn)行解析以獲取其中的各個詞和數(shù)字信息;
[0087]樣本集合為預(yù)先準(zhǔn)備的短信集合,包括η條短信,對其中的每條短信內(nèi)容進(jìn)行解析。所述解析過程具體為上述步驟S11所述,在此不再贅述。通過該解析步驟獲取每條短信中的各個詞和數(shù)字信息,以及它們對應(yīng)的詞性。
[0088]步驟12、以所述數(shù)字信息為基準(zhǔn)計(jì)算各個詞分別到各個數(shù)字的距離;
[0089]以上述步驟提取的一個或多個數(shù)字信息為基準(zhǔn),計(jì)算由上述步驟提取的短信中的各個詞分別到各個數(shù)字信息的距離,所述距離具體以每個字作為單位距離進(jìn)行表征。即,統(tǒng)計(jì)各個詞分別到各個數(shù)字的字?jǐn)?shù),以該字?jǐn)?shù)分別作為各個詞到各個數(shù)字的距離。將樣本集合中的每條短信依照該方法計(jì)算其相應(yīng)距離。
[0090]步驟13、將所述相應(yīng)距離作為權(quán)重,各個詞作為維度,對每條短信內(nèi)容進(jìn)行描述以生成相應(yīng)的訓(xùn)練樣本;
[0091]將計(jì)算得出的短信中的各個詞分別到短信中各個數(shù)字的距離作為權(quán)重,即表征每個詞對各個數(shù)字的為正確數(shù)字的影響程度。以各個詞作為維度,即表征短信中存在多少影響各個數(shù)字正確性的詞。以所述距離作為權(quán)重,各個詞作為維度,生成多個特征向量,以描述該短信內(nèi)容。具體為,分別以所述各個數(shù)字作為基準(zhǔn),將其前面和后面的詞作為維度,計(jì)算其前面和后面的詞分別到各個數(shù)字的距離,將相應(yīng)距離作為權(quán)重,從而生成多個不同的特征向量。其中,所述每條短信中的所有詞以多個數(shù)字中的一個數(shù)字為基準(zhǔn)生成的特征向量為一個特征向量。每條短信內(nèi)容均按照該方法進(jìn)行描述,生成多個特征向量,即多個訓(xùn)練樣本。
[0092]步驟14、將訓(xùn)練樣本人工標(biāo)記為正樣本和負(fù)樣本;
[0093]將上述生成的訓(xùn)練樣本進(jìn)行人工標(biāo)記,如為了判斷銀行等發(fā)送的消費(fèi)金額、余額等信息,則將短信中基于表征金額、余額等的數(shù)字為基準(zhǔn)生成的特征向量標(biāo)記為正樣本;短信中的其他數(shù)字信息,如打幾折等數(shù)字,以該些數(shù)字為基準(zhǔn)生成的特征向量標(biāo)記為負(fù)樣本。并且,將正樣本的結(jié)果信息定為正確,輸出結(jié)果值為1,將負(fù)樣本的結(jié)果信息定為錯誤,輸出結(jié)果值為0。
[0094]步驟15、采用所述正樣本和負(fù)樣本訓(xùn)練分類模型。
[0095]將該些正、負(fù)樣本作為輸入,其對應(yīng)的正確或錯誤的結(jié)果信息作為輸出,采用adaboost算法進(jìn)行訓(xùn)練,從而得到分類模型。
[0096]將短信對應(yīng)的每個特征向量作為輸入,基于所述訓(xùn)練的分類模型獲取輸出結(jié)果。其中,所述輸出結(jié)果為1則表征正確,輸出結(jié)果為0則表征錯誤。
[0097]S15、基于所述輸出結(jié)果判別該短信是否為騷擾短信。
[0098]基于上述分類模型的輸出結(jié)果判別短信是否為騷擾短信。當(dāng)短信對應(yīng)的多個特征向量分別作為分類模型的輸入,獲得的輸出結(jié)果中至少有一個為正確,則該短信為正常短信。否則,判斷該短信為騷擾短信。
[0099]當(dāng)判斷短信為騷擾短信后,則對該短信進(jìn)行攔截并存儲于黑名單中。在其他實(shí)施例中,判斷短信為騷擾短信后,將該短信從用戶的短信列表中刪除,以避免騷擾短信為用戶帶來的不便,提高用戶使用短信進(jìn)行通信的體驗(yàn)度。
[0100]參考圖4所示,為了進(jìn)一步對本發(fā)明所述騷擾短信判別方法進(jìn)行闡述,對其進(jìn)行模塊化說明,提供一種騷擾短信判別裝置,包括解析模塊11、距離計(jì)算模塊12、特征向量生成模塊13、分類模塊14、判別模塊15,以及部分變換實(shí)施例中的訓(xùn)練模塊16、黑名單模塊17及刪除模塊18,其中,
[0101]解析模塊11:用于解析原始短信內(nèi)容以獲取其中的各個詞和數(shù)字信息;
[0102]本發(fā)明實(shí)施例主要用于判別銀行發(fā)送的消費(fèi)信息、余額信息等包含重要數(shù)字信息的短信是否為騷擾短信,故而由解析模塊11先對短信內(nèi)容進(jìn)行解析,以獲取其中的數(shù)字信息。所述解析模塊執(zhí)行的具體步驟如下:
[0103]步驟1、刪除原始短信中的特定信息;
[0104]步驟2、對短信內(nèi)容基于語法進(jìn)行分詞,以獲取短信中的詞、數(shù)字及相應(yīng)詞性;
[0105]步驟3、提取其中的數(shù)字信息。
[0106]由此,通過解析模塊11對短信內(nèi)容進(jìn)行分詞解析,提取出其中的各個詞和數(shù)字信息,以用于后續(xù)的處理。
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
日喀则市| 桂平市| 永城市| 芦山县| 安多县| 丰顺县| 如皋市| 静安区| 马关县| 河东区| 云南省| 衡阳县| 客服| 武穴市| 固阳县| 大丰市| 徐闻县| 额敏县| 阳城县| 昌都县| 邵东县| 扶风县| 防城港市| 申扎县| 枝江市| 奇台县| 威信县| 克东县| 栖霞市| 攀枝花市| 长治县| 英山县| 鄂尔多斯市| 临泽县| 阿克| 河北省| 搜索| 比如县| 上高县| 巴彦淖尔市| 仁布县|