一種電子郵件中號碼的提取方法及其裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種電子郵件中號碼的提取方法及其裝置,其中,該方法包括:對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果;對所述識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果;對所述判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。實施本發(fā)明實施例,可在電子郵件的主題或內(nèi)容中識別出帶分隔符的號碼以及符號號碼,并將混合號碼轉(zhuǎn)換為純數(shù)字號碼串,可以降低號碼提取的難度,以及降低資源的消耗;以及方便電子郵件中反垃圾模塊的分析以及規(guī)則的應(yīng)用,以快速地識別出是否為垃圾電子郵件,給用戶帶來便利。
【專利說明】一種電子郵件中號碼的提取方法及其裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子郵件【技術(shù)領(lǐng)域】,特別是涉及一種電子郵件中號碼的提取方法及其裝置。
【背景技術(shù)】
[0002]隨著移動終端技術(shù)的不斷發(fā)展,手機(jī)、掌上電腦、平板、筆記本等各種移動設(shè)備已經(jīng)成為人們工作、生活中必不可缺的一部分,而電子郵件是人們辦公、通信最常用的功能之一。在互聯(lián)網(wǎng)用戶的各種應(yīng)用中,電子郵件是一種比較常用的基礎(chǔ)應(yīng)用,用戶可以通過發(fā)送電子郵件向?qū)Ψ絺魉托畔?,十分便捷,但也同時產(chǎn)生了垃圾電子郵件的問題。
[0003]垃圾電子郵件是指未經(jīng)用戶(接收方)許可就強(qiáng)行發(fā)送到用戶的電子郵箱中的任何電子郵件,垃圾電子郵件的內(nèi)容包括推銷廣告、成人廣告、賺錢信息,或者包含電腦病毒,以至接收方用戶的電腦系統(tǒng)受到侵害。這些垃圾電子郵件給郵箱用戶帶來了困擾,影響到了郵箱用戶的使用體驗,因此各大郵件提供商都把提升電子郵件反垃圾系統(tǒng)效果作為提升郵箱用戶體驗的重要關(guān)注點。
[0004]現(xiàn)有技術(shù)存在一種通過提取號碼的形式識別電子郵件是否為垃圾電子郵件,號碼的提取主要在電子郵件主題以及電子郵件的內(nèi)容中提取,主要用途是作為電子郵件的附加特征應(yīng)用于反垃圾領(lǐng)域,如一些留有聯(lián)系方式的垃圾郵件,可將所提取的號碼跟存有垃圾號碼的數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行對比,以識別電子郵件是否為垃圾電子郵件,現(xiàn)有提取號碼的技術(shù)存在兩種方式,一種是多數(shù)的號碼提取都是直接尋找全是數(shù)字的號碼串,另一種方式是使用正則表達(dá)式進(jìn)行號碼提取。
[0005]直接查找全是數(shù)字的號碼提取的方法的適用性較窄,僅適用于連續(xù)數(shù)字串,無法識別帶有分隔符的號碼;而使用正則表達(dá)式進(jìn)行號碼識別只是識別并提取符合規(guī)則的串,由于本身具有強(qiáng)大的功能而導(dǎo)致編寫和測試驗證的難度較大,且比較消耗資源。上述兩種方法所提取出的號碼都是原始的字符串,不能轉(zhuǎn)換成一般的純數(shù)字串,不方便反垃圾模塊的分析以及規(guī)則的應(yīng)用。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種電子郵件中號碼的提取方法及其裝置,可以降低號碼提取的難度,以及降低資源的消耗。
[0007]為了解決上述問題,本發(fā)明提出了一種電子郵件中號碼的提取方法,所述方法包括:
對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果;
對所述識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果;
對所述判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。
[0008]優(yōu)選地,所述對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果的步驟包括: 根據(jù)字符編碼識別所述符號為單字節(jié)符號或者為雙字節(jié)符號。
[0009]優(yōu)選地,所述對所述識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果的步驟包括:
當(dāng)判定所述符號為單字節(jié)符號時,根據(jù)字符編碼判定是否為單字節(jié)純數(shù)字,或者是否為單字節(jié)分隔符;
當(dāng)判定所述符號為雙字節(jié)符號時,根據(jù)字符編碼判定是否為雙字節(jié)符號號碼,或者是否為雙字節(jié)分隔符。
[0010]優(yōu)選地,所述對所述判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串的步驟包括:
若判定為單字節(jié)純數(shù)字,則直接記錄該數(shù)字;
若判定為雙字節(jié)字符,則轉(zhuǎn)換為單字節(jié)字符,并轉(zhuǎn)換為純數(shù)字號碼。
[0011]優(yōu)選地,所述方法還包括:對所述純數(shù)字號碼串進(jìn)行檢驗記錄。
[0012]相應(yīng)地,本發(fā)明還提供一種電子郵件中號碼的提取裝置,所述裝置包括:
識別模塊,用于對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果;
判定模塊,用于對所述識別模塊所獲得的識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果;
轉(zhuǎn)換模塊,用于對所述判定模塊所獲得的判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。
[0013]優(yōu)選地,所述識別模塊用于根據(jù)字符編碼識別所述符號為單字節(jié)符號或者為雙字節(jié)符號。
[0014]優(yōu)選地,所述判定模塊還用于當(dāng)判定所述符號為單字節(jié)符號時,根據(jù)字符編碼判定是否為單字節(jié)純數(shù)字,或者是否為單字節(jié)分隔符;以及用于當(dāng)判定所述符號為雙字節(jié)符號時,根據(jù)字符編碼判定是否為雙字節(jié)符號號碼,或者是否為雙字節(jié)分隔符。
[0015]優(yōu)選地,所述轉(zhuǎn)換模塊用于若所述判定結(jié)果為單字節(jié)純數(shù)字時,則直接記錄該數(shù)字;以及用于若所述判定結(jié)果為雙字節(jié)字符時,則轉(zhuǎn)換為單字節(jié)字符,并轉(zhuǎn)換為純數(shù)字號碼。
[0016]優(yōu)選地,所述裝置還包括:檢驗記錄模塊,用于對所述純數(shù)字號碼串進(jìn)行檢驗記錄。
[0017]實施本發(fā)明實施例,可在電子郵件的主題或內(nèi)容中識別出帶分隔符的號碼以及符號號碼,并將混合號碼轉(zhuǎn)換為純數(shù)字號碼串,可以降低號碼提取的難度,以及降低資源的消耗;以及方便電子郵件中反垃圾模塊的分析以及規(guī)則的應(yīng)用,以快速地識別出是否為垃圾電子郵件,給用戶帶來便利。
【專利附圖】
【附圖說明】
[0018]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0019]圖1是本發(fā)明實施例的電子郵件中號碼的提取方法的流程示意圖;
圖2是本發(fā)明實施例的電子郵件中號碼的提取裝置的結(jié)構(gòu)組成示意圖。
【具體實施方式】
[0020]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0021]電子郵件系統(tǒng)中的反垃圾模塊的主要作用是對電子郵件進(jìn)行分析、進(jìn)行特征記錄及統(tǒng)計,并判定是否為垃圾電子郵件,而傳統(tǒng)的反垃圾模塊無法識別“400-235-335”和“400-235335”所代表的含義是相同的,都是指“400235335”,而系統(tǒng)只能判定兩組號碼是不同的東西。因此需要一個統(tǒng)一的號碼表示方式,來讓電子郵件系統(tǒng)可以識別,避免符號的差異性所帶來的干擾。
[0022]圖1是本發(fā)明實施例的電子郵件中號碼的提取方法的流程示意圖,如圖1所示,該方法包括:
S101,對電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果;
S102,對識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果;
S103,對判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。
[0023]其中,在SlOl中,根據(jù)字符編碼識別符號為單字節(jié)符號或者為雙字節(jié)符號。根據(jù)字符編碼的特性(最高位是否為I)識別出所提取符號為單字節(jié)符號還是雙字節(jié)符號。若該符號為單字節(jié)符號,則取一個字節(jié)內(nèi)容;若該符號為雙字節(jié)符號,則取兩個字節(jié)內(nèi)容。
[0024]在S102中,當(dāng)判定符號為單字節(jié)符號時,根據(jù)字符編碼判定是否為單字節(jié)純數(shù)字,或者是否為單字節(jié)分隔符;當(dāng)判定符號為雙字節(jié)符號時,根據(jù)字符編碼判定是否為雙字節(jié)符號號碼,或者是否為雙字節(jié)分隔符。
[0025]具體實施中,若符號為單字節(jié)符號時,則根據(jù)字符編碼的內(nèi)容判定是否為單字節(jié)純數(shù)字“0-9”,或者是否為單字節(jié)分隔符;若符號為雙字節(jié)符號時,則根據(jù)字符編碼的內(nèi)容判定,是否為符號號碼(“⑨”之類,如“⑨”的編碼為0xA2,OxEl ),或者是否為雙字節(jié)分隔符。
[0026]在S103中,若判定為單字節(jié)純數(shù)字,則直接記錄該數(shù)字;若判定為雙字節(jié)字符,則轉(zhuǎn)換為單字節(jié)字符,并轉(zhuǎn)換為純數(shù)字號碼。
[0027]具體實施中,若為單字節(jié)純數(shù)字,則直接記錄;若為連接符,則獲取并繼續(xù)處理獲取下一符號;若為雙字節(jié)字符,則轉(zhuǎn)換成對應(yīng)的單字節(jié)字符(由于這類符號編碼是連續(xù)的,只要跟起始編碼相減的值就是所要轉(zhuǎn)換到的號碼,如⑨,OxEl -OxAS =0x39,則數(shù)字“9”的編碼為0x39);若為其他,則當(dāng)前號碼提取結(jié)束,校驗號碼是否需要記錄,號碼長度等。
[0028]進(jìn)一步地,在獲得純數(shù)字號碼串后,還可以對純數(shù)字號碼串進(jìn)行檢驗記錄,包括是否為純數(shù)字號碼、號碼的長度是否符合要求、以及是否需要記錄等。
[0029]實施本發(fā)明的方法實施例,可在電子郵件的主題或內(nèi)容中識別出帶分隔符的號碼以及符號號碼,并將混合號碼轉(zhuǎn)換為純數(shù)字號碼串,可以降低號碼提取的難度,以及降低資源的消耗;以及方便電子郵件中反垃圾模塊的分析以及規(guī)則的應(yīng)用,以快速地識別出是否為垃圾電子郵件,給用戶帶來便利。
[0030]本發(fā)明實施例還提供了一種電子郵件中號碼的提取裝置,如圖2所示,該裝置包括:
識別模塊1,用于對電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果;
判定模塊2,用于對識別模塊I所獲得的識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果;
轉(zhuǎn)換模塊3,用于對判定模塊2所獲得的判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。[0031]其中,該識別模塊I用于根據(jù)字符編碼識別符號為單字節(jié)符號或者為雙字節(jié)符號。具體方式是:根據(jù)字符編碼的特性(最高位是否為I)識別出所提取符號為單字節(jié)符號還是雙字節(jié)符號。若該符號為單字節(jié)符號,則取一個字節(jié)內(nèi)容;若該符號為雙字節(jié)符號,則取兩個字節(jié)內(nèi)容。
[0032]判定模塊2還用于當(dāng)判定符號為單字節(jié)符號時,根據(jù)字符編碼判定是否為單字節(jié)純數(shù)字,或者是否為單字節(jié)分隔符;以及用于當(dāng)判定符號為雙字節(jié)符號時,根據(jù)字符編碼判定是否為雙字節(jié)符號號碼,或者是否為雙字節(jié)分隔符。
[0033]具體實施中,若符號為單字節(jié)符號時,則判定模塊2根據(jù)字符編碼的內(nèi)容判定是否為單字節(jié)純數(shù)字“0-9”,或者是否為單字節(jié)分隔符;若符號為雙字節(jié)符號時,則判定模塊
2根據(jù)字符編碼的內(nèi)容判定,是否為符號號碼(“⑨”之類,如“⑨”的編碼為0χΑ2,0χΕ1),或者是否為雙字節(jié)分隔符。
[0034]另外,轉(zhuǎn)換模塊3還用于若判定結(jié)果為單字節(jié)純數(shù)字時,則直接記錄該數(shù)字;以及用于若判定結(jié)果為雙字節(jié)字符時,則轉(zhuǎn)換為單字節(jié)字符,并轉(zhuǎn)換為純數(shù)字號碼。具體實施中,若為單字節(jié)純數(shù)字,則直接記錄;若為連接符,則獲取并繼續(xù)處理獲取下一符號;若為雙字節(jié)字符,則轉(zhuǎn)換成對應(yīng)的單字節(jié)字符(由于這類符號編碼是連續(xù)的,只要跟起始編碼相減的值就是所要轉(zhuǎn)換到的號碼,如⑨,OxEl -0xA8 =0x39,則數(shù)字“9”的編碼為0x39);若為其他,則當(dāng)前號碼提取結(jié)束,校驗號碼是否需要記錄,號碼長度等。
[0035]進(jìn)一步地,該裝置還可以包括:檢驗記錄模塊(圖中未示出),用于對純數(shù)字號碼串進(jìn)行檢驗記錄,包括是否為純數(shù)字號碼、號碼的長度是否符合要求、以及是否需要記錄等。
[0036]實施本發(fā)明的裝置實施例,可在電子郵件的主題或內(nèi)容中識別出帶分隔符的號碼以及符號號碼,并將混合號碼轉(zhuǎn)換為純數(shù)字號碼串,可以降低號碼提取的難度,以及降低資源的消耗;以及方便電子郵件中反垃圾模塊的分析以及規(guī)則的應(yīng)用,以快速地識別出是否為垃圾電子郵件,給用戶帶來便利。
[0037]本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機(jī)可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(ROM,Read Only Memory)、隨機(jī)存取存儲器(RAM,RandomAccess Memory)、磁盤或光盤等。
[0038]另外,以上對本發(fā)明實施例所提供的電子郵件中號碼的提取方法及其裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種電子郵件中號碼的提取方法,其特征在于,所述方法包括: 對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果; 對所述識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果; 對所述判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。
2.如權(quán)利要求1所述的電子郵件中號碼的提取方法,其特征在于,所述對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果的步驟包括: 根據(jù)字符編碼識別所述符號為單字節(jié)符號或者為雙字節(jié)符號。
3.如權(quán)利要求2所述的電子郵件中號碼的提取方法,其特征在于,所述對所述識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果的步驟包括: 當(dāng)判定所述符號為單字節(jié)符號時,根據(jù)字符編碼判定是否為單字節(jié)純數(shù)字,或者是否為單字節(jié)分隔符; 當(dāng)判定所述符號為雙字節(jié)符號時,根據(jù)字符編碼判定是否為雙字節(jié)符號號碼,或者是否為雙字節(jié)分隔符。
4.如權(quán)利要求3所述的電子郵件中號碼的提取方法,其特征在于,所述對所述判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串的步驟包括: 若判定為單字節(jié)純數(shù)字,則直接記錄該數(shù)字; 若判定為雙字節(jié)字符,則轉(zhuǎn)換為單字節(jié)字符,并轉(zhuǎn)換為純數(shù)字號碼。
5.如權(quán)利要求1至4任意一項所述的電子郵件中號碼的提取方法,其特征在于,所述方法還包括:對所述純數(shù)字號碼串進(jìn)行檢驗記錄。
6.一種電子郵件中號碼的提取裝置,其特征在于,所述裝置包括: 識別模塊,用于對所述電子郵件中的單個符號進(jìn)行識別,并獲得識別結(jié)果; 判定模塊,用于對所述識別模塊所獲得的識別結(jié)果進(jìn)行分類判定,獲得判定結(jié)果; 轉(zhuǎn)換模塊,用于對所述判定模塊所獲得的判定結(jié)果進(jìn)行轉(zhuǎn)換,獲得純數(shù)字號碼串。
7.如權(quán)利要求6所述的電子郵件中號碼的提取裝置,其特征在于,所述識別模塊用于根據(jù)字符編碼識別所述符號為單字節(jié)符號或者為雙字節(jié)符號。
8.如權(quán)利要求7所述的電子郵件中號碼的提取裝置,其特征在于,所述判定模塊還用于當(dāng)判定所述符號為單字節(jié)符號時,根據(jù)字符編碼判定是否為單字節(jié)純數(shù)字,或者是否為單字節(jié)分隔符;以及用于當(dāng)判定所述符號為雙字節(jié)符號時,根據(jù)字符編碼判定是否為雙字節(jié)符號號碼,或者是否為雙字節(jié)分隔符。
9.如權(quán)利要求8所述的電子郵件中號碼的提取裝置,其特征在于,所述轉(zhuǎn)換模塊用于若所述判定結(jié)果為單字節(jié)純數(shù)字時,則直接記錄該數(shù)字;以及用于若所述判定結(jié)果為雙字節(jié)字符時,則轉(zhuǎn)換為單字節(jié)字符,并轉(zhuǎn)換為純數(shù)字號碼。
10.如權(quán)利要求6至9任意一項所述的電子郵件中號碼的提取裝置,其特征在于,所述裝置還包括:檢驗記錄模塊,用于對所述純數(shù)字號碼串進(jìn)行檢驗記錄。
【文檔編號】H04L12/58GK103490980SQ201310397191
【公開日】2014年1月1日 申請日期:2013年9月4日 優(yōu)先權(quán)日:2013年9月4日
【發(fā)明者】陳穎棠, 葉遠(yuǎn)鵬 申請人:盈世信息科技(北京)有限公司