短信類別識別方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及信息識別技術領域,特別是一種短信類別識別方法及裝置。
【背景技術】
[0002]隨著移動終端的應用發(fā)展,短信已經成為人與人之間交流的一種重要的手段,短信在加強彼此聯(lián)系的同時,也出現(xiàn)了諸如中獎之類的騷擾短信,影響了用戶的正常工作和生活,用戶對此十分不滿。
[0003]目前,主要由人工對短信標記類別,如中獎、詐騙、房地產、股票等類別,并利用人工標記好的類別對短信進行過濾,以實現(xiàn)騷擾短信的攔截。一般人工標記時,一天大概能標記5000條短信,對于大量過去的短信以及每天產生的新短信,通過人工標記的方式顯然費時費力,效率較低,因而亟待提供一種有效的短信類別識別方案。
【發(fā)明內容】
[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的短信類別識別方法及裝置。
[0005]依據本發(fā)明的一方面,提供了一種短信類別識別方法,應用于客戶端,包括:
[0006]當接收到一待識別短信時,調用在所述客戶端預先構建的字典庫,其中,所述字典庫中的特征詞的長度包含一個或多個字符;
[0007]將所述待識別短信的文本內容與所述字典庫中的特征詞進行匹配,確定所述待識別短信的包含相應特征詞的多個分詞;
[0008]根據所述多個分詞對所述待識別短信進行打分,得到所述待識別短信的打分值;
[0009]根據所述待識別短信的打分值識別出所述待識別短信的類別。
[0010]可選地,將所述待識別短信的文本內容與所述字典庫中的特征詞進行匹配,包括:
[0011]定義初始長度的窗口 ;
[0012]利用所述初始長度的窗口從所述待識別短信的文本內容中提取初始長度的文本內容,并與所述字典庫中的特征詞進行匹配。
[0013]可選地,利用所述初始長度的窗口從所述待識別短信的文本內容中提取初始長度的文本內容,并與所述字典庫中的特征詞進行匹配,包括:
[0014]利用所述初始長度的窗口從所述待識別短信的文本內容的第一位置提取第一初始長度的文本內容;
[0015]將所述第一初始長度的文本內容與所述字典庫中的特征詞進行匹配;
[0016]若存在匹配的特征詞,則將所述第一初始長度的文本內容作為所述待識別短信的包含相應特征詞的分詞。
[0017]可選地,將所述第一初始長度的文本內容與所述字典庫中的特征詞進行匹配之后,還包括:
[0018]若不存在匹配的特征詞,則從所述第一位置移動所述初始長度的窗口,提取第二位置的第二初始長度的文本內容;
[0019]將所述第二初始長度的文本內容與所述字典庫中的特征詞進行匹配;
[0020]若存在匹配的特征詞,則將所述第二初始長度的文本內容作為所述待識別短信的包含相應特征詞的分詞;
[0021]若不存在匹配的特征詞,則從所述第二位置移動所述初始長度的窗口,提取第三位置的第三初始長度的文本內容,將所述第三初始長度的文本內容與所述字典庫中的特征詞進行匹配,以此類推,確定所述待識別短信的包含相應特征詞的多個分詞。
[0022]可選地,利用所述初始長度的窗口從所述待識別短信的文本內容中提取初始長度的文本內容,并與所述字典庫中的特征詞進行匹配之后,還包括:
[0023]將所述窗口的初始長度調整為當前長度;
[0024]利用所述當前長度的窗口從所述待識別短信的文本內容提取當前長度的文本內容,并與所述字典庫中的特征詞進行匹配。
[0025]可選地,根據所述多個分詞對所述待識別短信進行打分,包括:
[0026]確定所述多個分詞的權重;
[0027]根據確定的權重和所述多個分詞對所述待識別短信進行打分。
[0028]可選地,確定所述多個分詞的權重,包括:
[0029]獲取在所述客戶端預先建立的所述字典庫的特征詞與權重的對應關系;
[0030]根據所述對應關系,查找所述多個分詞的權重。
[0031]可選地,通過以下步驟建立所述對應關系:
[0032]采用預置的短信分類規(guī)則,構造多分類的短信分類器,其中,所述短信分類器中的各個權重參數依據短信的各個特征詞進行設置;
[0033]獲取多種類別的短信,其中,每種類別的短信包含多條;
[0034]將所述多種類別的短信作為訓練語料對所述短信分類器進行訓練,計算所述短信分類器中的各個權重參數;
[0035]在所述各個特征詞與所述各個權重參數之間建立所述對應關系。
[0036]可選地,采用預置的短信分類規(guī)則,構造多分類的短信分類器,包括:
[0037]采用線性分類庫Liblinear構造多分類的短信分類器;或者,
[0038]采用支持向量機分類庫Libsvm構造多分類的短信分類器。
[0039]可選地,采用線性分類庫Liblinear構造多分類的短信分類器,包括:
[0040]調用所述Liblinear的動態(tài)分類庫;
[0041]利用調用的動態(tài)分類庫構造多分類的短信分類器。
[0042]可選地,根據所述待識別短信的打分值識別出所述待識別短信的類別,包括:
[0043]獲取預先建立的打分區(qū)間與短信類別的映射關系,在所述映射關系中查找所述待識別短信的打分值所屬的打分區(qū)間;
[0044]根據所述待識別短信的打分值所屬的打分區(qū)間,確定所述待識別短信的類別。
[0045]可選地,所述方法還包括:
[0046]當所述待識別短信為指定類別時,生成提示消息通知用戶。
[0047]可選地,所述方法還包括:
[0048]當接收到一待識別短信時,判斷該待識別短信對應的電話號碼是否為陌生電話號碼;
[0049]若是,則執(zhí)行調用在所述客戶端預先構建的字典庫的操作。
[0050]可選地,所述方法還包括:
[0051]當接收到一待識別短信時,判斷該待識別短信對應的電話號碼的歸屬地和/或地區(qū)編碼號段是否與所述客戶端所在終端的電話號碼的歸屬地和/或地區(qū)編碼號段相同;
[0052]若不同,則執(zhí)行調用在所述客戶端預先構建的字典庫的操作。
[0053]可選地,所述方法還包括:
[0054]當接收到一待識別短信時,獲取所述客戶端所在終端的當前所在地信息;
[0055]判斷該待識別短信對應的電話號碼的歸屬地是否與所述客戶端所在終端的當前所在地相同;
[0056]若不同,則執(zhí)行調用在所述客戶端預先構建的字典庫的操作。
[0057]可選地,所述方法還包括:
[0058]當接收到一待識別短信時,獲取所述客戶端所在終端中保存的通訊錄信息;
[0059]判斷所述通訊錄中是否存在與該待識別短信對應的電話號碼具有相同歸屬地和/或地區(qū)編碼號段的電話號碼;
[0060]若不存在,則執(zhí)行調用在所述客戶端預先構建的字典庫的操作。
[0061]依據本發(fā)明的另一方面,還提供了一種短信類別識別裝置,應用于客戶端,包括:
[0062]調用模塊,適于當接收到一待識別短信時,調用在所述客戶端預先構建的字典庫,其中,所述字典庫中的特征詞的長度包含一個或多個字符;
[0063]匹配模塊,適于將所述待識別短信的文本內容與所述字典庫中的特征詞進行匹配,確定所述待識別短信的包含相應特征詞的多個分詞;
[0064]打分模塊,適于根據所述多個分詞對所述待識別短信進行打分,得到所述待識別短信的打分值;
[0065]識別模塊,適于根據所述待識別短信的打分值識別出所述待識別短信的類別。
[0066]可選地,所述匹配模塊還適于:
[0067]定義初始長度的窗口 ;
[0068]利用所述初始長度的窗口從所述待識別短信的文本內容中提取初始長度的文本內容,并與所述字典庫中的特征詞進行匹配。
[0069]可選地,所述匹配模塊還適于:
[0070]利用所述初始長度的窗口從所述待識別短信的文本內容的第一位置提取第一初始長度的文本內容;
[0071]將所述第一初始長度的文本內容與所述字典庫中的特征詞進行匹配;
[0072]若存在匹配的特征詞,則將所述第一初始長度的文本內容作為所述待識別短信的包含相應特征詞的分詞。
[0073]可選地,所述匹配模塊還適于:
[0074]若不存在匹配的特征詞,則從所述第一位置移動所述初始長度的窗口,提取第二位置的第二初始長度的文本內容;
[0075]將所述第二初始長度的文本內容與所述字典庫中的特征詞進行匹配;
[0076]若存在匹配的特征詞,則將所述第二初始長度的文本內容作為所述待識別短信的包含相應特征詞的分詞;
[0077]若不存在匹配的特征詞,則從所述第二位置移動所述初始長度的窗口,提取第三位置的第三初始長度的文本內容,將所述第三初始長度的文本內容與所述字典庫中的特征詞進行匹配,以此類推,確定所述待識別短信的包含相應特征詞的多個分詞。
[0078]可選地,所述匹配模塊還適于:
[0079]將所述窗口的初始長度調整為當前長度;
[0080]利用所述當前長度的窗口從所述待識別短信的文本內容提取當前長度的文本內容,并與所述字典庫中的特征詞進行匹配。
[0081 ] 可選地,所述打分模塊還適于:
[0082]確定所述多個分詞的權重;
[0083]根據確定的權重和所述多個分詞對所述待識別短信進行打分。
[0084]可選地,所述打分模塊還適于:
[0085]獲取在所述客戶端預先建立的所述字典庫的特征詞與權重的對應關系;
[0086]根據所述對應關系,查找所述多個分詞的權重。
[0087]可選地,所述裝置還包括:
[0088]建立模塊,適于采用預置的短信分類規(guī)則,構造多分類的短信分類器,其中,所述短信分類器中的各個權重參數依據短信的各個特征詞進行設置;
[0089]獲取多種類別的短信,其中,每種類別的短信包含多條;
[0090]將所述多種類別的短信作為訓練語料對所述短信分類器進行訓練,計算所述短信分類器中的各個權重參數;
[0091]在所述各個特征詞與所述各個權重參數之間建立所述對應關系。
[0092]可選地,所述建立模塊還適于:
[0093]采用線性分類庫Liblinear構造多分類的短信分類器;或者,
[0094]采用支持向量機分類庫Libsvm構造多分類的短信分類器。
[0095]可選地,所述建立模塊還適于:
[0096]調用所述Liblinear的動態(tài)分類庫;
[0097]利用調用的動態(tài)分類庫構造多分類的短信分類器。
[0098]可選地,所述識別模塊還適于:
[0099]獲取預先建立的打分區(qū)間與短信類別的映射關系,在所述映射關系中查找所述待識別短信的打分值所屬的打分區(qū)間;
[0100]根據所述待識別短信的打分值所屬的打分區(qū)間,確定所述待識別短信的類別。
[0101]可選地,所述裝置還包括:
[0102]提示模塊,適于當所述待識別短信為指定類別時,生成提示消息通知用戶。
[0103]可選地,所述裝置還包括:
[0104]判斷模塊,適于當接收到一待識別短信時,判斷該待識別短信對應的電話號碼是否為陌生電話號碼;若是,則執(zhí)行調用在所述客戶端預先構建的字典庫的操作。
[0105]可選地,所述判斷模塊還適于:
[0106]當接收到一待識別短信時,判斷該待識別