本發(fā)明涉及計算機
技術領域:
,尤其涉及一種語義段的轉換方法及裝置。
背景技術:
:對于現(xiàn)在很多手機、信息提醒類APP和第三方平臺的運營商,為了提高用戶的使用感受,都會推出類似于卡片式短信、通知提醒類業(yè)務等應用,當用戶授權讀取本機短信和服務推送信息后,會解析短信、APP應用、站內(nèi)推送等通知信息中的有效內(nèi)容,并把其內(nèi)容項顯示在手機短信系統(tǒng)或手機應用頁面上。另一方面,企業(yè)為了更好的推廣自己,會在通知信息中出現(xiàn)很多廣告,而廣告信息對于本條信息中有效特征的提取具有很大的干擾作用。因此,如何對用戶手機中的通知短信、推送文本等通知信息去除廣告噪聲,以便可以更準確的提取通知信息中對用戶有意義的特征信息,對于手機開發(fā)商、APP開發(fā)者、第三方平臺是非常重要的。目前大多數(shù)廣告過濾方法都是采用預設設置一個廣告模板庫,其中存儲的是被定義為廣告信息的語義段,在實際過濾時,若一個通知信息中的一個語義段與廣告模板庫中的某個語義段具有超過一定程度的相似度,則將該語義段確定為廣告信息并過濾掉。上述方法存在的問題是:首先,由于在廣告模板庫中存儲的是被定義為廣告信息的語義段,因此造成要存儲的信息量比較大,浪費存儲空間;其次,在具體對語義段進行判斷時,將語義段與廣告模塊庫中的語義段進行比對,由于是文本比對,效率比較低。綜上所述,現(xiàn)有技術對通知信息進行廣告過濾時,存在浪費存儲空間及廣告過濾效率低的技術問題。技術實現(xiàn)要素:本發(fā)明提供一種語義段的轉換方法及裝置,用以對通知信息進行廣告過濾時,節(jié)約存儲空間及提高廣告過濾的效率。一方面,本發(fā)明實施例提供一種語義段的轉換方法,包括:根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值??蛇x地,所述每個語義段中的每個詞語對應的哈希值為包含預設位數(shù)的二進制數(shù)值;根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值,包括:針對所述語義段中的任意一個詞語,將所述詞語對應的哈希值中的0替換為-1,得到所述詞語對應的第一目標值;根據(jù)所述語義段對應的權重值、所述詞語對應的權重值及所述第一目標值,得到所述詞語對應的第二目標值;將所述語義段中每個詞語對應的第二目標值在對應的位上相加,得到所述語義段對應的目標值;針對所述語義段對應的目標值中的任意一位,若所述任意一位對應的數(shù)值大于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為1;若所述任意一位對應的數(shù)值小于或等于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為0。可選地,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應的權重設置為第一預設權重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應的權重值按照所述語義段在所述通知信息中的位置進行設置,其中,距離所述通知信息的首部越遠的語義段的權重值越大??蛇x地,對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值,包括:根據(jù)下列方式確定所述語義段中的每個詞語對應的權重值:根據(jù)所述詞語的業(yè)務屬性及所述詞語在所述語義段中的位置,確定所述詞語對應的第一權重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應的第二權重值;根據(jù)確定的所述詞語對應的第一權重值及對應的第二權重值,確定詞語對應的權重值??蛇x地,對所述語義段進行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設置對應的權重值之前,還包括:將所述語義段中的每個詞語與專有名詞庫進行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉換為與所述詞語的屬性對應的預設名詞。一方面,本發(fā)明實施例提供一種語義段的轉換裝置,包括:語義段權重值確定單元,用于根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;詞語權重值確定單元,用于對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;哈希值確定單元,用于根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值??蛇x地,所述每個語義段中的每個詞語對應的哈希值為包含預設位數(shù)的二進制數(shù)值;所述哈希值確定單元,具體用于:針對所述語義段中的任意一個詞語,將所述詞語對應的哈希值中的0替換為-1,得到所述詞語對應的第一目標值;根據(jù)所述語義段對應的權重值、所述詞語對應的權重值及所述第一目標值,得到所述詞語對應的第二目標值;將所述語義段中每個詞語對應的第二目標值在對應的位上相加,得到所述語義段對應的目標值;針對所述語義段對應的目標值中的任意一位,若所述任意一位對應的數(shù)值大于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為1;若所述任意一位對應的數(shù)值小于或等于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為0。可選地,所述語義段權重值確定裝置,具體用于:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應的權重設置為第一預設權重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應的權重值按照所述語義段在所述通知信息中的位置進行設置,其中,距離所述通知信息的首部越遠的語義段的權重值越大??蛇x地,所述詞語權重值確定單元,具體用于根據(jù)下列方式確定所述語義段中的每個詞語對應的權重值:根據(jù)所述詞語的業(yè)務屬性及所述詞語在所述語義段中的位置,確定所述詞語對應的第一權重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應的第二權重值;根據(jù)確定的所述詞語對應的第一權重值及對應的第二權重值,確定詞語對應的權重值。可選地,所述詞語權重值確定單元,還用于:對所述語義段進行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設置對應的權重值之前,將所述語義段中的每個詞語與專有名詞庫進行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉換為與所述詞語的屬性對應的預設名詞。本發(fā)明實施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值。從而在廣告模板庫中存儲的均為語義段對應的哈希值,比較節(jié)約空間;以及在對通知信息進行廣告過濾時,將通知信息中語義段對應的哈希值與廣告模板庫中的哈希值進行比較,效率比較高。附圖說明為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域的普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例提供的一種更新模板庫的方法流程圖;圖2為本發(fā)明實施例提供的一種通知信息過濾方法流程圖;圖3為本發(fā)明實施例提供的一種語義段的轉換方法流程圖;圖4為本發(fā)明實施例提供的一種更新模板庫的方法詳細流程圖;圖5為本發(fā)明實施例提供的一種語義段的轉換方法詳細流程圖;圖6為本發(fā)明實施例提供的一種更新模板庫的裝置示意圖;圖7為本發(fā)明實施例提供的一種通知信息過濾裝置示意圖;圖8為本發(fā)明實施例提供的一種語義段的轉換裝置示意圖。具體實施方式為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明作進一步地詳細描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。服務類行業(yè)公司主要包括金融機構類、運營商類、電商類、商旅類等網(wǎng)站,對客戶發(fā)的通知信息主要有以下幾個類型:一.純通知類短信①尾號1234儲蓄卡賬戶12:40在ATM機取款300元。(銀行)②溫馨提示:截止03月07日24時,您當月累計使用流量150.6MB。其中,國內(nèi)流量已使用21.6MB,剩余979.4MB;國內(nèi)流量半年流量包已使用1.064GB,剩余1.936GB。(運營商)③您購買的訂單號879885554已經(jīng)從倉庫運出,大概3天后到您手中,請注意查收。(電商類)④您購買的7月8日CA1819次航班已經(jīng)出票,請準時到達機場。(商旅類)二.通知+廣告類⑤您賬戶5678于01月02日11:21發(fā)生網(wǎng)銀快捷支付扣款30元。當月交易滿100元送100積分。(銀行)⑥您好:您的手機(130****7787)上月消費金額56元,現(xiàn)賬戶余額為12元,如果有欠費,請及時充值。溫馨提示:現(xiàn)在充值滿100元可以享受送400M流量包優(yōu)惠。(運營商)⑦本次交易驗證碼456421,請勿向任何人泄露收到的驗證碼。猛戳t.xxx.com/GFDG立馬領取億萬理財券。(電商類)⑧您在本網(wǎng)站購買的7月12日的MU5028航班預計將延遲2個小時以上,對您旅程的影響深表歉意。雷雨季節(jié)使用延誤險,出行不擔憂,現(xiàn)在通過手機端購買保險立馬享受隨機減的優(yōu)惠。(航旅類)三.純廣告類⑨本行將于3月16日至18日起售一年期保本保收益定期存款產(chǎn)品,5萬起年收益5,相比定期存款,100000元多2600元收益,額度有限,速速搶購。(銀行)⑩【中國石油】積分商城(http://www.jf.95504.net、中油好客e站微信號)6月17日鉅惠啟航!積分兌換電子充值卡,兌換+油卡充值=積分加油!多種面值可選!新客戶記得注冊綁卡喲.......。(電商類)最便宜的打折機票哪里有?訪問www.ddd.com獲得最新打折機票信息,注冊就有獎。(航旅類)下面結合說明書附圖對本發(fā)明實施例作進一步詳細描述。如圖1所示,本發(fā)明實施例提供的一種更新模板庫的方法,包括:步驟101、根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;步驟102、針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段;步驟103、根據(jù)所述目標語義段,更新模板庫,所述模板庫用于存儲滿足預設條件的語義段。在上述步驟101中,根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集??蛇x地,根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集,可以有多種方式,下列例舉幾種方式作為說明:第一種方式:根據(jù)通知信息對應的應用名稱、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。第二種方式:根據(jù)通知信息對應的應用名稱、渠道,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。第三種方式、根據(jù)通知信息對應的應用名稱、渠道、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。其中,之所以按照以上的劃分方式對通知信息進行分類,主要是基于以下理由:通知信息中的廣告信息具有具有時間歸屬性、應用歸屬性及渠道歸屬性。例如某種廣告信息在某個應用下在某個時間段或者某天內(nèi)發(fā)送給了所有用戶,則可以使用上述第一種方式,來將通知信息進行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個數(shù)據(jù)集中存儲的是來自于同一個應用在同樣時間段的通知信息;或者是某種廣告信息在某個應用的某個渠道下具有重復性,則可以使用上述第二種方式,來將通知信息進行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個數(shù)據(jù)集中存儲的是來自于同一個應用及同一渠道下的通知信息;或者是某種廣告信息在某個應用的某個渠道下具有重復性和連續(xù)性,則可以使用上述第三種方式對通知信息進行劃分到不同的數(shù)據(jù)集中,也就是說,在同一個數(shù)據(jù)集中存儲的是來自于同一個應用及同一渠道下,且屬于同一時間的通知信息。下面以上述第三種方式為例進行舉例說明。服務端將授權用戶(即只有經(jīng)過用戶授權后,服務端才可以獲取到這些通知類信息)的所有通知類信息按照應用名稱、渠道和日期分隔開,形成數(shù)據(jù)集,每個數(shù)據(jù)集合以應用名稱、渠道、日期命名,例如形成以下數(shù)據(jù)集:數(shù)據(jù)集1:移動-短信-2016.05.08數(shù)據(jù)集2:移動-短信-2016.05.09數(shù)據(jù)集3:移動-短信-2016.05.10……數(shù)據(jù)集k:移動-APP通知-2016.05.08數(shù)據(jù)集k+1:移動-APP通知-2016.05.09數(shù)據(jù)集k+2:移動-APP通知-2016.05.10……數(shù)據(jù)集l:電商-APP通知-2016.05.08數(shù)據(jù)集l+1:電商-APP通知-2016.05.09數(shù)據(jù)集l+2:電商-APP通知-2016.05.10……數(shù)據(jù)集m:電商-微信通知-2016.05.08數(shù)據(jù)集m+1:電商-微信通知-2016.05.09數(shù)據(jù)集m+2:電商-微信通知-2016.05.10……從而,根據(jù)上述方法,將獲取到的通知信息劃分到了多個數(shù)據(jù)集中,每個數(shù)據(jù)集中的通知信息是來源于同一應用、同一渠道及同一時間,并且同一個數(shù)據(jù)集中的通知信息具有高度關聯(lián)性,也就是說,同一個數(shù)據(jù)集中的通知信息具有相同語義段的概率要更高。上述步驟102中,針對根據(jù)步驟101中得到的多個數(shù)據(jù)集,針對其中的每一個數(shù)據(jù)集,都會得到一些目標語義段,下面針對其中任意一個數(shù)據(jù)集,來說明書如何得到該數(shù)據(jù)集中的目標語義段。步驟A、根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段??紤]到廣告本身具有典型的時間、渠道及應用特性,為了盡可能擴大廣告影響力和營銷效果,同一個應用在某個渠道在某個時間段(例如一天內(nèi))發(fā)送的廣告信息應該是相同的。一般會采取在用戶正常通知信息最后面添加廣告、或直接給用戶推送廣告信息兩種方式。考慮到上述情況,我們對通知信息處理不是采用整條信息處理的方式,而是對原始信息用預設的劃分標識符進行分割(本發(fā)明實施例中,預設的劃分標識符為句號、問號、感嘆號),形成一個個具有完整意義的語義段。在切分后,上述完整的信息就可以劃分成不同的語義段,以下是舉例:舉例1、信息⑤按照句號切割,原文就變成“您賬戶5678于01月02日11:21發(fā)生網(wǎng)銀快捷支付扣款30元?!焙汀爱斣陆灰诐M100元送100積分?!眱蓚€語義段。舉例2、信息⑧按照句號切割,原文就可以得到“雷雨季節(jié)使用延誤險,出行不擔憂,現(xiàn)在通過手機端購買保險立馬享受隨機減的優(yōu)惠?!?,“您在本網(wǎng)站購買的7月12日的MU5028航班預計將延遲2個小時以上,對您旅程的影響深表歉意。”兩個語義段。舉例3、信息⑩按照句號和感嘆號切割,原文就可以得到“中國石油】積分商城(http://www.jf.95504.net、中油好客e站微信號)6月17日鉅惠啟航!”,“積分兌換電子充值卡,兌換+油卡充值=積分加油!”,“多種面值可選!”,“新客戶記得注冊綁卡喲.......?!彼膫€語義段。舉例4、信息按照問號和句號進行分割,原文就可以得到“最便宜的打折機票哪里有?”,“訪問www.ddd.com獲得最新打折機票信息,注冊就有獎?!眱蓚€語義段。步驟B、對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段。將每個數(shù)據(jù)集中每條通知信息都按照如上原則切分成不同的語義段,并統(tǒng)計相同語義段出現(xiàn)的次數(shù),注意這里一定要是完全相同,因為這樣可以把信息中的有效部分區(qū)別開來,比如以下是電商類發(fā)貨通知信息:(1)您購買的訂單號87885554已經(jīng)從倉庫運出,大概3天后到您手中,請注意查收。(2)您購買的訂單號98766876已經(jīng)從倉庫運出,大概3天后到您手中,請注意查收。以上兩條通知信息結構一樣,但是因為其中關鍵的信息訂單號不一樣,說明這其實可能是有效信息。按照我們上述的原則,即使有很多條類似結構的短信,出現(xiàn)次數(shù)也不會相加。將語義段出現(xiàn)的次數(shù)按照倒序排序,得到每個數(shù)據(jù)集的相同語義段出現(xiàn)次數(shù)的倒序集合,按照以下格式以待下一步處理,舉例來說,表1為數(shù)據(jù)集(移動-短信-2016.05.08)中的所有通知信息劃分為語義段之后的統(tǒng)計結果表;表2為數(shù)據(jù)集(銀行-APP通知-2016.07.03)中的所有通知信息劃分為語義段之后的統(tǒng)計結果表。表1移動-短信-2016.05.08語義段出現(xiàn)次數(shù)溫馨提示:現(xiàn)在充值滿100元可以享受送400M流量包優(yōu)惠。1098現(xiàn)在安裝家庭寬帶,6月1日之前可以享受8折優(yōu)惠876……表2銀行-APP通知-2016.07.03語義段出現(xiàn)次數(shù)當月交易滿100元送100積分8765…876恭喜你當期賬單已經(jīng)還清。342對于每個數(shù)據(jù)集,在統(tǒng)計出其中的所有不同語義段出現(xiàn)的次數(shù)之后,再從中選出目標語義段,可選地,對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段,包括:針對一個數(shù)據(jù)集劃分得到的所有語義段中的任意一個語義段,若所述任意一個語義段滿足下列條件中的至少一個,則確定所述任意一個語義段為目標語義段,否則,確定所述任意一個語義段不為目標語義段。其中:條件一:所述任意一個語義段的權重大于或等于第一閾值,所述任意一個語義段的權重為所述任意一個語義段在所述任意一個數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個數(shù)據(jù)集對應的通知信息的數(shù)量的比值。舉例來說,假設數(shù)據(jù)集A中一共有1000個不同的語義段,且這1000個語義段是來源于400條通知信息,針對其中的語義段a,假設語義段a出現(xiàn)的次數(shù)為500次,則語義段a的權重為500/400=1.25;再比如語義段b,其出現(xiàn)的次數(shù)為200此,則語義段b的權重為200/400=0.5。如果預設的第一閾值為1,則語義段a被確定為目標語義段,而語義段b被確定為不是目標語義段;如果預設的第一閾值為0.4,則語義段a和語義段b都被確定為目標語義段。條件二:所述任意一個語義段屬于目標集合,所述目標集合由所述至少一個數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預設比例的語義段構成。舉例來說,數(shù)據(jù)集B中一共有2000個不同的語義段,第二閾值預設為500,且數(shù)據(jù)集B中出現(xiàn)次數(shù)超過500的語義段共有800個(即數(shù)據(jù)集B的2000個語義段中有800個語義段的出現(xiàn)次數(shù)超過500次),然后從這500個語義段中選出排名前預設比例(例如40%)的語義段,構成目標集合,即目標集合中有200個語義段。對于數(shù)據(jù)集B中的任意一個語義段,假設其屬于該目標集合,則該語義段就是目標語義段;換句話說,目標集合中的任意一個語義段均為目標語義段。對于一個數(shù)據(jù)集中的任意一個語義段,只要其滿足上面的兩個條件中的任意一個,則該語義段就是目標語義段。上述步驟103中,在針對每個數(shù)據(jù)集都得到了目標語義段之后,在利用這些目標語義段來更新模板庫,所述模板庫用于存儲滿足預設條件的語義段。在實際應用中,模板庫可以只有一個,例如模板庫為廣告模板庫,用于存儲為廣告信息的語義段;模板庫也可以由多個庫組成,例如在本發(fā)明實施例中,模板庫包含兩個庫,具體地,所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲廣告類語義段,所述非廣告模板庫用于存儲非廣告類語義段。舉例來說,廣告模板庫中存儲的出現(xiàn)次數(shù)較多的廣告類語義段,例如“當月交易滿100元送100積分”;但是也還有一些語義段,其出現(xiàn)次數(shù)也非常多,但這類語義段其實并不是廣告類語義段,而是一些特定信息,例如銀行發(fā)送的特定信息“恭喜你當期賬單已經(jīng)還清”??蛇x地,根據(jù)所述目標語義段,更新模板庫,具體包括:針對所述目標語義段中的任意一個語義段,將所述任意一個語義段與所述廣告模板庫進行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個語義段與所述非廣告模板庫進行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫??蛇x地,根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫,包括:若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個語義段加入所述非廣告模板庫;若所述第一匹配度為高匹配度且所述第二匹配度為高匹配度,則輸出由人工判斷所述任意一個語義段是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入;若所述第一匹配度為低匹配度且所述第二匹配度為低匹配度,則輸出由人工判斷所述任意一個語義段是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入。上述根據(jù)所述目標語義段,更新模板庫的方法用表3來表示,為:表3通過上面步驟的處理,可以大大減少人工查看語義段的數(shù)量,快速得到新的廣告類的語義段。由于非廣告模板一般比較穩(wěn)定,不會隨著時間快速增加,同時,隨著廣告模板庫的增大,上述表3中的第2種情形會相對比較多一些,而上述表3中的第1和第4種情形會越來越少,直至最后需要人工介入的情況也會越來越少,最后甚至是無需人工接入。對于表3中的第1和第4種情形,其中在第1種情形下,人工判斷的結果一般為:要么將該需要人工判斷的語義段加入到廣告模板庫,要么加入到非廣告模板庫;而對于第4種情形,則一般經(jīng)人工確認后,是兩個模板庫都不加入。當然,具體經(jīng)人工判斷后是需要加入廣告模板庫還是加入非廣告模板庫,或者是都不加入,則是視實際情況而定。下面對上述過程中,確定所述任意一個語義段與所述廣告模板庫的第一匹配度,以及確定所述任意一個語義段與所述非廣告模板庫的第二匹配度??蛇x地,將所述任意一個語義段與廣告模板庫進行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度,包括:若所述任意一個語義段與所述廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為低匹配度。其中:條件一:所述任意一個語義段與所述廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值;舉例來說,假設廣告模板庫中當前已經(jīng)存儲有100個語義段了,這些語義段均為廣告類語義段。那么條件一指的是,對于目標語義段中的任意一個語義段,將該語義段與廣告模板庫中的100個語義段從前往后進行比較,如果該語義段與廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值,則確定滿足上述條件一;如果該語義段與廣告模板庫中的所有語義段的相似度均小于第一相似閾值,則確定不滿足上述條件一。條件二:所述任意一個語義段與所述廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第一比例,M為正整數(shù)。舉例來說,假設廣告模板庫中當前已經(jīng)存儲有100個語義段了,這些語義段均為廣告類語義段。那么條件二指的是,對于目標語義段中的任意一個語義段,將該語義段與廣告模板庫中的100個語義段從前往后進行比較,如果該語義段與廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,并且,M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第一比例,則確定滿足上述條件二;如果M與所述廣告模板庫中語義段的總數(shù)量的比值小于所述預設的第一比例,則確定不滿足上述條件二。例如預設的第一比例為30%,當M等于50時,則表明該語義段滿足條件二,當M=20時,則表明該語義段不滿足條件二,等等。對于目標語義段中的任意一個語義段,如果滿足上述條件一和上述條件二中的至少一個,則將所述該語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將該語義段與所述廣告模板庫的第一匹配度確定為低匹配度。對于將目標語義段中的任意一個語義段與非廣告模板庫進行比較,確定該語義段與非模板廣告庫的第二匹配度的方法,與上述確定第一匹配度的方法類似,只是其中使用到了不同的閾值,例如下述方法使用到的是第三相似閾值,第四相似閾值以及預設的第二比例,具體方法為:若所述任意一個語義段與所述非廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個語義段與所述非廣告模板庫中的任意一個語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個語義段與所述非廣告模板庫中的N個語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第二比例,N為正整數(shù)。通過上述方法,使用到了兩個模板庫,廣告模板庫和非廣告模板庫,從而在對目標語義段進行判斷時,將確實是廣告信息的語義段加入到廣告模板庫中,而將那些只是多次出現(xiàn)的基本信息加入到非廣告模板庫,這么設計的好處在于,如果按照傳統(tǒng)的方法,一般只會設置一個廣告模板庫,而沒有非廣告模板庫,將會導致將多次出現(xiàn)的基本信息也會被加入到廣告模板庫中,這其實是一種錯誤。而使用本發(fā)明實施例中的方法,則會對目標語義段進行正確的劃分,不會造成誤判。此外,在上述步驟中,具體描述了如何確定一個目標語義段是要加入廣告模板庫還是加入非廣告模板庫,還是都不加入。其中,主要使用到了匹配度的確定,具體地,包括將所述任意一個語義段與廣告模板庫進行比較得到第一匹配度,以及將所述任意一個語義段與非廣告模板庫進行比較,得到第二匹配度。本發(fā)明實施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段,由此可以看出,本發(fā)明實施例可以實現(xiàn)自動地從大量的通知信息中找出目標語義段,這些目標語義段中包含疑似廣告信息,進而根據(jù)目標語義段,更新模板庫,因而本發(fā)明實施例在更新模板庫時可以實現(xiàn)自動化地更新模板庫,提高了模板庫的更新效率。另一方面,本發(fā)明實施例提供根據(jù)一種上述任一項所述的更新模板庫的方法的通知信息過濾方法,如圖2所示,包括:步驟201、根據(jù)預設的劃分標識符,將待處理通知信息劃分為至少一個語義段;步驟202、針對所述至少一個語義段中的任意一個語義段,確定所述任意一個語義段是否為廣告語義段;具體地,包括以下步驟:步驟2021、將所述任意一個語義段與所述非廣告模板庫進行比較,確定所述任意一個語義段與所述非廣告模板庫的第三匹配度;步驟2022、若所述第三匹配度為高匹配度,則確定所述任意一個語義段為非廣告語義段;步驟2023、若所述第三匹配度為低匹配度,則將所述任意一個語義段與所述廣告模板庫進行比較,確定所述任意一個語義段與所述廣告模板庫的第四匹配度;步驟2024、若所述第四匹配度為高匹配度,則確定所述任意一個語義段為廣告語義段,否則,確定所述任意一個語義段為非廣告語義段。步驟203、若確定所述任意一個語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個語義段。上述過程,首先將待處理通知信息劃分為多個語義段,針對其中任意一個語義段,如果確定該語義段是廣告語義段,則將該語義段從通知信息中刪除;如果確定該語義段是非廣告語義段,則不刪除,即保留該語義段,從而最終可以將一個待處理通知信息中的廣告語義段過濾掉。此外,在上述實施例中,對于匹配度的具體確定方式,主要是依據(jù)廣告模板庫及非廣告模板庫中語義段的存儲方式,例如,一種存儲方式為,對語義段進行分詞,存儲語義段對應的分詞特征。舉例來說,假設一個目標語義段為:如果在本月底消費100元,將有機會抽取iphone6。則分詞后的分詞特征A為:如果,在,本月,底,消費,100,元,將有,機會,抽取,iphone6。假設廣告模板庫中已有一條語義段,其存儲的分詞特征B為:如果,您,在,本月,30,日,之前,消費,200,元,有,機會,抽取,大獎。那么,確定目標語義段與廣告模板庫的第一匹配度的具體方式為:首先需要從A找到“如果”,然后從B中搜索是否有“如果”,如果存在,則表示第一個有相同的詞語,然后再看“您”在B中是否出現(xiàn),剩下類似,直到A中所有的詞語都判斷完畢,然后將A和B中同時出現(xiàn)的詞語的數(shù)量/A、B不重復出現(xiàn)的所有詞語的數(shù)量作為目標語義段與廣告模板庫的相似度。上述過程可以實現(xiàn)確定一個目標語義段與廣告模板庫的相似度,使用相同的方法,也可以確定一個目標語義段與非廣告模板庫的相似度。但以上的處理過程由于只考慮了詞語的絕對相似性,沒考慮該詞在原來信息段中的位置和重要程度;并且從處理過程來看,該方法中模板庫中存儲的是分詞特征,將會占據(jù)較大的存儲空間,并且計算模板相似度的時間復雜度也比較高,而且匹配的準確性卻不高,因而上述方法具有極大的改進空間。下面給出一種語義段的轉換方法,具體地,通過該方法,可以計算每個語義段對應的哈希值。因而基于這種轉換方法,在廣告模板庫中,存儲的每個廣告類語義段都是以哈希值的形式進行存儲的,并且在對某個語義段與廣告模板庫進行匹配時,也是首先將該語義段轉換為哈希值,然后與廣告模板庫進行匹配。舉例來說,假設廣告模板中有某個廣告類語義段為:如果您在本月30日之前消費200元,有機會抽取大獎,并且該廣告類語義段被轉換后,對應的哈希值為:110110011110(假設每個語義段是以12位二進制數(shù)來表示)。因而,按照上述方法,在廣告類模板庫中存儲的將是每個廣告類語義段對應的哈希值,而不是廣告類語義段內(nèi)容本身,這種存儲方式,一方面比較節(jié)省空間;另一方面,在對廣告模板庫進行更新時,是將待判斷的目標語義段對應的哈希值與廣告模板庫中存儲的哈希值進行比較,效率將提高很多。上述只是以廣告模板庫為例進行說明,對于非廣告模板庫,其處理方式與廣告模板庫相同,不再贅述。下面結合附圖進行詳細說明。參照附圖3,為本發(fā)明實施例提供的一種語義段的轉換方法,包括:步驟301、根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;步驟302、對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;步驟303、根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值。在本發(fā)明實施例中,每個語義段使用一個包含預設位數(shù)的二進制數(shù)值來表示,并且對一個語義段進行分詞后得到的每個詞語,也使用一個具有相同預設位數(shù)的二進制數(shù)值來表示。舉例來說,一個語義段使用12位的二進制數(shù)值來表示,則該語義段中的每個詞語也使用12位的二進制數(shù)值來表示。在上述步驟301中,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值,可選地,具體為:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應的權重設置為第一預設權重值;例如,如果一個通知信息中只包含一個語義段,則將該語義段對應的權重值統(tǒng)一設置為1.5,或者是設置為2等等,具體視實際情況而定。若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應的權重值按照所述語義段在所述通知信息中的位置進行設置,其中,距離所述通知信息的首部越遠的語義段的權重值越大。例如,將一個語義段對應的權重值用W1來說表示。一個通知信息中包含3個語義段,則可以依次將第1個語義段的權重設置為0.7,將第2個語義段的權重設置為0.8,將第3個語義段的權重設置為1,因而一般情況下,廣告類語義段一般是出現(xiàn)在一條通知信息中比較靠后的位置,因為一條通知信息一般是在開始的位置給出正常的信息內(nèi)容,后面才會是加上廣告信息,因此根據(jù)通知信息的這個特點,本發(fā)明在對語義段設置權重時,如果通知信息中包含多個語義段,則將靠后位置的語義段的權重值設置的要大于靠前位置的語義段的權重值。上述步驟302中,對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值,可選地,根據(jù)下列方式確定所述語義段中的每個詞語對應的權重值:根據(jù)所述詞語的業(yè)務屬性及所述詞語在所述語義段中的位置,確定所述詞語對應的第一權重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應的第二權重值;根據(jù)確定的所述詞語對應的第一權重值及對應的第二權重值,確定詞語對應的權重值??蛇x地,對所述語義段進行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設置對應的權重值之前,還包括:將所述語義段中的每個詞語與專有名詞庫進行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉換為與所述詞語的屬性對應的預設名詞。下面舉例說明。例如對于以下是三條語義段:①當月交易滿100元送100積分。②3月30日前訪問www.ddd.com獲得最新打折機票信息,注冊就有獎。③立即回復hd即可享受充值滿100元送400M流量包優(yōu)惠。分詞結構如下:①當月|交易|滿|A|元|送|A|積分|。②D|前|訪問|U|獲得|最新|打折|機票|信息|,|注冊|就|有獎|。③立即回復|hd|即可|享受|充值|滿|A|元|送|A|M|流量包|優(yōu)惠|。首先,對待分析語義段進行分詞,并且對于日期、金額、網(wǎng)頁類等專有名詞,都轉化成統(tǒng)一的類型詞。例如,將上述①中的100轉成了A,②中的日期轉成了D,②中的具體url轉成了U等等。這樣做的目的是盡可能和廣告模板庫和非廣告模板進行匹配,而且可以排除變化特征的影響。例如,經(jīng)過上面處理后,以下2個模板在對比中是一模一樣的:①當月交易滿100元送100積分。②當月交易滿200元送150積分。分詞后將每個詞語設定不同的權重系數(shù),權重的設定和該詞在語義段出現(xiàn)的位置和業(yè)務屬性、該詞與廣告屬性的相關度相關。具體地,可以根據(jù)詞語的業(yè)務屬性及詞語在語義段中的位置,確定詞語對應的第一權重值W2;例如對于業(yè)務相關詞語,如果出現(xiàn)語義段開頭,那么其表示業(yè)務含義的可能性較高;如果出現(xiàn)在語義段中后部,那么則更可能為廣告中的附帶信息。因而一個業(yè)務類詞語,如果出現(xiàn)在語義段的中后部,則相應的權重W2將會設置的要高一些。根據(jù)詞語與廣告屬性詞庫的匹配度,確定詞語對應的第二權重值W3。W3的含義則表示該字符與廣告屬性的接近程度,例如③中的“立即回復”一般為廣告中出現(xiàn)的特有特征詞語,所以它的權重值相對較高。上述步驟303中,根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值??蛇x地,根據(jù)下列方式來確定語義段對應的哈希值:針對所述語義段中的任意一個詞語,將所述詞語對應的哈希值中的0替換為-1,得到所述詞語對應的第一目標值;根據(jù)所述語義段對應的權重值、所述詞語對應的權重值及所述第一目標值,得到所述詞語對應的第二目標值;將所述語義段中每個詞語對應的第二目標值在對應的位上相加,得到所述語義段對應的目標值;針對所述語義段對應的目標值中的任意一位,若所述任意一位對應的數(shù)值大于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為1;若所述任意一位對應的數(shù)值小于或等于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為0。下面結合具體的例子進行說明。以“D|前|訪問|U|獲得|最新|打折|機票|信息|,|注冊|就|有獎|?!睘槔?,假設該語義段對應的權重值為W1,每個詞語對應一個第一權重值W2和一個第二權重值W3,即每個詞語對應的W2和W3相互之間是沒有聯(lián)系的。并且,為下面說明方便,假設每次詞語及一個語義段用5位來表示,實際應用中一般是大于128位。具體計算過程如下:(1)、計算語義段對應的權重值W1;(2)、計算每個詞語的哈希值,例如:“D”計算的值為10001“前”計算的值為01100…..“有獎”計算的值為00110(3)、將每個詞語對應的哈希值中的1設為1,0設為-1,乘以自己的W1,W2,W3,則有:“D”計算的值為5-5-5-55(假設W1*W2*W3=5)“前”計算的值為-444-4-4(假設W1*W2*W3=4)……“有獎”計算的值為-9-999-9(假設W1*W2*W3=9)(4)、將該語義段的所有詞語的每位數(shù)值相加,并將>0的結果設為1,<=0的結果設置為0。假設該語義段的最終計算值為89-3-41,則該語義段對應的哈希值為11001。本發(fā)明實施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值。從而在廣告模板庫中存儲的均為語義段對應的哈希值,比較節(jié)約空間;以及在對通知信息進行廣告過濾時,將通知信息中語義段對應的哈希值與廣告模板庫中的哈希值進行比較,效率比較高。下面結合圖2所示的通知信息過濾方法和圖3所示的語義段的轉換方法,舉例說明本發(fā)明實施例的通知信息過濾的具體方法:假設廣告模板庫,其中存儲了廣告語義段的哈希值(每個哈希值例如使用10位二進制數(shù)來表示,當然,這里只是為方便舉例說明,實際應用中,一般需要大于128位),例如廣告模板庫當前包含5個哈希值,分別為:1101101110,1010111000,1111100000,1110000001,1100110011。假設非廣告模板庫,其中存儲了非廣告語義段的哈希值,每個哈希值也使用10位二進制數(shù)來表示,例如非廣告模板庫當前包含4個哈希值,分別為:0000111100,0000011111,0001110011,1000000001。假設當前有一個待處理通知信息,首先根據(jù)預設的劃分標識符,將該待處理通知信息劃分為多個語義段,例如劃分為了2個語義段,然后根據(jù)上述圖3所示的語義段轉換方法,將每個語義段轉換為10位的二進制哈希值,例如分別被轉換為:1101101111,0000011110。然后針對這兩個語義段中的任意一個,通過下列方法判斷是否需要過濾該語義段,例如以1101101111為例進行說明:步驟A、將1101101111與非廣告模板庫進行比較,確定第三匹配度(其方法與更新模板庫時確定目標語義段與非廣告模板庫的匹配度的方法相同,即確定是否滿足兩個條件中的一個,若是則確定為高匹配度,否則確定為低匹配度,這里不重復說明,可參照上面的描述),假設第五相似閾值為90%,第六相似閾值為80%,則計算過程具體包括:首先依次確定1101101111與非廣告模板庫中的語義段對應的哈希值之間的相似度(即在相同位上具有形同數(shù)值的個數(shù)),直至找到一個相似度大于或等于90%的哈希值或均小于90%為止。通過計算得到:1101101111與0000111100的相似度為30%,(1101101111與0000111100在3個位上具有相同的數(shù)值,因此相似度為3/10=30%);1101101111與0000011111的相似度為40%;1101101111與0001110011的相似度為40%;1101101111與1000000001的相似度為40%。由此可知,1101101111與非廣告模板庫不滿足條件一,即1101101111與非廣告模板庫中的任意一個語義段的相似度大于或等于90%;并且1101101111與非廣告模板庫中的語義段大于80%且小于90%的個數(shù)為0,假設條件二下要求預設比例為80%,則1101101111與非廣告模板庫不滿足條件二。因此最終,確定1101101111與非廣告模板庫的第三匹配度為低匹配度。步驟B、將1101101111與廣告模板庫進行比較,確定第四匹配度(其方法與更新模板庫時確定目標語義段與非廣告模板庫的匹配度的方法相同,即確定是否滿足兩個條件中的一個,若是則確定為高匹配度,否則確定為低匹配度,這里不重復說明,可參照上面的描述),假設第七相似閾值為90%,第八相似閾值為80%,則計算過程與上述步驟A中計算1101101111與非廣告模板庫的過程類似,這里不再贅述,最終結果為:1101101111與1101101110的相似度為90%。由于直接在廣告模板庫中找到了一個與1101101111的相似度大于或等于90%的語義段對應的哈希值,因此可以直接確定1101101111與廣告模板庫的第四匹配度為高匹配度。步驟C、從待處理通知信息中刪除1101101111對應的語義段。即從待處理通知信息中刪除1101101111對應的語義段。此外,對于待處理通知信息中的另一個語義段對應的哈希值0000011110,其由于與非廣告模板庫的第三匹配度為高匹配度,因此不對其進行刪除,而是保留。這里不對其計算過程進行贅述。下面對本發(fā)明實施例提供的一種更新模板庫的方法做詳細描述,如圖4所示,包括:步驟401、根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;可選地,根據(jù)通知信息對應的應用名稱、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應的應用名稱、渠道,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應的應用名稱、渠道、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。步驟402、針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段;可選地,針對劃分得到的所有語義段中的任意一個語義段,若所述任意一個語義段滿足下列條件中的至少一個,則確定所述任意一個語義段為目標語義段,否則,確定所述任意一個語義段不為目標語義段:條件一:所述任意一個語義段的權重大于或等于第一閾值,所述任意一個語義段的權重為所述任意一個語義段在所述任意一個數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個數(shù)據(jù)集對應的通知信息的數(shù)量的比值;條件二:所述任意一個語義段屬于目標集合,所述目標集合由所述至少一個數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預設比例的語義段構成。步驟403、所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲廣告類語義段,所述非廣告模板庫用于存儲非廣告類語義段;針對所述目標語義段中的任意一個語義段,將所述任意一個語義段與所述廣告模板庫進行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個語義段與所述非廣告模板庫進行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫??蛇x地,若所述任意一個語義段與所述廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為低匹配度:條件一:所述任意一個語義段與所述廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個語義段與所述廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第一比例,M為正整數(shù);可選地,若所述任意一個語義段與所述非廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個語義段與所述非廣告模板庫中的任意一個語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個語義段與所述非廣告模板庫中的N個語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第二比例,N為正整數(shù)??蛇x地,若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個語義段加入所述非廣告模板庫。本發(fā)明實施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段,由此可以看出,本發(fā)明實施例可以實現(xiàn)自動地從大量的通知信息中找出目標語義段,這些目標語義段中包含疑似廣告信息,進而根據(jù)目標語義段,更新模板庫,因而本發(fā)明實施例在更新模板庫時可以實現(xiàn)自動化地更新模板庫,提高了模板庫的更新效率。下面對本發(fā)明實施例提供的一種語義段的轉換方法做詳細描述,如圖5所示,包括:步驟501、根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;具體為,若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應的權重設置為第一預設權重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應的權重值按照所述語義段在所述通知信息中的位置進行設置,其中,距離所述通知信息的首部越遠的語義段的權重值越大。步驟502、將所述語義段中的每個詞語與專有名詞庫進行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉換為與所述詞語的屬性對應的預設名詞;步驟503、確定所述語義段中的每個詞語對應的權重值;具體為,根據(jù)下列方式確定所述語義段中的每個詞語對應的權重值:根據(jù)所述詞語的業(yè)務屬性及所述詞語在所述語義段中的位置,確定所述詞語對應的第一權重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應的第二權重值;根據(jù)確定的所述詞語對應的第一權重值及對應的第二權重值,確定詞語對應的權重值。步驟504、根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值。具體為,所述每個語義段中的每個詞語對應的哈希值為包含預設位數(shù)的二進制數(shù)值;針對所述語義段中的任意一個詞語,將所述詞語對應的哈希值中的0替換為-1,得到所述詞語對應的第一目標值;根據(jù)所述語義段對應的權重值、所述詞語對應的權重值及所述第一目標值,得到所述詞語對應的第二目標值;將所述語義段中每個詞語對應的第二目標值在對應的位上相加,得到所述語義段對應的目標值;針對所述語義段對應的目標值中的任意一位,若所述任意一位對應的數(shù)值大于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為1;若所述任意一位對應的數(shù)值小于或等于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為0。本發(fā)明實施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值。從而在廣告模板庫中存儲的均為語義段對應的哈希值,比較節(jié)約空間;以及在對通知信息進行廣告過濾時,將通知信息中語義段對應的哈希值與廣告模板庫中的哈希值進行比較,效率比較高?;谙嗤募夹g構思,本發(fā)明實施例還提供一種更新模板庫的裝置,如圖6所示,包括:數(shù)據(jù)集劃分單元601,用于根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;目標語義段選取單元602,用于針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段;更新單元603,用于根據(jù)所述目標語義段,更新模板庫,所述模板庫用于存儲滿足預設條件的語義段。可選地,所述數(shù)據(jù)集劃分單元601,具體用于:根據(jù)通知信息對應的應用名稱、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應的應用名稱、渠道,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;或者根據(jù)通知信息對應的應用名稱、渠道、時間,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集。可選地,所述目標語義段選取單元602,具體用于:針對劃分得到的所有語義段中的任意一個語義段,若所述任意一個語義段滿足下列條件中的至少一個,則確定所述任意一個語義段為目標語義段,否則,確定所述任意一個語義段不為目標語義段:條件一:所述任意一個語義段的權重大于或等于第一閾值,所述任意一個語義段的權重為所述任意一個語義段在所述任意一個數(shù)據(jù)集中的出現(xiàn)次數(shù)與所述任意一個數(shù)據(jù)集對應的通知信息的數(shù)量的比值;條件二:所述任意一個語義段屬于目標集合,所述目標集合由所述至少一個數(shù)據(jù)集中出現(xiàn)次數(shù)大于第二閾值的所有語義段中排名靠前預設比例的語義段構成。可選地,所述模板庫包括廣告模板庫和非廣告模板庫,所述廣告模板庫用于存儲廣告類語義段,所述非廣告模板庫用于存儲非廣告類語義段;所述更新單元603,具體用于:針對所述目標語義段中的任意一個語義段,將所述任意一個語義段與所述廣告模板庫進行比較,確定所述任意一個語義段與所述廣告模板庫的第一匹配度;以及將所述任意一個語義段與所述非廣告模板庫進行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度;根據(jù)所述第一匹配度、所述第二匹配度及所述任意一個語義段,更新所述廣告模板庫或所述非廣告模板庫??蛇x地,所述更新單元603,具體用于:若所述任意一個語義段與所述廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為高匹配度,否則,將所述任意一個語義段與所述廣告模板庫的第一匹配度確定為低匹配度:條件一:所述任意一個語義段與所述廣告模板庫中的至少一個語義段的相似度大于或等于第一相似閾值;條件二:所述任意一個語義段與所述廣告模板庫中的M個語義段的相似度小于所述第一相似閾值且大于第二相似閾值,且M與所述廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第一比例;將所述任意一個語義段與非廣告模板庫進行比較,確定所述任意一個語義段與所述非模板廣告庫的第二匹配度,包括:若所述任意一個語義段與所述非廣告模板庫滿足下列條件中的至少一個,則將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為高匹配度,否則,將所述任意一個語義段與所述非廣告模板庫的第二匹配度確定為低匹配度:條件一:所述任意一個語義段與所述非廣告模板庫中的任意一個語義段的相似度大于或等于第三相似閾值;條件二:所述任意一個語義段與所述非廣告模板庫中的N個語義段的相似度小于所述第三相似閾值且大于第四相似閾值,且N與所述非廣告模板庫中語義段的總數(shù)量的比值大于或等于預設的第二比例??蛇x地,所述更新單元603,具體用于:若所述第一匹配度為高匹配度且所述第二匹配度為低匹配度,則將所述任意一個語義段加入所述廣告模板庫;若所述第一匹配度為低匹配度且所述第二匹配度為高匹配度,則將所述任意一個語義段加入所述非廣告模板庫??蛇x地,所述預設的劃分標識符為句號、問號以及感嘆號。本發(fā)明實施例,首先根據(jù)通知信息的來源,將獲取到的通知信息劃分為至少一個數(shù)據(jù)集;針對所述至少一個數(shù)據(jù)集中的任意一個數(shù)據(jù)集,根據(jù)預設的劃分標識符,將所述任意一個數(shù)據(jù)集中的每條通知信息劃分為至少一個語義段;對劃分得到的所有語義段在所述任意一個數(shù)據(jù)集中出現(xiàn)次數(shù)進行統(tǒng)計,并選取出現(xiàn)次數(shù)滿足預設條件的語義段作為目標語義段,由此可以看出,本發(fā)明實施例可以實現(xiàn)自動地從大量的通知信息中找出目標語義段,這些目標語義段中包含疑似廣告信息,進而根據(jù)目標語義段,更新模板庫,因而本發(fā)明實施例在更新模板庫時可以實現(xiàn)自動化地更新模板庫,提高了模板庫的更新效率。基于相同的技術構思,本發(fā)明實施例還提供一種通知信息過濾裝置,如圖7所示,包括:語義段劃分單元701,用于根據(jù)預設的劃分標識符,將待處理通知信息劃分為至少一個語義段;過濾單元702,用于針對所述至少一個語義段中的任意一個語義段,若確定所述任意一個語義段是廣告語義段,則從所述待處理通知信息中刪除所述任意一個語義段;廣告語義段確定單元703,用于通過下述過程確定所述任意一個語義段是否為廣告語義段:將所述任意一個語義段與所述非廣告模板庫進行比較,確定所述任意一個語義段與所述非廣告模板庫的第三匹配度;若所述第三匹配度為高匹配度,則確定所述任意一個語義段為非廣告語義段;若所述第三匹配度為低匹配度,則將所述任意一個語義段與所述廣告模板庫進行比較,確定所述任意一個語義段與所述廣告模板庫的第四匹配度;若所述第四匹配度為高匹配度,則確定所述任意一個語義段為廣告語義段,否則,確定所述任意一個語義段為非廣告語義段?;谙嗤募夹g構思,本發(fā)明實施例還提供一種語義段的轉換裝置,如圖8所示,包括:語義段權重值確定單元801,用于根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;詞語權重值確定單元802,用于對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;哈希值確定單元803,用于根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值??蛇x地,所述每個語義段中的每個詞語對應的哈希值為包含預設位數(shù)的二進制數(shù)值;所述哈希值確定單元803,具體用于:針對所述語義段中的任意一個詞語,將所述詞語對應的哈希值中的0替換為-1,得到所述詞語對應的第一目標值;根據(jù)所述語義段對應的權重值、所述詞語對應的權重值及所述第一目標值,得到所述詞語對應的第二目標值;將所述語義段中每個詞語對應的第二目標值在對應的位上相加,得到所述語義段對應的目標值;針對所述語義段對應的目標值中的任意一位,若所述任意一位對應的數(shù)值大于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為1;若所述任意一位對應的數(shù)值小于或等于0,則將所述語義段對應的哈希值在所述任意一位的數(shù)值設置為0??蛇x地,所述語義段權重值確定裝置801,具體用于:若所述通知信息中包含的語義段的數(shù)量等于1,則將所述語義段對應的權重設置為第一預設權重值;若所述通知信息中包含的語義段的數(shù)量大于1,則所述語義段對應的權重值按照所述語義段在所述通知信息中的位置進行設置,其中,距離所述通知信息的首部越遠的語義段的權重值越大。可選地,所述詞語權重值確定單元802,具體用于根據(jù)下列方式確定所述語義段中的每個詞語對應的權重值:根據(jù)所述詞語的業(yè)務屬性及所述詞語在所述語義段中的位置,確定所述詞語對應的第一權重值;根據(jù)所述詞語與廣告屬性詞庫的匹配度,確定所述詞語對應的第二權重值;根據(jù)確定的所述詞語對應的第一權重值及對應的第二權重值,確定詞語對應的權重值。可選地,所述詞語權重值確定單元802,還用于:對所述語義段進行分詞得到多個詞語之后,為所述多個詞語中的每個詞語設置對應的權重值之前,將所述語義段中的每個詞語與專有名詞庫進行匹配;若確定所述詞語與所述專有名詞庫匹配成功,則根據(jù)所述詞語的屬性,將所述詞語轉換為與所述詞語的屬性對應的預設名詞。本發(fā)明實施例,根據(jù)語義段在所述語義段所在的通知信息中的位置,為所述語義段設置對應的權重值;對所述語義段進行分詞得到多個詞語,并為所述多個詞語中的每個詞語設置對應的權重值;根據(jù)所述語義段對應的權重值、所述語義段中的每個詞語對應的權重值以及所述語義段中的每個詞語對應的哈希值,為所述語義段確定對應的哈希值。從而在廣告模板庫中存儲的均為語義段對應的哈希值,比較節(jié)約空間;以及在對通知信息進行廣告過濾時,將通知信息中語義段對應的哈希值與廣告模板庫中的哈希值進行比較,效率比較高。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內(nèi)的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。顯然,本領域的技術人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當前第1頁1 2 3