專利名稱:一種手機(jī)報(bào)中新聞內(nèi)容的抽取方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)字信息的抽取方法及系統(tǒng),尤其是涉及一種手機(jī)報(bào)中新聞內(nèi)容的抽取方法及系統(tǒng)。
背景技術(shù):
2004年7月,國內(nèi)第一家手機(jī)報(bào)《中國婦女報(bào)》誕生。2005年5月,國內(nèi)首家省級手機(jī)報(bào)《浙江手機(jī)報(bào)》問世……一時間,手機(jī)報(bào)作為一種新興媒體遍地開花。各大省級報(bào)業(yè)集團(tuán)也紛紛把紙質(zhì)媒體辦上手機(jī)。近年來,手機(jī)報(bào)更是異軍突起,市場規(guī)模不斷擴(kuò)大,活躍用戶數(shù)迅速突破1. 49億,已成為了數(shù)字出版的新亮點(diǎn)。數(shù)據(jù)顯示,截止2008年12月,我國手機(jī)報(bào)業(yè)務(wù)普及率已經(jīng)達(dá)39.6%。在對手機(jī)報(bào)的重要性判斷中,有近67. 5%的用戶認(rèn)為手機(jī)報(bào)是傳統(tǒng)報(bào)紙的補(bǔ)充,對于19. 4%的用戶而言,手機(jī)報(bào)已經(jīng)與紙質(zhì)報(bào)紙同樣重要,有4. 3% 用戶認(rèn)為手機(jī)報(bào)在未來將取代報(bào)紙。隨著手機(jī)報(bào)業(yè)務(wù)的急劇增長,其問題也逐漸顯現(xiàn)出來。目前手機(jī)報(bào)的內(nèi)容主要來自全國報(bào)紙和地方報(bào)紙以及廣告,再由電信運(yùn)營商運(yùn)營,其中缺乏有效的內(nèi)容管理。電信運(yùn)營商對手機(jī)報(bào)業(yè)務(wù)的發(fā)展有主導(dǎo)權(quán),但是運(yùn)營商屬信息產(chǎn)業(yè)部管轄,但信息產(chǎn)業(yè)部并不是國家法律規(guī)定的新聞宣傳管理機(jī)關(guān),無法管理媒體內(nèi)容。傳統(tǒng)的搜索引擎只能搜索查詢互聯(lián)網(wǎng)上發(fā)布的各種新聞信息,對于手機(jī)報(bào)信息愛莫能助。用戶只能在手機(jī)上瀏覽手機(jī)報(bào),不能將手機(jī)報(bào)內(nèi)容采集到本地,也不能對手機(jī)報(bào)內(nèi)容進(jìn)行抽取分析后,提供給相應(yīng)的業(yè)務(wù)應(yīng)用系統(tǒng)使用。也就是說,用戶無法對手機(jī)報(bào)的內(nèi)容進(jìn)行檢索、分析和統(tǒng)計(jì)等處理。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明要解決的技術(shù)問題是提供一種手機(jī)報(bào)中新聞內(nèi)容的抽取方法及系統(tǒng),該方法及系統(tǒng)能夠自動接收各種手機(jī)報(bào),并對其內(nèi)容進(jìn)行抽取分析。為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案如下—種手機(jī)報(bào)中新聞內(nèi)容的抽取方法,包括以下步驟(1)接收預(yù)先訂閱的手機(jī)報(bào)信息,并將接收的手機(jī)報(bào)信息存儲在本地,所述手機(jī)報(bào)的類型包括短信和彩信;(2)從本地讀取手機(jī)報(bào)信息;(3)根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容。一種手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng),包括用于接收預(yù)先訂閱的手機(jī)報(bào)信息,并將接收的手機(jī)報(bào)信息存儲在本地的接收裝置;用于從本地讀取手機(jī)報(bào)信息的讀取裝置;以及用于根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容的抽取裝置。本發(fā)明所述的方法及系統(tǒng),能夠自動接收各種手機(jī)報(bào),并對其內(nèi)容進(jìn)行抽取分析,并將分析后的新聞內(nèi)容的各數(shù)據(jù)項(xiàng)上傳至數(shù)據(jù)庫和對應(yīng)的文件服務(wù)器中。本發(fā)明具有較高的采集效率和準(zhǔn)確率,能夠?qū)⒅荒茉诟鱾€手機(jī)終端上瀏覽的手機(jī)報(bào)集中采集到本地,并能夠?qū)ζ溥M(jìn)行智能分析處理,使得手機(jī)報(bào)信息得以能夠被應(yīng)用系統(tǒng)使用。
圖1是具體實(shí)施方式
中手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng)的結(jié)構(gòu)和數(shù)據(jù)流圖;圖2是具體實(shí)施方式
中手機(jī)報(bào)中新聞內(nèi)容的抽取方法流程圖;圖3是具體實(shí)施方式
中讀取手機(jī)報(bào)信息的方法流程圖;圖4是具體實(shí)施方式
中短信類型的手機(jī)報(bào)信息抽取方法流程圖;圖5是具體實(shí)施方式
中彩信類型的手機(jī)報(bào)信息抽取方法流程圖;圖6是具體實(shí)施方式
中彩信類型的手機(jī)報(bào)一個文本文件的抽取方法流程圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施方式
和附圖對本發(fā)明進(jìn)行詳細(xì)描述。圖1為概略表示本發(fā)明一實(shí)施方式中手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng)結(jié)構(gòu)及數(shù)據(jù)流圖。如圖1所示,該系統(tǒng)包括接收裝置101,與接收裝置101連接的讀取裝置102,與讀取裝置102連接的過濾裝置1105,與過濾裝置1105連接的抽取裝置103,與抽取裝置103連接的過濾裝置11106,與過濾裝置II106連接的提取裝置107和分類裝置108,與提取裝置107 和分類裝置108連接的上傳裝置104,與上傳裝置104連接的數(shù)據(jù)庫109文件服務(wù)器110。接收裝置101用于接收預(yù)先訂閱的手機(jī)報(bào)信息。手機(jī)報(bào)的類型包括短信和彩信。 對于短信類型的手機(jī)報(bào),直接將手機(jī)報(bào)的屬性信息和手機(jī)報(bào)內(nèi)容存儲在數(shù)據(jù)庫中;對于彩信類型的手機(jī)報(bào),將手機(jī)報(bào)的屬性信息存儲在數(shù)據(jù)庫中,將手機(jī)報(bào)的實(shí)體文件(即記錄手機(jī)報(bào)內(nèi)容的文件)存儲在本地磁盤上。所述手機(jī)報(bào)的屬性信息包括特服號碼、手機(jī)報(bào)實(shí)體文件的存儲路徑、手機(jī)報(bào)標(biāo)題、手機(jī)報(bào)下載地址、信息到達(dá)時間、下載結(jié)束時間、下載結(jié)束狀態(tài)(成功或失敗)、該手機(jī)報(bào)在數(shù)據(jù)庫中記錄的唯一標(biāo)識、手機(jī)報(bào)的類型等。短信類型的手機(jī)報(bào)僅僅包括文字信息,而彩信類型的手機(jī)報(bào)不僅包括文字信息, 而且還包括圖片等信息。接收裝置101按照手機(jī)報(bào)中內(nèi)容的先后順序?qū)⒉市沤邮諡槎鄠€文件,每個文件標(biāo)有其順序編號。其中,將圖片單獨(dú)存儲成圖片文件,并標(biāo)明圖片在新聞內(nèi)容中的位置。讀取裝置102用于讀取手機(jī)報(bào)信息。過濾裝置1105用于在抽取手機(jī)報(bào)信息中的新聞內(nèi)容之前過濾手機(jī)報(bào)中的無用信
肩、ο抽取裝置103用于根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容。所述新聞內(nèi)容包括標(biāo)題、正文和圖片等信息。過濾裝置II106用于在抽取手機(jī)報(bào)信息中的新聞內(nèi)容后對抽取的新聞內(nèi)容按照預(yù)先配置的垃圾規(guī)則進(jìn)行垃圾信息過濾,過濾掉新聞內(nèi)容中包含的垃圾信息。提取裝置107用于提取垃圾信息過濾后的新聞內(nèi)容的關(guān)鍵詞。分類裝置108用于將垃圾信息過濾后的新聞內(nèi)容進(jìn)行分類。上載裝置104用于將新聞圖片上傳至文件服務(wù)器110,將標(biāo)題、新聞內(nèi)容的正文(按照分類)、發(fā)送時間、關(guān)鍵詞等信息上傳至數(shù)據(jù)庫109。如圖1和圖2所示,采用圖1所示系統(tǒng)抽取手機(jī)報(bào)中新聞內(nèi)容的方法包括以下步驟(1)接收裝置101接收預(yù)先訂閱的手機(jī)報(bào)信息(步驟S21)。本實(shí)施方式中,接收裝置101采用彩信貓?jiān)O(shè)備。首先配置彩信貓?jiān)O(shè)備需要連接的數(shù)據(jù)庫,然后將已成功訂閱了手機(jī)報(bào)的SIM卡插至彩信貓?jiān)O(shè)備對應(yīng)的插槽中,啟動彩信貓?jiān)O(shè)備為工作狀態(tài),等待接收訂閱的手機(jī)報(bào)信息。如果是短信類型的手機(jī)報(bào),則直接將手機(jī)報(bào)的屬性信息和手機(jī)報(bào)內(nèi)容存儲在數(shù)據(jù)庫中;如果是彩信類型的手機(jī)報(bào),則將手機(jī)報(bào)的屬性信息存儲在數(shù)據(jù)庫中,將手機(jī)報(bào)的實(shí)體文件存儲在本地磁盤上。(2)讀取裝置102讀取手機(jī)報(bào)信息(步驟S22)。本實(shí)施方式中,讀取手機(jī)報(bào)信息的流程如圖3所示,包括以下步驟(a)手機(jī)報(bào)信息監(jiān)控線程定時掃描數(shù)據(jù)庫(步驟S30)??梢悦扛鬞秒掃描一次數(shù)據(jù)庫,T可以根據(jù)單位時間內(nèi)手機(jī)報(bào)信息的接收條數(shù)動態(tài)改變。在某段時間內(nèi),如果接收的手機(jī)報(bào)信息較多,則T的取值可自動變小,如30秒;如果接收的手機(jī)報(bào)信息較少或者沒有, 則T的取值可自動變大。(b)查詢是否有新的手機(jī)報(bào)信息(步驟S31),如果有,則進(jìn)入步驟(C);否則,返回步驟(a)。(c)從所有新的手機(jī)報(bào)信息中讀取一條未讀取過的手機(jī)報(bào)信息記錄(步驟S32)。優(yōu)選的,可以將所有新的手機(jī)報(bào)信息記錄按照接收時間排序,然后按照接收時間先后順序讀取每條手機(jī)報(bào)信息,直到讀取完所有的手機(jī)報(bào)信息,轉(zhuǎn)至步驟(a)。(d)判斷該條手機(jī)報(bào)信息的接收狀態(tài),如果接收狀態(tài)為“已成功接收”(步驟S33), 則進(jìn)入步驟(f);如果接收狀態(tài)為“接收失敗”(步驟S36),則刪除該手機(jī)報(bào)在數(shù)據(jù)庫中的記錄及已下載的實(shí)體文件(步驟S37),轉(zhuǎn)至步驟(g);如果接收狀態(tài)為“未接收”或“正在接收中”,則跳過該條手機(jī)報(bào)信息,轉(zhuǎn)至步驟(g)。(f)將數(shù)據(jù)庫中存儲的該手機(jī)報(bào)信息的所有屬性信息讀入內(nèi)存(步驟S34)。(g)判斷所有新的手機(jī)報(bào)信息是否均被讀取過(步驟S35),如是,則轉(zhuǎn)至步驟(a); 否則,轉(zhuǎn)至步驟(C)。(3)根據(jù)預(yù)設(shè)的過濾規(guī)則對手機(jī)報(bào)信息進(jìn)行過濾,過濾掉手機(jī)報(bào)中的無用信息 (步驟S23)。所述過濾規(guī)則由用戶根據(jù)具體應(yīng)用環(huán)境確定。例如,如果用戶認(rèn)為娛樂類新聞是無用的信息,則配置與娛樂類新聞相關(guān)的關(guān)鍵詞,當(dāng)匹配到與所述關(guān)鍵詞相符的新聞時,將該新聞視為垃圾信息,丟棄。(4)根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容(步驟S24)。所述新聞內(nèi)容包括標(biāo)題、正文和圖片。本實(shí)施方式中,模板為xml格式的文本文件,可以使用專用的配置工具進(jìn)行配置, 也可以直接在文本編輯工具中配置。一個模板對應(yīng)一種類型的手機(jī)報(bào)信息。模板的配置項(xiàng)依據(jù)手機(jī)報(bào)的不同類型分為兩類。其中,短信類型的手機(jī)報(bào)模板的配置項(xiàng)包括手機(jī)報(bào)名稱、特服號碼、手機(jī)報(bào)包含的新聞的條數(shù)(單條或多條)、多條新聞間的分隔符等。彩信類型的手機(jī)報(bào)模板的配置項(xiàng)包括手機(jī)報(bào)名稱、提取手機(jī)報(bào)信息中的新聞標(biāo)題的正則表達(dá)式、新聞標(biāo)題的樣式(單行標(biāo)題或多行標(biāo)題)、提取手機(jī)報(bào)信息中單元的正則表達(dá)式、新聞圖片樣式(圖片位于新聞內(nèi)容前或圖片位于新聞內(nèi)容后)、新聞?wù)牡臉邮?(單行、多行或者存在于多個文件中)等。一個具體的提取標(biāo)題的正則表達(dá)式的例子為《([\s\S]* )》。其表示獲取“《” 和“》”之間的所有內(nèi)容,并將這些內(nèi)容作為標(biāo)題,對應(yīng)到模板的xml節(jié)點(diǎn)中為〈Title〉。一個具體的提取單元的正則表達(dá)式的例子為([\s\S]* ?),表示獲取“”和“”之間的所有內(nèi)容,并將這些內(nèi)容作為單元的內(nèi)容,對應(yīng)到模板的xml節(jié)點(diǎn)中為<UnitMark>。本實(shí)施方式中,抽取手機(jī)報(bào)信息中新聞內(nèi)容的方法根據(jù)手機(jī)報(bào)的信息類型分為兩種,分別是短信類型的手機(jī)報(bào)信息抽取方式和彩信類型的手機(jī)報(bào)信息抽取方式。如圖4所示,短信類型的手機(jī)報(bào)信息抽取方式如下1)從數(shù)據(jù)庫中讀取手機(jī)報(bào)的屬性信息和手機(jī)報(bào)內(nèi)容(步驟S40)。2)根據(jù)手機(jī)報(bào)的特服號碼獲取對應(yīng)的模板(步驟S41)。3)從模板中獲取手機(jī)報(bào)包含的新聞條數(shù)(步驟S42)。如果手機(jī)報(bào)內(nèi)容為單條新聞(步驟S43),則a)從該手機(jī)報(bào)內(nèi)容中截取指定長度的文字作為新聞標(biāo)題,如截取10個文字。如果該手機(jī)報(bào)內(nèi)容不足指定的長度,則將整條手機(jī)報(bào)內(nèi)容作為新聞標(biāo)題。(步驟S46)b)將整條手機(jī)報(bào)內(nèi)容作為新聞?wù)?步驟S47)。c)生成該新聞的唯一標(biāo)識(步驟S48)。如果手機(jī)報(bào)內(nèi)容為多條新聞,則a)根據(jù)模板中配置的多條新聞間的分割符對該手機(jī)報(bào)內(nèi)容進(jìn)行分割,分割出每一條新聞(步驟S44)。b)對分割出的每一條新聞,進(jìn)行與步驟幻相同的處理(步驟S45至步驟S49)。如圖5所示,彩信類型的手機(jī)報(bào)信息抽取方式如下1)從數(shù)據(jù)庫中讀取手機(jī)報(bào)的屬性信息,并根據(jù)手機(jī)報(bào)實(shí)體文件的存儲路徑按照文件編號的先后順序從本地磁盤中依次讀取手機(jī)報(bào)的實(shí)體文件(步驟S51)。2)根據(jù)手機(jī)報(bào)的名稱獲取對應(yīng)的模板(步驟S52)。3)按照文件編號的先后順序依次獲取實(shí)體文件(步驟S5!3),對每一個實(shí)體文件進(jìn)行如下處理,直到處理完所有實(shí)體文件(步驟S58)。判斷實(shí)體文件類型。如果文件類型為.txt等文本類型(步驟S54),則進(jìn)入文本文件的抽取流程(步驟S5Q ;如果文件類型為.jpg等圖片類型,則進(jìn)入圖片文件的抽取流程 (步驟S56)。4)生成抽取的每篇新聞的唯一標(biāo)識(步驟S57)。在生成新聞的唯一標(biāo)識時,可以結(jié)合如下多項(xiàng)信息生成發(fā)送短信的特服號碼、 短信的接收時間、該短信在數(shù)據(jù)庫中存儲時的主鍵值。如果該條新聞僅僅是手機(jī)報(bào)所有新聞中的一條,則還可以加上該條新聞在手機(jī)報(bào)所有新聞中的順序號。如果標(biāo)識的字符串較為繁瑣,還可以將標(biāo)識的字符串進(jìn)一步處理為一個整型值,如針對該字符串信息生成一個 Hash值或一個MD5值。如圖6所示,彩信類型的手機(jī)報(bào)文本文件的抽取流程如下a)將文件內(nèi)容根據(jù)換行符進(jìn)行分割(步驟S601)。
b)按照文件內(nèi)容的先后順序讀取每行內(nèi)容(步驟S602),對每行內(nèi)容進(jìn)行如下處理,直到處理完所有行(步驟S612)。c)根據(jù)模板中提取手機(jī)報(bào)信息中的新聞標(biāo)題的正則表達(dá)式,判斷該行內(nèi)容是否為新聞標(biāo)題(步驟S603)。如是,則進(jìn)行如下處理i)如果之前已經(jīng)有抽取的新聞內(nèi)容(步驟S604),則認(rèn)為新一篇新聞開始,上一篇新聞抽取完畢,將抽取的上一篇新聞內(nèi)容作為一條完整的新聞按照約定的數(shù)據(jù)格式保存 (步驟 S605)。ii)獲取模板中新聞標(biāo)題的樣式(步驟S606),如果為單行標(biāo)題(步驟S607),則該行內(nèi)容即為該新聞標(biāo)題(步驟S608);如果為多行標(biāo)題,則將該行內(nèi)容暫存如一個臨時變量X中。繼續(xù)判斷下一行內(nèi)容是否為新聞標(biāo)題,如是,將該行內(nèi)容追加到臨時變量X中。以此類推,直到一行內(nèi)容為非新聞標(biāo)題為止,臨時變量X中存儲的內(nèi)容即為新聞標(biāo)題(步驟 S609)。d)根據(jù)模板中提取手機(jī)報(bào)信息中單元的正則表達(dá)式判斷當(dāng)前行內(nèi)容是否為單元標(biāo)識(步驟S610)。如果當(dāng)前行內(nèi)容為單元標(biāo)識,并且之前已經(jīng)有抽取的新聞內(nèi)容,則上一篇新聞抽取完畢,將抽取的上一篇新聞內(nèi)容作為一條完整的新聞按照約定的數(shù)據(jù)格式保存 (步驟S605)。所述單元標(biāo)識是指彩信中一個單元結(jié)束的標(biāo)志。如果當(dāng)前行內(nèi)容不是單元標(biāo)識,則說明當(dāng)前行內(nèi)容為新聞?wù)?,進(jìn)入步驟e)。e)將當(dāng)前行的內(nèi)容追加到當(dāng)前正在抽取的新聞?wù)闹?步驟S611)。彩信類型的手機(jī)報(bào)圖片文件的抽取流程如下a)獲取模板中新聞圖片樣式。b)如果新聞圖片的樣式為圖片位于新聞前,則將該圖片追加到接下來提取的新聞中。c)如果新聞圖片的樣式為圖片位于新聞后,則將該圖片追加到已經(jīng)解析完畢的最
后一篇新聞中。將圖片追加到新聞中的處理方式為i)按照約定的格式生成圖片的存儲路徑。ii)獲取接收時存儲的圖片文件中的圖片號,使用該號來標(biāo)記圖片在一篇新聞中的順序。也可以自行定義順序號來為圖片標(biāo)序。iii)在新聞內(nèi)容中創(chuàng)建圖片的html標(biāo)記<IMG src =“”>,其中,src的值為圖
片的本地存儲路徑。例如:<IMG src =“2010/0201/1345/東方手機(jī)報(bào)2月1日晚/img_0· jpg,,>。iv)將該圖片文件拷貝至指定的存儲路徑并重命名為規(guī)定格式。重命名的目的在于便于上載圖片的處理,只要讀取該手機(jī)報(bào)有幾張圖片以及圖片的存儲路徑即可,無需再遍歷圖片內(nèi)容,逐個讀出每個圖片的名稱。例如如果接收到一份手機(jī)報(bào),存儲到磁盤上的文件分別為2個圖片和5個文本文件,其文件名稱如下attOlO. jpgatt020. txtatt030. txtatt040. txt
att050.jpgatt060. txtatt070. txt在處理上述手機(jī)報(bào)中的這兩張圖片時,將其重命名為img_0. jpg和img_l. jpg。 “img_*. jpg”是本實(shí)施方式中圖片的統(tǒng)一命名格式。這樣,在上載圖片時,根據(jù)分析結(jié)果文件中標(biāo)明的IM和PC就可以去上傳圖片了(上載線程和分析線程是異步的。比如,如果知道了是2張圖片,但該目錄下只有1張圖片,則可能還沒有處理完,需要等待稍后處理),而不用到TX的內(nèi)容中去找img標(biāo)簽內(nèi)的圖片路徑信息了。手機(jī)報(bào)信息抽取完畢后,刪除與該手機(jī)報(bào)信息相關(guān)的數(shù)據(jù)庫記錄及本地磁盤上的實(shí)體文件。(5)按照預(yù)先配置的垃圾規(guī)則對抽取的新聞內(nèi)容進(jìn)行垃圾信息過濾(步驟S25)。所述過濾規(guī)則由用戶根據(jù)具體應(yīng)用環(huán)境確定。例如,如果用戶認(rèn)為娛樂類新聞是垃圾信息,則配置與娛樂類新聞相關(guān)的關(guān)鍵詞,當(dāng)匹配到與所述關(guān)鍵詞相符的新聞時,將該新聞視為垃圾信息,丟棄。(6)提取過濾后新聞內(nèi)容的關(guān)鍵詞,并對新聞內(nèi)容進(jìn)行自動分類(步驟S26)。其中,提取關(guān)鍵詞的過程如下對新聞內(nèi)容的句子進(jìn)行分詞和詞性標(biāo)注;將分詞結(jié)果中長度為2個或2個以上漢字且詞性為實(shí)詞類詞性的詞作為候選關(guān)鍵詞;根據(jù)詞特征計(jì)算詞權(quán)重;計(jì)算出每個詞的得分,如果一個詞出現(xiàn)多次則得分累加;對上述候選關(guān)鍵詞的得分考慮IDF、子詞因素后計(jì)算得到新的得分;按得分排序后提取指定數(shù)目的關(guān)鍵詞。提取關(guān)鍵詞的方法為現(xiàn)有技術(shù),可參見碩士論文文獻(xiàn)“知識管理系統(tǒng)中一種自動關(guān)鍵詞提取技術(shù)”(作者曾銘芳),此處不再展開說明。分類采用的方法如下通過提前訓(xùn)練好的訓(xùn)練樣本集對新聞內(nèi)容進(jìn)行特征提取和特征選擇,本實(shí)施方式中使用了現(xiàn)有的SVM文本分類模型,此處不再展開說明。(7)上載裝置104將抽取的新聞內(nèi)容上傳至數(shù)據(jù)庫和文件服務(wù)器,供上層應(yīng)用系統(tǒng)進(jìn)行數(shù)據(jù)檢索、數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計(jì)時使用。本實(shí)施方式中,上載裝置104將新聞內(nèi)容的圖片上傳至文件服務(wù)器110中;將新聞的標(biāo)題、正文、發(fā)送時間、關(guān)鍵詞等信息上傳至數(shù)據(jù)庫109中。具體過程如下讀取新聞內(nèi)容中的IMG標(biāo)簽信息,并將“src”內(nèi)指定路徑的圖片上傳至文件服務(wù)器110,同時將該IMG標(biāo)簽的“src”屬性值修改為該圖片在文件服務(wù)器110上的存儲路徑; 將新聞內(nèi)容按照約定的文件格式創(chuàng)建為Html文件,存儲至文件服務(wù)器110,同時將該文件的存儲路徑寫入數(shù)據(jù)庫109。將新聞的標(biāo)題、發(fā)送時間、關(guān)鍵詞、摘要信息寫入數(shù)據(jù)庫109。下面以彩信“NewS365財(cái)經(jīng)新聞”為例,其模板的各個配置項(xiàng)內(nèi)容為< ? xml version = " 1.0〃 encoding = " utf-8" ? ><Root><ID>-1590922063</ID><FiIeNameX ! [CDATA[mm_dfmm_l· xml] ] ></FileName><Version>l</Version>
<ModifyTimes>6</ModifyTimes>〈DescrX ! [CDATA [東方手機(jī)報(bào)彩信]]X/Descr>〈Details〉<MMTemplate><MMName>< ! [CDATA [東方手機(jī) * 報(bào)]]></MMName>〈Title〉《([\s\S]* ?)》</Title><UnitMark>([\s\S]* ?)</UnitMark><PicPostion>l</PicPostion><News Style>l</NewsStyle></MMTemplate>〈/Details〉</Root>訂閱該手機(jī)報(bào)后,使用接收裝置101接收該手機(jī)報(bào)信息。讀取裝置102自動檢測數(shù)據(jù)庫中是否已接收到新的手機(jī)報(bào)信息。如果該手機(jī)報(bào)的接收狀態(tài)為“接收完畢”,則將該手機(jī)報(bào)在數(shù)據(jù)庫中的記錄信息讀取至內(nèi)存。讀取手機(jī)報(bào)數(shù)據(jù)庫信息中的“手機(jī)報(bào)實(shí)體文件的存儲路徑”,具體內(nèi)容如下
權(quán)利要求
1.一種手機(jī)報(bào)中新聞內(nèi)容的抽取方法,包括以下步驟(1)接收預(yù)先訂閱的手機(jī)報(bào)信息,并將接收的手機(jī)報(bào)信息存儲在本地,所述手機(jī)報(bào)的類型包括短信和彩信;(2)從本地讀取手機(jī)報(bào)信息;(3)根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容。
2.如權(quán)利要求1所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟(1)中所述接收預(yù)先訂閱的手機(jī)報(bào)信息采用如下方式首先配置接收設(shè)備需要連接的數(shù)據(jù)庫;然后將已成功訂閱了手機(jī)報(bào)的SIM卡插至接收設(shè)備對應(yīng)的插槽;最后啟動彩信接收設(shè)備為工作狀態(tài),等待接收手機(jī)報(bào)信息。
3.如權(quán)利要求1所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟⑴中,存儲手機(jī)報(bào)信息的方法如下對于短信類型的手機(jī)報(bào),直接將手機(jī)報(bào)的屬性信息和手機(jī)報(bào)內(nèi)容存儲在數(shù)據(jù)庫中;對于彩信類型的手機(jī)報(bào),將手機(jī)報(bào)的屬性信息存儲在數(shù)據(jù)庫中,將手機(jī)報(bào)的實(shí)體文件存儲在本地磁盤上;所述手機(jī)報(bào)的屬性信息包括特服號碼、手機(jī)報(bào)實(shí)體文件的存儲路徑、手機(jī)報(bào)標(biāo)題、手機(jī)報(bào)下載地址、信息到達(dá)時間、下載結(jié)束時間、下載結(jié)束狀態(tài)、該手機(jī)報(bào)在數(shù)據(jù)庫中記錄的唯一標(biāo)識和手機(jī)報(bào)的類型。
4.如權(quán)利要求3所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟(1)中,按照手機(jī)報(bào)中內(nèi)容的先后順序?qū)⒉市沤邮諡槎鄠€文件,每個文件標(biāo)有其順序編號;將圖片單獨(dú)存儲成圖片文件,并標(biāo)明圖片在新聞內(nèi)容中的位置。
5.如權(quán)利要求1所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟O)中所述讀取手機(jī)報(bào)信息的過程如下(a)手機(jī)報(bào)信息監(jiān)控線程定時掃描數(shù)據(jù)庫;(b)查詢是否有新的手機(jī)報(bào)信息,如有,則進(jìn)入步驟(c);否則,返回步驟(a)。(c)從所有新的手機(jī)報(bào)信息中讀取一條未讀取過的手機(jī)報(bào)信息記錄;(d)判斷該條手機(jī)報(bào)信息的接收狀態(tài),如果接收狀態(tài)為“已成功接收”,則進(jìn)入步驟 (f);如果接收狀態(tài)為“接收失敗”,則刪除該手機(jī)報(bào)在數(shù)據(jù)庫中的記錄及已下載的實(shí)體文件,轉(zhuǎn)至步驟(g);如果接收狀態(tài)為“未接收”或“正在接收中”,則跳過該條手機(jī)報(bào)信息,轉(zhuǎn)至步驟(g)。(f)將數(shù)據(jù)庫中存儲的該手機(jī)報(bào)信息的所有屬性信息讀入內(nèi)存;(g)判斷所有新的手機(jī)報(bào)信息是否均被讀取過,如是,則轉(zhuǎn)至步驟(a);否則,轉(zhuǎn)至步驟(C)。
6.如權(quán)利要求1所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于所述方法在抽取手機(jī)報(bào)信息中的新聞內(nèi)容之前還包括過濾手機(jī)報(bào)中無用信息的步驟。
7.如權(quán)利要求6所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟(3)中,短信類型的手機(jī)報(bào)模板的配置項(xiàng)包括手機(jī)報(bào)名稱、特服號碼、手機(jī)報(bào)包含的新聞的條數(shù)和多條新聞間的分隔符;彩信類型的手機(jī)報(bào)模板的配置項(xiàng)包括手機(jī)報(bào)名稱、提取手機(jī)報(bào)信息中的新聞標(biāo)題的正則表達(dá)式、新聞標(biāo)題的樣式、提取手機(jī)報(bào)信息中單元的正則表達(dá)式、新聞圖片樣式和新聞?wù)牡臉邮健?br>
8.如權(quán)利要求7所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于當(dāng)手機(jī)報(bào)的類型為短信時,步驟(3)中所述抽取手機(jī)報(bào)信息中的新聞內(nèi)容的過程包括以下步驟1)根據(jù)發(fā)送手機(jī)報(bào)的特服號碼獲取對應(yīng)的模板;2)如果該短信為單條新聞,則進(jìn)行如下處理a.從該短信內(nèi)容中截取模板中指定長度的文字作為新聞的標(biāo)題,如果該短信內(nèi)容不足指定長度,則將整條短信內(nèi)容作為新聞的標(biāo)題;b.將整個短信內(nèi)容作為新聞內(nèi)容;c.生成新聞的唯一標(biāo)識;3)如果該短信為多條新聞,則進(jìn)行如下處理a.根據(jù)模板中配置的多條新聞間的分割符對該短信進(jìn)行分割,將每一條新聞分割出來;b.對分割出的每一條新聞,進(jìn)行與步驟2)相同的操作。
9.如權(quán)利要求7所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于當(dāng)手機(jī)報(bào)信息的類型為彩信時,步驟(3)中所述抽取手機(jī)報(bào)信息中的新聞內(nèi)容的過程如下1)從數(shù)據(jù)庫中讀取手機(jī)報(bào)的屬性信息,并根據(jù)手機(jī)報(bào)實(shí)體文件的存儲路徑按照文件編號的先后順序從本地磁盤中依次讀取手機(jī)報(bào)的實(shí)體文件;2)根據(jù)手機(jī)報(bào)的名稱獲取對應(yīng)的模板;3)按照文件編號的先后順序依次獲取實(shí)體文件,對每一個實(shí)體文件進(jìn)行如下處理,直到處理完所有實(shí)體文件;判斷實(shí)體文件類型,如果文件類型為文本類型,則進(jìn)入文本文件的抽取流程;如果文件類型為圖片類型,則進(jìn)入圖片文件的抽取流程;4)生成抽取的每篇新聞的唯一標(biāo)識。
10.如權(quán)利要求9所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟3)中所述文本文件的抽取流程如下a)將文件內(nèi)容根據(jù)換行符進(jìn)行分割;b)按照文件內(nèi)容的先后順序獲取一行內(nèi)容,對每行內(nèi)容進(jìn)行如下處理,直到處理完所有行;c)根據(jù)模板中提取手機(jī)報(bào)信息中的新聞標(biāo)題的正則表達(dá)式,判斷該行內(nèi)容是否為新聞標(biāo)題,如是,則進(jìn)行如下處理i)如果之前已經(jīng)有抽取的新聞內(nèi)容,則認(rèn)為新一篇新聞開始,上一篇新聞抽取完畢,將抽取的上一篇新聞內(nèi)容作為一條完整的新聞按照約定的數(shù)據(jù)格式保存; )獲取模板中新聞標(biāo)題的樣式,如果為單行標(biāo)題,則該行內(nèi)容即為該新聞標(biāo)題;如果為多行標(biāo)題,則將該行內(nèi)容暫存如一個臨時變量X中;繼續(xù)判斷下一行內(nèi)容是否為新聞標(biāo)題,如是,將該行內(nèi)容追加到臨時變量X中;以此類推,直到一行內(nèi)容為非新聞標(biāo)題為止,臨時變量X中存儲的內(nèi)容即為新聞標(biāo)題;d)根據(jù)模板中提取手機(jī)報(bào)信息中單元的正則表達(dá)式判斷當(dāng)前行內(nèi)容是否為單元標(biāo)識; 如果當(dāng)前行內(nèi)容為單元標(biāo)識,并且之前已經(jīng)有抽取的新聞內(nèi)容,則上一篇新聞抽取完畢,將抽取的上一篇新聞內(nèi)容作為一條完整的新聞按照約定的數(shù)據(jù)格式保存;如果當(dāng)前行內(nèi)容不是單元標(biāo)識,則說明當(dāng)前行內(nèi)容為新聞?wù)?,進(jìn)入步驟e); e)將當(dāng)前行的內(nèi)容追加到當(dāng)前正在抽取的新聞?wù)闹小?br>
11.如權(quán)利要求9所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于步驟3)中所述圖片文件的抽取流程如下a)獲取模板中新聞圖片樣式;b)如果新聞圖片的樣式為圖片位于新聞前,則將該圖片追加到接下來提取的新聞中;c)如果新聞圖片的樣式為圖片位于新聞后,則將該圖片追加到已經(jīng)解析完畢的最后一篇新聞中。
12.如權(quán)利要求11所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于所述將圖片追加到新聞中的處理方式如下i)按照約定的格式生成圖片的存儲路徑; )獲取接收時存儲的圖片文件中的圖片號,使用該號來標(biāo)記圖片在一篇新聞中的順序;iii)在新聞內(nèi)容中創(chuàng)建圖片的html標(biāo)記,所述html標(biāo)記中包含圖片的本地存儲路徑;iv)將該圖片文件拷貝至指定的存儲路徑并重命名為規(guī)定格式。
13.如權(quán)利要求8或9所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于所述唯一標(biāo)識是根據(jù)發(fā)送短信的特服號碼、短信的接收時間、該短信在數(shù)據(jù)庫中存儲時的主鍵值生成的字符串;如果該新聞是短信內(nèi)容的一部分,則還要加上該新聞在短信所有新聞中的順序號。
14.如權(quán)利要求4所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于所述方法在抽取手機(jī)報(bào)信息中的新聞內(nèi)容后還包括刪除該新聞內(nèi)容在數(shù)據(jù)庫中的記錄和在本地磁盤上實(shí)體文件的步驟。
15.如權(quán)利要求1所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于所述方法在抽取手機(jī)報(bào)信息中的新聞內(nèi)容后還包括對抽取的新聞內(nèi)容按照預(yù)先配置的垃圾規(guī)則進(jìn)行垃圾信息過濾的步驟;對新聞內(nèi)容進(jìn)行過濾后,還包括提取關(guān)鍵詞的步驟,以及對過濾后的新聞內(nèi)容進(jìn)行自動分類的步驟。
16.如權(quán)利要求15所述的手機(jī)報(bào)中新聞內(nèi)容的抽取方法,其特征在于所述方法在對新聞內(nèi)容進(jìn)行自動分類后還包括將新聞內(nèi)容的圖片上傳至文件服務(wù)器,將標(biāo)題、正文和關(guān)鍵詞上傳至數(shù)據(jù)庫的步驟。
17.一種手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng),包括用于接收并存儲預(yù)先訂閱手機(jī)報(bào)信息的接收裝置(101);用于讀取手機(jī)報(bào)信息的讀取裝置(102);以及用于根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容的抽取裝置(103)。
18.如權(quán)利要求17所述的手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng),其特征在于所述系統(tǒng)還包括用于在抽取手機(jī)報(bào)信息中的新聞內(nèi)容之前過濾手機(jī)報(bào)中無用信息的過濾裝置I (105)。
19.如權(quán)利要求17或18所述的手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng),其特征在于所述系統(tǒng)還包括用于在抽取手機(jī)報(bào)信息中的新聞內(nèi)容后對抽取的新聞內(nèi)容按照預(yù)先配置的垃圾規(guī)則進(jìn)行垃圾信息過濾的過濾裝置11(106);用于提取垃圾信息過濾后的新聞內(nèi)容的關(guān)鍵詞的提取裝置(107);以及用于將垃圾信息過濾后的新聞內(nèi)容進(jìn)行分類的分類裝置(109)。
20.如權(quán)利要求19所述的手機(jī)報(bào)中新聞內(nèi)容的抽取系統(tǒng),其特征在于所述系統(tǒng)還包括用于將新聞內(nèi)容的圖片上傳至文件服務(wù)器(111),將標(biāo)題、正文和關(guān)鍵詞上傳至數(shù)據(jù)庫 (110)的上傳裝置(104)。
全文摘要
本發(fā)明公開了一種手機(jī)報(bào)中新聞內(nèi)容的抽取方法及系統(tǒng)。本發(fā)明首先接收并存儲預(yù)先訂閱的手機(jī)報(bào)信息;然后讀取手機(jī)報(bào)信息;最后根據(jù)預(yù)先配置好的模板,抽取手機(jī)報(bào)信息中的新聞內(nèi)容。本發(fā)明能夠自動接收各種手機(jī)報(bào),并對其內(nèi)容進(jìn)行抽取分析,具有較高的采集效率和準(zhǔn)確率,能夠?qū)⒅荒茉诟鱾€手機(jī)終端上瀏覽的手機(jī)報(bào)集中采集到本地,并對其進(jìn)行智能分析處理,使得手機(jī)報(bào)信息得以能夠被應(yīng)用系統(tǒng)使用。
文檔編號H04W88/02GK102457817SQ20101051574
公開日2012年5月16日 申請日期2010年10月15日 優(yōu)先權(quán)日2010年10月15日
發(fā)明者吳新麗, 楊建武 申請人:北京北大方正電子有限公司, 北京大學(xué), 北大方正集團(tuán)有限公司