两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

通過微博采集交通信息的系統(tǒng)及方法

文檔序號:6706837閱讀:343來源:國知局
專利名稱:通過微博采集交通信息的系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種城市道路交通路況信息的采集處理技術(shù)領(lǐng)域,具體地說,是涉及一種通過微博采集交通信息的方法和系統(tǒng)。
背景技術(shù)
微博,即微博客的簡稱,是一個基于用戶關(guān)系的信息分享、傳播以及獲取的平臺, 用戶可以通過WEB、WAP以及各種客戶端組建個人社區(qū),以140字左右的文字更新信息,并實現(xiàn)即時分享。近幾年,微博如雨后春筍般崛起,已逐漸成為擁有大量用戶的全新的人際交流方式及信息分享方法。微博中蘊(yùn)含豐富的用戶實時發(fā)布的交通信息,包括實時路況、動態(tài)停車場信息、旅行時間、路口簡易圖、道路交通管制、道路施工信息、道路交通事件、交通樞紐信息、重大交通公告、安全宣傳知識、交通辦事指南等。這些信息時效性很高,通過對它們的收集、分析、挖掘能夠獲取實時的、突發(fā)性的交通信息。而且隨著微博用戶數(shù)的快速增長,意味著更多用戶自愿實時分享自己身邊的交通信息,這將形成龐大的實時交通信息源。
傳統(tǒng)的實時交通信息獲取方法主要包括磁頻采集、波頻采集、視頻采集、汽車牌照自動識別采集、浮動車采集。固定傳感器技術(shù)采用的比較早,可以準(zhǔn)確地采集路段實時交通流信息,但是成本高昂、安裝與維護(hù)困難,難以廣泛部署。浮動車是現(xiàn)在主流的城市實時交通信息采集技術(shù),建設(shè)周期短,部署靈活,采集效率和精度高。但是浮動車技術(shù)很難獲取突發(fā)性交通事件或針對特定點的實時交通信息,也無法獲取臨時交通管制等交通信息,而且難以大范圍部署,容易出現(xiàn)盲區(qū)。移動通訊終端信令分析技術(shù)可以充分利用蜂窩移動通訊的網(wǎng)絡(luò)資源,但是對數(shù)據(jù)處理技術(shù)要求很高,也同樣難以獲取突發(fā)性的交通狀態(tài)信息。利用微博采集實時交通信息則解彌補(bǔ)了交通信息傳統(tǒng)采集方式的缺陷和不足,并且讓龐大的微博交通信息得以充分利用。專利號為201110089462. 1,專利名稱為一種基于微博客收集的交通信息融合評價方法的發(fā)明專利,該方法包括構(gòu)建交通信息主題的微博客消息數(shù)據(jù)集;從微博客消息記錄抽取交通信息描述指標(biāo),形式化表達(dá)微博客中蘊(yùn)含的交通信息;對微博客消息記錄集中的交通信息進(jìn)行融合評價,處理微博客消息數(shù)據(jù)集中所涉及的整個路網(wǎng)的交通信息。由于微博信息量非常巨大,該專利提取交通信息時效率較低,缺乏安全性等問題。抓取方式和信息處理能力都存在一定的性能瓶頸;僅對信息進(jìn)行了抓取,沒有考慮抓取周期、存儲速度、延時控制。在采集交通信息過程中指出抓取和交通信息主體相關(guān)微博客內(nèi)容,沒有給出可行的匹配方案,無法斷定微博信息是否屬于交通信息,導(dǎo)致交通數(shù)據(jù)采集不真實。專利號為201210011178. 7,專利名稱為微博客數(shù)據(jù)采集方法及系統(tǒng)的專利提出了一種基于用戶分類的微博客數(shù)據(jù)采集方法。首先初始化用戶數(shù)據(jù);對獲得的用戶特征進(jìn)行提取,取得可用于進(jìn)行用戶確定的特征數(shù)據(jù);對提取出的數(shù)據(jù)進(jìn)行過濾,過濾后的數(shù)據(jù)根據(jù)特征進(jìn)行用戶類型確定;對不同類別的用戶采用不同的策略進(jìn)行數(shù)據(jù)采集。該專利數(shù)據(jù)采集之前必須先基于對用戶的分類,不能滿足交通領(lǐng)域龐大信息量的快速采集。

發(fā)明內(nèi)容
本發(fā)明提供了一種通過微博采集交通信息的系統(tǒng),解決了現(xiàn)有微博采集交通信息時采集周期長和采集不精確的技術(shù)問題。為了解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案予以實現(xiàn)
一種通過微博采集交通信息的系統(tǒng),所述系統(tǒng)包括
采集策略定制模塊,用于提供用戶操作界面,用戶通過操作界面進(jìn)行定制操作并保存定制結(jié)果;
微博信息采集模塊,用于讀取采集策略定制模塊保存的定制結(jié)果,啟動抓取任務(wù),獲取互聯(lián)網(wǎng)上的實時交通信息,并將采集的信息傳送給信息預(yù)處理模塊;
信息預(yù)處理模塊,用于處理采集到的交通信息,處理過程結(jié)合語義分析模塊綜合分
析;
語義分析模塊,用于提供微博元素分析歸類功能,結(jié)合語義庫數(shù)據(jù)判斷分析出微博信息中包含的信息;
交通信息中心,用于分類存儲采集到的交通信息;
交通信息發(fā)布終端,用于發(fā)布采集的交通信息。進(jìn)一步的,所述交通信息中心連接有磁頻采集數(shù)據(jù)模塊、波頻采集數(shù)據(jù)模塊、視頻采集數(shù)據(jù)模塊、汽車牌照自動識別采集數(shù)據(jù)模塊、浮動車采集數(shù)據(jù)模塊。更進(jìn)一步的,所述交通信息發(fā)布終端包括服務(wù)于地圖網(wǎng)站系統(tǒng)、出行信息平臺、移動位置服務(wù)、交通管制平臺?;谏鲜鑫⒉┎杉煌ㄐ畔⒌南到y(tǒng),本發(fā)明還提出了一種通過微博采集交通信息的方法,所述方法包括下列操作步驟
步驟201,用戶通過采集策略定制模塊生成與交通相關(guān)的微博信息抓取策略;當(dāng)系統(tǒng)接收到用戶輸入的抓取策略后,通過語義分析模塊生成正則表達(dá)式及相應(yīng)的代碼;
步驟202,微博信息采集模塊抓取符合策略的微博信息;
步驟203,信息預(yù)處理模塊結(jié)合語義分析模塊進(jìn)行語義分析,將微博信息拆分為事件、時間、地點、圖片;
步驟204,遍歷交通信息中心的路網(wǎng)庫,匹配微博交通信息的道路歸屬;
步驟205,將微博信息分類存儲至交通信息中心。其中,在步驟202中,創(chuàng)建微博URL隊列,并啟動抓取線程進(jìn)行網(wǎng)絡(luò)資源的抓取。進(jìn)一步的,在步驟202中,抓取符合策略的微博信息的過程為首批抓取信息的連接存入隊列I中,從隊列I獲取一個連接;從所述連接進(jìn)行資源下載,存入內(nèi)存中;下載失敗則結(jié)束本連接,從隊列I中遍歷循環(huán)下一個連接;下載成功則判斷下載資源中是否包含新的資源連接;若有則把新的資源連接保存到隊列2中;資源尋求完畢,判斷是否需要保存,有用信息則保存至本地,抓取結(jié)束。其中,在步驟204中,根據(jù)語義分析出來的時間進(jìn)行時間有效性校驗,具體步驟為初始化得到的微博信息;判斷微博時間信息是否存在;若存在,驗證時間的完整性,不完整則丟棄;判斷時間是否是否為當(dāng)天,不是當(dāng)天則丟棄;然后判斷時間是否大于當(dāng)前時亥IJ,超于當(dāng)前時刻則丟棄;最終篩選得到的微博信息滿足時間有效性。進(jìn)一步的,時間有效性驗證后進(jìn)行微博信息的真實性驗證,采用真實交通信息集、微博信息交叉驗證方式判定信息的準(zhǔn)確性。其中,真實交通信息集包括通過磁頻采集數(shù)據(jù)模塊、波頻采集數(shù)據(jù)模塊、視頻采集數(shù)據(jù)模塊、汽車牌照自動識別采集數(shù)據(jù)模塊、浮動車采集數(shù)據(jù)模塊采集到的數(shù)據(jù)。微博信息交叉驗證方式為對同一地點信息綜合對比,得到最可靠的一組信息。與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點和積極效果是本發(fā)明通過策略定制模塊采集微博的交通信息,提高微博采集交通信息的效率,保證采集數(shù)據(jù)的完整性、精確性;對采集的交通信息進(jìn)行語義分析,快速準(zhǔn)確匹配交通信息地理位置、事件時間。本發(fā)明采用分布式并發(fā)處理的架構(gòu),數(shù)據(jù)處理能力強(qiáng),能夠支持超大規(guī)模的微博數(shù)據(jù)和其它類型交通信息數(shù)據(jù)的處理,同時分布式的特點也使得系統(tǒng)的應(yīng)用部署實施更加靈活,可擴(kuò)展性好。本發(fā)明除了通過微博采集交通信息技術(shù)外,還可以融合其它類型的交通信息,如磁感線圈數(shù)據(jù)、交通事件信息等,從多維角度計算道路交通路況信息,實現(xiàn)多種類型數(shù)據(jù)的優(yōu)勢互補(bǔ),使得對交通路況信息的描述具有多樣性,同時也提高大大提高信息的覆蓋率和準(zhǔn)確性。本發(fā)明提供了支持多種發(fā)布方式的平臺,除了可以支持傳統(tǒng)的網(wǎng)站交通路況顯示夕卜,還可以通過WAP、短信、郵件等方式提供路況查詢業(yè)務(wù),為大眾提供全面準(zhǔn)確多樣實用的實時動態(tài)交通信息服務(wù),充分滿足公眾對交通信息的迫切需求。并且,本發(fā)明在支持向公眾的提供實時交通路況服務(wù)的同時,也可以實現(xiàn)車輛監(jiān)控、道路路況監(jiān)控和交通突發(fā)事件的監(jiān)控,并將信息匯總在歷史數(shù)據(jù)庫,為道路交通管理部門的日常管理和長期規(guī)劃提供有效的決策和支持。結(jié)合附圖閱讀本發(fā)明實施方式的詳細(xì)描述后,本發(fā)明的其他特點和優(yōu)點將變得更 加清楚。


圖I是本發(fā)明具體實施例的系統(tǒng)框圖。圖2是本發(fā)明具體實施例的流程框圖。圖3是本發(fā)明具體實施例采集策略配置的流程圖。圖4是本發(fā)明具體實施例抓取信息處理流程圖。圖5是本發(fā)明具體實施例語義分析的流程圖。圖6是本發(fā)明具體實施例時間有效性校驗的流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明的具體實施方式
作進(jìn)一步詳細(xì)地說明
參見圖I所示,本實施例提出了一種通過微博采集交通信息的系統(tǒng),該系統(tǒng)基于網(wǎng)絡(luò)爬蟲技術(shù)和微博開放平臺接口 API (Application Programming Interface)獲取實時交通信息,再對采集的交通信息進(jìn)行語義分析和預(yù)處理,進(jìn)行交通狀態(tài)分析和交通事件檢測分析,得到對應(yīng)路段的交通狀態(tài)信息與交通事件信息。該系統(tǒng)具體包括如下六個模塊
采集策略定制模塊110,用于提供用戶操作界面,用戶通過操作界面進(jìn)行定制操作并保存定制結(jié)果;對微博采集模塊的抓取策略、模式設(shè)置以及微博信息特征進(jìn)行配置管理。選定采集周期,配置采集匹配條件,以便快速篩選實時有效的交通信息,采集匹配條件包括采集區(qū)域、事件類型、微博發(fā)表時間、主題關(guān)鍵字、事件時間、事件地點;或自定義匹配表達(dá)式。用于明確采集范圍,縮小采集時間。微博信息采集模塊120,用于讀取用戶定制管理單元產(chǎn)生的定制結(jié)果,啟動抓取任務(wù),獲取互聯(lián)網(wǎng)上的實時交通信息,并將采集的信息傳送給信息預(yù)處理模塊140。信息預(yù)處理模塊140,用于處理采集到的交通信息,處理過程需結(jié)合語義分析模塊130綜合分析。語義分析模塊130,提供多元化的微博元素分析歸類功能,結(jié)合語義庫數(shù)據(jù)判斷分析出微博信息中包含的信息摘要、地點、圖片、事件。交通信息中心150,用于分類存儲采集到的交通信息。交通信息中心150的數(shù)據(jù)可來源于微博采集,但同時可擴(kuò)展融合磁頻采集數(shù)據(jù)、波頻采集數(shù)據(jù)、視頻采集數(shù)據(jù)、汽車牌 照自動識別采集數(shù)據(jù)、浮動車采集數(shù)據(jù)。交通信息中心150作為系統(tǒng)的數(shù)據(jù)中心,包含與系統(tǒng)關(guān)聯(lián)的所有數(shù)據(jù)。交通信息發(fā)布終端160,用于發(fā)布采集的交通信息,終端包括服務(wù)于地圖網(wǎng)站系統(tǒng)、出行信息平臺、移動位置服務(wù)、交通管制平臺。參見圖2所示,本實施例還提出了一種通過微博采集交通信息的方法,根據(jù)用戶定制生成相應(yīng)的抓取策略,然后,用網(wǎng)絡(luò)爬蟲技術(shù)或微博開放平臺接口 API或兩者組合的形式,獲取互聯(lián)網(wǎng)上與交通相關(guān)的微博信息。方法包括下列操作步驟
步驟201,用戶通過該系統(tǒng)的抓取策略定制單元生成與交通相關(guān)的微博信息抓取規(guī)則,包括抓取周期、采集區(qū)域、事件類型、微博發(fā)表時間、主題關(guān)鍵字、事件時間、事件地點等過濾條件。當(dāng)系統(tǒng)接收到用戶輸入的抓取策略指令后,直接通過系統(tǒng)語義分析模塊生成正則表達(dá)式及相應(yīng)的代碼。抓取周期,即通過微博采集交通信息的頻率。在對目標(biāo)微博資源進(jìn)行周期性抓取的過程中,收集目標(biāo)微博資源的相關(guān)信息;根據(jù)目標(biāo)微博資源的相關(guān)信息,動態(tài)調(diào)整目標(biāo)微博資源的抓取時間間隔;根據(jù)動態(tài)調(diào)整的抓取時間間隔對目標(biāo)微博資源進(jìn)行周期性抓取。如圖3所示,采集策略的配置流程具體如下
根據(jù)即將采集的交通信息進(jìn)行需求分析,例如現(xiàn)在需要采集山東青島的所有實時交通信息,那么首先就得制定青島為采集區(qū)域,實時交通信息包括道路的擁擠度、交通事件信息、交通管制信息、道路施工信息、交通氣象信息等與交通相關(guān)的信息,就需要在策略中添加以上幾類信息關(guān)鍵字;抓取周期則根據(jù)信息需求和已有信息庫動態(tài)調(diào)整;然后保存制定好的抓取策略。對常用的抓取策略,可加入用戶收藏夾便于用戶重復(fù)利用,且節(jié)省策略配置的時間,提聞效率。步驟202,用于對指定的抓取策略實施抓取行為。具體為創(chuàng)建相關(guān)微博URL隊列,并啟動抓取線程進(jìn)行網(wǎng)絡(luò)資源的抓取。在抓取過程中,可預(yù)先設(shè)置一個列表,用于保存本次任務(wù)即當(dāng)前抓取過程中得到的所有URL及抓取狀態(tài)等信息,其目的是避免微博URL被重復(fù)處理,這個列表使用內(nèi)存或者內(nèi)存數(shù)據(jù)庫實現(xiàn)。抓取方法包括網(wǎng)絡(luò)爬蟲技術(shù)和微博開放平臺API接口,根抓取策略預(yù)先制定初始抓取種子樣本或者制定調(diào)用API接口執(zhí)行抓取指令。
抓取的信息先存入臨時隊列I中,隊列I信息經(jīng)處理若發(fā)現(xiàn)包含新的資源則存入臨時隊列2中,具體流程如下,參見圖4
首批抓取信息的連接存入隊列I中,從隊列I獲取一個連接。從指定的連接進(jìn)行資源下載,存入內(nèi)存中。下載失敗則結(jié)束本連接,從隊列I中遍歷循環(huán)下一個連接。下載成功則判斷下載資源中是否包含新的資源連接,如微博轉(zhuǎn)發(fā)的消息源。若有則把新資源保存到隊列2中。資源尋求完畢,判斷是否需要保存,有用信息則保存至本地,抓取結(jié)束。步驟203,語義分析,基于中文分詞與N-gram (N個連續(xù)符號的序列)模型的關(guān)鍵字提取,從微博信息中提取出事件、時間、地點、圖片。利用中文分詞工具對抓取到的微博信息數(shù)據(jù)進(jìn)行分詞處理,以分詞得到的短語為最小粒度單元,并結(jié)合N-gram模型獲取長度不超過預(yù)設(shè)的關(guān)鍵字最大長度值的所有候選關(guān)鍵字,根據(jù)候選關(guān)鍵字的類型(事件、時間、地點、圖片),抽取出對應(yīng)的信息。實現(xiàn)流程如 下,參見圖5:
時間提取,利用中文分詞工具和N-gram模型解析微博信息中包含的時間信息。時間分為相對時間和絕對時間,若為絕對時間則轉(zhuǎn)換為標(biāo)準(zhǔn)格式即可;若為相對時間則需要根據(jù)微博的發(fā)表時間來計算出絕對時間,再把絕對時間轉(zhuǎn)換為標(biāo)準(zhǔn)格式。tl (絕對時間)=t2 (發(fā)表時間)± Λ t (相對時間)
其中,相對時間包括“今天、現(xiàn)在、幾分鐘前、稍后”等詞語;絕對時間則為標(biāo)準(zhǔn)時間表達(dá),如 2012 年 10 月 17 日 10:54,2012-10-17 10:54。圖片提取,通過匹配圖片的文件擴(kuò)展名分解出圖片信息。常見的圖片存儲的格式bmp, jpg, tiff, gif, pcx, tga, exif, fpx, svg, psd, cdr, pcd, dxf, ufo, eps, ai, raw 等。地點關(guān)鍵字提取,利用中文分詞工具和N-gram結(jié)合路網(wǎng)庫和常用地理位置,取出表不地點的關(guān)鍵字。該信息中含有下列之一的關(guān)鍵詞路,方向,橋,東,南,西,北,附近等表示交通地理標(biāo)志或方向、距離描述的詞語;獲取關(guān)鍵字前后的詞語經(jīng)過語義處理作為地點信息。時間、地點、圖片提取結(jié)束后,根據(jù)動詞語義庫分析整理出信息摘要。步驟204,遍歷路網(wǎng)庫,匹配微博交通信息的道路歸屬。同時根據(jù)語義分析出來的時間格式,展開時間有效性校驗。流程如下,參見圖6
初始化得到微博信息;判斷經(jīng)提煉的微博時間信息是否存在;若存在獲取時間,驗證時間的完整性,不完整則丟棄,時間需要精確到天;再判斷是否為當(dāng)天,以此來檢驗信息的實時性;接著判斷時間是否大于當(dāng)前時刻,超于當(dāng)前時刻則丟棄;最終篩選得到的微博信息滿足時間的有效性。有效性驗證后可對微博信息的真實性驗證,采用真實交通信息集和微博信息交叉驗證方式判定信息的準(zhǔn)確性。真實交通信息集包括通過磁頻采集、波頻采集、視頻采集、汽車牌照自動識別采集、浮動車采集到的數(shù)據(jù)。微博信息交叉驗證,指同一地點信息綜合對t匕,分析推理計算出最可靠的一組信息。把道路分類,優(yōu)先級最高的多個道路為A組,優(yōu)先級次高的為B組,依次類推,把道路分成若干等級,按先后順序遍歷;把匹配到的微博信息添加所屬道路標(biāo)志位。地點信息匹配不能精確到詳細(xì)地點的,解析出地點區(qū)域歸屬,在匹配到的區(qū)域內(nèi)標(biāo)注交通信息。后續(xù)可由人工輔助更新信息的精確位置。以上真實性和有效性都符合條件的則執(zhí)行步驟205。消息真實但已過有效時間的則存入交通信息歷史庫;非真實的消息則直接結(jié)束,刪除此信息。步驟205,動態(tài)地將數(shù)據(jù)信息分類存儲到相應(yīng)的數(shù)據(jù)庫。其中信息分類又包括實時路況信息、停車場信息、道路交通管制信息、道路施工信息、交通事件信息、交通輿情信息、路徑規(guī)劃信息。交通信息等與交通相關(guān)的信息。用于交通信息發(fā)布和交通管制以及為道路交通管理部門的日常管理和長期規(guī)劃提供有效的決策和支持。當(dāng)然,上述說明并非是對本發(fā)明的限制,本發(fā)明也并不僅限于上述舉例,本技術(shù)領(lǐng)域的普通技術(shù)人員在本發(fā)明的實質(zhì)范圍內(nèi)所做出的變化、改型、添加或替換,也應(yīng)屬于本發(fā) 明的保護(hù)范圍。
權(quán)利要求
1.一種通過微博采集交通信息的系統(tǒng),其特征在于所述系統(tǒng)包括 采集策略定制模塊,用于提供用戶操作界面,用戶通過操作界面進(jìn)行定制操作并保存定制結(jié)果; 微博信息采集模塊,用于讀取采集策略定制模塊保存的定制結(jié)果,啟動抓取任務(wù),獲取互聯(lián)網(wǎng)上的實時交通信息,并將采集的信息傳送給信息預(yù)處理模塊; 信息預(yù)處理模塊,用于處理采集到的交通信息,處理過程結(jié)合語義分析模塊綜合分析; 語義分析模塊,用于提供微博元素分析歸類功能,結(jié)合語義庫數(shù)據(jù)判斷分析出微博信息中包含的信息; 交通信息中心,用于分類存儲采集到的交通信息; 交通信息發(fā)布終端,用于發(fā)布采集的交通信息。
2.根據(jù)權(quán)利要求I所述的通過微博采集交通信息的系統(tǒng),其特征在于所述交通信息中心連接有磁頻采集數(shù)據(jù)模塊、波頻采集數(shù)據(jù)模塊、視頻采集數(shù)據(jù)模塊、汽車牌照自動識別采集數(shù)據(jù)模塊、浮動車采集數(shù)據(jù)模塊。
3.根據(jù)權(quán)利要求I或2所述的通過微博采集交通信息的系統(tǒng),其特征在于所述交通信息發(fā)布終端包括服務(wù)于地圖網(wǎng)站系統(tǒng)、出行信息平臺、移動位置服務(wù)、交通管制平臺。
4.一種通過微博采集交通信息的方法,其特征在于所述方法包括下列操作步驟 步驟201,用戶通過采集策略定制模塊生成與交通相關(guān)的微博信息抓取策略;當(dāng)系統(tǒng)接收到用戶輸入的抓取策略后,通過語義分析模塊生成正則表達(dá)式及相應(yīng)的代碼; 步驟202,微博信息采集模塊抓取符合策略的微博信息; 步驟203,信息預(yù)處理模塊結(jié)合語義分析模塊進(jìn)行語義分析,將微博信息拆分為事件、時間、地點、圖片; 步驟204,遍歷交通信息中心的路網(wǎng)庫,匹配微博交通信息的道路歸屬; 步驟205,將微博信息分類存儲至交通信息中心。
5.根據(jù)權(quán)利要求4所述的通過微博采集交通信息的方法,其特征在于所述步驟202中,創(chuàng)建微博URL隊列,并啟動抓取線程進(jìn)行網(wǎng)絡(luò)資源的抓取。
6.根據(jù)權(quán)利要求5所述的通過微博采集交通信息的方法,其特征在于所述步驟202中,抓取符合策略的微博信息的過程為首批抓取信息的連接存入隊列I中,從隊列I獲取一個連接;從所述連接進(jìn)行資源下載,存入內(nèi)存中;下載失敗則結(jié)束本連接,從隊列I中遍歷循環(huán)下一個連接;下載成功則判斷下載資源中是否包含新的資源連接;若有則把新的資源連接保存到隊列2中;資源尋求完畢,判斷是否需要保存,有用信息則保存至本地,抓取結(jié)束。
7.根據(jù)權(quán)利要求4所述的通過微博采集交通信息的方法,其特征在于所述步驟204中,根據(jù)語義分析出來的時間進(jìn)行時間有效性校驗,具體步驟為初始化得到的微博信息;判斷微博時間信息是否存在;若存在,驗證時間的完整性,不完整則丟棄;判斷時間是否是否為當(dāng)天,不是當(dāng)天則丟棄;然后判斷時間是否大于當(dāng)前時刻,超于當(dāng)前時刻則丟棄;最終篩選得到的微博信息滿足時間有效性。
8.根據(jù)權(quán)利要求7所述的通過微博采集交通信息的方法,其特征在于所述時間有效性驗證后進(jìn)行微博信息的真實性驗證,采用真實交通信息集、微博信息交叉驗證方式判定信息的準(zhǔn)確性。
9.根據(jù)權(quán)利要求8所述的通過微博采集交通信息的方法,其特征在于所述真實交通信息集包括通過磁頻采集數(shù)據(jù)模塊、波頻采集數(shù)據(jù)模塊、視頻采集數(shù)據(jù)模塊、汽車牌照自動識別采集數(shù)據(jù)模塊、浮動車采集數(shù)據(jù)模塊采集到的數(shù)據(jù)。
10.根據(jù)權(quán)利要求8所述的通過微博采集交通信息的方法,其特征在于所述微博信息交叉驗證方式為對同一地點信息綜合對比,得到最可靠的一組信息。
全文摘要
本發(fā)明公開了一種通過微博采集交通信息的系統(tǒng)及方法,系統(tǒng)包括采集策略定制模塊,微博信息采集模塊,信息預(yù)處理模塊,語義分析模塊,交通信息中心以及交通信息發(fā)布終端。本發(fā)明通過策略定制模塊采集微博的交通信息,提高微博采集交通信息的效率,保證采集數(shù)據(jù)的完整性、精確性;對采集的交通信息進(jìn)行語義分析,快速準(zhǔn)確匹配交通信息地理位置、事件時間。本發(fā)明采用分布式并發(fā)處理的架構(gòu),數(shù)據(jù)處理能力強(qiáng),能夠支持超大規(guī)模的微博數(shù)據(jù)和其它類型交通信息數(shù)據(jù)的處理,同時分布式的特點也使得系統(tǒng)的應(yīng)用部署實施更加靈活,可擴(kuò)展性好。
文檔編號G08G1/00GK102968494SQ20121049417
公開日2013年3月13日 申請日期2012年11月28日 優(yōu)先權(quán)日2012年11月28日
發(fā)明者尹紀(jì)軍, 夏俊嬌, 劉新, 劉文廣 申請人:青島海信網(wǎng)絡(luò)科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
岑溪市| 永春县| 黄冈市| 如东县| 呈贡县| 阳曲县| 沙雅县| 丽江市| 攀枝花市| 东阿县| 合川市| 杭州市| 枣庄市| 祁阳县| 湟中县| 正定县| 随州市| 广汉市| 明光市| 花莲市| 克东县| 措勤县| 张家界市| 遂溪县| 宜州市| 墨江| 濉溪县| 攀枝花市| 托里县| 河北区| 浠水县| 炎陵县| 子洲县| 临沧市| 武定县| 西宁市| 五家渠市| 海伦市| 平武县| 绥德县| 通化县|