一種基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及智能交通技術(shù)領(lǐng)域,尤其是一種基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的 黑車識(shí)別方法。
【背景技術(shù)】
[0002] 所謂黑車,是指沒有在交通運(yùn)輸管理部門辦理任何相關(guān)手續(xù)、沒有領(lǐng)取營運(yùn)牌證 而以有償服務(wù)實(shí)施非法運(yùn)營的車輛。近年來,隨著經(jīng)濟(jì)的發(fā)展,黑車的數(shù)量也在逐年上升, 黑車的存在不僅嚴(yán)重?cái)_亂了正常的運(yùn)輸市場秩序,導(dǎo)致嚴(yán)重的交通事故發(fā)生,損害旅客的 合法權(quán)益,而且由于有些黑車車主的強(qiáng)攬旅客、敲詐勒索、謀財(cái)害命的行為,嚴(yán)重影響了旅 客的出行安全,給社會(huì)帶來了不穩(wěn)定的因素。因黑車的治理具有車輛難以識(shí)別、數(shù)量龐大、 調(diào)查取證困難等特點(diǎn),且目前尚無一種有效的方法或系統(tǒng)可實(shí)現(xiàn)對其的自動(dòng)識(shí)別,故如何 正確識(shí)別黑車已成為運(yùn)管處急需解決的問題。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種自動(dòng)對卡口系統(tǒng)中的過往車輛是否為黑車進(jìn)行判別, 維護(hù)正常的交通秩序,為運(yùn)管處對黑車的監(jiān)控、處罰提供依據(jù)的基于大規(guī)模數(shù)據(jù)的貝葉斯 分類算法的黑車識(shí)別方法。
[0004] 為實(shí)現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:一種基于大規(guī)模數(shù)據(jù)的貝葉斯分 類算法的黑車識(shí)別方法,該方法包括下列順序的步驟:
[0005] (1)從運(yùn)管處獲得多個(gè)非法運(yùn)營車輛的車牌號(hào)信息,作為黑車樣本車輛;同時(shí)獲 得多個(gè)私家車的車牌號(hào)信息,作為白車樣本車輛,然后從大規(guī)模過車數(shù)據(jù)平臺(tái)Hadoop中檢 索出黑車樣本車輛和白車樣本車輛的過車記錄數(shù)據(jù);
[0006] (2)對檢索出來的過車記錄數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到過車記錄數(shù)據(jù)的原始特征 屬性;
[0007] (3)根據(jù)過車記錄數(shù)據(jù)的原始特征屬性計(jì)算出車輛出行規(guī)律程度;
[0008] (4)在大規(guī)模過車數(shù)據(jù)平臺(tái)Hadoop中,利用過車記錄數(shù)據(jù)的原始特征屬性和車輛 出行規(guī)律程度對貝葉斯分類模型進(jìn)行訓(xùn)練,得到黑車識(shí)別模型;
[0009] (5)將卡口系統(tǒng)中未識(shí)別的過車數(shù)據(jù)輸入黑車識(shí)別模型中,黑車識(shí)別模型自動(dòng)識(shí) 別車輛是否為黑車,并將識(shí)別結(jié)果呈現(xiàn)給用戶。
[0010] 在進(jìn)行過車數(shù)據(jù)檢索時(shí),通過大規(guī)模過車數(shù)據(jù)平臺(tái)Hadoop下的MapReduce引擎獲 取非關(guān)系型分布式數(shù)據(jù)庫HBase中存儲(chǔ)的數(shù)據(jù),該數(shù)據(jù)以車牌號(hào)信息為索引存儲(chǔ)在大規(guī)模 過車數(shù)據(jù)平臺(tái)Hadoop上的HBase中,且以分布式文件系統(tǒng)為基礎(chǔ)。所述數(shù)據(jù)預(yù)處理是指首 先將有缺失或者錯(cuò)誤的過車記錄數(shù)據(jù)刪除,然后通過相關(guān)性分析,得到車輛的過車數(shù)據(jù)中 的各特征屬性與黑車間的相關(guān)程度,取相關(guān)程度最大的4個(gè)特征屬性作為過車記錄數(shù)據(jù)的 原始特征屬性,即過車時(shí)間、卡口編號(hào)、車型和車速。
[0011] 計(jì)算車輛出行規(guī)律程度的具體步驟如下:
[0012] (1)建立特征屬性向量:將原始特征屬性的過車時(shí)間、卡口編號(hào)、車型和車速組成 向量,得到過車記錄的特征屬性向量;
[0013] (2)向量分組:將得到的特征屬性向量根據(jù)樣本進(jìn)行分類處理,得到對應(yīng)于白車 和黑車的兩個(gè)向量組;
[0014] (3)計(jì)算類內(nèi)離散矩陣:根據(jù)公式①、公式②和公式③分別求出對應(yīng)于白車和黑 車的兩個(gè)向量組樣本的類內(nèi)離散矩陣,公式如下:
【主權(quán)項(xiàng)】
1. 一種基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,該方法包括下列順序的步 驟: (1) 從運(yùn)管處獲得多個(gè)非法運(yùn)營車輛的車牌號(hào)信息,作為黑車樣本車輛;同時(shí)獲得多 個(gè)私家車的車牌號(hào)信息,作為白車樣本車輛,然后從大規(guī)模過車數(shù)據(jù)平臺(tái)化doop中檢索出 黑車樣本車輛和白車樣本車輛的過車記錄數(shù)據(jù); (2) 對檢索出來的過車記錄數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到過車記錄數(shù)據(jù)的原始特征屬 性; (3) 根據(jù)過車記錄數(shù)據(jù)的原始特征屬性計(jì)算出車輛出行規(guī)律程度; (4) 在大規(guī)模過車數(shù)據(jù)平臺(tái)化doop中,利用過車記錄數(shù)據(jù)的原始特征屬性和車輛出行 規(guī)律程度對貝葉斯分類模型進(jìn)行訓(xùn)練,得到黑車識(shí)別模型; (5) 將卡口系統(tǒng)中未識(shí)別的過車數(shù)據(jù)輸入黑車識(shí)別模型中,黑車識(shí)別模型自動(dòng)識(shí)別車 輛是否為黑車,并將識(shí)別結(jié)果呈現(xiàn)給用戶。
2. 根據(jù)權(quán)利要求1所述的基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,其特征 在于;在進(jìn)行過車數(shù)據(jù)檢索時(shí),通過大規(guī)模過車數(shù)據(jù)平臺(tái)化doop下的MapRe化ce引擎獲取 非關(guān)系型分布式數(shù)據(jù)庫皿ase中存儲(chǔ)的數(shù)據(jù),該數(shù)據(jù)W車牌號(hào)信息為索引存儲(chǔ)在大規(guī)模過 車數(shù)據(jù)平臺(tái)化doop上的皿ase中,且W分布式文件系統(tǒng)為基礎(chǔ)。
3. 根據(jù)權(quán)利要求1所述的基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,其特征 在于;所述數(shù)據(jù)預(yù)處理是指首先將有缺失或者錯(cuò)誤的過車記錄數(shù)據(jù)刪除,然后通過相關(guān)性 分析,得到車輛的過車數(shù)據(jù)中的各特征屬性與黑車間的相關(guān)程度,取相關(guān)程度最大的4個(gè) 特征屬性作為過車記錄數(shù)據(jù)的原始特征屬性,即過車時(shí)間、卡口編號(hào)、車型和車速。
4. 根據(jù)權(quán)利要求1所述的基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,其特征 在于;計(jì)算車輛出行規(guī)律程度的具體步驟如下: (1) 建立特征屬性向量;將原始特征屬性的過車時(shí)間、卡口編號(hào)、車型和車速組成向 量,得到過車記錄的特征屬性向量; (2) 向量分組;將得到的特征屬性向量根據(jù)樣本進(jìn)行分類處理,得到對應(yīng)于白車和黑 車的兩個(gè)向量組; (3) 計(jì)算類內(nèi)離散矩陣;根據(jù)公式①、公式②和公式⑨分別求出對應(yīng)于白車和黑車的 兩個(gè)向量組樣本的類內(nèi)離散矩陣,公式如下:
S,二S1+S2⑨ 其中;x巧過車記錄向量,X為總體數(shù)據(jù)集,m巧每組向量組的期望向量,ni為每個(gè)向 量組的元素個(gè)數(shù),Si為過車時(shí)間的方差值,S2為過車速度的方差值,T代表矩陣的轉(zhuǎn)置;S,為 兩向量組的方差之和,即類內(nèi)離散矩陣; (4) 計(jì)算類間離散矩陣;根據(jù)公式④求出兩個(gè)向量組樣本之間的離散矩陣,公式如下: Sb=(mi-mg) (nil-m2) ^ ④ 其中;mi和m,分別為時(shí)間向量和速度向量的期望值,Sb為黑車和白車的類間離散矩陣,T代表矩陣的轉(zhuǎn)置; (5)計(jì)算車輛出行規(guī)律程度;根據(jù)公式⑥由類內(nèi)離散矩陣和兩向量組間的類間離散矩 陣得到車輛出行規(guī)律程度,公式如下:
⑥ 其中;mi和m2分別為時(shí)間向量和速度向量的期望值,Si為過車時(shí)間的方差值,S2為過 車速度的方差值,T代表矩陣的轉(zhuǎn)置。
5. 根據(jù)權(quán)利要求1所述的基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,其特征 在于;所述建立基于貝葉斯分類模型的黑車識(shí)別模型的步驟為: (1) 特征屬性選擇;每個(gè)數(shù)據(jù)樣本用一個(gè)5維特征向量表示,5維特征向量的5個(gè)特征 屬性包括原始特征屬性和車輛出行規(guī)律程度,即過車時(shí)間、卡口編號(hào)、車型、車速和車輛出 行規(guī)律程度; (2) 計(jì)算某一屬性值的條件概率:所有的樣本共分為黑車和白車兩個(gè)類,計(jì)算5個(gè)特征 屬性的各取值在黑車類和白車類中的比率P(XkI黑車)和P(XkI白車),其中;Xk是特征屬 性的各個(gè)不同取值,(P(XkI黑車)為某一特征屬性的取值占黑車的百分比,P(XkI白車) 為某一特征屬性的取值占白車的百分比; (3) 計(jì)算某一樣本的條件概率;由公式⑧、公式⑦計(jì)算P狂I白車)、及P(白車)的值, 同理,計(jì)算P(XI黑車)及P(黑車)的值,公式如下: P(白車)=樣本中白車數(shù)/樣本總數(shù) ⑧ P狂I白車)=nP(XkI白車) ⑦ 其中;n代表連乘,P(黑車)和P(白車)分別為樣本中黑車和白車的所占的比率;X代 表5個(gè)特征屬性取值的排列組合,P狂I白車)為某車是白車的情況下各屬性取值為X的 概率值,P狂I黑車)為某車是黑車的情況下各屬性取值為X的概率值; (4) 求得最終結(jié)果:由公式⑨、公式⑨計(jì)算P(白車I幻、P(黑車I幻的值,具體公式 如下: P(白車I幻=P狂I白車)沖(白車)/P狂)⑨ P(黑車I幻=P狂I黑車)沖(黑車)/P狂)⑨ 其中,P(白車I幻、P(黑車I幻分別為代表某輛車為白車、黑車的概率,P狂)為中間 推導(dǎo)量。
6. 根據(jù)權(quán)利要求1所述的基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,其特征 在于;所述大規(guī)模過車數(shù)據(jù)平臺(tái)化doop采用MapRe化ce引擎對獲取到的過車數(shù)據(jù)進(jìn)行預(yù)處 理操作,并將處理后的數(shù)據(jù)傳輸?shù)接?jì)算節(jié)點(diǎn);計(jì)算節(jié)點(diǎn)接收到過車數(shù)據(jù),執(zhí)行Map算法對貝 葉斯分類模型進(jìn)行訓(xùn)練,對模型的各參數(shù)進(jìn)行調(diào)整;使用訓(xùn)練后的模型即黑車識(shí)別模型對 未標(biāo)識(shí)的車輛是否為黑車進(jìn)行判斷,并將判定的結(jié)果傳給Re化ce模塊,Re化ce模塊對結(jié)果 進(jìn)行排序,從而實(shí)現(xiàn)對黑車的識(shí)別。
7. 根據(jù)權(quán)利要求5所述的基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,其特 征在于;將卡口系統(tǒng)中未識(shí)別的過車數(shù)據(jù)代入上述公式⑨、公式⑨中,通過比較P狂I白
【專利摘要】本發(fā)明涉及一種基于大規(guī)模數(shù)據(jù)的貝葉斯分類算法的黑車識(shí)別方法,包括:從大規(guī)模過車數(shù)據(jù)平臺(tái)中檢索出黑車樣本車輛和白車樣本車輛的過車記錄數(shù)據(jù);對檢索出來的過車記錄數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到過車記錄數(shù)據(jù)的原始特征屬性;根據(jù)過車記錄數(shù)據(jù)的原始特征屬性計(jì)算出車輛出行規(guī)律程度;利用過車記錄數(shù)據(jù)的原始特征屬性和車輛出行規(guī)律程度對貝葉斯分類模型進(jìn)行訓(xùn)練,得到黑車識(shí)別模型;將卡口系統(tǒng)中未識(shí)別的過車數(shù)據(jù)輸入黑車識(shí)別模型中,黑車識(shí)別模型自動(dòng)識(shí)別車輛是否為黑車,并將識(shí)別結(jié)果呈現(xiàn)給用戶。本發(fā)明模型建立過程中的所有參數(shù)都是通過自調(diào)整的方式設(shè)定的,消除了主觀因素對黑車識(shí)別結(jié)果的影響,提高了數(shù)據(jù)處理的效率及結(jié)果顯示的實(shí)時(shí)性。
【IPC分類】G06K9-62, G06F17-30
【公開號(hào)】CN104794184
【申請?zhí)枴緾N201510169533
【發(fā)明人】王佐成, 任子暉, 王漢林, 馬韻潔, 張凱, 王衛(wèi), 劉暢, 張偉, 許亞軍
【申請人】安徽四創(chuàng)電子股份有限公司
【公開日】2015年7月22日
【申請日】2015年4月10日