專利名稱:基于特征站點的公交ic卡數(shù)據(jù)站點匹配方法
技術領域:
本發(fā)明涉及一種將公交IC卡交易數(shù)據(jù)與公交站點的匹配方法,屬于公交信息數(shù)據(jù)處理領域。
背景技術:
公交IC卡收費系統(tǒng)為公交出行分析提供了低成本的海量數(shù)據(jù),但由于系統(tǒng)設計目的是為方便乘客付費與票款清算,未考慮交通領域的應用,故IC卡數(shù)據(jù)缺少了一些必要的出行信息,在數(shù)據(jù)處理分析中,首先需要通過技術手段獲取缺失信息,才能開展進一步的數(shù)據(jù)挖掘工作。由于單次刷卡的公交IC卡數(shù)據(jù)中缺少乘客上車站點信息,需要找出乘客刷卡記錄與站點的對應關系。目前比較常見的匹配方法是利用聚類方法對乘客刷卡數(shù)據(jù)進行聚類,以站點間運行時間估計值作為相似性判斷閾值,與聚類子集間的時間差值進行對比,將滿足條件的聚類子集匹配到對應站點。事實上,由于公交站點間車輛運行時間的不確定,單純依靠站點間運行時間估計值作為站點匹配的判斷依據(jù)是不夠準確的,當?shù)缆方煌l件發(fā)生變化情況下,匹配結果誤差較大。根據(jù)公交客流統(tǒng)計結果可知,在某個固定時段內(如早高峰)公交站點客流量具有較強的規(guī)律性,這種規(guī)律為通過尋找具有客流特征的站點來輔助站點匹配的新技術提供了可能。
發(fā)明內容
本發(fā)明目的在于,通過提供一種基于站點客流特征的公交IC卡站點匹配方法,提高單次刷卡線路的公交IC卡數(shù)據(jù)站點匹配精度,準確反映公交乘客出行時站點客流量信息。為基于公交IC卡的數(shù)據(jù)處理分析提供高質量的數(shù)據(jù),獲取更真實的公交IC卡數(shù)據(jù)挖掘結果,為公交規(guī)劃者與管理者提供決策依據(jù)。本發(fā)明是采用以下技術手段實現(xiàn)的一種基于特征站點的公交IC卡數(shù)據(jù)站點匹配方法,包括基于k-means聚類方法的公交IC卡數(shù)據(jù)聚類分析、基于特征站點的站點匹配;所述的基于k-means聚類方法的公交IC卡數(shù)據(jù)聚類分析,包括如下步驟步驟1. 1 確定單車單日班次數(shù);即通過計算單車公交IC數(shù)據(jù)中每個交易記錄的交易時間間隔,獲取單車單日行駛班次數(shù)。對于單車單日IC卡數(shù)據(jù)而言,連續(xù)兩個班次之間有較大的時間間隔,通常在5 10分鐘以上(環(huán)行線路即一端無重點場站線路除外),故單車前一班次的最末交易時間與后一班次的最初交易時間間隔顯著大于同一班次內的相鄰交易時間間隔。計算單車單日所有相鄰交易記錄的交易時間差值,、代表單車IC卡數(shù)據(jù)中每條交易記錄的交易時間,(Kti, ti+1)代表相鄰交易時間間隔,利用曼哈頓距離計算
d(ti ti+1) = |ti-ti+1以w代表班次數(shù),α為班次間隔判斷閾值,根據(jù)城市具體交通情況取值,一般高峰可為5分鐘,平峰為10分鐘。統(tǒng)計單車單日班次數(shù),方法如下w = w+1, if d(ti; ti+1) > α步驟1. 2 確定初始聚類個數(shù);單車班次確認后,對單個班次內的交易記錄進行聚類分析。由于在同一站點的交易記錄交易時間間隔較小,可通過相鄰交易時間間隔判斷初始聚類個數(shù)。以k代表聚類初始值,β為初始聚類判斷閾值,一般大于30秒,則k的統(tǒng)計方法如下k = k+1, if CKti, ti+1) > β步驟1. 3 計算初始聚類子集中心及誤差平方和準則函數(shù);設交易記錄數(shù)據(jù)集為T,Hii為聚類中心,即每個類中交易時間的平均值,P是數(shù)據(jù)集中的點,即交易記錄中的交易時間。計算初始聚類中心如下
權利要求
1. 一種基于特征站點的公交IC卡數(shù)據(jù)站點匹配方法,包括基于k-means聚類方法的公交IC卡數(shù)據(jù)聚類分析、基于特征站點的站點匹配,其特征在于包括如下步驟 所述的基于k-means聚類方法的公交IC卡數(shù)據(jù)聚類分析,包括如下步驟 步驟1. 1 確定單車單日班次數(shù);通過計算單車公交IC數(shù)據(jù)中每個交易記錄的交易時間間隔,獲取單車單日行駛班次數(shù);對于單車前一班次的最末交易時間與后一班次的最初交易時間間隔顯著大于同一班次內的相鄰交易時間間隔的,作為判斷單車單日IC卡數(shù)據(jù)班次的依據(jù)。計算單車單日所有相鄰交易記錄的交易時間差值,、代表單車IC卡數(shù)據(jù)中每條交易記錄的交易時間,(Kti, ti+1)代表相鄰交易時間間隔,利用曼哈頓距離計算 (Kti, ti+1) = I ti-ti+1以w代表班次數(shù),α為班次間隔判斷閾值,根據(jù)城市具體交通情況取值,一般高峰可為 5分鐘,平峰為10分鐘;統(tǒng)計單車單日班次數(shù),方法如下 w = w+1, if (Kti, ti+1) > α 步驟1. 2 確定初始聚類個數(shù);單車班次確認后,對單個班次內的交易記錄進行聚類分析,由于在同一站點的交易記錄交易時間間隔較小,可通過相鄰交易時間間隔判斷初始聚類個數(shù),以k代表聚類初始值, β為初始聚類判斷閾值,一般大于30秒,則k的統(tǒng)計方法如下 k = k+1, if d(ti ti+1) > β步驟1. 3 計算初始聚類子集中心及誤差平方和準則函數(shù);設交易記錄數(shù)據(jù)集為T,Hli為聚類中心,即每個類中交易時間的平均值,ρ是數(shù)據(jù)集中的點,即交易記錄中的交易時間,計算初始聚類中心如下
2.根據(jù)權利要求1所述的一種基于特征站點的公交IC卡數(shù)據(jù)站點匹配方法,其特征在于所述基于特征站點的站點匹配,首先從公交線路中選取出包括客流峰值站點及換乘站點在內的特征站點,與對應的聚類子集進行匹配,再根據(jù)站點間運行時間與聚類子集時間間距的大小關系完成其他站點與聚類子集的匹配。
3.根據(jù)權利要求1所述的一種基于特征站點的公交IC卡數(shù)據(jù)站點匹配方法,其特征在于所述基于特征站點的站點匹配,其換乘站點的確認方法為首先找到可能與換乘站點匹配的聚類子集,并搜索聚類子集中每個IC卡號的全天交易記錄;對同一 IC卡號,若前一個交易記錄發(fā)生的線路與目標線路有換乘站點,則計算前一個交易記錄與屬于目標線路的交易記錄的交易時間差值,若差值小于判斷閾值則認為存在換乘行為,屬于目標線路的交易記錄所在的聚類子集與換乘站點ID匹配。
全文摘要
一種基于特征站點的公交IC卡數(shù)據(jù)站點匹配方法,包括基于k-means聚類方法的公交IC卡數(shù)據(jù)聚類分析、基于特征站點的站點匹配,包括確定單車單日班次數(shù)步驟;通過計算單車公交IC數(shù)據(jù)中每個交易記錄的交易時間間隔,獲取單車單日行駛班次數(shù);特征站點選取步驟;包括客流峰值站點及換乘站點,其余站點為非特征站點;客流峰值站點指固定時段內的單個班次中,沿途站點客流最大的站點,可以為一個或數(shù)個;換乘站點指其他線路換乘到目標線路乘車時,交易記錄發(fā)生的站點;提高單次刷卡線路的公交IC卡數(shù)據(jù)站點匹配精度,獲得更準確的公交站點客流量信息,為基于公交IC卡的數(shù)據(jù)處理分析提供更高質量的數(shù)據(jù),為公交規(guī)劃者與管理者提供決策依據(jù)。
文檔編號G06F17/30GK102156732SQ20111008968
公開日2011年8月17日 申請日期2011年4月11日 優(yōu)先權日2011年4月11日
發(fā)明者劉帥, 陳紹輝, 陳艷艷 申請人:北京工業(yè)大學