用于交通小區(qū)劃分的手機(jī)信令信息的處理方法
【專(zhuān)利摘要】本發(fā)明屬于城市交通數(shù)據(jù)采集分析【技術(shù)領(lǐng)域】,尤其涉及一種用于交通小區(qū)劃分的手機(jī)信令信息的處理方法,包括:對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行清洗,剔除異常數(shù)據(jù);將手機(jī)數(shù)據(jù)對(duì)應(yīng)的基站位置信息與道路進(jìn)行匹配;建立基于手機(jī)信令信息的交通語(yǔ)義分類(lèi);根據(jù)交通語(yǔ)義分類(lèi)情況,選取手機(jī)基站特征對(duì)其進(jìn)行區(qū)別;對(duì)手機(jī)信令信息進(jìn)行提煉,得到手機(jī)基站的特征;通過(guò)對(duì)手機(jī)基站特征進(jìn)行聚類(lèi)分析,實(shí)現(xiàn)交通小區(qū)劃分。利用手機(jī)信令數(shù)據(jù)對(duì)城市進(jìn)行的交通小區(qū)劃分與當(dāng)今大數(shù)據(jù)挖掘的趨勢(shì)相一致;語(yǔ)義劃分對(duì)于實(shí)際中基站的種類(lèi)劃分起到簡(jiǎn)化作用,并且能有效、自動(dòng)的識(shí)別區(qū)域和基站的屬性;能快速直接的劃分出城市交通小區(qū),具有數(shù)據(jù)采集容易,劃分成本低廉、快速直接的優(yōu)點(diǎn)。
【專(zhuān)利說(shuō)明】用于交通小區(qū)劃分的手機(jī)信令信息的處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于城市交通數(shù)據(jù)采集分析【技術(shù)領(lǐng)域】,尤其涉及一種用于交通小區(qū)劃分的 手機(jī)信令信息的處理方法。
【背景技術(shù)】
[0002] 目前,海量的數(shù)據(jù)的分析挖掘和管理應(yīng)用成為現(xiàn)代交通該服務(wù)的瓶頸。在這些數(shù) 據(jù)中,軌跡數(shù)據(jù)的分析與挖掘研究主要關(guān)注軌跡時(shí)態(tài)和空間分布特征的提取,由于缺乏與 應(yīng)用語(yǔ)義的關(guān)聯(lián),具體應(yīng)用開(kāi)發(fā)方面裹足不前。
[0003] 城市道路網(wǎng)絡(luò)交通小區(qū)是為了減少交通控制和管理系統(tǒng)的復(fù)雜性,將復(fù)雜交通網(wǎng) 絡(luò)分解為若干個(gè)交通區(qū)域,對(duì)交通區(qū)域進(jìn)行協(xié)調(diào)優(yōu)化。交通小區(qū)劃分最早是在交通規(guī)劃領(lǐng) 域中提出的,其目的主要是為了定義城市路網(wǎng)中交通起訖點(diǎn)的位置,然后使用需求預(yù)測(cè)模 型對(duì)各交通小區(qū)間的交通出行量進(jìn)預(yù)測(cè),是研究四階段法中交通生成、分布的基本空間單 位。
[0004] 目前國(guó)內(nèi)外交通小區(qū)的劃分方法主要有基于聚類(lèi)分析的交通小區(qū)劃分方法、面向 控制的交通小區(qū)劃分、基于區(qū)內(nèi)出行比例的交通小區(qū)劃分方法、對(duì)手機(jī)話(huà)務(wù)量的聚類(lèi)分析 方法、扇形分割方法等五種方法。其中基于手機(jī)話(huà)務(wù)量的聚類(lèi)分析方法是指利用手機(jī)話(huà)務(wù) 量的時(shí)間分布特征來(lái)分析劃分城市活動(dòng)及土地利用特性,從而進(jìn)一步映射出交通小區(qū)。
[0005] 整個(gè)過(guò)程要綜合基站、手機(jī)與用戶(hù)使用者之間的關(guān)系從而得出各交通小區(qū)間的OD 矩陣。但利用手機(jī)話(huà)務(wù)量來(lái)進(jìn)行交通小區(qū)劃分相比于利用手機(jī)信令定位數(shù)據(jù)來(lái)說(shuō)精準(zhǔn)度更 低。目前,與交通相關(guān)的交通小區(qū)劃分方法主要是通過(guò)人工調(diào)查、人工統(tǒng)計(jì)的方式進(jìn)行,費(fèi) 時(shí)費(fèi)力,且數(shù)據(jù)的準(zhǔn)確性無(wú)法保證。
[0006] 傳統(tǒng)的方法耗費(fèi)時(shí)間和人力物力,像北京做一次起訖點(diǎn)調(diào)查要耗費(fèi)約170萬(wàn)和大 量人力,這種方法得到的數(shù)據(jù)只是現(xiàn)在的出行狀態(tài)的一個(gè)快照,并且要花費(fèi)幾年的時(shí)間更 新數(shù)據(jù),而基于手機(jī)定位數(shù)據(jù)獲取OD數(shù)據(jù)的方法只需要從運(yùn)營(yíng)商處獲得手機(jī)移動(dòng)記錄,這 些記錄的獲得不需要額外的投資(例如,升級(jí)基站或手機(jī)移動(dòng)終端)。交通小區(qū)劃分的準(zhǔn)確 性若無(wú)法保證,將會(huì)影響后續(xù)工作的研究。
【發(fā)明內(nèi)容】
[0007] 為了克服上述現(xiàn)有方法存在的缺陷,本發(fā)明提出了一種用于交通小區(qū)劃分的手機(jī) 信令信息的處理方法,包括:
[0008] 步驟1、對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行清洗,剔除異常數(shù)據(jù);
[0009] 步驟2、將手機(jī)數(shù)據(jù)對(duì)應(yīng)的基站位置信息與道路進(jìn)行匹配;
[0010]步驟3、建立基于手機(jī)信令信息的交通語(yǔ)義分類(lèi);
[0011] 步驟4、根據(jù)交通語(yǔ)義分類(lèi)情況,提取手機(jī)基站特征對(duì)其進(jìn)行區(qū)別;
[0012] 步驟5、根據(jù)步驟4所提取的手機(jī)基站特征,利用聚類(lèi)分析法標(biāo)定出手機(jī)基站所屬 的交通語(yǔ)義類(lèi)別;
[0013] 步驟6、通過(guò)步驟5標(biāo)定出的手機(jī)基站所屬的交通語(yǔ)義類(lèi)別再加上手機(jī)基站位置 特征作為特征量,采用聚類(lèi)分析法,實(shí)現(xiàn)交通小區(qū)劃分。
[0014] 所述步驟1中的異常數(shù)據(jù)包括:數(shù)據(jù)時(shí)間、坐標(biāo)及唯一標(biāo)識(shí),剔除時(shí)間異常、位置 異常、重復(fù)數(shù)據(jù)以及缺失數(shù)據(jù)。
[0015] 所述步驟2具體包括:
[0016] 步驟21、將獲得的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),并調(diào)整格式;
[0017] 步驟22、對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行過(guò)濾;
[0018] 步驟23、將連續(xù)的手機(jī)數(shù)據(jù)分割成基于隸屬基站的數(shù)據(jù);
[0019] 步驟24、結(jié)合基站位置信息,在地理信息系統(tǒng)上可視化顯示。
[0020] 所述步驟22中的過(guò)濾是指:完成數(shù)據(jù)的質(zhì)量分析、清洗、轉(zhuǎn)換、預(yù)統(tǒng)計(jì)、加載,得到 實(shí)驗(yàn)所需的字段MSISDN、TimeStamp、LAC、CELLID、EventID;另外,將同一用戶(hù)在同一位置 發(fā)生的事件進(jìn)行壓縮,只體現(xiàn)出移動(dòng)性,不考慮用戶(hù)發(fā)生的具體業(yè)務(wù)。
[0021] 所述步驟3中的交通語(yǔ)義分類(lèi)具體分為以下三大類(lèi):工作區(qū)、居住區(qū)和城市道路。
[0022] 所述手機(jī)基站的特征是通過(guò)分析不同語(yǔ)義屬性的典型基站的人流量變化來(lái)反映 基站各時(shí)段不同形式人流量的變化情況,具體為包括:1)實(shí)時(shí)人流量:是指某整點(diǎn)時(shí)刻向 前延長(zhǎng)的單位時(shí)間里該區(qū)域范圍內(nèi)活動(dòng)的手機(jī)用戶(hù)數(shù)量;2)時(shí)段流入量:是指在上一個(gè)時(shí) 段中不在該區(qū)域范圍內(nèi)活動(dòng)但在下一個(gè)時(shí)段中在區(qū)域內(nèi)活動(dòng)的手機(jī)用戶(hù)數(shù)量;3)時(shí)段流 出量:是指在上一個(gè)時(shí)段在該區(qū)域范圍內(nèi)活動(dòng)但下一個(gè)時(shí)段不在該區(qū)域內(nèi)活動(dòng)的手機(jī)用戶(hù) 數(shù)量;4)時(shí)段新增人流量:用指定時(shí)段前后兩個(gè)時(shí)刻的實(shí)時(shí)人流量相比較即得出時(shí)段新增 人流量。
[0023] 所述的實(shí)時(shí)人流量的算法包括:1)將目標(biāo)區(qū)域的基站制作成地理信息系統(tǒng)圖層; 2)將基站圖層添加到地圖中,并將基站和目標(biāo)區(qū)域地圖圖層關(guān)聯(lián);3)根據(jù)數(shù)據(jù)中移動(dòng)用戶(hù) 和基站的關(guān)系,以及地圖中基站和目標(biāo)區(qū)域的關(guān)聯(lián),篩選出屬于目標(biāo)區(qū)域的移動(dòng)用戶(hù);4) 確定要篩選的時(shí)刻,然后選出該時(shí)刻向前延長(zhǎng)單位時(shí)間內(nèi)出現(xiàn)過(guò)的移動(dòng)用戶(hù),排重后即為 該時(shí)刻的實(shí)時(shí)人流量。
[0024] 所述時(shí)段流入量、時(shí)段流出量以及時(shí)段新增人流量的算法步驟具體為:1)選定時(shí) 間段[a,b],時(shí)間跨度t小時(shí);2)統(tǒng)計(jì)出時(shí)間點(diǎn)a對(duì)應(yīng)的集合A中的用戶(hù),排重;3)統(tǒng)計(jì)出 時(shí)間點(diǎn)b對(duì)應(yīng)的集合B中的用戶(hù),排重;4)統(tǒng)計(jì)集合A與集合B的差集中的用戶(hù)即為流出 用戶(hù);5)統(tǒng)計(jì)集合B與集合A的差集B-A中的用戶(hù)即為流入用戶(hù);6)B-A集合中用戶(hù)量減去 集合B-A中用戶(hù)量即為時(shí)段新增人流量。
[0025] 所述步驟4中所提取的手機(jī)基站特征包括:將手機(jī)基站實(shí)時(shí)人流量、小時(shí)流入量、 小時(shí)流出量、時(shí)段新增流量作為聚類(lèi)的4個(gè)基本特征;設(shè)手機(jī)數(shù)據(jù)中全部基站為聚類(lèi)樣本 數(shù)據(jù)X= {Xl,x2,…Xi···,χη},η為手機(jī)基站總數(shù),Xi為第i個(gè)手機(jī)基站;每個(gè)基站有M= 96 個(gè)特征量:24個(gè)實(shí)時(shí)人流量、24個(gè)小時(shí)流入量、24個(gè)小時(shí)流出量、24個(gè)時(shí)段新增流量,特征 具體為(4,<,…<6).由于交通語(yǔ)義類(lèi)別共分為3類(lèi),所以在聚類(lèi)開(kāi)始前制定K為3,進(jìn)行K 均值聚類(lèi)。
[0026] 所述步驟6具體包括:將手機(jī)基站的經(jīng)度、緯度以及所屬的語(yǔ)義劃分類(lèi)型作為聚 類(lèi)特征,得到特征總數(shù)M= 3,特征具體為;預(yù)設(shè)K為任意整數(shù),進(jìn)行K均值聚類(lèi), 直到標(biāo)準(zhǔn)測(cè)度函數(shù)收斂為止得到K值即為小區(qū)總數(shù)。
[0027] 所述步驟5和步驟6中的聚類(lèi)分析法包括:
[0028] 步驟61、從η個(gè)手機(jī)基站中選擇k個(gè)手機(jī)基站作為初始聚類(lèi)中心,其他手機(jī)基站則 根據(jù)這些手機(jī)基站與初始聚類(lèi)中心的距離及相似度分別分配到最相近的小區(qū);h為第j個(gè) 聚類(lèi)中心,則\與(^_的距離為
[0029]
【權(quán)利要求】
1. 一種用于交通小區(qū)劃分的手機(jī)信令信息的處理方法,其特征在于,包括: 步驟1、對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行清洗,剔除異常數(shù)據(jù); 步驟2、將手機(jī)數(shù)據(jù)對(duì)應(yīng)的基站位置信息與道路進(jìn)行匹配; 步驟3、建立基于手機(jī)信令信息的交通語(yǔ)義分類(lèi); 步驟4、根據(jù)交通語(yǔ)義分類(lèi)情況,提取手機(jī)基站特征對(duì)其進(jìn)行區(qū)別; 步驟5、根據(jù)步驟4所提取的手機(jī)基站特征,利用聚類(lèi)分析法標(biāo)定出手機(jī)基站所屬的交 通語(yǔ)義類(lèi)別; 步驟6、通過(guò)步驟5標(biāo)定出的手機(jī)基站所屬的交通語(yǔ)義類(lèi)別再加上手機(jī)基站位置特征 作為特征量,采用聚類(lèi)分析法,實(shí)現(xiàn)交通小區(qū)劃分。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟1中的異常數(shù)據(jù)包括:數(shù)據(jù)時(shí) 間、坐標(biāo)及唯一標(biāo)識(shí),剔除時(shí)間異常、位置異常、重復(fù)數(shù)據(jù)以及缺失數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2具體包括: 步驟21、將獲得的數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù),并調(diào)整格式; 步驟22、對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行過(guò)濾; 步驟23、將連續(xù)的手機(jī)數(shù)據(jù)分割成基于隸屬基站的數(shù)據(jù); 步驟24、結(jié)合基站位置信息,在地理信息系統(tǒng)上可視化顯示。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟22中的過(guò)濾是指:完成數(shù)據(jù)的 質(zhì)量分析、清洗、轉(zhuǎn)換、預(yù)統(tǒng)計(jì)、加載,得到實(shí)驗(yàn)所需的字段MSISDN、TimeStamp、LAC、CELLID、 EventID;另外,將同一用戶(hù)在同一位置發(fā)生的事件進(jìn)行壓縮,只體現(xiàn)出移動(dòng)性,不考慮用戶(hù) 發(fā)生的具體業(yè)務(wù)。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3中的交通語(yǔ)義分類(lèi)具體分為以 下三大類(lèi):工作區(qū)、居住區(qū)和城市道路。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述手機(jī)基站特征是通過(guò)分析不同語(yǔ)義 屬性的典型基站的人流量變化來(lái)反映基站各時(shí)段不同形式人流量的變化情況,具體為包 括:1)實(shí)時(shí)人流量:是指某整點(diǎn)時(shí)刻向前延長(zhǎng)的單位時(shí)間里該區(qū)域范圍內(nèi)活動(dòng)的手機(jī)用戶(hù) 數(shù)量;2)時(shí)段流入量:是指在上一個(gè)時(shí)段中不在該區(qū)域范圍內(nèi)活動(dòng)但在下一個(gè)時(shí)段中在區(qū) 域內(nèi)活動(dòng)的手機(jī)用戶(hù)數(shù)量;3)時(shí)段流出量:是指在上一個(gè)時(shí)段在該區(qū)域范圍內(nèi)活動(dòng)但下一 個(gè)時(shí)段不在該區(qū)域內(nèi)活動(dòng)的手機(jī)用戶(hù)數(shù)量;4)時(shí)段新增人流量:用指定時(shí)段前后兩個(gè)時(shí)刻 的實(shí)時(shí)人流量相比較即得出時(shí)段新增人流量; 所述的實(shí)時(shí)人流量的算法包括:1)將目標(biāo)區(qū)域的基站制作成地理信息系統(tǒng)圖層;2)將 基站圖層添加到地圖中,并將基站和目標(biāo)區(qū)域地圖圖層關(guān)聯(lián);3)根據(jù)數(shù)據(jù)中移動(dòng)用戶(hù)和基 站的關(guān)系,以及地圖中基站和目標(biāo)區(qū)域的關(guān)聯(lián),篩選出屬于目標(biāo)區(qū)域的移動(dòng)用戶(hù);4)確定 要篩選的時(shí)刻,然后選出該時(shí)刻向前延長(zhǎng)單位時(shí)間內(nèi)出現(xiàn)過(guò)的移動(dòng)用戶(hù),排重后即為該時(shí) 刻的實(shí)時(shí)人流量。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述時(shí)段流入量、時(shí)段流出量以及時(shí)段新 增人流量的算法步驟具體為:1)選定時(shí)間段[a,b],時(shí)間跨度t小時(shí);2)統(tǒng)計(jì)出時(shí)間點(diǎn)a對(duì) 應(yīng)的集合A中的用戶(hù),排重;3)統(tǒng)計(jì)出時(shí)間點(diǎn)b對(duì)應(yīng)的集合B中的用戶(hù),排重;4)統(tǒng)計(jì)集合 A與集合B的差集中的用戶(hù)即為流出用戶(hù);5)統(tǒng)計(jì)集合B與集合A的差集B-A中的用戶(hù)即 為流入用戶(hù);6)B-A集合中用戶(hù)量減去集合B-A中用戶(hù)量即為時(shí)段新增人流量。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟4中所提取的手機(jī)基站特征包 括:將手機(jī)基站實(shí)時(shí)人流量、小時(shí)流入量、小時(shí)流出量、時(shí)段新增流量作為聚類(lèi)的4個(gè)基本 特征;設(shè)手機(jī)數(shù)據(jù)中全部基站為聚類(lèi)樣本數(shù)據(jù)X= {Xl,x2,…Xi…,xn},n為手機(jī)基站總數(shù), Xi為第i個(gè)手機(jī)基站;每個(gè)基站有M= 96個(gè)特征量:24個(gè)實(shí)時(shí)人流量、24個(gè)小時(shí)流入量、 24個(gè)小時(shí)流出量、24個(gè)時(shí)段新增流量,特征具體為(?^,<,…^f).由于交通語(yǔ)義類(lèi)別共分為 3類(lèi),所以在聚類(lèi)開(kāi)始前制定K為3,進(jìn)行K均值聚類(lèi)。
9. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟6具體包括:將手機(jī)基站的 經(jīng)度、緯度以及所屬的語(yǔ)義劃分類(lèi)型作為聚類(lèi)特征,得到特征總數(shù)M= 3,特征具體為 (x/,x,2,x,3);預(yù)設(shè)K為任意整數(shù),進(jìn)行K均值聚類(lèi),直到標(biāo)準(zhǔn)測(cè)度函數(shù)收斂為止得到K值即為 小區(qū)總數(shù)。
10. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟5和步驟6中的聚類(lèi)分析法包 括: 步驟101、從n個(gè)手機(jī)基站中選擇k個(gè)手機(jī)基站作為初始聚類(lèi)中心,其他手機(jī)基站則根 據(jù)這些手機(jī)基站與初始聚類(lèi)中心的距離及相似度分別分配到最相近的小區(qū);h為第j個(gè)聚 類(lèi)中心,則x#c」的距離為
其中,xf為第i個(gè)手機(jī)基站的第m個(gè)特征,< 為第j個(gè)聚類(lèi)中心的第m個(gè)特征,m = (1,2,…,M),M為特征總量;x#c』的相似度為s(xi,Cj) = 1/d(Xi,Cj); 步驟102、計(jì)算每個(gè)更新的小區(qū)的聚類(lèi)中心,用聚類(lèi)中心的編號(hào)替代小區(qū)的編號(hào),則第 j個(gè)小區(qū)的手機(jī)基站為{W7.2,丨,即該小區(qū)包含1個(gè)手機(jī)基站,則該小區(qū) 的聚類(lèi)中心為, <, ? ? % % },其中為第j個(gè)小區(qū)的聚類(lèi)中心a的第m個(gè) 特征,根據(jù)下式求得:
其中,x#是第j個(gè)小區(qū)中的第i個(gè)手機(jī)基站,r^_是第j個(gè)小區(qū)中的手機(jī)基站個(gè)數(shù), 是第j個(gè)小區(qū)中第i個(gè)手機(jī)基站的第m個(gè)特征; 步驟103、重復(fù)執(zhí)行步驟102,直到標(biāo)準(zhǔn)測(cè)度函數(shù)收斂為止,其形式為:
其中,J是標(biāo)準(zhǔn)值,Xcu_是第c種類(lèi)別中的第j個(gè)小區(qū)的特征,c。是第c種類(lèi)別中的類(lèi)中 心的特征,c= (1,2, --?!(),K為類(lèi)別總數(shù),h是第j個(gè)小區(qū)中的手機(jī)基站個(gè)數(shù),n為手機(jī)基 站總數(shù)。
【文檔編號(hào)】G08G1/01GK104484993SQ201410709303
【公開(kāi)日】2015年4月1日 申請(qǐng)日期:2014年11月27日 優(yōu)先權(quán)日:2014年11月27日
【發(fā)明者】董宏輝, 賈利民, 秦勇, 武明超, 丁曉青, 單慶超, 李盼 申請(qǐng)人:北京交通大學(xué)