一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法
【專利摘要】本發(fā)明公開了一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,本發(fā)明根據(jù)基礎(chǔ)地理信息門牌號(hào)屬性,按照道路數(shù)據(jù)和非道路數(shù)據(jù)分別挖掘異常數(shù)據(jù),其中道路數(shù)據(jù)包括距離異常數(shù)據(jù)和密度異常數(shù)據(jù),非道路異常數(shù)據(jù)主要為距離異常數(shù)據(jù)。道路距離異常數(shù)據(jù)以道路點(diǎn)到擬合曲線的距離來判斷,密度異常數(shù)據(jù)的特點(diǎn)是在其一定范圍內(nèi)沒有相同屬性的數(shù)據(jù);非道路異常數(shù)據(jù)是以重心點(diǎn)為參考,計(jì)算每點(diǎn)到重心的距離判斷其是否是異常數(shù)據(jù)。本發(fā)明的方法實(shí)現(xiàn)了在海量數(shù)據(jù)中高效、自動(dòng)挖掘異常數(shù)據(jù)的功能。
【專利說明】一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于地理信息系統(tǒng)統(tǒng)計(jì)分析應(yīng)用領(lǐng)域,涉及一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,特別是針對(duì)具有門牌號(hào)屬性的海量基礎(chǔ)地理數(shù)據(jù)的挖掘方法。
【背景技術(shù)】
[0002]隨著經(jīng)濟(jì)社會(huì)和地理信息技術(shù)的高速發(fā)展,大量基礎(chǔ)數(shù)據(jù)急劇增長(zhǎng),從海量數(shù)據(jù)中挖掘有用信息和異常數(shù)據(jù)成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘可以當(dāng)作是一個(gè)在海量數(shù)據(jù)中探索數(shù)據(jù)間的關(guān)系、利用各種分析工具構(gòu)建數(shù)據(jù)分析模型,并發(fā)現(xiàn)隱藏于數(shù)據(jù)之中的知識(shí)的過程。對(duì)海量基礎(chǔ)地理數(shù)據(jù)進(jìn)行分析,研究異常數(shù)據(jù)的挖掘方法,使異常對(duì)象從其他對(duì)象中自動(dòng)分離出來,并可將異常數(shù)據(jù)提供給相關(guān)部門,檢查該地理數(shù)據(jù)是否符合實(shí)際情況。
[0003]異常數(shù)據(jù)的挖掘方法主要包括基于統(tǒng)計(jì)的、基于距離的、基于偏離的和基于聚類的方法等。基礎(chǔ)地理數(shù)據(jù)庫(kù)中存在大量異常數(shù)據(jù),由于數(shù)據(jù)來源不同或是數(shù)據(jù)測(cè)量和收集的失誤,會(huì)存在異常數(shù)據(jù),導(dǎo)致該數(shù)據(jù)與實(shí)際不符。依靠人工在海量數(shù)據(jù)中分離異常數(shù)據(jù)是不科學(xué)和不易實(shí)現(xiàn)的。客觀上有必要根據(jù)基礎(chǔ)地理信息數(shù)據(jù)的屬性和分布特點(diǎn),發(fā)明一種面向該類數(shù)據(jù)異常數(shù)據(jù)的挖掘方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于結(jié)合數(shù)據(jù)挖掘理論等相關(guān)知識(shí),提供一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,可以穩(wěn)健和自動(dòng)地挖據(jù)出其中隱含的異常數(shù)據(jù)。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明的解決方案是:一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,主要是針對(duì)具有門牌號(hào)屬性的地理數(shù)據(jù),綜合考慮其屬性和地理分布特點(diǎn)。方案設(shè)計(jì)主要分為兩部分,即挖掘道路異常數(shù)據(jù)和非道路異常數(shù)據(jù),包括以下步驟:
[0006]首先由門牌號(hào)屬性字段值提取道路數(shù)據(jù),根據(jù)道路特點(diǎn),將數(shù)據(jù)采用多項(xiàng)式方式擬合為最佳曲線,按照道路點(diǎn)到曲線的距離以及道路點(diǎn)與道路點(diǎn)的距離,判斷該道路點(diǎn)是否異常;然后由門牌號(hào)屬性字段提取非道路數(shù)據(jù),按照非道路數(shù)據(jù)一般具有集聚性的特點(diǎn),計(jì)算出其重心位置,根據(jù)非道路數(shù)據(jù)與重心點(diǎn)的距離,判斷該非道路點(diǎn)是否異常;
[0007]經(jīng)過第I步和第2步之后,得到異常數(shù)據(jù)的初步結(jié)果,由于得到的初步結(jié)果中包含與實(shí)際相符的數(shù)據(jù),故利用相同屬性數(shù)據(jù)具有集聚性的特點(diǎn),進(jìn)一步濾除該結(jié)果中的正常地理數(shù)據(jù);得到最終異常數(shù)據(jù)結(jié)果。
[0008]換言之,一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,針對(duì)基礎(chǔ)地理信息數(shù)據(jù)按照其門牌號(hào)屬性分為道路數(shù)據(jù)和非道路數(shù)據(jù),分別挖掘異常數(shù)據(jù);其中道路異常數(shù)據(jù)包括距離異常數(shù)據(jù)和密度異常數(shù)據(jù),非道路異常數(shù)據(jù)則主要為距離異常數(shù)據(jù)。
[0009]進(jìn)一步,包含以下步驟:
[0010]首先由門牌號(hào)屬性字段值提取道路數(shù)據(jù),判斷該道路點(diǎn)是否異常;
[0011]然后由門牌號(hào)屬性字段提取非道路數(shù)據(jù),判斷該非道路點(diǎn)是否異常;
[0012]經(jīng)過前述步驟之后,得到異常數(shù)據(jù)的初步結(jié)果,進(jìn)一步濾除該結(jié)果中的正常地理數(shù)據(jù);得到最終異常數(shù)據(jù)結(jié)果。
[0013]所述的挖掘道路數(shù)據(jù)中的距離異常數(shù)據(jù)為:首先根據(jù)道路數(shù)據(jù)擬合出該道路曲線,然后計(jì)算所有點(diǎn)到該擬合曲線的平均距離的二倍,將其作為閾值,判斷道路上的每一點(diǎn)到擬合曲線的距離與閾值的關(guān)系,若該距離大于閾值,則定義該點(diǎn)為異常點(diǎn),否則,為正常點(diǎn);循環(huán)所有道路數(shù)據(jù)之后,得到道路距離異常值。
[0014]所述的挖掘道路數(shù)據(jù)中的密度異常數(shù)據(jù)為:首先統(tǒng)計(jì)道路上任意相鄰兩點(diǎn)的距離,然后選定某一值作為閾值;對(duì)于道路上的每個(gè)點(diǎn),判斷在以此點(diǎn)為圓心,閾值為半徑的圓的范圍內(nèi),是否還存在與其屬性相同的點(diǎn),如果存在,定義該點(diǎn)為正常數(shù)據(jù);若不存在,定義該點(diǎn)為異常點(diǎn);以此為依據(jù),挖掘道路密度異常數(shù)據(jù)。
[0015]所述的挖掘非道路數(shù)據(jù)中的距離異常數(shù)據(jù)為:首先將地理數(shù)據(jù)按照門牌號(hào)屬性分組,使具有相同屬性的數(shù)據(jù)分為一組,然后計(jì)算非道路數(shù)據(jù)各分組的重心坐標(biāo),之后計(jì)算組中所有點(diǎn)到該組重心的平均距離,并以平均距離的二倍作為閾值,判斷點(diǎn)到重心的距離與閾值的關(guān)系;若所得距離小于閾值,定義該點(diǎn)為正常數(shù)據(jù);若所得距離大于閾值,定義該點(diǎn)為異常數(shù)據(jù);所有分組循環(huán)本操作之后,得到非道路數(shù)據(jù)的距離異常數(shù)據(jù)。
[0016]所述的過濾初步異常數(shù)據(jù)結(jié)果中的聚集點(diǎn)為:經(jīng)過步驟I)和步驟2)之后,得到異常數(shù)據(jù)的初步結(jié)果,對(duì)于結(jié)果中的每一點(diǎn),選定某一閾值,判斷在以此點(diǎn)為圓心,閾值為半徑的圓的范圍內(nèi),是否還存在與其屬性相同的點(diǎn);如果存在,則在初步異常數(shù)據(jù)結(jié)果中去除該點(diǎn);如果不存在,則在異常數(shù)據(jù)結(jié)果中保留該點(diǎn),循環(huán)初步異常數(shù)據(jù)結(jié)果中所有點(diǎn)之后,最終得到異常數(shù)據(jù)的結(jié)果。
[0017]由于人為失誤或是實(shí)際地理數(shù)據(jù)更新變化,數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)存在較多異常數(shù)據(jù)集,現(xiàn)有技術(shù)中僅依靠人工逐一檢測(cè)異常值,不但浪費(fèi)人力物力,而且降低工作效率。本發(fā)明的方法實(shí)現(xiàn)自動(dòng)挖掘異常數(shù)據(jù),在實(shí)際生產(chǎn)中具有重要的應(yīng)用價(jià)值。
【專利附圖】
【附圖說明】
[0018]圖1為本發(fā)明方法的流程圖。
[0019]圖2為道路擬合曲線圖。
[0020]圖3為道路密度異常點(diǎn)圖。
[0021]圖4為非道路數(shù)據(jù)的重心位置和距離異常值的閾值圖。
[0022]圖5為某道路挖掘異常數(shù)據(jù)的結(jié)果圖。
[0023]圖6為依據(jù)本發(fā)明的方法挖掘上海市普陀區(qū)基礎(chǔ)地理數(shù)據(jù)異常數(shù)據(jù)結(jié)果圖。【具體實(shí)施方式】
[0024]以下結(jié)合附圖所示實(shí)施例對(duì)本發(fā)明作進(jìn)一步的說明。
[0025]請(qǐng)參閱圖1,本發(fā)明的方法包括以下步驟:
[0026](a)讀取基礎(chǔ)地理信息;
[0027](b)根據(jù)地理數(shù)據(jù)門牌號(hào)屬性進(jìn)行判斷是否為道路,若是,轉(zhuǎn)入步驟(C);不然,轉(zhuǎn)入步驟⑷;
[0028](C)道路異常數(shù)據(jù)包括距離異常數(shù)據(jù)和密度異常數(shù)據(jù),首先,將本道路上的所有點(diǎn)擬合一條曲線,計(jì)算道路上的點(diǎn)到該擬合曲線的距離,并確定閾值;判斷所得距離是否大于閾值,若是,則得到距離異常點(diǎn)初步結(jié)果,轉(zhuǎn)入步驟(e);不然,判斷為正常點(diǎn);
[0029]然后繼續(xù)對(duì)該道路數(shù)據(jù)統(tǒng)計(jì),統(tǒng)計(jì)相鄰兩點(diǎn)間的距離,確定閾值;判斷在道路點(diǎn)為圓心,閾值為半徑的圓的范圍內(nèi),是否還存在與其屬性相同的點(diǎn);若是,判斷為正常點(diǎn);不然,則得到密度異常點(diǎn)初步結(jié)果,轉(zhuǎn)入步驟(e);
[0030](d)根據(jù)門牌號(hào)碼屬性進(jìn)行分組,并計(jì)算每一分組的重心坐標(biāo);計(jì)算該區(qū)域內(nèi)所有點(diǎn)到其所在分組的重心的距離,并確定閾值;判斷該點(diǎn)到重心的距離是否大于閾值;若是,則得到異常點(diǎn)初步結(jié)果,轉(zhuǎn)入步驟(e);不然,判斷為正常點(diǎn);
[0031](e)判斷在初步異常點(diǎn)為圓心、閾值為半徑的圓的范圍內(nèi),是否還存在與其屬性相同的點(diǎn);若是,則確定為正常點(diǎn),在異常點(diǎn)初步結(jié)果中刪除;不然,判斷為異常數(shù)據(jù)結(jié)果。
[0032]進(jìn)一步,具體來說:
[0033](I)首先由門牌號(hào)屬性字段值提取道路數(shù)據(jù),判斷該道路點(diǎn)是否異常;
[0034]對(duì)屬于道路的地理數(shù)據(jù),異常數(shù)據(jù)包括距離異常數(shù)據(jù)和密度異常數(shù)據(jù)。首先挖掘距離異常數(shù)據(jù),該類異常數(shù)據(jù)判別的標(biāo)準(zhǔn)為道路上的點(diǎn)到該道路的距離是否異常,因此需按照多項(xiàng)式方法擬合出與道路走向最接近的曲線,并以確定系數(shù)(R-square)作為依據(jù)。實(shí)驗(yàn)中以最小二乘法的原則擬合出道路函數(shù)曲線,由道路地理數(shù)據(jù)X、Y坐標(biāo)擬合直線的誤差方程式可列為:
[0035]
【權(quán)利要求】
1.一種面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,其特征在于:針對(duì)基礎(chǔ)地理信息數(shù)據(jù)按照其門牌號(hào)屬性分為道路數(shù)據(jù)和非道路數(shù)據(jù),分別挖掘異常數(shù)據(jù);其中道路異常數(shù)據(jù)包括距離異常數(shù)據(jù)和密度異常數(shù)據(jù),非道路異常數(shù)據(jù)則主要為距離異常數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,其特征在于: 包含以下步驟: 1)首先由門牌號(hào)屬性字段值提取道路數(shù)據(jù),判斷該道路點(diǎn)是否異常; 2)然后由門牌號(hào)屬性字段提取非道路數(shù)據(jù),判斷該非道路點(diǎn)是否異常; 3)經(jīng)過步驟I)和步驟2)之后,得到異常數(shù)據(jù)的初步結(jié)果,進(jìn)一步濾除該結(jié)果中的正常地理數(shù)據(jù); 4)得到最終異常數(shù)據(jù)結(jié)果。
3.根據(jù)權(quán)利要求1所述的面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,其特征在于:所述的挖掘道路數(shù)據(jù)中的距離異常數(shù)據(jù)為:首先根據(jù)道路數(shù)據(jù)擬合出該道路曲線,然后計(jì)算所有點(diǎn)到該擬合曲線的平均距離的二倍,將其作為閾值,判斷道路上的每一點(diǎn)到擬合曲線的距離與閾值的關(guān)系,若該距離大于閾值,則定義該點(diǎn)為異常點(diǎn),否則,為正常點(diǎn);循環(huán)所有道路數(shù)據(jù)之后,得到道路距離異常值。
4.根據(jù)權(quán)利要求1所述的面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,其特征在于:所述的挖掘道路數(shù)據(jù)中的密度異常數(shù)據(jù)為:首先統(tǒng)計(jì)道路上任意相鄰兩點(diǎn)的距離,然后選定某一值作為閾值;對(duì)于道路上的每個(gè)點(diǎn),判斷在以此點(diǎn)為圓心,閾值為半徑的圓的范圍內(nèi),是否還存在與其屬性相同的點(diǎn),如果存在,定義該點(diǎn)為正常數(shù)據(jù);若不存在,定義該點(diǎn)為異常點(diǎn);以此為依據(jù),挖掘道路密度異常數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,其特征在于:所述的挖掘非道路數(shù)據(jù)中的距離異常數(shù)據(jù)為:首先將地理數(shù)據(jù)按照門牌號(hào)屬性分組,使具有相同屬性的數(shù)據(jù)分為一組,然后計(jì)算非道路數(shù)據(jù)各分組的重心坐標(biāo),之后計(jì)算組中所有點(diǎn)到該組重心的平均距離,并以平均距離的二倍作為閾值,判斷點(diǎn)到重心的距離與閾值的關(guān)系;若所得距離小于閾值,定義該點(diǎn)為正常數(shù)據(jù);若所得距離大于閾值,定義該點(diǎn)為異常數(shù)據(jù);所有分組循環(huán)本操作之后,得到非道路數(shù)據(jù)的距離異常數(shù)據(jù)。
6.根據(jù)權(quán)利要求2所述的面向基礎(chǔ)地理信息異常數(shù)據(jù)的挖掘方法,其特征在于:所述的過濾初步異常數(shù)據(jù)結(jié)果中的聚集點(diǎn)為:經(jīng)過步驟I)和步驟2)之后,得到異常數(shù)據(jù)的初步結(jié)果,對(duì)于結(jié)果中的每一點(diǎn),選定某一閾值,判斷在以此點(diǎn)為圓心,閾值為半徑的圓的范圍內(nèi),是否還存在與其屬性相同的點(diǎn);如果存在,則在初步異常數(shù)據(jù)結(jié)果中去除該點(diǎn);如果不存在,則在異常數(shù)據(jù)結(jié)果中保留該點(diǎn),循環(huán)初步異常數(shù)據(jù)結(jié)果中所有點(diǎn)之后,最終得到異常數(shù)據(jù)的結(jié)果。
【文檔編號(hào)】G06F17/30GK104035985SQ201410236076
【公開日】2014年9月10日 申請(qǐng)日期:2014年5月30日 優(yōu)先權(quán)日:2014年5月30日
【發(fā)明者】喬剛, 米環(huán), 毛煒青, 吳張峰, 葉文凱, 陸賽賽, 鄧訊, 王偉, 王聰, 李海 申請(qǐng)人:同濟(jì)大學(xué), 上海市測(cè)繪院