一種基于Hadoop的StaMPS算法并行化處理方法
【專利摘要】一種基于Hadoop的StaMPS算法并行化處理方法,所述Hadoop包括HDFS和MapReduce,包括:精配準(zhǔn),運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)影像的配準(zhǔn),把配準(zhǔn)單機(jī)串行處理改造為多機(jī)并行;PS分析,運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)PS點(diǎn)的選擇、精簡(jiǎn),把單機(jī)串行順序處理改造為多機(jī)并行。所述精配準(zhǔn)包括:輔影像到主影像的精配準(zhǔn)和輔影像到輔影像的精配準(zhǔn)。本發(fā)明中,精配準(zhǔn)由串行改造實(shí)現(xiàn)了并行,PS分析階段從步驟1到步驟7實(shí)現(xiàn)了并行,通過(guò)Hadoop和StaMPS算法的結(jié)合,使得StaMPS算法處理效率成倍的提高,適應(yīng)了大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,提高了系統(tǒng)的可用性和擴(kuò)展性。
【專利說(shuō)明】—種基于Hadoop的StaMPS算法并行化處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及Hadoop技術(shù),特別是涉及一種基于Hadoop的StaMPS算法并行化處理方法。
【背景技術(shù)】
[0002]隨著各種遙感儀器空間分辨率、頻譜分辨率的不斷提高,隨著時(shí)間的延長(zhǎng),遙感影像的數(shù)據(jù)量急劇增長(zhǎng),積累了大量的影像數(shù)據(jù)。面對(duì)數(shù)據(jù)爆炸式的增長(zhǎng),傳統(tǒng)單機(jī)串行處理方式已經(jīng)慢慢落伍,新出現(xiàn)的分布式并行處理日益成熟,將替代原有的處理方式。時(shí)下有關(guān)數(shù)據(jù)的海量處理和存儲(chǔ)成為研究的熱潮。在這其中,由Doug Cutting等人開(kāi)發(fā)的Hadoop平臺(tái)脫穎而出,成為分布式處理的寵兒。Hadoop分布式架構(gòu)主要由HDFS分布式文件系統(tǒng)和MapReduce計(jì)算模型組成。HDFS主要負(fù)責(zé)存儲(chǔ)海量數(shù)據(jù),而MapReduce主要負(fù)責(zé)計(jì)算海量數(shù)據(jù)。而傳統(tǒng)的StaMPS算法處理遙感數(shù)據(jù)一般都采用單機(jī)式的shell和matlab腳本串行處理,在面對(duì)今天海量數(shù)據(jù)處理中有些力不從心,因此使得StaMPS算法處理海量遙感數(shù)據(jù)和Hadoop結(jié)合成為可能。
[0003]如何將Hadoop應(yīng)用于StaMPS算法地面沉降監(jiān)測(cè),實(shí)現(xiàn)海量遙感數(shù)據(jù)的存儲(chǔ)和計(jì)算,盡可能地提高效率成為研究的重要內(nèi)容。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于Hadoop的StaMPS算法并行化處理方法,實(shí)現(xiàn)了 Hadoop與StaMPS算法的結(jié)合,從而實(shí)現(xiàn)了海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,增強(qiáng)了系統(tǒng)的擴(kuò)展性和可用性。
[0005]為了達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
一種基于Hadoop的StaMPS算法并行化處理方法,所述Hadoop包括HDFS和MapReduce,包括:
精配準(zhǔn),運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)影像的配準(zhǔn),把配準(zhǔn)單機(jī)串行處理改造為多機(jī)并行;
PS (全稱Permanent Scatterers,永久性散射體)分析,運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)PS點(diǎn)的選擇、精簡(jiǎn),把單機(jī)串行順序處理改造為多機(jī)并行。
[0006]較佳地,所述精配準(zhǔn)包括:
輔影像到主影像的精配準(zhǔn):用于將所有與主影像的基線小于η (可以自己設(shè)定,比如100)米的輔影像直接配準(zhǔn)到主影像空間,η的數(shù)值根據(jù)情況設(shè)定;
輔影像到輔影像的精配準(zhǔn):用于將與主影像的基線大于η (可以自己設(shè)定,比如100)米的影像配準(zhǔn)到與之最近的m個(gè)輔影像的空間,當(dāng)然本發(fā)明并不限于2?4個(gè)輔影像的空間,根據(jù)具體需要調(diào)整,n、m的數(shù)值根據(jù)情況設(shè)定。例如,2?4個(gè)輔影像的空間,當(dāng)然本發(fā)明并不限于2?4個(gè)輔影像的空間,根據(jù)具體需要調(diào)整。
[0007]較佳地,所述輔影像到主影像的精配準(zhǔn),改造for循環(huán),用于把之前的循環(huán)迭代目錄處理改造為MapReduce并行,每個(gè)Map (接受一個(gè)鍵值對(duì),產(chǎn)生一組中間鍵值對(duì))處理一個(gè)互不影響的目錄數(shù)據(jù)。
[0008]較佳地,所述輔影像到輔影像的精配準(zhǔn),改造雙重for循環(huán),用于把之前的循環(huán)迭代目錄處理改造為MapReduce并行,每個(gè)Map處理一個(gè)互不影響的目錄數(shù)據(jù)。
[0009]較佳地,所述PS分析由模塊組成,所述模塊包括:
數(shù)據(jù)加載模塊,用于將數(shù)據(jù)轉(zhuǎn)化為PS分析需要的格式,并將數(shù)據(jù)存儲(chǔ)到matlab空間; 計(jì)算時(shí)間相干系數(shù)模塊,用于迭代計(jì)算干涉圖中每個(gè)候選點(diǎn)的時(shí)間相干系數(shù);
PS點(diǎn)選擇模塊,根據(jù)設(shè)定的非PS點(diǎn)像元在總像元中所占比例的最大值自適應(yīng)地求得時(shí)間相干系數(shù)閾值,從而選擇PS點(diǎn);
PS點(diǎn)精簡(jiǎn)模塊,剔除由于受到鄰域影響使得干涉相位噪聲大于預(yù)設(shè)閾值的點(diǎn);
空間非相干誤差改正模塊,用于對(duì)纏繞的相位進(jìn)行空間非相干誤差改正,包括空間非相干的視線角誤差和與主影像有關(guān)的空間非相干誤差。
[0010]較佳地,基于Hadoop的StaMPS算法并行化處理方法包括如下步驟:
精配準(zhǔn):
步驟101.把輔影像目錄進(jìn)行分塊,一個(gè)Map對(duì)應(yīng)一個(gè)輔影像目錄,進(jìn)行輔影像到主影像的配準(zhǔn);
步驟102.在Reduce (接受一個(gè)鍵,以及相關(guān)的一組值,將這組值進(jìn)行合并產(chǎn)生一組規(guī)模更小的值(通常只有一個(gè)或零個(gè)值))端生成需要配準(zhǔn)的輔影像對(duì)記錄,所述輔影像對(duì)由配準(zhǔn)的輔影像和被配準(zhǔn)的輔影像構(gòu)成;
步驟103.把Reduce生成的η個(gè)輔影像按照要求選取作為下一個(gè)MapReduce的輸入; 步驟104.每個(gè)Map處理一個(gè)輔影像到輔影像的配準(zhǔn);
PS分析:
步驟201.進(jìn)行數(shù)據(jù)分塊,提取PS候選點(diǎn),每個(gè)Map處理一塊數(shù)據(jù);
步驟202.數(shù)據(jù)加載,將數(shù)據(jù)轉(zhuǎn)化為PS分析需要的格式,并將數(shù)據(jù)存儲(chǔ)到matlab空
間;
步驟203.計(jì)算時(shí)間相干系數(shù),迭代計(jì)算干涉圖(在正交偏光下使用干涉球觀察非均質(zhì)體寶石時(shí)所呈現(xiàn)的由干涉條帶及黑臂組成的圖案,它是由于透過(guò)晶體的錐形偏振光所產(chǎn)生的消光與干涉效應(yīng)的總和)中每個(gè)候選點(diǎn)的時(shí)間相干系數(shù);
步驟204.PS點(diǎn)選擇,根據(jù)設(shè)定的非PS點(diǎn)像元在總像元中所占比例的最大值自適應(yīng)地求得時(shí)間相干系數(shù)閾值,從而選擇PS點(diǎn);
步驟205.PS點(diǎn)精簡(jiǎn),剔除由于受到鄰域影響使得干涉相位噪聲大于預(yù)設(shè)閾值的點(diǎn);步驟206.空間非相干誤差改正,對(duì)纏繞的相位進(jìn)行空間非相干誤差改正,包括空間非相干的視線角誤差和與主影像有關(guān)的空間非相干誤差;
步驟207.調(diào)用matlab進(jìn)行合并;
步驟208.進(jìn)行相位解纏、空間相干誤差改正、去噪聲相位操作。
[0011]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:精配準(zhǔn)由串行改造實(shí)現(xiàn)了并行,PS分析階段從步驟I到步驟7實(shí)現(xiàn)了并行,通過(guò)Hadoop和StaMPS算法的結(jié)合,使得StaMPS算法處理效率成倍的提高,適應(yīng)了大數(shù)據(jù)時(shí)代的海量數(shù)據(jù)的存儲(chǔ)和計(jì)算,提高了系統(tǒng)的可用性和擴(kuò)展性?!緦@綀D】
【附圖說(shuō)明】
[0012]圖1為本發(fā)明的系統(tǒng)架構(gòu)圖;
圖2為本發(fā)明的精配準(zhǔn)并行處理流程圖;
圖3為本發(fā)明的PS分析并行處理流程圖。
【具體實(shí)施方式】
[0013]本發(fā)明的主旨在于克服現(xiàn)有技術(shù)的不足,提供一種基于Hadoop的StaMPS算法并行化處理方法,StaMPS是一種新型的PSInSAR方法,能實(shí)現(xiàn)無(wú)限存儲(chǔ)和計(jì)算,因?yàn)镠adoop有著聞容錯(cuò)、聞可罪性、聞可擴(kuò)展性、聞獲得性、聞吞吐率等特點(diǎn),通過(guò)分析StaMPS算法處理流程和反復(fù)試驗(yàn),找出了 StaMPS算法的瓶頸(最耗時(shí)的兩部分,約占整個(gè)處理流程的96%左右)所在,同時(shí)也發(fā)現(xiàn)這兩部分滿足并行處理的條件,因此把這兩部分并行起來(lái),大大提高StaMPS算法處理的效率。Hadoop是一個(gè)開(kāi)源分布式計(jì)算平臺(tái)。以Hadoop分布式文件系統(tǒng)(HDFS, Hadoop Distributed Filesystem)和 MapReduce (Google MapReduce 的開(kāi)源實(shí)現(xiàn))為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。
[0014]下面結(jié)合實(shí)施例參照附圖進(jìn)行詳細(xì)說(shuō)明,以便對(duì)本發(fā)明的技術(shù)特征及優(yōu)點(diǎn)進(jìn)行更深入的詮釋。
[0015]本發(fā)明的系統(tǒng)框圖如圖1所示,包括客戶端(影像文件)、Hadoop云平臺(tái)(也為Hadoop集群,包括HDFS和MapReduce)及基礎(chǔ)資源(StaMPS算法處理軟件)
本發(fā)明所公開(kāi)的基于Hadoop的StaMPS算法并行化處理方法,所述Hadoop包括HDFS和 MapReduce,包括:
精配準(zhǔn),運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)影像的配準(zhǔn),把配準(zhǔn)單機(jī)串行處理改造為多機(jī)并行;
PS分析,運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)PS點(diǎn)的選擇、精簡(jiǎn),把單機(jī)串行順序處理改造為多機(jī)并行。因?yàn)楦鬏o影像精密軌道信息的讀取,與其他影像的配準(zhǔn)、重采樣、差分干涉圖生成都是在各輔影像夾中單獨(dú)運(yùn)行的,與其他影像互不影響,滿足并行處理的條件,故也可以對(duì)其進(jìn)行并行處理,在stamps (5,5)結(jié)尾處調(diào)用merge中進(jìn)行合并處理。
[0016]較佳地,所述精配準(zhǔn)包括:
輔影像到主影像的精配準(zhǔn):用于將所有與主影像的基線小于100米的輔影像直接配準(zhǔn)到主影像空間;通過(guò)分析其處理腳本,把單線程一重for循環(huán)遍歷影像文件目錄(互不影響的影像文件目錄)順序處理改造為由MapReduce的每個(gè)Map處理一個(gè)目錄并行處理,再由Reduce進(jìn)行合并,大大縮短了其處理時(shí)間,提高了處理效率。
[0017]輔影像到輔影像的精配準(zhǔn):用于將與主影像的基線大于η (可以自己設(shè)定,比如100)米的影像配準(zhǔn)到與之最近的2?4個(gè)輔影像的空間。通過(guò)把二重循環(huán)的文件目錄順序遍歷讀寫改造為MapReduce的每個(gè)Map處理一個(gè)目錄并行處理,再由Reduce進(jìn)行合并,大大縮短了其處理時(shí)間,提高了處理效率。
[0018]較佳地,所述輔影像到主影像的精配準(zhǔn),改造for循環(huán),即把之前的循環(huán)迭代目錄處理改造為MapReduce并行,每個(gè)Map處理一個(gè)互不影響的目錄數(shù)據(jù)。
[0019]較佳地,所述輔影像到輔影像的精配準(zhǔn),改造雙重for循環(huán),即把之前的循環(huán)迭代目錄處理改造為MapReduce并行,每個(gè)Map處理一個(gè)互不影響的目錄數(shù)據(jù)。
[0020]較佳地,所述PS分析由模塊組成,所述模塊包括:
數(shù)據(jù)加載模塊,用于將數(shù)據(jù)轉(zhuǎn)化為PS分析需要的格式,并將數(shù)據(jù)存儲(chǔ)到matlab空間; 計(jì)算時(shí)間相干系數(shù)模塊,用于迭代計(jì)算干涉圖中每個(gè)候選點(diǎn)的時(shí)間相干系數(shù);
PS點(diǎn)選擇模塊,根據(jù)設(shè)定的非PS點(diǎn)像元在總像元中所占比例的最大值自適應(yīng)地求得時(shí)間相干系數(shù)閾值,從而選擇PS點(diǎn);
PS點(diǎn)精簡(jiǎn)模塊,剔除由于受到鄰域影響使得干涉相位噪聲大于預(yù)設(shè)閾值的點(diǎn);
空間非相干誤差改正模塊,用于對(duì)纏繞的相位進(jìn)行空間非相干誤差改正,包括空間非相干的視線角誤差和與主影像有關(guān)的空間非相干誤差。
[0021 ] 較佳地,基于Hadoop的StaMPS算法并行化處理方法包括如下步驟:
如圖2所示,精配準(zhǔn):
步驟101.把輔影像目錄進(jìn)行分塊,一個(gè)Map對(duì)應(yīng)一個(gè)輔影像目錄,進(jìn)行輔影像到主影像的配準(zhǔn);
步驟102.在Reduce端生成需要配準(zhǔn)的輔影像對(duì)記錄;
步驟103.把Reduce生成的η個(gè)輔影像按照要求選取作為下一個(gè)MapReduce的輸入; 步驟104.每個(gè)Map處理一個(gè)輔影像到輔影像的配準(zhǔn);
如圖3所示,PS分析:
步驟201.進(jìn)行數(shù)據(jù)分塊,提取PS候選點(diǎn),每個(gè)Map處理一塊數(shù)據(jù);
步驟202.數(shù)據(jù)加載,將數(shù)據(jù)轉(zhuǎn)化為PS分析需要的格式,并將數(shù)據(jù)存儲(chǔ)到matlab空
間;
步驟203.計(jì)算時(shí)間相干系數(shù),迭代計(jì)算干涉圖中每個(gè)候選點(diǎn)的時(shí)間相干系數(shù);
步驟204.PS點(diǎn)選擇,根據(jù)設(shè)定的非PS點(diǎn)像元在總像元中所占比例的最大值自適應(yīng)地求得時(shí)間相干系數(shù)閾值,從而選擇PS點(diǎn);
步驟205.PS點(diǎn)精簡(jiǎn),剔除由于受到鄰域影響使得干涉相位噪聲大于預(yù)設(shè)閾值的點(diǎn);步驟206.空間非相干誤差改正,對(duì)纏繞的相位進(jìn)行空間非相干誤差改正,包括空間非相干的視線角誤差和與主影像有關(guān)的空間非相干誤差;
步驟207.調(diào)用matlab進(jìn)行合并;
步驟208.進(jìn)行相位解纏、空間相干誤差改正、去噪聲相位操作。
[0022]以上內(nèi)容是結(jié)合具體的優(yōu)選方式對(duì)本發(fā)明所作的進(jìn)一步詳細(xì)說(shuō)明,不應(yīng)認(rèn)定本發(fā)明的具體實(shí)施只局限于以上說(shuō)明。對(duì)于本【技術(shù)領(lǐng)域】的技術(shù)人員而言,在不脫離本發(fā)明構(gòu)思的前提下,還可以作出若干簡(jiǎn)單推演或替換,均應(yīng)視為由本發(fā)明所提交的權(quán)利要求確定的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種基于Hadoop的StaMPS算法并行化處理方法,所述Hadoop包括HDFS和MapReduce,其特征在于,包括: 精配準(zhǔn),運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)影像的配準(zhǔn),把配準(zhǔn)單機(jī)串行處理改造為多機(jī)并行; PS分析,運(yùn)行于Hadoop云平臺(tái)上,實(shí)現(xiàn)PS點(diǎn)的選擇、精簡(jiǎn),把單機(jī)串行順序處理改造為多機(jī)并行。
2.根據(jù)權(quán)利要求1所述的基于Hadoop的StaMPS算法并行化處理方法,其特征在于,所述精配準(zhǔn)包括: 輔影像到主影像的精配準(zhǔn),用于將所有與主影像的基線小于η米的輔影像直接配準(zhǔn)到主影像空間,η的數(shù)值根據(jù)情況設(shè)定; 輔影像到輔影像的精配準(zhǔn),用于將與主影像的基線大于η米的影像配準(zhǔn)到與之最近的m個(gè)輔影像的空間,n、m的數(shù)值根據(jù)情況設(shè)定。
3.根據(jù)權(quán)利要求2所述的基于Hadoop的StaMPS算法并行化處理方法,其特征在于:所述輔影像到主影像的精配準(zhǔn),改造for循環(huán),即把之前的循環(huán)迭代目錄處理改造為MapReduce并行,每個(gè)Map處理一個(gè)互不影響的目錄數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的基于Hadoop的StaMPS算法并行化處理方法,其特征在于:所述輔影像到輔影像的精配準(zhǔn),改造雙重for循環(huán),即把之前的循環(huán)迭代目錄處理改造為MapReduce并行,每個(gè)Map處理一個(gè)互不影響的目錄數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的基于Hadoop的StaMPS算法并行化處理方法,其特征在于,所述PS分析由模塊組成,所述模塊包括: 數(shù)據(jù)加載模塊,用于將數(shù)據(jù)轉(zhuǎn)化為PS分析需要的格式,并將數(shù)據(jù)存儲(chǔ)到matlab空間; 計(jì)算時(shí)間相干系數(shù)模塊,用于迭代計(jì)算干涉圖中每個(gè)候選點(diǎn)的時(shí)間相干系數(shù); PS點(diǎn)選擇模塊,根據(jù)設(shè)定的非PS點(diǎn)像元在總像元中所占比例的最大值自適應(yīng)地求得時(shí)間相干系數(shù)閾值,從而選擇PS點(diǎn); PS點(diǎn)精簡(jiǎn)模塊,用于剔除由于受到鄰域影響使得干涉相位噪聲大于預(yù)設(shè)閾值的點(diǎn);空間非相干誤差改正模塊,用于對(duì)纏繞的相位進(jìn)行空間非相干誤差改正,包括空間非相干的視線角誤差和與主影像有關(guān)的空間非相干誤差。
6.根據(jù)權(quán)利要求1~5中任一項(xiàng)所述的基于Hadoop的StaMPS算法并行化處理方法,其特征在于,包括如下步驟: 精配準(zhǔn): 步驟101.把輔影像目錄進(jìn)行分塊,一個(gè)Map對(duì)應(yīng)一個(gè)輔影像目錄,進(jìn)行輔影像到主影像的配準(zhǔn); 步驟102.在Reduce端生成需要配準(zhǔn)的輔影像對(duì)記錄,所述輔影像對(duì)由配準(zhǔn)的輔影像和被配準(zhǔn)的輔影像構(gòu)成; 步驟103.把Reduce生成的η個(gè)輔影像按照要求選取作為下一個(gè)MapReduce的輸入,η的數(shù)值根據(jù)情況設(shè)定; 步驟104.每個(gè)Map處理一個(gè)輔影像到輔影像的配準(zhǔn); PS分析: 步驟201.進(jìn)行數(shù)據(jù)分塊,提取PS候選點(diǎn),每個(gè)Map處理一塊數(shù)據(jù);步驟202.數(shù)據(jù)加載,將數(shù)據(jù)轉(zhuǎn)化為PS分析需要的格式,并將數(shù)據(jù)存儲(chǔ)到matlab空間; 步驟203.計(jì)算時(shí)間相干系數(shù),迭代計(jì)算干涉圖中每個(gè)候選點(diǎn)的時(shí)間相干系數(shù); 步驟204.PS點(diǎn)選擇,根據(jù)設(shè)定的非PS點(diǎn)像元在總像元中所占比例的最大值自適應(yīng)地求得時(shí)間相干系數(shù)閾值,從而選擇PS點(diǎn); 步驟205.PS點(diǎn)精簡(jiǎn),剔除由于受到鄰域影響使得干涉相位噪聲大于預(yù)設(shè)閾值的點(diǎn);步驟206.空間非相干誤差改正,對(duì)纏繞的相位進(jìn)行空間非相干誤差改正,包括空間非相干的視線角誤差和與主影像有關(guān)的空間非相干誤差; 步驟207.調(diào)用matlab進(jìn)行合并; 步驟208.進(jìn)行相位解纏、空間相干誤差改正、去噪聲相位操作。
【文檔編號(hào)】G06F9/46GK103903272SQ201410152271
【公開(kāi)日】2014年7月2日 申請(qǐng)日期:2014年4月16日 優(yōu)先權(quán)日:2014年4月16日
【發(fā)明者】黃井優(yōu), 范海生, 任伏虎, 王晉年, 蕭暢成, 肖少林, 鐘金沙, 唐秋霞 申請(qǐng)人:廣東中科遙感技術(shù)有限公司