两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法及系統(tǒng)的制作方法

文檔序號:6626409閱讀:493來源:國知局
一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法及系統(tǒng),其中,該方法包括:當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài);根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算;其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;ReduceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù)。通過采用本發(fā)明公開的方法及系統(tǒng),通過增量計(jì)算可以節(jié)省大量不必要的重復(fù)計(jì)算,從而提高了數(shù)據(jù)處理的效率。
【專利說明】一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法。

【背景技術(shù)】
[0002]隨著當(dāng)今互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,信息采集技術(shù)等的廣泛應(yīng)用,在電信、氣象、地質(zhì)、電力、金融等諸多科學(xué)工業(yè)領(lǐng)域中產(chǎn)生和積累了海量的以時間序列形式存在的各種數(shù)據(jù)。傳統(tǒng)的時間序列處理方法一般是選擇Matlab等相關(guān)數(shù)學(xué)計(jì)算工具進(jìn)行,但是當(dāng)處理的問題規(guī)模變大時,問題計(jì)算時間往往讓人難以忍受的。
[0003]當(dāng)前,隨著大數(shù)據(jù)處理逐漸被人們重視,一些公司、研究機(jī)構(gòu)也開始了這方面的研究,相關(guān)工作主要集中在Hadoop開源分布式計(jì)算平臺上。Hadoop作為一個分布式框架,可以分布式的操作大量數(shù)據(jù),在處理海量數(shù)據(jù)上具有很多優(yōu)勢,比如具有高容錯性、高擴(kuò)展性、高可靠性等特點(diǎn)。
[0004]目前,Hadoop平臺并沒有對時間序列數(shù)據(jù)處理提供很好的支持,并且對時序數(shù)據(jù)的增量計(jì)算相關(guān)研究比較少,導(dǎo)致時間序列數(shù)據(jù)新增時需要重復(fù)計(jì)算,從而降低數(shù)據(jù)處理的效率。


【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是提供一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法及系統(tǒng),通過增量計(jì)算可以節(jié)省大量不必要的重復(fù)計(jì)算,從而提高了數(shù)據(jù)處理的效率。
[0006]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0007]—種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法,該方法包括:
[0008]當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài);
[0009]根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算;
[0010]其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;RedUceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù)。
[0011]一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算系統(tǒng),該系統(tǒng)包括:
[0012]時序數(shù)據(jù)增量處理模塊TSI,用于當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài);根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算;其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;ReduceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù);
[0013]緩存服務(wù)器,用于保存時序數(shù)據(jù)的歷史計(jì)算狀態(tài)。
[0014]由上述本發(fā)明提供的技術(shù)方案可以看出,通過緩存服務(wù)器緩存時序數(shù)據(jù)的歷史計(jì)算狀態(tài),當(dāng)啟動增量計(jì)算時,根據(jù)獲取到的歷史計(jì)算狀態(tài),直接進(jìn)行增量數(shù)據(jù)的計(jì)算,再快速的復(fù)用歷史計(jì)算結(jié)果,避免了不必要的重復(fù)計(jì)算,從而提高了數(shù)據(jù)處理的效率。

【專利附圖】

【附圖說明】
[0015]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他附圖。
[0016]圖1為本發(fā)明實(shí)施例一提供的一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法的流程圖;
[0017]圖2為本發(fā)明實(shí)施例一提供的一種時序數(shù)據(jù)分段機(jī)制的示意圖;
[0018]圖3為本發(fā)明實(shí)施例一提供的一種分段時序數(shù)據(jù)增量計(jì)算方法的示意圖;
[0019]圖4為本發(fā)明實(shí)施例一提供的一種帶有狀態(tài)的固定窗口寬度的滑動窗口增量計(jì)算方法的示意圖;
[0020]圖5為本發(fā)明實(shí)施例一提供的一種帶有狀態(tài)的起始點(diǎn)固定的單調(diào)遞增窗口的增量計(jì)算方法的示意圖;
[0021]圖6為本發(fā)明實(shí)施例二提供的一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算系統(tǒng)的示意圖;
[0022]圖7為本發(fā)明實(shí)施例二提供的現(xiàn)有Hadoop平臺與增量計(jì)算系統(tǒng)相集成的示意圖。

【具體實(shí)施方式】
[0023]下面結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明的保護(hù)范圍。
[0024]實(shí)施例一
[0025]圖1為本發(fā)明實(shí)施例一提供的一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法的流程圖。如圖1所示,該方法主要包括如下步驟:
[0026]步驟11、當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài)。
[0027]其中,所述時序數(shù)據(jù),以某一時間段為單位把連續(xù)的時序數(shù)據(jù)劃分為多個分段,則每一個單位時間段內(nèi)的時序數(shù)據(jù)運(yùn)算為一個子運(yùn)算;而分段后的時序數(shù)據(jù)需要滿足么半群性質(zhì)。
[0028]所述時序數(shù)據(jù)增量計(jì)算任務(wù)則表示有新增的分段時序數(shù)據(jù)。
[0029]步驟12、根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算。
[0030]其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;RedUceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù)。
[0031]進(jìn)一步的,所述分段時序數(shù)據(jù)增量計(jì)算方法包括:
[0032]帶有狀態(tài)的固定窗口寬度的滑動窗口增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),所述窗口寬度固定表示包含的時間段個數(shù)固定;設(shè)窗口的寬度固定為n,且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并,并減去第I個時間段的時序數(shù)據(jù);
[0033]帶有狀態(tài)的起始點(diǎn)固定的單調(diào)遞增窗口的增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),其窗口起始時間點(diǎn)固定,窗口的大小隨時間遞增;設(shè)窗口的起始點(diǎn)為第I個時間段的時序數(shù)據(jù),且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并。
[0034]為了便于理解,下面結(jié)合附圖2-5對本發(fā)明做進(jìn)一步的介紹。
[0035]如圖2所示,為便跟發(fā)明提供的時序數(shù)據(jù)分段機(jī)制的示意圖。如圖2所示,對于時間序列數(shù)據(jù),可以以某一時間段為單位把連續(xù)的時間序列數(shù)據(jù)劃分為多個段,這樣每個單位時間段內(nèi)的時序數(shù)據(jù)運(yùn)算是一個子運(yùn)算。其中,劃分后的子運(yùn)算需要滿足么半群性質(zhì),即可對相應(yīng)的子運(yùn)算進(jìn)行歸并運(yùn)算。
[0036]如圖3所示,為分段時序數(shù)據(jù)增量計(jì)算流程圖,此過程利用了圖2的分段時序數(shù)據(jù)機(jī)制,該計(jì)算方法包括兩個子運(yùn)算:SubCp子運(yùn)算和ReduceCP子運(yùn)算,其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;示例性的,統(tǒng)計(jì)以天為單位的分段時序數(shù)據(jù)中,每一時間段內(nèi)網(wǎng)站某個頁面訪問流量。ReduceCP為運(yùn)算合并階段,根據(jù)自定義的操作對分段數(shù)據(jù)的計(jì)算結(jié)果歸并操作;示例性的,歸并以天為單位的分段時序數(shù)據(jù)中,最近η天該網(wǎng)站某個頁面總的訪問流量。且上述SubCp子運(yùn)算和ReduceCP子運(yùn)算的狀態(tài)由緩存服務(wù)器(Cache Server)維護(hù)。
[0037]本發(fā)明實(shí)施例通過增量計(jì)算可以節(jié)省大量不必要的重復(fù)計(jì)算,從而提高了數(shù)據(jù)處理的效率;本發(fā)明實(shí)施例中結(jié)合分段時序數(shù)據(jù)增量計(jì)算方法與分段時序數(shù)據(jù)的相關(guān)特性,提出兩種帶有狀態(tài)的滑動窗口增量計(jì)算方法:固定寬度窗口,窗口包含的時間段個數(shù)固定;單調(diào)遞增窗口,窗口起始時間點(diǎn)固定,隨時間推移窗口大小遞增。具體如下:
[0038]圖4所示,為帶有狀態(tài)的固定窗口寬度的滑動窗口增量計(jì)算,所述的狀態(tài)指CacheServer所維護(hù)的相關(guān)計(jì)算狀態(tài)。結(jié)合圖2、3中分段時序數(shù)據(jù)的相關(guān)特性及增量計(jì)算方法,如圖4所示,這里假設(shè)窗口的寬度固定為n,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)CacheServer中的歷史計(jì)算狀態(tài)得知左側(cè)的數(shù)據(jù)(第I至第η個分段數(shù)序數(shù)據(jù))已經(jīng)計(jì)算過,此時只需計(jì)算增量數(shù)據(jù)(第η+1個新增時序數(shù)據(jù))并和部分歷史結(jié)果歸并就可以得到所需結(jié)果,由于窗口的寬度固定為η在歸并后還需要減去第I個分段數(shù)序數(shù)據(jù);最終結(jié)合新增數(shù)序數(shù)據(jù)和歷史計(jì)算結(jié)果可以得到和進(jìn)行全局?jǐn)?shù)據(jù)計(jì)算一樣的結(jié)果,這種方法可以避免大量不必要的重復(fù)計(jì)算,從而提高了數(shù)據(jù)處理的效率。
[0039]如圖5所示,為帶有狀態(tài)的起始點(diǎn)固定的單調(diào)遞增窗口的增量計(jì)算,所述狀態(tài)指Cache Server所維護(hù)的相關(guān)計(jì)算狀態(tài)。結(jié)合圖2、3中分段時序數(shù)據(jù)的相關(guān)特性及增量計(jì)算方法,如圖5所示,假設(shè)窗口的起始點(diǎn)為1,當(dāng)有第η+1個新增數(shù)序數(shù)據(jù)到達(dá)時,根據(jù)CacheServer中的歷史計(jì)算狀態(tài)得知左側(cè)的數(shù)據(jù)(第I至第η個分段數(shù)序數(shù)據(jù))已經(jīng)計(jì)算過,此時只需計(jì)算增量數(shù)據(jù)(第η+1個新增時序數(shù)據(jù))并和部分歷史結(jié)果歸并就可以得到所需結(jié)果,最終結(jié)合新增數(shù)據(jù)和歷史計(jì)算結(jié)果可以得到和進(jìn)行全局?jǐn)?shù)據(jù)計(jì)算一樣的結(jié)果,這種方法可以避免大量不必要的重復(fù)計(jì)算,從而提高了數(shù)據(jù)處理的效率。
[0040]另一方面,本發(fā)明實(shí)施例中的緩存服務(wù)器還可對插入的數(shù)據(jù)設(shè)置定時機(jī)制,其在某一時間段后識別和清除無用的舊數(shù)據(jù)以確保內(nèi)存數(shù)據(jù)庫不會不斷膨脹。
[0041]同時,還可以將時序數(shù)據(jù)計(jì)算算法與本發(fā)明提供的增量計(jì)算方法相結(jié)合;其中,時序數(shù)據(jù)計(jì)算算法包括如下常用時間序列計(jì)算的算法:時間序列預(yù)測算法,包括簡單時序平均數(shù)法、移動平均數(shù)法、加權(quán)移動平均數(shù)法等;時間序列相似性度量算法,包括ED,DTff,FastDTff 等。
[0042]本發(fā)明實(shí)施例所提供的技術(shù)方案與現(xiàn)有技術(shù)相比,具有以下有益效果:
[0043]I)基于Hadoop平臺,不改變Hadoop底層架構(gòu)結(jié)構(gòu),方便編程人員編寫程序;
[0044]2) Hadoop平臺之上支持時序數(shù)據(jù)的處理;
[0045]3)支持Hadoop平臺的時序數(shù)據(jù)的增量計(jì)算,減少不必要的重復(fù)計(jì)算,提高增量數(shù)據(jù)計(jì)算效率。
[0046]實(shí)施例二
[0047]圖6為本發(fā)明實(shí)施例二提供的一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算系統(tǒng)的示意圖。如圖6所示,該系統(tǒng)主要包括:
[0048]時序數(shù)據(jù)增量處理模塊TSI11,用于當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài);根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算;其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;RedUceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù);
[0049]緩存服務(wù)器12,用于保存時序數(shù)據(jù)的歷史計(jì)算狀態(tài)。
[0050]進(jìn)一步的,所述分段時序數(shù)據(jù)增量計(jì)算方法包括:
[0051]帶有狀態(tài)的固定窗口寬度的滑動窗口增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),所述窗口寬度固定表示包含的時間段個數(shù)固定;設(shè)窗口的寬度固定為n,且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并,并減去第I個時間段的時序數(shù)據(jù);
[0052]帶有狀態(tài)的起始點(diǎn)固定的單調(diào)遞增窗口的增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),其窗口起始時間點(diǎn)固定,窗口的大小隨時間遞增;設(shè)窗口的起始點(diǎn)為第I個時間段的時序數(shù)據(jù),且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并。
[0053]進(jìn)一步的,所述時序數(shù)據(jù),以某一時間段為單位把連續(xù)的時序數(shù)據(jù)劃分為多個分段,則每一個單位時間段內(nèi)的時序數(shù)據(jù)運(yùn)算為一個子運(yùn)算;其中,分段后的時序數(shù)據(jù)滿足幺半群性質(zhì)。
[0054]由于本系統(tǒng)可基于Hadoop平臺實(shí)現(xiàn),為便于理解,可將上述模塊與現(xiàn)有的Hadoop平臺相結(jié)合。如圖7所示,基于Hadoop平臺擴(kuò)展了緩存服務(wù)器Cache Server和時序數(shù)據(jù)增量處理模塊TSI ;緩存服務(wù)器為緩存數(shù)據(jù)庫模塊,其緩存了必要的計(jì)算狀態(tài)結(jié)果,相比Hadoop自身提供的緩存服務(wù)有著更豐富的數(shù)據(jù)結(jié)構(gòu)表示功能;TSI模塊主要用于時序數(shù)據(jù)增量計(jì)算。
[0055]需要說明的是,上述系統(tǒng)中包含的各個功能模塊所實(shí)現(xiàn)的功能的具體實(shí)現(xiàn)方式在前面的各個實(shí)施例中已經(jīng)有詳細(xì)描述,故在這里不再贅述。
[0056]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各功能模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即將系統(tǒng)的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功倉泛。
[0057]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例可以通過軟件實(shí)現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實(shí)現(xiàn)?;谶@樣的理解,上述實(shí)施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是⑶-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述的方法。
[0058]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算方法,其特征在于,該方法包括: 當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài); 根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算; 其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;ReduceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分段時序數(shù)據(jù)增量計(jì)算方法包括: 帶有狀態(tài)的固定窗口寬度的滑動窗口增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),所述窗口寬度固定表示包含的時間段個數(shù)固定;設(shè)窗口的寬度固定為n,且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并,并減去第I個時間段的時序數(shù)據(jù); 帶有狀態(tài)的起始點(diǎn)固定的單調(diào)遞增窗口的增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),其窗口起始時間點(diǎn)固定,窗口的大小隨時間遞增;設(shè)窗口的起始點(diǎn)為第I個時間段的時序數(shù)據(jù),且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述時序數(shù)據(jù),以某一時間段為單位把連續(xù)的時序數(shù)據(jù)劃分為多個分段,則每一個單位時間段內(nèi)的時序數(shù)據(jù)運(yùn)算為一個子運(yùn)算;其中,分段后的時序數(shù)據(jù)滿足么半群性質(zhì)。
4.一種Hadoop平臺時序數(shù)據(jù)增量計(jì)算系統(tǒng),其特征在于,該系統(tǒng)包括: 時序數(shù)據(jù)增量處理模塊TSI,用于當(dāng)啟動時序數(shù)據(jù)增量計(jì)算任務(wù)時,從緩存服務(wù)器中獲取該時序數(shù)據(jù)的歷史計(jì)算狀態(tài);根據(jù)所述歷史計(jì)算狀態(tài)利用包含SubCp和ReduceCP子運(yùn)算的分段時序數(shù)據(jù)增量計(jì)算方法進(jìn)行增量計(jì)算;其中,SubCp子運(yùn)算為分別對分段時序數(shù)據(jù)進(jìn)行自定義的子運(yùn)算并把中間結(jié)果保存;ReduceCP子運(yùn)算為運(yùn)算合并階段,根據(jù)自定義的操作對已分段時序數(shù)據(jù)的計(jì)算結(jié)果歸并操作,且所述SubCp和ReduceCP子運(yùn)算的計(jì)算狀態(tài)均由緩存服務(wù)器維護(hù); 緩存服務(wù)器,用于保存時序數(shù)據(jù)的歷史計(jì)算狀態(tài)。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其特征在于,所述分段時序數(shù)據(jù)增量計(jì)算方法包括: 帶有狀態(tài)的固定窗口寬度的滑動窗口增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),所述窗口寬度固定表示包含的時間段個數(shù)固定;設(shè)窗口的寬度固定為η,且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并,并減去第I個時間段的時序數(shù)據(jù); 帶有狀態(tài)的起始點(diǎn)固定的單調(diào)遞增窗口的增量計(jì)算方法:所述狀態(tài)表示緩存服務(wù)器所維護(hù)的時序數(shù)據(jù)的歷史計(jì)算狀態(tài),其窗口起始時間點(diǎn)固定,窗口的大小隨時間遞增;設(shè)窗口的起始點(diǎn)為第I個時間段的時序數(shù)據(jù),且第I至η個時間段的時序數(shù)據(jù)已完成計(jì)算并存入所述緩存服務(wù)器中,當(dāng)有第η+1個新增時序數(shù)據(jù)到達(dá)時,根據(jù)緩存服務(wù)器中該時序數(shù)據(jù)的歷史計(jì)算狀態(tài),利用SubCp子運(yùn)算僅進(jìn)行第η+1個新增時序數(shù)據(jù)的計(jì)算,再利用ReduceCP子運(yùn)算進(jìn)行第η+1個新增時序數(shù)據(jù)與歷史計(jì)算狀態(tài)中的結(jié)果歸并。
6.根據(jù)權(quán)利要求4或5所述的系統(tǒng),其特征在于,所述時序數(shù)據(jù),以某一時間段為單位把連續(xù)的時序數(shù)據(jù)劃分為多個分段,則每一個單位時間段內(nèi)的時序數(shù)據(jù)運(yùn)算為一個子運(yùn)算;其中,分段后的時序數(shù)據(jù)滿足么半群性質(zhì)。
【文檔編號】G06F17/30GK104199942SQ201410456262
【公開日】2014年12月10日 申請日期:2014年9月9日 優(yōu)先權(quán)日:2014年9月9日
【發(fā)明者】孫廣中, 王丹 申請人:中國科學(xué)技術(shù)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
博客| 观塘区| 巧家县| 加查县| 永定县| 阜新市| 湾仔区| 庆安县| 双辽市| 巴楚县| 本溪市| 漳浦县| 临高县| 肇州县| 涡阳县| 商洛市| 兴海县| 临邑县| 怀远县| 深水埗区| 永顺县| 龙州县| 常宁市| 罗城| 横峰县| 新干县| 廉江市| 新巴尔虎左旗| 石台县| 张家界市| 白银市| 海盐县| 丰镇市| 瑞金市| 科尔| 三亚市| 江门市| 甘谷县| 嵩明县| 双江| 襄汾县|