一種新鮮度敏感的大數(shù)據(jù)概要信息維護(hù)及聚合值查詢方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,針對流式大數(shù)據(jù)的應(yīng)用特點(diǎn),結(jié)合大數(shù)據(jù)在生命周期 內(nèi)的數(shù)據(jù)特征,提出了一種新鮮度敏感的大數(shù)據(jù)概要信息維護(hù)及聚合值查詢方法,有效支 持流式大數(shù)據(jù)在任意時(shí)間區(qū)間的高精度近似聚合統(tǒng)計(jì)查詢,為其他流式大數(shù)據(jù)在線計(jì)算提 供基礎(chǔ)工具與平臺。
【背景技術(shù)】
[0002] 流式大數(shù)據(jù)是指同時(shí)具有高吞吐率和海量數(shù)據(jù)規(guī)模的一類應(yīng)用產(chǎn)生的大數(shù)據(jù) 源,也稱為化St Data。典型的應(yīng)用包括;大型微博網(wǎng)站的微博數(shù)據(jù)、購物網(wǎng)站的點(diǎn)擊流 數(shù)據(jù)、交易日志流數(shù)據(jù)等。該類數(shù)據(jù)的一個(gè)共同特點(diǎn)是在數(shù)據(jù)記錄中,有一個(gè)標(biāo)記數(shù)據(jù)產(chǎn) 生的時(shí)間屬性(Ts)和用于統(tǒng)計(jì)的數(shù)值屬性(Value),該類數(shù)據(jù)可W稱為具有時(shí)間屬性的 數(shù)據(jù)對象,簡稱為時(shí)間對象數(shù)據(jù)(temporal data)。針對時(shí)間對象數(shù)據(jù)的一類重要應(yīng)用 是能夠統(tǒng)計(jì)任意一個(gè)對象在任意時(shí)間區(qū)間內(nèi)value的聚合值,在本發(fā)明中,稱該類查詢?yōu)?TRAQ(Temporal-民ange aggregate queries)。
[0003] 在流式大數(shù)據(jù)環(huán)境中,實(shí)時(shí)響應(yīng)TRAQ查詢請求,可臥支持實(shí)時(shí)情感計(jì) 算(參考:H. Wan咨,D. Can, A. Kazemzadeh, F. Bar, and S. Narayanan, "A system for real-time twitter sentiment analysis of 2012u.s.presidential election cycle, "in Proceedings of the ACL2012System Demonstrations, ser. ACL ^ 12. Stroudsburg, PA, USA:Association for Computational Linguistics, 2012, pp. 115 - 120.),經(jīng)濟(jì)數(shù)據(jù)預(yù)測(參考;T. Rreis,比 S. Moat, and E. H. Stanley, "Quantifying trading behavior in financial markets using Google trends,,,Sci. R邱.,vol. 3, p. 1684, 2013.)和實(shí)時(shí)入侵檢測系統(tǒng)等(參考;X.化n,Y. Wang, Y. Zhang,and Y.Zhou, "A semantics-aware approach to the automated network protocol identification, ''Networking, lEEE/ACM Transactions on,vol. PP,no. 99,pp. 1 - 1,2015.)。例如;統(tǒng)計(jì) 01/ll/2013to 30/11/2013 期間任意時(shí)間段內(nèi)的 關(guān)鍵字"Steven Jobs"出現(xiàn)的頻率,可臥跟蹤公眾對于社會人物和問題的實(shí)時(shí)態(tài)度與意見。 目前的研究成果同時(shí)表明,聚合數(shù)值較低temporal data,同樣具有重要的研究意義與價(jià) 值。例如:一個(gè)查詢頻率較低的詞可能在數(shù)天或者數(shù)周臥后變?yōu)榱餍性~(參考J. Lin and G. Mishne, "A study of''churn" in tweets and real-time search queries (extended version)," CoRR,vol. abs/1205. 6855, 2012);-個(gè)出現(xiàn)頻率較低的網(wǎng)絡(luò)流,在較大的 時(shí)間尺度范圍內(nèi)進(jìn)行分析后,可臥展現(xiàn)出攻擊流的網(wǎng)絡(luò)安全特性(參考;Z.化an, M. Xu, and S.Xu, "Characterizing honeypotcaptured cyber attacks:Statistical framework and case study, "Information Forensics and Security, IEEE Transactions on,vol.8,no. ll,pp. 1775 - 1789,Nov 2013.)。因此,在流式大數(shù)據(jù)環(huán)境下,需要建立一種 有效支持面向任意temporal data的,在任意時(shí)間范圍內(nèi)的實(shí)時(shí)聚合查詢的方法與裝置。
[0004] 在fast data環(huán)境下,面向每一個(gè)時(shí)間對象temporal object建立實(shí)時(shí)概要 信息,面臨兩個(gè)基本的問題;第一;如何實(shí)時(shí)接收并管理高速到達(dá)的流式大數(shù)據(jù);目前的 研究成果已經(jīng)證明基于化doop的分析軟件很難支持實(shí)時(shí)性較高的查詢請求;尤其在流 式大數(shù)據(jù)中很難對有嚴(yán)格時(shí)間限制的查詢請求給出有意義的結(jié)果(參考;G.Mishne,J. Dalton, Z. Li, A. Sharma, and J. Lin, "Fast data in the era of big data:Twitter' s real-time related query suggestion architecture, " in Proceedings of the 2013ACM SIGMOD International Conference on Management of Data, ser. SIGMOD,13. NewYork,NY, USA:ACM,2013, pp. 1147 - 1158.)。第二;如何在海量數(shù)據(jù)集中實(shí)時(shí)查詢?nèi)?意一個(gè)object的在任意時(shí)間尺度內(nèi)的聚合值。目前的研究成果可W快速獲得大數(shù)據(jù) 中進(jìn)行top-k個(gè)object的聚合值,但是無法針對任意一個(gè)object獲得其實(shí)時(shí)聚合統(tǒng) 計(jì)結(jié)果(參考;F. Li, K.Yi, and W.Le, "Top-k queries on temporal data, "Hie VLDB Journal, vol. 19, no. 5,卵.715 - 733, Oct. 2010)。針對 temporal object 的管理 W 及查 詢的優(yōu)化技術(shù)研究已經(jīng)存在多年(參考;I.F. Ilyas,G. Beskales,and M.A. Soliman, "A survey of topk query processing techniques in relational database systems, "ACM Comput. Surv. , vol. 40, no. 4, 2008),但是很多技術(shù)是基于MVB-Tree管理時(shí)間屬性的,數(shù)據(jù) 寫入或者查詢至少需要O(logeN)的時(shí)間復(fù)雜度,無法應(yīng)對化St data環(huán)境下高速加載W及 實(shí)時(shí)查詢的計(jì)算需求,近似計(jì)算技術(shù)是一種有效處理和加速數(shù)據(jù)流計(jì)算的方法,例如針對 range-sum 近似求和的方法(參考;X.化n, G. Wu, G. Zhang, K. Li, and S. Wang, "I^astraq: A fast approach to range-aggregate queries in big data environments, "Cloud Computing, IE邸 Transactions on, vol. PP, no. 99,卵.1 - 1, 2014),有序集合義樣方法(參 考;E. Cohen, G. Cormode, and N. Duffield, "Structure-aware sampling:Flexible and accurate summarization, " Proceedings ofthe VLDB Endowment, vol. 4, no. 11, 2011), W及滑動(dòng)窗 口技術(shù)(參考;M.Datar, A. Gionis,P.Indyk, and R.Motwani, "Maintaining stream statistics over sliding windows:(extended abstract)in Proceedings of the Thirteenth Annual ACM-SIAM Symposium on Discrete Algorithms, ser. S0DA'02, 2002, pp. 635 - 644)等。但是目前的近似計(jì)算方法沒有考慮到temporal object 時(shí)間敏感的特性,新老數(shù)據(jù)采用統(tǒng)一的誤差標(biāo)準(zhǔn),如果希望獲得高精度的計(jì)算誤差,則整個(gè) 系統(tǒng)將設(shè)置較低的誤差參數(shù),就需要維護(hù)大量的樣本數(shù)據(jù)。如果保存少量的樣本數(shù)據(jù),則無 法提供高精度的近似計(jì)算。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種新鮮度敏感的大數(shù) 據(jù)概要信息維護(hù)及聚合值查詢方法,本發(fā)明所提出的概要數(shù)據(jù)稱為FS-Sketch(化eshness Sensitive Sketch)。FS-Sketch設(shè)計(jì)了 一種對稱波采樣技術(shù),可W在高速流數(shù)據(jù)中,在 0(1)時(shí)間完成數(shù)據(jù)采樣并維護(hù)概要數(shù)據(jù)。FS-sketch進(jìn)一步把樣本數(shù)據(jù)組織成時(shí)間敏感 的各個(gè)時(shí)間階段(temporal phase),在每個(gè)階段內(nèi)可W設(shè)置不同的估算誤差U)。利用 FS-Sketch可W支持任意object在時(shí)間段內(nèi)的誤差限定的近似聚合計(jì)算,計(jì)算復(fù)雜度可W 控制為Log (NT),其中T是時(shí)間階段的數(shù)量,N是每個(gè)時(shí)間階段地ase內(nèi)流數(shù)據(jù)的聚合值。
[0006] 本發(fā)明核屯、思想是利用基于采樣的近似計(jì)算方法提供實(shí)時(shí)的TRAQ計(jì)算。方法 同時(shí)結(jié)合流式大數(shù)據(jù)時(shí)間敏感的特性。該一時(shí)間敏感的特性可W概括為;流式大數(shù)據(jù)中 的任意一個(gè)時(shí)間對象temporal object,在某一個(gè)時(shí)間點(diǎn)高速到達(dá),然后開始在相關(guān)主題 (topic)中傳播,經(jīng)過數(shù)天或者數(shù)周W后,逐漸衰減,最后消亡。一個(gè)主題是由多個(gè)時(shí)間對象 數(shù)據(jù),W及一個(gè)時(shí)間對象數(shù)據(jù)在不同的時(shí)間點(diǎn)產(chǎn)生的數(shù)據(jù)匯總在一起獲得的。因此,本發(fā)明 的主要目標(biāo)是有效管理并查詢時(shí)間對象數(shù)據(jù),有效支持面向主題的更高層次的計(jì)算應(yīng)用。 根據(jù)時(shí)間對象的具有時(shí)間敏感的特點(diǎn),設(shè)計(jì)對應(yīng)的新鮮度敏感(化eshness sensitive)的 概要數(shù)據(jù),在時(shí)間對象不同的時(shí)間階段上,提供不同的誤差參數(shù),在解決高精度近似計(jì)算的 同時(shí),