一種基于極值點(diǎn)和轉(zhuǎn)折點(diǎn)的時(shí)間序列降維方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體涉及到時(shí)間序列的降維、時(shí)間序列的關(guān)鍵點(diǎn)識(shí)別 和提取方法。
【背景技術(shù)】
[0002] 時(shí)間序列作為一種重要的按照時(shí)間先后順序排列的數(shù)據(jù)對(duì)象,廣泛存在于經(jīng)濟(jì)、 交通、工程、社會(huì)等眾多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)是上個(gè)世紀(jì)九十年代中后期興起的一門跨學(xué)科 的綜合研宄領(lǐng)域,旨在從海量數(shù)據(jù)中提取出潛在的、有價(jià)值的知識(shí)甚至規(guī)律;而作為一種常 見而重要的數(shù)據(jù)類型,時(shí)間序列的數(shù)據(jù)挖掘和分析是目前數(shù)據(jù)挖掘中最具有研宄意義的問(wèn) 題之一。如何分析和處理這些海量的時(shí)間序列數(shù)據(jù),并從中發(fā)現(xiàn)一些事先未知的、有價(jià)值的 信息,正受到越來(lái)越多研宄者的關(guān)注和重視。
[0003] 由于時(shí)間序列具有多維、短期波動(dòng)頻繁、大量噪聲干擾以及非穩(wěn)態(tài)等特點(diǎn),直接在 原始時(shí)間序列上進(jìn)行相似性查詢、分類和聚類、模式發(fā)現(xiàn)等數(shù)據(jù)挖掘工作,不但存儲(chǔ)和計(jì)算 效率低下,而且降低了算法的準(zhǔn)確性和可靠性,難以獲得滿意結(jié)果。所以,為了提高數(shù)據(jù)挖 掘過(guò)程的效率和結(jié)果的質(zhì)量,在對(duì)序列數(shù)據(jù)進(jìn)行分析之前,必須對(duì)原始數(shù)據(jù)序列進(jìn)行預(yù)處 理,壓縮原始序列以換取更小的存儲(chǔ)和計(jì)算代價(jià),同時(shí)最大限度的保留原始序列的特征信 息,去除細(xì)節(jié)的干擾,為下一步的數(shù)據(jù)挖掘分析打下良好的基礎(chǔ)。
[0004] 國(guó)內(nèi)外在時(shí)間序列降維預(yù)處理方面已經(jīng)提出了多種方法,其中基于關(guān)鍵點(diǎn)提取的 方法是一種有效且常用的時(shí)間序列降維方法,該方法將時(shí)間序列中重要的、具有代表意義 的點(diǎn)都保留下來(lái),在保證數(shù)據(jù)分析精度的情況下,盡可能的進(jìn)行時(shí)間序列數(shù)據(jù)的壓縮。關(guān)鍵 點(diǎn)提取的方法也不盡相同:
[0005] 一種方法是通過(guò)提取序列中的極值點(diǎn)來(lái)實(shí)現(xiàn)序列的降維,這種降維算法盡管操作 簡(jiǎn)單,但不能有效地去除噪音,過(guò)多地保留了細(xì)節(jié)變化,降低了壓縮率;
[0006] -種方法是選取保持極值時(shí)間段(即該點(diǎn)與前后極值點(diǎn)的時(shí)間段)大于某個(gè)自 定義閾值的極值點(diǎn)來(lái)實(shí)現(xiàn)序列的降維。該方法雖然可以較好地過(guò)濾變化短暫的噪音數(shù)據(jù), 然而由于限定了極值點(diǎn)保持時(shí)間段,對(duì)于變化時(shí)長(zhǎng)小于要求的極值保持時(shí)間段閥值的極值 點(diǎn),則被認(rèn)為是噪音數(shù)據(jù)而被忽略;
[0007] -種方法是結(jié)合極值點(diǎn)法和轉(zhuǎn)折角度法,選取保持極值的時(shí)間段大于某個(gè)閾值的 極值點(diǎn)以及與前后數(shù)據(jù)的均值之差大于某個(gè)閥值的非極值點(diǎn)來(lái)實(shí)現(xiàn)序列的降維。這種方 法雖然考慮到了轉(zhuǎn)折程度大的非極值點(diǎn),然而該方法在進(jìn)行極值點(diǎn)篩選時(shí),無(wú)法識(shí)別兩個(gè) 連續(xù)的值相等的特殊局部極值點(diǎn),導(dǎo)致重要極值點(diǎn)被遺漏;且該算法在進(jìn)行重要點(diǎn)的篩選 時(shí),認(rèn)為包含點(diǎn)Xi的最短序列(x Xi, xi+1)中,點(diǎn)Xi與線段x HXi+1的中點(diǎn)
【主權(quán)項(xiàng)】
1. 一種基于極值點(diǎn)和轉(zhuǎn)折點(diǎn)的時(shí)間序列降維方法,其特征在于,包括如下步驟: 步驟1、定義原始時(shí)間序列;給定極值點(diǎn)保持時(shí)間段閥值Ktl和序列轉(zhuǎn)折夾角閥值0M 步驟2、選取原始時(shí)間序列的重要局部極值點(diǎn),存入關(guān)鍵點(diǎn)序列Xkp中; 步驟3、選取原始時(shí)間序列的重要轉(zhuǎn)折點(diǎn),存入關(guān)鍵點(diǎn)序列Xkp中; 步驟4、按照時(shí)間先后順序連接關(guān)鍵點(diǎn)序列Xkp中的點(diǎn),得出的序列作為原始時(shí)間序列X 的降維序列。
2. 根據(jù)權(quán)利要求1所述的基于極值點(diǎn)和轉(zhuǎn)折點(diǎn)的時(shí)間序列降維方法,其特征在于:所 述原始時(shí)間序列的定義公式為公式(1): X = < (t1; X1), (t2, x2). . . , (ti; Xi),. . . (tn, xn) > (0<i<n) (I) 元素Xi= (t u X1)表示時(shí)間序列在h時(shí)刻所記錄的值為xi,同時(shí)tptg。
3. 據(jù)權(quán)利要求1所述的基于極值點(diǎn)和轉(zhuǎn)折點(diǎn)的時(shí)間序列降維方法,其特征在于,所述 步驟2選取原始時(shí)間序列的重要局部極值點(diǎn),存入序列關(guān)鍵點(diǎn)序列X kp*包括如下步驟: 步驟21、定義關(guān)鍵點(diǎn)關(guān)鍵點(diǎn)序列Xkp,序列游標(biāo)i,以及時(shí)間段長(zhǎng)度整數(shù)m和n; 步驟22、將原始序列的起點(diǎn)X1W入關(guān)鍵點(diǎn)序列X KP*,并令Xi為第一個(gè)局部極值點(diǎn)X front * 步驟23、對(duì)于連續(xù)的3點(diǎn)序列(Xp1, Xi, xi+1),若點(diǎn)Xi滿足以下條件之一,即可判定該點(diǎn) 為序列的極值點(diǎn): 條件 1 : X H且 X ZxiJ ; 條件 2 : (Xi)XH且 X # X i+1}; 條件 3:{x# xH且 x PxiJ; 條件 4:{x^Xh且 X > X i+1}; 當(dāng)l〈i〈n時(shí),判斷包含點(diǎn)Xi的最短序列(x Xi, xi+1)是否滿足上面四種情況之一,若 Xi滿足其中之一,則判斷該點(diǎn)為局部極值點(diǎn),同時(shí)用m記錄X i與前一極值點(diǎn)X ep fMnt間的時(shí) 間段長(zhǎng)度,執(zhí)行步驟24;否則,執(zhí)行步驟3。 步驟24、繼續(xù)掃描序列獲取下一個(gè)局部極值點(diǎn)X6pj36hind,同時(shí)用n記錄X i與后一極值點(diǎn) X^bdlind間的時(shí)間段長(zhǎng)度;計(jì)算極值點(diǎn)X占相鄰的前一個(gè)極值點(diǎn)X ^p bdlind以及相鄰的下一個(gè) 極值點(diǎn)Xep bAind2間的時(shí)間段長(zhǎng)度之和K (K = n+m),若滿足K彡K。,則判斷該點(diǎn)為重要極值 點(diǎn),加入關(guān)鍵點(diǎn)序列Xkp*,將的、值賦值給Xep front,且i = i+1,意為i加上1指向下一個(gè) 點(diǎn),返回執(zhí)行步驟23;否則執(zhí)行步驟3。
4. 據(jù)權(quán)利要求1所述的基于極值點(diǎn)和轉(zhuǎn)折點(diǎn)的時(shí)間序列降維方法,其特征在于,所述 步驟3選取原始時(shí)間序列的重要轉(zhuǎn)折點(diǎn),存入關(guān)鍵點(diǎn)序列Xkp*,包括如下步驟: 步驟31、當(dāng)l〈i〈n時(shí),對(duì)于不滿足步驟3中篩選條件的點(diǎn)xi,計(jì)算序列點(diǎn)之間的差值公 式為公式(2): Ai-I,i= |x H-X丄 Ai;i+1= Ix-X i+1|,AH,i+1= Ixh-XwI (2); 步驟32、計(jì)算包含該點(diǎn)X1的最短序列(Xi+Xi, xi+1)組成的夾角0余弦值的公式為公 式⑶:
步驟33、判斷cos 0是否滿足cos 0彡cos 0^,若滿足,則先將點(diǎn)X1加入到重要轉(zhuǎn)折點(diǎn) 序列Ktp中,再執(zhí)行i = i+1,意為i加上1指向下一個(gè)點(diǎn),并返回到步驟2中,進(jìn)行下一個(gè) 點(diǎn)的極值判斷;否則,直接執(zhí)行i = i+1,意為i加上1指向下一個(gè)點(diǎn),并返回到步驟2中, 進(jìn)行下一個(gè)點(diǎn)的極值判斷;若i = n,將序列的終點(diǎn)xn加入到關(guān)鍵點(diǎn)序列Xkp中。
【專利摘要】本發(fā)明開了一種基于極值點(diǎn)和轉(zhuǎn)折點(diǎn)的時(shí)間序列降維方法,包括如下步驟:步驟1、定義原始時(shí)間序列;給定極值點(diǎn)保持時(shí)間段閥值K0和序列轉(zhuǎn)折夾角閥值θ0;步驟2、選取原始時(shí)間序列的重要局部極值點(diǎn),存入關(guān)鍵點(diǎn)序列XKP中;步驟3、選取原始時(shí)間序列的重要轉(zhuǎn)折點(diǎn),存入關(guān)鍵點(diǎn)序列XKP中;步驟4、按照時(shí)間先后順序連接關(guān)鍵點(diǎn)序列XKP中的點(diǎn),得出的序列作為原始時(shí)間序列X的降維序列。綜上所述,本發(fā)明提出的基于重要極值點(diǎn)和轉(zhuǎn)折點(diǎn)時(shí)間序列降維方法,該方法具有以下兩方面的優(yōu)點(diǎn):一方面,解決了傳統(tǒng)降維方法不能很好地處理短時(shí)間內(nèi)波動(dòng)頻繁的時(shí)間序列的問(wèn)題。另一方面,不僅操作簡(jiǎn)單,計(jì)算復(fù)雜度低,大大的減少存儲(chǔ)和計(jì)算成本,為時(shí)間序列后續(xù)的挖掘分析帶來(lái)幫助。
【IPC分類】G06F19-00
【公開號(hào)】CN104820779
【申請(qǐng)?zhí)枴緾N201510208571
【發(fā)明人】冷甦鵬, 黃曉琴, 張可, 劉浩
【申請(qǐng)人】電子科技大學(xué)
【公開日】2015年8月5日
【申請(qǐng)日】2015年4月28日