一種基于dtw的平權1-范數(shù)不等長序列相似度度量算法
【專利摘要】本發(fā)明針對存在突變點的不等長序列相似度度量問題,公開了一種基于DTW的平權1-范數(shù)不等長序列相似度度量算法,該算法基于DTW構造不等長序列的絕對距離矩陣,并按行或列提取最小絕對距離矩陣中的最小值形成最小絕對距離集合,為處理突變點對序列距離度量的影響,采用最小絕對距離集合的平權1-范數(shù)作為距離度量,最后根據(jù)距離度量與相似度關系,形成存在突變點的不等長序列相似度度量。
【專利說明】一種基于DTW的平權1-范數(shù)不等長序列相似度度量算法
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)融合算法,尤其涉及一種不等長序列的數(shù)據(jù)挖掘算法。
【背景技術】
[0002]作為一種不確定性數(shù)據(jù),序列數(shù)據(jù)是數(shù)據(jù)挖掘領域主要研究的對象,廣泛存在于經(jīng)濟預測,醫(yī)學研究,氣象預報、網(wǎng)絡安全和軍事科學等領域。隨著信息技術的飛速發(fā)展,數(shù)據(jù)量越來越大,蘊含的信息也越來越多,無疑進入了大數(shù)據(jù)時代。如何挖掘隱含在這些數(shù)據(jù)中有效的信息和知識,近年來得到了廣泛的研究。序列數(shù)據(jù)是由很多數(shù)據(jù)點組成的高維數(shù)據(jù),這些數(shù)據(jù)點的長度隨著時間變化可能不一致,對這些長度不一致的序列數(shù)據(jù)進行挖掘是數(shù)據(jù)挖掘的關鍵問題。序列相似度度量方法是數(shù)據(jù)挖掘的重要過程和基本方法,相似度度量是衡量不同對象之間的相互關系的方法,關于不等長序列的相似度度量方法說法不一,特別是當數(shù)據(jù)受到某種干擾而導致數(shù)據(jù)突變的情況,在實際處理過程中遇到了很多困難和挑戰(zhàn)。
[0003]動態(tài)時間彎曲(dynamic time warping, DTW)是不等長序列相似度度量的常用方法,它是對不等長序列分別沿時間軸進行排序,構造一個不同維矩陣,矩陣中的元素表示不等長序列點之間的距離,對應時間軸分別選取每個時刻的最小距離作為此刻的距離,形成最小絕對距離集合,最后將每個時刻的最小絕對距離連接就形成了一條彎曲路徑,將得到的彎曲距離作為不等長序列的度量。DTW在處理圖1所示的不等長序列度量時精度較高,但是在實際的序列數(shù)據(jù)處理過程中,由于傳感器在量測目標的特征時往往會受到主動或被動等各種因素的干擾,而導致某個或某些量測數(shù)據(jù)偏離實際數(shù)據(jù)較大而出現(xiàn)突變點,如圖2所示。由于DTW在進行距離計算時一般采用最小絕對距離中的最大值作為序列的距離度量,此時如果按照DTW進行計算存在突變點的情況無疑會使序列之間的距離度量變大,產(chǎn)生較大的誤差,導致本來而除去突變點外序列本身是相似的序列判定為不相關的序列,如何減小這些突變點對序列度量的影響值得考慮。一種方法可以增加檢測環(huán)節(jié),而某條序列是否存在突變點事先是不能預測的,這樣既會引入新的誤差又增加了處理時間,沒有得到廣泛應用。所以,本發(fā)明從尋找存在突變點的不等長序列的度量方法的角度出發(fā),公開了一種基于DTW的平權1-范數(shù)不等長序列相似度度量算法。
【發(fā)明內容】
[0004]為了解決存在突變點時的不等長序列的相似度度量問題,本發(fā)明公開了一種基于DTff的平權1-范數(shù)不等長序列相似度度量算法。該算法首先基于DTW計算兩條不等長序列之間的絕對距離矩陣,并對絕對距離矩陣按行或列進行最小距離提取形成最小絕對距離集合,之后為消弱突變點的影響,對最小絕對距離集合中的元素進行平權1-范數(shù)求和,以減弱突變點的影響。之后根據(jù)距離與相似度的關系,計算其相似度,最后組合這些相似度得到不等長序列之間的相似度。
[0005]本發(fā)明提出的一種基于DTW的平權1-范數(shù)不等長序列相似度度量算法流程如圖3所示,主要包括以下技術措施。
[0006]①發(fā)明的條件和序列的表示
如果把一條序列看成是傳感器對某個目標的一個特征描述,則將很多條序列組成一個序列組就可以看成是傳感器對某個目標的多個特征描述。如果有多個傳感器對目標進行特征描述,則會有很多個序列組,融合這些序列組對目標的特征描述,就可以得到多傳感器對目標的特征判斷。如果傳感器在量測目標的特征時受到等各種因素的干擾,而導致某個或某些量測數(shù)據(jù)偏離實際數(shù)據(jù)較大而出現(xiàn)存在圖2所示的突變點序列,就會使得序列間不能直接按照DTW進行度量,本發(fā)明基于DTW提出一種度量存在突變點的不等長序列之間的關系的方法來實現(xiàn)多傳感器對描述目標的特征判斷。
[0007]首先對長度為I的某條序列定義:
【權利要求】
1.一種基于DTW的平權1-范數(shù)不等長序列相似度度量算法,是一種數(shù)據(jù)挖掘算法,其特征是:基于DTW構造不等長序列的絕對距離矩陣,通過提取最小值形成最小絕對距離集合,采用最小絕對距離集合的平權1-范數(shù)作為距離度量,最后根據(jù)距離度量與相似度關系,形成存在突變點的不等長序列相似度度量。
2.根據(jù)權利要求1所述的基于DTW的平權1-范數(shù)不等長序列相似度度量算法,所述的平權1-范數(shù)是:用最小絕對距離集合長度作為平權,在1-范數(shù)的基礎上加平權處理。
3.根據(jù)權利要求1所述的基于DTW的平權1-范數(shù)不等長序列相似度度量算法,所述的提取最小值形成最小絕對距離集合是:當絕對距離矩陣的行向量長度小于列向量長度時,就按行向量提取最小值形成最小絕對距離集合;反之,按列向量提取最小值形成最小絕對距離集合。
【文檔編號】G06F19/00GK103942444SQ201410176753
【公開日】2014年7月23日 申請日期:2014年4月29日 優(yōu)先權日:2014年4月29日
【發(fā)明者】關欣, 孫貴東, 衣曉, 趙志勇 申請人:衣曉