利用用戶(hù)交互的相似水文過(guò)程搜索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù),具體涉及一種利用用戶(hù)交互的相似水文過(guò)程搜索方 法。
【背景技術(shù)】
[0002] 時(shí)間序列相似性查找就是在時(shí)間序列數(shù)據(jù)庫(kù)中查找和發(fā)現(xiàn)與給定模式相似的時(shí) 間序列,查找相似子序列的過(guò)程在實(shí)際問(wèn)題中經(jīng)常遇到,例如,在人類(lèi)的基因組計(jì)劃中,從 DNA基因序列中查找出與給定的基因片段相似的子片段,根據(jù)遺傳的相似性進(jìn)行研宄;根 據(jù)各種商品的銷(xiāo)售記錄,找出具有相似的商品銷(xiāo)售模式,根據(jù)相似產(chǎn)品的銷(xiāo)售模式來(lái)制定 相似的銷(xiāo)售策略等;找出自然災(zāi)害發(fā)生的相同前兆,從而對(duì)預(yù)報(bào)自然災(zāi)害進(jìn)行決策研宄; 在水文領(lǐng)域,找出與當(dāng)前洪水過(guò)程相似的歷史洪水過(guò)程,回答防汛指揮中經(jīng)常會(huì)想到的"當(dāng) 前水文過(guò)程與歷史上哪一時(shí)期的水文過(guò)程類(lèi)似"等問(wèn)題。
[0003] 相似性搜索在1993年由R.Agrawal首次提出,他是時(shí)間序列預(yù)測(cè)、分類(lèi)、聚類(lèi)以及 序列模式挖掘等等的重要基礎(chǔ)。時(shí)間序列相似性查找與傳統(tǒng)的精確查詢(xún)不同,由于時(shí)間序 列在數(shù)值上具有連續(xù)性以及有不同的噪聲影響,因此,大部分情況下不需要時(shí)間序列很精 確匹配。另一方面是時(shí)間序列相似性查詢(xún)不是針對(duì)時(shí)間序列中的某個(gè)具體的數(shù)值,而根據(jù) 給定的查詢(xún)序列來(lái)找查找是在一段時(shí)間內(nèi)具有相似形態(tài)特征和變化趨勢(shì)的時(shí)間序列。在時(shí) 間序列相似性搜索中,需解決的問(wèn)題包括時(shí)間序列特征提取、時(shí)間序列索引以及相似度量 等。針對(duì)相似度量,研宄人員提出了各種度量方法,如歐氏距離及其基于Lp準(zhǔn)則的變種、動(dòng) 態(tài)時(shí)間彎曲距離(DynamicTimeWarping,DTW)、編輯距離(EditDistance,ED)、模式距離 (PatternDistance,PD)以及最長(zhǎng)公共子串(LongestCommonSubsequence,LCSS)等。
[0004] 目前時(shí)間序列相似性搜索主要關(guān)注于找到適合具體數(shù)據(jù)特征的特征提取方法,以 及相應(yīng)領(lǐng)域的相似度量方法。然而,由于"相似"是用戶(hù)對(duì)序列的一種語(yǔ)義認(rèn)知,而特征以 及相似度量都是基于序列底層的數(shù)據(jù),這兩者之間存在一定的差異。因此,找到一種不變的 特征提取方法和相似度量方法來(lái)適應(yīng)所有用戶(hù)對(duì)某時(shí)間序列的"相似"的認(rèn)知是困難的。
[0005] 相關(guān)反饋的策略就是讓用戶(hù)參與到相似查詢(xún)過(guò)程中,讓用戶(hù)對(duì)每次的查詢(xún)結(jié)果進(jìn) 行調(diào)整和標(biāo)注,系統(tǒng)通過(guò)搜集用戶(hù)對(duì)結(jié)果的調(diào)整和標(biāo)注,從而調(diào)整特征提取或者相似度量 的方法,以學(xué)習(xí)用戶(hù)對(duì)序列相似的語(yǔ)義認(rèn)知,直到用戶(hù)滿(mǎn)意或放棄查詢(xún)。相關(guān)反饋?zhàn)钤绫挥?在基于內(nèi)容的圖像檢索中,將圖像看做高維空間的矢量尺"J是從圖像中提取的顏色、 紋理、形狀等底層特征或者它們的組合,Rn通常被稱(chēng)為特征空間。在特征空間上可以定義矢 量間的距離函數(shù)以衡量圖像之間的差異。由于特定特征空間中的距離并不能反映不同人對(duì) 不同圖像的感受的差異,采用固定特征提取以及距離函數(shù)衡量圖像間的相似程度在圖像檢 索中往往不能得到滿(mǎn)意的結(jié)果。為改善查詢(xún)結(jié)果,可以通過(guò)改變特征空間、改變距離的計(jì)算 方法以及相似度的衡量公式等使相似度更接近于人的感受,相關(guān)反饋技術(shù)便是通過(guò)與用戶(hù) 交互得到以上目標(biāo)。在時(shí)間序列的相似搜索方面,1998年,EamonnJ.Keogh等提出一個(gè)基于 相關(guān)反饋的時(shí)間序列探索框架,并能夠分類(lèi)和聚類(lèi),時(shí)間序列采用帶權(quán)重的逐段線性擬合 (PLR)方式描述,每段擁有一個(gè)描述該段重要性的權(quán)重,在檢索過(guò)程中通過(guò)用戶(hù)的交互修正 權(quán)重,但是PLR計(jì)算復(fù)雜度較高,同時(shí)在計(jì)算兩個(gè)子序列之間距離時(shí),還需要進(jìn)一步進(jìn)行分 割對(duì)齊,同時(shí)PLR描述不能進(jìn)行有效的索引。2002年,鄭斌祥等利用離散傅里葉變換對(duì)時(shí)間 序列進(jìn)行降維,并利用R樹(shù)建立索引進(jìn)行相似檢索,用戶(hù)對(duì)結(jié)果序列進(jìn)行標(biāo)注,并給出每個(gè) 結(jié)果序列的重要度,新的查詢(xún)序列為舊查詢(xún)序列和所有結(jié)果序列以重要度為系數(shù)的線性組 合,該方法不能考慮序列不同部分的重要程度,一般一段時(shí)間序列隱含的模式往往由序列 的一部分決定,而其他部分對(duì)序列的模式的影響相對(duì)較小。
【發(fā)明內(nèi)容】
[0006] 發(fā)明目的:本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的不足,提供一種提高水文時(shí) 間序列相似性分析準(zhǔn)確率的利用用戶(hù)交互的相似水文過(guò)程搜索方法,本發(fā)明以帶權(quán)重的歐 式距離作為相似度量,對(duì)用戶(hù)指定的查詢(xún)序列進(jìn)行相似搜索,用戶(hù)對(duì)查詢(xún)結(jié)果進(jìn)行標(biāo)注,根 據(jù)用戶(hù)對(duì)查詢(xún)序列模式的理解,對(duì)查詢(xún)結(jié)果設(shè)置相似或不相似程度;算法將相似和不相似 的序列特征進(jìn)行合并,并調(diào)整權(quán)重,產(chǎn)生更加符合用戶(hù)要求的查詢(xún)序列,并循環(huán)進(jìn)行查詢(xún), 直到用戶(hù)結(jié)束查詢(xún)過(guò)程。。
[0007] 技術(shù)方案:本發(fā)明的一種利用用戶(hù)交互的相似水文過(guò)程搜索方法,包括以下步 驟:
[0008] (1)對(duì)水文過(guò)程時(shí)間序列(如洪水水位過(guò)程等)進(jìn)行小波變換,并進(jìn)行重構(gòu)形成小 波水文時(shí)間序列,初步過(guò)濾掉時(shí)間序列中存在的噪聲數(shù)據(jù);
[0009] (2)采用滑動(dòng)窗口從小波水文序列中提取子序列;
[0010] (3)采用分段聚集近似法(PiecewiseAggregateApproximation,即PAA)對(duì)步驟 (2)所得子序列進(jìn)行降維;
[0011] ⑷采用空間索引方法(如,R*-tree等)對(duì)步驟(3)中生成的子序列創(chuàng)建索引;
[0012] (5)對(duì)初始查詢(xún)序列采用步驟(3)中的分段聚集近似法進(jìn)行降維處理;
[0013] (6)進(jìn)行k-近鄰查詢(xún),并將查詢(xún)結(jié)果按照與查詢(xún)序列的相似程度高低排序展示給 用戶(hù);
[0014] (7)若用戶(hù)對(duì)查詢(xún)結(jié)果滿(mǎn)意,則本次查詢(xún)結(jié)果;否則,用戶(hù)對(duì)查詢(xún)結(jié)果進(jìn)行標(biāo)注, 識(shí)別出相似序列和不相似序列,并設(shè)置相似程度的高度,以及不相似程度的高低;
[0015] (8)系統(tǒng)獲取用戶(hù)標(biāo)注的信息,進(jìn)行反饋處理,利用用戶(hù)對(duì)結(jié)果的重新標(biāo)注,計(jì)算 出新的查詢(xún)序列,并轉(zhuǎn)至步驟(5)。
[0016] 進(jìn)一步的,所述步驟(1)中,水文過(guò)程時(shí)間序列為以為時(shí)間序列,且過(guò)濾時(shí)間序列 中的噪聲數(shù)據(jù)的具體步驟為:
[0017] (11)將水文過(guò)程時(shí)間序列進(jìn)行小波分解;
[0018] (12)采用高頻系數(shù)的閾值量化,即確定小波變換的尺度;
[0019] (13)重構(gòu)形成小波水文時(shí)間序列。
[0020] 進(jìn)一步的,所述步驟(3)中對(duì)子序列進(jìn)行降維處理的具體過(guò)程為:
[0021] 將步驟(2)所得的子序列分成N段,每段的最終取值為該段內(nèi)包含的數(shù)據(jù)項(xiàng)的均 值;一個(gè)長(zhǎng)度為m的子序列,通過(guò)分段聚集近似法處理后,被描述成N維空間中的一個(gè)點(diǎn),對(duì) 應(yīng)的向量為Z=xi,...,m義的第i個(gè)元素為:
【主權(quán)項(xiàng)】
1. 一種利用用戶(hù)交互的相似水文過(guò)程捜索方法,其特征在于:包括w下步驟: (1) 對(duì)水文過(guò)程時(shí)間序列進(jìn)行小波變換,并進(jìn)行重構(gòu)形成小波水文時(shí)間序列,初步過(guò)濾 掉時(shí)間序列中存在的噪聲數(shù)據(jù); (2) 采用滑動(dòng)窗口從小波水文序列中提取子序列; (3) 采用分段聚集近似法對(duì)步驟(2)所得子序列進(jìn)行降維; (4) 采用空間索引方法對(duì)步驟(3)中生成的子序列創(chuàng)建索引; (5) 對(duì)初始查詢(xún)序列采用步驟(3)中的分段聚集近似法進(jìn)行降維處理; (6) 進(jìn)行k-近鄰查詢(xún),并將查詢(xún)結(jié)果按照與查詢(xún)序列的相似程度高低排序展示給用 戶(hù); (7) 若用戶(hù)對(duì)查詢(xún)結(jié)果滿(mǎn)意,則本次查詢(xún)結(jié)果;否則,用戶(hù)對(duì)查詢(xún)結(jié)果進(jìn)行標(biāo)注,識(shí)別 出相似序列和不相似序列,并設(shè)置相似程度的高度,W及不相似程度的高低; (8) 系統(tǒng)獲取用戶(hù)標(biāo)注的信息,進(jìn)行反饋處理,利用用戶(hù)對(duì)結(jié)果的重新標(biāo)注,計(jì)算出新 的查詢(xún)序列,并轉(zhuǎn)至步驟巧)。
2. 根據(jù)權(quán)利要求1所述的利用用戶(hù)交互的相似水文過(guò)程捜索方法,其特征在于:所述 步驟(1)中,水文過(guò)程時(shí)間序列為W為時(shí)間序列,且過(guò)濾時(shí)間序列中的噪聲數(shù)據(jù)的具體步 驟為: (11) 將水文過(guò)程時(shí)間序列進(jìn)行小波分解; (12) 采用高頻系數(shù)的闊值量化,即確定小波變換的尺度; (13) 重構(gòu)形成小波水文時(shí)間序列。
3. 根據(jù)權(quán)利要求1所述的利用用戶(hù)交互的相似水文過(guò)程捜索方法,其特征在于:所述 步驟(3)中對(duì)子序列進(jìn)行降維處理的具體過(guò)程為: 將步驟(2)所得的子序列分成N段,每段的最終取值為該段內(nèi)包含的數(shù)據(jù)項(xiàng)的均值;一 個(gè)長(zhǎng)度為m的子序列,通過(guò)分段聚集近似法處理后,被描述成N維空間中的一個(gè)點(diǎn),對(duì)應(yīng)的 向量為X=三1,...Jw,方的第i個(gè)元素為:
上式中,子序列的段數(shù)N任意設(shè)置,每段包含的點(diǎn)數(shù)為"
4. 根據(jù)權(quán)利要求1所述的利用用戶(hù)交互的相似水文過(guò)程捜索方法,其特征在于:所述 步驟(2)中,采用長(zhǎng)度為W的滑動(dòng)窗口沿小波水文序列按照步長(zhǎng)為1進(jìn)行滑動(dòng),提取子序 列,長(zhǎng)度為n的小波水文序列總共提取子序列的個(gè)數(shù)為n-w+1。
5. 根據(jù)權(quán)利要求1所述的利用用戶(hù)交互的相似水文過(guò)程捜索方法,其特征在于:所述 步驟巧)中,初始查詢(xún)序列為任意長(zhǎng)度。
6. 根據(jù)權(quán)利要求1所述的利用用戶(hù)交互的相似水文過(guò)程捜索方法,其特征在于:所述 步驟(7)中,用戶(hù)對(duì)每個(gè)結(jié)果序列進(jìn)行標(biāo)注,給每個(gè)序列設(shè)定一個(gè)影響值,且用正數(shù)影響值 表示某個(gè)結(jié)果序列S與用戶(hù)期望的序列是相似的,用負(fù)數(shù)影響值表示某個(gè)結(jié)果序列S與用 戶(hù)期望的序列不相似,同時(shí)用戶(hù)采用影響值的數(shù)值大小來(lái)描述相似和不相似程度。
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種利用用戶(hù)交互的相似水文過(guò)程搜索方法,以帶權(quán)重的歐式距離作為相似度量,對(duì)用戶(hù)指定的查詢(xún)序列進(jìn)行相似搜索,用戶(hù)對(duì)查詢(xún)結(jié)果進(jìn)行標(biāo)注,根據(jù)用戶(hù)對(duì)查詢(xún)序列模式的理解,對(duì)查詢(xún)結(jié)果設(shè)置相似或不相似程度;算法將相似和不相似的序列特征進(jìn)行合并,并調(diào)整權(quán)重,產(chǎn)生更加符合用戶(hù)要求的查詢(xún)序列,并循環(huán)進(jìn)行查詢(xún),直到用戶(hù)結(jié)束查詢(xún)過(guò)程。本發(fā)明利用用戶(hù)交互調(diào)整查詢(xún)序列和權(quán)重,提高查詢(xún)的準(zhǔn)確性以及水文序列相似搜索的準(zhǔn)確性。
【IPC分類(lèi)】G06F17-30
【公開(kāi)號(hào)】CN104794153
【申請(qǐng)?zhí)枴緾N201510099145
【發(fā)明人】王繼民, 朱躍龍, 李士近, 張新華
【申請(qǐng)人】河海大學(xué)
【公開(kāi)日】2015年7月22日
【申請(qǐng)日】2015年3月6日