两个人的电影免费视频_国产精品久久久久久久久成人_97视频在线观看播放_久久这里只有精品777_亚洲熟女少妇二三区_4438x8成人网亚洲av_内谢国产内射夫妻免费视频_人妻精品久久久久中国字幕

用于檢測(cè)實(shí)時(shí)序列中的異常的方法

文檔序號(hào):9564652閱讀:579來(lái)源:國(guó)知局
用于檢測(cè)實(shí)時(shí)序列中的異常的方法
【專利說(shuō)明】
[0001] 相關(guān)申請(qǐng)
[0002] 此專利申請(qǐng)關(guān)于MERL-2729,在此共同申請(qǐng)并通過(guò)引用并入本文中。兩個(gè)申請(qǐng)使用 相似性矩陣應(yīng)對(duì)處理數(shù)據(jù),以形成圖拉普拉斯矩陣(graph Laplacian)。
技術(shù)領(lǐng)域
[0003] 本發(fā)明一般涉及時(shí)間序列數(shù)據(jù)的數(shù)據(jù)分析以檢測(cè)數(shù)據(jù)中的異常,更具體地,涉及 存儲(chǔ)由非常大數(shù)量的傳感器從大型工業(yè)機(jī)器或機(jī)器的整個(gè)安裝獲得的傳感器數(shù)據(jù)的大型 數(shù)據(jù)庫(kù)。
【背景技術(shù)】
[0004] 機(jī)器和設(shè)備的狀況的自動(dòng)化監(jiān)視使用處理非常大的傳感器數(shù)據(jù)流的方法,該傳感 器數(shù)據(jù)流包括通過(guò)以高速率對(duì)各種傳感器進(jìn)行采樣獲得的許多單獨(dú)讀數(shù)。數(shù)據(jù)獲取、通信 以及存儲(chǔ)技術(shù)的迅速降低的成本使得以多元時(shí)間序列數(shù)據(jù)的形式積累大量的數(shù)據(jù)是經(jīng)濟(jì) 上可行的,其中,時(shí)間序列的每個(gè)組分(變量)可以被視為指示正在被監(jiān)視的系統(tǒng)的狀態(tài)的 觀測(cè)向量的單獨(dú)維度。
[0005] 這種數(shù)據(jù)的主要用途之一是自動(dòng)地檢測(cè)可能意味著系統(tǒng)中存在故障的異常狀況。 這種故障可以包括松動(dòng)的或破壞的組件、錯(cuò)誤的操作順序、異常的操作條件等等。在大多數(shù) 情況下,為了確保安全、使材料的浪費(fèi)最小化或執(zhí)行維護(hù)以避免災(zāi)難性故障,立即發(fā)現(xiàn)這種 異常狀況是非常希望的。
[0006] 發(fā)現(xiàn)異常的一種可能的方式是以描述當(dāng)變量超出它的正常范圍時(shí)的邏輯規(guī)則的 形式明確地指定被認(rèn)為是異常的狀況。對(duì)于一些系統(tǒng),這種方法是非常成功的,例如,當(dāng)監(jiān) 視主動(dòng)地調(diào)整一些參數(shù)(諸如,溫度,壓力,濕度等等)的過(guò)程,并且他們的正常范圍是已知 的時(shí)。
[0007] 當(dāng)這樣的范圍不可用時(shí),可以通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法獲得正常的操作極限,其中,數(shù) 據(jù)變量都是在正常條件下測(cè)得的,并且從該數(shù)據(jù)提取正常操作范圍的描述符。這種描述 符的示例是邏輯規(guī)則,或概率分布。例如,如果X表示來(lái)自監(jiān)視系統(tǒng)的瞬時(shí)測(cè)量變量的向 量,并且,f(x)是在X的域上的概率密度函數(shù)(其對(duì)應(yīng)于值X與系統(tǒng)的正常操作對(duì)應(yīng)的概 率),則可以連續(xù)地評(píng)價(jià)這個(gè)概率密度,并且,當(dāng)f(x)小于預(yù)定的閾值τ時(shí),可以用通報(bào) (signal)報(bào)警。
[0008] 然后問(wèn)題變成怎樣確定概率密度函數(shù)f(x)的適當(dāng)?shù)墓烙?jì),假定所觀測(cè)的數(shù)據(jù)的 數(shù)據(jù)庫(kù)X = [X1, X2,…,Xn],其中,Xt是在時(shí)間t確定的觀測(cè)列向量,t = 1,…,N。向量X t 包括M個(gè)變量,使得Xlt是在時(shí)間t的第i個(gè)變量的值,i = 1,. . .,M。
[0009] 存在用于從域中所獲得的數(shù)據(jù)點(diǎn)的采樣估計(jì)該域上的概率密度函數(shù)的許多方法。 參數(shù)方法做出關(guān)于分布類型的明確的假設(shè),并且然后估計(jì)分布的參數(shù)。例如,如果函數(shù)是高 斯分布,則參數(shù)是分布的均值μ和協(xié)方差矩陣S。在這種情況下,
[0011] 其中,T是轉(zhuǎn)置運(yùn)算符。
[0012] 當(dāng)變量的數(shù)目M非常大時(shí),如對(duì)于許多工業(yè)系統(tǒng)來(lái)說(shuō)是典型的,產(chǎn)生的估計(jì)可能 是不精確的,并且不方便使用。它可能不是非常精確,因?yàn)檎_的概率分布與高斯分布差異 很大。該估計(jì)可能不方便使用,因?yàn)閰f(xié)方差矩陣S盡管對(duì)稱,但是當(dāng)M非常大時(shí)它可以包含 M2的量級(jí)的數(shù)量,例如,數(shù)量以數(shù)千或數(shù)百萬(wàn)計(jì)。因此,在存儲(chǔ)器中保持S實(shí)際上變得難以 處理。此外,不能估計(jì)具有獨(dú)立條目的全協(xié)方差矩陣S,除非讀數(shù)的數(shù)目N大于數(shù)據(jù)向量M 的維數(shù),并且至少M(fèi)+1個(gè)數(shù)據(jù)點(diǎn)在普通位置,也就是,線性無(wú)關(guān)。
[0013] 然而,其他的估計(jì)模型和方法(諸如,混合高斯分布)可以被用來(lái)克服信號(hào)單個(gè)多 元高斯分布的精度問(wèn)題,這些方法仍然遭受與使用大的協(xié)方差矩陣相關(guān)的問(wèn)題,當(dāng)考慮一 個(gè)以上的高斯分量時(shí),該問(wèn)題變得更糟糕。
[0014] 相比參數(shù)模型,非參數(shù)密度估計(jì)方法(諸如,Parzen核密度估計(jì)(PKDE))不假設(shè) 用于分布的特定的參數(shù)形式,而是通過(guò)合適的核函數(shù)K估計(jì)密度
[0016] 作為單獨(dú)分量的總和,其中,每個(gè)所獲取的數(shù)據(jù)點(diǎn)一個(gè)單獨(dú)分量。然而,核函數(shù)的 選擇通常是不容易的,并且這個(gè)方法也需要將所有N個(gè)獲取的數(shù)據(jù)點(diǎn)保持在存儲(chǔ)器中,當(dāng) 這個(gè)數(shù)目很大,并且甚至無(wú)限時(shí),這是有問(wèn)題的。
[0017] 這些方法的另一個(gè)共同的缺點(diǎn)是它們不能容易地處理混合型的數(shù)據(jù),例如,當(dāng)一 些變量是連續(xù)的,并且其他的是離散的時(shí)。
[0018] 當(dāng)數(shù)據(jù)向量的數(shù)目很大時(shí),用來(lái)處理數(shù)據(jù)向量的高維度的更有效的方法是嘗試在 數(shù)據(jù)向量X的子集上將概率分布f(x)分解(因式(factor))為P個(gè)單獨(dú)的概率分布,使得
[0020] 其中,fp(X(p))是在數(shù)據(jù)向量的子集χ(ρ)上的概率密度函數(shù)。設(shè)%代表從X到X (p) 的投影算子,也就是,X(p)= JT Ρ(Χ)。設(shè)V= {1,2,···,Μ}是數(shù)據(jù)變量的所有指數(shù)的集合,Vp 是在部分P中的變量的指數(shù)的集合,并且Mp= IvpI是部分P中變量的數(shù)目。然后,期望獲 得V到集合Vp的合適的分割,使得
并且,相應(yīng)地,
[0023] 通過(guò)改變每個(gè)部分的大小,可以控制需要被估計(jì)并存儲(chǔ)在存儲(chǔ)器中的參數(shù)的數(shù) 目。例如,如果高斯模型適合每個(gè)部分,則針對(duì)某部分的協(xié)方差矩陣包含M 21J^量級(jí)的元素。 這種方法也處理混合型的變量,其中連續(xù)的和離散的變量可以被放入不同的部分,并且不 同的參數(shù)模型可以適合這些部分,例如,高斯、伯努利以及多項(xiàng)式模型。
[0024] 然而,使用最小可能部分對(duì)于異常檢測(cè)的目的是不太有效的。平凡因式分解(其 中,每個(gè)變量在它自己的部分內(nèi))使得P = M,Vp= {p},Mp= 1,將確實(shí)導(dǎo)致概率密度的 非常緊促的表示,但是將不能捕獲變量之間的依存關(guān)系,并且將不能檢測(cè)所謂的前后關(guān)系 (contextual)的異常。這些變量由可能是整體的一個(gè)變量的讀數(shù)表示,而不是當(dāng)另一變量 具有特定的值時(shí)。例如,所測(cè)得的空氣溫度可以是90° F,并且這本身未必就是信號(hào)異常氣 候條件,但是如果表示日歷月的另一變量的值被設(shè)為十二月,并且測(cè)量位置在北半球,則兩 個(gè)讀數(shù)一起將清晰地表示異常。
[0025] 因此,需要確定一種在所識(shí)別的部分的尺寸、可用于每個(gè)部分中單獨(dú)的密度函數(shù) 的估計(jì)的點(diǎn)的數(shù)目以及所得到的密度的精度之間具有合理均衡的分割方法。

【發(fā)明內(nèi)容】

[0026] 本發(fā)明的實(shí)施方式提供了一種用于將一大組變量分割成較小部分的方法,使得在 變量的整個(gè)集合上的正常行為的模型可以被因式分解(factor)為在每個(gè)部分上的單獨(dú)模 型,并且這些單獨(dú)部分特定模型更容易估計(jì)、維持以及用于時(shí)間序列數(shù)據(jù)中的異常檢測(cè)。該 方法使用沒(méi)有明確地確定所有變量上的全協(xié)方差矩陣的譜聚類方法,但是對(duì)于非常大的特 征值問(wèn)題,反而依賴于有效的特征值的解決方法。
[0027] 具體地,通過(guò)首先確定多對(duì)正常的時(shí)間序列數(shù)據(jù)之間的成對(duì)相似性的相似性矩陣 來(lái)檢測(cè)實(shí)時(shí)序列中的異常。將譜聚類過(guò)程應(yīng)用到相似性矩陣以將表示時(shí)間序列數(shù)據(jù)的維度 的變量分割為互斥的組。針對(duì)每個(gè)組估計(jì)正常行為的模型。然后,針對(duì)實(shí)時(shí)序列數(shù)據(jù),使用 針對(duì)每個(gè)組的模型確定異常分?jǐn)?shù),并且將該異常分?jǐn)?shù)與預(yù)定的閾值進(jìn)行比較,以用通報(bào)該 異常。
【附圖說(shuō)明】
[0028] 圖1是根據(jù)本發(fā)明的實(shí)施方式的用于檢測(cè)實(shí)時(shí)序列數(shù)據(jù)中的異常的方法的流程 圖。
【具體實(shí)施方式】
[0029] 如圖1所示,我們的發(fā)明的實(shí)施方式提供了一種用于檢測(cè)實(shí)時(shí)序列數(shù)據(jù)140中的 異常171的方法。從正常的時(shí)間序列數(shù)據(jù)101的多對(duì)維度之間的成對(duì)相似性確定110非負(fù) 相似性矩陣A 111。譜聚類120被應(yīng)用于相似性矩陣,以將表示時(shí)間序列數(shù)據(jù)的維度112的 變量分割120為組121,其中,這些組是互斥的。針對(duì)每個(gè)組,確定130正常行為的模型131。 對(duì)于實(shí)時(shí)序列數(shù)據(jù)140,使用針對(duì)每個(gè)組的模型確定150異常分?jǐn)?shù)151。然后,將異常分?jǐn)?shù) 與預(yù)定的閾值τ 169進(jìn)行比較,以通報(bào)異常171。
[0030] 可選地,可以將單獨(dú)的異常分?jǐn)?shù)組合160以形成全局的異常分?jǐn)?shù)161,并且可以將 全局的異常分?jǐn)?shù)與預(yù)定的閾值τ 169進(jìn)行比較,以通報(bào)異常171。
[0031] 可以在連接到存儲(chǔ)器和如本領(lǐng)域已知的通過(guò)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
金堂县| 遵化市| 赣榆县| 抚州市| 大埔区| 米泉市| 黄梅县| 新乡县| 永寿县| 东阳市| 名山县| 嘉兴市| 资溪县| 江阴市| 霍邱县| 花垣县| 岑溪市| 马龙县| 囊谦县| 涡阳县| 普兰店市| 吴忠市| 庆云县| 建阳市| 保定市| 昔阳县| 侯马市| 奈曼旗| 图们市| 安岳县| 金乡县| 依安县| 庆城县| 靖州| 银川市| 虹口区| 玉门市| 五大连池市| 台中县| 万源市| 宁安市|