綜上所述,國內(nèi)外針對異常數(shù)據(jù)產(chǎn)生的原因以及應(yīng)用領(lǐng)域的不同提出了許多異常數(shù)據(jù)檢測算法。大量研究發(fā)現(xiàn),基于密度的局部異常數(shù)據(jù)挖掘算法能夠發(fā)現(xiàn)其它的異常數(shù)據(jù)挖掘算法不能發(fā)現(xiàn)的異常,即“局部”異常,它更加符合Hawkins對異常數(shù)據(jù)的定義。Breunig等人提出了局部異常因子(Local Outlier Factor,LOF)的概念,通過它來表征一個數(shù)據(jù)對象的局部異常程度,LOF算法出現(xiàn)后,出現(xiàn)了很多局部異常程度的度量算法。這些算法適用于靜態(tài)環(huán)境下的數(shù)據(jù)庫,但在工程應(yīng)用領(lǐng)域,大部分數(shù)據(jù)庫中的數(shù)據(jù)是隨時間動態(tài)增加的,新增加的數(shù)據(jù)可能會影響某些對象的局部異常程度,因此在二次挖掘時,需重新計算所有數(shù)據(jù)對象的局部異常因子,計算時間復雜度較高,所以這些算法在動態(tài)環(huán)境中不易實現(xiàn)。因此,如何在動態(tài)環(huán)境中提高基于密度的異常數(shù)據(jù)挖掘算法的時間效率防止大量的重復計算顯得尤為重要。
Arning等人提出了基于偏離的方法,這種方法認為:某個數(shù)據(jù)對象在數(shù)據(jù)集中的特征明顯“偏離”數(shù)據(jù)集中的其它數(shù)據(jù)時,這樣的數(shù)據(jù)被認為是異常數(shù)據(jù)。Birant D等提出了一種任意形狀的聚類算法并將其應(yīng)用于異常挖掘中,該算法可以依據(jù)數(shù)據(jù)的非空間屬性、空間屬性和時態(tài)屬性來發(fā)現(xiàn)聚類簇和異常數(shù)據(jù)對象。
Breuning等學者定義了局部異常因子的概念,提出了一種基于密度的局部異常點挖掘算法,它是用局部異常因子LOF(Local Outlier Factor)表征數(shù)據(jù)對象與它的鄰居對象的偏離程度,LOF越大則認為該點是異常數(shù)據(jù)的可能性越大。ToWel等人在分析神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)神經(jīng)網(wǎng)絡(luò)的理論提出了基于神經(jīng)網(wǎng)絡(luò)的異常數(shù)據(jù)挖掘算法。
作為隱蔽工程其健康狀況受到了社會各界的高度重視如何對風機基礎(chǔ)特別是mw級風機基礎(chǔ)的安全運行狀況監(jiān)測成為研究領(lǐng)域的熱現(xiàn)有的監(jiān)測技術(shù)需要通過設(shè)置在風機基礎(chǔ)中的數(shù)據(jù)采集系統(tǒng)自動獲取基礎(chǔ)的各狀態(tài)的大量參數(shù)如應(yīng)力應(yīng)變振動變形等采集到的海量原始數(shù)據(jù)通過通信網(wǎng)絡(luò)傳輸?shù)奖O(jiān)控中心經(jīng)過數(shù)據(jù)存儲分析處理得到基礎(chǔ)的安全運行狀況和維修決策等結(jié)風機基礎(chǔ)監(jiān)測系統(tǒng)是集結(jié)構(gòu)監(jiān)測系統(tǒng)識別及結(jié)構(gòu)評估于一體的綜合監(jiān)測系其內(nèi)容包括幾何變形監(jiān)測結(jié)構(gòu)響應(yīng)應(yīng)力應(yīng)變及振動監(jiān)測等
異常數(shù)據(jù)檢測問題通常包括四個過程:第一是數(shù)據(jù)的預處理,即通過數(shù)字濾波方法去除一些干擾;第二是異常數(shù)據(jù)的定義,即在數(shù)據(jù)集中表現(xiàn)出怎樣的行為或者模式的數(shù)據(jù)稱為異常數(shù)據(jù);第三是選擇合適的能夠有效發(fā)現(xiàn)異常數(shù)據(jù)的算法,異常數(shù)據(jù)表現(xiàn)行為不同,異常數(shù)據(jù)挖掘算法結(jié)果也會有所差異;第四是異常數(shù)據(jù)的修正,即通過異常挖掘?qū)惓?shù)據(jù)挖掘出來后,對這部分數(shù)據(jù)按照原有模式規(guī)則進行修正,確保采集信息不缺失,保持采集數(shù)據(jù)時間序列上的連續(xù)性。本章介紹了常用的數(shù)據(jù)預處理技術(shù)及異常數(shù)據(jù)檢測問題的重要特征,對常用異常數(shù)據(jù)檢測及修正算法進行了描述和討論,分析了各種算法的優(yōu)缺點和適用場景。
均值濾波是最常用的數(shù)字濾波方法,是對采樣序列中的數(shù)據(jù)求和后,再取其平均值作為結(jié)果。雖然這種方法可以到達濾波的目的,但是如果采樣數(shù)據(jù)中的噪聲數(shù)據(jù)過大或過小,都會對處理結(jié)果產(chǎn)生影響。中值濾波是對采樣序列按大小排序形成有序列,取有序列的中間值作為結(jié)果。排序算法一般采用“冒泡排序法”或“快速排序法”等。眾數(shù)是數(shù)理統(tǒng)計中常用的一種數(shù)據(jù)處理方法,它要求對大量的數(shù)據(jù)進行處理,眾數(shù)濾波的原理是在采樣序列中找出最大值Tmax和最小值Tmin,再在區(qū)間上平均分為m組〔5-10組〕,確定完分組后,對序列統(tǒng)計各組區(qū)間內(nèi)數(shù)據(jù)的個數(shù),形成統(tǒng)計序列,查找其最大的值即眾數(shù)組序號k,根據(jù)相應(yīng)公式計算眾數(shù)的近似值。以前由于電腦的采樣速度和電腦速度較慢,處理周期較長,所以一直沒有采用,隨著電腦運算速度的提高及高速采集模塊的采用,現(xiàn)在處理周期已縮短到1秒以內(nèi),由于眾數(shù)濾波的數(shù)據(jù)代表性較其它處理方法更強,所以逐步被采用。
風機基礎(chǔ)監(jiān)測系統(tǒng)是集結(jié)構(gòu)監(jiān)測、系統(tǒng)識別及結(jié)構(gòu)評估于一體的綜合監(jiān)測系統(tǒng),其內(nèi)容包括幾何變形監(jiān)測、結(jié)構(gòu)響應(yīng)〔應(yīng)力、應(yīng)變及振動〕監(jiān)測等。監(jiān)測系統(tǒng)的質(zhì)量主要取決于三方面因素:(1)傳感器的靈敏性和精度以及數(shù)據(jù)傳輸和采集設(shè)備的性能;(2)測點的空間分布,即傳感器的最優(yōu)布置問題;(3)異常數(shù)據(jù)的分析處理。
從目前電子技術(shù)的發(fā)展來看,成熟、穩(wěn)定、高性能的傳感器已經(jīng)被應(yīng)用與監(jiān)測系統(tǒng)中,而且合理安排傳感器位置,以到達信息采集的最優(yōu)化,也已經(jīng)有很多研究成果。但由于監(jiān)測信息格式復雜、信息量大,每天數(shù)據(jù)量甚至能到達十幾GB,如果不能有效地對這些數(shù)據(jù)進行處理,很多異常數(shù)據(jù)將不能有效辨識,缺失信息將不能有效彌補,而且監(jiān)測數(shù)據(jù)的分析必須建立在準確有效的監(jiān)測數(shù)據(jù)之上,低精度和異常的監(jiān)測數(shù)據(jù)常常影響數(shù)值分析的結(jié)果,會影響到系統(tǒng)的功能與特性分析,給后續(xù)數(shù)據(jù)處理帶來很大的誤差,正常信息不能得到有效利用,故有必要對原始采集數(shù)據(jù)進行處理。因此監(jiān)測異常數(shù)據(jù)處理是三方面中至關(guān)重要的一點。
(3)提高和完善監(jiān)測結(jié)果準確性,為后續(xù)研究奠定基礎(chǔ)。監(jiān)測結(jié)果的準確性建立在高質(zhì)量的監(jiān)測數(shù)據(jù)之上,如果不能有效地辨識與處理異常數(shù)據(jù),低精度和異常的監(jiān)測數(shù)據(jù)混入正常數(shù)據(jù)集中,會對監(jiān)測系統(tǒng)的功能與特性分析產(chǎn)生重大影響,給后續(xù)數(shù)據(jù)處理帶來很大的誤差,正常數(shù)據(jù)信息不能有效用于后續(xù)的相關(guān)研究,利用數(shù)據(jù)研究得到的結(jié)論與實際可能存在較大誤差。
近年來,隨著海上風力發(fā)電技術(shù)的日益成熟和陸上風電可開發(fā)資源的不斷減少,海上風電尤其是近海風電的開發(fā)開始加速。風機是海上風電開發(fā)的主要形式,而風機基礎(chǔ)結(jié)構(gòu)承擔著抵抗海上風機結(jié)構(gòu)的豎向、水平荷載和傾覆力矩的作用,其質(zhì)量關(guān)系到海上風機結(jié)構(gòu)的運行安全。作為隱蔽工程,其健康狀況受到了社會各界的高度重視,如何對風機基礎(chǔ)特別是MW級風機基礎(chǔ)的安全運行狀況監(jiān)測成為研究領(lǐng)域的熱點?,F(xiàn)有的監(jiān)測技術(shù)需要通過設(shè)置在風機基礎(chǔ)中的數(shù)據(jù)采集系統(tǒng)自動獲取基礎(chǔ)的各狀態(tài)的大量參數(shù),如應(yīng)力、應(yīng)變、振動、變形等,采集到的海量原始數(shù)據(jù)通過通信網(wǎng)絡(luò)傳輸?shù)奖O(jiān)控中心,經(jīng)過數(shù)據(jù)存儲,分析處理得到基礎(chǔ)的安全運行狀況和維修決策等結(jié)論。
Knorr等人于1998年提出了基于距離的異常數(shù)據(jù)檢測算法,他們認為數(shù)據(jù)是高維空間中的點,異常數(shù)據(jù)被定義為數(shù)據(jù)集中與大多數(shù)點之間的距離大于某個事先設(shè)定的閾值的數(shù)據(jù)。和等學者針對基于距離的異常數(shù)據(jù)挖掘算法在高維數(shù)據(jù)中計算時間較長的缺點,將圖論中的連通性原理引入到數(shù)據(jù)之間距離的計算上,極大地降低了計算時間復雜度。
(1)對常用異常數(shù)據(jù)檢測與修正方法簡要介紹,介紹了常用的數(shù)據(jù)預處理技術(shù)及異常數(shù)據(jù)檢測問題的重要特征,對常用異常數(shù)據(jù)檢測及修正算法進行了描述和討論,分析了各種算法的優(yōu)缺點和適用場景。
結(jié)合風機基礎(chǔ)特點,尋找一種有效的適用于風機基礎(chǔ)監(jiān)測實時數(shù)據(jù)處理的方法具有十分重要的研究意義和實用價值。
在國外,研究人員通過對異常挖掘的深入研究,根據(jù)對異常存在形式的不同假設(shè),提出了許多異常數(shù)據(jù)檢測算法。早期的異常數(shù)據(jù)檢測方法是基于統(tǒng)計的方法,這種方法依賴于數(shù)據(jù)集服從某種標準分布,所以異常數(shù)據(jù)是基于概率分布來定義的,如Yamanishi等人將正常行為用一個高斯混合模型來進行描述,通過計算數(shù)據(jù)對象與這個模型的偏離程度來發(fā)現(xiàn)異常。雖然這種基于標準分布的模型,能識別異?,F(xiàn)象,但此類方法有很大的局限性,因為往往無法預知數(shù)據(jù)集是服從哪類標準分布。為了克服這種缺陷,、Daniel B.等在概率論H假設(shè)檢驗方法的理論基礎(chǔ)上,提出了一種基于某置信度區(qū)間標準的異常檢測方法,到達這個標準的則為正常數(shù)據(jù),反之則為異常。
最近提出的比較流行的異常數(shù)據(jù)挖掘算法是基于核的分類方法,主要思想是將輸入的數(shù)據(jù)通過關(guān)系函數(shù)映射到一個高維特征空間,通過高維空間的分類超平面,就可以建立一個簡單的分類模型,從而區(qū)分正?;虍惓?shù)據(jù)。
國內(nèi)對異常數(shù)據(jù)挖掘的研究起步較晚,但是近年來在理論研究方面已經(jīng)取得了許多研究成果。林士敏對基于距離的異常數(shù)據(jù)挖掘算法作了改良,提出了基于抽樣的近似檢測算法;金義富等在Knorr觀點的基礎(chǔ)上,提出了一種異常約簡算法ORDA,該算法以粗糙集理論的屬性約簡技術(shù)為基礎(chǔ),提出了異常數(shù)據(jù)劃分和異常約簡思想,以及異常數(shù)據(jù)關(guān)鍵屬性域子空間的分析方法,這種方法可以對挖掘出的異常數(shù)據(jù)進行有效的分析和解釋;重慶大學的鄧玉潔,朱慶生提出了基于聚類的異常數(shù)據(jù)挖掘方法,該方法將離群數(shù)據(jù)在分類討論的基礎(chǔ)上,定義了平凡離群數(shù)據(jù)、非平凡離群數(shù)據(jù)以及噪聲數(shù)據(jù),然后引入離群屬性和離群聚類簇的概念,在此基礎(chǔ)上,以現(xiàn)有的異常數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),實現(xiàn)了離群數(shù)據(jù)的發(fā)現(xiàn)。田江在一類支持向量機的基礎(chǔ)上,設(shè)計了一種“孤立點——類支持向量機”算法,該算法是一種無監(jiān)督的異常數(shù)據(jù)檢測算法,通過設(shè)定不同的權(quán)值,將基于超平面距離定義的異常數(shù)據(jù)的異常程度和基于概率大小定義的異常程度相結(jié)合,通過在特征空間劃分距離可疑異常數(shù)據(jù)的最大間隔超平面來發(fā)現(xiàn)異常。
為了提高濾波的效果,盡量減少噪聲數(shù)據(jù)對結(jié)果的影響,可將兩種或兩種以上的濾波算法結(jié)合在一起使用。如對于采集的數(shù)據(jù)量比較大的環(huán)境參數(shù),為了到達更好的濾波效果,可以選用眾數(shù)濾波和均值濾波結(jié)合的復合濾波方法。
異常數(shù)據(jù)問題的重要特征可以概括為四個方面,即數(shù)據(jù)特性、異常類型、數(shù)據(jù)標簽和輸出類型。
(2)實時發(fā)現(xiàn)異常狀況并采取必要處理措施。對于實時檢測出的異常數(shù)據(jù)進行分析,尋找異常事件原因,并根據(jù)產(chǎn)生原因采取應(yīng)有的處理方式。對于傳感器故障或執(zhí)行錯誤導致數(shù)據(jù)異常情況,應(yīng)進行剔除處理;有些異常數(shù)據(jù)是數(shù)據(jù)變異產(chǎn)生的結(jié)果,如對于基礎(chǔ)結(jié)構(gòu)監(jiān)測,發(fā)生異常工況或結(jié)構(gòu)損壞在一段時間往往會出現(xiàn)前兆,導致數(shù)據(jù)異常,如果能夠及時捕捉到異常狀況的發(fā)生并采取相應(yīng)措施,則能防患于未然,保證結(jié)構(gòu)安全。
監(jiān)測系統(tǒng)異常數(shù)據(jù)處理包含兩個方面的內(nèi)容:(1)異常數(shù)據(jù)檢測,即找出異常信息并確定異常信息所在位置,根據(jù)需要將異常數(shù)據(jù)保存入專門數(shù)據(jù)庫中或直接進行剔除;(2)異常數(shù)據(jù)修正,即通過插值等方法,參考數(shù)據(jù)異常點前后的數(shù)據(jù),完成該異常數(shù)據(jù)點的修正,確保采集信息不缺失,保持原始采集數(shù)據(jù)的連續(xù)性。
異常是一個復雜的概念,迄今為止還沒有一個統(tǒng)一定義。Hawkins提出的異常定義被大多數(shù)人所接受,其定義為:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人們疑心這些數(shù)據(jù)并非隨機產(chǎn)生的,而是產(chǎn)生于完全不同的機制。異常數(shù)據(jù)往往代表一種偏差或者新模式的開始,因此對異常數(shù)據(jù)的識別有時會比正常數(shù)據(jù)更有價值。傳感器異常數(shù)據(jù)是指在數(shù)據(jù)集中與大部分數(shù)據(jù)不一致或者偏離正常行為模式的數(shù)據(jù)。異常數(shù)據(jù)的產(chǎn)生主要是因為以下幾種情況而發(fā)生的:(1)數(shù)據(jù)來源中的異常,這類異常中可能隱藏著重要的知識或規(guī)律。對這類異常分析可以獲取常規(guī)數(shù)據(jù)不能得到的新的信息,如基礎(chǔ)結(jié)構(gòu)損壞等;(2)數(shù)據(jù)固有變化異常,這類異常通常是自然發(fā)生的,如風速的變化、波浪波動等;(3)數(shù)據(jù)測量誤差,這類異常的產(chǎn)生往往是因為測量儀器故障或者網(wǎng)絡(luò)傳輸錯誤,以及噪音的存在引起的,這類異常通常作為噪聲而被刪除。
本項研究的目的在于結(jié)合風機基礎(chǔ)特點,在傳統(tǒng)異常數(shù)據(jù)處理方法基礎(chǔ)上,研究一種有效的適用于風機基礎(chǔ)監(jiān)測實時數(shù)據(jù)處理的方法,該方法能夠在線辨識異常監(jiān)測數(shù)據(jù)并保存,且能夠自動修復原數(shù)據(jù)集,保持器連續(xù)性。
(1)實現(xiàn)異常數(shù)據(jù)在線檢測與修正。目前的監(jiān)測數(shù)據(jù)處理方法主要是在離線數(shù)據(jù)的基礎(chǔ)上,在實時監(jiān)控上還缺乏相應(yīng)的準確率和智能化。本研究實現(xiàn)了異常數(shù)據(jù)在線檢測與修正,與傳統(tǒng)的異常數(shù)據(jù)識別方法相比,具有更快的計算時間和更高的復原精度,能夠滿足數(shù)據(jù)的在線異常檢測與修正要求
與其他工程相比,風機基礎(chǔ)安全狀況監(jiān)測發(fā)展較為滯后,尚未發(fā)現(xiàn)關(guān)于風機基礎(chǔ)監(jiān)測數(shù)據(jù)處理的相關(guān)研究成果,其監(jiān)測異常數(shù)據(jù)的處理缺乏相應(yīng)的經(jīng)驗??梢越梃b類似工程監(jiān)測數(shù)據(jù)處理的方法進行研究。而針對監(jiān)測數(shù)據(jù)的種類多、數(shù)據(jù)海量、頻幅分布廣等特點,國內(nèi)學者已經(jīng)研究了很多處理方法。其中研究較多的如小波分析、數(shù)據(jù)挖掘、數(shù)據(jù)流理論等。然而,目前的類似工程監(jiān)測數(shù)據(jù)處理的方法主要是在離線數(shù)據(jù)的基礎(chǔ)上,在實時監(jiān)控上還缺乏相應(yīng)的準確率和智能化。
數(shù)據(jù)是通過各種類型的監(jiān)測傳感器獲取的,數(shù)據(jù)是一種通過間接方法取得事物狀態(tài)的技術(shù),如將結(jié)構(gòu)相應(yīng)等參數(shù)通過一定的轉(zhuǎn)換技術(shù)轉(zhuǎn)變?yōu)殡娦盘?,然后再將電信號轉(zhuǎn)換為數(shù)字化的數(shù)據(jù)。由于傳感器安裝環(huán)境的不穩(wěn)定和數(shù)據(jù)轉(zhuǎn)換過程摻雜少量的噪聲數(shù)據(jù)等各方面因素的影響,得到的數(shù)據(jù)會受到一定干擾,影響了最終數(shù)據(jù)的準確性。為了減小噪聲對數(shù)據(jù)結(jié)果的影響,除了采用更加科學的采樣技術(shù)外,還需要采用一些必要的技術(shù)手段對原始數(shù)據(jù)進行整理、統(tǒng)計,數(shù)字濾波技術(shù)是最基本的處理方法,它可以消弱數(shù)據(jù)中的噪聲,提高數(shù)據(jù)的代表性。