這幾年來,數據科學與人工智能(AI)技術已成功應用于各個領域各類事件的預測和檢測。比如:
網上搜索“機器學習用例”,會搜出連篇累牘的文檔鏈接,都是描述機器學習(ML)算法是怎么檢測或預測某些數據領域中的某類事件。
總的說來,成功的機器學習應用肯定是用充足的通用訓練集訓練出來的。機器學習模型在訓練期間應攝入足夠的可用樣例以學習每一類事件。任何數據科學項目的關鍵,都是有足夠大的事件樣例集可供算法訓練。
應用機器學習進行IoT事件預測
安全團隊能夠應用機器學習算法預測和識別機械部件損壞,或者以之檢測網絡安全事件嗎?答案顯然是肯定的。數據科學技術在IoT和網絡安全領域已經得到了成功的應用。比如說,機器學習在IoT領域的一個經典用例就是需求預測。今晚有多少顧客會光臨餐廳?能賣出多少箱奶?明天的用電量是多少?提前知道這些數據可以進行更好的規劃。
醫療健康也是IoT數據科學非常常見的一個用例。有很多運動健身應用和設備可以監測我們的關鍵指標,近實時地提供大量數據供人分析和評估健康狀況。
IoT領域另一個常見案例研究是預測性維護。預測機械部件是否需要維護以及何時需要維護,可以優化維護安排,延長機械部件的壽命。鑒于很多機械部件都相當復雜且昂貴,能夠做到這一點可是不小的優勢。只要數據集可用,這種方法就相當奏效。如果數據集還經過了合理標記,這種方法就更有效了。經過標記的數據意味著描述事件的每個數字向量都被預分配給了某一類事件。
異常發現:尋找非預期事件
數據科學有個特別的分支:異常發現。異常是什么?異常就是相當罕見,難以歸入某一特定類型,難以預測。異常事件就是非預期事件,不能以當前所知加以分類。異常是數據科學最難攻破的用例之一:
因此,異常檢測的問題可以簡單地歸結為尋找我們毫無所知的非預期、無樣例事件。雖然看起來難以解決,異常檢測卻還真不是什么罕見用例。比如說:
以上案例,基于已標記數據樣例集的傳統數據科學方法,是無法應用的。這一問題的解決方案就是對常規算法學習做一些調整。
IoT異常檢測
異常檢測問題不會提供帶已標記樣例的經典訓練集(出自正常系統的信號和出自類比系統的信號)。這種情況下,我們只能在僅有“正常”樣例的訓練集上訓練機器學習模型,以原始信號和預測信號之間的偏差值來觸發異常警報。
IoT數據中,信號時序由特意部署在機械部件上或其周邊的傳感器產生。時序就是時間變量值序列。IoT環境中,這些變量描述物體的機械屬性,由一個或多個傳感器測量而得。
這些機械部件通常運轉良好。因此,正常狀態下的樣例很多,而故障情況下的樣例卻幾近于零。關鍵部件上更是如此,因為位置太過重要,通常在出現故障時導致整個機器報廢前就會被換掉。
IoT世界中,一個重要課題就是在事發前預測機械故障發生的概率。如果能預測,我們就可以用足其整個生命周期而又不危及機械鏈的其他部分。預測機械故障可能跡象的工作,便被稱為預測性維護異常檢測。