15.異常檢測 Anomaly detection

覺得有用的話,歡迎一起討論相互學習~Follow Me

15.1問題動機 Problem motivation

飛機引擎異常檢測

假想你是一個飛機引擎製造商，當你生產的飛機引擎從生產線上流出時，你需要進行 QA(質量控制測試)，而作為這個測試的一部分，你測量了飛機引擎的一些特徵變數，比如引擎運轉時產生的熱量，或者引擎的振動等等。如下圖所示： $x_{1}, x_{2}, x_{3} . . .$ 用以表示測量得到的飛機引擎的特徵。而資料集中的m個數據用 $x^{(1)}, x^{(2)}, x^{(3)} . . . x^{(m)}$ 表示
這樣一來，你就有了一個數據集，從 $x^{(1)} 到 x^{(m)}$ ，如果你生產了 m 個引擎的話，你將這些資料繪製成圖表，看起來就是這個樣子：
這裡的每個點、每個叉，都是你的 無標籤資料 。這樣，異常檢測問題可以定義如下：假設後來有一天，你有一個新的飛機引擎從生產線上流出，而你的新飛機引擎有特徵變數 $x^{t e s t}$ 。所謂的異常檢測問題就是：希望知道這個新的飛機引擎是否有某種異常，或者說，我們希望判斷這個引擎是否需要進一步測試。因為，如果它看起來像一個正常的引擎，那麼我們可以直接將它運送到客戶那裡，而不需要進一步的測試。
給定一個訓練集，然後對訓練資料進行建模即 $p^{(x)}$ ,即對飛機引擎的特徵進行建模，然後當給定一個新的資料即 $x^{(t e s t)}$ ,如果概率 $P^{(t e s t)}$ 低於閾值ε– 那麼就將其標記為異常，如果概率 $P^{(t e s t)}$ 大於等於閾值ε– 那麼就將其標記為正常
觀察模型，將會發現在中心區域的這些點概率相當大，而稍微遠離中心的點概率會少些，而離中心更遠的點，其概率會更小即出現異常的概率會更大，而最外的標記點就是 異常點(anomaly) ,而中心區域的點P(x)很大即是 正確的點
這種方法稱為 密度估計 表達如下：
$i f p (x) {\begin{cases} \leq ϵ a n o m a l y \\ > ϵ n o r m a l \end{cases}$

欺騙識別

使用 $x^{(i)} 表示第 i 个用户的行为特征$ ，通過檢測是否有 $p (x) < ϵ$ 來斷定使用者是否是一個非正常使用者。
異常檢測主要用來識別欺騙。例如線上採集而來的有關使用者的資料，一個特徵向量中可能會包含如： $x_{1}$ 使用者多久登入一次， $x_{2}$ 訪問過的頁面， $x_{3}$ 在論壇釋出的帖子數量，甚至是 $x_{4}$ 打字速度等。嘗試根據這些特徵構建一個模型，可以用這個模型來識別行為異常的使用者。

資料中心異常檢測

特徵可能包含： $x_{1}$ 記憶體使用情況， $x_{2}$ 被訪問的磁碟數量， $x_{3}$ CPU的負載， $x_{4}$ 網路的通訊量等。根據這些特徵可以構建一個模型，用來是否有 $p (x) < ϵ$ 來判斷某些計算機是不是有可能出錯了

15.2高斯分佈 Gaussian Distribution

通常如果我們認為變數 x 符合高斯分佈 x~N(μ,σ2)則其概率密度函式為：

其中 $μ$ 表示資料的平均值而 $σ^{2}$ 表示樣本的方差，橫軸表示資料的值，而縱軸則表示此值出現的概率密度，影象與一段範圍內的橫軸包圍的面積即為x的取值落在此範圍內的概率，其影象如下圖所示：

其中 $μ$ 控制影象的中線所在位置，而 $σ$ 控制影象的寬度，並且對於概率密度函式而言，其與座標軸包圍的區域的面積始終為1
利用已有的資料來預測總體中的 $μ 和 σ^{2}$ 的計算方法如下：

其中統計學家認為計算方法中的分母應該為(m+1),而機器學習學者則認為其中的分母為m也很合適，當時資料量十分巨大時，分母為m或者為(m+1)實質上沒有很大的區別。

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

15.異常檢測 Anomaly detection

覺得有用的話,歡迎一起討論相互學習~Follow Me

15.1問題動機 Problem motivation

飛機引擎異常檢測

欺騙識別

資料中心異常檢測

15.2高斯分佈 Gaussian Distribution

15.3非監督學習的異常檢測演算法

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測算法/高斯回回歸模型

[吳恩達機器學習筆記]15.1-3非監督學習異常檢測演算法/高斯回回歸模型

吳恩達DeepLearning.ai筆記（1-4）-- 深層神經網路

【吳恩達機器學習】學習筆記——1.5無監督學習

【吳恩達機器學習】學習筆記——2.1單變量線性回歸算法

吳恩達機器學習筆記1-機器學習概述

[吳恩達機器學習筆記]15非監督學習異常檢測7-8使用多元高斯分布進行異常檢測

[吳恩達機器學習筆記]16推薦系統1-2基於內容的推薦系統

吳恩達-機器學習筆記(1)-模型表示、損失函式、梯度下降

【吳恩達機器學習筆記】week3：1/2邏輯迴歸

Coursera吳恩達機器學習課程總結筆記及作業程式碼——第1,2周

學習筆記——吳恩達-機器學習課程-1.3 用神經網路進行監督學習

吳恩達機器學習筆記1——學習資源整合

吳恩達機器學習筆記 —— 15 降維

吳恩達機器學習筆記 —— 1 緒論：初識機器學習

[吳恩達機器學習筆記]14降維1-2降維的應用資料壓縮與資料視覺化

[吳恩達機器學習筆記]15非監督學習異常檢測4-6構建與評價異常檢測系統

Coursera 斯坦福吳恩達機器學習課程筆記 (1)

學習筆記——吳恩達-機器學習課程 1.2 什麼是神經網路

吳恩達機器學習筆記10-梯度下降法實踐1-特征縮放