t-SNE（續）

SNE

在介紹t-SNE之前，我們首先介紹一下SNE（Stochastic Neighbor Embedding）的原理。

假設我們有資料集X，它共有N個數據點。每一個數據點 $x_{i}$ 的維度為D，我們希望降低為d維。在一般用於視覺化的條件下，d的取值為 2，即在平面上表示出所有資料。

SNE將資料點間的歐幾里德距離轉化為條件概率來表徵相似性：

p_{j ∣ i} = \frac{\exp (- ‖ x_{i} - x_{j} ‖^{2} / 2 σ^{2})}{\sum_{k \neq i} \exp (- ‖ x_{i} - x_{k} ‖^{2} / 2 σ^{2})}

如果以資料點在 $x_{i}$ 為中心的高斯分佈所佔的概率密度為標準選擇近鄰，那麼 $p_{j ∣ i}$

p_{j ∣ i}

就代表

x_{i}

將選擇

x_{j}

作為它的近鄰。對於相近的資料點，條件概率

p_{j ∣ i}

是相對較高的，然而對於分離的資料點，

p_{j ∣ i}

幾乎是無窮小量（若高斯分佈的方差

σ_{i}

選擇合理）。

現在引入矩陣Y，Y是N*2階矩陣，即輸入矩陣X的2維表徵。基於矩陣Y，我們可以構建一個分佈q，其形式與p類似。

對於高維資料點 $x_{i}$ 和 $x_{j}$ 在低維空間中的對映點 $y_{i}$ 和 $y_{j}$ ，計算一個相似的條件概率 $q_{j ∣ i}$ 是可以實現的。我們將計算條件概率 $q_{i ∣ j}$ 中用到的高斯分佈的方差設定為1/2。因此我們可以對對映的低維資料點 $y_{j}$ 和 $y_{i}$ 之間的相似度進行建模：

q_{j ∣ i} = \frac{\exp (- ‖ y_{i} - y_{j} ‖^{2})}{\sum_{k \neq i} \exp (- ‖ y_{i} - y_{k} ‖^{2})}

我們的總體目標是選擇Y中的一個數據點，然後其令條件概率分佈q近似於p。這一步可以通過最小化兩個分佈之間的KL散度而實現，這一過程可以定義為：

C = \sum_{i} K L (P_{i} ‖ Q_{i}) = \sum_{i} \sum_{j} p_{j ∣ i} \log \frac{p_{j ∣ i}}{q_{j ∣ i}}

這裡的 $P_{i}$ 表示了給定點 $x_{i}$ 下，其他所有資料點的條件概率分佈。需要注意的是KL散度具有不對稱性，在低維對映中不同的距離對應的懲罰權重是不同的，具體來說：距離較遠的兩個點來表達距離較近的兩個點會產生更大的cost，相反，用較近的兩個點來表達較遠的兩個點產生的cost相對較小(注意：類似於迴歸容易受異常值影響，但效果相反)。即用較小的 $q_{j ∣ i} = 0.2$

q_{j ∣ i} = 0.2

來建模較大的

p_{j ∣ i} = 0.8

機器學習（三十二）——t-SNE, Adaboost

t-SNE（續）

SNE

機器學習（三十二）——t-SNE, Adaboost

Linux學習（三十二）screen

Python的學習（三十二）---- ctypes庫的使用整理

JMeter學習（三十二）屬性和變數

Linux學習筆記（三十二）iptables filter表案例、 iptables nat表應用

Linux學習總結（三十二）lamp之php安裝

小甲魚《零基礎學習Python》課後筆記（三十二）

Python學習之旅（三十二）

Django學習筆記（三十二）：datetime.timedelta類介紹

React學習之擴充套件不變的資料（immutability-helper）優化（三十二）

Android的SeekBar和RateBar的使用-android學習之旅（三十二）

Unity3D學習筆記（三十二）：Xlua（2）

salesforce零基礎學習（七十二）項目中的零碎知識點小總結（一）

聊聊高並發（三十二）實現一個基於鏈表的無鎖Set集合

（三十二）訂單管理-查詢訂單詳情

JMeter學習（三十六）發送HTTPS請求（轉載）

Linux學習（三十一）系統日誌

Python學習（三十九）—— Django之Form組件

企業分布式微服務雲SpringCloud SpringBoot mybatis （三十二）spring boot做調度任務

Jmeter（三十二）Jmeter Question 之亂碼解讀

機器學習（三十二）——t-SNE, Adaboost

t-SNE（續）

SNE

相關推薦