詳解多維標度法（MDS，Multidimensional scaling）

流形學習（Manifold Learning）是機器學習中一大類演算法的統稱，而MDS就是其中非常經典的一種方法。多維標度法（Multidimensional Scaling）是一種在低維空間展示“距離”資料結構的多元資料分析技術，簡稱MDS。

多維標度法解決的問題是：當n個物件（object）中各對物件之間的相似性（或距離）給定時，確定這些物件在低維空間中的表示，並使其儘可能與原先的相似性（或距離）“大體匹配”，使得由降維所引起的任何變形達到最小。多維空間中排列的每一個點代表一個物件，因此點間的距離與物件間的相似性高度相關。也就是說，兩個相似的物件由多維空間中兩個距離相近的點表示，而兩個不相似的物件則由多維空間兩個距離較遠的點表示。多維空間通常為二維或三維的歐氏空間，但也可以是非歐氏三維以上空間。

多維標度法內容豐富、方法較多。按相似性（距離）資料測量尺度的不同MDS可分為：度量MDS和非度量MDS。當利用原始相似性（距離）的實際數值為間隔尺度和比率尺度時稱為度量MDS（metric MDS），本文將以最常用的Classic MDS為例來演示MDS的技術與應用。

首先我們提出這樣一個問題，下表是美國十個城市之間的飛行距離，我們如何在平面座標上據此標出這10城市之間的相對位置，使之儘可能接近表中的距離資料呢？

首先我們在R中把csv格式儲存的資料檔案讀入，如下所示：

> data.csv = read.csv("/Users/fzuo/Desktop/data.csv", header = T, row.names = 1)
> data.csv
     ATL  ORD  DEN  HOU  LAX  MIA  JFK  SFO  SEA  IAD
ATL    0  587 1212  701 1936  604  748 2139 2182  543
ORD  587    0  920  940 1745 1188  713 1858 1737  597
DEN 1212  920    0  879  831 1726 1631  949 1021 1494
HOU  701  940  879    0 1374  968 1420 1645 1891 1220
LAX 1936 1745  831 1374    0 2339 2451  347  959 2300
MIA  604 1188 1726  968 2339    0 1092 2594 2734  923
JFK  748  713 1631 1420 2451 1092    0 2571 2408  205
SFO 2139 1858  949 1645  347 2594 2571    0  678 2442
SEA 2182 1737 1021 1891  959 2734 2408  678    0 2329
IAD  543  597 1494 1220 2300  923  205 2442 2329    0

在解釋具體原理之前，我們先來呼叫R中的內建函式來實現上述資料的MDS，並展示一下效果，此處需要用到的函式是cmdscale()。

> citys<-cmdscale(data.csv, k=2)

然後用圖形化的方式來展示一下得到的資料點分佈圖

> cities.names = rownames(data.csv)
> plot(citys[,1],citys[,2],type='n')
> text(citys[,1],citys[,2],cities.names,cex=.7)

執行上述程式碼，結果如下圖所示：

與實際的地圖對照，東西方向反了，應該是左東右西，所以可以把上面的繪圖程式碼稍加修改，則有

> plot(-citys[,1],citys[,2],type='n', ylim=c(-600,600)) 
> text(-citys[,1],citys[,2],cities.names,cex=.7)

執行上述程式碼，結果如下圖所示：

還可以把上圖同實際的美國地圖做個對照，易見各個城市在圖中的位置與實際情況匹配得相當好。

如此神奇的MDS，它背後的原理到底是什麼呢，或者它到底是如何實現的呢？下面我們就來抽絲剝繭。

假設X={x₁, x₂, ..., x_n}是一個n×q的矩陣，n為樣本數，q是原始的維度，其中每個x_i是矩陣X的一列，x_i∈R^q。我們並不知道x_i在空間中的具體位置，也就是說對於每個x_i，其座標(x_i1, x_i2, ... , x_iq) 都是未知的。我們所知道的僅僅是the pair-wise Euclidean distances for X，我們用一個矩陣D^X來表示。因此，對於D^X中的每一個元素，可以寫成

或者可以寫成

對於矩陣D^X，則有

其中，

這裡的z為

現在讓我們來做平移，從而使得矩陣D^X中的點具有zero mean，注意平移操作並不會改變X中各個點的相對關係。為了便於理解，我們先來考察一下Aee^T/n和ee^TA/n的意義，其中A是一個n×n的方陣。

不難發現Aee^T/n中第i行的每個元素都是A中第i行的均值，類似的，我們還可以知道，ee^TA/n中第i列的每個元素都是A中第i列的均值。因此，我可以定義centering matrix H如下

所以D^XH的作用就是從D^X中的每個元素裡減去列均值，HD^XH的作用就是在此基礎上再從DX每個元素裡又減去了行均值，因此centering matrix的作用就是把元素分佈的中心平移到座標原點，從而實現zero mean的效果。更重要的是，Let D be a distance matrix, one can transform it to an inner product matrix （Kernel Matrix） by K=-HDH/2, 即

詳解多維標度法（MDS，Multidimensional scaling）

流形學習（Manifold Learning）是機器學習中一大類演算法的統稱，而MDS就是其中非常經典的一種方法。多維標度法（Multidimensional Scaling）是一種在低維空間展示“距離

詳解多維陣列與指標之間的關係

先介紹一下簡單的一維陣列：列如：int a[3] = {0,1,2};[3]和型別int則明確表示編譯器應該為這個棧分配多大的記憶體，也就是三個int大小！在記憶體中示意圖是：在CPU看來記憶體是一組連續的地址空間，所以當我們對一維陣列進行操作時只需要知道陣列首地址，就可以通

Redis詳解之-叢集方案：高效能（使用原生Redis Cluster）（四）

對以前的內容進行一下總結和複習。瞭解Redis的基本引數配置和使用。瞭解事件訂閱和持久化儲存方式（RDB和AOF）。 Redis叢集方案：高可用（使用Redis Sentinel），官網Rdeis3.x推薦三主三從的方式，參考（https://www.cnblogs

Redis詳解之-叢集方案：高效能（Codis3.2+Redis Cluster）（五）

[[email protected] opt]# /usr/local/zookeeper/bin/zkCli.sh -server 192.168.10.101:2181 Connecting to 192.168.10.101:2181 2017-05-12 17:27:41,481 [my

JAVAWEB開發之Hibernate詳解（二）——Hibernate的持久化類狀態與轉換、以及一級快取詳解、關聯關係的對映（一對多、多對多、級聯）

package cn.test.hibernate3.demo2; import org.hibernate.Session; import org.hibernate.Transaction; import org.junit.Test; import cn.test.hibernate3.demo2.

Thread類詳解多線程中篇（二）

構造 img art 身份證號 ava 概念實例 wid 數組 Java.lang.Thread是Java應用程序員對Java多線程的第一站，Thread就是對Java線程本身的抽象所以在Java中的線程編程概念中，一個Thread實例 == 一個線程線程有哪些屬

線程組ThreadGroup分析詳解多線程中篇（三）

borde 會有能夠執行第一個線程守護 daemon wid 線程組，顧名思義，就是線程的組，邏輯類似項目組，用於管理項目成員，線程組就是用來管理線程。每個線程都會有一個線程組，如果沒有設置將會有些默認的初始化設置而在java中線程組則是使用類Thread

樹的孩子表示法，樹的兄弟表示法，樹的儲存結構詳解,資料結構-樹的學習（2）

樹的儲存結構：孩子表示法：把每個結點的孩子結點排列起來，以單鏈表作儲存結構，則n個結點有n個孩子連結串列，如果是葉子結點則此單鏈表為空。然後n個頭指標又組成一個線性表，採用順序儲存結構，存放進一個一維陣列中。為此，設計兩種結點結構，一個是孩子連結串列的孩子結點 |

InheritableThreadLocal類原理簡介使用父子線程傳遞數據詳解多線程中篇（十八）

pri span 理解 wid spl child -s 應該 bsp 上一篇文章中對ThreadLocal進行了詳盡的介紹，另外還有一個類： InheritableThreadLocal 他是ThreadLocal的子類，那麽這個類又有什麽作用呢？

RxJava 詳解——簡潔的異步操作（二）

i++ 只有一個 tco 多個 etc 隊列技術分享 () 而在上次說的兩個例子，事件的發出和消費都是在同一個線程的。如果只用上面的方法，實現出來的只是一個同步的觀察者模式。觀察者模式本身的目的就是異步機制，因此異步對於 RxJava 是至關重要的。而要實現異步，則需要

【基於初學者的SSH】struts2 值棧的詳解與struts2標簽庫+ognl表達式

radi ring etl action 值棧多選 https submit 技術分享一：什麽是值棧：struts2裏面本身提供的一種存儲機制，類似於域對象，值棧，可以存值和取值　特點：先進後出，最上面的元素叫做棧頂，也叫壓棧。　<s:debug><

詳解 Python3 正則表達式（二）

tps 數字 HERE art lock style 普通則表達式通過上一篇：詳解 Python3 正則表達式（一）本文翻譯自：https://docs.python.org/3.4/howto/regex.html 博主對此做了一些批註和修改 ^_^ 使

Fidder詳解-抓取HTTPS清求（Web/App）抓包分析（靠譜篇）

可能 clas 請求設置代理 cer port 關閉 lan str 為什麽要學Fidder抓包？學習接口，必須要學http協議，不要求您對協議的掌握有多深。只是希望你能夠了解什麽是協議、協議的報文、狀態碼等等！本文通過抓包工具Fidder帶你進入接口的大門。我們通過

OSPF詳解-3 鄰接、度量值

MF 鏈路狀態路由協議 log 刪除使用依次 img 規則版本 **一、OSPF鄰接關系運行鏈路狀態路由協議的路由器必須首先與選定的鄰居路由器建立鄰接關系，這是通過與鄰居路由器交換Hello分組來實現的。 1.鄰接路由器建立步驟路由器建立鄰接關系的步驟如下:

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

總結 ora 二次判斷天都特性以及解釋意思【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解 https://mp.csdn.net/postedit/81664644 最大似然估計（Maximum lik

Linux串列埠程式設計教程（三）——串列埠程式設計詳（原始碼）解：http://blog.csdn.net/u011192270/article/details/48174353 Linux下的串列埠程式設計(二）----（圖文並茂，講解深刻）http://blog.csdn.net/w28252

Linux串列埠程式設計教程（三）——串列埠程式設計詳（原始碼）解：http://blog.csdn.net/u011192270/article/details/48174353 Linux下的串列埠程式設計(二）----（圖文並茂，講解深刻）http://blog.csdn.ne

詳解多維標度法（MDS，Multidimensional scaling）

詳解多維標度法（MDS，Multidimensional scaling）

詳解多維陣列與指標之間的關係

Redis詳解之-叢集方案：高效能（使用原生Redis Cluster）（四）

Redis詳解之-叢集方案：高效能（Codis3.2+Redis Cluster）（五）

JAVAWEB開發之Hibernate詳解（二）——Hibernate的持久化類狀態與轉換、以及一級快取詳解、關聯關係的對映（一對多、多對多、級聯）

Thread類詳解多線程中篇（二）

線程組ThreadGroup分析詳解多線程中篇（三）

樹的孩子表示法，樹的兄弟表示法，樹的儲存結構詳解,資料結構-樹的學習（2）

InheritableThreadLocal類原理簡介使用父子線程傳遞數據詳解多線程中篇（十八）

RxJava 詳解——簡潔的異步操作（二）

【基於初學者的SSH】struts2 值棧的詳解與struts2標簽庫+ognl表達式

詳解 Python3 正則表達式（二）

Fidder詳解-抓取HTTPS清求（Web/App）抓包分析（靠譜篇）

OSPF詳解-3 鄰接、度量值

【機器學習基本理論】詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解

Linux串列埠程式設計教程（三）——串列埠程式設計詳（原始碼）解：http://blog.csdn.net/u011192270/article/details/48174353 Linux下的串列埠程式設計(二）----（圖文並茂，講解深刻）http://blog.csdn.net/w28252

PAT-乙-1073 1073 多選題常見計分法（20 分）

Python程序、執行緒、協程詳解、執行效能、效率（tqdm）

詳解Spring面向切面編程（AOP)三種實現

Android 獲取手機儲存資訊詳解（記憶體，外存等）

詳解多維標度法（MDS，Multidimensional scaling）

相關推薦