1. 程式人生 > >K-Nearest Neighbors Algorithm

K-Nearest Neighbors Algorithm

使用 near 空間 進行 數據集 一個 就是 分類 產生

K近鄰算法。

KNN算法非常簡單,非常有效。

KNN的模型表示是整個訓練數據集。

對一個新的數據點進行了預測,通過對K個最類似的實例(鄰居)的整個訓練集進行搜索,並對這些K實例的輸出變量進行匯總。對於回歸問題,這可能是平均輸出變量,用於分類問題,這可能是模式(或最常見的)類值。

訣竅在於如何確定數據實例之間的相似性。如果你的屬性都是相同的比例(例如英寸),最簡單的方法就是使用Euclidean距離,你可以根據每個輸入變量之間的差異直接計算一個數字。

KNN可能需要大量的內存或空間來存儲所有數據,但只在需要時執行計算(或學習),及時進行預測。你也可以更新和管理你的訓練實例,以保持預測的準確性。

距離或接近的概念可以在非常高的維度(大量的輸入變量)中分解,這會對算法在你的問題上的性能產生負面影響。這被稱為維度的詛咒。它建議您只使用與預測輸出變量最相關的輸入變量。

K-Nearest Neighbors Algorithm