機器學習基石筆記-Lecture 4 Learning is possible

阿新 • • 發佈：2017-06-20

odi ima ffd containe 概率 count lin comm learning

hoeffding 不等式說明了在樣本量足夠大時，抽樣估計能夠接近真實值。

技術分享

類比到ml中，對給定的一個假設空間中的h, 它在整個樣本空間中的表現可以由在部分樣本點上的表現來近似。也就是說樣本足夠多的時候，Ein與Eout近似相等。

技術分享

現在已經知道對任意給定的h，在N足夠大時，Ein近似於Eout，如果 Ein 非常小，那麽Eout也就小，就說明這個 h 和真實的 f 在很大概率上是很接近的。

技術分享

現在的一個問題是，如果在多個假設中，其中一個假設h針對訓練數據的輸出都是正確的，也就是Ein為0，是不是就應該選擇這個h作為算法A的輸出？

這裏提出一個 bad data的概念，對一個數據集D，h的Ein和Eout差別很大，那麽這個數據集D就是不好的。

hoeffding不等式其實是對樣本空間的一個“抽樣”窮舉，然後在很多次的抽樣中，只有很少次的抽樣是bad data，也就是讓Ein和Eout差別比較大。所有說很大概率上Ein和Eout近似。

技術分享

對多個假設函數而言的bad data定義：

技術分享

對每一行h，根據hoeffding不等式，bad data的概率是很小的

對每一列Di，如果在某些h上是bad data，那麽A就不能自由的選擇。

像D1126就是對整個假設空間H或者說算法A是一個好的數據集（個人理解）

技術分享

對有M個h的假設空間，bad data出現的概率被限制住

技術分享

至此，對有限基數的假設空間，只要N足夠大，不管A如何選g，訓練數據如何選取，g的訓練錯誤率和真實的錯誤率都很接近。

只要算法A找到一個Ein很小的g，那麽就能夠用來接近真實f。這樣算法就有可能學到有用的知識。

技術分享

機器學習基石筆記-Lecture 4 Learning is possible

odi ima ffd containe 概率 count lin comm learning hoeffding 不等式說明了在樣本量足夠大時，抽樣估計能夠接近真實值。類比到ml中，對給定的一個假設空間中的h, 它在整個樣本空間中的表現可以由在部分樣本點上的表現來

機器學習基石筆記-Lecture 3 Types of learning

mage 針對也有 tac nts 反饋機器學習 ear odi 介紹了機器學習中的幾類問題劃分。半監督學習能夠避免標記成本昂貴的問題。強化學習，可以看做是從反饋機制中來學習。在線學習，數據一個接一個地產生並交給算法模型線上叠代。主動學習，機器能

機器學習基石筆記-Lecture 10 Logistic regression

pan wiki app 方向 resource 註意實現 comment sce soft binary classification的概念：軟二分類，不直接化為-1、1，而是給出一個概率值。目標函數是一個概率值，但是拿到的data中y只有0、1（或者-1、1），可以

機器學習基石筆記-Lecture 9 Linear regression

空間 -i 結果 thumb src 9.png http regress containe 線性回歸的任務是對於一個輸入，給出輸出的實數，保證和真實輸出相差越小越好。因為假設空間是線性的，所以最後的g會是直線或者平面。通常的誤差衡量方法是使用平方誤差接下來的問題是

機器學習基石筆記-Lecture 5-7 VC dimension

func contain containe attach 一個數實的 man 分享 alt 為了引出VC維做了很長的鋪墊。。VC維：用來描述假設空間的表達能力。第四節講到對有限的假設空間，只要N足夠大，不管A如何選g，訓練數據如何選取，g的訓練錯誤率和真實的錯誤率都

機器學習技法筆記-Lecture 13 Deep learning

需要 clas 操作 -1 變換 png image cati fun 一些挑戰：網絡結構的選擇。CNN的想法是對鄰近的輸入，有著相同的weight。模型復雜度。最優化的初始點選擇。pre-training 計算復雜度。包含pre-training的DL框架

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 10—Advice for applying machine learning

Lecture 10—Advice for applying machine learning 10.1 如何除錯一個機器學習演算法？有多種方案： 1、獲得更多訓練資料；2、嘗試更少特徵；3、嘗試更多特徵；4、嘗試新增多項式特徵；5、減小 λ；6、增大 λ 為了避免一個方案一個方

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 11—Machine Learning System Design

Lecture 11—Machine Learning System Design 11.1 垃圾郵件分類本章中用一個實際例子：垃圾郵件Spam的分類來描述機器學習系統設計方法。首先來看兩封郵件，左邊是一封垃圾郵件Spam，右邊是一封非垃圾郵件Non-Spam：垃圾郵件有很多features。如果我

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 17—Large Scale Machine Learning 大規模機器學習

Lecture17 Large Scale Machine Learning大規模機器學習 17.1 大型資料集的學習 Learning With Large Datasets 如果有一個低方差的模型，通常通過增加資料集的規模，可以獲得更好的結果。但是如果資料集特別大，則首先應該檢查這麼大規模是否真

機器學習基石筆記：01 The Learning Problem

什麼時候適合用機器學習演算法？存在某種規則／模式，能夠使效能提升，比如準確率；這種規則難以程式化定義，人難以給出準確定義；存在能夠反映這種規則的資料。所以，機器學習就是設計演算法\(A\)，從包含許多假設的假設集合\(H\)裡，根據所給的資料集\(D\)，選出和實際規則\(f\)

機器學習基石筆記：04 Feasibility of Learning

機器學習是設計演算法\(A\)，在假設集合\(H\)裡，根據給定資料集\(D\)，選出與實際模式\(f\)最為相近的假設\(g\)（\(g\)可能與\(f\)相同，也可能不同）。那什麼情況下學習是可行的？即保證\(g\)和\(f\)是相似的。資料集內的表現\(g\)約等於\(f\);

【機器學習基石筆記】一、綜述

model 但是目標學習 imp 選擇處理定義條件課程定位：註重基礎、故事性機器學習定義： data - Algo - improve 機器學習使用條件 1、有優化的目標，可量化的。 2、規則不容易寫下來，需要學習。 3、要有數據一個可能的推薦

【機器學習基石筆記】二、感知機

證明機器學習 sign 線性可分缺點學習犯錯 nbsp 錯誤感知機算法： 1、首先找到點，使得sign(wt * xt) != yt，　　那麽如果yt = 1，說明wt和xt呈負角度，wt+1 = wt + xt能令wt偏向正角度。　　如果yt = -1, 說

【機器學習基石筆記】三、不同類型的機器學習

質數一個非監督輸入編號不同象棋按順序 pla 一、不同的output 1、二分類 2、多分類 3、回歸問題 4、structured learn: 從一個句子 -> 句子每個詞的詞性。　　輸出是一個結構化的東西。　　例子：蛋白質數據 ->

【機器學習基石筆記】四、無法學習？

機器學習估計事情永遠 pro app out 天下 oba 天下沒有白吃的午餐，從樣本內到樣本外永遠無法估計。抽樣的話，樣本內頻率和樣本外概率相等PAC （probably approximately correct）一個重要的事情是樣本要在總體分布中取。 E

機器學習基石筆記1

網絡日誌所有手動 cli 次數 poc 基於 mat 概率問題機器學習基石筆記1 lecture 1: The Learning Problem 1. 機器學習是什麽通過對數據的經驗計算(experience computed)，提升性能度量 3個關鍵性質 a)

機器學習基石筆記6——為什麽機器可以學習（2）

bsp jin cas htm tor 分享 ase psi ant 網友杜少的筆記 Lecture 6： Theory of Generalization 6.1 Restriction of Break Point

機器學習基石筆記11——機器可以怎樣學習（3）

1.2 div esc 怎樣學習 clas regress 1.3 1.4 Lecture 11： Linear Models for Classification 11.1 Linear Models for Binary Classification 11.2 S

Coursera機器學習基石筆記week4

Feasibility of Learning Learning is Impossible？我們想要在D以外的資料中更接近目標函式似乎是做不到的，只能保證對D有很好的分類結果。機器學習的這種特性被稱為沒有免費午餐（No Free Lunch）定理。NFL定理表明沒有一個學習演

Coursera機器學習基石筆記week3

Types of Learning Learning with Different Output Space Y 機器學習按照輸出空間劃分的話，包括二元分類、多元分類、迴歸、結構化學習等不同的型別。其中二元分類和迴歸是最基礎、最核心的兩個型別。 Learning with D

機器學習基石筆記-Lecture 4 Learning is possible

相關推薦