DataWhale八月組隊學習-李巨集毅深度學習Task01-機器學習介紹
機器學習介紹
1 人類探索人工智慧的階段
- 人工智慧是早期人類探索的目標
- 人類設定好的天生本能
- 向著人工智慧這個大目標不斷邁進,我們發現了實現人工智慧的手段機器學習
- 深度學習就是機器學習的其中一種方法
2 生物的本能
- 河狸會構築水壩阻擋水流
- 河狸築壩的能力是天生的
- 程式語言1(原視訊改良):
while ‘聽得見水流聲’ : 河狸築壩
- 程式語言2(原視訊):
if '聽得見水流聲' : 河狸築壩直到聽不到水流聲
- 程式語言1(原視訊改良):
- 科學實驗:
- 用揚聲器播放水流聲
- 把揚聲器放在水泥牆裡面,河狸會用泥巴和樹枝來填充牆體
- 如果將揚聲器放在平地,河狸會想辦法用材料將其蓋住
- 河狸築壩的能力是天生的
3 人類設定好的天生本能
-
想要自己去構建一個聊天機器
-
首先需要人為去設定一些規則
- 比如:如果我們輸入
turn off
,機器就會執行turn off the music
(關閉音樂) - 看上去很智慧,但是存在的問題現象是:如果我們說
Please don't turn off the music
,機器也會關閉音樂
- 比如:如果我們輸入
-
人為制定規則的缺陷
- 人類很難考慮到事件出現的所有可能性
- 機器的能力永遠無法超越創造者(沒辦法自己
freestyle
)
- 機器的能力永遠無法超越創造者(沒辦法自己
- 需要大量的人力去制定規則(對於小企業來說非常不友好)
- 人類很難考慮到事件出現的所有可能性
-
-
AI
- 漫畫告訴我們:看似華麗外表對外界反應
對答如流
的機器,內部的演算法確實徒有其表
,甚至可能只是最簡單的if
- 真正
AI
的發展何去何從?- 讓機器具有自主學習的能力(機器學習思想的誕生)
- 漫畫告訴我們:看似華麗外表對外界反應
4 機器學習方向的簡單定義
- 寫一段機器學習的程式,讓機器變得很聰明,從而具有學習能力
- 讓機器學習去識別語句對話,例如:
Hi
、How are you
、Good bye
。 - 學習識別語句對話後,給機器新的聲音,例如:
Hello
的語音片段。它會回答你這是Hello
- 讓機器學習去識別語句對話,例如:
-
從人類提供的資料中,找出需要掌握的特定學習能力函式。
- 語音識別
- 影像識別
- 圍棋大師
- 聊天機器人
-
找出學習能力函式的過程(監督學習)
-
所有學習能力函式對應的輸入輸出集合,被稱作
Model
,其中蘊含了很多不同的輸入輸出。 -
給予機器訓練集,告訴機器好的輸入輸出對應關係(學習能力函式)應該長什麼樣兒。
-
機器就可以決定
Model
中函式的好壞 -
但光知道好壞還不夠,機器需要能夠通過演算法挑出最好函式(最好的學習能力),即找到最優演算法。
-
掌握最好的函式後,機器要能夠舉一反三,即通過測試集中沒有見過的輸入得到對應正確的輸出。
-
上述過程可以用小例子的闡明:比如一個小孩子的成長過程中會遇到各色各樣的人,這些各色各樣的人都可能會影響小孩子,這些人的人生就是一個
Model
,蘊含很多不同的輸入輸出。機器訓練集,好比是我們家長提前假設好的預測,告訴孩子,從Model
中選出不同的人,一個人認真學習,努力工作,享受生活,那麼他長大後會變得幸福快樂。另一個人荒廢學業,潦草度日,那麼他長大後會變得怨天尤人。家長會將前者的經歷作為訓練集中的一個例子來訓練小孩子,後者的經歷會被摒棄。從而讓小孩子向著健康成長的旅途邁進,掌握前者的人生能力。家長還可能想辦法找到最好的人生例子來教導孩子,也就好比機器需要通過演算法找出最好的函式。小孩子掌握後,就能夠在人生的旅途中通過觀察不同的人來判斷什麼樣的人應該被作為榜樣追隨,直到成為榜樣。
-
5 學習模式
5.1 監督學習(Supervised Learning)
-
Regression
(迴歸):它的輸出是一個數值 -
Classification
(分類):-
Binary Classification
(二元分類):它的輸出是Yes
orNo
-
Multi-class Classification
(多元分類):它的輸出是正確類別 -
模型的選擇:
- 線性模型
- 非線性模型(包含
Deep Learning
、SVM
、decision tree
、K-NN
...)Image Recognition
Playing GO
-
5.2 半監督學習(Semi-supervised Learning)
在label
也就是output
很難獲取的前提下出現的學習模式
使得沒有label
的資料對學習也具有幫助
5.3 遷移學習(Transfer Learning)
在label
也就是output
很難獲取的前提下出現的學習模式
探尋與需要辨識的資料不相關的資料與需要辨識資料之前的相關性
5.4 無監督學習(Unsupervised Learning)
在完全沒有label
的情況下機器的學習模式
機器的自主學習
例如:僅僅給機器一大堆文獻或文章,不給文章中詞句的詞性、語義等資訊,看看機器會發現些什麼,會理解什麼。
5.5 結構學習(Structured Learning)
它的輸出是一個有結構性的資訊
-
語音識別:輸入聲音訊號,輸出是一個完整的語句,語句具有結構性。
-
機器翻譯:輸入是中文語句,輸出是英文語句。
-
人臉識別:輸入是圖片,輸出是圖片的人物名稱
5.6 強化學習(Reinforcement Learning)
-
Supervised(有完整且正確的輸入輸出進行訓練學習,即從一個手把手教它的老師學習)
-
Reinforcement(經歷未知的過程,得到的只有對過程結果好與壞的評分,即從評價中進行學習)
5.7 總結
- 藍色方塊指的是學習情景,學習的情景大多是沒辦法自由控制的。根據你所具有的資料來決定。
- 紅色方塊指的是要解決的問題。
- 綠色方塊指的是模型,同樣的
task
可以用不同的模型來解決。