【強化學習入門】 task1 概括與基礎

阿新 • • 發佈：2020-10-21

強化學習入門 task1 概括與基礎

1. 1 什麼是強化學習
1.2 強化學習應用
1.3 強化學習發展的原因
1.4 獎勵函式
1.5 強化學習組成成分
1.6 實踐

主要根據周博磊教授的教學視訊進行學習整理

視訊地址https://www.bilibili.com/video/BV1LE411G7Xj
課程資料
https://github.com/zhoubolei/introRL
課件
https://github.com/zhoubolei/introRL/blob/master/lecture1.pdf
作者介紹

課程目錄

推薦書目

實驗火箭Python、PyTorch

1. 1 什麼是強化學習

強化學習（Reinforcement Learning, RL），又稱再勵學習、評價學習或增強學習，是機器學習的正規化和方法論之一，用於描述和解決智慧體（agent）在與環境的互動過程中通過學習策略以達成回報最大化或實現特定目標的問題

通俗來講就是使一個agent在一個複雜環境中去極大化獲得獎勵
在這裡插入圖片描述
強化學習主要由兩部分組成，即agent和環境

Agent選擇一個action用於環境，環境接受該動作後狀態發生變化，同時產生一個強化訊號(獎或懲)反饋給Agent，Agent根據強化訊號和環境當前狀態再選擇下一個action，選擇的原則是使受到正強化(獎)的概率增大。選擇的動作不僅影響立即強化值，而且影響環境下一時刻的狀態及最終的強化值
在這裡插入圖片描述
強化學習與監督學習對比

強化學習的資料是由時間關聯的，而監督學習的資料是沒有關聯的
強化學習中學習者沒有被告知要採取哪些行動，而是必須採取行動
強化學習通過嘗試來發現哪些行為會帶來最大的回報。
強化學習的獎勵是延遲的，只有一系列動作完成後才能知道是不是有提升作用

強化學習特點
需要在環境中探索來獲取對環境的理解
獲得的獎勵是延遲的
強化學習是時間十分重要，因為其資料是時間關聯的
agent行為會影響其後面得到的資料，所以如何在獲得能夠使獎勵穩定提升的資料是十分重要的

獲得的獎勵是延遲的-》比如下面這個遊戲到了後面結果出來才能知道前面的動作是不是有用的

1.2 強化學習應用

AlphaGo，如果只是應用了監督學習，它只能達到人類的最高水平，但是應用了強化學習後，它甚至可以超越人類
股票交易
機器視覺（深度強化學習）
機器人

在這裡插入圖片描述
通過改進網路可以實現端到端的訓練，即通過一個網路便可以實現特徵提取和預測而無需人工提取特徵

1.3 強化學習發展的原因

GPU的出現，大大提升了計算能力

更多資訊的獲取
端到端培訓、功能和策略共同優化最終目標

在這裡插入圖片描述

1.4 獎勵函式

在這裡插入圖片描述
獎勵特點

獎勵是一個反饋的訊號
反饋訊號指定了agent在某步所採取的策略是否獲得了獎勵
強化學習的目的是為了極大化獲得的獎勵
agent在環境中存在的目的就是最大化期望積累的獎勵
不同環境下獎勵的例子
下象棋的時候獎勵就是贏棋或者輸棋
羚羊學習戰力的獎勵就是是否可以學會奔跑和被只掉
股票中的獎勵就是贏錢還是輸錢

在這裡插入圖片描述

在這裡插入圖片描述

1.5 強化學習組成成分

決策函式：用於選取下一步的動作
價值函式：用來對當前狀態進行評估
模型：對環境的整體理解
包括轉移狀態和獎勵函式

例子-走迷宮
要求從start走道goal，沒走一步減去一，要求代價最小

強化學習中agent的分類
基於價值函式
基於策略導向
上面兩者結合

其他分類方式
model-base
model-free

1.6 實踐

案例地址https://github.com/zhoubolei/introRL
其他推薦：
openai，提供了很多強化學習案例
在這裡插入圖片描述

使木棍保持平衡

【強化學習入門】 task1 概括與基礎

強化學習入門 task1 概括與基礎 1. 1 什麼是強化學習1.2 強化學習應用1.3 強化學習發展的原因1.4 獎勵函式1.5 強化學習組成成分1.6 實踐

【演算法學習筆記】動態規劃與資料結構的結合，在樹上做DP

前置芝士：Here 本文是基於 OI wiki 上的文章加以修改完成，感謝社群的轉載支援和其他方面的支援

【Golang學習筆記】入門：環境變數與Package

Golang入門學習環境變數 Golang的環境變數有GOROOT和GOPATH GOROOT GOROOT是Golang的安裝路徑，以mac為例，通過Homebrew安裝好的Golang之後，可以配置區域性環境變數。

【Python學習筆記】關於sys.argv和C#與python的傳參

參考的youtube視訊連結一開始覺得比起百度，Google搜尋效率更高。現在發現，原來Youtube才是解決問題最高效的辦法……感謝所有樂於分享的小夥伴們！！！

【Docker學習筆記】Docker基本組成與安裝

目錄Docker 的基本組成安裝Docker Docker 的基本組成映象(image) 映象就是一個只讀的模板，映象可以用來建立Docker容器，一個映象可以建立很多容器

【強化學習】MCTS: 蒙特卡洛樹搜尋

Monte-Carle 樹搜尋是一種前向搜尋(Forward Search)用的是基於取樣的模型可以先看一下下文中的一個例子，mini-max搜尋是一種傳統的博弈樹演算法，在國際象棋中獲得了比較好的應用。

【強化學習】Q-Learning 案例分析

技術標籤：強化學習強化學習q-learning案例路徑尋優前期知識可檢視：【強化學習】相關基本概念【強化學習】 Q-Learning

【演算法學習筆記】17：DFS與BFS

技術標籤：演算法（學習）DFSBFS深度優先搜尋廣度優先搜尋圖的遍歷 1 DFS 深度優先搜尋常用於解決需要給出所有方案的問題，因為它的搜尋順序就是能夠得到一個完整的搜尋路徑（方案）後回退再去搜索其它的方案。

【一起學習JVM】Java記憶體模型與執行緒

技術標籤：Javajavajvm多執行緒 Java記憶體模型 Java記憶體模型（JMM）的定義是為了遮蔽硬體和作業系統的記憶體的訪問差異，通過定義主記憶體和工作記憶體來定義各個變數的訪問規則。

【演算法學習筆記】18：樹與圖的DFS與BFS

技術標籤：演算法（學習）DFSBFS樹圖 1 鄰接表樹和圖的DFS和BFS，可以將樹也看成圖來儲存，儲存圖的一個常用的儲存結構就是鄰接表。對於有向圖而言，只存這個方向的邊，對於無向圖而言，存兩個方向的邊。

Java入門姿勢【面向物件2】定義類與建立物件_瞭解區域性變數

上次我為大家寫出啦“面向過程和麵向物件的異同”，以及較為形象的方式來描述“類和物件的關係”不知道是否有人瞭解透徹，如沒有了解透徹的話請開啟下方文章在進行觀看一下哦

【java學習總結】資料庫連線池與操作工具類

相比較原始的資料庫操作而言，使用連線池技術及資料庫操作工具類，往往可以更高效、更簡潔，本文主要介紹連線池工具c3po包以及資料庫操作工具類commons-dbutils。

【C語言學習筆記】指標函式與函式指標

C語言中的函式和指標的概念是非常重要的概念，然後又讓人覺得非常困難。本文來簡單聊一聊指標函式與函式指標的區別。

【學習筆記】梯度下降與最小二乘法

前言依稀記得之前考研一開始肝數學一，梯度也學了個七七八八，至少是1800相關的習題都做了，但是後來慫了跑路去考數學二，時間久了也就忘了，但是該學的遲早都要學，該欠的債一分都跑不掉。最近通過閱讀劉建平老師的

【SpringBoot學習一】開發入門--快速建立springboot程式

前言本片部落格記錄快速建立springboot工程的兩種方式。一種是使用maven建立，一種是使用spring initializr建立。開發環境JDK1.8、IDEA、maven。

【Java學習筆記】【基礎篇】04.變數與常量

變數與常量 1、變數變數(variable)，就是可以變化的量。我們通過變數來操縱儲存空間中的資料，變數就是指代這個儲存空間。空間位置是確定的，但是裡面放置什麼值不確定。

【Java學習筆記】【基礎篇】01.註釋與識別符號

註釋與識別符號 1.註釋平時編寫程式碼中，在程式碼量比較少的時候，我們還可以看懂自己寫的，但是當專案結構一旦複雜起來，我們就需要用到一個註釋了。註釋就類似於我們上學時候寫的筆記，我們看著筆記就知道自己寫

【Java學習筆記】【入門篇】03.Hello World

Hello World ❤你好世界——程式設計師的儀式感❤ 1.第一道Java程式 1.新建資料夾用來存放程式碼；

【Java學習筆記】【入門篇】02.Java的特性和優勢

Java的特性和優勢 1.簡單性由於語法基於c，而且沒有標頭檔案，指標運算，結構，聯合，操作符過載，虛基類等等，學習起來完全不費力。

【Java學習筆記】【入門篇】01.Java的組成

Java的三大版本 1.Java SE：它是Java的標準版，是整個Java的基礎和核心，也是Java EE和Java ME技術的基礎，主要用於開發桌面應用程式。