Ubuntu18.04部署強化學習環境（安裝gym+mujoco+mujoco-py）保姆級教程

阿新 • • 發佈：2021-07-14

本人針對鏟運機的自主鏟裝問題，基於OpenAI gym開發了一個強化學習環境gym-lhd。其系統環境大致要求為：

系統 == Ubuntu18.04LTS 下載
Anaconda(python == 3.6) 官網
GCC:5.0 安裝
mujoco == 200官網
mujoco-py == 2.0.2.9安裝
gym == 0.15.3安裝
其他：'pandas','py-game','matplotlib'

本文以此為例，記錄整個安裝過程以供參考。

Anaconda

官網下載安裝指令碼
開啟終端，進入指令碼儲存的目錄（如Downloads）
在該目錄下執行安裝指令碼，按提示進行安裝（多用Tab

自動補全）
重啟終端生效

cd Downloads/
bash Anaconda3-2021.05-Linux-x86_64.sh

建立名為drl（自定）的python3.6環境，並激活環境

conda create -n drl python=3.6 anaconda
conda activate drl

GCC

可以參考這篇部落格進行gcc多版本的控制，相信你會用得上

mujoco

進入官網申請試用授權key，並下載mujoco200儲存為mujoco200.zip

如何獲得Computer id？

下載申請頁面提供的程式，開啟終端並進入該目錄cd Downloads/，修改許可權sudo chmod a+x getid_linux

,執行./getid_linux

安裝
開啟終端，將檔案解壓並複製到新建目錄.mujoco/下

mkdir ~/.mujoco
cp mujoco200.zip ~/.mujoco
cd ~/.mujoco
unzip mujoco200.zip

從郵箱中下載mjkey.txt，複製到.mujoco/中

cp ~/Downloads/mjkey.txt ~/.mujoco  
cp ~/Downloads/mjkey.txt ~/.mujoco/mujoco200/bin

新增環境變數

sudo echo "export LD_LIBRARY_PATH=~/.mujoco/mujoco200/bin${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}" >> ~/.bashrc
sudo echo "export MUJOCO_KEY_PATH=~/.mujoco${MUJOCO_KEY_PATH}" >> ~/.bashrc
source ~/.bashrc

測試

 cd ~/.mujoco/mujoco200/bin/
 ./simulate ../model/humanoid.xml

mujoco-py

最簡單的當然是用PIPpip install mujoco-py==2.0.2.9。這裡主要介紹從原始碼安裝：

cd ~/
git clone https://github.com/openai/mujoco-py.git
cd nujoco-py/
sudo apt-get update
sudo apt-get install libgl1-mesa-dev libgl1-mesa-glx libosmesa6-dev  
python3-pip python3-numpy python3-scipy
pip3 install -r requirements.txt
sudo apt-get install patchelf
sudo apt-get install libglu1-mesa-dev mesa-common-dev
sudo echo "export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libGLEW.so" >> ~/.bashrc
conda activate drl
sudo python3 setup.py install

測試

ython3
import mujoco_py
import os
mj_path, _ = mujoco_py.utils.discover_mujoco()
xml_path = os.path.join(mj_path, 'model', 'humanoid.xml')
model = mujoco_py.load_model_from_path(xml_path)
sim = mujoco_py.MjSim(model)

print(sim.data.qpos)
# [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

sim.step()
print(sim.data.qpos)
# [-2.09531783e-19  2.72130735e-05  6.14480786e-22 -3.45474715e-06
#   7.42993721e-06 -1.40711141e-04 -3.04253586e-04 -2.07559344e-04
#   8.50646247e-05 -3.45474715e-06  7.42993721e-06 -1.40711141e-04
#  -3.04253586e-04 -2.07559344e-04 -8.50646247e-05  1.11317030e-04
#  -7.03465386e-05 -2.22862221e-05 -1.11317030e-04  7.03465386e-05
#  -2.22862221e-05]

gym

最簡單的當然是用PIPpip install gym==0.15.3。這裡主要介紹從原始碼安裝：

cd ~/
git clone https://github.com/openai/gym.git
cd gym/
git checkout 0.15.3
apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig Pillow  libglfw3-dev
pip install -e '.[all]'

測試

pytest

本文來自部落格園，作者：葉小蝸，轉載請註明原文連結：https://www.cnblogs.com/yexiaowo/p/gym.html

Ubuntu18.04部署強化學習環境（安裝gym+mujoco+mujoco-py）保姆級教程

本人針對鏟運機的自主鏟裝問題，基於OpenAI gym開發了一個強化學習環境gym-lhd。其系統環境大致要求為：

TensorFlow強化學習入門（3）——構建模擬環境來進行強化學習

在上一篇文章中，我演示瞭如何設計一個基於策略的強化學習agent來解決CartPole任務。在本文中，我們將從另一個角度重新審視這個問題——如何構建模擬環境來提升agent在當前環境下的效能。

強化學習實戰（1）：gridworld

參考：https://orzyt.cn/posts/gridworld/ Reinforcement Learning: An Introduction》在第三章中給出了一個簡單的例子:Gridworld, 以幫助我們理解finite MDPs,

AMD 5700 XT顯示卡裝ubuntu18.04.* 驅動的問題解決（全）

公司開發需要測試新的 AMD顯示卡，由於測試伺服器上的顯示卡是英偉達的顯示卡所以換完後要安裝相應的驅動。由於之前裝機的同事裝的ubuntu是18.04.5 恰巧18.04.5在amd官網上沒有相匹配的驅動（這裡由於開發之前在測試

從零開始安裝搭建win10與ubuntu20.04雙系統開發環境——集安裝、配置、軟體、美化、常見問題等於一體的——超詳細教程

目錄**前言 **關於系統安裝配置與軟體安裝一、Win10安裝ubuntu20.04雙系統1.按照自己的需求分割槽2.配置軟體映象源軟體包管理工具介紹更換APT源——使用國內映象3.解決win10與unbuntu20.04系統時間相差8小時的問題如

Ubuntu18.04搭建STM32開發環境

1、安裝STM32CUbeMX 利用STM32CubeMX生成stm32工程，以及Makefile檔案。（在Toolchain/IDE中記得選擇Makefile）

ArcGIS Enterprise10.8.1部署在Linux環境下安裝教程

ArcGIS Enterprise基礎部署Linux版安裝教程） 1 準備工作1.1 遠端到Linux伺服器1.2 拷貝並解壓安裝介質1.2.1 拷貝1.2.2 解壓

ubuntu16.04配置深度學習環境

安裝CUDA-9.0 1、CUDA的安裝比較容易，官網下載9.0版本，選擇對應系統，請下載runfile

深度強化學習-筆記（一）

深度強化學習概述什麼是強化學習？強化學習討論的問題是一個智慧體(agent) 怎麼在一個複雜不確定的環境(environment)裡面去極大化它能獲得的獎勵。Agent 在環境裡面獲取到狀態state，也是對整個environm

基於淺層神經網路（全連線網路）的強化學習演算法（Reinforce）在訓練過程中出現梯度衰退（degenerate）的現象

首先給出一個程式碼地址： https://gitee.com/devilmaycry812839668/CartPole-PolicyNetwork 強化學習中的策略網路演算法。《TensorFlow實戰》一書中強化學習部分的策略網路演算法，模擬環境為gym的CartPole，本專案

基於現有系統快速部署不同環境（war包依賴war包）

　　業務場景，基於同一套程式碼，可能會有不同的部署需求。原因可能是為做資料隔離，許可權隔離，等等。。。

OpenAI 多智慧體強化學習環境(multiagent-particle-envs)詳解

multiagent-particle-envs是OpenAI開源的多智慧體學習環境。一、安裝 Link：https://github.com/openai/multiagent-particle-envs

Ubuntu18 系統下深度學習環境配置

技術標籤：ubuntu深度學習目錄 1、顯示卡驅動+cuda11.1+cudnn8.0.4 【刪除cuda】【安裝cuda】

深度強化學習環境配置----spinningup配置

1、官網連線英文：https://spinningup.openai.com/en/latest/ 中文：https://spinningup.qiwihui.com/zh_CN/latest/index.html

VMware + Ubuntu18.04 搭建Hadoop叢集環境的圖文教程

https://www.jb51.net/article/209042.htm 0.VMware克隆虛擬機器（準備工作，克隆3臺虛擬機器，一臺master,兩臺node）

TensorFlow強化學習入門（0）——Q-Learning的查詢表實現和神經網路實現

我們將學習如何處理OpenAI FrozenLake問題，當然我們的問題不像圖片中那樣逼真

TensorFlow強化學習入門（1）——雙臂賭博機

簡介強化學習不僅僅賦予了我們教會人工agent如何行動的能力，還使得agent可以通過我們提供的互動式環境進行學習。通過結合深度神經網路習得的複雜表示和RL agent的目標驅動型學習，計算機取得了很多令人驚歎的成績：

TensorFlow強化學習入門（1.5）——上下文賭博機

注意：本文為該系類文章中（1）和（2）之間的過渡在上一篇文章中我們簡要介紹了強化學習並構建了一個簡單的agent來解決多臂賭博機問題。在多臂賭博機問題中agent不需要考慮所處環境的狀態，只要通過學習確定那一個行

TensorFlow強化學習入門（2）——基於策略的Agents

在本教程系列的（1）中，我演示瞭如何構建一個agent來在多個選擇中選取最有價值的一個。在本文中，我將講解如何得到一個從現實世界中獲取觀測值，並作出長期收益最大的行動的agent。正如前文所說，本文解決的問

TensorFlow強化學習入門（4）——深度Q網路（DQN）及其擴充套件

一個聰明的遊戲agent可以學會避開危險的陷阱本文中我們將一起建立一個深度Q網路（DQN）。它基於我們系列文章中（0）的單層Q網路，如果你是強化學習的初學者，我推薦你到文末跳轉到（0）開始閱讀。儘管簡單的Q網路已

Ubuntu18.04部署強化學習環境（安裝gym+mujoco+mujoco-py）保姆級教程

Anaconda

GCC

mujoco

mujoco-py

gym

相關推薦