在過去的幾年里,強化學習(RL,Reinforcement Learning)在很多方面取得了突破。DeepMind公司將深度學習與增強學習結合在一起,在眾多的Atari游戲中來取得超越人類的表現,基于深度學習和強化學習訓練得到的AlphaGo Zero更是完全從零開始,僅通過自我對弈就能天下無敵。雖然RL目前在許多游戲環境中都表現很出色,但它對解決需要最優決策和效率的問題而言是種全新方法,而且肯定會在機器智能中發揮作用。 OpenAI成立于2015年底,是一個非營利組織。它的目的是“建立安全的人工通用智能(AGI),并確保AGI的福利被盡可能廣泛和均勻地分布”。除了探索關于AGI的諸多問題之外,OpenAI對機器學習世界的一個主要貢獻是開發了Gym和Universe軟件平臺。 Gym是為測試和開發RL算法而設計的環境/任務的集合。它讓用戶不必再創建復雜的環境。Gym用Python編寫,它有很多的環境,比如機器人模擬或Atari 游戲。它還提供了一個在線排行榜,供人們比較結果和代碼。 課程大綱: 第1周 強化學習與常用的仿真環境平臺介紹(MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2等) 第2周 OpenAI gym中的常用仿真環境介紹,包括Atari 2600 游戲系列、MuJoCo 物理模擬器、Toy text 文本環境、Robotics機械手與機械臂模擬器等 第3周 馬爾科夫決策過程MDP 第4周 基于gym的MDP實例講解,基于OpenAI Gym構建股票市場交易環境 第5周 基于gym的強化學習實踐:基于值函數的強化學習方法實現;基于策略梯度的強化學習方法實現 第6周 虛擬環境Universe: 一個用于訓練解決通用問題 AI 的基礎架構 第7周 基于Universe的強化學習實踐:用OpenAI公司的Gym工具庫和Universe平臺為游戲創建人工智能機器人 開課時間: 本期課程將于1月15日開課,預計課程持續時間為9周 目標人群: 有簡單的強化學習基礎,希望學習強化學習的落地實現的同學 課程環境: python3+OpenAI GYM+OpenAI Universe 收獲預期: 學習結束后均能自己動手編寫一個仿真環境,訓練強化學習 授課講師: 何翠儀 畢業于中山大學統計學專業,煉數成金專職講師。 在煉數成金上開設了多門關于數據分析與數據挖掘相關的課程,如《大數據的統計學基礎》、《大數據的矩陣基礎》《金融時間序列分析》等,也曾到不同的公司開展R語言與數據分析的相關培訓。對數據分析有深刻認識,曾與不同領域公司合作,參與到多個數據分析的項目中,如華為、廣州地鐵等 課程試聽:
新穎的課程收費形式:“逆向收費”約等于免費學習,僅收取100元固定收費+300元暫存學費,學習圓滿則全額獎勵返還給學員! 本門課程本來打算完全免費,某位大神曾經說過“成功就是正確的方向再加上適度的壓力”。考慮到講師本身要付出巨大的勞動,為了防止一些朋友在學習途中半途而廢,浪費了講師的付出,為此我們計劃模仿某些健身課程,使用“逆向收費”的方法。 在報名時每位報名者收取400元,其中100元為固定 收費,另外300是暫存學費,即如果學員能完成全部課程要求,包括完成全部的書面和互動作業,則300元全款退回。如果學員未能堅持到完全所有的學習計劃任務,則會被扣款。期望這種方式可以轉化為大家強烈的學習愿望和驅動力! 課程授課方式: 1、 學習方式:老師發布教學資料、教材,幻燈片和視頻,學員通過網絡下載學習。同時通過論壇互動中老師對學員進行指導及學員之間相互交流。 2、 學習作業:老師每周布置書面及互動作業,學員需按時按質完成作業。 3、 老師輔導:根據作業批改中發現的問題,針對性給予輔導,幫助大家掌握知識。 4、 結業測驗:通過測驗,完成學業。 您是否對此課程還有疑問,那么請 點擊進入 FAQ,您的問題將基本得到解答 咨詢QQ: 2222010006 (上班時間在線) 技術熱點、 行業資訊,培訓課程信息,盡在煉數成金官方微信,低成本傳遞高端知識!技術成就夢想!歡迎關注! ![]() 打開微信,使用掃一掃功能,即刻關注煉數成金官方微信賬戶,不容錯過的精彩,期待您的體驗!!! ![]() |
關于我們 | 新手指南 | 企業合作 | 聯系我們 |
|
||||
關于我們 | 教育模式 | 企業會員 | 電話:4008-010-006 | |||||
講師招募 | 選課流程 | 內訓合作 | 郵箱:kefu@dataguru.cn | |||||
校園大使 | 學費返還 | 媒體合作 | 客服QQ: |
|||||
版權聲明 | 獎學金激勵 | 代理合作 | 售后QQ: |