R語言機器學習與大資料視覺化暨Python文字挖掘與自然語言處理核心技術研修
中國通訊工業協會通訊和資訊科技創新人才培養工程專案辦公室
通人辦〔2017〕 第45號
“R語言機器學習與大資料視覺化”暨“Python文字挖掘與自然語言處理”核心技術高階研修班的通知
各有關單位:
為了響應國家大資料戰略加快建設數字中國,加強資料科學的創新發展和技術應用,打造大資料專業技術人才隊伍,滿足行業對人工智慧、機器學習、深度學習等相關領域高階人才的迫切需求,我單位將於2018年1月23日至26日在上海、1月25日至28日在廈門分別舉辦“R語言機器學習與大資料視覺化”、“Python文字挖掘與自然語言處理”核心技術高階研修班;課程目標、特點、教學大綱及師資安排等具體內容詳見附件。
附件:
一、課程物件
各高等院校大資料相關學科、計算機、軟體、資訊管理、統計、電子商務、金融、工商管理、數理統計專業等科研、教學帶頭人,骨幹教師、博士生、碩士生,機器學習、資料探勘、文字挖掘及自然語言處理技術的愛好者與潛在研究者。
二、時間與地點
2018年1月23日~26日 上 海
2018年1月25日~28日 廈 門
三、課程目標及特點
通過實際的案例分析與流程演示,熟悉機器學習、大資料視覺化、文字挖掘與自然語言處理等核心技術並學會如何將相應的技術運用到自己的實際工作中;
學會將資料探勘的能力從有限的結構化資料延伸到非結構化的海量文字材料,全面提升個人的資料探勘與分析應用能力;
通過緊密結合應用例項,針對工作中存在的疑難問題進行分析講解和專題討論,進而有效提升學員解決科研及教學中實際問題的能力同時提升其從資料角度去思考的能力;
採用理論知識+案例示範+練習討論的workshop教學模式,從典型案例入手;既適合零基礎的初學者,也適合經驗豐富的操作者;
全棧式的資料科學及大資料人才培養體系,額外提供價值4000元共350G、75課時的python機器學習、資料探勘、網路爬蟲與文字挖掘最新教學視訊及課件PPT,以協助高校開展資料科學與大資料專業建設,協助教師開展相關課程教學與科研;
通過流微信平臺建立與授課專家的長期的答疑聯絡,提供即時的線上技術諮詢;
四、課程內容
模組一:R語言機器學習與大資料視覺化技術
第一天 | 第1講:資料視覺化(統計圖形) | 1. 資料視覺化簡介 2. R語言基礎作圖 3. ggplot2簡介 4. 常見統計圖形 |
第2講:資料視覺化(動態視覺化) | 1. R的動態視覺化框架 2. Echarts簡介 3. Shiny與動態報告 4. 案例1:做一個動態視覺化的小系統 | |
第二天 | 第3講:資料探勘(資料處理與關聯規則) | 1. 資料處理與dplyr 2. 資料的清洗與轉換 3. 關聯規則簡介 4. 案例2:零售店資料的挖掘 |
第4講:資料探勘(聚類和分類) | 1. 資料探勘與機器學習 2. 聚類和分類簡介 3. 層次聚類分析 4. K-Means 聚類分析 5. 基於密度的聚類 6. 案例3:網際網路行為分析 | |
第三天 | 第5講:資料探勘(分類演算法) | 1. 邏輯斯蒂迴歸 2. 混淆矩陣與交叉驗證 3. 決策樹 4. 隨機森林 5. Boosting 6. 案例4:足球比賽資料的機器學習 7. 分析與討論 |
第6講:資料探勘(神經網路和深度學習) | 1. 人工智慧簡介 2. 感知機和神經網路 3. 影象分析簡介 4. 深度學習與卷積神經網路 5. 案例5:訓練影象識別模型 6. 課程總結與討論 |
模組二:Python文字挖掘與自然語言處理技術
第一天 | 第1講:自然語言處理及文字挖掘介紹 | 1.自然語言處理簡介 2.文字挖掘簡介 3.自然語言處理與python 4.自然語言處理相關工具概述及對比 |
第2講:python自然語言處理環境及基礎語法 | 1.Anaconda套件 2.基本資料結構(列表/字串/字典) 3.基本語法(條件/迴圈/函式/類/模組) 4.Jupyter Notebook基本使用 5.python在自然語言處理中的應用 | |
第3講:文字資料處理 | 1. 基礎包 numpy 2. 繪圖與視覺化 matplotlib與 seaborn 3. 自然語言處理包NLTK 4. 文字語料與詞彙資源 5. 文字資料獲取之爬蟲 6. 文字預處理 | |
第二天 | 第4講:文字分類 | 1. 分類與標註詞彙 2. 文字分類簡介 3. 各類文字分類模型 4. 為語言模式建模 5. 案例分析 |
第5講:文字資訊提取 | 1. 資訊提取 2. 分塊 3. 開發和評估分塊器 4. 語言結構中的遞迴 5. 命名實體識別 6. 關係抽取 7, 案例演示 | |
第6講:文法分析 | 1. 句子結構分析 2. 文法特徵 3. 處理特徵結構 4. 擴充套件基於特徵的文法 | |
第三天 | 第7講:基於傳統機器學習模型的文字分析技術基礎 | 1. 文字挖掘全流程概述 2. TextBlob文字處理庫介紹 3. 中文分詞介紹(jieba) 4. 詞雲介紹 5. 案例演示 |
第8講:基於傳統機器學習模型的文字分析技術應用 | 1. 文字挖掘預處理技術 2. 文字特徵處理 3. 文字聚類 4. 主題模型 5. 案例演示 | |
第9講:基於深度學習的文字處理技術 | 1. 深度學習簡介 2. 詞向量技術 3. RNN基本概念 4. LSTM簡介 5. LSTM語言模型的實現 6. 案例:利用LSTM實現文字分類 | |
第10講:基於seq2seq模型的自然語言處理應用(選修) | 1. seq2seq模型簡介 2. Encoder-Decoder 結構 3. seq2seq模型原理 4. seq2seq模型的應用 5. 案例:基於seq2seq模型的機器翻譯 |
五、頒發證書
學員經考核合格可獲得國家工信部全國通訊和資訊科技創新人才培養工程《大資料探勘與分析應用高階工程師》職業技術水平證書。該證表明持有者已通過相關考核,具備相應的專業知識和專業技能,並作為聘用、任職、定級和晉升的重要參考依據,全國通用。
六、擬邀師資
尹老師,資料科學家,浙江大學物理學博士,浙江某高校深度學習研究中心負責人,深度學習領域一線實戰專家,兼任某網路科技上市公司大資料總監,承擔30多個企業資料探勘專案,受聘擔任多家大資料教學機構主講教師,開發多套python機器學習、網路爬蟲與文字挖掘系列課程,10+年軟體開發資料產品經驗,熟悉R\Python\Javascript等多種程式語言,目前研究集中在推薦系統、文字挖掘、神經網路等深度學習領域,具有豐富的統計建模、資料探勘、大資料技術教學經驗,先後為中國交通銀行,平安保險公司等數十家知名機構主講python機器學習課程。
李老師,博士,畢業於北京大學,浙江大學軟體學院兼職教授、華東師範大學碩士研究生導師,臺北商業大學業界專業教師,曾任Mango Solutions中國區資料總監,主導數十個R語言資料探勘與分析應用工程專案, 2003年從事R語言相關研究,擅長R語言的工程開發與分析建模,是 Rweibo、Rwordseg、tmcn等 R 包的作者,著有《資料科學中的R語言》,翻譯了《R語言核心技術手冊》、《機器學習與R語言》,撰寫過大量R語言的基礎和高階應用類文章,從事R語言資料探勘分析培訓多年,為國內多所科研院所及知名企業主講R語言機器學習內訓課程,探索出一套以案例講解帶動理論理解和軟體操作熟悉的方法。
七、費用標準
每個模組參會費均為3980元/人(含專家授課費、教材考試費、證書申報、場地等),食宿統一安排,費用自理。
八、聯絡方式
聯絡電話: 18611038557 微 信: 18611038557
聯 系 人: 宋 老 師 郵 箱: 18[email protected]
(掃碼諮詢)
全國R語言與python資料科學高階研修班報名回執表
(經研究我單位選派以下同志參加此次學習)
單位名稱 | |||||
發票擡頭 | |||||
發票稅號 | |||||
發票內容 | □1、培訓費 □2、會議費 □3、會 務 費 | ||||
繳款方式 | □1、現 金 □2、刷 卡 □3、對公轉賬 | ||||
參會人數:_ ___ 人 | 參會費用: _ ____元 | ||||
參會 人員 名單 | 姓 名 | 職 務 | 手 機 | 電 子 郵 箱 | |
住宿安排 | □1、住 □2、不住 □3、待定 | ||||
住宿標準 | □1、雙人標間 □2、單間 □3、待定 |
注:請確定參加人員從速報名,培訓報到前7日我們將以電子郵件的方式給您傳送《報到通知》,告知具體培訓地點、乘車路線等事宜。
相關推薦
R語言機器學習與大資料視覺化暨Python文字挖掘與自然語言處理核心技術研修
中國通訊工業協會通訊和資訊科技創新人才培養工程專案辦公室通人辦〔2017〕 第45號“R語言機器
程式設計師內功修煉之演算法與資料結構 為機器學習、大資料補足演算法知識
現在外面的演算法課程層出不窮,少則大幾百,多則上千,但是無論課程質量與否,關鍵還是要靠自己學習了基本的知識以後,就可以通過自身進一步昇華。課程的清晰程度和講授質量都是一流水準,備課專業,良心之作。跟完這個課程自己學到的不光是資料結構的知識,還有很多附加的老師潛移默化帶給我的其他程式設計方面的提升,思考問題
[轉]機器學習科普文章:“一文讀懂機器學習,大資料/自然語言處理/演算法全有了”
在本篇文章中,我將對機器學習做個概要的介紹。本文的目的是能讓即便完全不瞭解機器學習的人也能瞭解機器學習,並且上手相關的實 踐。這篇文件也算是EasyPR開發的番外篇,從這裡開始,必須對機器學習瞭解才能進一步介紹EasyPR的核心。當然,本文也面對一般讀者,不會對
一文讀懂機器學習,大資料/自然語言處理/演算法全有了……
作者注:本文生動形象,深入淺出的方式介紹了機器學習及其它演算法,適合新人和想更加了解機器學習的讀者閱讀,此文屬於轉載,下面連結是原文出處,我們尊重原作者的版權保護。https://www.cnblogs.com/donaldlee2008/p/5224325.html 在本
掌握Spark機器學習庫 大資料開發技能更進一步
掌握Spark機器學習庫 大資料開發技能更進一步 第1章 初識機器學習 在本章中將帶領大家概要了解什麼是機器學習、機器學習在當前有哪些典型應用、機器學習的核心思想、常用的框架有哪些,該如何進行選型等相關問題。 1-1 導學 1-2 機器學習概述 1-
機器學習,大資料,深度學習 競賽網站,學習網站,演算法刷題網站
資料競賽類網站 Kaggle 阿里巴巴天池大資料比賽 DataCastle CCF大資料與計算智慧大賽 DataFountain Di-Tech演算法大賽 KDD-Cup KDnuggets Competition 全國高校雲端計算應用創
社交媒體價值與教育大資料視覺化
商業複雜性研究調查結果表明,廣泛行業的專業人士對了解資料分析,以及分析對商業決策的作用具有濃厚興趣。然而,大家都缺乏實現最佳途徑的知識,同時對不同平臺間分析的一致性支援不足。這表明,市場對世界級分析系統培訓及連貫部署的需求強勁。 高達80%的受訪者表示,他們正在一個或多個商
吳恩達-機器學習(10)-大資料集機器學習
文章目錄 Large Scale machine learning Learning with large datasets Stochastic Gradient Descent Mini-Batc
面試機器學習、大資料崗位時遇到的各種問題
自己的專業方向是機器學習、資料探勘,就業意向是網際網路行業與本專業相關的工作崗位。各個企業對這類崗位的命名可能有所不同,比如資料探勘/自然語言處理/機器學習演算法工程師,或簡稱演算法工程師,還有的稱為搜尋/推薦演算法工程師,甚至有的併入後臺工程師的範疇,視崗位具體要求而定
這可能是AI、機器學習和大資料領域覆蓋最全的一份速查表
https://mp.weixin.qq.com/s?__biz=MjM5ODE1NDYyMA==&mid=2653390110&idx=1&sn=b3e5d6e946b719d08b67d9ebf88283fe&chksm=bd1c3d0d8a6bb41bf05a8ccc9f
500G python web、爬蟲、資料分析、機器學習、大資料、前端實戰專案視訊程式碼免費分享
資料分享:1、python基礎入門教程2、100多本python電子書:3、Django教學網站專案實戰視訊,帶xadmin後臺和原始碼:4、Flask專案實戰視訊和原始碼:5、爬蟲專案視訊和原始碼:(含scrapy學習)6、資料分析視訊和原始碼:7、機器學習深度學習視訊和原
【機器學習01】機器學習,大資料雲端計算,再不學就out了
什麼是機器學習 利用計算機從歷史資料中找出規律,並把這些規律用到對未來不確定場景的決策 從這句話我們知道2點: 他是一種解決未來不確定因素的方法工具【比如公司明年的銷量情況】 通過什麼樣的手段呢,計算機挖出的歷史資料規律【有兩種情況一種是機器挖–
資料鑽取與大屏視覺化-東軟SaCa DataViz
前言:專案中一直準備做這塊,後面檢索到:阿里dataV,海致BDP,東軟DataViz,超圖DataInsight。 主要功能:關聯資料來源、資料鑽取與分析、圖冊與視覺化 官網網站:http://www.sacadataviz.com 產品論壇:https://forum
在機器學習、大資料等領域工作,該學Hadoop還是Spark?
相信看這篇文章的你們,都和我一樣對Hadoop和Apache Spark的選擇有一定的疑惑,今天查了不少資料,我們就來談談這兩種 平臺的比較與選擇吧,看看對於工作和發展,到底哪個更好。一、Hadoop與Spark1.SparkSpark是一個用來實現快速而通用的叢集計算的平臺
世界第二大軟體國家如何看待人工智慧、機器學習和大資料
一份關於人工智慧、機器學習和大資料的報告 在當今世界,印度近年來的發展是有目共睹的,雖然在我們國內對於印度的印象屬於比較喜劇的一個國家,並且出於對印度國家的喜愛,網上稱印度為阿三,三哥。但是任何事物都是由兩面性的,雖然印度在一些事情上的發展比較緩慢,並且總是逗人開心,但是印度因為一些機緣巧合在軟體上面的
基於 HTML5 WebGL 與 GIS 的智慧機場大資料視覺化分析
前言:大資料,人工智慧,工業物聯網,5G 已經或者正在潛移默化地改變著我們的生活。在資訊科技快速發展的時代,誰能抓住資料的核心,利用有效的方法對資料做資料探勘和資料分析,從資料中發現趨勢,誰就能做到精準控制,實時分析,有的放矢,從而獲取更快速、更平穩、更長遠地發展。在航空領域,機場、航班和航線資訊是至關重要的
機器學習——十大資料探勘之一的決策樹CART演算法
本文始發於個人公眾號:TechFlow,原創不易,求個關注 今天是**機器學習專題**的第23篇文章,我們今天分享的內容是十大資料探勘演算法之一的CART演算法。 CART演算法全稱是**Classification and regression tree**,也就是分類迴歸樹的意思。和之前介紹
大快搜索大資料視覺化平臺監控功能深度解析
大快搜索大資料視覺化平臺監控功能深度解析 在上一篇的文章中已經明確說過DKM作為大快發行版DKhadoop的管理平臺,它的四大功能分別是:管理功能,監控功能,診斷功能和整合功能。管理功能已經給大家列舉了一些做了說明,今天就DKM平臺的監控功能再給大家做細緻的分享分析。 DKM 提供了許
【13】Caffe學習系列:資料視覺化環境(python介面)配置
caffe程式是由c++語言寫的,本身是不帶資料視覺化功能的。只能藉助其它的庫或介面,如opencv, python或matlab。更多人會使用python介面來進行視覺化,因為python出了個比較強大的東西:ipython notebook, 現在的最新版本改名叫jupyter notebook
5個常用的大資料視覺化分析工具,你知道嗎?
大資料及移動網際網路時代,每一個使用移動終端的人無時無刻不在生產資料,而作為網際網路服務提供的產品來說,也在持續不斷的積累資料。資料如同人工智慧一樣,往往能表現出更為客觀、理性的一面,資料可以讓人更加直觀、清晰的認識世界,資料也可以指導人更加理智的做出決策。 而在大資料時代的今天,最有價值的商品