Python - PNLP

Python中文自然語言NLP深度學習專家課程

Chinese Natural Language Processing Specialty in Python
  • 時數:21小時
  • 費用:NT$ 24,000
  • 點數:6.0

選擇查詢分區開課時間

地點 班號 日期 時間 報名
台北 19055 班 2019/10/27 ~ 2019/11/10 每週日 09:00~17:00 報名
台北 19056 班 2019/12/18 ~ 2019/12/20 每週三四五 09:00~17:00 報名
新竹 19056ZH 班 2019/12/18 ~ 2019/12/20 每週三四五 09:00~17:00 報名 Live

目前查無開課時段

詳細開課時間請洽詢業務

聯絡恆逸

教材

恆逸專用教材

課程目標

本課程主要使用AI人工智慧在自然語言(Natural Language)於業界的應用,當你需要收集大量的Facebook留言、Instagram的留言,想知道各網紅KOL如何討論你的產品,除了聲量(like, comment, share)之外,還有最重要的是品牌提及與討論內容的質量,而量化的資料有了,質化的方法則非自然語言處理莫屬了。本堂課透過淺入深出的真實案例,實際以爬取網路上具有評分、評等的留言當作語料,作為中文情感分析之訓練集(data set),循序漸進從資料爬蟲、清洗儲存文字資料、利用pandas預處理(preprocessing)、正規化與對等分布(normalization)、資料萃取轉置工程(data engineering)、學會應用資料處理的Python套件(Numpy、Pandas、Seaborn等),以及在中文NLP(Natural Language Processing)中實現機器學習、深度學習演算法(RNN、xgboost、naive bayes)、訓練機器分辨文字分析,應用領域著重在中文自然語言的正負面評分,文章的分類,進行參數調校來優化模型,最後部署模型在以python為框架的Web application API,目標為提供內部以restful api的方式呼叫使用。

適合對象

  1. 高階軟體開發工程師
  2. 大數據相關研發人員或資料科學家
  3. 統計/數值分析研究人員
  4. 中文自然語言處理專家

預備知識

須具備熟悉Python程式語言撰寫程式能力,建議可先修習恆逸資訊「Python程式設計」以及「Python與機器學習深度學習」相關學程,對結構化與非結構化資料庫結構(MySQL, MongoDB)有基本知識,若能預先具備機器學習(Machine Learning)理論基礎知識者佳,想要進一步應用爬蟲技術,用作中文自然語言模型訓練,實際應用於中文文章分類(Classification)、中文文章標籤(Tagging)、中文情感分析(Sentimental)訓練模型。

課程內容

  1. AI下一世代:細膩的人類語言

  2. 文字資料採集

    ● 深入Python爬蟲Crawler框架與MongoDB非結構化資料庫建構

  3. 機器學習快速上手

    ● 決策樹(Decision Tree)、隨機森林(Random Forest)、梯度下降(Gradient Descent)

  4. 機率生成模型與分類模型

    ● 貝氏分類(Bayesian Classification)在中文語意的應用場景

  5. 關聯字詞模型訓練

    ● 鑽研中文斷詞、斷句與詞彙Tokenization,實作Word2Vec、Doc2Vec

  6. 文章分類模型訓練

    ● 詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器、XGBoost分類器

  7. 情感分析模型訓練

    ● SnowNLP於中文長短句的正負面機率

    ● 運用Google Play Store留言,實作Keras/Tensorflow RNN情感程度模型訓練

  8. 暱稱/姓名預測性別男女模型

    ● 訓練中、英文姓名男女分類判別

  9. 自然語言處理個案研究

    ● 中文姓名預測API,以Python Tornado Web Server為例

    ● 自然語言文章分類在廣告自動投放的應用

    ● Facebook發文/留言機器打標籤

    ● 留言情感分析在品牌策略操作上的處理

    ● 自動擷取每2分鐘PTT摘要文字雲

  10. 大衛的自然語言微工商服務

學會技能

  1. 運用Python爬蟲爬取文章作為訓練資料集的能力
  2. 使用深度學習快速為文章自動打上標籤Tagging模型
  3. 遞歸神經網路(RNN)、詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器、XGBoost分類器
  4. 為企業提供自然語言社群快速分類新聞與產業消息分類的應用
  5. 訓練情感分析模型,升級企業於客戶服務文字背後的情緒正負面
  6. 建立企業自然語言AI處理中心,從辭彙找到最近關聯到的新聞關聯字詞
  7. 滿足企業社群聆聽(Social Listening)中文處理,視覺化智慧化文字雲
  8. 為企業外部消費者收集使用者Facebook暱稱、Instagram姓名,預測性別,了解目標消費者樣貌輪廓
  9. 設計與部署自然語言應用訓練好的模型為APIs,透過程式化溝通直接使用model模型
  10. 管理與更版自然語言語料、模型,不間斷重複訓練,掌握中文分類、標籤、情感、關聯的全方面解決方案
  11. 探究業界自然語言於品牌、競品理解大眾語意,推薦決策與品牌操作策略