Python - PNLP
Python中文自然語言NLP深度學習專家課程
Chinese Natural Language Processing Specialty in Python
- 時數:28小時
- 費用:NT$ 24,000
- 點數:6.0
選擇查詢分區開課時間
地點 | 班號 | 日期 | 時間 | 報名 |
---|---|---|---|---|
台北 | 248553 班 | 2024/03/16 ~ 2024/03/24 每週六日 | 09:00~17:00 | 報名 |
台北 | 248554 班 | 2024/05/18 ~ 2024/05/26 每週六日 | 09:00~17:00 | 報名 |
台北 | 248552 班 | 2024/06/03 ~ 2024/06/06 每週一二三四 | 09:00~17:00 | 報名 |
新竹 | 248552ZH 班 | 2024/06/03 ~ 2024/06/06 每週一二三四 | 09:00~17:00 | 報名 Live |
目前查無開課時段
詳細開課時間請洽詢業務
新竹、台中、高雄如有上課需求,請參考台北開課日期,洽當地服務人員依需求加開遠距開課日期
教材
課程目標
本課程的主要目標是深入探索AI人工智慧在中文自然語言處理領域的廣泛應用。現今充滿社群媒體多樣態的時代,將著重於如何有效地爬取大量來自社交媒體平台,如Meta(Facebook)和Instagram的語料,同時了解消費者或網紅KOL對於您的產品的評價。與傳統的聲量分析(包括按讚、留言、分享)不同,我們將強調深入瞭解消費者的實際使用體驗,並將這些洞察延伸至消費者CDP數據平台上的自動化標籤,進而了解受眾趨勢與喜好,制定更具策略性的市場行銷風向。
藉由爬蟲取得具有評分的網路留言,便可建立中文情感分析的訓練數據集,專注於文字資料清洗與儲存、使用Python進行預處理、正規化和去除停用詞,找尋新詞與詞性標註等資料工程技術,實作機器學習和深度學習算法(如RNN、XGBoost和Naive Baye)。範圍涵蓋情感分類模型、文章分類、分群模型,接著調校參數、優化模型性能,最後您將學習如何將模型部署至應用程式API,以RESTful API的方式存取語言模型。
大型語言模型(LLM)近年來已成為語言生成、AI客服等領域的關鍵技術。本課程將教您如何微調企業專家級ChatGPT,開發離線Llama 2大型語言模型,並在企業內部實際應用場景中開發和部署LLM地端模型。本課程旨在為您提供AI自然語言處理的全面知識和工具,以應對新世代語言處理和語言模型應用的挑戰。
適合對象
- 高階軟體開發工程師
- 大數據相關研發人員或資料科學家
- 統計/數值分析研究人員
- 中文自然語言處理專家
- 大型語言模型微調專家
預備知識
- 熟悉Python程式語言撰寫能力,建議先修習恆逸資訊的「Python程式設計」以及「Python與機器學習深度學習-使用Keras與TensorFlow」相關課程
- 了解結構化和非結構化資料庫結構,具有基本的資料庫知識,包括MySQL和MongoDB等。這將有助於您在應用中處理和管理巨量文字資料。3. 若能預先具備機器學習(Machine Learning)理論基礎知識,將有助於更深入理解語言模型的運作原理和應用
因為在中文自然語言模型訓練中會用到上述的基礎知識,本堂課也將從這些基礎上開始
課程內容
1.AI下一世代:ChatGPT的崛起
● 自然語言處理、自然語言理解和自然語言生成
2.文字資料採集
● 深入Python爬蟲Crawler框架和MongoDB非結構化資料庫建構
● 收集巨量資料集,並進行文字資料清洗
3.機器學習快速上手
● 決策樹(Decision Tree)、隨機森林(Random Forest)和梯度下降(Gradient Descent)
4.機率生成模型與分類模型
● 貝氏分類(Bayesian Classification)在中文語意的應用場景
5.關聯字詞模型訓練
● 中文斷詞、斷句和詞彙Tokenization,實作Word2Vec、Doc2Vec、Ckip和Transformers
6.文章分類模型訓練
● 詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器和XGBoost分類器
7.情感分析模型訓練
● Fine-tuning HuggingFace上的模型於中文長短句的正負面機率
● 使用Google Play Store留言,實作Keras/Tensorflow RNN情感程度模型訓練
8.暱稱/姓名預測性別男女模型
● 訓練中、英文姓名男女分類判別
● 建立文字檔案以查找分群的標籤
9.自然語言處理個案研究
● 中文姓名預測API,以Python Flask為例
●自然語言文章分類在廣告標籤投放的應用
● Facebook/Instagram留言探針時刻監測品牌危機
● 留言情感分析在品牌策略操作上的處理
● PTT新聞摘要與關聯
10.如何微調ChatGPT模型,讓它認識你的產業知識?
● 大型語言模型(LLM)需要準備的資料集指引,套用自己的資料集
● 從ChatGPT 4前往Llama 2實作遷移式學習
● 部署地端大型語言模型
● 通用人工智慧(Artificial general intelligence)
學會技能
- 運用Python爬蟲爬取文章作為訓練資料集的能力
- 使用深度學習快速為文章自動打上標籤Tagging模型
- 遞歸神經網路(RNN)、詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器、XGBoost分類器
- 為企業提供自然語言社群快速分類新聞與產業消息分類的應用
- 訓練情感分析模型,升級企業於客戶服務文字背後的情緒正負面
- 建立企業自然語言AI處理中心,從辭彙找到最近關聯到的新聞關聯字詞
- 滿足企業社群聆聽(Social Listening)中文處理,視覺化智慧化文字雲
- 為企業外部消費者收集使用者Facebook暱稱、Instagram姓名,預測性別,了解目標消費者樣貌輪廓
- 設計與部署自然語言應用訓練好的模型為APIs,透過程式化溝通直接使用model模型
- 管理與更版自然語言語料、模型,不間斷重複訓練,掌握中文分類、標籤、情感、關聯的全方面解決方案
- 探究業界自然語言於品牌、競品理解大眾語意,推薦決策與品牌操作策略
- 掌握深度學習在自然語言處理的應用,善用pre-trained model與Transformers進行遷移式學習
相關連結
台北恆逸教育訓練中心
- 02-25149191
- 02-25149292
- 台北市松山區復興北路99號14樓
新竹恆逸教育訓練中心
- 03-5723322
- 03-5745738
- 新竹市光復路二段295號3樓之2
台中恆逸教育訓練中心
- 04-23297722
- 04-23102000
- 台中市西區臺灣大道二段309號2樓
高雄恆逸教育訓練中心
- 07-5361199
- 07-5361698
- 高雄市前鎮區中山二路2號25樓