Python - PNLP

Python中文自然語言NLP深度學習專家課程

Chinese Natural Language Processing Specialty in Python
  • 時數:28小時
  • 費用:NT$ 24,000
  • 點數:6.0

選擇查詢分區開課時間

地點 班號 日期 時間 報名
台北 248554 班 2024/05/18 ~ 2024/05/26 每週六日 09:00~17:00 報名
台北 248552 班 2024/06/03 ~ 2024/06/06 每週一二三四 09:00~17:00 報名
台北 24945 班 2024/08/03 ~ 2024/08/11 每週六日 09:00~17:00 報名
台北 24946 班 2024/10/28 ~ 2024/10/31 每週一二三四 09:00~17:00 報名
台北 24947 班 2024/11/23 ~ 2024/12/01 每週六日 09:00~17:00 報名
新竹 248552ZH 班 2024/06/03 ~ 2024/06/06 每週一二三四 09:00~17:00 報名 Live

目前查無開課時段

詳細開課時間請洽詢業務
新竹、台中、高雄如有上課需求,請參考台北開課日期,洽當地服務人員依需求加開遠距開課日期

聯絡恆逸

教材

恆逸專用教材

課程目標

本課程的主要目標是深入探索AI人工智慧在中文自然語言處理領域的廣泛應用。深入研究 NLP 技術在社群媒體語料和消費者行為分析中的應用,不僅僅涵蓋聲量分析,如按讚、留言和分享,還包括更進一步的方法。善用爬蟲技術從媒體平台,如Meta(Facebook)和Instagram,收集具有評分的留言,建立訓練集,專注於理解消費者真實的想法和意見,並將其應用於消費者數據平臺(CDP)上的自動化標籤,進行受眾趨勢和喜好的分析,以制定精準的市場策略。

此外,課程包括中文情感分析的相關內容,包括文字資料的清洗和儲存,以及使用 Python 進行預處理、正規化和去除停用詞等技術。你將學習如何發現新詞、進行詞性標記,並使用機器學習和深度學習技術,如遞歸神經網絡(RNN)、XGBoost和樸素貝葉斯演算法,實現情感分類、文章分類和分群模型。最後,我們將進行遷移學習,調優模型參數並優化性能,再將模型部署為 API,以RESTful 方式存取 API 進行語言模型的預測。

課程的第三部分將介紹大型語言模型(LLM)的開發和應用。我們將動手微調(Fine-tuning)企業專屬的 OpenAI 模型,建立 OpenAI Assistants API 助手,提供知識問答功能,並構建 OpenAI GPTs,以提供對內和對外資料的串接機制。除了動手呼叫 OpenAI 與 Google Gemini 之外,我們還將研究 LlaMA 2 和 Mistrial 模型的微調訓練。最後,我們將使用RAG(Retrieval-Augmented Generation)來擴增知識,並整合 LangChain 和 LlamaIndex,實現站在巨人肩膀上的大語言模型能力。課程將完成將大語言模型轉換為對 CPU 友善 的 GGUF 格式,並實作離線私有化的 LLM 架構部署。

適合對象

  1. 高階軟體開發工程師
  2. 大數據相關研發人員或資料科學家
  3. 統計/數值分析研究人員
  4. 中文自然語言處理專家
  5. 大型語言模型微調專家
  6. 大型語言模型 RAG 架構專家

預備知識

  1. 熟悉Python程式語言撰寫能力,建議先修習恆逸資訊的「Python程式設計」以及「Python與機器學習深度學習-使用Keras與TensorFlow」相關課程。
  2. 了解結構化和非結構化資料庫結構,具有基本的資料庫知識,包括MySQL和MongoDB等。這將有助於您在應用中處理和管理巨量文字資料。
  3. 若能預先具備機器學習(Machine Learning)理論基礎知識,將有助於更深入理解語言模型的運作原理和應用。

因為這在中文自然語言模型訓練中會用到上述的基礎知識,本堂課也將從這些基礎上開始。

課程內容

1.AI下一世代:ChatGPT的崛起

● 自然語言處理、自然語言理解和自然語言生成

2.文字資料採集

● 深入Python爬蟲Crawler框架和MongoDB非結構化資料庫建構

● 收集巨量資料集,並進行文字資料清洗

3.機器學習快速上手

● 決策樹(Decision Tree)、隨機森林(Random Forest)和梯度下降(Gradient Descent)

4.機率生成模型與分類模型

● 貝氏分類(Bayesian Classification)在中文語意的應用場景

5.關聯字詞模型訓練

● 中文斷詞、斷句和詞彙Tokenization,實作Word2Vec、Doc2Vec、Ckip和Transformers

6.文章分類模型訓練

● 詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器和XGBoost分類器

7.情感分析模型訓練

● Fine-tuning HuggingFace上的模型於中文長短句的正負面機率

● 使用Google Play Store留言,實作Keras/Tensorflow RNN情感程度模型訓練

8.暱稱/姓名預測性別男女模型

● 訓練中、英文姓名男女分類判別

● 建立文字檔案以查找分群的標籤

9.自然語言處理個案研究

● 中文姓名預測API,以Python Flask為例

● 自然語言文章分類在廣告標籤投放的應用

● Facebook/Instagram留言探針時刻監測品牌危機

● 留言情感分析在品牌策略操作上的處理

● PTT新聞摘要與關聯

10.如何微調ChatGPT模型,讓它認識你的產業知識?

● 通用人工智慧 (Artificial General Intelligence)

● 大型語言模型(LLM)需要準備的資料集指引,套用自己的資料集

● 從ChatGPT 4前往Llama 2實作遷移式學習

● 微調(Fine-tuning) OpenAI 模型,提供問答助手

11.延伸大語言模型 (LLM) 擴增(RAG) 知識

● 結合知識檢索的 OpenAI 生成技術

● 提示詞工程(Prompt Engineering) 使用 LangChain 與 LlamaIndex

● 事實查核避免 AI 幻想 (Fact-checking of ChatGPT and LLMs)

● 部署地端大型語言模型 (GGUF)

學會技能

  1. 運用Python爬蟲爬取文章作為訓練資料集的能力
  2. 使用深度學習快速為文章自動打上標籤Tagging模型
  3. 遞歸神經網路(RNN)、詞袋模型(Bag of Words)、TF-IDF詞頻分類法、Naive Bayes分類器、XGBoost分類器
  4. 為企業提供自然語言社群快速分類新聞與產業消息分類的應用
  5. 訓練情感分析模型,升級企業於客戶服務文字背後的情緒正負面
  6. 建立企業自然語言AI處理中心,從辭彙找到最近關聯到的新聞關聯字詞
  7. 滿足企業社群聆聽(Social Listening)中文處理,視覺化智慧化文字雲
  8. 為企業外部消費者收集使用者Facebook暱稱、Instagram姓名,預測性別,了解目標消費者樣貌輪廓
  9. 設計與部署自然語言應用訓練好的模型為APIs,透過程式化溝通直接使用model模型
  10. 管理與更版自然語言語料、模型,不間斷重複訓練,掌握中文分類、標籤、情感、關聯的全方面解決方案
  11. 探究業界自然語言於品牌、競品理解大眾語意,推薦決策與品牌操作策略
  12. 掌握深度學習在自然語言處理的應用,善用pre-trained model與Transformers進行遷移式學習
  13. 微調(Fine-tuned)企業專屬的 OpenAI 模型
  14. 建立 OpenAI Assistants API 助手提供知識問答
  15. 建構 GPTs 提供對內與對外的串接機制
  16. 探討 LlaMA 2、Mistrial 模型的微調訓練
  17. 使用 RAG(Retrieval-Augmented Generation) 擴增知識
  18. 整合 LangChain、LlamaIndex 套件與向量資料庫 (Vector Database)
  19. 將大語言模型轉為對 CPU 友善的 GGUF 格式
  20. 完成部署離線私有化的 LLM 部署