Cloudera - CDE

Cloudera 資料工程-使用 Apache Spark 開發應用程式

Cloudera Data Engineering:Developing Applications with Apache Spark
  • 時數:28小時
  • 費用:NT$ 64,000
  • 點數:19.0

選擇查詢分區開課時間

地點 班號 日期 時間 報名
台北 22919 班 2022/09/19 ~ 2022/09/22 每週一二三四 09:00~17:00 報名

目前查無開課時段

詳細開課時間請洽詢業務

聯絡恆逸

教材

Cloudera原廠教材

課程目標

本訓練課程以實作型態教授如何在Cloudera Data Platform中使用Apache Spark開發高效能的平行運算應用程式所需要的關鍵概念與專業知識。您將學習到下列知識:如何使用Spark SQL查詢結構化資料與使用Spark Streaming對來自不同資料源的串流資料進行即時處理,此外開發者將會練習到使用Core Spark撰寫應用程式來進行ETL操作與迭代演算法。 本課程還包含如何使用位於分散式檔案系統的大資料集,與如何在CDP叢集開發、組態與部署執Spark應用程式。 完成本課程後,能夠讓您有能力面對真實環境的挑戰與建立Spark應用程式以產生更快、更好的決策,同時能夠將互動式分析,應用於不同的使用案例、架構與產業。

適合對象

  1. 使用Spark在Cloudera Data Platform之上撰寫應用程式的開發人員
  2. 希望取得CCA Spark and Hadoop Developer與CCP Data Engineer認證的相關人員

預備知識

  1. 熟悉Python或Scala任一種程式語言
  2. 基本的Linux Command Line操作
  3. 基本的SQL知識

課程內容

  1. Apache Zepplin介紹
  2. HDFS介紹
  3. YARN介紹
  4. 介紹分散式處理的歷史
  5. 使用RDDs
  6. 使用DataFrames
  7. Apache Hive介紹
  8. 整合Hive與Spark
  9. 使用Zepplin進行資料視覺化
  10. 分散式處理的挑戰
  11. 撰寫、組態與執行Spark應用程式
  12. Structured Streaming介紹
  13. 使用Apache Kafka處理訊息
  14. 使用Apache Kafka處理Structured Streaming
  15. 彙總與結合Streaming DataFrames

學會技能

  1. 了解在CDP Cluster中資料如何分散儲存與分散處理
  2. 了解如何撰寫、設定與部署Spark應用程式
  3. 使用Spark Shell與Spark應用程式探索、處理與分析分散儲存的資料
  4. 使用Spark SQL、DataFrame與Hive Table資料查詢
  5. 使用Spark Streaming協同Kafka處理即時資料流

備註事項