Cloudera - CDE
Cloudera 資料工程-使用 Apache Spark 開發應用程式
Cloudera Data Engineering:Developing Applications with Apache Spark
- 時數:28小時
- 費用:NT$ 64,000
- 點數:19.0
選擇查詢分區開課時間
教材
Cloudera原廠教材
課程目標
本訓練課程以實作型態教授如何在Cloudera Data Platform中使用Apache Spark開發高效能的平行運算應用程式所需要的關鍵概念與專業知識。您將學習到下列知識:如何使用Spark SQL查詢結構化資料與使用Spark Streaming對來自不同資料源的串流資料進行即時處理,此外開發者將會練習到使用Core Spark撰寫應用程式來進行ETL操作與迭代演算法。 本課程還包含如何使用位於分散式檔案系統的大資料集,與如何在CDP叢集開發、組態與部署執Spark應用程式。 完成本課程後,能夠讓您有能力面對真實環境的挑戰與建立Spark應用程式以產生更快、更好的決策,同時能夠將互動式分析,應用於不同的使用案例、架構與產業。
適合對象
- 使用Spark在Cloudera Data Platform之上撰寫應用程式的開發人員
- 希望取得CCA Spark and Hadoop Developer與CCP Data Engineer認證的相關人員
預備知識
- 熟悉Python或Scala任一種程式語言
- 基本的Linux Command Line操作
- 基本的SQL知識
課程內容
- Apache Zepplin介紹
- HDFS介紹
- YARN介紹
- 介紹分散式處理的歷史
- 使用RDDs
- 使用DataFrames
- Apache Hive介紹
- 整合Hive與Spark
- 使用Zepplin進行資料視覺化
- 分散式處理的挑戰
- 撰寫、組態與執行Spark應用程式
- Structured Streaming介紹
- 使用Apache Kafka處理訊息
- 使用Apache Kafka處理Structured Streaming
- 彙總與結合Streaming DataFrames
學會技能
- 了解在CDP Cluster中資料如何分散儲存與分散處理
- 了解如何撰寫、設定與部署Spark應用程式
- 使用Spark Shell與Spark應用程式探索、處理與分析分散儲存的資料
- 使用Spark SQL、DataFrame與Hive Table資料查詢
- 使用Spark Streaming協同Kafka處理即時資料流
備註事項
相關連結
台北恆逸教育訓練中心
- 02-25149191
- 02-25149292
- 台北市松山區復興北路99號14樓
新竹恆逸教育訓練中心
- 03-5723322
- 03-5745738
- 新竹市光復路二段295號3樓之2
台中恆逸教育訓練中心
- 04-23297722
- 04-23102000
- 台中市西區臺灣大道二段309號2樓
高雄恆逸教育訓練中心
- 07-5361199
- 07-5361698
- 高雄市前鎮區中山二路2號25樓