大數軟體 X 大數學堂 - Spark 與巨量資料分析

如何在三分鐘內於Ubuntu 14.04中啟用Spark-shell?

大數學堂
May 30, 2015, 3:31 p.m.

本地端啟用Spark非常簡單，只需要透過apt-get指令安裝Java Scala等語言，然後使用預先編譯過的Spark版本開始使用。

開始上課

如何使用Jupyter 操作 Spark?

大數學堂
May 31, 2015, 3:19 p.m.

這篇文章介紹了ISpark這個解決方案，讓使用者能夠在Ubuntu 14.04中使用Jupyter和Spark建立開發環境。這樣可以像Python一樣方便地記錄開發內容，提供了一個簡易好用的開發環境。

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 1)?

大數學堂
June 15, 2015, 3:53 p.m.

這篇文章介紹了如何使用Spark進行機器學習。只要將資料整理成特徵和標籤的格式，就能夠使用MLlib提供的演算法進行快速分類。這樣的分類技術不僅能夠選出土豆，還能夠預測電信業客戶是否流失。然而，在進行分類之前，我們需要對資料進行整理，以使其符合分類演算法的要求。

開始上課

如何安裝Spark-Notebook 在Ubuntu?

大數學堂
June 2, 2015, 4:11 p.m.

本文介紹了一個優秀的專案Spark Notebook，該專案可以使用Jupyter Notebook的形式存取Spark並生成可互動的視覺化圖表。除了可以使用WISP來使用d3.js生成SVG圖檔外，還支持使用筆記本形式來進行資料分析。這將為使用者提供更多的工具來進行Spark的操作和視覺化。

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

大數學堂
June 18, 2015, 4:14 p.m.

MLlib 提供了決策樹分類的功能，使用DecisionTree.train可以輕鬆建立模型並預測客戶是否流失。此外，也可以使用不同的套件計算準確度和AUC，使用Spark來分析大量的資料非常簡便和迅速。

開始上課

如何安裝及使用SparkR?

大數學堂
June 20, 2015, 3:02 p.m.

Spark最近版本中收錄了R語言的SparkR，這讓R語言的資料分析能夠與Spark進行無縫整合。在RStudio下的安裝過程經過實測後發現，非常簡單且與使用RHadoop撰寫MapReduce非常相似。然而，研究後發現部分機器學習的功能仍需自行撰寫，無法直接呼叫MLlib，這是目前讓人最失望的部分。

開始上課

hidden

如何在三分鐘內於Ubuntu 14.04中啟用Spark-shell?

如何使用Jupyter 操作 Spark?

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 1)?

如何安裝Spark-Notebook 在Ubuntu?

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

如何安裝及使用SparkR?