
只要三分鐘,立即來學習如何使用開源工具來分析資料吧
只要三分鐘,立即來學習如何使用開源工具來分析資料吧
於本地端啟用Spark,其實非常簡單!只需要透過簡單的apt-get 指令,快速安裝Java, Scala 等語言後,便可透過預先編譯(pre-build)過的spark 版本開始進入spark的世界。
除了透過IntelliJ IDEA 建立Spark 開發環境外,如果可以像Python 一樣可以透過Jupyter 記錄所有開發內容,那該會有多方便。所幸真的有大神建立ISpark 這樣的解決方案,本教學將教您怎麼一步步的在Ubuntu 14.04 中連結Jupyter 跟 Spark,讓您建立一個簡易好用的開發環境!
繼上次講述如何使用ispark 整合 Jupyter 和 Spark 後,本次將介紹一個更優秀的專案spark-notebook,除了可以使用記事本(notebook)的形式存取Spark 外,更可以透過WISP,使用簡單幾個指令就可以用d3.js 產生svg 圖檔,除做資料分析之餘,更可產生可互動的視覺化的圖表!
用Spark 進行機器學習? 其實非常簡單,只要將資料整理出特徵(Feature) 跟標籤 (Label),就可以透過MLlib 所提供的眾多演算法快速分類資料。這時電腦就不只會選土豆,更可以預測電信業客戶是否流失!但要分類之前,我們得先把資料整理好!讓我們來看看該怎麼整理出分類演算法可以吃的資料格式吧!
整理完資料後,就可以使用MLlib 提供的決策樹分類資料,全部只要打入神奇的 DecisionTree.train ,就可以建立分類模型,精準預測客戶是否流失!除了預測以外,還可以透由不同的套件計算準確度與AUC,用Spark 分析巨量資料,就是這麼簡單快速!
Spark 在最近釋出的1.4 版中有包入SparkR,讓資料分析語言神器R 與巨量資料新星Spark 可以順利接軌。在RStudio 下的安裝實測,發現安裝步驟相當簡單,使用上跟RHadoop 撰寫MapReduce般雷同。唯探索後其專案測試檔後,發現部分機器學習還是得自行撰寫,除了透過rJava外沒法直接呼叫MLlib,是目前讓人最失望的一塊。