
只要三分鐘,立即來學習如何使用開源工具來分析資料吧
只要三分鐘,立即來學習如何使用開源工具來分析資料吧
最近vonvon 有推出一篇人氣相當高的臉書文字分析服務(http://tw.vonvon.me/quiz/318),引起眾多網民的使用與討論。但在學習過如何使用網路爬蟲(Python Crawler)以後,我們便可以實作出一模一樣的資料產品,因此在此教學中,我們先教各位該如何透過網路爬蟲(Python Crawler) 抓取各位2015年於Facebook 所留下的所有訊息內容。
繼取得Facebook 2015 年所有的貼文內容後,接下來我們可以將貼文進行斷詞,並取得詞頻。對於英文資料而言,斷詞只須根據空白斷句即可,但中文便必須仰賴好的分詞工具,這邊大家可以學習使用Python 套件 jieba ,便可以順利將貼文分詞,於排序過後,便可以取得Facebook 貼文中最常使用的詞頻。
當然只有表列出在臉書最常使用的文字頻率是還不夠的,最好能夠像vonvon 一樣,用文字雲呈現才能一目了然最常使用的文字。不過,該怎麼繪製文字雲呢?當然你可以使用d3.js,但我們其實可以使用更簡單的Tableau Public,讓你第一次畫文字雲就上手!
vonvon 最近又創造一個高人氣話題的服務,讓你取得臉書中最難忘的相片。但在享受服務的同時,我們也可以利用爬蟲(Python Crawler)的力量,做出一模一樣的服務。這次的課程便會引導你如何從取得自己在Facebook 上的相片及按讚統計,然後在排序過按讚最多的聯結後,將所有最難忘的臉書照片爬取下來!