只要三分鐘,立即來學習如何使用開源工具來分析資料吧

[Scrapy 爬蟲] 什麼是Scrapy以及為什麼要用Scrapy 爬取…

  • Sun 31 Jan 2016

透過 Scrapy 網路爬蟲框架,我們就可以在不用重造輪子的情況下撰寫較為完整且具非同步化(asynchronous)請求能力的網路爬蟲。 安裝步驟: 1. 下載並安裝 Anaconda Python 2. 在Anaconda Command Prompt 鍵入 pip install scrapy 3. 開啟爬蟲專案: scrapy startproject apple

開始上課

為什麼要學習Python?

  • Mon 23 May 2022

為什麼要學習Python?

開始上課

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 1)?

  • Wed 25 Nov 2015

最近vonvon 有推出一篇人氣相當高的臉書文字分析服務(http://tw.vonvon.me/quiz/318),引起眾多網民的使用與討論。但在學習過如何使用網路爬蟲(Python Crawler)以後,我們便可以實作出一模一樣的資料產品,因此在此教學中,我們先教各位該如何透過網路爬蟲(Python Crawler) 抓取各位2015年於Facebook 所留下的所有訊息內容。

開始上課

Python開發工具速覽

  • Mon 23 May 2022

Python開發工具速覽

開始上課

[Selenium] 如何使用 Selenium 開啟 Chrome 瀏覽…

  • Fri 11 May 2018

開始 Selenium 一系列的基礎教程!Selenium 可以讓我們用很擬人化的操作:打開瀏覽器、瀏覽網頁、協助我們完成許多自動化的操作,是給不擅長觀察資料連結的爬蟲開發者的一大福音!在最基礎的課程中,我們首先來學學如何使用 Selenium 基本指令開啟Chrome 瀏覽器,讓程式幫我們自動瀏覽網頁 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_103.ipynb

開始上課

Anaconda安裝與簡介

  • Mon 23 May 2022

Anaconda安裝與簡介

開始上課

Jupyter Notebook 操作簡介

  • Mon 23 May 2022

Jupyter Notebook 操作簡介

開始上課

Spyder 操作簡介

  • Mon 23 May 2022

Spyder 操作簡介

開始上課

PyCharm 安裝與操作簡介

  • Mon 23 May 2022

PyCharm 安裝與操作簡介

開始上課

Visual Studio Code (VSCode) 安裝與操作簡介

  • Mon 23 May 2022

Visual Studio Code (VSCode) 安裝與操作簡介

開始上課

Colab 操作與簡介

  • Mon 23 May 2022

Colab 操作與簡介

開始上課

Covid19 分析案例

  • Mon 23 May 2022

Covid19 分析案例

開始上課

Python數字、字串與輸入輸出概論

  • Mon 23 May 2022

Python數字、字串與輸入輸出概論

開始上課

[Scrapy 爬蟲] 如何撰寫第一支Scrapy 爬蟲以抓取蘋果即時新聞…

  • Mon 01 Feb 2016

繼說明為何要使用Scrapy 這爬蟲框架後,我們便可以開始寫作第一支Scrapy 爬蟲。 1. 於spiders 目錄下開一個Python檔案 (e.g. crawl.py) 2. 於crawl.py 中定義 a. class name b. name c. start_urls d. parse 函數 3. 於scrapy.cfg 處執行 scrapy crawl apple

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 1)?

  • Sun 26 Apr 2015

開始來點有趣的,我們將教學該如何透過Python 一步步建立屬於自己的交易系統!但要進行交易分析前,還是需要點資料,我們先從三大法人買賣金額統計表下手。本教學將教您如何使用Python 的Requests 抓取三大法人買賣金額統計表。

開始上課

[RPA]如何用PyAutoGUI 建立Python 版的按鍵精靈?

  • Mon 08 Jul 2019

RPA (Robotic Process Automation)流程機器人可以透過自動化程序大幅降低繁瑣、重複的作業流程。但我們其實不用花大筆金錢購買專業化的軟體,只需要透過PyAutoGUI建立簡單的Python 程序,我們就可以寫一個簡單的按鍵精靈,讓電腦快速幫我們完成許多的電腦操作任務。 影片: https://www.largitdata.com/course/114/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_114.ipynb

開始上課

如何在三分鐘內於Ubuntu 14.04中啟用Spark-shell?

  • Sat 30 May 2015

於本地端啟用Spark,其實非常簡單!只需要透過簡單的apt-get 指令,快速安裝Java, Scala 等語言後,便可透過預先編譯(pre-build)過的spark 版本開始進入spark的世界。

開始上課

[財經爬蟲] 如何透過Pandas 快速抓取並分析黃金價格?

  • Fri 15 May 2020

黃金價格又來到近期的高點!今天將教大家簡簡單單用Pandas 即可完成黃金價格抓取與分析,讓大家都能透過Python 網路爬蟲輕鬆掌握黃金大行情。 影片: https://largitdata.com/course/129/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_129.ipynb #Python網路爬蟲 #PythonCrawler #黃金價格 #Pandas #財經爬蟲

開始上課

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 2)?

  • Wed 25 Nov 2015

繼取得Facebook 2015 年所有的貼文內容後,接下來我們可以將貼文進行斷詞,並取得詞頻。對於英文資料而言,斷詞只須根據空白斷句即可,但中文便必須仰賴好的分詞工具,這邊大家可以學習使用Python 套件 jieba ,便可以順利將貼文分詞,於排序過後,便可以取得Facebook 貼文中最常使用的詞頻。

開始上課

什麼是網路爬蟲?

  • Fri 10 Apr 2015

爬蟲? 這不是在看動物星球,而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析,但苦無資料的時候,又來不及跟別人談資料交換或合作時,就可以利用這種技術將別人的資料庫變成自己的資料庫,聽起來很迷人嗎?趕快來了解一下。

開始上課

Buzz Alert - Social Media Based Disas…

  • Tue 13 Oct 2015

An early-warning system can save many people's lives from natural disasters. By mining the real-time message on the social network and location information of emergency center from open data, we make real-time disaster warning possible. Do you know how to protect yourself from an earthquake or flood? Many people die in accidents and nature disasters for they simply do not how to protect themselves at the time being. Therefore, if the government can build up an early-warning system, many people can be saved from the devastating disasters. Thanks to the social network, people nowadays can spread out real-time information more easily than ever before. Thus, we can alert our government if there is any occurring disaster within the country. Furthermore, we can integrate the information of open data, so that people can go to the nearest emergency center or shelter to seek help. For above reasons, we build Buzz Alert, a social-media based alert map. The system automatically collects opinion data from the social network and mark the disaster information as a luminous spot on the map. Thus, the government would immediately know where and when the disaster is happening. Furthermore, we collect the location of the official emergency center, hospital, fire agency from open data, and mark the spot on the map. Hence, people who have the urgent need can go to the nearest emergency center nearby to seek help. Our utmost wishes are that government around the globe can use Buzz Alert to save lives from any disaster in the future. Find more detail at http://www.largitdata.com/service/buzzalert

開始上課

如何使用OpenCV 建立山寨版的 how-old.net ?

  • Sat 02 May 2015

想必大家最近都玩過最夯的 http://how-old.net/ ,系統判別的準不準倒是其次,但應該對該系統所呈現出來的臉部、年齡、性別辨識技術一定感到相當驚奇。但其實完成臉部偵測的技術並不難,這次就教各位該如何透過OpenCV,讓你/妳能用短短的幾行程式碼,做出個山寨版的how-old.net

開始上課

為什麼要使用版本控制系統?

  • Sun 12 Apr 2015

假使你的客戶一直修改需求,你怎麼管理每個版本? 假使多人要共同開發一個網站吧,有人負責A、B、C,我負責開發B,C,D;如果同時間必須更改到同一個檔案? 該怎麼合併檔案? 這時我們就需要版本控制管理系統解決以上的問題! 在接下來的章節,大數學堂將教各位如何使用git 做版本控制

開始上課

如何更改 AWS EC2的防火牆設定 ?

  • Mon 04 May 2015

如果已經在AWS EC2安裝好服務,卻無法透過瀏覽器連線到服務之中,代表你尚未變更好對應的防火牆設­定,下面教學將教您如何更改EC2 的Security Group

開始上課

[比特幣程式交易] 如何透過API獲取比特幣歷史報價數據?

  • Wed 13 Jan 2021

近期比特幣快速突破歷史新高後,又開始快速回檔,這樣震盪的行情一定讓幾家歡喜幾家憂。因此我們打算開一系列的比特幣程式交易系列,來讓大家透過Python 分析比特幣的買賣點,讓數據分析能引領我們獲利。系列的第一個課程,便是要教大家先透過Poloniex 的 API 獲取歷史報價資訊,並用Plotly 將數據繪製成我們熟知的 K 線圖。 影片: https://largitdata.com/course/138/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_138.ipynb #程式交易 #比特幣 #BTC #API串接 #Python網路爬蟲

開始上課

數字(Numeric)

  • Mon 23 May 2022

數字(Numeric)

開始上課

[深度學習] 如何建構深度學習模型分辨誰是屈中恆、宋少卿、鈕承澤 (1)?

  • Tue 11 Dec 2018

最近因爲鈕承澤一案導致一個需要分辯屈中恆、宋少卿、鈕承澤的驗證碼被頻頻瘋傳。因此我們就想要利用深度學習中的卷積神經網路,讓電腦能夠自動辨別圖片中的人物!當然要建構模型先要有素材,因此我們就先撰寫了一個Python 網路爬蟲,嘗試先把這三個明星的圖片從Google 的圖片搜尋中爬取下來,並加以存檔,我們之後便可以利用這些素材來建構我們的人臉識別模型! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_110.ipynb

開始上課

如何安裝 R (3.2.0 for Windows)

  • Mon 11 May 2015

開始R系列摟~ R 是資料分不可或缺的利器,也是資料分析的好夥伴,在這章節中,我們將介紹如何在Windows 上安裝 R 3.2.0。

開始上課

[實價登錄分析] 如何使用Python Pandas 讀取實價登錄網的資料?

  • Fri 09 Sep 2016

實價登錄資料反映了現在市場房屋的交易行情,善用這個資料,便可以分析目前的房市景氣。當然,做資料分析前,我們會需要將資料讀進Python 做分析,因此在這個教學中,我們將先教各位如何使用Python Pandas 讀取實價登錄資料,並且教大家該如何透過Linux 工具 iconv 做編碼的轉換與清理。

開始上課

超快速! 如何五分鐘啟用Amazon EC2雲端主機

  • Wed 13 May 2015

今天要教各位如何在五分鐘內於AWS (https://aws.amazon.com)上快速啟用一個免費的EC2雲端主機

開始上課

[Open Jarvis] 如何讓Python 自動將語音轉譯成文字?

  • Mon 13 Feb 2017

終於開始我們的Open Jarvis Project 了,首先第一步,便是讓電腦自動能將我們所說的話轉譯成文字。語音辨識當然很難,但所幸透過Python 的 SpeechRecognition 套件,我們便可以順利使用各大公司提供的語音辨識API,幫我們把語音轉譯成文字瞜!

開始上課

數字練習題

  • Mon 23 May 2022

數字練習題

開始上課

字串 (String)

  • Mon 23 May 2022

字串 (String)

開始上課

字串練習題

  • Mon 23 May 2022

字串練習題

開始上課

輸出格式(Print Format)

  • Mon 23 May 2022

輸出格式(Print Format)

開始上課

資料輸入

  • Mon 23 May 2022

資料輸入

開始上課

輸入與輸出練習題

  • Mon 23 May 2022

輸入與輸出練習題

開始上課

Python 資料結構速覽

  • Mon 23 May 2022

Python 資料結構速覽

開始上課

清單 (List) 簡介

  • Mon 23 May 2022

清單 (List) 簡介

開始上課

清單 (List) 練習題

  • Mon 23 May 2022

清單 (List) 練習題

開始上課

[實價登錄分析] 如何使用Python Pandas 整併歷年實價登錄資訊…

  • Wed 14 Sep 2016

只有整理一季的資料是沒有辦法做全面的房價分析的,因此我們先把歷年的實價登錄資訊解壓縮後放在各目錄夾,將各季資料讀到Pandas 的 Data Frame 之中後,便可以使用Pandas 的 Concat 指令合併所有的Data Frame,之後我們便可以選擇是否用describe 指令取得敘述性統計還是使用to_excel 功能將資料寫進excel 檔之中。

開始上課

如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha…

  • Sat 16 May 2015

本次教學將教各位如何透過OpenCv,以影像辨識的手法將台灣證券交易所買賣日報表五碼驗證碼獨立分解成五個單一文字,以利之後透過機器學習演算法(Machine Learning)辨識圖像文字(OCR)。

開始上課

[比特幣程式交易] 如何使用TA-Lib快速建立比特幣技術分析指標?

  • Wed 20 Jan 2021

透過TA-Lib我們可以快速建立158 種常見的技術分析指標,讓我們運用TA-Lib 計算比特幣的平均移動線(SMA)、KD 指標、RSI 指標與MACD,再透過Plotly 做圖表的整合。讓我們在一張視覺化圖表,迅速掌握技術指標與買賣點的關係。 影片: https://largitdata.com/course/139/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_139.ipynb #程式交易 #比特幣 #BTC #TALib #技術指標分析

開始上課

字典 (Dictionary) 簡介

  • Mon 23 May 2022

字典 (Dictionary) 簡介

開始上課

如何在Windows上 安裝 RStudio

  • Mon 11 May 2015

當安裝完成R以後,我們便可以透過RGui 來操作R。但畢竟RGui 的功能有限,導致我們在開發上沒有那麼靈活,因此這時候我們便可以使用RStudio,讓開發及維護R能無往不利。

開始上課

[Open Jarvis] 如何用Python 讓電腦說話?

  • Tue 28 Mar 2017

只有讓電腦幫我們把語音轉文字有點孤單,我們還是希望跟電腦能透過語音互動!這時我們可以使用gTTS 這個套件把文字轉換成語音,再透由pygame 做音檔播放。我覺得我也可以開始當卡提諾狂小編了~

開始上課

如何使用Jupyter 操作 Spark?

  • Sun 31 May 2015

除了透過IntelliJ IDEA 建立Spark 開發環境外,如果可以像Python 一樣可以透過Jupyter 記錄所有開發內容,那該會有多方便。所幸真的有大神建立ISpark 這樣的解決方案,本教學將教您怎麼一步步的在Ubuntu 14.04 中連結Jupyter 跟 Spark,讓您建立一個簡易好用的開發環境!

開始上課

如何在五分鐘內透過AWS的EMR服務快速開啟一個Hadoop叢集?

  • Wed 20 May 2015

想要玩巨量資料,卻不會架設Hadoop?或苦無資源快速建立5台以上的Hadoop 叢集?善用Amazon 提供的 EMR (Elastic MapReduce) 服務(還要準備一張能夠付費的信用卡),便可以讓你在五分鐘內就可以架設20台的Hadoop 叢集,讓巨量資料分析變得不可能再簡單! 當然,如果你有興趣了解更多Hadoop 與其Ecosystem 的運作跟實務的話,也歡迎參考我跟Tibame 共同開設的線上課程: http://goo.gl/XlS82W

開始上課

[深度學習] 如何建構深度學習模型分辨誰是屈中恆、宋少卿、鈕承澤 (2)?

  • Wed 12 Dec 2018

繼抓取屈中恆、宋少卿、鈕承澤等三位明星照片後,還是需先擷取出圖片中的臉部圖片,方能建構人物識別模型。因此我們先在作業系統上安裝opencv3,接者透過opencv 所提供的 haar 分類器偵測臉部特徵,程式便能裁切出臉部圖片,並將裁切圖片存入目標資料夾,以備後續建模之用! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_111.ipynb https://www.largitdata.com/course/111 #大數軟體 #鈕承澤 #卷積神經網路 #Python網路爬蟲 #深度學習

開始上課

[資料產品實作] 如何取得臉書使用頻率最高的文字 (Part 3)?

  • Thu 26 Nov 2015

當然只有表列出在臉書最常使用的文字頻率是還不夠的,最好能夠像vonvon 一樣,用文字雲呈現才能一目了然最常使用的文字。不過,該怎麼繪製文字雲呢?當然你可以使用d3.js,但我們其實可以使用更簡單的Tableau Public,讓你第一次畫文字雲就上手!

開始上課

[Selenium] 如何使用 Selenium 查找元素定位?

  • Tue 26 Jun 2018

使用Selenium開啟瀏覽器後,我們便可以開始尋找網頁元素定位,並針對該元素進行操作。這邊介紹了幾個常用的定位方法: find_element_by_id, find_element_by_class_name, find_element_by_name, find_element_by_css_selector, find_element_by_xpath 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_104.ipynb

開始上課

[Scrapy 爬蟲] 如何從蘋果新聞的清單聯結抓取下一層的內容頁面?

  • Tue 23 Feb 2016

取得第一頁的清單聯結後,我們可以在scrapy 爬蟲中使用yield 產生器(generator) 產生一個scrapy 請求以抓取下一層的內容頁面,並用BeautifulSoup 剖析內容後,得到內容頁的標題資訊。

開始上課

[RPA] 如何使用 PyAutoGUI 突破 reCAPTCHA 順利下…

  • Mon 29 Jul 2019

如果要做上櫃股票交易,勢必要搞清楚籌碼面的動向,才能掌握資金流向。但櫃買中心有使用 reCAPTCHA 防堵爬蟲抓取資料。為了突破reCAPTCHA的限制,我們便使用PyAutoGUI 完成所有自動化操作,讓「我不是機器人」的驗證機制不再成為我們完成自動化投資的阻礙! 影片: https://largitdata.com/course/115/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_115.ipynb #PyAutoGUI #reCAPTCHA #券商買賣證券日報表

開始上課

如何在Windows下安裝git?

  • Sun 12 Apr 2015

接下來我們介紹,該如何下載及安裝git 至Windows 之中。 首先先到http://git-scm.com/ 點選 Downloads for Windows, 再依安裝選單步驟進行安裝。

開始上課

字典 (Dictionary) 練習題

  • Mon 23 May 2022

字典 (Dictionary) 練習題

開始上課

元組 (Tuple) 簡介

  • Mon 23 May 2022

元組 (Tuple) 簡介

開始上課

集合 (Set) 簡介

  • Mon 23 May 2022

集合 (Set) 簡介

開始上課

Python 陳述與控制流程速覽

  • Mon 23 May 2022

Python 陳述與控制流程速覽

開始上課

Python 運算式與陳述

  • Mon 23 May 2022

Python 運算式與陳述

開始上課

Python 運算式與陳述練習題

  • Mon 23 May 2022

Python 運算式與陳述練習題

開始上課

錯誤與例外

  • Mon 23 May 2022

錯誤與例外

開始上課

錯誤與例外練習題

  • Mon 23 May 2022

錯誤與例外練習題

開始上課

FOR 迴圈

  • Mon 23 May 2022

FOR 迴圈

開始上課

開始使用Python撰寫網路爬蟲 ( Crawler )

  • Wed 15 Apr 2015

開始使用Python 撰寫網路爬蟲( Crawler ),首先必須安裝用Python 的套件管理工具pip 安裝兩個套件: 1. Requests 網路資源(URLs)擷取套件 2. BeautifulSoup4 HTML剖析套件

開始上課

如何安裝Spark-Notebook 在Ubuntu?

  • Tue 02 Jun 2015

繼上次講述如何使用ispark 整合 Jupyter 和 Spark 後,本次將介紹一個更優秀的專案spark-notebook,除了可以使用記事本(notebook)的形式存取Spark 外,更可以透過WISP,使用簡單幾個指令就可以用d3.js 產生svg 圖檔,除做資料分析之餘,更可產生可互動的視覺化的圖表!

開始上課

[比特幣程式交易] 如何使用 Backtesting.py回測交易策略?

  • Tue 26 Jan 2021

產生交易策略後,我們必須要透過回測來驗證我們的策略是否能穩定獲利。因此我們運用了 Backtesting.py 針對均線交叉策略、KD交叉策略進行回測,最後再透過 Backtesting.py 將交易策略、Profit/Loss、資產變化透過Bokeh 做視覺化呈現,讓我們能快速掌握各交易策略的優劣。 影片: https://largitdata.com/course/140/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_140.ipynb #程式交易 #比特幣 #BTC #Backtesting #策略回測

開始上課

[Selenium] 如何使用 Selenium 操作網頁元素?

  • Wed 01 Aug 2018

學習過如何用Selenium 查找網頁元素後,該是學習如何點擊網頁按鈕了。透過 click 便可以點擊網頁元素,透過 send_keys 便可以送出內容。透過Selenium,自動化操作就是這麼簡單! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_105.ipynb 另外,我們目前正在招募網站可靠工程師,請有意者發履歷給我們歐: https://www.104.com.tw/job/?jobno=6b8zr&jobsource=checkc

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 1)?

  • Mon 15 Jun 2015

用Spark 進行機器學習? 其實非常簡單,只要將資料整理出特徵(Feature) 跟標籤 (Label),就可以透過MLlib 所提供的眾多演算法快速分類資料。這時電腦就不只會選土豆,更可以預測電信業客戶是否流失!但要分類之前,我們得先把資料整理好!讓我們來看看該怎麼整理出分類演算法可以吃的資料格式吧!

開始上課

FOR 迴圈練習題

  • Mon 23 May 2022

FOR 迴圈練習題

開始上課

[交易系統] 如何抓取三大法人買賣金額統計表(Part 2)?

  • Tue 28 Apr 2015

繼上次教學過該如何使用Python 的 Requests 取得三大法人買賣金額統計表內容後,這次教學該如何透過 BeautifulSoup 4,使用css selector 抓取三大法人買賣的資訊!

開始上課

如何在Windows下開始使用git?

  • Mon 13 Apr 2015

本篇將教學如何使用git 可以透過三種方法操作git * git bash * git gui * 命令提示字元

開始上課

在Windows中如何使用金鑰登入Amazon EC2 雲端主機

  • Thu 14 May 2015

在申請好雲端主機後,我們必須透過pem 金鑰登入到雲端主機中。但是在Windows 中,如果我們要使用PuTTY 或 PieTTY 登入時,就必須先透過PuTTYgen 將pem 轉成ppk 以後,方能用ppk 登入到雲端主機中。

開始上課

[深度學習] 如何建構深度學習模型分辨誰是屈中恆、宋少卿、鈕承澤 (3)?

  • Fri 28 Dec 2018

當我們能夠抓取到屈中恆、宋少卿、鈕承澤的圖片,並把他們的臉部特徵用OpenCV 擷取出來後,我們便可以使用卷積神經網路(Convolution Neural Network) ,透過卷積(Convolution),最大池化(Max Pooling),平化(Flattening)與全連結(Fully Connected) 訓練一個模型,識別出三人的圖片,並透過OpenCV 標示出所有人的臉部,並在上面加上注釋文字! 如果有志學習更多相關深度學習知識的同學 不妨參考我的線上課程: 1. 手把手教你用Python 实践深度学习 https://edu.hellobi.com/course/278 2. 人人都爱数据科学家!Python数据科学精华实战课程 https://edu.hellobi.com/course/159 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_112.ipynb https://www.largitdata.com/course/112 #大數軟體 #鈕承澤 #卷積神經網路 #OpenCV #Python網路爬蟲 #深度學習

開始上課

[Scrapy 爬蟲] 如何使用items.py整理Scrapy 爬取下來…

  • Wed 24 Feb 2016

使用Scrapy 所提供的items.py可以將Scrapy 爬蟲爬取到的資料結構化。之後便可以在爬蟲主程式建立物件,存放爬取下來的資料。最後可以透過scrapy crawl apple -o apple.json -t json 指令,將資料整理成JSON 檔,以利之後操作。

開始上課

如何使用R 的 Quantmod 套件快速蒐集股價資訊並計算技術指標?

  • Sun 24 May 2015

除了自己寫程式蒐集股價資訊並產生技術指標外,使用既有的套件可能是更簡單的方法。在R 裡面,你便可以透過安裝 Quantmod 來快速蒐集各股票的資訊,以不可能再簡單的方式計算技術指標。

開始上課

如何透過OpenCV 破解台灣證券交易所買賣日報表的驗證碼(Captcha…

  • Sun 17 May 2015

繼上一次我們已經可以將驗證碼分解成獨立的字母圖片後,接下來便可以透過OCR 技術辨識圖像文字,在這邊我們將圖片變更成同一大小後(resize),我們先試著使用pytesser 做圖片辨識,但是發現效果不佳,因此我們土炮式的用Word 建立基準圖片後,使用簡單的Mean Square Error 計算兩張圖片的相似度,果然簡單的最好,輕輕鬆鬆破解惱人的驗證碼。 想收到更新訊息,請至Facebook粉絲團按讚: https://www.facebook.com/largitdata

開始上課

WHILE 迴圈

  • Mon 23 May 2022

WHILE 迴圈

開始上課

WHILE 迴圈練習題

  • Mon 23 May 2022

WHILE 迴圈練習題

開始上課

如何安裝 Jupyter (Ipython Notebook)

  • Thu 07 May 2015

今天要跟各位介紹個好用的工具"Jupyter"!Jupyter 提供一個網頁介面,讓使用者可以透過瀏覽器連線進網頁服務,並在上面進行Julia, Python 或 R 程式的開發與維護!功能相當強大,不可錯過!之後我們會陸續介紹到它有多麼好用!

開始上課

迭代器 (Iterator)

  • Mon 23 May 2022

迭代器 (Iterator)

開始上課

函式速覽

  • Mon 23 May 2022

函式速覽

開始上課

函式簡介

  • Mon 23 May 2022

函式簡介

開始上課

函式練習題

  • Mon 23 May 2022

函式練習題

開始上課

Jupyter 操作入門 (1)

  • Sun 10 May 2015

Jupyter 可以說是開發、維護Python 程式的好幫手,今天介紹該如何在Jupyter 中引入pylab 進行繪圖、使用類linux 指令觀看當前目錄的檔案、執行python 程式,以及如何使用MathJax 繪製數學方程式。

開始上課

匿名函式 (Lambda)

  • Mon 23 May 2022

匿名函式 (Lambda)

開始上課

巢狀陳述與範圍

  • Mon 23 May 2022

巢狀陳述與範圍

開始上課

裝飾器(Decorator )

  • Mon 23 May 2022

裝飾器(Decorator )

開始上課

生成器(Generator)

  • Mon 23 May 2022

生成器(Generator)

開始上課

如何使用GET 抓取網頁內容?

  • Thu 16 Apr 2015

為大家示範Python如何使用簡單三行程式碼就可以抓取淘寶網的網頁內容 範例網頁: http://tw.taobao.com/product/%E5%A4%9A%E6%A8%A3%E5%B1%8B-%E8%91%AB%E8%98%86-%E4%BF%9D%E6%BA%AB%E6%9D%AF.htm

開始上課

[交易系統] 如何產生不同天期的交易資訊?

  • Thu 30 Apr 2015

繼上次談過該如何存取及剖析三大法人買賣金額以後,我們該開始動手把所有的資料爬取下來,但是首先要面對的是不同日期的問題,因此我們這次教學該如何透過timedelta產生不同日期的資訊

開始上課

[Selenium] 如何使用 Selenium 撰寫網路爬蟲?

  • Wed 15 Aug 2018

學會如何使用Selenium 建立自動化流程以後,我們就可以開始爬取頁面內容了。Selenium 只要呼叫 page_source 屬性,便可以抓取當前所有頁面的原始碼,再搭配BeautifulSoup,任何瀏覽器瀏覽得到的頁面,都會成為你網路爬蟲的爬取對象! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_106.ipynb

開始上課

[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬…

  • Fri 26 Feb 2016

當使用scrapy 抓取資料後,會將每個item 傳遞給 pipelines。在pipeline 中可以:1. 清理網頁資料 2. 驗證抓取資料 3. 去重覆化 4. 將資料儲存至資料庫。 在範例中,我們在pipelines.py: 1. 設置 open_spider: 開啟資料庫連線,建立表格 2. 設置close_spider: 認可交易(commit),關閉資料庫連線 3. 設置process_item: 將資料儲存至sqlite 中 。最後在 settings.py 啟用pipelines 的設定。

開始上課

物件導向程式設計速覽

  • Mon 23 May 2022

物件導向程式設計速覽

開始上課

物件(Object)

  • Mon 23 May 2022

物件(Object)

開始上課

類別(Class)

  • Mon 23 May 2022

類別(Class)

開始上課

物件與類別練習題

  • Mon 23 May 2022

物件與類別練習題

開始上課

如何使用POST 抓取網頁內容?

  • Sun 19 Apr 2015

POST 是另一種HTTP 請求方法,讓你可以將請求資訊包裝起來後,再送至伺服器以取得回應資訊,在Python 中使用POST 的方法一樣簡單,只需將請求資訊以字典做包裝即可,本單元將敎您如何使用POST 方法抓取高鐵網頁內容。

開始上課

繼承(Inheritance)

  • Mon 23 May 2022

繼承(Inheritance)

開始上課

特殊方法 (Special Method)

  • Mon 23 May 2022

特殊方法 (Special Method)

開始上課

模組、套件、第三方套件速覽

  • Mon 23 May 2022

模組、套件、第三方套件速覽

開始上課

模組(Module)

  • Mon 23 May 2022

模組(Module)

開始上課

套件(Package)

  • Mon 23 May 2022

套件(Package)

開始上課

第三方套件 (Third Party Package)

  • Mon 23 May 2022

第三方套件 (Third Party Package)

開始上課

如何使用Python 套件: BeautifulSoup4 剖析網頁內容?

  • Fri 17 Apr 2015

終於進到該如何使用BeautifulSoup4 剖析網頁內容的部分了!簡簡單單幾個Select 動作,可以快速幫您抓取非結構化資料中有價值的部分,有了資料,想當然爾,分析只是一步之遙!

開始上課

[深度學習] 如何使用 DeepFakes 技術移花接木影片人物的臉(一)?

  • Tue 03 Mar 2020

2017 年,一個工程師利用DeepFakes技術將神力女超人Gal Gadot 的臉移花接木到成人片女星上,引起一陣轟動,也預告利用深度技術偽造影片的時代即將到來。本影片將簡介什麼DeepFakes 技術的原理,以及其背後用到的深度學習模型 AutoEncoder。 影片: https://largitdata.com/course/123/ 參考資料:https://www.alanzucconi.com/2018/03/14/understanding-the-technology-behind-deepfakes/ #深度偽造 #DeepFakes #AutoEncoder

開始上課

如何使用RJDBC 連結到MySQL?

  • Mon 06 Jul 2015

如果要使用程式語言連結到資料庫,一般可以用的方法便為ODBC 及JDBC 兩種方法。R也一樣,提供RODBC 及RJDBC 兩種方法讓使用者選用,本次教學即教使用者該如何下載鏈結JAR 檔及設定連線資訊,讓R可透過RJDBC 連結到資料庫,讓我們取得資料庫中存放的三大法人買賣資訊。

開始上課

如何使用RSelenium 抓取 PTT Food版的內容?

  • Mon 29 Jun 2015

除了可以使用Python 抓取網頁內容外,R也可以搭配Web 自動化測試工具Selenium 進行網頁抓取,只要透過RSelenium 的安裝與使用,使用者便可以於啟用Firefox 瀏覽器後,使用R的腳本抓取網頁內容!

開始上課

[Scrapy 爬蟲] 如何使用Scrapy 的CrawlSpider 實…

  • Tue 01 Mar 2016

Scrapy 有提供CrawlSpider 的類別以實現多網頁爬取的功能。使用方法相當簡單,只要讓爬蟲繼承CrawlSpider類別,並增加抓取規則Rule 至rules 清單中,在LinkExtractor 中增加分頁抓取的規則,便可以順利將符合條件的蘋果新聞資料快速爬取下來。

開始上課

[分類實戰] 如何使用Spark 預測客戶是否流失(Part 2)?

  • Thu 18 Jun 2015

整理完資料後,就可以使用MLlib 提供的決策樹分類資料,全部只要打入神奇的 DecisionTree.train ,就可以建立分類模型,精準預測客戶是否流失!除了預測以外,還可以透由不同的套件計算準確度與AUC,用Spark 分析巨量資料,就是這麼簡單快速!

開始上課

[交易系統] 如何操作SQLite ?

  • Sun 03 May 2015

繼上次講完該如何爬取多天三大法人統計資訊後,我們現在需要一個地方儲存這些資料。與其考量安裝、架設MySQL, PostgreSQL 等資料庫,不如來學習如何Firefox 的SQLite Manager 操作 SQLite,他簡單易用的操作方式,讓資料存放不再您的成為困擾。

開始上課

[交易系統] 如何抓取多天期的三大法人交易資訊?

  • Sat 02 May 2015

在瞭解如何產生不同天期的資訊後,我們便可以利用這個資訊抓取多天期的三大法人交易資訊。我們只要簡單的利用def將重複地抓取動作包裝在Python 的函式中,再加上簡單的迴圈,就可以成功完成多天期的抓取!

開始上課

[資料產品實作] 如何跟vonvon一樣取得在臉書中最難忘的相片?

  • Fri 11 Dec 2015

vonvon 最近又創造一個高人氣話題的服務,讓你取得臉書中最難忘的相片。但在享受服務的同時,我們也可以利用爬蟲(Python Crawler)的力量,做出一模一樣的服務。這次的課程便會引導你如何從取得自己在Facebook 上的相片及按讚統計,然後在排序過按讚最多的聯結後,將所有最難忘的臉書照片爬取下來!

開始上課

[Selenium] 如何設定 Selenium 中的隱含等待(Impli…

  • Tue 30 Oct 2018

有時在使用Selenium 抓取資料時,如果頁面還沒順利載入,很可能就會吐NoSuchElementException 的錯誤訊息,這時善用implicit_wait 的功能,就可以等待頁面載入完後再執行後續動作,讓抓取流程能順利進行下去! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_107.ipynb

開始上課

用第三方套件打造"真"對話機器人

  • Mon 23 May 2022

用第三方套件打造"真"對話機器人

開始上課

第三方套件練習題 - 運用結巴斷詞

  • Mon 23 May 2022

第三方套件練習題 - 運用結巴斷詞

開始上課

檔案、Pythonic、Python 總複習

  • Mon 23 May 2022

檔案、Pythonic、Python 總複習

開始上課

檔案簡介

  • Mon 23 May 2022

檔案簡介

開始上課

[爬蟲實戰] 如何抓取心食譜的食譜資訊?

  • Mon 20 Apr 2015

今天要示範如何使用CSS Selector 的nth-of-type 抓取特定位置的食譜資訊。示範網頁於下列URL: http://goo.gl/TgEr3l

開始上課

Pythonic

  • Mon 23 May 2022

Pythonic

開始上課

Python 總複習 - 用Python 分析川普演說文最常出現字詞(Wo…

  • Mon 23 May 2022

Python 總複習 - 用Python 分析川普演說文最常出現字詞(Word Count)

開始上課

結尾

  • Mon 23 May 2022

結尾

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲快速找出1111購物狂歡節折…

  • Sat 10 Nov 2018

1111 購物狂歡節即將到來,想必精打細算的你,應該已經列好購買清單了吧!如果你真不知道該購買哪些商品的話,為何不嘗試看看使用數據做決策? 在本課程中,我們將先透過Python 的requests 套件撰寫 Python 網路爬蟲抓取天貓的商品頁面,接者透過 json 與 pandas 套件整理商品資訊,最後將使用pandas 提供的資料排序功能,幫助你快速找出折扣最多的商品! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb

開始上課

如何安裝及使用SparkR?

  • Sat 20 Jun 2015

Spark 在最近釋出的1.4 版中有包入SparkR,讓資料分析語言神器R 與巨量資料新星Spark 可以順利接軌。在RStudio 下的安裝實測,發現安裝步驟相當簡單,使用上跟RHadoop 撰寫MapReduce般雷同。唯探索後其專案測試檔後,發現部分機器學習還是得自行撰寫,除了透過rJava外沒法直接呼叫MLlib,是目前讓人最失望的一塊。

開始上課

[交易系統] 如何清理爬蟲所抓取下來的金額資訊?

  • Tue 05 May 2015

知道要把資料存放到資料庫之前,我們還有一個步驟要完成,就是要清理抓取下來的資訊。但是如果碰到我們常見的金額資料,該如何把千進位所帶的逗號符號拿掉呢? 這邊教各位一個應用split 跟join 的小技巧,讓大家可以無痛的做金額轉換!

開始上課

[Scrapy 爬蟲] 如何設置 Job 以分段爬蟲任務?

  • Sun 13 Mar 2016

在爬取大型網站時,常會需要將爬取任務分段,所幸我們可以在Scrapy中透過 -s JOBDIR=DIR 暫停及回復任務(Job)暫停,讓頭痛的任務管理留給Scrapy 處理。

開始上課

該如何使用git init 建立程式碼版本的儲存空間?

  • Tue 21 Apr 2015

繼前一節教學過該如何安裝git 之後,接下來我們來建立程式碼的儲存庫吧! 儲存庫(Repository) 即是用來儲存所有版本的一個空間,要建立Repository,只要使用 git init 指令,便可以設立儲存庫進行版本控制!

開始上課

[RPA] 如何使用 Selenium 自動下載漫畫 (1)?

  • Mon 12 Aug 2019

講這個專題的原因只是因為我想看漫畫!但與其每次一一點選,不如寫個爬蟲將過程自動化吧。我們先運用了Selenium 自動開啟漫畫頁面,再接者使用BeautifulSoup 解析圖片位置,最後再使用 Requests 下載所有圖片。讓我們看個漫畫也能有滿滿的黑客精神! 影片: https://largitdata.com/course/116/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_116.ipynb #Selenium #Python爬蟲 #Python Crawler

開始上課

如何使用Python 的requests 及BeautifulSoup4 …

  • Sat 18 Apr 2015

既然已經知道如何使用requests 抓取頁面內容,也懂得如何使用BeautifulSoup4 剖析有用資訊,接下來我們就進入實戰階段,示範如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲!

開始上課

[深度學習] 如何使用 DeepFakes 技術移花接木影片人物的臉(二)?

  • Mon 09 Mar 2020

能實作DeepFakes 的工具有很多,但其中最知名的便是DeepFaceLab。我們在這個章節先講述DeepFaceLab 的流程,我們就能套用這流程,實做DeepFakes 變臉技術 影片: https://largitdata.com/course/124/ 參考資料:https://github.com/iperov/DeepFaceLab #深度偽造 #DeepFakes #DeepFaceLab

開始上課

探索Facebook 隱藏的秘密: 使用Graph API

  • Wed 22 Apr 2015

今天來說些好玩的,教學大家該如何使用Facebook Graph API 探索個人的隱私,想測試使用Graph API,可以連線到 Facebook Developer Page: https://developers.facebook.com/

開始上課

[交易系統] 如何透過Python 操作SQLite3?

  • Thu 07 May 2015

既然我們已經爬取並清理過三大法人交易金額以後,我們便可以把清理完的資訊存入資料庫之中,以便後續分析。本章即教學該如何透過Python 指令以及sqlite3 模組操作資料庫finance.sqlite,並示範如何成功將資訊存入表格之中!

開始上課

[RPA] 如何使用 img2pdf 將圖檔合併成 pdf 檔 ?

  • Thu 22 Aug 2019

即使下載了滿滿的漫畫,閱讀上如果不方便的話也是很惱人的。因此我們必須要能夠使用img2pdf把所有圖檔合併成pdf,這樣才能讓我們以流暢的瀏覽方式,快速看完所有漫畫。 影片: https://largitdata.com/course/117/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_117.ipynb #img2pdf #RPA #Python自動化

開始上課

[深度學習] 如何使用 DeepFakes 技術移花接木影片人物的臉(三)?

  • Mon 16 Mar 2020

DeepFakes 技術已經讓影片造假變成是再容易不過的一件事!我們這次即透過DeepFaceLab 的程式碼實作 DeepFakes,嘗試將鋼鐵人的臉移花接木到我的臉上,讓所有人知道,即使你不會Photoshop,也可以偽造出真實度超高的影片出來。 p.s. 由於Google Colab 有免費提供Tesla P100 的 GPU,為了加速深度模型的訓練與實做,這次我們即運用Google 的 Colab 完成我們的模型訓練 影片: https://largitdata.com/course/125/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_125.ipynb #DeepFakes #DeepFaceLab #DeepLearning #深度偽造 #鋼鐵人

開始上課

[深度學習] 如何不花一毛錢就可以透過 DeepFakes 技術出演魷魚遊…

  • Mon 25 Oct 2021

DeepFakes (深偽) 技術近期遭到有心人濫用,將政治人物、演藝明星的臉合成於不雅成人影片,引起社會動盪不安,但不代表深偽技術應該被責難,我們還是可以運用深偽技術產生很多有趣的應用。就像你如果想要看到自己演出近期轟動全球的魷魚遊戲,我們這時可以透過深偽技術變臉,讓自己能夠身歷其境!本教學影片中,將示範什麼是 DeepFakes (深偽) 技術,並解說其中的原理。 教學影片: https://largitdata.com/course/149/ #Deepfakes #Autoencoder #DeepLearning #深偽技術 #深度學習 #魷魚遊戲

開始上課

[爬蟲實戰 ]如何模擬用戶代理 (User Agent) 成功存取目標網頁…

  • Mon 27 Apr 2015

有的網頁伺服器,會透過檢查用戶代理(User Agent),以限制爬蟲存取頁面內容,此時我們只要在標頭上增加自身瀏覽器所使用的用戶代理(User Agent) 就可成功騙過對方伺服器,存取網頁內容!我們便能使用這技術成功抓取永慶房屋的房價資訊瞜!

開始上課

[深度學習] 如何使用 YOLO 製作即時口罩檢測系統(一) - YOLO…

  • Mon 13 Apr 2020

新冠肺炎持續延燒,為了能夠確保大家的健康,各個機關或學校都動用了大量的人力來檢測是否每人都有配戴口罩,為了能夠減少檢測人力,我們要使用YOLO (You only look once)來搭建一個口罩檢測系統,讓人工智慧快速幫我們檢測是否每個人都有乖乖配戴口罩,保障大家的健康!在教學的第一個步驟,我們將先介紹什麼是YOLO,以及在Colab 上如何安裝YOLO。 影片: https://largitdata.com/course/126/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_126.ipynb #DeepLearning #YOLO #COVID19 #新冠肺炎 #口罩檢測

開始上課

探索Facebook 隱藏的秘密: 使用Python 存取 Faceboo…

  • Wed 22 Apr 2015

緊接著上一段,如何使用Graph API 存取FB 資訊後,我們接者示範只要擷取access token 後,把access token 資訊填入Graph API 中即可透過Python 的requests取得個人資訊(ID, 最喜歡的運動員)

開始上課

[爬蟲實戰] 如何爬取PTT的網頁?

  • Thu 23 Apr 2015

本次實戰將教您如何從PTT 的Food版(https://www.ptt.cc/bbs/Food/index.html)v抓取鄉民寶貴的言論,以利之後做美食的文字探勘分析!

開始上課

[RPA] 如何使用 Line Notify 取得第一手通知?

  • Mon 16 Sep 2019

已經學會下載了漫畫,那該如何得到最新漫畫的通知呢?那就靠Line Notify吧!只要將Line Notify 機器人加到我們的群組中,隨時有最新訊息就可以透過機器人發送,讓你永遠不漏接最新訊息。 影片: https://largitdata.com/course/118/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_118.ipynb #LineNotify #RPA #Python自動化

開始上課

[交易系統] 如何透過Python 將抓取下來的金額資訊存入資料庫中?

  • Fri 08 May 2015

終於到了最後一步,學會使用Python 將資料存入資料庫後,我們就可以將抓取下來的三大法人統計資訊存到資料庫finance.sqlite 中了。有了資料,分析只剩一步之遙摟!

開始上課

[爬蟲實戰] 如何剖析PTT的網頁?

  • Fri 24 Apr 2015

繼之前教學過該如何透過requests 的 get 取得PTT 網頁內容後,還必須將有意義的結構化資訊從回傳的原始碼之中抽取出來,本範例將介紹該如何使用 BeautifulSoup4 將發文者的文章標題、作者及發文時間剖析出來!

開始上課

[爬蟲實戰] 如何告訴PTT我已滿18並順利抓取八卦版的文章 ?

  • Mon 08 Jun 2015

雖然已滿18歲多年,但是不知道你實際年齡的PTT,還是要禮貌性的問你是否滿18後­,才能讓你閱讀八卦版裡面的內容,但人可以做點選,爬蟲呢?於是我們便可以先透過Ch­rome開發人員工具快速找到如何使用POST方法通過18歲驗證後,再接續之前的S­ession,就能順利存取八卦版的內容!

開始上課

[爬蟲實戰] 如何抓取圖表內的價格資訊?

  • Sat 25 Apr 2015

今天我們將示範如何使用Python 的正規表達法(re.search)抓取匯率網站圖表內的價格資訊!示範網址如下:http://goo.gl/rrq67Z

開始上課

[深度學習] 如何使用 YOLO 製作即時口罩檢測系統(二) – 建立口罩…

  • Thu 16 Apr 2020

在安裝完YOLOv3的安裝程序後,我們開始要建立我們的口罩檢測模型。要做人工智慧前,必定先要有人工標記的資料集,因此我們先下載Kaggle 上的口罩資料集 (https://www.kaggle.com/vtech6/medical-masks-dataset/data),並將資料上載至Google Drive,接者將標注好的Label XML ,轉換為YOLOv3 可以接受的輸入格式。設定好模型所需之設定檔案(obj.data, obj.name, train.txt, test.txt, yolov3-tiny.cfg)並下載預訓練模型 darknet53.conv.74後,我們便可以開始訓練我們的口罩檢測模型了! 影片: https://largitdata.com/course/127/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_127.ipynb #DeepLearning #YOLO #COVID19 #新冠肺炎 #口罩檢測

開始上課

[RPA] 如何透過 Line 發送最新一集的漫畫?

  • Thu 24 Oct 2019

最終我們必須要把整個漫畫自動發送的流程串接起來!因此我們先將目前抓到的漫畫集數存放至SQLite 之中,之後再跟爬蟲結果做個比對,取得目前還未抓取的集數。再透過Selenium 爬取新集數後,便可以透過Line Notify 發送最新的漫畫圖片。這時便可以將看漫畫這件事變得輕鬆簡單,且有趣! 影片: https://largitdata.com/course/119/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_119.ipynb #SQLite #LineNotify #Selenium #RPA #Python自動化

開始上課

[其他專題] 運用數據科學分析Wordle 該從哪個字開始猜?

  • Sat 12 Feb 2022

最近Wordle 的遊戲很火紅,許多人每天都絞盡腦汁想要想出當天的字謎。但其實猜字謎是有訣竅的,如果一開始就能夠選出涵蓋範圍最廣的字,就能夠得到比較多提示。但是哪個字的涵蓋範圍最廣呢?這邊我們就可以使用nltk 搭配 pandas 分析出 ceria 與 corey 是個不錯的起始字! 快來看看我們是怎麼分析的! 影片: https://largitdata.com/course/152/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_152.ipynb 對了!我們最近在徵資深前端工程師,意者請洽: 104 https://www.104.com.tw/job/7iw9u?jobsource=checkc cakeresume https://www.cakeresume.com/companies/largitdata/jobs/senior-front-end-engineer-7f5d73 yourator https://www.yourator.co/companies/LargitData/jobs/22267 #wordle #nltk #pandas #資料科學 #數據科學

開始上課

[深度學習] 如何使用 YOLO 製作即時口罩檢測系統(三) – 建立即時…

  • Tue 21 Apr 2020

在訓練好YOLOv3口罩檢測模型後,我們便可以結合模型與攝影機畫面,建立即時口罩檢測系統。但原本的模型是使用darknet 所調動的,所以我們改透過opencv讀取模型,再結合opencv 提供的攝影機擷取功能,便可以建立一個即時口罩檢測系統,馬上來看看鏡頭下的人是否都有戴好口罩! 影片: https://largitdata.com/course/128/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_128.ipynb #DeepLearning #YOLO #COVID19 #新冠肺炎 #口罩檢測

開始上課

[爬蟲實戰] 如何簡簡單單突破驗證碼 (Captcha) 限制?

  • Wed 21 Oct 2015

不一定要用OpenCV 做文字辨識才能抓取(Crawl) 網頁資料,有時只要巧妙延續之前做HTTP 請求的Session,並搭配Ipython Notebook 的圖片顯示功能,半自動化的辨識方式也能讓你輕輕鬆鬆抓取有驗證碼 (Captcha) 限制的網頁內容。

開始上課

如何使用API 抓取附近神奇寶貝的位置資訊

  • Wed 20 Jul 2016

雖然Pokemon GO 還沒有在台灣發行,但國外已經有很多神人已找到破解該APP 的方法,讓我們可以輕輕鬆鬆使用API 存取APP 內的資訊,而我們將搶先教學該如何存取其 API 資訊,讓大家都能快速找到附近的神奇寶貝!

開始上課

[Open Jarvis] 如何用不到30行Python程式碼寫出「真‧對…

  • Mon 08 Jan 2018

現在很流行對話機器人,但與其做單純的文字交流,不如真正跟機器人對話吧!結合Course 87 與 88 的素材,我們只要30行不到的程式碼,就可以寫出個「真‧對話機器人」,讓Google 小姐回應你的所有問題吧! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_99.ipynb

開始上課

[深度學習] 如何在Google Colab上安裝與使用 YOLOv4 ?

  • Sun 17 May 2020

YOLO 回來了!YOLO 之父 Joseph Redmon 在今年二月時表示,由於無法忽視自己工作所帶來的的負面影響,宣布退出電腦視覺領域。原本以為YOLOv4應該是不會問世了,沒想到YOLOv4 即橫空出世。 更令人驚喜的是, YOLOv4 在取得與 EfficientDet 同等的效果下,速度是 EfficientDet 的二倍,聽起來是不是非常吸引人?讓我們馬上學習該如何在Google Colab 上安裝並調用 YOLOv4 吧! 影片: https://largitdata.com/course/130/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_130.ipynb #DeepLearning #GoogleColab #YOLOv4 #大數學堂 #大數軟體

開始上課

[爬蟲實戰] 如何抓取591租屋網的資訊?

  • Wed 29 Apr 2015

今天要為各位講解當網頁是透過AJAX 換頁時該如何觀察及爬取換頁資訊,同場加映該如何透過Python 的json 套件讀取json 內容後,將資訊轉換為字典!

開始上課

[爬蟲實戰] 如何透過網路爬蟲將網路圖片存放至SQLite之中?

  • Mon 04 May 2015

除了能抓取網路上的文章內容,網路爬蟲也能將美美的圖片放置到資料庫之中歐!本次教學先將教各位透過設定stream =TRUE,以將網路圖片抓取下來,之後透過shutil 的copyfileobj 將圖片存放置檔案,接者於建立一個可以存放blob 資料的資料表之中,我們就可以將圖片存放置資料庫之中了!

開始上課

[爬蟲實戰] 如何抓取某知名財報網站的資訊 ?

  • Sat 30 May 2015

即使針對網站做層層保護,但只要爬取資料的觀念對了,破解任何網站只是時間的問題。如­同這知名財報網站(https://goo.gl/7Q2v8p),雖有檢查使用者是否是透過爬蟲爬取資料或有使用iframe 做頁面內嵌,都還是難逃被爬取的命運!

開始上課

[爬蟲實戰] 如何抓取淘寶網雙十一購物狂歡節活動網頁中的商品列表?

  • Tue 10 Nov 2015

又來到購物血拼的雙十一購物狂歡節了,雖然淘寶 (Taobao) 前一次的網頁改版,讓抓取資料開始變的棘手,但檔不了我們或取購物資訊的熱情!這次,就是要敎你如何用Python 網路爬蟲 (Python Crawler)將雙十一購物狂歡節活動網頁中的商品列表抓取下來。

開始上課

[時間序列] 如何抓取電影 「復仇者聯盟4-終局之戰」的票房數據?

  • Thu 23 May 2019

看完「復仇者聯盟4-終局之戰」(Avengers: Endgame) ,想必大家一定期待該電影能打破阿凡達 (Avatar) 的票房紀錄,躍升為影史最賣座的電影。那就讓我們來建立一個時間序列預測模型來預測是否成真 ?! 但巧婦難為無米之炊,讓我們先用Python 網路爬蟲搜集一下Box Office Mojo 上的票房數據吧! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_113.ipynb

開始上課

[財經爬蟲] 如何透過Python 網路爬蟲抓取Goodinfo 台灣股市…

  • Sun 02 Aug 2020

Goodinfo 台灣股市資訊網 (https://goodinfo.tw/) 蘊藏了許多股票的重要資訊。為了能夠快速分析這些股市資訊,我們希望能打造一個Python 網路爬蟲自動化的爬取各股票的歷年經營績效,但Goodinfo 有設立了防爬蟲機制,因此我們即加上user-agent 讓網站誤以為我們的爬蟲是真人瀏覽行為,我們即可以順利爬取資料。再透過Pandas 的整理功能,我們即可以迅速將網頁轉變成結構化資訊,讓有價值的資料能作輔助我們的投資決策! 影片: https://largitdata.com/course/132/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_132.ipynb #Goodinfo #Python網路爬蟲 #財經爬蟲 #大數學堂 #大數軟體

開始上課

[Open Jarvis] 如何讓對話機器人利用 Wikipedia 回答…

  • Wed 28 Feb 2018

如果是讓機器人只能回答我們的問答集,那就有點無聊了。為了提升機器人的智能,我們可以撰寫一Python 網路爬蟲,讓該爬蟲根據我們的關鍵字到維基百科上搜尋專業知識,並將專業知識的第一段串接到對話流程中,便能讓我們的Open Jarvis 回答專業問題了! http://www.largitdata.com/course/101/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_101.ipynb

開始上課

[爬蟲實戰] 如何抓取淘寶網的商品名稱與價格 (2016年版)?

  • Mon 10 Oct 2016

為了迎接即將到來的雙十一節,更新一下以前淘寶的爬蟲,造福所有想要在當天掌握價格變化,殺進殺出的買賣家。舊的爬蟲只要爬取Document 下的連結,便可很容易獲取商品價格資訊。但淘寶網也在這些時日更新了,變成使用AJAX 的方式填入頁面內容。因此我們便可以從XHR 以及JS 下手,找尋進入點,再使用正規表達法(re),便可以快速的剖析出重要資訊,讓你爬取淘寶網,無往不利!

開始上課

如何徹底解決在Windows上安裝Python 套件的惱人問題?

  • Sun 07 Jun 2015

如果想要在windows 上用Numpy, Pandas玩資料分析,卻又不想裝Anaconda 時,該怎麼解決惱人的套件安裝問題呢?你可以選擇安裝Microsoft Visual C++ Compiler for Python 2.7 (https://goo.gl/nBRz7G) 一次解決套件的安裝問題!

開始上課

[爬蟲實戰] 如何抓取MoneyDJ 文章中的人氣指數?

  • Wed 15 Apr 2015

本教學將教會各位如何使用Python 抓取 MoneyDJ 文章中http://www.moneydj.com/KMDJ/News/NewsViewer.aspx?a=a180a15b-9e4f-4575-b28f-927fcb5c63a3 的人氣指數。 如果想要安裝POSTMAN 的,請到以下網站下載 https://chrome.google.com/webstore/detail/postman-rest-client-packa/fhbjgbiflinjbdggehcddcbncdddomop

開始上課

[Open Jarvis] 如何使用Python寫一個翻譯蒟蒻?

  • Tue 17 Apr 2018

小叮噹的翻譯蒟蒻可說是我們大家共同的童年回憶,但如果我們可以用Python 做出一個翻譯蒟蒻,那就真的很酷了。在這一課中,我們將結合py-googletrans這個專案,用Google 大神翻譯翻譯我們說的中文,讓與外國人溝通不在是件難事! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_102.ipynb

開始上課

[爬蟲實戰] 如何使用Selenium IDE 記錄抓取包含Iframe …

  • Tue 21 Jul 2015

如果要抓取司法院法學檢索系統的檢索內容,通常會碰到因為該查詢結果是鑲嵌在Iframe 中,以致爬蟲無法順利抓取內容。這時就可以使用Selenium 解決抓取的問題。但是該如何寫一個Selenium程式呢? 這時候可以靠Selenium IDE 的幫忙,自動記錄抓取步驟後,並將步驟轉換成Python Script,讓一切爬取動作變得不可能再簡單!

開始上課

[爬蟲實戰] 如何抓取集保戶股權分散表?

  • Wed 05 Aug 2015

雖然我們可以使用requests.post 取得需要POST請求的網頁內容,但我們也可巧妙的使用GET 模擬整個的POST 動作,只需要簡單的將POST 內容編碼後,串接在原網址的問號(?)後面,便可以順利取得裡面的內容。

開始上課

[爬蟲實戰] 如何透過Selenium 自動將頁面捲動至最下方抓取資料?

  • Thu 31 Mar 2016

當碰到瀑布流網站(例如: EZTABLE),抓取資訊就會變得比較困難。但所幸可以使用Selenium 執行Javascript 來解決頁面捲動的問題,在本範例中,我們利用execute_script 執行 window.scrollTo(0, document.body.scrollHeight);,便可順利抓取瀑布流式網頁。

開始上課

[爬蟲實戰] 如何抓取廉價航空的機票價格 – 以酷航為例?

  • Tue 31 May 2016

要能搶的到便宜的廉價航空機票最佳妙方,便是無時無刻關注最新的票價。但上班很忙、上課很累,所以我們還是讓我們的爬蟲代勞吧。因此我們就教大家如何使用爬蟲 (Python Crawler) 抓取酷航(http://www.flyscoot.com/)的最新票價資訊,讓你不再錯失便宜的機票。

開始上課

[爬蟲實戰] 如何在1111購物狂歡節 快速爬取淘寶上的商品資訊?

  • Wed 30 Oct 2019

又來到一年一度的1111購物狂歡節了,在這令人歡欣的購物季節裡,我們來練習一下該如何快速寫一個淘寶爬蟲程式吧!以前的電商網頁都擋東擋西,不太好爬,但是現在都有提供API,能夠讓你快速將商品資訊下載下來,因此我們只要能透過Chrome 的開發人員工具,快速找到API 的端口,就可以透過requests 快速將JSON 格式資料爬取下來。再搭配Pandas強大的資料整理功能,就可以快速將所有資料整理成表格,方便我們閱覽跟分析所有的商品資訊。有了API 的資料源,寫爬蟲就是這麼的輕鬆自在。不信,你可以下來看看! 影片: https://largitdata.com/course/120/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_120.ipynb #Python網路爬蟲 #1111購物狂歡節 #淘寶 #不信你可以下來看看 #大數學堂

開始上課

[爬蟲實戰] 如何在1212購物狂歡節快速爬取momo購物網上的商品資訊?

  • Wed 11 Dec 2019

一年有兩個購物狂歡節,因此我們在雙12 就來學習如何撰寫momo購物網的爬蟲吧!不過momo 購物網有防爬蟲機制,但我們只要加入headers ,騙他我們是真人,這樣他們就無法防止我們的爬取行為了,讓我們快速搜刮所有特價品資訊吧! 影片: https://largitdata.com/course/121/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_121.ipynb #Python網路爬蟲 #1212購物狂歡節 #momo

開始上課

[爬蟲實戰] 如何撰寫Python爬蟲 抓取台灣銀行的牌告匯率?

  • Fri 16 Dec 2016

想知道何時能買進最低價位的日圓嗎? 使用爬蟲通知你就對了!今天我們會使用Python Pandas,極快速的將台灣銀行的牌告匯率抓取下來,並使用Pandas 的語法將匯率資料整理成漂亮的表格。最後,我們便能將整理過的資料存成Excel。讓你出國血拼,硬是划算!

開始上課

[爬蟲實戰] 如何撰寫網路爬蟲快速爬取微博上所有關於新冠肺炎的輿情?

  • Tue 04 Feb 2020

新冠肺炎的疫情鬧得人心慌慌,大家都想知道到底目前疫情延燒到什麼樣的程度。為了能夠快速獲得第一手的輿情訊息,我們開始撰寫一個Python 網路爬蟲快速爬取微博手機版(https://m.weibo.cn/) 的輿情訊息。讓我們可以隨時掌握最新的疫情訊息。 影片: https://largitdata.com/course/122/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_122.ipynb #Python網路爬蟲 #武漢肺炎 #2019-nCoV #微博 #weibo

開始上課

[爬蟲實戰] 如何使用Pandas快速分析上市櫃公司員工的薪資水平?

  • Sun 05 Jul 2020

證交所公佈了上市與上櫃公司非擔任主管職務之全時員工薪資資訊,讓我們得以一窺上市櫃公司員工的薪資水準。以往只有提供薪資平均值,但薪資平均值可能會因為少數員工獲得特別高(低)的薪水,因而拉高(低)了整體平均,導致資訊失真。今年則是加入了中位數的資訊,而中位數因為是將所有員工薪水排序後取最中間的值,因此能夠更客觀地反映該公司給員工的薪資水平。讓我們就馬上來使用Python 的requests 與 pandas 爬取跟分析所有上市櫃公司的薪資水平吧! 影片: https://largitdata.com/course/131/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_131.ipynb #網路爬蟲 #上市櫃公司薪資水平 #平均值與中位數 #大數學堂 #大數軟體

開始上課

[Selenium] 如何使用 Selenium 自動預購PS5?

  • Thu 26 Nov 2020

最近PS5 預購正夯!但手速不夠快的朋友們,不要灰心,我們可以靠撰寫Python 網路爬蟲來快速預購PS5 ! 我們只需要透過Python + Selenium 撰寫一連串自動化點擊程序,並將程序包裝成函式,現在只要輸入商品網址,我們的自助購物小幫手就可以快速在MOMO購物網上幫我們買到想要的PS5摟! 影片: https://largitdata.com/course/137/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_137.ipynb #Python購物小幫手 #PS5 #PS5預購 #Selenium #Python網路爬蟲

開始上課

[爬蟲實戰] 如何使用 Selenium 以及 Python 輕鬆抓取 A…

  • Sun 30 Aug 2015

抓取以Ajax 生成的頁面需要許多時間耐心觀察,才能找到抓取的切入點。但是使用Selenium 可以省去這個麻煩,他的自動點擊跟載入Ajax生成的頁面結果,讓人只消知道元素所在便可抓取資訊,再搭配BeautifulSoup4 強大的解析功能,用Python 抓取網頁,再簡單不過!

開始上課

[爬蟲實戰] 如何使用Selenium 抓取驗證碼?

  • Tue 24 Oct 2017

用Python Requests 擷取驗證碼圖片不是件難事,但用selenium呢? 最簡單的做法就是先存下頁面快照(screenshot),再找尋圖片位置後,根據位置還有圖片大小,我們就可以從頁面中順利擷取出驗證碼,之後只要把驗證碼丟到我們的機器學習引擎辨認,以後就可以讓電腦自動幫我們訂票啦! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb

開始上課

[爬蟲實戰] 如何極速擷取1111購物狂歡節的特價商品資訊?

  • Thu 10 Nov 2016

又來到1111 購物狂歡的季節,除了要瘋狂的Shopping 以外,千萬別忘了用Pyhton 網路爬蟲關注重要的特價訊息! 這次我們將用簡單的爬蟲,抓取天貓主會場的特價商品資料!先用python requests 抓取商品頁面,接者用BeautifulSoup4 抓取位在 .J_dynamic_data 的資料區塊,最後用簡簡單單的json.loads,便可以將資料讀成字典結構,讓妳敗家當下,同時顧好荷包! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_80.ipynb

開始上課

[爬蟲實戰] 如何使用 PANDAS 快速爬取財報表格?

  • Wed 30 Dec 2015

表格是網路上常見擺放數據的格式,除了可以使用BeautifulSoup4做數據的剖析外,最佳能將該資料格式爬取下來的工具可能莫過於PANDAS 莫屬,只要透過簡單的read_html,就可以把網路上看來複雜的表格資訊,快速轉變成DataFrame,納為股票分析的數據源之一!

開始上課

[Selenium] 如何利用Cookie 資訊 自動登入 momo 購物…

  • Sat 31 Jul 2021

繼如何使用 Selenium 自動預購PS5 (https://largitdata.com/course/137/) 的影片,許多朋友來信詢問,有沒有辦法在打開 Selenium 的同時,自動登入 momo 購物網的使用者帳戶中,這樣我們才能更快搶購到我們想要買的商品。因此,在本教學中,我們介紹如何透過保存與讀取 Cookie 資料,並將Cookie 資料輸入至 driver 中,如此一來,我們的Selenium搶購機器人便能在不輸入帳號、密碼的情況下直接登入使用者帳戶,讓搶購變得更快速、方便。 影片: https://largitdata.com/course/147/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_147.ipynb #Python購物小幫手 #PS5 #PS5預購 #Cookie #Selenium #Python網路爬蟲 #自動登入

開始上課

[爬蟲實戰] 如何破解高鐵驗證碼 (1) - 去除圖片噪音點?

  • Thu 26 Oct 2017

進到高鐵驗證碼破解系列!今天先從去除驗證碼上的噪音點開始。首先我們要安裝opencv,接者便可以使用opencv 中的 fastNlMeansDenoisingColored (https://docs.opencv.org/3.0-beta/modules/photo/doc/denoising.html) 去除圖片中的的噪音點,讓驗證碼圖變得更加乾淨! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_96.ipynb

開始上課

[爬蟲實戰] 如何破解高鐵驗證碼 (2) - 使用迴歸方法去除多餘弧線?

  • Wed 01 Nov 2017

在去除掉腦人的噪音點後,如何該去除掉跟字一樣粗的弧線便是大問題。所幸,所有高鐵驗證碼的弧線都可以簡單的用一個二項式迴歸公式表示,因此我們便可以用sklearn 的linear model去適配出迴歸線後,便可以擦去這條煩人的弧線,提高圖片的可辨識率! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_97.ipynb

開始上課

[財經爬蟲] 如何使用正規表達法快速抓取所有上市公司代號?

  • Tue 13 Oct 2020

為了能夠抓取 GoodInfo 所有上市公司基本資訊,首先我們要先取得所有上市公司的代碼,因此我們就造訪了Tej 的網站 (https://www.tej.com.tw/webtej/doc/uid.htm) 找到了上市上櫃公司的代碼清單。為了節省剖析頁面的時間,我們直接使用了正規表達法,把所有的數字代碼抽取(\d+)出來,如此一來,我們便能輕鬆取得所有上市公司的代碼! 影片: https://largitdata.com/course/134/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_134.ipynb #Python網路爬蟲 #正規表達法 #TEJ

開始上課

[爬蟲實戰] 如何突破蝦皮拍賣的重重限制以順利抓取拍賣商品資訊?

  • Fri 07 Apr 2017

又回到爬蟲實戰的課題了,這次要抓時下最夯的蝦皮拍賣(https://shopee.tw/)。蝦皮的抓取方法必須先找到放在XHR 的請求連結,接下來必須連同json 格式的參數一同透過POST做傳輸,方能送出正確的請求出去。但是如果今天發出請求後,如何都拿不到正確回應時,便要思考是不是有少帶哪些標頭(Headers)資訊,此時只要一一嘗試,總會找到一個正確的組合取得商品資訊。當然,有些標頭資訊是很難以取得的,此時再搭配Selenium 取得正確Cookie,任何難解的網站都可以迎刃而解!

開始上課

[爬蟲實戰] 如何使用Pandas 函式將台灣銀行的牌告匯率存進資料庫中?

  • Thu 22 Dec 2016

將抓取到的牌告匯率存進Excel之中是個保存資料的好方法,但使用者卻很難使用Excel管理新增的匯率資料。因此,比較好的做法是我們可以將資料庫當成儲存媒介,增加資料的可維護性。而使用Pandas,只需要在建立與資料庫(SQLite)的連線後,利用 to_sql 函式,即可瞬間將資料儲存進資料庫中。之後,只要再使用read_sql_query,便可將資料庫中的資料讀回變成 DataFrame。

開始上課

[爬蟲實戰] 如何透過開發人員工具破解實價登錄網新版API中的加密字串?

  • Mon 05 Apr 2021

新版實價登錄網站(http://210.65.131.75/)越來越難爬,為什麼API連結中會出現一堆神祕字串?為了能夠知曉神秘字串是從何產生的,這時我們就要善用Chrome 的開發人員工具了!透過在Source 設定一層層的 Debugger,即可以發現加密的JS 程式碼片段,此時只要重用加密函數片段加密替換參數的查詢條件,這時我們就可以如法泡製,順利抓取實價登錄資訊摟! 影片: https://largitdata.com/course/141/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_141.ipynb #Python網路爬蟲 #實價登錄資訊 #Chrome開發人員工具

開始上課

[爬蟲實戰] 如何使用Python Pandas 分析比特幣最佳買點?

  • Fri 09 Jun 2017

比特幣(Bitcoin)與以太幣(Ethereum)大漲的故事,似乎在投資界升起一股虛擬貨幣投資浪潮,但看著日益上漲的的比特幣,你是不是會擔心高點到了,始終買不下手,遲遲無法進場? 這時我們可以利用Python 網路爬蟲加上Python Pandas 的數據分析功能,協助你找出比特幣的趨勢線與移動平均線,讓你可以用傳統的均線理論,趨吉避凶,找出最適當的買點!當然,老話一句,投資有賺有賠,投資前請詳閱公開說明書 XD 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_90.ipynb 想了解更多該如何使用Python 做資料分析? 可以參考我跟天善智能合作的線上課程: https://edu.hellobi.com/course/159

開始上課

[財經爬蟲] 如何使用Python 網路爬蟲抓取新版Yahoo 股市上的即…

  • Tue 20 Apr 2021

有在用Yahoo 股市關注即時行情的朋友,一定可以發現Yahoo 股市的頁面最近有更新版本。為了能夠讓我們的交易機器人隨時能根據最新的行情做決策,我們便必須要找到即時行情的API,讓 Python 網路爬蟲能夠順利蒐集新版Yahoo 股市資訊! 影片: https://largitdata.com/course/143/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_143.ipynb #Python網路爬蟲 #財經爬蟲 #即時行情 #交易機器人 #Yahoo股市

開始上課

[爬蟲實戰] 如何在1111購物狂歡節快速爬取蝦皮限時特賣的商品折扣資訊?

  • Tue 10 Nov 2020

又來到1111 購物狂歡節,這次我們想要在蝦皮還沒有公開商品折扣資訊前,預先透過API 偷看特賣商品的折數。但蝦皮購物在API 的存取上設下重重關卡,所幸我們可以先透過Selenium 先取得Cookie 與csrftoken資訊,再夾帶該資訊存取蝦皮API,這樣我們就可以在商品開賣前,預先掌握折扣資訊摟! 影片: https://largitdata.com/course/136/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_136.ipynb #1111購物狂歡節 #蝦皮API #蝦皮特賣商品折扣 #Selenium #Python網路爬蟲

開始上課

[財經爬蟲] 如何透過Python 網路爬蟲爬取香港交易所最新成交資訊?

  • Tue 22 Jun 2021

天下武功、唯快不破,要在世界財經重鎮香港交易港股也是如此!為了能夠快速獲得股票成交資訊,讓你的交易機器人能在行情發動時第一時間進場或出場。我們便需要撰寫一個Python 網路爬蟲,在破解該存取API 上的Token 與時間戳資訊後,我們便能夠靠爬蟲快速爬取港股資訊,讓我們能在投資市場上洞燭先機,掌握財富密碼。 影片: https://largitdata.com/course/145/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_145.ipynb #Python網路爬蟲 #交易機器人 #香港交易所 #大數學堂 #大數軟體

開始上課

[爬蟲實戰] 如何設定工作排程自動將牌告匯率存進資料庫之中?

  • Fri 23 Dec 2016

讓爬蟲每天定期執行爬取工作才能達成真正的工作自動化!而Windows 使用者可以善用工作排程器功能,我們便可以每天更新資料庫的匯率資料,以利之後進一步提醒我們現在是否是進場的好時機! 如果是MAC 或 Linux 使用者,可以參考Crontab 的用法歐 (http://linux.vbird.org/linux_basic/0430cron.php)

開始上課

[爬蟲實戰] 如何利用Python Flask自動轉換實價登錄網站加密字串?

  • Mon 12 Apr 2021

延續上一堂課「如何透過開發人員工具破解實價登錄網新版API中的加密字串」,我們現在要將實價登錄網的抓取過程完全自動化。雖然在實務上我們可以用Node JS 或 Pyexecjs 等方法載入加密函數,但是這就要牽扯到如何使用Node 或如何修改 Javascript 的問題,為了讓任務變得更加單純,我們這邊直接使用Python Flask 做一個橋接器,接收讀取加密函數後的請求,再將加密字串重新導向實價登錄網,如此一來,便可以輕輕鬆鬆破解新版實價登錄網。 影片: https://largitdata.com/course/142/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_142.ipynb #Python網路爬蟲 #實價登錄資訊 #Flask

開始上課

[爬蟲實戰] 如何透過EMAIL即時獲取最新匯率資訊?

  • Mon 26 Dec 2016

當已經能夠設定自動排程,每天定期抓取匯率資訊後,我們便想知道如果今天匯率觸擊我們心目中的價格,是否可以讓爬蟲透過EMAIL自動通知我們? 因此我們可以使用Python 的smtplib 結合 GMAIL,再將Data Frame 的資料以HTML 的方式寄出,我們便可以將整個匯率擷取過程全部用Python 爬蟲自動化,讓你不再錯失任何最佳買點!

開始上課

[爬蟲實戰] 如何使用Pandas 快速繪製日幣近期的匯率走勢?

  • Tue 27 Dec 2016

談到資料分析,圖表一定是其中不可或缺的一環,而透過Pandas 的處理,你會發現原來畫圖不過就是兩三行指令的事。在這邊我們先善用pandas 的 read_csv 讀取 csv 資料,再用%pylab inline 讓圖表成現在Jupyter Notebook 之中,最後使用 plot函式繪製折線圖。畫圖,就是這麼簡單!

開始上課

[爬蟲實戰] 如何爬取圖片以建立慾望之牆?

  • Sat 12 Sep 2015

除了可以使用網路爬蟲(Web Crawler)抓取文字資料外,我們當然也可以利用爬蟲抓取圖片檔。因此想要把最喜­愛的雪芙女神照片蒐集成美女牆(慾望之牆?),我們只須找到圖片的位置後,結合使用s­treaming 的資料抓取, binary 寫檔跟shutil套件。我們便可以把Gamebase(http://goo.gl/oOwFme)上雪芙女神相關的照片變成我們的收藏品。Hi 雪芙,妳好嗎!

開始上課

[爬蟲實戰] 如何使用Selenium 自動將slides.com 的網頁…

  • Sun 01 Jan 2017

爬蟲不一定是用來抓資料! 你也可以應用網路爬蟲把身邊一些瑣事自動化!這邊我們就教學該如何使用Selenium 撰寫一個爬蟲,自動將我用slides.com 所製作的HTML 網頁投影片轉換成圖檔,之後再將圖檔結合起來後匯出成pdf 檔,這樣就不用花錢升級會員,也可以將投影片匯出成pdf 了!

開始上課

[爬蟲實戰] 如何利用Python快速分析網易雲性格主導色心理測驗?

  • Tue 01 Jun 2021

疫情期間隔離在家,想必大家都悶壞了!不知大家都有沒有玩網易雲性格主導色心理測驗(https://st.music.163.com/st-color-quiz)? 玩完測驗以後,我只好奇到底還有哪些顏色性格?以及哪種性格是最特別的?與其慢慢把所有問題的排列組合試過一遍,讓我們快速使用觀察Python 網路爬蟲常見的開發人員工具以及Python 的正規表達法,就可以迅速列出所有的性格色! 我的性格色是橙+粉,不知道你又是什麼顏色呢? 影片: https://largitdata.com/course/144/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_144.ipynb 性格主導色完整資料: https://github.com/ywchiu/largitdata/blob/master/data/163music.xlsx #Python網路爬蟲 #網易雲 #性格主導色 #心理測驗 #大數學堂 #大數軟體

開始上課

[爬蟲實戰] 如何突破證交所的限制,穩穩抓取最新成交資訊?

  • Thu 25 Jan 2018

最近證交所的頁面更新,除了讓人有耳目一新的感覺,也帶給爬蟲(Python Crawler)全新的挑戰!尤其很多人發現,只要頻繁抓取該網站頁面資訊,最終都會面臨無法繼續連上證交所的窘境;這其實一切都是網頁伺服器的rate limiting 在作祟。因此,我們只要讓抓取之間能夠讓爬蟲小睡(Sleep)個幾秒,便能擺脫IP被封鎖的命運,讓爬蟲重振雄風,順利抓取您想抓取的資料! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_100.ipynb

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (1) ? – 安裝open…

  • Wed 14 Jun 2017

為了能夠使用更聰明的方法自動破解驗證碼,我們將運用機器學習方法中的類神經網路方法破解驗證碼。但在建立模型之前,我們先須將opencv3安裝於Anaconda Python 3.6 上,之後便可以利用Opencv3 切割出各驗證碼數字,方能建立分類模型,讓機器自動辨識驗證碼!

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (2) ? – 切割出驗證碼…

  • Wed 21 Jun 2017

繼我們可以於Python 3.5.2 安裝 OpenCV3 以後,我們便可以先透過 Python 爬蟲抓取經濟部─公司及分公司基本資料查詢(http://gcis.nat.gov.tw/pub/cmpy/cmpyInfoListAction.do)的驗證碼,之後便可以使用OpenCV 的 findContours 協助我們切割並儲存驗證碼中的各個數字!

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (3) ? – 使用類神經網…

  • Fri 14 Jul 2017

將驗證碼切成一個個數字以後,我們接者就可以使用Python scikit-learn 提供的類神經網路(MLPClassfier),便可以讓電腦透過機器學習方法自動辨認圖片中的數字。如此一來,驗證碼再也沒有辦法阻擋我們的爬蟲大軍! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_93.ipynb 如要學習更多有關Python 與機器學習相關課程,可參考: https://edu.hellobi.com/course/159

開始上課

[爬蟲實戰] 如何使用機器學習方法破解驗證碼 (4) ? – 如何存取訓練…

  • Fri 18 Aug 2017

當建立完訓練模型後,勢必要將模型保存成pickle 檔,系統後續便可以再讀取pickle 檔,便可持續利用該模型破解驗證碼,完成爬蟲以順利抓取公司及分公司基本資料! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_94.ipynb 如要學習更多有關Python 與機器學習相關課程,可參考: https://edu.hellobi.com/course/159

開始上課

[爬蟲實戰] 如何使用 Pyppeteer抓取 PCHOME 商品價格資訊?

  • Sat 16 Oct 2021

當碰到資料是由 Javascript 渲染而成的網頁時,就無法直接使用requests 根據頁面網址抓到我們要的資料。此時除了找出正確的資料連結或使用笨重的Selenium 外,Pyppeteer 便是我們可以使用的解決方案之一!Pyppeteer 以Python 接合 Chromium API,透過輕量的Chromium讀取Javascript渲染過的頁面資料,讓網頁爬取變得再直覺不過! 影片: https://largitdata.com/course/148/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_148.ipynb #PCHOME爬蟲 #Pyppeteer #Puppeteer #Python網路爬蟲 #動態網頁抓取

開始上課

[爬蟲實戰] 如何擷取網頁中的隱藏輸入以順利下載證交所的 csv 檔?

  • Sun 20 Sep 2015

爬蟲除了可以直接擷取網頁上的資訊外,也可以用來下載 csv 檔。但看到證交所將網頁內容以base64 的編碼放置在post 的參數中時,著實也被這匪夷所思的寫法嚇了一跳。所幸我們可以直接抓取網頁中的隱藏輸入,再將資料做base64編碼,這時我們便可順利的將csv 抓取下來了!

開始上課

[爬蟲實戰] 如何不寫任何一行程式碼透過低代碼Low-Code / No-…

  • Wed 10 Nov 2021

自動化的需求越來越多,但是透過Selenium 或 Python Requests 寫自動化腳本對不會寫程式的人而言,真是令人煩惱。所幸,微軟開源的Playwright ,可以讓你以低代碼Low-Code / No-Code 的操作快速撰寫 Python 腳本,讓再怎麼繁複的網頁操作行為,都可以在彈指之間完成 影片: https://largitdata.com/course/150/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_150.ipynb #nocode #lowcode #Python網路爬蟲 #Playwright #自動化腳本 #RPA

開始上課

[爬蟲實戰] 如何使用工具 Playwright爬取 MOMO 購物網 1…

  • Wed 10 Nov 2021

又到了一年一度的1111,搶購便宜商品自然是每年必須的操作。同樣的,每年唯有撰寫Python網路爬蟲,我們才可以搶先他人一步,獲取最新特價資訊。但是每家購物網站都長的不同,若又要根據每個網站客製化爬蟲,可能爬蟲還沒寫完,1111就過完了。幸好,透過低代碼Low-Code / No-Code 自動化神器Playwright 搭配BeautifulSoup 的操作,我們只要寫一點程式碼,就可以抓遍所有的購物網站,讓我們的自動化程式跟上1111的購物狂熱節奏! 影片: https://largitdata.com/course/151/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_151.ipynb #1111購物狂歡節 #雙11 #nocode #lowcode #Python網路爬蟲 #Playwright #自動化腳本 #RPA

開始上課

[爬蟲實戰] 如何使用Python 爬蟲 (Python Crawler)…

  • Sat 26 Sep 2015

這次介紹該如何寫一個Python 爬蟲 (Python Crawler) 把Youtube 影片下載下來。雖然是影片檔案,但抓取的方法其實跟一般的爬蟲並無二異,只要先觀察到實體影片的連結位址後,用正規表達法還有Query String 剖析函式,就可以把影片連結抓取出來,接者再用寫進binary 的方式,就可以把Girl's day Expectation 的影音串流(https://youtu.be/5yAU52qfYuU) 從Youtube下載下來啦!好吧,該來練一下吊帶舞了! Woo~ woo~ woo~

開始上課

[財經爬蟲] 怎麼繞過驗證碼? 利用 2Captcha 驗證碼識別服務突破…

  • Thu 01 Jul 2021

有在操作股票的朋友們一定知道,證券櫃買中心的券商買賣證券日報表上包含了每日上櫃股票的分點交易資料,透過研究分點資料,便可以分析大戶進出行為,進而跟單獲利。但是券商買賣證券日報表上面埋有reCAPTCHA驗證碼,透過一堆圖片驗證題目,阻止我們的自動化網路爬蟲大軍去上面大量撈取資料。 但reCAPTCHA 驗證碼怎麼識別? 因此大數軟體 X 大數學堂,今天就要教你該如何撰寫一Python網路爬蟲,再搭配2Captcha驗證碼識別服務,便可以輕輕鬆鬆突破券商買賣證券日報表上的 reCAPTCHA 驗證碼服務,順利抓取分點交易資訊。 完整文章: https://www.largitdata.com/blog_detail/20210629 影片: https://largitdata.com/course/146/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_146.ipynb 2Captcha 服務 https://2captcha.com/zh/?utm_medium=content&utm_source=largitdata&utm_campaign=taiwan&from=12066227 #驗證碼識別服務 #怎麼繞過驗證碼 #驗證碼怎麼識別 #Python網路爬蟲 #大數軟體 #大數學堂 #人工智慧

開始上課

[爬蟲實戰] 如何透過 Python 網路爬蟲 抓取並整理 2018 公投…

  • Thu 29 Nov 2018

選舉已經在2018/11/24 號落幕,但是還是有很多人想要了解在這次公投,各地區的人民做了哪些選擇。為了能夠分析這次公投的資料,我們可以利用Python 的 Selenium 與 Requests 抓取中選會(http://referendum.2018.nat.gov.tw/pc/zh_TW/index.html)的投票統計資料,讓你能夠在取得完整資料後,分析各地民眾的意向。 如果想要直接分析的朋友,也可以直接到https://www.largitdata.com/blog_detail/20181129 下載整理過後的資料 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_109.ipynb

開始上課

[爬蟲實戰] 如何使用Python 模擬登入淘寶並成功抓取淘寶指數?

  • Mon 17 Aug 2015

要了解一個市場前,獲取市場相關數據勢必是第一優先!在中國已外可以參照Google Trend,但在中國就只能用淘寶指數。但困難點在於淘寶指數必須先登入後,才能抓取相關資訊。但天下沒有無法抓取的資料,一切都在於耐心觀察,藉由觀察登入的樣式與資料的位置後,再透過強大的Python抓取。依然,我們這次依然可以取得我們要的資料!

開始上課

[爬蟲實戰] 如何快速爬取天貓TMALL 雙11 特價商品資訊?

  • Thu 09 Nov 2017

又到了雙11 購物狂歡的日子!話不多說,我們就從天貓TMALL 網路爬蟲當做瘋狂購物的前奏吧!我們首先就用了Python Requests 套件抓取天貓商城的商品資訊,接著搭配BeautifulSoup4 及 Pandas,讓資料爬取、資料整理到資料儲存能夠三位一體,一次完成! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_98.ipynb

開始上課

[爬蟲實戰] 如何快速蒐集免費IP作為Python 網路爬蟲跳板Proxy?

  • Mon 28 Sep 2020

利用Python 網路爬蟲抓取一些會鎖IP 的網站 (例如:GoodInfo, 證交所 ),就需要一些免費的Proxy 當成跳板,規避網路爬蟲被封鎖的風險。因此我們先抓取Free Proxy List (https://free-proxy-list.net/) 上的頁面,再利用正規表達法蒐集所有的IP 清單,最後再透過 ipify (https://www.ipify.org/) 做測試,如此反覆操作,我們就很快能累積出屬於我們自己的Python 網路爬蟲跳板(Proxy)清單摟! 影片: https://largitdata.com/course/133/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_133.ipynb #Python網路爬蟲 #Proxy #ipify #跳板 #免費IP

開始上課

[爬蟲實戰] 如何使用Pandas 快速抓取並分析iPhone 12 購機…

  • Sun 18 Oct 2020

最新的iPhone 想必讓很久沒有換手機的人已經蠢蠢欲動了吧!但是要買空機還是綁電信方案?向來是一個難解的問題。那不如就來用Python Pandas 抓取並分析中華電信的最新5G 購機方案吧。透過數據分析,不用左右為難,馬上就能找出最優惠的方案! 影片: https://largitdata.com/course/135/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_135.ipynb #Python網路爬蟲 #5G購機方案 #iPhone12

開始上課
回到最上面