
只要三分鐘,立即來學習如何使用開源工具來分析資料吧
只要三分鐘,立即來學習如何使用開源工具來分析資料吧
透過 Scrapy 網路爬蟲框架,我們就可以在不用重造輪子的情況下撰寫較為完整且具非同步化(asynchronous)請求能力的網路爬蟲。 安裝步驟: 1. 下載並安裝 Anaconda Python 2. 在Anaconda Command Prompt 鍵入 pip install scrapy 3. 開啟爬蟲專案: scrapy startproject apple
最近vonvon 有推出一篇人氣相當高的臉書文字分析服務(http://tw.vonvon.me/quiz/318),引起眾多網民的使用與討論。但在學習過如何使用網路爬蟲(Python Crawler)以後,我們便可以實作出一模一樣的資料產品,因此在此教學中,我們先教各位該如何透過網路爬蟲(Python Crawler) 抓取各位2015年於Facebook 所留下的所有訊息內容。
開始 Selenium 一系列的基礎教程!Selenium 可以讓我們用很擬人化的操作:打開瀏覽器、瀏覽網頁、協助我們完成許多自動化的操作,是給不擅長觀察資料連結的爬蟲開發者的一大福音!在最基礎的課程中,我們首先來學學如何使用 Selenium 基本指令開啟Chrome 瀏覽器,讓程式幫我們自動瀏覽網頁 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_103.ipynb
ChatGPT 的興起帶來全民 AI 的熱潮,但除了使用官方的介面或是使用GPT3 的API 外,有沒有辦法透過Python 介接 ChatGPT ,並透過語音讓我們真正能夠與ChatGPT 對談呢?這邊我們介紹了如何使用revChatGPT 接出 ChatGPT API 再搭配 Python 的 SpeechRecognition 與 gTTS,我們就可以創造出一個真正能夠對話的 ChatGPT,讓你深夜寂寞覺得冷時,可以找一個人工智慧好夥伴與你暢談人生! 影片: https://largitdata.com/course/217/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_217.ipynb 語音文字轉換參考影片 ================================= [Open Jarvis] 如何讓Python 自動將語音轉譯成文字? (Course 87) - 影片: https://largitdata.com/course/87/ - 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_87.ipynb [Open Jarvis] 如何用Python 讓電腦說話? (Course 88) - 影片: https://largitdata.com/course/88/ - 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_88.ipynb Colab 版本 - 影片: https://www.largitdata.com/course/204/ - 程式碼: https://colab.research.google.com/github/ywchiu/python_basic/blob/master/Third_Party_Package.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw ================================= #chatgpt #revChatGPT #ai #語音識別 #語音合成 #大數軟體 #大數學堂
最近大量使用ChatGPT後,發現若ChatGPT 在不知道答案的情況下,常會一本正經的胡說八道,給我們牛頭不對馬嘴的答案。為了能夠提升 ChatGPT 的問答能力,因此我們可以用Selenium 撰寫一個Python 網路爬蟲,將Google 搜尋到的精準結果輸入給ChatGPT,這時候ChatGPT 就能因獲得正確答案而變得更加聰明,回答合乎我們預期的答案! 影片: https://largitdata.com/course/218/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_218.ipynb Selenium參考影片系列 : https://www.largitdata.com/course_list/15 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #chatgpt #revChatGPT #python網路爬蟲 #網路爬蟲 #selenium #人工智慧 #ai #大數學堂 #大數軟體
本片有cc 字幕,記得啟用 現在的網路世界充滿了各種各樣的新興職業,其中 YouTuber 可謂是最受矚目的一種。許多人紛紛加入 YouTuber 這個行列,希望能透過網路平台分享自己的生活、興趣或專業知識,甚至賺取相關的廣告收入。但是,有些人可能因為覺得自己不夠願意曝光或不願意露出真實面貌而放棄這個機會,但現在有了 AI 人工智慧,這些問題就迎刃而解了。 透過 AI 人工智慧技術,現在可以透過 MidJourney 利用人工智慧產生形象照,再透過ChatGPT 產生文字內容,最後透過 d-id 生成動畫影片,讓你完全不需要露臉,也不需要用自己的聲音,也可以輕鬆創作出高品質的影片。 因此,如果你是一個有創意、有想法,但卻不想曝光真實面貌的人,現在也有機會成為一名 YouTuber 了。利用 AI 人工智慧技術,你可以輕鬆地創作出符合你風格的影片,並且不用擔心真實面貌洩露的問題,讓你盡情發揮才華,享受 YouTuber 的樂趣。 MidJourney 連結: https://midjourney.com/ ChatGPT 連結: https://chat.openai.com/chat d-id 連結: https://www.d-id.com/ 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #chatgpt #midjourney #ai #人工智慧 #大數學堂 #大數軟體
黃金價格又來到近期的高點!今天將教大家簡簡單單用Pandas 即可完成黃金價格抓取與分析,讓大家都能透過Python 網路爬蟲輕鬆掌握黃金大行情。 影片: https://largitdata.com/course/129/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_129.ipynb #Python網路爬蟲 #PythonCrawler #黃金價格 #Pandas #財經爬蟲
近期比特幣快速突破歷史新高後,又開始快速回檔,這樣震盪的行情一定讓幾家歡喜幾家憂。因此我們打算開一系列的比特幣程式交易系列,來讓大家透過Python 分析比特幣的買賣點,讓數據分析能引領我們獲利。系列的第一個課程,便是要教大家先透過Poloniex 的 API 獲取歷史報價資訊,並用Plotly 將數據繪製成我們熟知的 K 線圖。 影片: https://largitdata.com/course/138/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_138.ipynb #程式交易 #比特幣 #BTC #API串接 #Python網路爬蟲
繼取得Facebook 2015 年所有的貼文內容後,接下來我們可以將貼文進行斷詞,並取得詞頻。對於英文資料而言,斷詞只須根據空白斷句即可,但中文便必須仰賴好的分詞工具,這邊大家可以學習使用Python 套件 jieba ,便可以順利將貼文分詞,於排序過後,便可以取得Facebook 貼文中最常使用的詞頻。
假使你的客戶一直修改需求,你怎麼管理每個版本? 假使多人要共同開發一個網站吧,有人負責A、B、C,我負責開發B,C,D;如果同時間必須更改到同一個檔案? 該怎麼合併檔案? 這時我們就需要版本控制管理系統解決以上的問題! 在接下來的章節,大數學堂將教各位如何使用git 做版本控制
爬蟲? 這不是在看動物星球,而是一種利用HTTP Request 抓取網路資料的技術。想想看如果你要做個比價網站或資料分析,但苦無資料的時候,又來不及跟別人談資料交換或合作時,就可以利用這種技術將別人的資料庫變成自己的資料庫,聽起來很迷人嗎?趕快來了解一下。
開始來點有趣的,我們將教學該如何透過Python 一步步建立屬於自己的交易系統!但要進行交易分析前,還是需要點資料,我們先從三大法人買賣金額統計表下手。本教學將教您如何使用Python 的Requests 抓取三大法人買賣金額統計表。
最近因爲鈕承澤一案導致一個需要分辯屈中恆、宋少卿、鈕承澤的驗證碼被頻頻瘋傳。因此我們就想要利用深度學習中的卷積神經網路,讓電腦能夠自動辨別圖片中的人物!當然要建構模型先要有素材,因此我們就先撰寫了一個Python 網路爬蟲,嘗試先把這三個明星的圖片從Google 的圖片搜尋中爬取下來,並加以存檔,我們之後便可以利用這些素材來建構我們的人臉識別模型! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_110.ipynb
繼說明為何要使用Scrapy 這爬蟲框架後,我們便可以開始寫作第一支Scrapy 爬蟲。 1. 於spiders 目錄下開一個Python檔案 (e.g. crawl.py) 2. 於crawl.py 中定義 a. class name b. name c. start_urls d. parse 函數 3. 於scrapy.cfg 處執行 scrapy crawl apple
RPA (Robotic Process Automation)流程機器人可以透過自動化程序大幅降低繁瑣、重複的作業流程。但我們其實不用花大筆金錢購買專業化的軟體,只需要透過PyAutoGUI建立簡單的Python 程序,我們就可以寫一個簡單的按鍵精靈,讓電腦快速幫我們完成許多的電腦操作任務。 影片: https://www.largitdata.com/course/114/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_114.ipynb
實價登錄資料反映了現在市場房屋的交易行情,善用這個資料,便可以分析目前的房市景氣。當然,做資料分析前,我們會需要將資料讀進Python 做分析,因此在這個教學中,我們將先教各位如何使用Python Pandas 讀取實價登錄資料,並且教大家該如何透過Linux 工具 iconv 做編碼的轉換與清理。
想必大家最近都玩過最夯的 http://how-old.net/ ,系統判別的準不準倒是其次,但應該對該系統所呈現出來的臉部、年齡、性別辨識技術一定感到相當驚奇。但其實完成臉部偵測的技術並不難,這次就教各位該如何透過OpenCV,讓你/妳能用短短的幾行程式碼,做出個山寨版的how-old.net
終於開始我們的Open Jarvis Project 了,首先第一步,便是讓電腦自動能將我們所說的話轉譯成文字。語音辨識當然很難,但所幸透過Python 的 SpeechRecognition 套件,我們便可以順利使用各大公司提供的語音辨識API,幫我們把語音轉譯成文字瞜!
於本地端啟用Spark,其實非常簡單!只需要透過簡單的apt-get 指令,快速安裝Java, Scala 等語言後,便可透過預先編譯(pre-build)過的spark 版本開始進入spark的世界。
An early-warning system can save many people's lives from natural disasters. By mining the real-time message on the social network and location information of emergency center from open data, we make real-time disaster warning possible. Do you know how to protect yourself from an earthquake or flood? Many people die in accidents and nature disasters for they simply do not how to protect themselves at the time being. Therefore, if the government can build up an early-warning system, many people can be saved from the devastating disasters. Thanks to the social network, people nowadays can spread out real-time information more easily than ever before. Thus, we can alert our government if there is any occurring disaster within the country. Furthermore, we can integrate the information of open data, so that people can go to the nearest emergency center or shelter to seek help. For above reasons, we build Buzz Alert, a social-media based alert map. The system automatically collects opinion data from the social network and mark the disaster information as a luminous spot on the map. Thus, the government would immediately know where and when the disaster is happening. Furthermore, we collect the location of the official emergency center, hospital, fire agency from open data, and mark the spot on the map. Hence, people who have the urgent need can go to the nearest emergency center nearby to seek help. Our utmost wishes are that government around the globe can use Buzz Alert to save lives from any disaster in the future. Find more detail at http://www.largitdata.com/service/buzzalert
想要玩巨量資料,卻不會架設Hadoop?或苦無資源快速建立5台以上的Hadoop 叢集?善用Amazon 提供的 EMR (Elastic MapReduce) 服務(還要準備一張能夠付費的信用卡),便可以讓你在五分鐘內就可以架設20台的Hadoop 叢集,讓巨量資料分析變得不可能再簡單! 當然,如果你有興趣了解更多Hadoop 與其Ecosystem 的運作跟實務的話,也歡迎參考我跟Tibame 共同開設的線上課程: http://goo.gl/XlS82W
除了透過IntelliJ IDEA 建立Spark 開發環境外,如果可以像Python 一樣可以透過Jupyter 記錄所有開發內容,那該會有多方便。所幸真的有大神建立ISpark 這樣的解決方案,本教學將教您怎麼一步步的在Ubuntu 14.04 中連結Jupyter 跟 Spark,讓您建立一個簡易好用的開發環境!
本次教學將教各位如何透過OpenCv,以影像辨識的手法將台灣證券交易所買賣日報表五碼驗證碼獨立分解成五個單一文字,以利之後透過機器學習演算法(Machine Learning)辨識圖像文字(OCR)。
如果要做上櫃股票交易,勢必要搞清楚籌碼面的動向,才能掌握資金流向。但櫃買中心有使用 reCAPTCHA 防堵爬蟲抓取資料。為了突破reCAPTCHA的限制,我們便使用PyAutoGUI 完成所有自動化操作,讓「我不是機器人」的驗證機制不再成為我們完成自動化投資的阻礙! 影片: https://largitdata.com/course/115/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_115.ipynb #PyAutoGUI #reCAPTCHA #券商買賣證券日報表
當然只有表列出在臉書最常使用的文字頻率是還不夠的,最好能夠像vonvon 一樣,用文字雲呈現才能一目了然最常使用的文字。不過,該怎麼繪製文字雲呢?當然你可以使用d3.js,但我們其實可以使用更簡單的Tableau Public,讓你第一次畫文字雲就上手!
接下來我們介紹,該如何下載及安裝git 至Windows 之中。 首先先到http://git-scm.com/ 點選 Downloads for Windows, 再依安裝選單步驟進行安裝。
透過TA-Lib我們可以快速建立158 種常見的技術分析指標,讓我們運用TA-Lib 計算比特幣的平均移動線(SMA)、KD 指標、RSI 指標與MACD,再透過Plotly 做圖表的整合。讓我們在一張視覺化圖表,迅速掌握技術指標與買賣點的關係。 影片: https://largitdata.com/course/139/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_139.ipynb #程式交易 #比特幣 #BTC #TALib #技術指標分析
只有讓電腦幫我們把語音轉文字有點孤單,我們還是希望跟電腦能透過語音互動!這時我們可以使用gTTS 這個套件把文字轉換成語音,再透由pygame 做音檔播放。我覺得我也可以開始當卡提諾狂小編了~
使用Selenium開啟瀏覽器後,我們便可以開始尋找網頁元素定位,並針對該元素進行操作。這邊介紹了幾個常用的定位方法: find_element_by_id, find_element_by_class_name, find_element_by_name, find_element_by_css_selector, find_element_by_xpath 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_104.ipynb
只有整理一季的資料是沒有辦法做全面的房價分析的,因此我們先把歷年的實價登錄資訊解壓縮後放在各目錄夾,將各季資料讀到Pandas 的 Data Frame 之中後,便可以使用Pandas 的 Concat 指令合併所有的Data Frame,之後我們便可以選擇是否用describe 指令取得敘述性統計還是使用to_excel 功能將資料寫進excel 檔之中。
取得第一頁的清單聯結後,我們可以在scrapy 爬蟲中使用yield 產生器(generator) 產生一個scrapy 請求以抓取下一層的內容頁面,並用BeautifulSoup 剖析內容後,得到內容頁的標題資訊。
繼抓取屈中恆、宋少卿、鈕承澤等三位明星照片後,還是需先擷取出圖片中的臉部圖片,方能建構人物識別模型。因此我們先在作業系統上安裝opencv3,接者透過opencv 所提供的 haar 分類器偵測臉部特徵,程式便能裁切出臉部圖片,並將裁切圖片存入目標資料夾,以備後續建模之用! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_111.ipynb https://www.largitdata.com/course/111 #大數軟體 #鈕承澤 #卷積神經網路 #Python網路爬蟲 #深度學習
繼上次講述如何使用ispark 整合 Jupyter 和 Spark 後,本次將介紹一個更優秀的專案spark-notebook,除了可以使用記事本(notebook)的形式存取Spark 外,更可以透過WISP,使用簡單幾個指令就可以用d3.js 產生svg 圖檔,除做資料分析之餘,更可產生可互動的視覺化的圖表!
產生交易策略後,我們必須要透過回測來驗證我們的策略是否能穩定獲利。因此我們運用了 Backtesting.py 針對均線交叉策略、KD交叉策略進行回測,最後再透過 Backtesting.py 將交易策略、Profit/Loss、資產變化透過Bokeh 做視覺化呈現,讓我們能快速掌握各交易策略的優劣。 影片: https://largitdata.com/course/140/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_140.ipynb #程式交易 #比特幣 #BTC #Backtesting #策略回測
繼上次教學過該如何使用Python 的 Requests 取得三大法人買賣金額統計表內容後,這次教學該如何透過 BeautifulSoup 4,使用css selector 抓取三大法人買賣的資訊!
使用Scrapy 所提供的items.py可以將Scrapy 爬蟲爬取到的資料結構化。之後便可以在爬蟲主程式建立物件,存放爬取下來的資料。最後可以透過scrapy crawl apple -o apple.json -t json 指令,將資料整理成JSON 檔,以利之後操作。
當我們能夠抓取到屈中恆、宋少卿、鈕承澤的圖片,並把他們的臉部特徵用OpenCV 擷取出來後,我們便可以使用卷積神經網路(Convolution Neural Network) ,透過卷積(Convolution),最大池化(Max Pooling),平化(Flattening)與全連結(Fully Connected) 訓練一個模型,識別出三人的圖片,並透過OpenCV 標示出所有人的臉部,並在上面加上注釋文字! 如果有志學習更多相關深度學習知識的同學 不妨參考我的線上課程: 1. 手把手教你用Python 实践深度学习 https://edu.hellobi.com/course/278 2. 人人都爱数据科学家!Python数据科学精华实战课程 https://edu.hellobi.com/course/159 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_112.ipynb https://www.largitdata.com/course/112 #大數軟體 #鈕承澤 #卷積神經網路 #OpenCV #Python網路爬蟲 #深度學習
最近(3/1),OpenAI宣布了一項重要消息。他們不僅公開了自動語音辨識模型Whisper的API,還公開了更便宜(每1000個token僅0.002美元)和更強大(gpt-3.5-turbo)的ChatGPT API,使付費企業和開發人員能更輕鬆地使用對話機器人和語音轉文字的AI模型。 今天我們來介紹這兩個最新的API,並使用它們來快速摘要YouTube影片。以下是步驟: 1. 生成API的秘密金鑰(Secret Key) 2. 使用yt-dlp下載YouTube影片的音頻檔案 3. 使用pydub將長影片分割成多個小檔案 4. 使用Whisper API將影片轉換為文字 5. 使用ChatGPT API將文字轉換為摘要 使用AI摘要影片有很多好處。首先,可以省去觀看影片的時間。其次,使用AI摘要可以更準確地捕捉影片中的重點。最後,由於這兩個API的收費都很便宜,每1000個ChatGPT Token僅價格為0.002美元,使用Whisper轉換一小時的影片僅價格約為10元台幣,使用它們來摘要影片不會對預算造成負擔。這是一個非常簡單而且有效的方法來節省時間和精力,同時還可以利用AI提供的智能功能創造更多有趣的應用。 影片: https://largitdata.com/course/220/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_220.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #chatgpt #whisper #pydub #yt-dlp #ai #語音識別 #youtube摘要 #大數軟體 #大數學堂
開始使用Python 撰寫網路爬蟲( Crawler ),首先必須安裝用Python 的套件管理工具pip 安裝兩個套件: 1. Requests 網路資源(URLs)擷取套件 2. BeautifulSoup4 HTML剖析套件
學習過如何用Selenium 查找網頁元素後,該是學習如何點擊網頁按鈕了。透過 click 便可以點擊網頁元素,透過 send_keys 便可以送出內容。透過Selenium,自動化操作就是這麼簡單! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_105.ipynb 另外,我們目前正在招募網站可靠工程師,請有意者發履歷給我們歐: https://www.104.com.tw/job/?jobno=6b8zr&jobsource=checkc
在申請好雲端主機後,我們必須透過pem 金鑰登入到雲端主機中。但是在Windows 中,如果我們要使用PuTTY 或 PieTTY 登入時,就必須先透過PuTTYgen 將pem 轉成ppk 以後,方能用ppk 登入到雲端主機中。
繼上一次我們已經可以將驗證碼分解成獨立的字母圖片後,接下來便可以透過OCR 技術辨識圖像文字,在這邊我們將圖片變更成同一大小後(resize),我們先試著使用pytesser 做圖片辨識,但是發現效果不佳,因此我們土炮式的用Word 建立基準圖片後,使用簡單的Mean Square Error 計算兩張圖片的相似度,果然簡單的最好,輕輕鬆鬆破解惱人的驗證碼。 想收到更新訊息,請至Facebook粉絲團按讚: https://www.facebook.com/largitdata
用Spark 進行機器學習? 其實非常簡單,只要將資料整理出特徵(Feature) 跟標籤 (Label),就可以透過MLlib 所提供的眾多演算法快速分類資料。這時電腦就不只會選土豆,更可以預測電信業客戶是否流失!但要分類之前,我們得先把資料整理好!讓我們來看看該怎麼整理出分類演算法可以吃的資料格式吧!
今天要跟各位介紹個好用的工具"Jupyter"!Jupyter 提供一個網頁介面,讓使用者可以透過瀏覽器連線進網頁服務,並在上面進行Julia, Python 或 R 程式的開發與維護!功能相當強大,不可錯過!之後我們會陸續介紹到它有多麼好用!
Jupyter 可以說是開發、維護Python 程式的好幫手,今天介紹該如何在Jupyter 中引入pylab 進行繪圖、使用類linux 指令觀看當前目錄的檔案、執行python 程式,以及如何使用MathJax 繪製數學方程式。
隨著 YouTube 影片受歡迎的程度越來越高,語音轉文字的需求也越來越大。如果想要增加 YouTube 訂閱數,那麼字幕可以說是一個非常重要的部分。字幕不但可以幫助你更好地傳達內容,提供 CC 字幕,還可以提高影片的 SEO,這對於想要提高 YouTube 觀眾數與收入的人來說是相當具有價值的! 在本影片中,我們將探討: 1. 如何使用 Python 調用 Whisper API,將 YouTube 視頻轉錄為字幕文件 (SRT) 2. 如何利用Pysrt 合併字幕檔案並修改字幕時間 3. 並與目前市面上最受歡迎的剪映進行轉錄結果的比較 本影片將會提供語音轉文字和字幕創建的知識與技巧,幫助您更好了解如何快速創建高質量的字幕,協助你在經營 YouTube 頻道或做語音分析上實現更大的成功! 影片: https://largitdata.com/course/221/ Colab 程式碼: https://colab.research.google.com/github/ywchiu/largitdata/blob/master/code/Course_221.ipynb 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_221.ipynb Colab 操作與簡介 https://www.youtube.com/watch?v=uzInb5gbl4M&t=2831s 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #chatgpt #whisper #pydub #ytdlp #pysrt #ai # #語音識別 #youtube字幕生成 #大數軟體 #大數學堂
學會如何使用Selenium 建立自動化流程以後,我們就可以開始爬取頁面內容了。Selenium 只要呼叫 page_source 屬性,便可以抓取當前所有頁面的原始碼,再搭配BeautifulSoup,任何瀏覽器瀏覽得到的頁面,都會成為你網路爬蟲的爬取對象! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_106.ipynb
為大家示範Python如何使用簡單三行程式碼就可以抓取淘寶網的網頁內容 範例網頁: http://tw.taobao.com/product/%E5%A4%9A%E6%A8%A3%E5%B1%8B-%E8%91%AB%E8%98%86-%E4%BF%9D%E6%BA%AB%E6%9D%AF.htm
當使用scrapy 抓取資料後,會將每個item 傳遞給 pipelines。在pipeline 中可以:1. 清理網頁資料 2. 驗證抓取資料 3. 去重覆化 4. 將資料儲存至資料庫。 在範例中,我們在pipelines.py: 1. 設置 open_spider: 開啟資料庫連線,建立表格 2. 設置close_spider: 認可交易(commit),關閉資料庫連線 3. 設置process_item: 將資料儲存至sqlite 中 。最後在 settings.py 啟用pipelines 的設定。
POST 是另一種HTTP 請求方法,讓你可以將請求資訊包裝起來後,再送至伺服器以取得回應資訊,在Python 中使用POST 的方法一樣簡單,只需將請求資訊以字典做包裝即可,本單元將敎您如何使用POST 方法抓取高鐵網頁內容。
在瞭解如何產生不同天期的資訊後,我們便可以利用這個資訊抓取多天期的三大法人交易資訊。我們只要簡單的利用def將重複地抓取動作包裝在Python 的函式中,再加上簡單的迴圈,就可以成功完成多天期的抓取!
Scrapy 有提供CrawlSpider 的類別以實現多網頁爬取的功能。使用方法相當簡單,只要讓爬蟲繼承CrawlSpider類別,並增加抓取規則Rule 至rules 清單中,在LinkExtractor 中增加分頁抓取的規則,便可以順利將符合條件的蘋果新聞資料快速爬取下來。
我們經常需要閱讀英文文件和論文,但以往將中文複製貼上到Google翻譯,往往得到一些含糊不清的翻譯結果。因此,我們現在要教大家如何使用強大的人工智慧模型 - ChatGPT快速翻譯PDF文件! 操作步驟如下: 1. 先使用pypdf提取PDF文件的文字內容。 2. 使用NLTK將文字分段成句子,並將句子整理成段落。 3. 最後使用ChatGPT強大的翻譯能力,將整份文件翻譯成中文。 有了強大的ChatGPT,從此閱讀外文文件就變得再簡單不過了! 在這個影片中,你將學到以下內容: 1. 如何將PDF文件轉換為文本格式以供ChatGPT處理。 2. 使用ChatGPT進行翻譯的方法和技巧。 影片: https://largitdata.com/course/222/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_222.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #chatgpt #翻譯 #pdf文件 #AI語言模型 #快速翻譯 #文件轉換 #翻譯教程 #大數軟體 #大數學堂
整理完資料後,就可以使用MLlib 提供的決策樹分類資料,全部只要打入神奇的 DecisionTree.train ,就可以建立分類模型,精準預測客戶是否流失!除了預測以外,還可以透由不同的套件計算準確度與AUC,用Spark 分析巨量資料,就是這麼簡單快速!
有時在使用Selenium 抓取資料時,如果頁面還沒順利載入,很可能就會吐NoSuchElementException 的錯誤訊息,這時善用implicit_wait 的功能,就可以等待頁面載入完後再執行後續動作,讓抓取流程能順利進行下去! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_107.ipynb
除了可以使用Python 抓取網頁內容外,R也可以搭配Web 自動化測試工具Selenium 進行網頁抓取,只要透過RSelenium 的安裝與使用,使用者便可以於啟用Firefox 瀏覽器後,使用R的腳本抓取網頁內容!
繼上次講完該如何爬取多天三大法人統計資訊後,我們現在需要一個地方儲存這些資料。與其考量安裝、架設MySQL, PostgreSQL 等資料庫,不如來學習如何Firefox 的SQLite Manager 操作 SQLite,他簡單易用的操作方式,讓資料存放不再您的成為困擾。
如果要使用程式語言連結到資料庫,一般可以用的方法便為ODBC 及JDBC 兩種方法。R也一樣,提供RODBC 及RJDBC 兩種方法讓使用者選用,本次教學即教使用者該如何下載鏈結JAR 檔及設定連線資訊,讓R可透過RJDBC 連結到資料庫,讓我們取得資料庫中存放的三大法人買賣資訊。
聽說最近外資對台積電法說會的評價很高,不知道是真的還是假的呢?那麼就讓我ChatGPT來告訴你們答案吧!為了能夠快速探索外資對台積電法說會的看法,我們先蒐集了一堆外資對台積電的投資建議報告,並運用最近話題最熱的兩大神器:langchain 與 llama_index來將所有外資的建議報告索引起來。 而本教學不只是教學如何建立單篇的PDF索引,而是包含多篇PDF的索引服務。當我們將所有報告索引起來後,這項服務就比ChatPDF更加傑出!使用者只需要對索引提問,就可以輕輕鬆鬆得知每家外資對台積電法說會的看法了! 影片: https://largitdata.com/course/223/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_223.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #chatgpt #llama_index #langchain #ChatPDF #TSMC #2330 #pdf文件 #台積電法說會 #外資投資報告解析 #AI語言模型 #大數軟體 #大數學堂
2017 年,一個工程師利用DeepFakes技術將神力女超人Gal Gadot 的臉移花接木到成人片女星上,引起一陣轟動,也預告利用深度技術偽造影片的時代即將到來。本影片將簡介什麼DeepFakes 技術的原理,以及其背後用到的深度學習模型 AutoEncoder。 影片: https://largitdata.com/course/123/ 參考資料:https://www.alanzucconi.com/2018/03/14/understanding-the-technology-behind-deepfakes/ #深度偽造 #DeepFakes #AutoEncoder
vonvon 最近又創造一個高人氣話題的服務,讓你取得臉書中最難忘的相片。但在享受服務的同時,我們也可以利用爬蟲(Python Crawler)的力量,做出一模一樣的服務。這次的課程便會引導你如何從取得自己在Facebook 上的相片及按讚統計,然後在排序過按讚最多的聯結後,將所有最難忘的臉書照片爬取下來!
Spark 在最近釋出的1.4 版中有包入SparkR,讓資料分析語言神器R 與巨量資料新星Spark 可以順利接軌。在RStudio 下的安裝實測,發現安裝步驟相當簡單,使用上跟RHadoop 撰寫MapReduce般雷同。唯探索後其專案測試檔後,發現部分機器學習還是得自行撰寫,除了透過rJava外沒法直接呼叫MLlib,是目前讓人最失望的一塊。
既然已經知道如何使用requests 抓取頁面內容,也懂得如何使用BeautifulSoup4 剖析有用資訊,接下來我們就進入實戰階段,示範如何使用Python 的requests 及BeautifulSoup4 完成淘寶爬蟲!
講這個專題的原因只是因為我想看漫畫!但與其每次一一點選,不如寫個爬蟲將過程自動化吧。我們先運用了Selenium 自動開啟漫畫頁面,再接者使用BeautifulSoup 解析圖片位置,最後再使用 Requests 下載所有圖片。讓我們看個漫畫也能有滿滿的黑客精神! 影片: https://largitdata.com/course/116/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_116.ipynb #Selenium #Python爬蟲 #Python Crawler
能實作DeepFakes 的工具有很多,但其中最知名的便是DeepFaceLab。我們在這個章節先講述DeepFaceLab 的流程,我們就能套用這流程,實做DeepFakes 變臉技術 影片: https://largitdata.com/course/124/ 參考資料:https://github.com/iperov/DeepFaceLab #深度偽造 #DeepFakes #DeepFaceLab
1111 購物狂歡節即將到來,想必精打細算的你,應該已經列好購買清單了吧!如果你真不知道該購買哪些商品的話,為何不嘗試看看使用數據做決策? 在本課程中,我們將先透過Python 的requests 套件撰寫 Python 網路爬蟲抓取天貓的商品頁面,接者透過 json 與 pandas 套件整理商品資訊,最後將使用pandas 提供的資料排序功能,幫助你快速找出折扣最多的商品! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_108.ipynb
知道要把資料存放到資料庫之前,我們還有一個步驟要完成,就是要清理抓取下來的資訊。但是如果碰到我們常見的金額資料,該如何把千進位所帶的逗號符號拿掉呢? 這邊教各位一個應用split 跟join 的小技巧,讓大家可以無痛的做金額轉換!
繼前一節教學過該如何安裝git 之後,接下來我們來建立程式碼的儲存庫吧! 儲存庫(Repository) 即是用來儲存所有版本的一個空間,要建立Repository,只要使用 git init 指令,便可以設立儲存庫進行版本控制!
即使下載了滿滿的漫畫,閱讀上如果不方便的話也是很惱人的。因此我們必須要能夠使用img2pdf把所有圖檔合併成pdf,這樣才能讓我們以流暢的瀏覽方式,快速看完所有漫畫。 影片: https://largitdata.com/course/117/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_117.ipynb #img2pdf #RPA #Python自動化
既然我們已經爬取並清理過三大法人交易金額以後,我們便可以把清理完的資訊存入資料庫之中,以便後續分析。本章即教學該如何透過Python 指令以及sqlite3 模組操作資料庫finance.sqlite,並示範如何成功將資訊存入表格之中!
DeepFakes 技術已經讓影片造假變成是再容易不過的一件事!我們這次即透過DeepFaceLab 的程式碼實作 DeepFakes,嘗試將鋼鐵人的臉移花接木到我的臉上,讓所有人知道,即使你不會Photoshop,也可以偽造出真實度超高的影片出來。 p.s. 由於Google Colab 有免費提供Tesla P100 的 GPU,為了加速深度模型的訓練與實做,這次我們即運用Google 的 Colab 完成我們的模型訓練 影片: https://largitdata.com/course/125/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_125.ipynb #DeepFakes #DeepFaceLab #DeepLearning #深度偽造 #鋼鐵人
今天來說些好玩的,教學大家該如何使用Facebook Graph API 探索個人的隱私,想測試使用Graph API,可以連線到 Facebook Developer Page: https://developers.facebook.com/
DeepFakes (深偽) 技術近期遭到有心人濫用,將政治人物、演藝明星的臉合成於不雅成人影片,引起社會動盪不安,但不代表深偽技術應該被責難,我們還是可以運用深偽技術產生很多有趣的應用。就像你如果想要看到自己演出近期轟動全球的魷魚遊戲,我們這時可以透過深偽技術變臉,讓自己能夠身歷其境!本教學影片中,將示範什麼是 DeepFakes (深偽) 技術,並解說其中的原理。 教學影片: https://largitdata.com/course/149/ #Deepfakes #Autoencoder #DeepLearning #深偽技術 #深度學習 #魷魚遊戲
緊接著上一段,如何使用Graph API 存取FB 資訊後,我們接者示範只要擷取access token 後,把access token 資訊填入Graph API 中即可透過Python 的requests取得個人資訊(ID, 最喜歡的運動員)
有的網頁伺服器,會透過檢查用戶代理(User Agent),以限制爬蟲存取頁面內容,此時我們只要在標頭上增加自身瀏覽器所使用的用戶代理(User Agent) 就可成功騙過對方伺服器,存取網頁內容!我們便能使用這技術成功抓取永慶房屋的房價資訊瞜!
已經學會下載了漫畫,那該如何得到最新漫畫的通知呢?那就靠Line Notify吧!只要將Line Notify 機器人加到我們的群組中,隨時有最新訊息就可以透過機器人發送,讓你永遠不漏接最新訊息。 影片: https://largitdata.com/course/118/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_118.ipynb #LineNotify #RPA #Python自動化
新冠肺炎持續延燒,為了能夠確保大家的健康,各個機關或學校都動用了大量的人力來檢測是否每人都有配戴口罩,為了能夠減少檢測人力,我們要使用YOLO (You only look once)來搭建一個口罩檢測系統,讓人工智慧快速幫我們檢測是否每個人都有乖乖配戴口罩,保障大家的健康!在教學的第一個步驟,我們將先介紹什麼是YOLO,以及在Colab 上如何安裝YOLO。 影片: https://largitdata.com/course/126/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_126.ipynb #DeepLearning #YOLO #COVID19 #新冠肺炎 #口罩檢測
繼之前教學過該如何透過requests 的 get 取得PTT 網頁內容後,還必須將有意義的結構化資訊從回傳的原始碼之中抽取出來,本範例將介紹該如何使用 BeautifulSoup4 將發文者的文章標題、作者及發文時間剖析出來!
雖然已滿18歲多年,但是不知道你實際年齡的PTT,還是要禮貌性的問你是否滿18後,才能讓你閱讀八卦版裡面的內容,但人可以做點選,爬蟲呢?於是我們便可以先透過Chrome開發人員工具快速找到如何使用POST方法通過18歲驗證後,再接續之前的Session,就能順利存取八卦版的內容!
在安裝完YOLOv3的安裝程序後,我們開始要建立我們的口罩檢測模型。要做人工智慧前,必定先要有人工標記的資料集,因此我們先下載Kaggle 上的口罩資料集 (https://www.kaggle.com/vtech6/medical-masks-dataset/data),並將資料上載至Google Drive,接者將標注好的Label XML ,轉換為YOLOv3 可以接受的輸入格式。設定好模型所需之設定檔案(obj.data, obj.name, train.txt, test.txt, yolov3-tiny.cfg)並下載預訓練模型 darknet53.conv.74後,我們便可以開始訓練我們的口罩檢測模型了! 影片: https://largitdata.com/course/127/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_127.ipynb #DeepLearning #YOLO #COVID19 #新冠肺炎 #口罩檢測
最終我們必須要把整個漫畫自動發送的流程串接起來!因此我們先將目前抓到的漫畫集數存放至SQLite 之中,之後再跟爬蟲結果做個比對,取得目前還未抓取的集數。再透過Selenium 爬取新集數後,便可以透過Line Notify 發送最新的漫畫圖片。這時便可以將看漫畫這件事變得輕鬆簡單,且有趣! 影片: https://largitdata.com/course/119/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_119.ipynb #SQLite #LineNotify #Selenium #RPA #Python自動化
最近Wordle 的遊戲很火紅,許多人每天都絞盡腦汁想要想出當天的字謎。但其實猜字謎是有訣竅的,如果一開始就能夠選出涵蓋範圍最廣的字,就能夠得到比較多提示。但是哪個字的涵蓋範圍最廣呢?這邊我們就可以使用nltk 搭配 pandas 分析出 ceria 與 corey 是個不錯的起始字! 快來看看我們是怎麼分析的! 影片: https://largitdata.com/course/152/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_152.ipynb 對了!我們最近在徵資深前端工程師,意者請洽: 104 https://www.104.com.tw/job/7iw9u?jobsource=checkc cakeresume https://www.cakeresume.com/companies/largitdata/jobs/senior-front-end-engineer-7f5d73 yourator https://www.yourator.co/companies/LargitData/jobs/22267 #wordle #nltk #pandas #資料科學 #數據科學
還記得看蘋果新聞時,新聞下面常附上有趣的惡搞示意圖嗎?現在透過人工智慧工具ChatGPT與MidJourney,我們也可以快速打造吸睛新聞封面產生器。讓新聞閱讀變得更有趣,吸引更多的讀者閱讀。自動化產圖流程可以分為三個步驟: 1. 我們利用Python網路爬蟲自動觸發MidJourney,讓MidJourney 可以根據我們的提示詞自動產圖 2. 我們透過網路爬蟲取得AIPRM內的MidJourney 生成咒語,讓程式可以快速根據新聞標題創造MidJourney咒語 3. 最後,利用ChatGPT的API將整個流程自動化,使用者輸入新聞標題後,自動產生MidJourney咒語,再透過網路爬蟲自動產圖 透過一系列自動化流程,以後只要給定新聞標題,就可以快速打造吸睛新聞封面圖了! 那想要知道如何自動從Discord 取回圖片嗎? 我們下集分曉! 影片: https://largitdata.com/course/224/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_224.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #大數學堂 #大數軟體 #Python網路爬蟲 #MidJourney #ChatGPT #AIPRM #OpenAIAPI
現在很流行對話機器人,但與其做單純的文字交流,不如真正跟機器人對話吧!結合Course 87 與 88 的素材,我們只要30行不到的程式碼,就可以寫出個「真‧對話機器人」,讓Google 小姐回應你的所有問題吧! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_99.ipynb
雖然Pokemon GO 還沒有在台灣發行,但國外已經有很多神人已找到破解該APP 的方法,讓我們可以輕輕鬆鬆使用API 存取APP 內的資訊,而我們將搶先教學該如何存取其 API 資訊,讓大家都能快速找到附近的神奇寶貝!
在訓練好YOLOv3口罩檢測模型後,我們便可以結合模型與攝影機畫面,建立即時口罩檢測系統。但原本的模型是使用darknet 所調動的,所以我們改透過opencv讀取模型,再結合opencv 提供的攝影機擷取功能,便可以建立一個即時口罩檢測系統,馬上來看看鏡頭下的人是否都有戴好口罩! 影片: https://largitdata.com/course/128/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_128.ipynb #DeepLearning #YOLO #COVID19 #新冠肺炎 #口罩檢測
不一定要用OpenCV 做文字辨識才能抓取(Crawl) 網頁資料,有時只要巧妙延續之前做HTTP 請求的Session,並搭配Ipython Notebook 的圖片顯示功能,半自動化的辨識方式也能讓你輕輕鬆鬆抓取有驗證碼 (Captcha) 限制的網頁內容。
YOLO 回來了!YOLO 之父 Joseph Redmon 在今年二月時表示,由於無法忽視自己工作所帶來的的負面影響,宣布退出電腦視覺領域。原本以為YOLOv4應該是不會問世了,沒想到YOLOv4 即橫空出世。 更令人驚喜的是, YOLOv4 在取得與 EfficientDet 同等的效果下,速度是 EfficientDet 的二倍,聽起來是不是非常吸引人?讓我們馬上學習該如何在Google Colab 上安裝並調用 YOLOv4 吧! 影片: https://largitdata.com/course/130/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_130.ipynb #DeepLearning #GoogleColab #YOLOv4 #大數學堂 #大數軟體
Python網路爬蟲除了可以爬股市的即時行情之外,當然也可以抓取台指期的即時行情(Tick)資料。雖然抓取的方式略有不同,但只要透過開發人員工具,我們一樣可以輕輕鬆鬆找到突破點,將Yahoo 股市上的台指期順利抓取下來,並進一步製作成分析圖表! 影片 https://largitdata.com/course/213/ 程式碼 https://github.com/ywchiu/largitdata/blob/master/code/Course_213.ipynb 給資料科學家的 Python 基礎課 https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站 https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #python網路爬蟲 #財經爬蟲 #即時行情 #交易機器人 #Yahoo股市 #台指期 #台指期貨
除了能抓取網路上的文章內容,網路爬蟲也能將美美的圖片放置到資料庫之中歐!本次教學先將教各位透過設定stream =TRUE,以將網路圖片抓取下來,之後透過shutil 的copyfileobj 將圖片存放置檔案,接者於建立一個可以存放blob 資料的資料表之中,我們就可以將圖片存放置資料庫之中了!
又來到購物血拼的雙十一購物狂歡節了,雖然淘寶 (Taobao) 前一次的網頁改版,讓抓取資料開始變的棘手,但檔不了我們或取購物資訊的熱情!這次,就是要敎你如何用Python 網路爬蟲 (Python Crawler)將雙十一購物狂歡節活動網頁中的商品列表抓取下來。
即使針對網站做層層保護,但只要爬取資料的觀念對了,破解任何網站只是時間的問題。如同這知名財報網站(https://goo.gl/7Q2v8p),雖有檢查使用者是否是透過爬蟲爬取資料或有使用iframe 做頁面內嵌,都還是難逃被爬取的命運!
如果是讓機器人只能回答我們的問答集,那就有點無聊了。為了提升機器人的智能,我們可以撰寫一Python 網路爬蟲,讓該爬蟲根據我們的關鍵字到維基百科上搜尋專業知識,並將專業知識的第一段串接到對話流程中,便能讓我們的Open Jarvis 回答專業問題了! http://www.largitdata.com/course/101/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_101.ipynb
本教學將教會各位如何使用Python 抓取 MoneyDJ 文章中http://www.moneydj.com/KMDJ/News/NewsViewer.aspx?a=a180a15b-9e4f-4575-b28f-927fcb5c63a3 的人氣指數。 如果想要安裝POSTMAN 的,請到以下網站下載 https://chrome.google.com/webstore/detail/postman-rest-client-packa/fhbjgbiflinjbdggehcddcbncdddomop
看完「復仇者聯盟4-終局之戰」(Avengers: Endgame) ,想必大家一定期待該電影能打破阿凡達 (Avatar) 的票房紀錄,躍升為影史最賣座的電影。那就讓我們來建立一個時間序列預測模型來預測是否成真 ?! 但巧婦難為無米之炊,讓我們先用Python 網路爬蟲搜集一下Box Office Mojo 上的票房數據吧! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_113.ipynb
為了迎接即將到來的雙十一節,更新一下以前淘寶的爬蟲,造福所有想要在當天掌握價格變化,殺進殺出的買賣家。舊的爬蟲只要爬取Document 下的連結,便可很容易獲取商品價格資訊。但淘寶網也在這些時日更新了,變成使用AJAX 的方式填入頁面內容。因此我們便可以從XHR 以及JS 下手,找尋進入點,再使用正規表達法(re),便可以快速的剖析出重要資訊,讓你爬取淘寶網,無往不利!
如果想要在windows 上用Numpy, Pandas玩資料分析,卻又不想裝Anaconda 時,該怎麼解決惱人的套件安裝問題呢?你可以選擇安裝Microsoft Visual C++ Compiler for Python 2.7 (https://goo.gl/nBRz7G) 一次解決套件的安裝問題!
Goodinfo 台灣股市資訊網 (https://goodinfo.tw/) 蘊藏了許多股票的重要資訊。為了能夠快速分析這些股市資訊,我們希望能打造一個Python 網路爬蟲自動化的爬取各股票的歷年經營績效,但Goodinfo 有設立了防爬蟲機制,因此我們即加上user-agent 讓網站誤以為我們的爬蟲是真人瀏覽行為,我們即可以順利爬取資料。再透過Pandas 的整理功能,我們即可以迅速將網頁轉變成結構化資訊,讓有價值的資料能作輔助我們的投資決策! 影片: https://largitdata.com/course/132/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_132.ipynb #Goodinfo #Python網路爬蟲 #財經爬蟲 #大數學堂 #大數軟體
小叮噹的翻譯蒟蒻可說是我們大家共同的童年回憶,但如果我們可以用Python 做出一個翻譯蒟蒻,那就真的很酷了。在這一課中,我們將結合py-googletrans這個專案,用Google 大神翻譯翻譯我們說的中文,讓與外國人溝通不在是件難事! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_102.ipynb
如果要抓取司法院法學檢索系統的檢索內容,通常會碰到因為該查詢結果是鑲嵌在Iframe 中,以致爬蟲無法順利抓取內容。這時就可以使用Selenium 解決抓取的問題。但是該如何寫一個Selenium程式呢? 這時候可以靠Selenium IDE 的幫忙,自動記錄抓取步驟後,並將步驟轉換成Python Script,讓一切爬取動作變得不可能再簡單!
雖然我們可以使用requests.post 取得需要POST請求的網頁內容,但我們也可巧妙的使用GET 模擬整個的POST 動作,只需要簡單的將POST 內容編碼後,串接在原網址的問號(?)後面,便可以順利取得裡面的內容。
當碰到瀑布流網站(例如: EZTABLE),抓取資訊就會變得比較困難。但所幸可以使用Selenium 執行Javascript 來解決頁面捲動的問題,在本範例中,我們利用execute_script 執行 window.scrollTo(0, document.body.scrollHeight);,便可順利抓取瀑布流式網頁。
要能搶的到便宜的廉價航空機票最佳妙方,便是無時無刻關注最新的票價。但上班很忙、上課很累,所以我們還是讓我們的爬蟲代勞吧。因此我們就教大家如何使用爬蟲 (Python Crawler) 抓取酷航(http://www.flyscoot.com/)的最新票價資訊,讓你不再錯失便宜的機票。
又來到一年一度的1111購物狂歡節了,在這令人歡欣的購物季節裡,我們來練習一下該如何快速寫一個淘寶爬蟲程式吧!以前的電商網頁都擋東擋西,不太好爬,但是現在都有提供API,能夠讓你快速將商品資訊下載下來,因此我們只要能透過Chrome 的開發人員工具,快速找到API 的端口,就可以透過requests 快速將JSON 格式資料爬取下來。再搭配Pandas強大的資料整理功能,就可以快速將所有資料整理成表格,方便我們閱覽跟分析所有的商品資訊。有了API 的資料源,寫爬蟲就是這麼的輕鬆自在。不信,你可以下來看看! 影片: https://largitdata.com/course/120/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_120.ipynb #Python網路爬蟲 #1111購物狂歡節 #淘寶 #不信你可以下來看看 #大數學堂
想知道何時能買進最低價位的日圓嗎? 使用爬蟲通知你就對了!今天我們會使用Python Pandas,極快速的將台灣銀行的牌告匯率抓取下來,並使用Pandas 的語法將匯率資料整理成漂亮的表格。最後,我們便能將整理過的資料存成Excel。讓你出國血拼,硬是划算!
一年有兩個購物狂歡節,因此我們在雙12 就來學習如何撰寫momo購物網的爬蟲吧!不過momo 購物網有防爬蟲機制,但我們只要加入headers ,騙他我們是真人,這樣他們就無法防止我們的爬取行為了,讓我們快速搜刮所有特價品資訊吧! 影片: https://largitdata.com/course/121/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_121.ipynb #Python網路爬蟲 #1212購物狂歡節 #momo
新冠肺炎的疫情鬧得人心慌慌,大家都想知道到底目前疫情延燒到什麼樣的程度。為了能夠快速獲得第一手的輿情訊息,我們開始撰寫一個Python 網路爬蟲快速爬取微博手機版(https://m.weibo.cn/) 的輿情訊息。讓我們可以隨時掌握最新的疫情訊息。 影片: https://largitdata.com/course/122/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_122.ipynb #Python網路爬蟲 #武漢肺炎 #2019-nCoV #微博 #weibo
證交所公佈了上市與上櫃公司非擔任主管職務之全時員工薪資資訊,讓我們得以一窺上市櫃公司員工的薪資水準。以往只有提供薪資平均值,但薪資平均值可能會因為少數員工獲得特別高(低)的薪水,因而拉高(低)了整體平均,導致資訊失真。今年則是加入了中位數的資訊,而中位數因為是將所有員工薪水排序後取最中間的值,因此能夠更客觀地反映該公司給員工的薪資水平。讓我們就馬上來使用Python 的requests 與 pandas 爬取跟分析所有上市櫃公司的薪資水平吧! 影片: https://largitdata.com/course/131/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_131.ipynb #網路爬蟲 #上市櫃公司薪資水平 #平均值與中位數 #大數學堂 #大數軟體
最近PS5 預購正夯!但手速不夠快的朋友們,不要灰心,我們可以靠撰寫Python 網路爬蟲來快速預購PS5 ! 我們只需要透過Python + Selenium 撰寫一連串自動化點擊程序,並將程序包裝成函式,現在只要輸入商品網址,我們的自助購物小幫手就可以快速在MOMO購物網上幫我們買到想要的PS5摟! 影片: https://largitdata.com/course/137/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_137.ipynb #Python購物小幫手 #PS5 #PS5預購 #Selenium #Python網路爬蟲
用Python Requests 擷取驗證碼圖片不是件難事,但用selenium呢? 最簡單的做法就是先存下頁面快照(screenshot),再找尋圖片位置後,根據位置還有圖片大小,我們就可以從頁面中順利擷取出驗證碼,之後只要把驗證碼丟到我們的機器學習引擎辨認,以後就可以讓電腦自動幫我們訂票啦! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_95.ipynb
又來到1111 購物狂歡的季節,除了要瘋狂的Shopping 以外,千萬別忘了用Pyhton 網路爬蟲關注重要的特價訊息! 這次我們將用簡單的爬蟲,抓取天貓主會場的特價商品資料!先用python requests 抓取商品頁面,接者用BeautifulSoup4 抓取位在 .J_dynamic_data 的資料區塊,最後用簡簡單單的json.loads,便可以將資料讀成字典結構,讓妳敗家當下,同時顧好荷包! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_80.ipynb
表格是網路上常見擺放數據的格式,除了可以使用BeautifulSoup4做數據的剖析外,最佳能將該資料格式爬取下來的工具可能莫過於PANDAS 莫屬,只要透過簡單的read_html,就可以把網路上看來複雜的表格資訊,快速轉變成DataFrame,納為股票分析的數據源之一!
抓取以Ajax 生成的頁面需要許多時間耐心觀察,才能找到抓取的切入點。但是使用Selenium 可以省去這個麻煩,他的自動點擊跟載入Ajax生成的頁面結果,讓人只消知道元素所在便可抓取資訊,再搭配BeautifulSoup4 強大的解析功能,用Python 抓取網頁,再簡單不過!
進到高鐵驗證碼破解系列!今天先從去除驗證碼上的噪音點開始。首先我們要安裝opencv,接者便可以使用opencv 中的 fastNlMeansDenoisingColored (https://docs.opencv.org/3.0-beta/modules/photo/doc/denoising.html) 去除圖片中的的噪音點,讓驗證碼圖變得更加乾淨! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_96.ipynb
繼如何使用 Selenium 自動預購PS5 (https://largitdata.com/course/137/) 的影片,許多朋友來信詢問,有沒有辦法在打開 Selenium 的同時,自動登入 momo 購物網的使用者帳戶中,這樣我們才能更快搶購到我們想要買的商品。因此,在本教學中,我們介紹如何透過保存與讀取 Cookie 資料,並將Cookie 資料輸入至 driver 中,如此一來,我們的Selenium搶購機器人便能在不輸入帳號、密碼的情況下直接登入使用者帳戶,讓搶購變得更快速、方便。 影片: https://largitdata.com/course/147/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_147.ipynb #Python購物小幫手 #PS5 #PS5預購 #Cookie #Selenium #Python網路爬蟲 #自動登入
在去除掉腦人的噪音點後,如何該去除掉跟字一樣粗的弧線便是大問題。所幸,所有高鐵驗證碼的弧線都可以簡單的用一個二項式迴歸公式表示,因此我們便可以用sklearn 的linear model去適配出迴歸線後,便可以擦去這條煩人的弧線,提高圖片的可辨識率! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_97.ipynb
將抓取到的牌告匯率存進Excel之中是個保存資料的好方法,但使用者卻很難使用Excel管理新增的匯率資料。因此,比較好的做法是我們可以將資料庫當成儲存媒介,增加資料的可維護性。而使用Pandas,只需要在建立與資料庫(SQLite)的連線後,利用 to_sql 函式,即可瞬間將資料儲存進資料庫中。之後,只要再使用read_sql_query,便可將資料庫中的資料讀回變成 DataFrame。
又回到爬蟲實戰的課題了,這次要抓時下最夯的蝦皮拍賣(https://shopee.tw/)。蝦皮的抓取方法必須先找到放在XHR 的請求連結,接下來必須連同json 格式的參數一同透過POST做傳輸,方能送出正確的請求出去。但是如果今天發出請求後,如何都拿不到正確回應時,便要思考是不是有少帶哪些標頭(Headers)資訊,此時只要一一嘗試,總會找到一個正確的組合取得商品資訊。當然,有些標頭資訊是很難以取得的,此時再搭配Selenium 取得正確Cookie,任何難解的網站都可以迎刃而解!
為了能夠抓取 GoodInfo 所有上市公司基本資訊,首先我們要先取得所有上市公司的代碼,因此我們就造訪了Tej 的網站 (https://www.tej.com.tw/webtej/doc/uid.htm) 找到了上市上櫃公司的代碼清單。為了節省剖析頁面的時間,我們直接使用了正規表達法,把所有的數字代碼抽取(\d+)出來,如此一來,我們便能輕鬆取得所有上市公司的代碼! 影片: https://largitdata.com/course/134/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_134.ipynb #Python網路爬蟲 #正規表達法 #TEJ
又來到1111 購物狂歡節,這次我們想要在蝦皮還沒有公開商品折扣資訊前,預先透過API 偷看特賣商品的折數。但蝦皮購物在API 的存取上設下重重關卡,所幸我們可以先透過Selenium 先取得Cookie 與csrftoken資訊,再夾帶該資訊存取蝦皮API,這樣我們就可以在商品開賣前,預先掌握折扣資訊摟! 影片: https://largitdata.com/course/136/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_136.ipynb #1111購物狂歡節 #蝦皮API #蝦皮特賣商品折扣 #Selenium #Python網路爬蟲
比特幣(Bitcoin)與以太幣(Ethereum)大漲的故事,似乎在投資界升起一股虛擬貨幣投資浪潮,但看著日益上漲的的比特幣,你是不是會擔心高點到了,始終買不下手,遲遲無法進場? 這時我們可以利用Python 網路爬蟲加上Python Pandas 的數據分析功能,協助你找出比特幣的趨勢線與移動平均線,讓你可以用傳統的均線理論,趨吉避凶,找出最適當的買點!當然,老話一句,投資有賺有賠,投資前請詳閱公開說明書 XD 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_90.ipynb 想了解更多該如何使用Python 做資料分析? 可以參考我跟天善智能合作的線上課程: https://edu.hellobi.com/course/159
新版實價登錄網站(http://210.65.131.75/)越來越難爬,為什麼API連結中會出現一堆神祕字串?為了能夠知曉神秘字串是從何產生的,這時我們就要善用Chrome 的開發人員工具了!透過在Source 設定一層層的 Debugger,即可以發現加密的JS 程式碼片段,此時只要重用加密函數片段加密替換參數的查詢條件,這時我們就可以如法泡製,順利抓取實價登錄資訊摟! 影片: https://largitdata.com/course/141/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_141.ipynb #Python網路爬蟲 #實價登錄資訊 #Chrome開發人員工具
有在用Yahoo 股市關注即時行情的朋友,一定可以發現Yahoo 股市的頁面最近有更新版本。為了能夠讓我們的交易機器人隨時能根據最新的行情做決策,我們便必須要找到即時行情的API,讓 Python 網路爬蟲能夠順利蒐集新版Yahoo 股市資訊! 影片: https://largitdata.com/course/143/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_143.ipynb #Python網路爬蟲 #財經爬蟲 #即時行情 #交易機器人 #Yahoo股市
天下武功、唯快不破,要在世界財經重鎮香港交易港股也是如此!為了能夠快速獲得股票成交資訊,讓你的交易機器人能在行情發動時第一時間進場或出場。我們便需要撰寫一個Python 網路爬蟲,在破解該存取API 上的Token 與時間戳資訊後,我們便能夠靠爬蟲快速爬取港股資訊,讓我們能在投資市場上洞燭先機,掌握財富密碼。 影片: https://largitdata.com/course/145/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_145.ipynb #Python網路爬蟲 #交易機器人 #香港交易所 #大數學堂 #大數軟體
讓爬蟲每天定期執行爬取工作才能達成真正的工作自動化!而Windows 使用者可以善用工作排程器功能,我們便可以每天更新資料庫的匯率資料,以利之後進一步提醒我們現在是否是進場的好時機! 如果是MAC 或 Linux 使用者,可以參考Crontab 的用法歐 (http://linux.vbird.org/linux_basic/0430cron.php)
延續上一堂課「如何透過開發人員工具破解實價登錄網新版API中的加密字串」,我們現在要將實價登錄網的抓取過程完全自動化。雖然在實務上我們可以用Node JS 或 Pyexecjs 等方法載入加密函數,但是這就要牽扯到如何使用Node 或如何修改 Javascript 的問題,為了讓任務變得更加單純,我們這邊直接使用Python Flask 做一個橋接器,接收讀取加密函數後的請求,再將加密字串重新導向實價登錄網,如此一來,便可以輕輕鬆鬆破解新版實價登錄網。 影片: https://largitdata.com/course/142/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_142.ipynb #Python網路爬蟲 #實價登錄資訊 #Flask
當已經能夠設定自動排程,每天定期抓取匯率資訊後,我們便想知道如果今天匯率觸擊我們心目中的價格,是否可以讓爬蟲透過EMAIL自動通知我們? 因此我們可以使用Python 的smtplib 結合 GMAIL,再將Data Frame 的資料以HTML 的方式寄出,我們便可以將整個匯率擷取過程全部用Python 爬蟲自動化,讓你不再錯失任何最佳買點!
談到資料分析,圖表一定是其中不可或缺的一環,而透過Pandas 的處理,你會發現原來畫圖不過就是兩三行指令的事。在這邊我們先善用pandas 的 read_csv 讀取 csv 資料,再用%pylab inline 讓圖表成現在Jupyter Notebook 之中,最後使用 plot函式繪製折線圖。畫圖,就是這麼簡單!
除了可以使用網路爬蟲(Web Crawler)抓取文字資料外,我們當然也可以利用爬蟲抓取圖片檔。因此想要把最喜愛的雪芙女神照片蒐集成美女牆(慾望之牆?),我們只須找到圖片的位置後,結合使用streaming 的資料抓取, binary 寫檔跟shutil套件。我們便可以把Gamebase(http://goo.gl/oOwFme)上雪芙女神相關的照片變成我們的收藏品。Hi 雪芙,妳好嗎!
爬蟲不一定是用來抓資料! 你也可以應用網路爬蟲把身邊一些瑣事自動化!這邊我們就教學該如何使用Selenium 撰寫一個爬蟲,自動將我用slides.com 所製作的HTML 網頁投影片轉換成圖檔,之後再將圖檔結合起來後匯出成pdf 檔,這樣就不用花錢升級會員,也可以將投影片匯出成pdf 了!
疫情期間隔離在家,想必大家都悶壞了!不知大家都有沒有玩網易雲性格主導色心理測驗(https://st.music.163.com/st-color-quiz)? 玩完測驗以後,我只好奇到底還有哪些顏色性格?以及哪種性格是最特別的?與其慢慢把所有問題的排列組合試過一遍,讓我們快速使用觀察Python 網路爬蟲常見的開發人員工具以及Python 的正規表達法,就可以迅速列出所有的性格色! 我的性格色是橙+粉,不知道你又是什麼顏色呢? 影片: https://largitdata.com/course/144/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_144.ipynb 性格主導色完整資料: https://github.com/ywchiu/largitdata/blob/master/data/163music.xlsx #Python網路爬蟲 #網易雲 #性格主導色 #心理測驗 #大數學堂 #大數軟體
最近證交所的頁面更新,除了讓人有耳目一新的感覺,也帶給爬蟲(Python Crawler)全新的挑戰!尤其很多人發現,只要頻繁抓取該網站頁面資訊,最終都會面臨無法繼續連上證交所的窘境;這其實一切都是網頁伺服器的rate limiting 在作祟。因此,我們只要讓抓取之間能夠讓爬蟲小睡(Sleep)個幾秒,便能擺脫IP被封鎖的命運,讓爬蟲重振雄風,順利抓取您想抓取的資料! 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_100.ipynb
為了能夠使用更聰明的方法自動破解驗證碼,我們將運用機器學習方法中的類神經網路方法破解驗證碼。但在建立模型之前,我們先須將opencv3安裝於Anaconda Python 3.6 上,之後便可以利用Opencv3 切割出各驗證碼數字,方能建立分類模型,讓機器自動辨識驗證碼!
繼我們可以於Python 3.5.2 安裝 OpenCV3 以後,我們便可以先透過 Python 爬蟲抓取經濟部─公司及分公司基本資料查詢(http://gcis.nat.gov.tw/pub/cmpy/cmpyInfoListAction.do)的驗證碼,之後便可以使用OpenCV 的 findContours 協助我們切割並儲存驗證碼中的各個數字!
將驗證碼切成一個個數字以後,我們接者就可以使用Python scikit-learn 提供的類神經網路(MLPClassfier),便可以讓電腦透過機器學習方法自動辨認圖片中的數字。如此一來,驗證碼再也沒有辦法阻擋我們的爬蟲大軍! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_93.ipynb 如要學習更多有關Python 與機器學習相關課程,可參考: https://edu.hellobi.com/course/159
當建立完訓練模型後,勢必要將模型保存成pickle 檔,系統後續便可以再讀取pickle 檔,便可持續利用該模型破解驗證碼,完成爬蟲以順利抓取公司及分公司基本資料! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_94.ipynb 如要學習更多有關Python 與機器學習相關課程,可參考: https://edu.hellobi.com/course/159
爬蟲除了可以直接擷取網頁上的資訊外,也可以用來下載 csv 檔。但看到證交所將網頁內容以base64 的編碼放置在post 的參數中時,著實也被這匪夷所思的寫法嚇了一跳。所幸我們可以直接抓取網頁中的隱藏輸入,再將資料做base64編碼,這時我們便可順利的將csv 抓取下來了!
當碰到資料是由 Javascript 渲染而成的網頁時,就無法直接使用requests 根據頁面網址抓到我們要的資料。此時除了找出正確的資料連結或使用笨重的Selenium 外,Pyppeteer 便是我們可以使用的解決方案之一!Pyppeteer 以Python 接合 Chromium API,透過輕量的Chromium讀取Javascript渲染過的頁面資料,讓網頁爬取變得再直覺不過! 影片: https://largitdata.com/course/148/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_148.ipynb #PCHOME爬蟲 #Pyppeteer #Puppeteer #Python網路爬蟲 #動態網頁抓取
自動化的需求越來越多,但是透過Selenium 或 Python Requests 寫自動化腳本對不會寫程式的人而言,真是令人煩惱。所幸,微軟開源的Playwright ,可以讓你以低代碼Low-Code / No-Code 的操作快速撰寫 Python 腳本,讓再怎麼繁複的網頁操作行為,都可以在彈指之間完成 影片: https://largitdata.com/course/150/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_150.ipynb #nocode #lowcode #Python網路爬蟲 #Playwright #自動化腳本 #RPA
又到了一年一度的1111,搶購便宜商品自然是每年必須的操作。同樣的,每年唯有撰寫Python網路爬蟲,我們才可以搶先他人一步,獲取最新特價資訊。但是每家購物網站都長的不同,若又要根據每個網站客製化爬蟲,可能爬蟲還沒寫完,1111就過完了。幸好,透過低代碼Low-Code / No-Code 自動化神器Playwright 搭配BeautifulSoup 的操作,我們只要寫一點程式碼,就可以抓遍所有的購物網站,讓我們的自動化程式跟上1111的購物狂熱節奏! 影片: https://largitdata.com/course/151/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_151.ipynb #1111購物狂歡節 #雙11 #nocode #lowcode #Python網路爬蟲 #Playwright #自動化腳本 #RPA
在閱讀或撰寫外文文件時,大家是不是常依賴Google 翻譯、有道翻譯等平台。但每次翻譯的時候,如果都要先將文字貼上平台,擷取翻譯結果後,再找軟體將簡體中文翻譯成繁體中文,這些複製貼上等重複性動作往往浪費掉我們許多寶貴的時間。因此我們此次便教學如何去使用Playwright 撰寫一個簡單的Python網路爬蟲程式,爬取有道翻譯的翻譯結果,並且再透過OpenCC再將結果從簡中翻譯成繁中,此時就可以善用自動化程式為我們省下不少時間與麻煩! 另外,大數軟體徵求一資深前端工程師 | Sr. Frontend Engineer,請有能力、有興趣的朋友們來應徵歐!如果你有認識有朋友對這份職缺有興趣的,而因為你的推薦而順利錄取的話,將加發推薦獎金 40,000 給推薦人! 徵才網頁 https://www.cakeresume.com/companies/largitdata/jobs/senior-front-end-engineer-7f5d73 影片 https://largitdata.com/course/212/ 程式碼 https://github.com/ywchiu/largitdata/blob/master/code/Course_212.ipynb 給資料科學家的 Python 基礎課 https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站 https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #自動翻譯軟體 #有道翻譯 #Python網路爬蟲 #Playwright #自動化腳本 #RPA
最近世足賽的開打,相信只要是熱衷球迷都已經關心賽事有數天之餘!除了觀看賽事之餘,所以如果能夠透過運彩參與比賽,那觀賽過程將會更加精彩。但台灣運彩有很多防爬蟲機制(例如禁用開發者工具),因此本教學將教你如何突破台彩網站的封鎖,讓你使用開發者工具觀察網頁,快速使用 Python 撰寫網路爬蟲,順利抓取世界杯足球賠率! BTW,台彩其實還有相當多的防範機制阻止你抓取到正確的數據(例如其他玩法的賠率),如果對這主題有興趣的話,請在下方告訴我,有機會的話我們下一回再開個視頻專門解說! 影片: https://largitdata.com/course/216/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_216.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #python網路爬蟲 #台灣運彩 #世界杯足球 #世足賠率 #反爬蟲機制破解
最近英鎊暴跌!除了關心未來的經濟前景外,是不是應該想想在高通膨時代要如何省荷包。然而貨幣競貶其實並非全是負面消息,競貶的一個副作用是讓同一件商品在不同市場中產生價差,但是這個價差會差異到有利可圖嗎? 我們便來利用Python 網路爬蟲爬取 Burberry 同一件商品在英、美、日、韓官網的價格來實證一下! 影片: https://largitdata.com/course/214/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_214.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #python網路爬蟲 #比價爬蟲 #英鎊暴跌 #貨幣競貶 #撿便宜
Python 網路爬蟲除了可以每年搶1111最優惠的商品外,當然可以把一些無聊的事(例如搶蝦幣) 加以自動化。而只要透過簡單的Selenium 腳本,我們就可以實現自動填入帳號、密碼,點擊領蝦幣按鈕,再加上工作排程的設定,天天躺著領蝦幣不是夢! 影片: https://largitdata.com/course/215/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_215.ipynb 給資料科學家的 Python 基礎課: https://www.youtube.com/watch?v=uzInb5gbl4M 大數學堂 - 學習資料科學的第一站: https://www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw #1111購物狂歡節 #雙11 #Python網路爬蟲 #Selenium #蝦皮 #搶蝦幣
有在操作股票的朋友們一定知道,證券櫃買中心的券商買賣證券日報表上包含了每日上櫃股票的分點交易資料,透過研究分點資料,便可以分析大戶進出行為,進而跟單獲利。但是券商買賣證券日報表上面埋有reCAPTCHA驗證碼,透過一堆圖片驗證題目,阻止我們的自動化網路爬蟲大軍去上面大量撈取資料。 但reCAPTCHA 驗證碼怎麼識別? 因此大數軟體 X 大數學堂,今天就要教你該如何撰寫一Python網路爬蟲,再搭配2Captcha驗證碼識別服務,便可以輕輕鬆鬆突破券商買賣證券日報表上的 reCAPTCHA 驗證碼服務,順利抓取分點交易資訊。 完整文章: https://www.largitdata.com/blog_detail/20210629 影片: https://largitdata.com/course/146/ 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_146.ipynb 2Captcha 服務 https://2captcha.com/zh/?utm_medium=content&utm_source=largitdata&utm_campaign=taiwan&from=12066227 #驗證碼識別服務 #怎麼繞過驗證碼 #驗證碼怎麼識別 #Python網路爬蟲 #大數軟體 #大數學堂 #人工智慧
這次介紹該如何寫一個Python 爬蟲 (Python Crawler) 把Youtube 影片下載下來。雖然是影片檔案,但抓取的方法其實跟一般的爬蟲並無二異,只要先觀察到實體影片的連結位址後,用正規表達法還有Query String 剖析函式,就可以把影片連結抓取出來,接者再用寫進binary 的方式,就可以把Girl's day Expectation 的影音串流(https://youtu.be/5yAU52qfYuU) 從Youtube下載下來啦!好吧,該來練一下吊帶舞了! Woo~ woo~ woo~
又到了雙11 購物狂歡的日子!話不多說,我們就從天貓TMALL 網路爬蟲當做瘋狂購物的前奏吧!我們首先就用了Python Requests 套件抓取天貓商城的商品資訊,接著搭配BeautifulSoup4 及 Pandas,讓資料爬取、資料整理到資料儲存能夠三位一體,一次完成! 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_98.ipynb
要了解一個市場前,獲取市場相關數據勢必是第一優先!在中國已外可以參照Google Trend,但在中國就只能用淘寶指數。但困難點在於淘寶指數必須先登入後,才能抓取相關資訊。但天下沒有無法抓取的資料,一切都在於耐心觀察,藉由觀察登入的樣式與資料的位置後,再透過強大的Python抓取。依然,我們這次依然可以取得我們要的資料!
選舉已經在2018/11/24 號落幕,但是還是有很多人想要了解在這次公投,各地區的人民做了哪些選擇。為了能夠分析這次公投的資料,我們可以利用Python 的 Selenium 與 Requests 抓取中選會(http://referendum.2018.nat.gov.tw/pc/zh_TW/index.html)的投票統計資料,讓你能夠在取得完整資料後,分析各地民眾的意向。 如果想要直接分析的朋友,也可以直接到https://www.largitdata.com/blog_detail/20181129 下載整理過後的資料 程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_109.ipynb
利用Python 網路爬蟲抓取一些會鎖IP 的網站 (例如:GoodInfo, 證交所 ),就需要一些免費的Proxy 當成跳板,規避網路爬蟲被封鎖的風險。因此我們先抓取Free Proxy List (https://free-proxy-list.net/) 上的頁面,再利用正規表達法蒐集所有的IP 清單,最後再透過 ipify (https://www.ipify.org/) 做測試,如此反覆操作,我們就很快能累積出屬於我們自己的Python 網路爬蟲跳板(Proxy)清單摟! 影片: https://largitdata.com/course/133/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_133.ipynb #Python網路爬蟲 #Proxy #ipify #跳板 #免費IP
最新的iPhone 想必讓很久沒有換手機的人已經蠢蠢欲動了吧!但是要買空機還是綁電信方案?向來是一個難解的問題。那不如就來用Python Pandas 抓取並分析中華電信的最新5G 購機方案吧。透過數據分析,不用左右為難,馬上就能找出最優惠的方案! 影片: https://largitdata.com/course/135/ 程式碼:https://github.com/ywchiu/largitdata/blob/master/code/Course_135.ipynb #Python網路爬蟲 #5G購機方案 #iPhone12