[ChatGPT] 利用 ChatGPT 打造萬用網路爬蟲追蹤最新機票價格

  • 大數學堂
  • 2023年6月25日 09:23

剛過了端午節,又期待中秋節的到來了嗎?再加上疫情解封,日圓跌至新低。如果能在中秋節時去日本賞月和購物,那不是相當令人期待嗎!

但即使日圓再怎麼跌,機票費用仍佔了一大部分。如果能有效節省機票費用,相信旅程一定能更加愉快。

那麼,怎麼知道現在的機票是最便宜的呢?除了人工查找外,最好的方法是使用Python網路爬蟲。

但是,編寫網路爬蟲需要很多功夫。這時候,可以讓ChatGPT + LangChain 來幫助你編寫一個通用的網路爬蟲 。

因此,在本教學中,我們將教你:

1. 如何使用Selenium自動瀏覽Expedia網站

2. 如何使用LangChain + ChatGPT的Extraction 功能,自動根據Schema解析出半結構化資料

3. 最後,使用Pandas將半結構化資料轉換為結構化資訊 ChatGPT的幫助可以省去以前需要觀察元素的功夫。再加上Selenium可以像人一樣開啟任何網頁,我們便可以大大簡化編寫網路爬蟲的過程,抓取任何想要的頁面摟!

影片: https://largitdata.com/course/226/

程式碼: https://github.com/ywchiu/largitdata/blob/master/code/Course_226.ipynb

給資料科學家的Python基礎課: www.youtube.com/watch?v=uzInb5gbl4M&t=0s

大數學堂 - 學習資料科學的第一站: www.youtube.com/channel/UCSmvtvsTjqkvKLqpmsFWRQw

Expedia: https://www.expedia.com.tw/

Chromedriver: https://chromedriver.chromium.org/downloads

LangChain Extraction: https://python.langchain.com/docs/modules/chains/additional/extraction

OpenAI API: https://platform.openai.com/