[Scrapy 爬蟲] 如何使用pipelines.py將Scrapy 爬取下來的資料儲存置資料庫之中?

  • 大數學堂
  • Feb. 26, 2016, 3:27 p.m.

當使用scrapy抓取資料後,會將每個item傳遞給pipelines。在pipeline中可以:

1. 清理網頁資料

2. 驗證抓取資料

3. 去重覆化

4. 將資料儲存至資料庫。

在範例中,我們在pipelines.py:

1. 設置open_spider: 開啟資料庫連線,建立表格

2. 設置close_spider: 認可交易(commit),關閉資料庫連線

3. 設置process_item: 將資料儲存至sqlite中。

最後在settings.py啟用pipelines的設定。