目錄

在這裡說的內容因為是來自個人經驗,可能不會是最佳的解答~~,但反正她會動~~。

網路爬蟲是什麼

廣義上來說從網路上自動化的爬一票資源下來的程式就可以說是網路爬蟲,常見的用途有像是:搜尋引擎要從所有網站上面爬出關鍵字與資源,或是把指定的資源從伺服器上面收集起來。

資源向網路爬蟲通常指,針對某些網站自動化(機械化)地把指定的資源收集(下載)起來,也可稱為資源下載工具。

我個人常寫的是爬圖片/影片的下載器,看看這網站的紀錄就知道了。

語言選擇

通常下載器或爬蟲使用的語言都是直譯語言,例如Python、Ruby、JavaScript等等的script,方便修改與跨平台相容。

我個人習慣用Python,日後也會用Python來舉例。

基礎知識

既然叫「網路」爬蟲,基礎的知識會需要以下幾個:

  • HTML、JavaScript、CSS(選擇器):需要基本的網頁原始碼解讀能力,才能在網站中分析出有用的資訊。
  • HTTP通訊協定(最基本的就好,我也不是全部都會):爬蟲大多都是用HTTP協定與伺服器溝通。
  • 分辨常見資料格式(例如JSON):操作API使用。
  • 盡量要熟悉瀏覽器開發人員工具(俗稱F12):在網站中找到需要的資訊。

流程

通常製作一個下載器需要的步驟通常是:

  1. 找到該網站的資源存放方式
  2. 尋找metadata或是資源與網址的關係
  3. 寫程式來依照規則(metadata或是網址轉換關係)來下載檔案
  4. 後處理

接下來會每個標題寫為一或數篇文章,緩慢更新。

禮貌

爬取網站資源前盡量先看看該網站服務條款等等規範,有沒有禁止爬資源,或是相關規範,如果有的話就要考慮用學術研究用途包裝妳在做的事情一下。

雖然現今很多網站都是因為禁止下載,而沒有官方的下載方式才有民間爬蟲崛起的趨勢啦。

小結

接下來會有很多篇資源向網路爬蟲製作個人經驗紀錄會逐漸發表。
但標題應該會簡化,不然副標題都打不下了。

下一篇會講如何找到網站的資源存放方式。


隨機推薦文章