在這裡說的內容因為是來自個人經驗,可能不會是最佳的解答~~,但反正她會動~~。
廣義上來說從網路上自動化的爬一票資源下來的程式就可以說是網路爬蟲,常見的用途有像是:搜尋引擎要從所有網站上面爬出關鍵字與資源,或是把指定的資源從伺服器上面收集起來。
資源向網路爬蟲通常指,針對某些網站自動化(機械化)地把指定的資源收集(下載)起來,也可稱為資源下載工具。
我個人常寫的是爬圖片/影片的下載器,看看這網站的紀錄就知道了。
通常下載器或爬蟲使用的語言都是直譯語言,例如Python、Ruby、JavaScript等等的script,方便修改與跨平台相容。
我個人習慣用Python,日後也會用Python來舉例。
既然叫「網路」爬蟲,基礎的知識會需要以下幾個:
通常製作一個下載器需要的步驟通常是:
接下來會每個標題寫為一或數篇文章,緩慢更新。
爬取網站資源前盡量先看看該網站服務條款等等規範,有沒有禁止爬資源,或是相關規範,如果有的話就要考慮用學術研究用途包裝妳在做的事情一下。
雖然現今很多網站都是因為禁止下載,而沒有官方的下載方式才有民間爬蟲崛起的趨勢啦。
接下來會有很多篇資源向網路爬蟲製作個人經驗紀錄會逐漸發表。
但標題應該會簡化,不然副標題都打不下了。
下一篇會講如何找到網站的資源存放方式。
Keyboard Shortcuts
| Command | Function |
|---|---|
| ? (Shift+/) | Bring up this help modal |
| g+h | Go to Home |
| g+p | Go to Posts |
| g+e | Open Editor page on GitHub in a new tab |
| g+s | Open Source page on GitHub in a new tab |
| r | Reload page |