[Node] 爬蟲學習筆記
目錄
[TOC]
常用套件
- Request @ GitHub
- Cheerio
- Async
- Nightmare.js
- Puppeteer.js
npm install request cheerio async puppeteer
重要觀念
- 對於 http 來說,每次的 request 都是 stateless,也就是說,在這個 request 裡面肯定有某樣東西是驗證我們為已登入狀態。
- 有非預期的結果,或者 Postman 和 Browser 拿到的結果不同時,很有可能是 Cookie 的影響,這時候重新載入(Ctrl + R)可能沒效,可以透過清除網站資料的方式試試。
- postman 每次發出 request 後也會留有 cookie 紀錄,記得把它清除:
一些重要的 Response Headers 屬性
在 Response Headers 中:
Location
:告訴瀏覽器要轉址,通常會在 304 Found 之後給予要轉址的路徑,瀏覽器會自動轉址。Set-Cookie