杭州網(wǎng)站維護(hù)之如何應(yīng)對(duì)爬蟲反爬
瀏覽數(shù)量: 34 作者: 本站編輯 發(fā)布時(shí)間: 2020-03-09 來源: 本站
["wechat","weibo","qzone","douban","email"]
網(wǎng)站建設(shè)/設(shè)計(jì)維護(hù)時(shí)相信大家的網(wǎng)站都有被爬蟲爬過,導(dǎo)致許多核心數(shù)據(jù)都被競爭對(duì)手獲得了。如果非得要研究的話,爬蟲在合適的情況下也是可以被防止的。
我們?cè)撛趺捶乐古老x呢?知己知彼才能找到合理應(yīng)對(duì)方式,咱們先從低級(jí)的爬蟲開始聊起。
頁面分為動(dòng)態(tài)和靜態(tài),靜態(tài)就是純html文件,這樣的數(shù)據(jù)不要太好爬,直接獲取你的網(wǎng)頁地址就好了。我們可以通過request的方式獲取到頁面源碼,再通過bs4庫按規(guī)則對(duì)數(shù)據(jù)提取。
什么是動(dòng)態(tài)頁面呢,有一些公司通過調(diào)用接口,然后由js來渲染的叫動(dòng)態(tài)頁面。如果接口簡單,可以直接調(diào)接口獲取,但是遇到加密的接口就只能研究其js文件,通過查詢其加密方法進(jìn)行截取,這也是常用手段。
可是還有更簡單的辦法,無需破譯接口,只要讓瀏覽器模仿人的行為即可。目前小編用的多的就是這個(gè)方式。
既然要模擬人來瀏覽網(wǎng)頁,就要研究人的特征。主要有以下幾個(gè)點(diǎn)。
1)瀏覽速度不快,看的數(shù)據(jù)也不多
2)瀏覽器相關(guān)參數(shù)要有,比如要有cookies, userAgent,以及referce更為重要。