杭州網(wǎng)站維護之如何應(yīng)對爬蟲反爬
瀏覽數(shù)量: 34 作者: 本站編輯 發(fā)布時間: 2020-03-09 來源: 本站
["wechat","weibo","qzone","douban","email"]
網(wǎng)站建設(shè)/設(shè)計維護時相信大家的網(wǎng)站都有被爬蟲爬過,導(dǎo)致許多核心數(shù)據(jù)都被競爭對手獲得了。如果非得要研究的話,爬蟲在合適的情況下也是可以被防止的。
我們該怎么防止爬蟲呢?知己知彼才能找到合理應(yīng)對方式,咱們先從低級的爬蟲開始聊起。
頁面分為動態(tài)和靜態(tài),靜態(tài)就是純html文件,這樣的數(shù)據(jù)不要太好爬,直接獲取你的網(wǎng)頁地址就好了。我們可以通過request的方式獲取到頁面源碼,再通過bs4庫按規(guī)則對數(shù)據(jù)提取。
什么是動態(tài)頁面呢,有一些公司通過調(diào)用接口,然后由js來渲染的叫動態(tài)頁面。如果接口簡單,可以直接調(diào)接口獲取,但是遇到加密的接口就只能研究其js文件,通過查詢其加密方法進行截取,這也是常用手段。
可是還有更簡單的辦法,無需破譯接口,只要讓瀏覽器模仿人的行為即可。目前小編用的多的就是這個方式。
既然要模擬人來瀏覽網(wǎng)頁,就要研究人的特征。主要有以下幾個點。
1)瀏覽速度不快,看的數(shù)據(jù)也不多
2)瀏覽器相關(guān)參數(shù)要有,比如要有cookies, userAgent,以及referce更為重要。