第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

已解決430363個問題，去搜搜看，總會有你想問的

對抗反爬蟲策略

關(guān)注

首頁猿問對抗反爬蟲策略

對抗反爬蟲策略

爬蟲

繁花不似錦 2018-10-10 12:13:20

我的問題如下：我需要抓取一個網(wǎng)站的數(shù)據(jù)來做一些統(tǒng)計研究，但是這個網(wǎng)站有嚴(yán)格的反抓取策略。目前看來，利用pyspider框架進(jìn)行一段時間的抓取后，網(wǎng)站就會禁止我訪問。有沒有什么好的辦法使得pyspider能夠抓取一段時間后停止抓取，然后隔一段時間有恢復(fù)抓取的策略呢？

查看完整描述

2 回答

largeQ

TA貢獻(xiàn)2039條經(jīng)驗獲得超8個贊

1.self.crawl中增加auto_crawl=True，并設(shè)置好間隔時間，比如age=60*60
這樣一個小時后，pyspdier會去自動抓取網(wǎng)頁

2.修改webui中的rate/burst，默認(rèn)是1.0/3,可以改成0.2/3試試，降低抓取頻率

3.可以在crawl_config中增加proxy.

反對回復(fù) 2018-10-14

2 回答
0 關(guān)注
865 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

對抗反爬蟲策略

對抗反爬蟲策略

2 回答

添加回答