我的問題如下:我需要抓取一個網(wǎng)站的數(shù)據(jù)來做一些統(tǒng)計研究,但是這個網(wǎng)站有嚴(yán)格的反抓取策略。
目前看來,利用pyspider框架進(jìn)行一段時間的抓取后,網(wǎng)站就會禁止我訪問。有沒有什么好的
辦法使得pyspider能夠抓取一段時間后停止抓取,然后隔一段時間有恢復(fù)抓取的策略呢?
2 回答

largeQ
TA貢獻(xiàn)2039條經(jīng)驗 獲得超8個贊
1.self.crawl中增加auto_crawl=True,并設(shè)置好間隔時間,比如age=60*60
這樣一個小時后,pyspdier會去自動抓取網(wǎng)頁
2.修改webui中的rate/burst,默認(rèn)是1.0/3,可以改成0.2/3試試, 降低抓取頻率
3.可以在crawl_config中增加proxy.
- 2 回答
- 0 關(guān)注
- 865 瀏覽
添加回答
舉報
0/150
提交
取消