首頁(yè) 猿問(wèn) 即使在 scrapy...

即使在 scrapy 中使用代理旋轉(zhuǎn)也無(wú)法擺脫有問(wèn)題的頁(yè)面

Python

小唯快跑啊 2023-10-18 21:33:01

我使用 scrapy 創(chuàng)建了一個(gè)腳本，在其中實(shí)現(xiàn)代理輪換，以解析address數(shù)百個(gè)類似的鏈接，如下所示。我已經(jīng)從腳本中的 csv 文件提供了這些鏈接。該腳本運(yùn)行良好，直到遇到任何像這樣的響應(yīng) url https://www.bcassessment.ca//Property/UsageValidation。鑒于一旦腳本開(kāi)始獲取該鏈接，它就無(wú)法繞過(guò)該鏈接。僅供參考，我使用包含的元屬性來(lái)lead_link使用原始鏈接而不是重定向鏈接作為重試，因此我應(yīng)該能夠繞過(guò)該障礙。當(dāng)我在請(qǐng)求庫(kù)中使用代理時(shí)，不會(huì)發(fā)生這種情況。更清楚地說(shuō) - 在使用請(qǐng)求庫(kù)時(shí)，腳本確實(shí)遇到此頁(yè)面/Property/UsageValidation，但在幾次重試后成功繞過(guò)該頁(yè)面。蜘蛛就像：class mySpider(scrapy.Spider): name = "myspider" custom_settings = { 'DOWNLOADER_MIDDLEWARES': { 'stackoverflow_spider.middlewares.ProxiesMiddleware': 100, } } def start_requests(self): with open("output_main.csv","r") as f: reader = csv.DictReader(f) for item in list(reader): lead_link = item['link'] yield scrapy.Request(lead_link,self.parse,meta={"lead_link":lead_link,"download_timeout":20}, dont_filter=True) def parse(self,response): address = response.css("h1#mainaddresstitle::text").get() print(response.meta['proxy'],address)if __name__ == "__main__": c = CrawlerProcess({ 'USER_AGENT':'Mozilla/5.0', 'LOG_LEVEL':'ERROR', }) c.crawl(mySpider) c.start()如何讓腳本不遇到該頁(yè)面？PS：我在文本文件中附加了一些鏈接，以防有人想嘗試。

查看完整描述

1 回答

忽然笑

TA貢獻(xiàn)1806條經(jīng)驗(yàn) 獲得超5個(gè)贊

要為 scrapy 應(yīng)用程序?qū)崿F(xiàn)會(huì)話安全代理實(shí)現(xiàn)，您需要添加額外的cookiejar元鍵來(lái)放置代理分配的位置，request.meta如下所示：

....
yield?scrapy.Request(url=link,?meta?=?{"proxy":address,?"cookiejar":address})

在這種情況下，scrapycookiesMiddleware將為每個(gè)代理創(chuàng)建額外的 cookieSession。

反對(duì) 回復(fù) 2023-10-18

1 回答
0 關(guān)注
128 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

即使在 scrapy 中使用代理旋轉(zhuǎn)也無(wú)法擺脫有問(wèn)題的頁(yè)面

即使在 scrapy 中使用代理旋轉(zhuǎn)也無(wú)法擺脫有問(wèn)題的頁(yè)面

1 回答

添加回答