第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

無法消除 process_exception 引發(fā)的一些錯誤

無法消除 process_exception 引發(fā)的一些錯誤

慕萊塢森 2023-08-22 14:45:28
我試圖不顯示/獲取 scrapy 中拋出的一些process_response錯誤RetryMiddleware。超過最大重試限制時腳本遇到的錯誤。我在中間件中使用了代理。奇怪的是腳本拋出的異常已經(jīng)在列表中EXCEPTIONS_TO_RETRY。腳本有時可能會超過最大重試次數(shù)而沒有成功,這是完全可以的。但是,我只是不希望看到該錯誤,即使它存在,這意味著抑制或繞過它。錯誤是這樣的:Traceback (most recent call last):  File "middleware.py", line 43, in process_request    defer.returnValue((yield download_func(request=request,spider=spider)))twisted.internet.error.TCPTimedOutError: TCP connection timed out: 10060: A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond..這是process_response里面的RetryMiddleware樣子:class RetryMiddleware(object):    cus_retry = 3    EXCEPTIONS_TO_RETRY = (defer.TimeoutError, TimeoutError, DNSLookupError, \        ConnectionRefusedError, ConnectionDone, ConnectError, \        ConnectionLost, TCPTimedOutError, TunnelError, ResponseFailed)    def process_exception(self, request, exception, spider):        if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \                and not request.meta.get('dont_retry', False):            return self._retry(request, exception, spider)    def _retry(self, request, reason, spider):        retries = request.meta.get('cus_retry',0) + 1        if retries<=self.cus_retry:            r = request.copy()            r.meta['cus_retry'] = retries            r.meta['proxy'] = f'https://{ip:port}'            r.dont_filter = True            return r        else:            print("done retrying")我怎樣才能消除 中的錯誤EXCEPTIONS_TO_RETRY?PS:無論我選擇哪個站點,當(dāng)達到最大重試限制時腳本都會遇到錯誤。
查看完整描述

3 回答

?
縹緲止盈

TA貢獻2041條經(jīng)驗 獲得超4個贊

嘗試修復(fù)刮刀本身的代碼。有時,錯誤的解析函數(shù)可能會導(dǎo)致您所描述的那種錯誤。一旦我修復(fù)了代碼,它就消失了。



查看完整回答
反對 回復(fù) 2023-08-22
?
白衣染霜花

TA貢獻1796條經(jīng)驗 獲得超10個贊

當(dāng)達到最大重試次數(shù)時,類似的方法parse_error()應(yīng)該處理蜘蛛中存在的任何錯誤:


def start_requests(self):

    for start_url in self.start_urls:

        yield scrapy.Request(start_url,errback=self.parse_error,callback=self.parse,dont_filter=True)


def parse_error(self, failure):

    # print(repr(failure))

    pass

然而,我想在這里提出一種完全不同的方法。如果您采用以下路線,則根本不需要任何自定義中間件。包括重試邏輯在內(nèi)的所有內(nèi)容都已經(jīng)存在于蜘蛛中。


class mySpider(scrapy.Spider):

    name = "myspider"

    start_urls = [

        "some url",

    ]


    proxies = [] #list of proxies here

    max_retries = 5

    retry_urls = {}


    def parse_error(self, failure):

        proxy = f'https://{ip:port}'

        retry_url = failure.request.url

        if retry_url not in self.retry_urls:

            self.retry_urls[retry_url] = 1

        else:

            self.retry_urls[retry_url] += 1

        

        if self.retry_urls[retry_url] <= self.max_retries:

            yield scrapy.Request(retry_url,callback=self.parse,meta={"proxy":proxy,"download_timeout":10}, errback=self.parse_error,dont_filter=True)

        else:

            print("gave up retrying")


    def start_requests(self):

        for start_url in self.start_urls:

            proxy = f'https://{ip:port}'

            yield scrapy.Request(start_url,callback=self.parse,meta={"proxy":proxy,"download_timeout":10},errback=self.parse_error,dont_filter=True)


    def parse(self,response):

        for item in response.css().getall():

            print(item)

不要忘記添加以下行以從上述建議中獲得上述結(jié)果:


custom_settings = {

    'DOWNLOADER_MIDDLEWARES': {

        'scrapy.downloadermiddlewares.retry.RetryMiddleware': None,

    }

}

順便說一句,我正在使用 scrapy 2.3.0。


查看完整回答
反對 回復(fù) 2023-08-22
?
慕運維8079593

TA貢獻1876條經(jīng)驗 獲得超5個贊

也許問題不在您這邊,但第三方網(wǎng)站可能有問題。也許他們的服務(wù)器上存在連接錯誤,或者可能是安全的,所以沒有人可以訪問它。

因為該錯誤甚至表明該錯誤與一方有關(guān),該錯誤已關(guān)閉或無法正常工作,可能首先檢查第三方站點是否在請求時正常工作。如果可以的話嘗試聯(lián)系他們。

因為錯誤不是在你這邊,而是在黨那邊,正如錯誤所說。

查看完整回答
反對 回復(fù) 2023-08-22
  • 3 回答
  • 0 關(guān)注
  • 1649 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號