第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問題,去搜搜看,總會(huì)有你想問的

在請(qǐng)求中發(fā)現(xiàn) Scrapy 和無效的 cookie

在請(qǐng)求中發(fā)現(xiàn) Scrapy 和無效的 cookie

莫回?zé)o 2023-04-18 14:41:23
網(wǎng)頁抓取需求要從此處的eventbrite 鏈接的第一頁抓取事件的標(biāo)題。方法雖然該頁面沒有太多的 javascript,而且頁面分頁也很簡單,但抓取頁面上每個(gè)事件的標(biāo)題非常容易,并且沒有問題。但是我看到有一個(gè) API,我想重新設(shè)計(jì) HTTP 請(qǐng)求,以提高效率和結(jié)構(gòu)化數(shù)據(jù)。問題我能夠使用 requests python 包模擬 HTTP 請(qǐng)求,使用正確的標(biāo)頭、cookie 和參數(shù)。不幸的是,當(dāng)我將相同的 cookie 與 scrapy 一起使用時(shí),它似乎在抱怨 cookie 字典中的三個(gè)鍵是空白的'mgrefby': '', 'ebEventToTrack': '', 'AN': '', 。盡管它們?cè)谂c請(qǐng)求包一起使用的 HTTP 請(qǐng)求中是空白的。請(qǐng)求包代碼示例import requestscookies = {    'mgrefby': '',    'G': 'v%3D2%26i%3Dbff2ee97-9901-4a2c-b5b4-5189c912e418%26a%3Dd24%26s%3D7a302cadca91b63816f5fd4a0a3939f9c9f02a09',    'ebEventToTrack': '',    'eblang': 'lo%3Den_US%26la%3Den-us',    'AN': '',    'AS': '50c57c08-1f5b-4e62-8626-ea32b680fe5b',    'mgref': 'typeins',    'client_timezone': '%22Europe/London%22',    'csrftoken': '85d167cac78111ea983bcbb527f01d2f',    'SERVERID': 'djc9',    'SS': 'AE3DLHRwcfsggc-Hgm7ssn3PGaQQPuCJ_g',    'SP': 'AGQgbbkgEVyrPOfb8QOLk2Q893Bkx6aqepKtFsfXUC9SW6rLrY3HzVmFa6m91qZ6rtJdG0PEVaIXdCuyQOL27zgxTHS-Pn0nHcYFr9nb_gcU1ayxSx4Y0QXLDvhxGB9EMsou1MZmIfEBN7PKFp_enhYD6HUP80-pNUGLI9R9_CrpFzXc48lp8jXiHog_rTjy_CHSluFrXr2blZAJfdC8g2lFpc4KN8wtSyOwn8qTs7di3FUZAJ9BfoA',}headers = {    'Connection': 'keep-alive',    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36',    'X-Requested-With': 'XMLHttpRequest',    'X-CSRFToken': '85d167cac78111ea983bcbb527f01d2f',    'Content-Type': 'application/json',    'Accept': '*/*',    'Origin': 'https://www.eventbrite.com',    'Sec-Fetch-Site': 'same-origin',    'Sec-Fetch-Mode': 'cors',    'Sec-Fetch-Dest': 'empty',    'Referer': 'https://www.eventbrite.com/d/ny--new-york/human-resources/?page=2',    'Accept-Language': 'en-US,en;q=0.9',}
查看完整描述

2 回答

?
白豬掌柜的

TA貢獻(xiàn)1893條經(jīng)驗(yàn) 獲得超10個(gè)贊

看起來他們正在使用not value而不是更準(zhǔn)確的value is not None.?打開一個(gè)問題是你唯一的長期資源,但是子類化 cookie 中間件是短期的,非 hacky 修復(fù)。

一個(gè) hacky 修復(fù)是利用這樣一個(gè)事實(shí),即他們?cè)趫?zhí)行此操作時(shí)沒有正確轉(zhuǎn)義 cookie 值,'; '.join()因此您可以將 cookie 的值設(shè)置為合法的 cookie 指令(我選擇是HttpOnly因?yàn)槟魂P(guān)心 JS),然后cookiejar出現(xiàn)丟棄它,產(chǎn)生你關(guān)心的實(shí)際價(jià)值

>>> from scrapy.downloadermiddlewares.cookies import CookiesMiddleware

>>> from scrapy.http import Request

>>> cm = CookiesMiddleware(debug=True)

>>> req = Request(url='https://www.example.com', cookies={'AN': '; HttpOnly', 'alpha': 'beta'})

>>> cm.process_request(req, spider=None)

2020-08-01 15:08:58 [scrapy.downloadermiddlewares.cookies] DEBUG: Sending cookies to: <GET https://www.example.com>

Cookie: AN=; alpha=beta

>>> req.headers

{b'Cookie': [b'AN=; alpha=beta']}


查看完整回答
反對(duì) 回復(fù) 2023-04-18
?
慕斯王

TA貢獻(xiàn)1864條經(jīng)驗(yàn) 獲得超2個(gè)贊

目前的解決方案是使用舊版本的 scrapy(2.2.0 或更低版本),因?yàn)樽钚碌?2.3.0 是添加此 cookie 檢查的地方。


查看完整回答
反對(duì) 回復(fù) 2023-04-18
  • 2 回答
  • 0 關(guān)注
  • 148 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)