第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

如何在保存到磁盤(pán)之前更改 Scrapy 抓取的網(wǎng)頁(yè)的一部分?

如何在保存到磁盤(pán)之前更改 Scrapy 抓取的網(wǎng)頁(yè)的一部分?

猛跑小豬 2023-10-31 14:35:10
在parse()Scrapy Spider的方法中,我們可以使用css()on方法response來(lái)抓取需要的信息。例如,我們可以使用response.css("#container")來(lái)獲取以下 HTML 片段。<div id="container">    <div class="sep">test</div>    ...</div>在保存到磁盤(pán)之前,我們?nèi)绾胃牟糠?HTML 代碼片段?例如,我想更改<div class="sep">to的文本內(nèi)容1234,以便最終需要的 HTML 片段看起來(lái)像<div id="container">    <div class="sep">1234</div>    ...</div>我知道我可以將原始 HTML 片段保存在磁盤(pán)上,然后使用 HTML 解析器來(lái)更改它。然而,這實(shí)際上會(huì)再次解析它,因?yàn)樗呀?jīng)在Scrapy 蜘蛛中的方法response的參數(shù)中被解析了。parse()我查看了Scrapy文檔,只能找到從頁(yè)面獲取信息的方法。如何進(jìn)行集合運(yùn)算?
查看完整描述

1 回答

?
慕慕森

TA貢獻(xiàn)1856條經(jīng)驗(yàn) 獲得超17個(gè)贊

Scrapy專(zhuān)門(mén)針對(duì)提取信息;因此,它不提供任何修改 HTML 的功能。

但是,沒(méi)有什么可以阻止您導(dǎo)入您最喜歡的解析器并使用它。
或者,root選擇器的屬性將使您能夠訪問(wèn)底層 lxml 元素。我相當(dāng)確定您必須使用 lxml 轉(zhuǎn)儲(chǔ)根元素。

Scrapy 僅在您訪問(wèn)后才解析源response.selector(直接或通過(guò)其中一種提取方法)。
如果你想避免解析兩次,就不要使用它們。


查看完整回答
反對(duì) 回復(fù) 2023-10-31
  • 1 回答
  • 0 關(guān)注
  • 141 瀏覽
慕課專(zhuān)欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)