第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

使用CrawlSpider翻頁(yè)抓取時(shí),如何抓取第一頁(yè)上面的內(nèi)容?

使用CrawlSpider翻頁(yè)抓取時(shí),如何抓取第一頁(yè)上面的內(nèi)容?

Qyouu 2019-02-24 00:50:36
我使用CrawlSpider結(jié)合下面的Rules來(lái)進(jìn)行自動(dòng)翻頁(yè),爬取豆瓣top250的電影信息: rules = ( Rule(LinkExtractor(restrict_xpaths='//span[@class="next"]/a'), callback='parse_item', follow=True), ) 因?yàn)槲蚁胍ト〉男畔⒍荚诒韺拥木W(wǎng)頁(yè)上,所以我不需要進(jìn)入到每一頁(yè)上的URL里面。 但是這樣問(wèn)題就來(lái)了,即使callback設(shè)置了處理函數(shù),但是只有當(dāng)LinkExtractor提取第二頁(yè)鏈接并生成Response的時(shí)候才會(huì)開(kāi)始調(diào)用callback函數(shù),那這樣第一頁(yè)的內(nèi)容就沒(méi)了。 網(wǎng)上搜索過(guò)一些其他方案,但是基本都是用兩個(gè)或以上的Rule(他們需要進(jìn)入到深層的URL)。如果用最基本的Spider手動(dòng)寫(xiě)翻頁(yè)代碼的話(huà)確實(shí)可以解決這個(gè)問(wèn)題,可是能不能用CrawlerSpider解決呢,因?yàn)檫@樣看起來(lái)優(yōu)雅一點(diǎn)。
查看完整描述

2 回答

?
蝴蝶刀刀

TA貢獻(xiàn)1801條經(jīng)驗(yàn) 獲得超8個(gè)贊

第一頁(yè)的內(nèi)容默認(rèn)回調(diào)函數(shù)為parse_start_url,你只需重寫(xiě)這個(gè)方法即可

查看完整回答
反對(duì) 回復(fù) 2019-03-01
?
烙印99

TA貢獻(xiàn)1829條經(jīng)驗(yàn) 獲得超13個(gè)贊

LinkExtractor這里面寫(xiě)的不是正則寫(xiě)的是你匹配的下一頁(yè)的url里面的東西LinkExtractor(r'/subject/d+/')

查看完整回答
反對(duì) 回復(fù) 2019-03-01
  • 2 回答
  • 0 關(guān)注
  • 1011 瀏覽
慕課專(zhuān)欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)