首頁(yè) 猿問(wèn) 有沒(méi)有人遇到過(guò)這個(gè)問(wèn)題哈！scra...

有沒(méi)有人遇到過(guò)這個(gè)問(wèn)題哈！scrapy 如何爬取不同的網(wǎng)頁(yè)URL結(jié)構(gòu)，返回相同的item十分感謝

JavaScript

慕田峪9158850 2019-08-17 10:30:36

問(wèn)題描述例如有一個(gè)網(wǎng)站內(nèi)的有三個(gè)板塊都是公司的新聞相關(guān)https://www.glprop.com.cn/pre...https://www.glprop.com.cn/in-...https://www.glprop.com.cn/in-...這三個(gè)頁(yè)面都有新聞標(biāo)題，時(shí)間，URL，每個(gè)頁(yè)面還有下一頁(yè)的這種新聞鏈接。問(wèn)題出現(xiàn)的環(huán)境背景及自己嘗試過(guò)哪些方法我定義了一個(gè)itemclassPuluosiNewsItem(scrapy.Item):newstitle=scrapy.Field()newtiems=scrapy.Field()newslink=scrapy.Field()然后spider里面想通過(guò)獲取三個(gè)url構(gòu)建request然后回調(diào)函數(shù)getnews來(lái)獲取新聞事件，新聞標(biāo)題，新聞鏈接，但是每個(gè)URL里面新聞?dòng)职茨攴葸M(jìn)行了分類，類似于下一頁(yè)下一頁(yè)，實(shí)在不知道如何寫spider從三個(gè)url里面返回相同的item，難道要寫三個(gè)spider嗎？classPuluosiSpider(scrapy.Spider):name='puluosi'allowed_domains=['glprop.com.cn']start_urls=['https://www.glprop.com.cn/press-releases.html']#獲取所有hrefdefparse(self,response):print('此時(shí)啟動(dòng)的爬蟲為：puluosi')urllist=response.xpath('//div[@class="menu"]/ul/li[4]//li')#把媒體中的國(guó)際市場(chǎng)發(fā)債信息url去除urllist.pop()base_url='https://www.glprop.com.cn'forwebinurllist:url=base_url+web.xpath('.//a/@href').extract()[0]yieldscrapy.Request(url,callback=self.getnews)#print("REQUEST:",scrapy.Request)defgetnews(self,response):pass

查看完整描述

2 回答

2 回答
0 關(guān)注
594 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

有沒(méi)有人遇到過(guò)這個(gè)問(wèn)題哈！scrapy 如何爬取不同的網(wǎng)頁(yè)URL結(jié)構(gòu)，返回相同的item十分感謝

有沒(méi)有人遇到過(guò)這個(gè)問(wèn)題哈！scrapy 如何爬取不同的網(wǎng)頁(yè)URL結(jié)構(gòu)，返回相同的item十分感謝

2 回答

添加回答

有沒(méi)有人遇到過(guò)這個(gè)問(wèn)題哈！scrapy 如何爬取不同的網(wǎng)頁(yè)URL結(jié)構(gòu)，返回相同的item十分感謝

有沒(méi)有人遇到過(guò)這個(gè)問(wèn)題哈！scrapy 如何爬取不同的網(wǎng)頁(yè)URL結(jié)構(gòu)，返回相同的item十分感謝