我以為我現(xiàn)在已經(jīng)很好地掌握了這一點(diǎn),但我又遇到了一個(gè)問題。我沒有得到這樣的結(jié)果 - 但是如果我將產(chǎn)量移回一個(gè)標(biāo)簽 - 我會(huì)得到可疑的前兩個(gè)項(xiàng)目。這是日志的一個(gè)小片段:2019-01-07 20:00:16 [scrapy.extensions.logstats] INFO: Crawled 1 pages (at 1 pages/min), scraped 0 items (at 0 items/min)2019-01-07 20:00:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.mysite.no.html?dest_id=-263870;checkin=2019-02-01;checkout=2019- 02-02;group_adults=1 via http://localhost:8050/render.html> (referer: None)這是函數(shù): def parse(self, response): item = klekkenItem() item['skaptdato'] = datetime.datetime.now() url_en = response.url # Henter urlen resultat = urlparse(url_en).query.split('=')[-3] # Plukker ut deler av urlen nytt_resultat = resultat.split(';',1)[0] # plukker ut f?rste del av resultatet fradatoen = ''.join(nytt_resultat) # gj?r om datoen til en streng item['fradato'] = datetime.datetime.strptime(fradatoen, '%Y-%m-%d') # Konverterer til datoformat tabellen = response.css('td.hprt-table-cell-roomtype') for room in tabellen: romnavnet = room.css('span.hprt-roomtype-icon-link::text').get() item['romnavn'] = romnavnet.strip() yield item這是[頁面][1]的鏈接順便說一句:我已經(jīng)四次檢查了我的標(biāo)簽(五次)......我錯(cuò)過了什么?任何人?我確定這是一個(gè)盲點(diǎn)。
2 回答

精慕HU
TA貢獻(xiàn)1845條經(jīng)驗(yàn) 獲得超8個(gè)贊
嘗試使用生成器:
def parse(self, response):
pass # your implementation
res = self.parse(some_response) # it's a generator, lazy..
for i in res:
print(i) # should consume the generator and print

慕田峪9158850
TA貢獻(xiàn)1794條經(jīng)驗(yàn) 獲得超7個(gè)贊
tabellen = response.css('td.hprt-table-cell-roomtype')
romnavnet = room.css('span.hprt-roomtype-icon-link::text').extract() #use extract function or `extract_first()`
這個(gè)給你 4 行,而第一個(gè)是多余的,其他三個(gè)有數(shù)據(jù)。
您不需要使用 splash 來獲取這些數(shù)據(jù)。它在網(wǎng)頁上靜態(tài)可用。
添加回答
舉報(bào)
0/150
提交
取消