首頁猿問 Scrapy 沒有返回結(jié)果

Scrapy 沒有返回結(jié)果

Python

慕碼人8056858 2021-11-09 17:05:00

我是scrapy的新手。我正在嘗試為我正在從事的項(xiàng)目抓取 Indeed 的工作網(wǎng)站。我正在慢慢學(xué)習(xí)如何使用谷歌瀏覽器檢查抓取的語法，然后點(diǎn)擊 control-f。我跟著本教程：https://www.digitalocean.com/community/tutorials/how-to-crawl-a-web-page-with-scrapy-and-python-3我基本上無法獲得每頁 16 個(gè)列表。我可以看到它通常以“//span[@class="company"]/a/text()到目前為止，這是我的代碼：import scrapyclass IndeedSpider(scrapy.Spider): name='indeed_jobs' start_urls = ['https://www.indeed.com/jobs?q=software%20engineer&l=Portland%2C%20OR'] def parse(self, response): SET_SELECTOR = '.jobsearch-SerpJobCard' for jobListing in response.css(SET_SELECTOR): pass這沒有任何回報(bào)。我希望有 16 行，所以我的 SET_SELECTOR 不正確。幫助將不勝感激！

查看完整描述

1 回答

白豬掌柜的

TA貢獻(xiàn)1893條經(jīng)驗(yàn) 獲得超10個(gè)贊

您的選擇器工作正常。SET_SELECTOR不過，它不是 Scrapy 特定的變量。您可以隨意調(diào)用它，甚至可以將選擇器字符串直接放在函數(shù)調(diào)用中。這也不是什么都不返回的原因。

它什么都不返回，因?yàn)槟銢]有指示它返回任何東西。在您當(dāng)前的代碼中，它將找到每個(gè)作業(yè)部分（在for循環(huán)中），但隨后您告訴它什么都不做 ( pass)。

以下是它為每個(gè)工作獲取公司的示例：

import scrapy

class IndeedSpider(scrapy.Spider):

name='indeed_jobs'

start_urls = ['https://www.indeed.com/jobs?q=software%20engineer&l=Portland%2C%20OR']

def parse(self, response):

SET_SELECTOR = '.jobsearch-SerpJobCard'

for jobListing in response.css(SET_SELECTOR):

# Yield is necessary to return scraped data.

yield {

# And here you get a value from each job.

'company': jobListing.xpath('.//span[@class="company"]/a/text()').get('').strip()

}

注意.//在 XPath 開頭的使用。原因在文檔中。而且我還為缺少該字段（docs）添加了一個(gè)默認(rèn)值''，這樣就不會(huì)引發(fā)錯(cuò)誤。get()strip()

但是，我建議您先閱讀官方 Scrapy 教程，因?yàn)槟鄙俚牟糠謱⒃诖颂庍M(jìn)行說明：https ://docs.scrapy.org/en/latest/intro/tutorial.html

反對回復(fù) 2021-11-09

1 回答
0 關(guān)注
401 瀏覽

關(guān)注

添加回答

舉報(bào)

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

Scrapy 沒有返回結(jié)果

Scrapy 沒有返回結(jié)果

1 回答

添加回答