1 回答

TA貢獻(xiàn)1818條經(jīng)驗(yàn) 獲得超7個(gè)贊
獲得 100 個(gè)結(jié)果
您必須逐頁抓取,直到它有 100 個(gè)結(jié)果。假設(shè) 要廢棄的關(guān)鍵字beautiful+girls URL 適用于像這樣的第 2 頁https://www.google.com/search?q=beautiful+girls&start=10
僅獲取域
首先,您必須使用“srg”類獲取所有 div(查看源代碼后,我看到所有鏈接都在此)
srg_divs = soup.findAll("div", {"class": "srg"})
然后你會(huì)發(fā)現(xiàn)所有的標(biāo)簽
out = ''
for div in srg_divs:
links = div.find_all('a', href=True)
for a in links:
# url to domain
parsed_uri = urlparse(a['href'])
domain = '{uri.netloc}'.format(uri=parsed_uri)
# exclude googleusercontent.com
if 'googleusercontent' in domain or domain == '':
continue
out += domain + '\n'
添加回答
舉報(bào)