首頁猿問使用 Beautiful Soup...

使用 Beautiful Soup 抓取網(wǎng)站的前十名故事

Html5

一只甜甜圈 2024-01-03 16:35:00

我正在嘗試抓取網(wǎng)站：http://edition.cnn.com/EVENTS/1996/year.in.review/ 并嘗試獲取排名前 10 的故事，這是我迄今為止的嘗試，我想知道是否有我忽略了一種更簡單的方法來一次性完成這個任務嗎？另外，我正在嘗試找到一種方法來刪除每個打印之間的換行符，因為我不知道為什么每個標題之間有一個間隙。

查看完整描述

1 回答

皈依舞

TA貢獻1851條經(jīng)驗獲得超3個贊

好吧，我曾經(jīng)縮短了選擇值以開頭的re所有標簽的路徑，您也可以用不同的方式來完成，例如。ahreftopten

for item in soup.select("a[href^=topten]"):

然后我得到了標簽內(nèi)的所有文本，然后stripped將其與strip=True并放置一個空separator，這樣text就不會一起分配。

import requests

from bs4 import BeautifulSoup

import re

def main(url):

r = requests.get(url)

soup = BeautifulSoup(r.content, 'html.parser')

for item in soup.findAll("a", href=re.compile("^topten")):

item = item.get_text(strip=True, separator=" ")

if item:

print(item)

main("http://edition.cnn.com/EVENTS/1996/year.in.review/main.html")

輸出：

Israel elects Netanyahu

Crash of TWA Flight 800

Russia elects Yeltsin

U.S . elects Clinton

Hutu-Tutsi conflict in central Africa

Peace, elections in Bosnia

U.S . base bombed in Saudi Arabia

Centennial Olympic Games

Advances against AIDS

Unabomb suspect Ted Kaczynski arrested

反對回復 2024-01-03

1 回答
0 關注
132 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

使用 Beautiful Soup 抓取網(wǎng)站的前十名故事

使用 Beautiful Soup 抓取網(wǎng)站的前十名故事

1 回答

添加回答