第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

使用 Beautiful Soup 抓取網(wǎng)站的前十名故事

使用 Beautiful Soup 抓取網(wǎng)站的前十名故事

一只甜甜圈 2024-01-03 16:35:00
我正在嘗試抓取網(wǎng)站:http://edition.cnn.com/EVENTS/1996/year.in.review/ 并嘗試獲取排名前 10 的故事,這是我迄今為止的嘗試,我想知道是否有我忽略了一種更簡單的方法來一次性完成這個任務嗎?另外,我正在嘗試找到一種方法來刪除每個打印之間的換行符,因為我不知道為什么每個標題之間有一個間隙。
查看完整描述

1 回答

?
皈依舞

TA貢獻1851條經(jīng)驗 獲得超3個贊

好吧,我曾經(jīng)縮短了選擇值以開頭的re所有標簽的路徑,您也可以用不同的方式來完成,例如。ahreftopten


for item in soup.select("a[href^=topten]"):

然后我得到了標簽內的所有文本,然后stripped將其與strip=True并放置一個空separator,這樣text就不會一起分配。


import requests

from bs4 import BeautifulSoup

import re



def main(url):

    r = requests.get(url)

    soup = BeautifulSoup(r.content, 'html.parser')

    for item in soup.findAll("a", href=re.compile("^topten")):

        item = item.get_text(strip=True, separator=" ")

        if item:

            print(item)



main("http://edition.cnn.com/EVENTS/1996/year.in.review/main.html")

輸出:


Israel elects Netanyahu

Crash of TWA Flight 800

Russia elects Yeltsin

U.S . elects Clinton

Hutu-Tutsi conflict in central Africa

Peace, elections in Bosnia

U.S . base bombed in Saudi Arabia

Centennial Olympic Games

Advances against AIDS

Unabomb suspect Ted Kaczynski arrested


查看完整回答
反對 回復 2024-01-03
  • 1 回答
  • 0 關注
  • 115 瀏覽

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號