我創(chuàng)建了一個基本的文本瀏覽器/抓取器,可以滿足我的需要。然而,當(dāng)收到來自站點的文本時,會有大量額外的空行。有沒有一種方法可以刪除多余的空白行,但在段落之間至少保留一個空白行?這是我的代碼......import urllib.requestfrom urllib.request import urlopenfrom bs4 import BeautifulSoupurl = input('Enter a URL starting with https or http: ')host = urlwebUrl = urllib.request.urlopen(host)print('result code: ' + str(webUrl.getcode()))data = webUrl.read()soup = BeautifulSoup(data, features="html.parser")for script in soup(["script", "style"]): script.extract()text = soup.get_text()print (text)input('Scroll Up or Press ENTER to Exit')
1 回答

翻過高山走不出你
TA貢獻1875條經(jīng)驗 獲得超3個贊
用于re.sub
用單個換行符替換多個換行符,換行符之間和之前有可選的空格:
import re text = re.sub(r"\s*\n", "\n", text)
添加回答
舉報
0/150
提交
取消