第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

美麗的湯去除上標

美麗的湯去除上標

慕斯709654 2021-04-08 18:15:04
如何從所有文本中刪除上標?我下面的代碼可以獲取所有可見的文本,但是腳注的上標使事情變得混亂。如何刪除它們?例如Active accounts (1),(2),(1),(2)是可見的上標。from bs4 import BeautifulSoupfrom bs4.element import Commentimport requestsf_url='https://www.sec.gov/Archives/edgar/data/1633917/000163391718000094/exhibit991prq12018pypl.htm'def tag_visible(element):    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:        return False    if isinstance(element, Comment):        return False    return Truedef text_from_html(body):    soup = BeautifulSoup(body, 'html.parser')    texts = soup.findAll(text=True)    visible_texts = filter(tag_visible, texts)      return u" ".join(t.strip() for t in visible_texts)html = requests.get(f_url)text= text_from_html(html.text)
查看完整描述

1 回答

?
慕田峪4524236

TA貢獻1875條經(jīng)驗 獲得超5個贊

BeautifulSoup函數(shù)find_all返回輸入中所有單個離散HTML元素的列表(這find_all是在BeautifulSoup 4中使用的適當函數(shù),優(yōu)于findAll)。下一個函數(shù)filter遍歷此列表,并刪除其回調(diào)例程返回的項目False?;卣{(diào)函數(shù)會測試每個代碼段的標簽名稱,False如果不想要的列表中包含該標簽,則返回True

如果這些上標始終由正確的HTML標記指示,sup則可以將其添加到回調(diào)函數(shù)中不需要的列表中。

可能的陷阱是:

  1. 假定使用文字(在語義上正確)標簽sup,而不是使用僅在其CSS中指定 的類或跨度vertical-align: superscript;;

  2. 假定您要擺脫此上標標記中的所有元素。如果有異常(以下簡稱“20世紀”),你可以檢查的文本內(nèi)容; 例如,僅當內(nèi)容全部為數(shù)字時才刪除。如果也有例外的是(“A 2 = B 2 + C 2 ”),則必須檢查一個更廣泛的背景,或建立一個白名單或夾雜物/排除的黑名單。


查看完整回答
反對 回復(fù) 2021-04-20
  • 1 回答
  • 0 關(guān)注
  • 197 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號