我有以下 html 代碼(或者至少我認為它是 html),我正在 Python 上使用 BeautifulSoup。我已經正確地使用 Beautiful Soup 解析了 html。接下來我想做的是檢索與包含某個數(shù)據標簽的“div”相關聯(lián)的內容(例如,在代碼的底部,data-label="Relation")。特別是,我想獲得一個字典,它以數(shù)據標簽的文本作為鍵,即在我的示例“關系”中,并將相同“div”的內容作為值,即在我的示例中,href“ http: //documenti.camera.it/apps/commonServices/getDocumento.ashx?sezione=bollettini=comunicato=17=2016=06=14=03=data.20160614.com03.bollettino.sede00020.tit00010.int0602010. com03.bollettino.sede00020.tit00010.int00010#data.20160614.com03.bollettino.sede00020.tit00010.int00010 "我嘗試了幾種方法,但據我所知,數(shù)據標簽似乎不是一個有效的屬性,所以我不確定如何處理這個問題。(請注意,這只是一個示例,但我必須對這些具有類似結構的數(shù)千個甚至數(shù)百萬個網頁執(zhí)行相同的操作)。
使用 BeautifulSoup 從 html 文本中查找和檢索內容
慕無忌1623718
2021-08-14 16:06:17