第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

Python 從 URL 中提取標(biāo)題

Python 從 URL 中提取標(biāo)題

我正在使用以下函數(shù)嘗試從網(wǎng)絡(luò)抓取的 url 列表中提取標(biāo)題。我確實(shí)看過(guò)一些 SO 答案,但注意到許多人建議避免使用正則表達(dá)式解決方案。我想修復(fù)并構(gòu)建我現(xiàn)有的解決方案,但很高興收到其他優(yōu)雅解決方案的建議。示例 url 1:https://upload.wikimedia.org/wikipedia/commons/thumb/b/bd/Rembrandt_van_Rijn_-_Self-Portrait_-_Google_Art_Project.jpg/220px-Rembrandt_van_Rijn_-_Self-Portrait_-_Google_Art_Project.jpg示例 url 2: https: //upload.wikimedia.org/wikipedia/commons/thumb/a/ae/Rembrandt_-_Rembrandt_and_Saskia_in_the_Scene_of_the_Prodigal_Son_-_Google_Art_Project.jpg/220px-Rembrandt_-_Rembrandt_and_Saskia_in_the_Scene_of_the_Prodigal_Art_Son_Project.Google試圖從 url 中提取標(biāo)題的代碼(函數(shù))。def titleextract(url):    #return unquote(url[58:url.rindex("/",58)-8].replace('_',''))    cleanedtitle1=url[58:]    title= cleanedtitle1.strip("-_Google_Art_Project.jpg/220px-")    return title以上對(duì) URL 有以下影響:網(wǎng)址 1:Rembrandt_- Rembrandt_and_Saskia_in_the_Scene_of_the_Prodigal_Son - Google_Art_Project.jpg/220px-Rembrandt - Rembrandt_and_Saskia_in_the_Scene_of_the_Prodigal_Son -_Google_Art_Project.jpg網(wǎng)址 2:Rembrandt_van_Rijn_- Saskia_van_Uylenburgh%2C_the_Wife_of_the_Artist - Google_Art_Project.jpg/220px-Rembrandt_van_Rijn - Saskia_van_Uylenburgh%2C_the_Wife_of_the_Artist -_Google_Art_Project.jpg然而,所需的輸出是:網(wǎng)址 1:倫勃朗_-_Rembrandt_and_Saskia_in_the_Scene_of_the_Prodigal_Son網(wǎng)址 2: Rembrandt_van_Rijn_-_Saskia_van_Uylenburgh2C_the_Wife_of_the_Artist我正在努力解決的是在此之后刪除所有內(nèi)容:_- Google_Art_Project.jpg/220px-Rembrandt - Rembrandt_and_Saskia_in_the_Scene_of_the_Prodigal_Son -_Google_Art_Project.jpg 對(duì)于每個(gè)獨(dú)特的案例,然后刪除不需要的字符(如果它們存在),例如 url2 中的 %。理想情況下,我還想去掉標(biāo)題中的下劃線。任何使用我現(xiàn)有代碼的建議以及適當(dāng)?shù)闹鸩浇忉尪紝⒉粍俑屑?。我刪除開(kāi)頭的嘗試奏效了:cleanedtitle1=url[58:]但是我已經(jīng)嘗試了各種方法來(lái)剝離字符并刪除結(jié)尾,但沒(méi)有奏效:title= cleanedtitle1.strip("-_Google_Art_Project.jpg/220px-")根據(jù)一個(gè)建議,我也嘗試過(guò):return unquote(url[58:url.rindex("/",58)-8].replace('_',''))..但這并沒(méi)有正確地刪除不需要的文本,只是最后 8 個(gè)字符,但是由于它是可變的,所以這是行不通的。我也試過(guò)這個(gè),再次刪除下劃線 - 沒(méi)有運(yùn)氣。cleanedtitle1=url[58:]    cleanedtitle2= cleanedtitle1.strip("-_Google_Art_Project.jpg/220px-")    title = cleanedtitle2.strip("_")    return title
查看完整描述

3 回答

?
阿晨1998

TA貢獻(xiàn)2037條經(jīng)驗(yàn) 獲得超6個(gè)贊

從你的開(kāi)始:


cleanedtitle1=url[58:]

這可行,但它可能對(duì)硬編碼數(shù)字不是很穩(wěn)健,所以讓我們從倒數(shù)第二個(gè)“/”之后的字符開(kāi)始。


您可以使用正則表達(dá)式來(lái)做到這一點(diǎn),但更簡(jiǎn)單地說(shuō),這可能看起來(lái)像:


pos1 = url.rindex("/")  # index of last /

pos2 = url[:pos1].rindex("/")  # index of second-to-last /

cleanedtitle1 = url[pos2 + 1:]

雖然實(shí)際上,您只對(duì)倒數(shù)第二個(gè)和最后一個(gè)之間的位感興趣/,所以讓我們更改使用pos1我們發(fā)現(xiàn)的中間值:


pos1 = url.rindex("/")  # index of last /

pos2 = url[:pos1].rindex("/")  # index of second-to-last /

cleanedtitle1 = url[pos2 + 1: pos1]

在這里,這給出了以下值cleanedtitle1


'Rembrandt_van_Rijn_-_Self-Portrait_-_Google_Art_Project.jpg'

現(xiàn)在到你的strip. 這不會(huì)完全符合您的要求:它會(huì)遍歷您提供的字符串,給出該字符串中的各個(gè)字符,然后刪除所有出現(xiàn)的每個(gè)字符。


因此,讓我們使用replace, 并將字符串替換為空字符串。


title = cleanedtitle1.replace("_-_Google_Art_Project.jpg", "")

然后我們也可以做類似的事情:


title = title.replace("_", " ")

然后我們得到:


'Rembrandt van Rijn - Self-Portrait'

把它放在一起:


pos1 = url.rindex("/")

pos2 = url[:pos1].rindex("/")

cleanedtitle1 = url[pos2 + 1: pos1]

title = cleanedtitle1.replace("_-_Google_Art_Project.jpg", "")

title = title.replace("_", " ")

return title

更新

我錯(cuò)過(guò)了一個(gè)事實(shí),即 URL 可能包含%2C我們希望替換的序列。


這些可以使用相同的方式完成replace,例如:


url = url.replace("%2C", ",")

但是您必須對(duì)所有可能出現(xiàn)的相似序列執(zhí)行此操作,因此最好unquote使用urllib. 如果在代碼的頂部放置:


from urllib.parse import unquote

那么你可以使用這些替換


url = unquote(url)

在其余處理之前:


from urllib.parse import unquote


def titleextract(url):

    url = unquote(url)

    pos1 = url.rindex("/")

    pos2 = url[:pos1].rindex("/")

    cleanedtitle1 = url[pos2 + 1: pos1]

    title = cleanedtitle1.replace("_-_Google_Art_Project.jpg", "")

    title = title.replace("_", " ")

    return title


查看完整回答
反對(duì) 回復(fù) 2023-03-16
?
POPMUISE

TA貢獻(xiàn)1765條經(jīng)驗(yàn) 獲得超5個(gè)贊

這應(yīng)該有效,讓我知道任何問(wèn)題


def titleextract(url):

    title = url[58:]

    if "Google_Art_Project" in title:

        x = title.index("-_Google_Art_Project.jpg")

        title = title[:x] # Cut after where this is.


    disallowed_chars = "%" # Edit which chars should go.

    # Python will look at each character in turn. If it is not in the disallowed chars string, 

    # then it will be left. "".join() joins together all chars still allowed. 

    title = "".join(c for c in title if c not in disallowed_chars)


    title = title.replace("_"," ") # Change underscores to spaces.

    return title


查看完整回答
反對(duì) 回復(fù) 2023-03-16
?
四季花海

TA貢獻(xiàn)1811條經(jīng)驗(yàn) 獲得超5個(gè)贊

有幾種方法可以做到這一點(diǎn):


如果您只想使用內(nèi)置的 python 字符串函數(shù),那么您可以首先根據(jù) 拆分所有內(nèi)容,/然后剝離所有 URL 的公共部分。

def titleextract(url):

    cleanedtitle1 = url.split("/")[-1]

    return cleanedtitle1[6:-4].replace('_',' ')

由于您已經(jīng)在使用 bs4 導(dǎo)入,您可以通過(guò)以下方式完成:

soup = BeautifulSoup(htmlString, 'html.parser')

title = soup.title.text


查看完整回答
反對(duì) 回復(fù) 2023-03-16
  • 3 回答
  • 0 關(guān)注
  • 151 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)