2 回答

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超13個(gè)贊
您看到的返回是正確的,因?yàn)樗麮hapter02a是指向下一部分的“相對”鏈接。未列出完整的 url,因?yàn)檫@不是它在 html 中的存儲(chǔ)方式。
要獲取完整的網(wǎng)址,您可以使用:
url_base = 'https://www.math.wisc.edu/~mstemper2/Math/Pinter/'
sections = chapter_html.xpath('//ol[@id="ProbList"]/li/a/@href')
section_urls = [url_base + s for s in sections]

TA貢獻(xiàn)1793條經(jīng)驗(yàn) 獲得超6個(gè)贊
您也可以直接在XPATH級(jí)別進(jìn)行串聯(lián)以從相對鏈接重新生成 URL:
from lxml import html
import requests
chapter_req = requests.get('https://www.math.wisc.edu/~mstemper2/Math/Pinter/Chapter02')
chapter_html = html.fromstring(chapter_req.content)
sections = chapter_html.xpath('concat("https://www.math.wisc.edu/~mstemper2/Math/Pinter/",//ol[@id="ProbList"]/li/a/@href)')
print(sections)
輸出:
https://www.math.wisc.edu/~mstemper2/Math/Pinter/Chapter02A
添加回答
舉報(bào)