為何爬京東首頁的圖片失敗啊
import urllib.request
import re
req = urllib.request.urlopen('https://www.jd.com').read().decode('utf-8')
listurl = ?re.findall(r'http://.+\.jpg',req)
i = 0
for url in listurl:
? ?filename = str(i)+'.jpg'
? ?urllib.request.urlretrieve(url,filename)
? ?i = i+1
代碼如上,跟著老師的思路來的,但是什么都沒有返回,請幫忙看看什么原因啊
2017-05-15
爬數(shù)據(jù)需要分析網(wǎng)頁源碼,你可以看看京東的圖片到底是以什么形式寫在網(wǎng)頁里的,我敢肯定必然不是"http://.+\.jpg"這種形式。不一定是"http"打頭,不一定是jpg格式,可能由js生成,各種情況都存在,你用這種方法抓不到圖片很正常