我的圖片抓取后每張圖片都有兩張是怎么回事???urlist里面也是重復(fù)的
['img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg'?'img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg']
2018-11-27
#listurl = re.findall(r'//img.+?\.jpg', buf)? ? ? 這樣的貪婪模式下會(huì)下載兩次一樣的圖片,改成下方那種
listurl = re.findall(r'src=".+?\.jpg', buf)?
#前面沒有了http:,手動(dòng)加上
for index,app_id in enumerate(listurl):
? ? listurl[index] = str(app_id).replace('src="', 'http:')
? ? print(index, listurl[index])
? ? print(listurl)
2018-07-29
2018-07-11
可能就是你爬取到的網(wǎng)站本來就有兩個(gè)重復(fù)的圖片地址鏈接,你可以使用去重的方法set()或者使用一個(gè)判斷,判斷是否已經(jīng)存在,若不存在就將他添加到一個(gè)列表中。