req = urllib2.urlopen('http://idcbgp.cn/course/list')
buf = req.read()
listUrl = re.findall(r'src=.+\.jpg"', buf)
listUrl2 = []
for u in listUrl:
listUrl2.append(re.search(r'http:.+\.jpg', u).group())
i = 0
會得到兩個圖片地址,所以先得到src="",然后重新查找得到
buf = req.read()
listUrl = re.findall(r'src=.+\.jpg"', buf)
listUrl2 = []
for u in listUrl:
listUrl2.append(re.search(r'http:.+\.jpg', u).group())
i = 0
會得到兩個圖片地址,所以先得到src="",然后重新查找得到
2017-09-18
最新回答 / qq_LWQ_1
大爺?shù)模瑳]仔細看。match(pattern, string, flags=0) ? ?Try to apply the pattern at the start of the string, returning ? ?a match object, or None if no match was found.意思是必須以符合規(guī)則的為開頭
2017-09-17
應(yīng)該改成[a-zA-Z0-9]{6}@163\.com。
如果“.”前面沒有加"\",那“.”就是匹配任意一個字符。
如果“.”前面沒有加"\",那“.”就是匹配任意一個字符。
2017-09-11
https://github.com/guyunzh/crawler_imooc_jpg
我增加了幾個功能,老師爬取的只是一個頁面的圖片,我的可以自己在想創(chuàng)建的地方保存圖片,切可以保存多個頁面的圖片,手動輸入想要爬取的頁面?zhèn)€數(shù),就可以自動創(chuàng)建對應(yīng)的文件夾來保存對應(yīng)的頁面圖片,還可以去重。
仍有很多完善的地方,但是,畢竟自己會爬取了
感覺好的點個star,謝謝哈
我增加了幾個功能,老師爬取的只是一個頁面的圖片,我的可以自己在想創(chuàng)建的地方保存圖片,切可以保存多個頁面的圖片,手動輸入想要爬取的頁面?zhèn)€數(shù),就可以自動創(chuàng)建對應(yīng)的文件夾來保存對應(yīng)的頁面圖片,還可以去重。
仍有很多完善的地方,但是,畢竟自己會爬取了
感覺好的點個star,謝謝哈
2017-09-11
已采納回答 / Poison丶刺心
[1-9]?[0-9]:這個里面是兩個部分[1-9]?和[0-9]第一部分:是匹配1到9之間的數(shù)字出現(xiàn)0次或1次第二部分:是匹配0到9之間的數(shù)字至少出現(xiàn)一次所以匹配‘09’這個字符串的時候,第一部分中不包含‘0’這個字符串,暫時的匹配結(jié)果為‘’(即空字符串),所以執(zhí)行第二部分,第二部分包含‘0’,暫時的匹配結(jié)果為‘0’,匹配結(jié)束,輸出結(jié)果‘0’
2017-09-10
\<number> 是之前分組()的內(nèi)容,?p<name>和?p=name 和\<number>的目的是一樣的,對之前分組的一個引用,不過當有多個分組時 可以用?p<name>標記。引用,更方便
2017-09-06
re模塊中有 compile match等功能函數(shù) 可用 dir(re)查看re的所有屬性。s=re.compile(r'***')定義一種匹配字符串規(guī)則,s指向。y=s.match(' '),用match函數(shù)匹配s規(guī)則的字符串,并返回結(jié)果。dir(y),查看屬性,y.group()輸出匹配結(jié)果。謝謝老師,講的很好,希望沒理解錯。
2017-09-06