看了前面課程講解感覺(jué)很清晰也跟得上,這節(jié)突然開(kāi)始面向?qū)ο缶幊?.......
自己之前寫(xiě)的爬蟲(chóng)全是函數(shù)式的,老師講的這個(gè)框架和這種寫(xiě)代碼的思路著實(shí)應(yīng)該好好研習(xí)
自己之前寫(xiě)的爬蟲(chóng)全是函數(shù)式的,老師講的這個(gè)框架和這種寫(xiě)代碼的思路著實(shí)應(yīng)該好好研習(xí)
2019-01-23
完結(jié)撒花~~~
雖然遇到了bug,但是總算是調(diào)試好了,跟著這位老師入門(mén)爬蟲(chóng),是個(gè)不錯(cuò)的選擇呀!
雖然遇到了bug,但是總算是調(diào)試好了,跟著這位老師入門(mén)爬蟲(chóng),是個(gè)不錯(cuò)的選擇呀!
2019-01-22
Python之簡(jiǎn)單網(wǎng)絡(luò)爬蟲(chóng)】BeautifulSoup——按節(jié)點(diǎn)的名字、屬性和文字進(jìn)行搜索(以及正則表達(dá)式的使用)
https://blog.csdn.net/weixin_43971764/article/details/86563814
歡迎各位看官光臨茶館~~~~
https://blog.csdn.net/weixin_43971764/article/details/86563814
歡迎各位看官光臨茶館~~~~
2019-01-20
網(wǎng)址不對(duì),百度網(wǎng)址是https://www.baidu.com/,而不是http://www.baidu.com/,他們的長(zhǎng)度和cookie都不一樣
2019-01-19
最贊回答 / 永恒的小白
<...圖片...>這一步務(wù)必使用函數(shù)進(jìn)行url的拼接,帶有中文的url會(huì)有編碼問(wèn)題
最贊回答 / 慕絲3084285
老師用的eclipse,也可以用pycharm,我覺(jué)得pycharm方便些
最新回答 / YAAnnnnnnnnn
這是編碼錯(cuò)誤,gbk編碼不能夠輸出為正確的編碼格式。原因是win8的python3的默認(rèn)編碼不是utf8,我們只需要將默認(rèn)編碼改為utf8就能解決這個(gè)問(wèn)題,參見(jiàn)下面的代碼:?
import?sys,?io sys.stdout?=?io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')?#?Change?default?encoding?to?utf8
爬1000條有些失敗,但是基本上可以用了,源碼我已經(jīng)上傳了https://github.com/leiphp/spider-baike
2019-01-05
在python3.3里面,用urllib.request代替urllib2,另外python3之后,不能再用,print html
注意:print 的東西要用()括起來(lái)。
這樣的方式,因?yàn)閜rint這個(gè)時(shí)候已經(jīng)是一個(gè)方法了。必須使用下面的方法
可以將代碼換成:
import urllib.request
resp=urllib.request.urlopen('http://www.baidu.com')
html=resp.read()
print(html)
注意:print 的東西要用()括起來(lái)。
這樣的方式,因?yàn)閜rint這個(gè)時(shí)候已經(jīng)是一個(gè)方法了。必須使用下面的方法
可以將代碼換成:
import urllib.request
resp=urllib.request.urlopen('http://www.baidu.com')
html=resp.read()
print(html)
2019-01-03