已采納回答 / 這個(gè)名字七個(gè)字
我的html_downloader代碼頭部加的是下面這個(gè),沒(méi)報(bào)錯(cuò)import urllib.request
2016-12-02
最新回答 / 豬豬的笨笨
感覺(jué)你是最近才學(xué)的吧。如果是,建議你學(xué)習(xí)一下基礎(chǔ),然后一個(gè)一個(gè)模塊的學(xué)習(xí)使用。最后再一次使用多個(gè)模塊。而且,這個(gè)視頻的python和模塊有點(diǎn)老,你要小心有很多坑,我就是被坑了很多次?。?!
2016-12-01
+ 我來(lái)回答
回答最高可+2積分
已采納回答 / LUXIN66
python3 缺省的編碼是unicode, 再在from_encoding設(shè)置為utf8, 會(huì)被忽視掉,代碼是從python2轉(zhuǎn)來(lái)的,去掉就可以了
2016-11-19
已采納回答 / 慕粉3962690
www.baidu.com? ?只是首頁(yè) 你要用他干什么呢 比如 你要用它搜索 python 他的鏈接請(qǐng)求就會(huì)變成 www.baidu.com?wd=python? (這只是給你簡(jiǎn)單解釋下 真實(shí)的鏈接比較復(fù)雜 做了很多處理) 自己搜下 看下地址欄就知道了,簡(jiǎn)單來(lái)說(shuō) 就根據(jù)不同的請(qǐng)求參數(shù) 可以讓我抓取不同的頁(yè)面和內(nèi)容。ps:去了解HTTP協(xié)議的get請(qǐng)求和post請(qǐng)求。
已采納回答 / Spider_Maker4260916
http://pan.baidu.com/s/1i4Ag6n7
已采納回答 / 千里馬123
前面是要解析的內(nèi)容,后面的'html.parser'是指定解析器的意思。因?yàn)閎eautiful有不止一種解析器可以去解析內(nèi)容。
2016-11-05
最新回答 / qq_江仔_0
def _get_new_urls(self, curr_url, soup): ? ?new_urls = set() ? ?links = soup.find_all('a', href=re.compile(r"/item/*"))正則表達(dá)式的內(nèi)容改下就行,網(wǎng)頁(yè)格式變了
2016-10-24