已采納回答 / 飄過的小呆呆
當(dāng)然可以 我之前是用.NET C#寫過爬蟲 你可以參考下這個網(wǎng)址http://www.cnblogs.com/bqh10086/p/6405121.html?????c++ 原理也是類似的 發(fā)送get請求頁面數(shù)據(jù) 然后把頁面讀取成字節(jié)流,最后分析字節(jié)流保留有用的數(shù)據(jù)
2018-04-15
已采納回答 / 慕容2517008
嗯。。。。因為python的那個百度百科的頁面的html代碼升級了一哈,原本的抓取URl的代碼不能用了,你把parser里面的_get_new_urls這個函數(shù)的re.compile語句后面的正則表達(dá)式改一下,改成這樣re.compile(r"/item/")就ok了
2018-04-15
已采納回答 / zjxjwxk
你安裝了嗎? cmd窗口中cd 到 Python\Scripts目錄下,執(zhí)行pip install beautifulsoup4 安裝然后 from bs4 import BeautifulSoup 就行啦我用的也是Sublime
2018-03-19
已采納回答 / 大碼哥
pychrm每次新建工程會默認(rèn)建一個Python環(huán)境,改下就行。pychrm右上角運(yùn)行左邊有個菜單選項,點進(jìn)去選擇edit開頭那個,把Python interpreter那欄選擇為你的Python程序,點擊OK,之后你安裝的模塊就正常導(dǎo)入使用了
2018-03-12
已采納回答 / 無人與我書半生
是指定Beautiful的解析器為“html.parser”還有BeautifulSoup(markup,"lxml")BeautifulSoup(markup,?"lxml-xml")?BeautifulSoup(markup,"xml")等等很多種
2018-01-10
已采納回答 / 慕姐7359191
頁面 ?html_downloader.py15行 ??print?response.read() ? 更改為 ?return?response.read()
2018-01-04