23 回答

TA貢獻(xiàn)1712條經(jīng)驗(yàn) 獲得超3個贊
- 爬內(nèi)容,通常來說就是HTTP請求,requests +1
- 爬下來的網(wǎng)頁就是做一些字符串處理,獲取你要的信息。beautifulsoup、正則表達(dá)式、
str.find()
都可以
一般網(wǎng)頁以上兩點(diǎn)就可以了,對于ajax請求的網(wǎng)站,你可能爬不到想要內(nèi)容,去找他的Api可能更方便。

TA貢獻(xiàn)1851條經(jīng)驗(yàn) 獲得超4個贊
簡單的,不用框架的,可以看看requests和beautifulsoup這兩個庫,如果熟悉python語法,看完這兩個,差不多能寫個簡單的爬蟲了。
一般公司搞爬蟲,我見過的,多用java或者python。

TA貢獻(xiàn)1852條經(jīng)驗(yàn) 獲得超7個贊
網(wǎng)終上確實(shí)有許多的關(guān)于Python如何寫一個簡單爬蟲的文章,但這些文章大多只能算是一個例子,能真正應(yīng)用的還是挺少的。爬蟲我認(rèn)為就是獲取內(nèi)容、分析內(nèi)容、再存儲就OK了,如果只是才接觸的話,可以直接Google之就行了。如果是深入的研究的話,可以在Github上找找代碼來看下。
我自己對于Python也只是一知半解,希望有所幫助。

TA貢獻(xiàn)1828條經(jīng)驗(yàn) 獲得超4個贊
可以先用一個爬蟲框架實(shí)現(xiàn)業(yè)務(wù)邏輯,如scrapy,然后根據(jù)自己的需求,慢慢的替換掉框架。最后,你就會發(fā)現(xiàn), 你自己實(shí)現(xiàn)了一個爬蟲框架

TA貢獻(xiàn)1874條經(jīng)驗(yàn) 獲得超12個贊
抓取內(nèi)容可以使用 urllib/urllib2/requests,推薦requests。
分析內(nèi)容可以使用 BeautifulSoup,也可以使用正則或者暴力的字符串解析。

TA貢獻(xiàn)2037條經(jīng)驗(yàn) 獲得超6個贊
http://cuiqingcai.com/1052.html
最近在學(xué)習(xí)Python爬蟲,感覺非常有意思,真的讓生活可以方便很多。學(xué)習(xí)過程中我把一些學(xué)習(xí)的筆記總結(jié)下來,還記錄了一些自己實(shí)際寫的一些小爬蟲,在這里跟大家一同分享,希望對Python爬蟲感興趣的童鞋有幫助,如果有機(jī)會期待與大家的交流。
一、Python入門
Python爬蟲入門一之綜述
Python爬蟲入門二之爬蟲基礎(chǔ)了解
Python爬蟲入門三之Urllib庫的基本使用
Python爬蟲入門四之Urllib庫的高級用法
Python爬蟲入門五之URLError異常處理
Python爬蟲入門六之Cookie的使用
Python爬蟲入門七之正則表達(dá)式
二、Python實(shí)戰(zhàn)
Python爬蟲實(shí)戰(zhàn)一之爬取糗事百科段子
Python爬蟲實(shí)戰(zhàn)二之爬取百度貼吧帖子
Python爬蟲實(shí)戰(zhàn)三之計算大學(xué)本學(xué)期績點(diǎn)
Python爬蟲實(shí)戰(zhàn)四之抓取淘寶MM照片
Python爬蟲實(shí)戰(zhàn)五之模擬登錄淘寶并獲取所有訂單
三、Python進(jìn)階
- Python爬蟲進(jìn)階一之爬蟲框架Scrapy安裝配置
目前暫時是這些文章,隨著學(xué)習(xí)的進(jìn)行,會不斷更新噠,敬請期待~
希望對大家有所幫助,謝謝!
轉(zhuǎn)載請注明:靜覓 ? Python爬蟲學(xué)習(xí)系列教程

TA貢獻(xiàn)1821條經(jīng)驗(yàn) 獲得超6個贊
簡單的話可以用:獲取網(wǎng)頁可以用beautifulsoup,正則,urllib2,來獲取
深入的話,可以看一些開源框架,比如Python的scrapy等等
也可以看看一些視頻教程,比如極客學(xué)院的
一句話,多練。。。

TA貢獻(xiàn)1993條經(jīng)驗(yàn) 獲得超6個贊
這里有個現(xiàn)有的例子,你可以參考一下:
如何爬取大眾點(diǎn)評網(wǎng)上的商家信息(有栗子、附代碼)
添加回答
舉報