3 回答

TA貢獻(xiàn)1895條經(jīng)驗(yàn) 獲得超3個(gè)贊
爬蟲對于ajax的內(nèi)容處理確實(shí)是個(gè)問題啊, 可以自己用pywebkit引擎做一個(gè),調(diào)用里面的js引擎處理那些動(dòng)態(tài)生成的內(nèi)容,但是難度有點(diǎn)高, 另一個(gè)方法是找到ajax請求的接口,然后自己構(gòu)造請求讀取數(shù)據(jù) 然后處理返回的數(shù)據(jù) 一般都是json格式。個(gè)人覺得第二種方法更簡便一點(diǎn)

TA貢獻(xiàn)1802條經(jīng)驗(yàn) 獲得超5個(gè)贊
做通用采集工具,還是用瀏覽器內(nèi)核等待頁面加載完成再采集吧 phantomjs不錯(cuò)的
當(dāng)然這樣性能肯定沒定制開發(fā)好

TA貢獻(xiàn)1862條經(jīng)驗(yàn) 獲得超7個(gè)贊
請問python社區(qū)在哪里?
哥新手學(xué)scrapy,例子入門估計(jì)已經(jīng)卡一大半人
第一個(gè)例子問題我算是搞定了,但是第二個(gè)問題馬上來了
我想爬了這個(gè)網(wǎng)頁,再根據(jù)這個(gè)網(wǎng)頁的鏈接爬另外一個(gè)網(wǎng)頁,怎么做?
哪里有人回答這些問題,或者方向(python語法和執(zhí)行框架不懂也
- 3 回答
- 0 關(guān)注
- 506 瀏覽
添加回答
舉報(bào)