課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python開發(fā)簡單爬蟲

爬了一個，第二個failed就停止了

張小飛0

2016-06-01

源自：Python開發(fā)簡單爬蟲

關注問題我要回答

863

操作

收起

5 回答

慕九州4077438
2021-12-15

我用著不是太好治療癲癇病的方法

0 回復有任何疑惑可以回復我~

收起回答

betterzlf
2016-06-18

用這個方法爬出了10條數(shù)據(jù)

0 回復有任何疑惑可以回復我~

收起回答

xinxin_121
2016-06-16

我的用這個方法不行

0 回復有任何疑惑可以回復我~

收起回答

weibo_慕斯卡1409433
2016-06-05

贊一個，我也遇到此問題，正準備求助

0 回復有任何疑惑可以回復我~

收起回答

huangjunli
2016-06-03

你點擊第二的url會發(fā)現(xiàn)他是鎖定詞條的頁面，去看html代碼的話可以看出來“鎖定”這個href的模式也是/view/123.htm，所以按照視頻里的代碼第一條抓出來的就是鎖定，這個會出現(xiàn)錯誤。

比較笨的方法，我在parser里面加入了個判斷：

for?link?in?links:
????new_url?=?link['href']
????new_full_url?=?urlparse.urljoin(page_url,?new_url)
????#?print?new_full_url
????if?new_full_url?==?'http://baike.baidu.com/view/10812319.htm':
????????continue
????new_urls.add(new_full_url)
return?new_urls

這樣就可以了

0 回復有任何疑惑可以回復我~

收起回答

#1

charsandrew

為什么鎖定詞條的頁面不能抓取？鎖定詞條也有標題，概要，和url 應該是可以抓取的啊！能解釋下嗎？

2016-06-26 回復有任何疑惑可以回復我~