課程
/后端開發(fā)
/Python
/Python開發(fā)簡單爬蟲
2016-06-01
源自:Python開發(fā)簡單爬蟲
正在回答
我用著不是太好治療癲癇病的方法
用這個方法爬出了10條數(shù)據(jù)
我的用這個方法不行
贊一個,我也遇到此問題,正準備求助
你點擊第二的url會發(fā)現(xiàn)他是鎖定詞條的頁面,去看html代碼的話可以看出來“鎖定”這個href的模式也是/view/123.htm,所以按照視頻里的代碼第一條抓出來的就是鎖定,這個會出現(xiàn)錯誤。
比較笨的方法,我在parser里面加入了個判斷:
for?link?in?links: ????new_url?=?link['href'] ????new_full_url?=?urlparse.urljoin(page_url,?new_url) ????#?print?new_full_url ????if?new_full_url?==?'http://baike.baidu.com/view/10812319.htm': ????????continue ????new_urls.add(new_full_url) return?new_urls
這樣就可以了
charsandrew
舉報
本教程帶您解開python爬蟲這門神奇技術的面紗
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號-11 京公網(wǎng)安備11010802030151號
購課補貼聯(lián)系客服咨詢優(yōu)惠詳情
慕課網(wǎng)APP您的移動學習伙伴
掃描二維碼關注慕課網(wǎng)微信公眾號
2021-12-15
我用著不是太好治療癲癇病的方法
2016-06-18
用這個方法爬出了10條數(shù)據(jù)
2016-06-16
我的用這個方法不行
2016-06-05
贊一個,我也遇到此問題,正準備求助
2016-06-03
你點擊第二的url會發(fā)現(xiàn)他是鎖定詞條的頁面,去看html代碼的話可以看出來“鎖定”這個href的模式也是/view/123.htm,所以按照視頻里的代碼第一條抓出來的就是鎖定,這個會出現(xiàn)錯誤。
比較笨的方法,我在parser里面加入了個判斷:
這樣就可以了