課程
/后端開發(fā)
/Python
/Python開發(fā)簡單爬蟲
不知道為什么,只爬了一行:
craw 1 : https://baike.baidu.com/item/Python
craw failed
請問怎么解決
2017-09-04
源自:Python開發(fā)簡單爬蟲 8-1
正在回答
將try。。。except。。。刪除,然后查看是哪里出了問題,一步一步來分析解決,不然程序就只有報錯,沒有輸出錯誤信息
spider_main.py中加入:
import sslssl._create_default_https_context = ssl._create_unverified_context
原因:會驗證SSL 證書,而百度的https直接會失敗。需要unverified處理。
我也出現(xiàn)了這個問題,剛剛解決掉。
第一,檢查你的代碼,是否全部和文中一樣。
第二,如果一樣,我的問題出在了html_parser中的_get_new_urls方法中,視頻中老師寫的那個正則表達式在現(xiàn)在的網頁中是打不開的,需要寫成符合現(xiàn)在網頁中的超鏈接的href類型的表達式。我改為links=soup.find_all('a', href=re.compile(r"/item/[0-9a-zA-Z\%]+"))之后,正確返回了所有的抓取到的url以及文檔。
不知道你的是什么原因,但你可以試一試,希望能夠幫到你。
舉報
本教程帶您解開python爬蟲這門神奇技術的面紗
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號-11 京公網安備11010802030151號
購課補貼聯(lián)系客服咨詢優(yōu)惠詳情
慕課網APP您的移動學習伙伴
掃描二維碼關注慕課網微信公眾號
2018-03-20
將try。。。except。。。刪除,然后查看是哪里出了問題,一步一步來分析解決,不然程序就只有報錯,沒有輸出錯誤信息
2017-10-11
spider_main.py中加入:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
原因:會驗證SSL 證書,而百度的https直接會失敗。需要unverified處理。
2017-09-04
我也出現(xiàn)了這個問題,剛剛解決掉。
第一,檢查你的代碼,是否全部和文中一樣。
第二,如果一樣,我的問題出在了html_parser中的_get_new_urls方法中,視頻中老師寫的那個正則表達式在現(xiàn)在的網頁中是打不開的,需要寫成符合現(xiàn)在網頁中的超鏈接的href類型的表達式。我改為links=soup.find_all('a', href=re.compile(r"/item/[0-9a-zA-Z\%]+"))之后,正確返回了所有的抓取到的url以及文檔。
不知道你的是什么原因,但你可以試一試,希望能夠幫到你。