第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時(shí)綁定郵箱和手機(jī)立即綁定

運(yùn)行結(jié)果提問

首先python的百科詞條目前貌似不是這個(gè):http://baike.baidu.com/view/21087.htm

而是:http://baike.baidu.com/item/Python

而且,里面對應(yīng)的其他url鏈接也是這種:http://baike.baidu.com/item/計(jì)算機(jī)程序設(shè)計(jì)語言

因此,我能想到的修改就是在主調(diào)程序spider_main里:root_url = "http://baike.baidu.com/item/Python"

另外,修改解析器中的正則匹配:

def _get_new_urls(self, page_url, soup):
? ?new_urls = set()
? ?# /view/123.htm
? ?links = soup.find_all('a', href=re.compile(r'/item/.'))
? ?for link in links:
? ? ? ?new_url = link['href']
? ? ? ?new_full_url = urlparse.urljoin(page_url, new_url)
? ? ? ?new_urls.add(new_full_url)
? ?return new_urls


但是運(yùn)行結(jié)果顯示,http://img1.sycdn.imooc.com//59263af60001eabf07160121.jpg,

這樣看來的話,我第一個(gè)網(wǎng)址都沒解析出來,請問下老師這是什么原因呢?謝謝

正在回答

2 回答

==就是Javascript里面的等于號nbsp;=就是賦值號nbsp;nbsp;中間加空格就相當(dāng)于nbsp;兩個(gè)賦值號了nbsp;,

0 回復(fù) 有任何疑惑可以回復(fù)我~

如果使用的是python3的話中間一句不正確,無法組成新的url,從而讓循環(huán)一直是錯(cuò)誤,但是如果是循環(huán)停止的話,去除try,except進(jìn)行運(yùn)行差錯(cuò),應(yīng)該中間一個(gè)步驟出現(xiàn)了錯(cuò)誤

new_full_url?=?parse.urljoin(page_url,?new_url)


0 回復(fù) 有任何疑惑可以回復(fù)我~

舉報(bào)

0/150
提交
取消
Python開發(fā)簡單爬蟲
  • 參與學(xué)習(xí)       227603    人
  • 解答問題       1282    個(gè)

本教程帶您解開python爬蟲這門神奇技術(shù)的面紗

進(jìn)入課程

運(yùn)行結(jié)果提問

我要回答 關(guān)注問題
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學(xué)習(xí)伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號