課程
                    
                        /后端開(kāi)發(fā)
                        
                            /Python
                        
                        /Python開(kāi)發(fā)簡(jiǎn)單爬蟲(chóng)

為什么運(yùn)行之后是這樣的？

craw 1 : http://baike.baidu.com/view/21087.htm
craw failed

Iocay

2016-05-14

源自：Python開(kāi)發(fā)簡(jiǎn)單爬蟲(chóng) 7-7

關(guān)注問(wèn)題我要回答

1215

操作

收起

7 回答

_Mr_su
2016-07-30

希望對(duì)你有所幫助

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

慕花花
2016-05-27

我的也是這樣的，代碼改了一遍，還是沒(méi)用，求大神指點(diǎn)

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

#1

慕花花

我的現(xiàn)在好了，改了幾處代碼。不過(guò)抓取結(jié)果是亂碼，又像繁體字

2016-05-27 回復(fù) 有任何疑惑可以回復(fù)我~

#2

慕粉3136486

轉(zhuǎn)換代碼格式就可以了，在網(wǎng)頁(yè)開(kāi)頭加入utf-8 的語(yǔ)句即可

2016-06-10 回復(fù) 有任何疑惑可以回復(fù)我~

PZH
2016-05-16

代碼敲錯(cuò)了

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

#1

ohyes768

請(qǐng)問(wèn)是哪里有錯(cuò)了？

2016-06-24 回復(fù) 有任何疑惑可以回復(fù)我~

PZH
2016-05-15

import re

import urlparse

from bs4 import BeautifulSoup

class HtmlParser(object):

? ? def _get_new_urls(self,page_url,soup):

? ? ? ? new_urls=set()

? ? ? ? links=soup.find_all('a',href=re.compile(r"/view/\d+\.htm"))

? ? ? ? for link in links:

? ? ? ? ? ? new_url=link['href']

? ? ? ? ? ? new_full_url=urlparse.urljoin(page_url,new_url)

? ? ? ? ? ? new_urls.add(new_full_url)

? ? ? ? return new_urls

? ? def _get_new_data(self,page_url,soup):

? ? ? ? res_data={}

? ? ? ? #url

? ? ? ? res_data['url']=page_url

? ? ? ??

? ? ? ? #<dd class="lemmaWgt-lemmaTitle-title"><h1>Python</h1>

? ? ? ? title_node=soup.find('dd',class_="lemmaWgt-lemmaTitle-title")

? ? ? ? res_data['title']=title_node.get_text()

? ? ? ? #<div class="lemma-summary" >

? ? ? ? summary_node=soup.find('div',class_="lemma-summary")

? ? ? ? res_data['summary']=title_summary.get_text()

? ? ? ? return res_data

? ? def parse(self,page_url,html_cont):

? ? ? ? if page_url is None or Html_cont is None:

? ? ? ? ? ? return

? ? ? ? soup=BeautifulSoup(html_cont,'html.parser',from_encoding='utf-8')

? ? ? ? new_urls=self._get_new_urls(page_url,soup)

? ? ? ? new_data=self._get_new_data(page_url,soup)

? ? ? ? return new_urls,new_data

? ? ? ??

代碼就是按照視頻敲的，不知道哪錯(cuò)了

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

#1

熊孩子3657953

title_node = soup.find("dd", attrs={"class":"lemmaWgt-lemmaTitle-title"}).find("h1")

2016-08-13 回復(fù) 有任何疑惑可以回復(fù)我~

#2

熊孩子3657953

summary_node = soup.find('div', attrs={"class":"lemma-summary"})

2016-08-13 回復(fù) 有任何疑惑可以回復(fù)我~

PZH
2016-05-15

我也是這樣的

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

qq_鴻語(yǔ)_0
2016-05-15

我之前也是這樣的 ?不過(guò)現(xiàn)在解決了應(yīng)該是html_parser.py 有問(wèn)題，找找代碼是不是有錯(cuò)誤，或者你把代碼貼上來(lái) ，我?guī)湍阏艺??，我也是早上剛找到的錯(cuò)誤

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

qq_鴻語(yǔ)_0
2016-05-14

我也是這樣的 ?請(qǐng)問(wèn)你解決了嗎？

0 回復(fù) 有任何疑惑可以回復(fù)我~

收起回答

舉報(bào)

0/150

提交

取消

Python開(kāi)發(fā)簡(jiǎn)單爬蟲(chóng)

參與學(xué)習(xí) 227603 人
解答問(wèn)題 1284 個(gè)

本教程帶您解開(kāi)python爬蟲(chóng)這門(mén)神奇技術(shù)的面紗

進(jìn)入課程

為什么運(yùn)行之后是這樣的？

我要回答關(guān)注問(wèn)題

使用 Ctrl+D 可將網(wǎng)站添加到書(shū)簽

微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢(xún)優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

為什么運(yùn)行之后是這樣的？

7 回答

為什么運(yùn)行之后是這樣的？

為什么運(yùn)行之后是這樣的？

為什么運(yùn)行之后是這樣的？