課程
                    
                        /后端開發(fā)
                        
                            /Python
                        
                        /Python最火爬蟲框架Scrapy入門與實踐

為何多行文本內容最終只爬取到最后一行內容

老師，麻煩您看一下爬取introduce信息時，xpath寫為

“.//div[@class='info']//div[@class='bd']/p[1]/text()”

然后賦值時

content_s?=?"".join(i_content.split())

您這邊在pycharm終端中輸出第一頁時確實有多行內容分行提取到了，但是最后top250全部爬取時introduce只有最后一行的內容。

我完全按您的代碼運行，爬取第一頁時introduce就只有最后一行內容，top250全部爬取時也只有最后一行的內容。

于是我把xpath改成“.//div[@class='info']//div[@class='bd']/p[1]”，去掉了text（）

然后content_s?=?"".join(i_content.split('<br>'))

但是這樣一來雖然把多行內容都爬取到了，但是文本中又多出來空格和標簽的信息，麻煩老師給個好一點的解決

辦法。

lostgod

2019-06-08

源自：Python最火爬蟲框架Scrapy入門與實踐 2-7

關注問題我要回答

2621

操作

收起

2 回答

暮日孤影回答被采納 +2 積分
2019-08-26

老師的多行處理是錯的，

content?=?i_item.xpath(".//div[@class='info']/div[@class='bd']/p[1]//text()").extract()

這個解析出來是一個兩個元素的列表，兩個元素分別是<br>的前后兩段，因此下面這段代碼：

for?i_content?in?content:
????content_s?=?"".join(i_content.split())
????douban_item['introduce']?=?content_s

代碼的含義是，分別取出<br>的前后兩段，然后去掉空格換行符等，然后存進數(shù)據(jù)庫的introduce字段。這樣的話第二段的數(shù)據(jù)就會覆蓋第一段先存進去的數(shù)據(jù)，因此你看到了“多行文本內容最終只爬取到最后一行內容”這個結果。

可以改成這樣：

content_s?=?""
for?i_content?in?content:
????content_s?=?content_s?+?"".join(i_content.split())
douban_item['introduce']?=?content_s

2 回復有任何疑惑可以回復我~

收起回答

慕標9029021
2019-10-28

這樣會有省略號怎么辦

0 回復有任何疑惑可以回復我~

收起回答

舉報

0/150

提交

取消

Python最火爬蟲框架Scrapy入門與實踐

參與學習 67423 人
解答問題 235 個

做為爬蟲工程師Python Scrapy主流爬蟲框架你必須要會！

進入課程

本課相似問答

1 回答introduce 那個不是只取了最后一行嗎？

1 回答爬蟲代碼內容有疑問

4 回答電影內容始終爬不到“1994 / 美國 / 犯罪劇情”這類信息

4 回答爬下來的i_item（即“movie_list”）的內容不全

1 回答沒有報錯，卻沒有抓取到任何內容，哪里的問題？

搜索更多本課相關問答

為何多行文本內容最終只爬取到最后一行內容

我要回答關注問題

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

為何多行文本內容最終只爬取到最后一行內容

2 回答

本課相似問答

為何多行文本內容最終只爬取到最后一行內容