首頁猿問 nodejs爬蟲中標簽選擇的問題

nodejs爬蟲中標簽選擇的問題

JavaScript

qq_遁去的一_1 2019-03-08 14:15:18

一直以來非常感謝各位的幫助。寫了一個簡單的爬蟲，目的是把慕課網(wǎng)課程的章節(jié)抓取下來。url是：http://idcbgp.cn/learn/951代碼可以順利的運行，但我的理想結果是如下：第1章課程介紹第2章 MyCAT介紹第3章 MyCAT基礎第4章課程總結但是實際卻是：出現(xiàn)這樣的原因是<strong>標簽中有兩段文字我的代碼是這樣的：const http=require('https');const fs=require('fs');const cheerio=require('cheerio');const url='http://idcbgp.cn/learn/951';http.get(url,function(res){ var html=''; var titles=[]; res.setEncoding('utf-8'); res.on('data',function(chunk){ html+=chunk; }); res.on('end',function(){ var $=cheerio.load(html); $('strong').each(function(){ var x=$(this).text().trim(); console.log(x); }); });});如何把后面那段介紹文字去掉。只留一個大章節(jié)的標題。用text()取得文本數(shù)據(jù)的時候，如何才能讓文字前面的空格和換行都去掉。另外我是做電商運營的，我用這個去爬取亞馬遜排行top100的標題的時候，發(fā)現(xiàn)一個結果都出不來，但是爬取慕課網(wǎng)卻還是可以運行的，如果要爬取亞馬遜的話，我該如何做。謝謝大家的幫助！

查看完整描述

1 回答

郎朗坤

TA貢獻1921條經(jīng)驗獲得超9個贊

你可以用先$('strong i').next().remove();去除你不想要的

...

var $=cheerio.load(html);

$('strong i').next().remove();

$('strong').each(function(){

var x=$(this).text().trim();

console.log(x);

});

...

反對回復 2019-03-20

1 回答
0 關注
502 瀏覽

關注

添加回答

舉報

0/150

提交

取消

使用 Ctrl+D 可將網(wǎng)站添加到書簽

微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網(wǎng)微信公眾號

第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

熱搜

最近搜索清空

nodejs爬蟲中標簽選擇的問題

nodejs爬蟲中標簽選擇的問題

1 回答

添加回答