一直以來非常感謝各位的幫助。寫了一個簡單的爬蟲,目的是把慕課網(wǎng)課程的章節(jié)抓取下來。url是:http://idcbgp.cn/learn/951代碼可以順利的運行,但我的理想結果是如下:第1章 課程介紹第2章 MyCAT介紹第3章 MyCAT基礎第4章 課程總結但是實際卻是:出現(xiàn)這樣的原因是<strong>標簽中有兩段文字我的代碼是這樣的:const http=require('https');const fs=require('fs');const cheerio=require('cheerio');const url='http://idcbgp.cn/learn/951';http.get(url,function(res){ var html=''; var titles=[]; res.setEncoding('utf-8'); res.on('data',function(chunk){ html+=chunk; }); res.on('end',function(){ var $=cheerio.load(html); $('strong').each(function(){ var x=$(this).text().trim(); console.log(x); }); });});如何把后面那段介紹文字去掉。只留一個大章節(jié)的標題。用text()取得文本數(shù)據(jù)的時候,如何才能讓文字前面的空格和換行都去掉。另外我是做電商運營的,我用這個去爬取亞馬遜排行top100的標題的時候,發(fā)現(xiàn)一個結果都出不來,但是爬取慕課網(wǎng)卻還是可以運行的, 如果要爬取亞馬遜的話,我該如何做。謝謝大家的幫助!
nodejs爬蟲中標簽選擇的問題
qq_遁去的一_1
2019-03-08 14:15:18