作業(yè)要我們用Java寫一個(gè)爬蟲(chóng),我看網(wǎng)上和助教給出的資料,似乎是用httpclient和jsoup兩個(gè)類,但是在jsoup那里的選擇器,我看不懂,網(wǎng)上找了相應(yīng)的資料,要么是直接照搬文檔里面的,要么是一筆帶過(guò),完全懵逼在當(dāng)場(chǎng)……具體問(wèn)題就比如是……可以get到一大串的json數(shù)據(jù),不知道怎么把里面的"aid":***之類的數(shù)據(jù)提取出來(lái),這應(yīng)該用怎么樣的提取條件?還是說(shuō)是別的什么東西?如果還有問(wèn)題,就是用java寫一個(gè)爬蟲(chóng)的思路是什么,我上面的想法對(duì)嗎?不對(duì)的話應(yīng)該怎么做?
7 回答

qq_蝦米_7
TA貢獻(xiàn)1條經(jīng)驗(yàn) 獲得超2個(gè)贊
jsoup用的選擇器和css的一樣 ,可以直接解析那個(gè)頁(yè)面? 然后用那些選擇器獲取你需要你的內(nèi)容就可以了

qq_冷_37
TA貢獻(xiàn)1條經(jīng)驗(yàn) 獲得超1個(gè)贊
就是jsoup 里面有幾個(gè)有幾個(gè)方法 你到網(wǎng)頁(yè)上? 用抓包工具 找到你想抓的東西? 你 想抓取什么 就拿到 標(biāo)題? 轉(zhuǎn)下 格式 換成文檔格式? 在存到數(shù)據(jù)庫(kù) ?就可以了 也可以打出來(lái)再? 控制臺(tái)上 你就能看見(jiàn)你抓的是不是 文檔格式? 是就存到數(shù)據(jù)庫(kù) 不是在轉(zhuǎn)換下格式就好了

迦爾納
TA貢獻(xiàn)3條經(jīng)驗(yàn) 獲得超0個(gè)贊
目前可以知道的是,我所得到的那串?dāng)?shù)據(jù)就是json數(shù)據(jù),所以需要解析他……我一臉茫然……數(shù)據(jù)沒(méi)有數(shù)組[],但是實(shí)際上卻又大同小異,懵逼ing
添加回答
舉報(bào)
0/150
提交
取消