第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

<abbr id="kergm"></abbr><u id="kergm"></u>

已解決430363個問題，去搜搜看，總會有你想問的

求教：怎樣解決Jsoup翻頁問題？

首頁猿問求教：怎樣解決Jsoup翻頁問題？

求教：怎樣解決Jsoup翻頁問題？

Java

炎炎設計 2019-02-17 04:58:38

請教一個問題哈： Jsoup官方文檔里，重點講了怎么解析網(wǎng)頁，但沒很好的講解怎么download這個問題。載入一個網(wǎng)頁，就這么干巴巴一句： Document doc = Jsoup.connect("http://example.com/").get(); 更別沒有提到翻頁、判斷是否重復爬去等問題。這個是不是說，用其他的爬蟲，比如crawler4j或者HttpClient，先爬取網(wǎng)頁，然后再使用Jsoup來解析？還是說Jsoup能強大到先爬取再解析？還有，對于這個問題，能否推薦幾個英文關(guān)鍵詞，我去google上搜一下？水平不高，連關(guān)鍵詞是什么都不知道，請見諒。

查看完整描述

2 回答

翻翻過去那場雪

TA貢獻2065條經(jīng)驗獲得超14個贊

JSoup幫你發(fā)送http請求，獲取返回的HTML內(nèi)容，保存到Document對象中，再提供一套類jQuery的API查詢解析HTML文檔內(nèi)的信息

翻頁每個站點有特定的URL請求，或JSON、JSONP請求，這個需要你自己組織處理

你可以使用HttpClient等爬蟲類庫，獲取HTML原始內(nèi)容，構(gòu)建成JSOUP的Document對象，讓JSOUP解析出內(nèi)容，然后保存到你期望的持久化方案中（本地文件，數(shù)據(jù)庫，內(nèi)存...）

是否爬蟲了，是否需要通過代理去爬（如何反爬）不是JSOUP應該干的活，就像HttpClient負責爬取內(nèi)容，但不會解析內(nèi)容一樣....

反對回復 2019-03-01

青春有我

TA貢獻1784條經(jīng)驗獲得超8個贊

爬蟲一般會先爬一個種子頁面，里面有所有頁面url的規(guī)則，通過這個種子再去爬其他頁面。

反對回復 2019-03-01

2 回答
0 關(guān)注
705 瀏覽

關(guān)注

添加回答

舉報

0/150

提交

取消

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號