第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

求教:怎樣解決Jsoup翻頁問題?

求教:怎樣解決Jsoup翻頁問題?

炎炎設計 2019-02-17 04:58:38
請教一個問題哈: Jsoup官方文檔里,重點講了怎么解析網(wǎng)頁,但沒很好的講解怎么download這個問題。載入一個網(wǎng)頁,就這么干巴巴一句: Document doc = Jsoup.connect("http://example.com/").get(); 更別沒有提到翻頁、判斷是否重復爬去等問題。 這個是不是說,用其他的爬蟲,比如crawler4j或者HttpClient,先爬取網(wǎng)頁,然后再使用Jsoup來解析? 還是說Jsoup能強大到先爬取再解析? 還有,對于這個問題,能否推薦幾個英文關(guān)鍵詞,我去google上搜一下?水平不高,連關(guān)鍵詞是什么都不知道,請見諒。
查看完整描述

2 回答

?
翻翻過去那場雪

TA貢獻2065條經(jīng)驗 獲得超14個贊

JSoup幫你發(fā)送http請求,獲取返回的HTML內(nèi)容,保存到Document對象中,再提供一套類jQuery的API查詢解析HTML文檔內(nèi)的信息

翻頁每個站點有特定的URL請求,或JSON、JSONP請求,這個需要你自己組織處理

你可以使用HttpClient等爬蟲類庫,獲取HTML原始內(nèi)容,構(gòu)建成JSOUP的Document對象,讓JSOUP解析出內(nèi)容,然后保存到你期望的持久化方案中(本地文件,數(shù)據(jù)庫,內(nèi)存...)

是否爬蟲了,是否需要通過代理去爬(如何反爬)不是JSOUP應該干的活,就像HttpClient負責爬取內(nèi)容,但不會解析內(nèi)容一樣....

查看完整回答
反對 回復 2019-03-01
?
青春有我

TA貢獻1784條經(jīng)驗 獲得超8個贊

爬蟲一般會先爬一個種子頁面,里面有所有頁面url的規(guī)則,通過這個種子再去爬其他頁面。

查看完整回答
反對 回復 2019-03-01
  • 2 回答
  • 0 關(guān)注
  • 705 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動學習伙伴

公眾號

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號