請教一個問題哈:
Jsoup官方文檔里,重點講了怎么解析網(wǎng)頁,但沒很好的講解怎么download這個問題。載入一個網(wǎng)頁,就這么干巴巴一句:
Document doc = Jsoup.connect("http://example.com/").get();
更別沒有提到翻頁、判斷是否重復爬去等問題。
這個是不是說,用其他的爬蟲,比如crawler4j或者HttpClient,先爬取網(wǎng)頁,然后再使用Jsoup來解析?
還是說Jsoup能強大到先爬取再解析?
還有,對于這個問題,能否推薦幾個英文關(guān)鍵詞,我去google上搜一下?水平不高,連關(guān)鍵詞是什么都不知道,請見諒。
2 回答

翻翻過去那場雪
TA貢獻2065條經(jīng)驗 獲得超14個贊
JSoup幫你發(fā)送http請求,獲取返回的HTML內(nèi)容,保存到Document對象中,再提供一套類jQuery的API查詢解析HTML文檔內(nèi)的信息
翻頁每個站點有特定的URL請求,或JSON、JSONP請求,這個需要你自己組織處理
你可以使用HttpClient等爬蟲類庫,獲取HTML原始內(nèi)容,構(gòu)建成JSOUP的Document對象,讓JSOUP解析出內(nèi)容,然后保存到你期望的持久化方案中(本地文件,數(shù)據(jù)庫,內(nèi)存...)
是否爬蟲了,是否需要通過代理去爬(如何反爬)不是JSOUP應該干的活,就像HttpClient負責爬取內(nèi)容,但不會解析內(nèi)容一樣....
添加回答
舉報
0/150
提交
取消