首頁猿問如何忽略圖像和其他不必要的文件以降...

如何忽略圖像和其他不必要的文件以降低 Jsoup 中的響應(yīng)時間

Java

江戶川亂折騰 2023-04-13 16:45:33

我一直在像這樣使用 Jsoup 獲取 html 文檔：Jsoup.connect(url).get();但我注意到 Jsoup 在給我數(shù)據(jù)之前等待所有內(nèi)容加載。我知道我要找的數(shù)據(jù)在Html文檔中。當(dāng)查看響應(yīng)時（通過谷歌 Chrome 網(wǎng)絡(luò)分析工具），html 文檔在第一個 ~100ms 發(fā)送，我不想等待額外的 ~1500ms 來訪問該數(shù)據(jù)。有沒有辦法讓請求跳過不需要的文件或在 Revinge html 文檔后停止請求？任何可以使獲取數(shù)據(jù)的過程更快的建議將不勝感激。

查看完整描述

1 回答

holdtom

TA貢獻(xiàn)1805條經(jīng)驗(yàn) 獲得超10個贊

你的假設(shè)實(shí)際上是錯誤的。Jsoup 只獲取您將 url 傳遞給的一個文檔。它不會自動獲取任何資源（圖像、css、js 文件等）。如果激活，Jsoup 將僅遵循重定向。

可能服務(wù)器延遲了響應(yīng)，因?yàn)槟l(fā)送了沒有User-Agent標(biāo)頭的請求。您可以使用Connection.userAgent()并添加例如 chrome 用戶代理來解決此問題：

Jsoup.connect(url)
????????.userAgent("Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/70.0.3538.77?Safari/537.36")
????????.get();

反對回復(fù) 2023-04-13