我是網(wǎng)絡(luò)抓取新手,我正在嘗試使用 R 從以下網(wǎng)站獲取搜索結(jié)果:https://devtracker.fcdo.gov.uk/sector/1/projects獲得結(jié)果的第一頁很容易,例如使用library(rvest)library(V8)link <- 'https://devtracker.fcdo.gov.uk/sector/1/projects'devtracker = read_html(link) searchresults = devtracker %>% html_nodes(xpath = '//div[@class="search-result"]//a',) %>% html_attr('href')但我無法從后續(xù)頁面獲得結(jié)果。最初我以為我會找到下一頁的鏈接,然后按照它,一頁一頁地獲取搜索結(jié)果。在瀏覽器中查看 html 代碼,它看起來如下行:pages = devtracker %>% html_nodes(xpath = "//div[@class='six columns']//ul//li",)應(yīng)該找到其他頁面的鏈接,但這會返回一個空節(jié)點(diǎn)集。我知道這與使用 JavaScript 作為頁面列表的頁面有關(guān),我嘗試在以下博客中使用 V8:https: //www.r-bloggers.com/2017/11/scraping-javascript- render-web-content-using-r/但無法弄清楚如何使用它來顯示下一頁結(jié)果。有沒有一種簡單的方法可以讓新手獲得該頁面的所有搜索結(jié)果?
當(dāng)啟用 JavaScript 時,使用 R 從網(wǎng)頁獲取所有搜索結(jié)果
猛跑小豬
2023-07-06 14:57:17