首頁猿問如何使用 PHP/Curl...

如何使用 PHP/Curl 獲取框架內(nèi)的 html？

PHP

開滿天機 2022-12-11 09:55:31

我是第一次使用 PHP\Curl。我的目的是創(chuàng)建一個機器人，從多個網(wǎng)站檢索和收集數(shù)據(jù)，這些網(wǎng)站從機器獲取數(shù)據(jù)（我確切地說我確實擁有這些數(shù)據(jù)，對我來說只是在一個點上收集所有數(shù)據(jù)）。我設(shè)法登錄到這些網(wǎng)站并獲取了一些數(shù)據(jù)。由于 file_get_contents 函數(shù)，我還設(shè)法在 iframe 中獲取數(shù)據(jù)。但是，如果我嘗試在一個簡單的框架（而不是 Iframe）中獲取 html，它就不起作用。我使用了下面框架元素的 url（是的，有完整的 url）。我沒有收到任何錯誤。我確實得到了一些 html 元素，但沒有我正在尋找的 html。我看到了 html 正文，但它幾乎是空的。我完全確定我提供給 php/curl 的 url。我應(yīng)該怎么做才能在框架內(nèi)獲取 html？這是我試圖從中獲取數(shù)據(jù)的頁面上可見的框架元素。（這不是我從 php/curl 響應(yīng)中得到的）：<frame name="WMain" src="/WSID0002340321/easy/GUI-1280"> The html i'm looking for is here</frame>所以沒有什么特別的。我看過這篇文章：How to use PHP CURL with frames? 但問題并不完全相同，答案是關(guān)于 iframe 并假設(shè)有 html 元素。感謝你們對我的幫助。

查看完整描述

2 回答

倚天杖

TA貢獻1828條經(jīng)驗獲得超3個贊

我懷疑某些 HTML 可能是使用 Javascript 生成的——在這種情況下，當(dāng)頁面首次加載時它不存在，因此使用像 cURL 這樣的非瀏覽器客戶端的簡單請求將永遠看不到它，或者可能會被下載通過額外的 AJAX 請求 - 在這種情況下，您可以通過直接向 AJAX 使用的 URL 發(fā)出請求來檢索它。甚至是兩者的某種結(jié)合。使用瀏覽器的開發(fā)人員工具更仔細地檢查頁面可能有助于您了解內(nèi)容的實際創(chuàng)建方式。

如今，頁面包含稍后加載和/或由腳本生成的內(nèi)容是很常見的。因此，原始 HTML 的基本下載無法捕獲額外的內(nèi)容（因為沒有 Javascript 環(huán)境可以運行代碼并下載/創(chuàng)建額外的 HTML）。你需要一個無頭瀏覽器，或者一個像谷歌爬蟲一樣復(fù)雜的網(wǎng)絡(luò)客戶端才能完全加載這樣的頁面

反對回復(fù) 2022-12-11