講師回答 / Peter
一般來說curl下載下來的內(nèi)容關(guān)注的是數(shù)據(jù),而html的解析放到瀏覽器里面對齊很有可能是不同的,因?yàn)閏ss也會(huì)影響頁面布局,不同的瀏覽器也會(huì)有不同。但是,顯示在頁面上面的數(shù)據(jù)應(yīng)該是沒問題的。
2014-08-29
最新回答 / 慕瓜2137393
分頁的的話,一般要分多次采集每個(gè)分頁.有規(guī)律的話按照規(guī)律改變采集地址就行了,沒有規(guī)律的就沒采集一次,就從采集內(nèi)容找到下一頁地址.
2014-08-26
講師回答 / Peter
只能夠單獨(dú)抓取,這個(gè)是硬傷。比如頁面當(dāng)中的數(shù)據(jù)如果是通過Ajax來動(dòng)態(tài)獲取的話,curl也是無法拿到這些動(dòng)態(tài)數(shù)據(jù)的。這兩點(diǎn)應(yīng)該說是curl的使用限制。對于你這個(gè)情況,如果能夠知道這個(gè)frame的url,那么直接抓取它也許就能夠幫助你解決這個(gè)問題了。如果完整數(shù)據(jù)是合并起來的,也就是一部分?jǐn)?shù)據(jù)在當(dāng)前頁面,一部分在frame里面。那么就只能先抓取當(dāng)前頁面,然后解析當(dāng)前頁面的html,找到這個(gè)frame的src,然后再次抓取這個(gè)frame的page,最后把兩個(gè)頁面的數(shù)據(jù)合并起來。
2014-08-17