講師回答 / Peter
后面加/user/login是因為這個地址是登錄的地址,我們發(fā)送登錄請求是發(fā)送到這個地址的。POST數(shù)據(jù)只能通過讀取網(wǎng)頁中附帶的JS代碼得到,因為已經(jīng)超出本課程的范圍,所以沒有展開。
2014-08-09
講師回答 / Peter
一次只能下載一個文件,但是可以通過代碼的方式下載一整個目錄,帶上發(fā)送下載指令還是一個文件一個文件下的。比如,我們知道有一個目錄,里面有N個文件,那么用PHP可以寫一個循環(huán)把這N個文件下載下來。
2014-08-09
講師回答 / Peter
您指的是哪些數(shù)據(jù)呢?只要下載下來的網(wǎng)頁看到了必須登錄才能看到的數(shù)據(jù),那么可以肯定登錄下載都是正確的。如果有一些數(shù)據(jù)沒有下載到,可以看看是什么數(shù)據(jù)。實質(zhì)上我們下載的是html的代碼,但是如果有一些數(shù)據(jù)是通過JS動態(tài)載入的,那么curl對于這些動態(tài)載入的資源是無法下載到的。
2014-08-09
已采納回答 / Peter
爬蟲的的目的就在于可以通過一定的方式把目標網(wǎng)站里面的數(shù)據(jù)都抓取下來,然后想怎么用都行。
對于一個網(wǎng)站來說,很多數(shù)據(jù)是有數(shù)據(jù)權(quán)限控制的,也就是需要登錄或者甚至授權(quán)的方式才能夠訪問到這些敏感數(shù)據(jù)。因此,從外部(也就是我們的爬蟲程序)來說,最直接的方式就是模擬已經(jīng)有權(quán)限的用戶去登錄系統(tǒng),然后訪問這些敏感數(shù)。
我們常說,人的安全是最難控制的,家賊難防這個道理也是一樣的。我們的爬蟲就假裝是一個正常的用戶去訪問網(wǎng)站,然后順便把所有感興趣的數(shù)據(jù)都抓取下來。這就是爬蟲的核心思想。
當然,也可以沒有賬號密碼,你把自己修煉稱...
2014-07-22