已采納回答 / Peter
爬蟲的的目的就在于可以通過一定的方式把目標網(wǎng)站里面的數(shù)據(jù)都抓取下來,然后想怎么用都行。
對于一個網(wǎng)站來說,很多數(shù)據(jù)是有數(shù)據(jù)權(quán)限控制的,也就是需要登錄或者甚至授權(quán)的方式才能夠訪問到這些敏感數(shù)據(jù)。因此,從外部(也就是我們的爬蟲程序)來說,最直接的方式就是模擬已經(jīng)有權(quán)限的用戶去登錄系統(tǒng),然后訪問這些敏感數(shù)。
我們常說,人的安全是最難控制的,家賊難防這個道理也是一樣的。我們的爬蟲就假裝是一個正常的用戶去訪問網(wǎng)站,然后順便把所有感興趣的數(shù)據(jù)都抓取下來。這就是爬蟲的核心思想。
當然,也可以沒有賬號密碼,你把自己修煉稱...
2014-07-22
講師回答 / Peter
我的印象中,每一行代碼為什么這么寫都已經(jīng)在課程中進行了說明。唯一沒有展開說的是post的參數(shù)是怎么獲取的,這個要說清楚就是http協(xié)議相關(guān)的內(nèi)容了,并非CURL的課程內(nèi)容,因此沒有展開。
如果同學(xué)覺得老師哪里說的不清楚,請指出,我也好單獨給出一個回答。這樣,其他的同學(xué)也可以得到解惑。
謝謝同學(xué)的批評。
2014-07-22