-
檢查是否安裝成功
查看全部 -
檢驗python及其他是否安裝成功
查看全部 -
安裝完python后,再安裝beautifulsoup4
查看全部 -
from url.requst import urlopen
from bs4 import BeautifulSoup
import re
#獲取網(wǎng)頁源代碼
#解析?網(wǎng)頁
soup = BeautifulSoup(resp."html.parse")
#獲取所有以/wiki/開頭的鏈接
urls = soup.findAll('a',href=re.compeil("^/wiki/"))
#獲取鏈接內(nèi)容
for uls in urls:
? ? if not re.search("/.(jpg|JPG)$",url["href"])
? ? ? ? print(url.get_text(),url["href"])
查看全部 -
soup = bs(html_doc,"html.parse")
print(soup.title.string)#當(dāng)title不止一個時會報錯
print(soup.title.get_text())
print(soup.a)
print(soup.find(id="link2").get_text)
print(soup.find(id="link2").string)
#print(soup.findAll("a").string)
for link in soup.findAll("a"):
? ? print(link.string)print(soup.find("p",{"class":"story"}))
查看全部 -
post(異步加載的應(yīng)用):表單的內(nèi)容記一下和有兩個請求頭(來源和頭)
查看全部 -
post是應(yīng)用在響應(yīng)對象中(即要求你下指令之后網(wǎng)頁響應(yīng)的信息)
谷歌內(nèi)可以使用postman進(jìn)行查看你想要響應(yīng)的對象內(nèi)容是什么
查看全部 -
反爬蟲還有一個:origin
查看全部 -
攜帶請求頭的爬蟲是最簡單的反爬蟲的方法:
rep = requst.Requst(url)
rep.add_header(key,value)
resp = request.urlopen(req)
print(resp.read().decode("utf-8")
查看全部 -
讀取文件方式
查看全部 -
Python安裝pip
查看全部 -
使用post2
查看全部 -
使用post1
查看全部 -
模擬瀏覽器訪問
查看全部 -
urllib
查看全部
舉報