我正在嘗試使用beautifulsoup編寫一個網(wǎng)絡(luò)爬蟲從https://www.ncbi.nlm.nih.gov/gene/?term=Celiac+disease中提取基因名稱我的代碼可以從第一頁得到我想要的結(jié)果,但是我不知道如何編寫代碼讓我的程序移動到下一頁。單擊“下一步”按鈕后,我得到一個與上一頁無關(guān)的新地址。例如,第一頁的地址是https://www.ncbi.nlm.nih.gov/gene/?term=Celiac+disease,但下一頁的地址是https://www.ncbi.nlm.nih 。 gov/gene(盡管仍顯示與腹腔疾病相關(guān)的結(jié)果)我查了 google 和 stackoverflow 看看有沒有與這個問題相關(guān)的文章。但我只能找到關(guān)于帶有相似地址的頁面的文章,并且(對我來說)在邏輯上遵循他們的軌跡。from bs4 import BeautifulSoupfrom urllib.request import urlopengene_result = []url = "https://www.ncbi.nlm.nih.gov/gene/?term=Celiac+disease"html = urlopen(url).read()soup = BeautifulSoup(html, "html5lib")tbody = soup.find("tbody")a_href = tbody.find_all("a")for x in a_href: gene = x.contents[0] gene_result.append(gene)print(gene_result)代碼在第一頁上爬行很好,我得到了很好的結(jié)果:['CTLA4', 'HLA-DQA1', 'IL2', 'IL21', 'CCR3', 'CELIAC2', 'ATXN2', 'SH2B3', 'HLA-DQB1', 'CELIAC5', 'TAGAP', 'CELIAC7', 'CELIAC13', 'CELIAC12', 'CELIAC11', 'CELIAC10', 'CELIAC9', 'CELIAC8', 'CELIAC6', 'KIAA1109']有人可以幫我解決這個問題嗎?
1 回答

叮當貓咪
TA貢獻1776條經(jīng)驗 獲得超12個贊
對于此類網(wǎng)站,您需要使用稱為selenium webdriver 和 python 的東西。
您將需要通過 Python 代碼中的此 webdriver 模擬單擊“下一步”按鈕,然后將 html_source 讀入 BeautifulSoup。
添加回答
舉報
0/150
提交
取消