第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定

Java 中使用 selenium 和 chrome 瀏覽器下載動(dòng)態(tài)網(wǎng)頁

標(biāo)簽:
Java

时候,发现下载的内容中没有我们在浏览器上看到的阅读数、评论数、喜欢数这三部分的内容。当时解释过是因为这些内容是浏览器通过 JS 动态渲染的结果。也就是浏览器先下载了 html 页面内容,然后通过 AJAX 请求了新的数据,再通过 JS 将元素添加到 Dom 树中的。所以直接下载的 html 代码中是看不到这部分内容的。那么是否我们就无法通过爬虫获取到这部分的内容呢。也不是。这就要引入一个新的工具 selenium 来实现。

selenium 介绍

selenium 是一套 web 自动化测试的软件。他能够通过编程的方式调用系统的浏览器,并驱动浏览器模拟人的方式进行操作。例如点击、输入信息、滚动屏幕等。通过这样的方式,我们就可以在程序中自动运行我们的 web 页面。同时,对于爬虫程序来说,也可以驱动浏览器访问我们要的目标页面,并且因为是在浏览器中访问的网页,所以浏览器会自动渲染动态的内容。这样就可以解决上次发生的用 OkHttp 下载网页无法获取到动态内容的问题。

selenium Windows 环境安装

selenium 可以支持几种主流的浏览器。chrome、firefox 都在支持之列,浏览器是通过不同的 WebDriver 来驱动的。所以除了对应的浏览器,我们就是要安装对应的 WebDriver。这里来演示如何在 Windows 环境中安装 WebDriver。
对于 Chrome 的 WebDriver 来说,不同版本的 WebDriver 支持的 Chrome 浏览器的版本范围都不一样。所以我们要针对自己安装的 Chrome 版本选择安装不同的 Chrome Web Driver 。例如,现在最新的版本 2.44 支持的  chrome 版本范围是  v69-71 。
首先我们要确认自己机器安装的 chrome 的版本号。启动 chrome 浏览器,点击右上角的菜单,依次选择“帮助”、;“关于 Google Chrome” 选项,如下所示


webp

选择关于


然后出现下面的界面


webp

chrome 版本


其中红字部分是版本号,我这里是最新版本70。

然后我们要去地址 http://chromedriver.chromium.org/downloads 去下载对应的 chrome 版本。

webp

image.png


这里会有不同版本对不同 chrome 版本支持的说明,选择一个对应的就可以了。我的版本是70 ,所以选择了最新版本 2.44 下载

webp

web driver 不同平台


在具体的下载页面选择对应的平台即可。我这里选择了 chromedriver_win32.zip 。下载后解压出来一个 chromedriver.exe 文件,保存到一个指定的目录即可。
这样我们将一个windows 的 selenium 环境设置好了。

使用 selenium 和 chrome 下载动态网页

我们是在 Java 中使用 selenium ,所以在前文的基础上增加 selenium 相关的依赖

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>3.141.59</version>
        </dependency>

然后我们来改造一下 用 jsoup 分析下载的 html 内容 一文中的程序。原来是通过 OkHttp 来下载网页,这里就通过 selenium 结合 chrome 浏览器来进行

        WebDriver webDriver = null;        try {            String url = "https://www.jianshu.com/p/675ea919230e";            //启动一个 chrome 实例
            webDriver = new ChromeDriver();            //访问网址
            webDriver.get(url);
            Document document = Jsoup.parse(webDriver.getPageSource());
            Element titleElement = document.selectFirst("div.article h1.title");
            Element authorElement = document.selectFirst("div.article div.author span.name");
            Element timeElement = document.selectFirst("div.article span.publish-time");
            Element wordCountElement = document.selectFirst("div.article span.wordage");
            Element viewCountElement = document.selectFirst("div.article span.views-count");
            Element commentCountElement = document.selectFirst("div.article span.comments-count");
            Element likeCountElement = document.selectFirst("div.article span.likes-count");
            Element contentElement = document.selectFirst("div.article div.show-content");            if (titleElement != null) {
                System.out.println("标题:" + titleElement.text());
            }            if (authorElement != null) {
                System.out.println("作者:" + authorElement.text());
            }            if (timeElement != null) {
                System.out.println("发布时间:" + timeElement.text());
            }            if (wordCountElement != null) {
                System.out.println(wordCountElement.text());
            }            if (viewCountElement != null) {
                System.out.println(viewCountElement.text());
            }            if (commentCountElement != null) {
                System.out.println(commentCountElement.text());
            }            if (likeCountElement != null) {
                System.out.println(likeCountElement.text());
            }            if (contentElement != null && contentElement.text() != null) {
                System.out.println("正文长度:" + contentElement.text().length());
            }
        } catch (Exception e) {
            e.printStackTrace();
        } finally {            if (webDriver != null) {                //退出 chrome
                webDriver.quit();
            }
        }

运行这段代码之前,我们需要在虚拟机参数中指定 webdriver.chrome.driver 参数,值应该是我们下载的 chromedriver.exe 的路径。例如


webp

虚拟机参数设置

这里,为了区分版本,我将 chromedriver.exe 改名为 chromedriver_2.44.exe 了。运行这个代码,会看到程序自动打开了一个 chrome 窗口,并且自动访问 url 地址


webp

自动运行 chrome


运行完毕后,窗口自动推出。其中红字部分表明这个 chrome 是被 selenium 自动控制得。在控制台会输出如下内容

标题:是什么支撑了淘宝双十一,没错就是它java编程语言。
作者:Java帮帮
发布时间:2018.08.29 14:49字数 561
阅读 628
评论 0
喜欢 4
正文长度:655

可以看到,上一次通过 OkHttp 下载是没有得阅读、评论、喜欢数量能够被解析并且输出来了。

selenium chrome 的一些操作说明

上面的例子只是说明了如何在 selenium 中打开一个网页并获取他的内容。实际上我们前面说过了 selenium 是一个 web 的自动化测试框架,他是可以模拟人对页面的元素进行操作的。例如定位元素,在文本框里输入内容,点击元素等。下面的代码就演示了如何通过程序自动打开简书的首页并且在网站内查询 Spring Boot 相关的内容

       WebDriver webDriver;        try {            String url = "https://www.jianshu.com/";
            webDriver = new ChromeDriver();
            webDriver.get(url);
            webDriver.findElement(By.cssSelector("#q")).sendKeys("SpringBoot");
            webDriver.findElement(By.cssSelector(".search-btn")).click();
        } catch (Exception e) {
            e.printStackTrace();
        }

执行这段代码,程序会自动打开一个 chrome 窗口,并且在首页的搜索窗口输入 Spring Boot 文本,并且自动点击搜索按钮,然后得到搜索结果页面。


webp

自动执行简书搜索



作者:阿土伯已经不是我
链接:https://www.jianshu.com/p/b5b48f1b9a9e


點(diǎn)擊查看更多內(nèi)容
TA 點(diǎn)贊

若覺得本文不錯(cuò),就分享一下吧!

評(píng)論

作者其他優(yōu)質(zhì)文章

正在加載中
  • 推薦
  • 評(píng)論
  • 收藏
  • 共同學(xué)習(xí),寫下你的評(píng)論
感謝您的支持,我會(huì)繼續(xù)努力的~
掃碼打賞,你說多少就多少
贊賞金額會(huì)直接到老師賬戶
支付方式
打開微信掃一掃,即可進(jìn)行掃碼打賞哦
今天注冊(cè)有機(jī)會(huì)得

100積分直接送

付費(fèi)專欄免費(fèi)學(xué)

大額優(yōu)惠券免費(fèi)領(lǐng)

立即參與 放棄機(jī)會(huì)
微信客服

購課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)

舉報(bào)

0/150
提交
取消