使用Selenium解析页面(部分由JavaScript生成)
Parse a page (partly generated by JavaScript) by using Selenium
我遇到了一个问题:我想解析一个页面(例如这个页面)来收集有关所提供应用程序的信息,并将这些信息保存到数据库中。
此外,我正在使用crawler4j来访问每个(可用的)页面。但问题是,正如我所看到的,crawler4j需要在源代码中遵循链接。
但在这种情况下,href是由一些JavaScript代码生成的,因此爬网程序4j不会获得要访问的新链接/要爬网的页面。
所以我的想法是使用Selenium,这样我就可以像在Chrome或Firefox这样的真正浏览器中一样检查几个元素(我对此很陌生)。
但是,老实说,我不知道如何获得"生成的"HTML而不是源代码。
有人能帮我吗?
要检查元素,您不需要Selenium IDE,只需使用带有Firebug扩展的Firefox即可。此外,使用附加的开发工具,您可以查看页面的源代码以及生成的源代码(这主要用于PHP)。
Crawler4J无法处理这样的javascript。它最好留给另一个更高级的爬网库。点击此处查看此回复:
使用java 的Web爬网(启用Ajax/JavaScript的页面)
相关文章:
- Javascript生成的表单未提交
- 通过单击表单中的按钮,在代码生成中使用javascript生成字母数字代码
- 使用Javascript生成包含JSP的HTML
- JavaScript生成html格式的密码
- PHP 包括 Javascript 生成的文件名
- 有没有办法用客户端的javascript生成一个AmazonEC2实例
- 在选择更改时更改从外部javascript生成的flash播放器
- 用javascript生成json数组
- 将javascript生成的文件上传到服务器
- jQuery选择JavaScript生成的元素
- target=“_空白“;使用自定义javascript生成的html页面
- 在 Javascript 生成的列表中,如何将自定义属性添加到 标记
- 在动态表单的可见部分中,如何使用javascript生成所需的某些字段
- 如何从Java和Javascript生成相同的cookie(不加双引号)
- 如何在使用javascript生成的anchor标记上添加onclick事件
- Javascript - 当使用 Javascript 生成 HTML 元素时,Magnific Popup 不起作用
- 如何在我的javascript生成列表中的
- 部分中放置更多超链接
- 如何在 HREF 中回显 JavaScript 生成的值
- JavaScript生成一个可变长度的数字
- 如何处理:当图像被点击时,使用Javascript生成的相同图像