抓取/抓取使用 JavaScript 和 Perl 的网页时遇到问题
Trouble crawling/scraping webpages that use javascript with Perl
我一直在自学如何抓取和抓取不同的网站。我对抓取/抓取有很好的感觉,但仅限于主要使用 HTML 的网站。现在我正在使用这个链接 https://intel.taleo.net/careersection/10000/jobsearch.ftl
我正在使用Perl(机械化(来执行以下任务:我想编写一个爬虫/抓取器来单击左侧的"美国"复选框(过滤结果(,然后收集所有工作的标题。但是,我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗?(示例代码会有所帮助(。
你需要
分析页面,看看这个单选按钮是如何无懈可击的,以便使用WWW-Mechanize来模拟Javascript代码(如果有JavaScript代码(。
同样在Perl上,您可以在一些开箱即用的抓取模块下面使用更简单的选项来处理JavaScript:
1.WWW-Mechanize-Firefox which automate FireFox
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium
4.WWW::HtmlUnit which based on Java HtmlUnit and can handle javascript
相关文章:
- 使用htmlunit抓取动态网页
- 使用 HTML5<输入>字段抓取动态生成的网页
- 自动点击按钮和网页抓取
- Python/R中的网页抓取javascript
- 使用Python使用Javascript进行网页抓取
- Python 网页抓取 JavaScript 生成的内容
- 幻影中的变量事务,抓取网页
- 如何在单击按钮时在核心PHP中抓取网页特定区域的屏幕截图
- Python Selenium,抓取网页JavaScript表
- 等待Javascript网页抓取功能完成,然后再运行下一页
- 用幻影和rvest抓取网页
- 保存使用 casperjs 抓取网页时获得的表数据
- 在 c# asp.net 中执行 JavaScript 后抓取网页
- 如何使用jQuery和XPath抓取网页
- 抓取网页并检索javascript变量
- 如何点击“更多”按钮,当Tripadvisor使用selenium抓取网页时
- 无法在Google Apps Script日志中看到完整的抓取网页
- 用python抓取网页以获取onclick值
- 抓取网页没有进行ajax调用,但数据不在DOM中
- 如何在使用BeautifulSoup抓取网页时提取javascript中的内容