抓取/抓取使用 JavaScript 和 Perl 的网页时遇到问题

Trouble crawling/scraping webpages that use javascript with Perl

本文关键字:抓取 网页 遇到 问题 JavaScript Perl      更新时间:2023-09-26

我一直在自学如何抓取和抓取不同的网站。我对抓取/抓取有很好的感觉,但仅限于主要使用 HTML 的网站。现在我正在使用这个链接 https://intel.taleo.net/careersection/10000/jobsearch.ftl

我正在使用Perl(机械化(来执行以下任务:我想编写一个爬虫/抓取器来单击左侧的"美国"复选框(过滤结果(,然后收集所有工作的标题。但是,我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗?(示例代码会有所帮助(。

你需要

分析页面,看看这个单选按钮是如何无懈可击的,以便使用WWW-Mechanize来模拟Javascript代码(如果有JavaScript代码(。

同样在Perl上,您可以在一些开箱即用的抓取模块下面使用更简单的选项来处理JavaScript:

1.WWW-Mechanize-Firefox which automate FireFox 
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium 
4.WWW::HtmlUnit  which based on Java HtmlUnit and can handle javascript