抓取/抓取使用 JavaScript 和 Perl 的网页时遇到问题

Trouble crawling/scraping webpages that use javascript with Perl

本文关键字：抓取网页遇到问题 JavaScript Perl 更新时间：2023-09-26

我一直在自学如何抓取和抓取不同的网站。我对抓取/抓取有很好的感觉，但仅限于主要使用 HTML 的网站。现在我正在使用这个链接 https://intel.taleo.net/careersection/10000/jobsearch.ftl

我正在使用Perl(机械化(来执行以下任务：我想编写一个爬虫/抓取器来单击左侧的"美国"复选框(过滤结果(，然后收集所有工作的标题。但是，我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗？(示例代码会有所帮助(。

你需要

分析页面，看看这个单选按钮是如何无懈可击的，以便使用WWW-Mechanize来模拟Javascript代码(如果有JavaScript代码(。

同样在Perl上，您可以在一些开箱即用的抓取模块下面使用更简单的选项来处理JavaScript：

1.WWW-Mechanize-Firefox which automate FireFox 
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium 
4.WWW::HtmlUnit  which based on Java HtmlUnit and can handle javascript