PHP:如何基于Javascript抓取网站内容
PHP: How to scrape content of the website based on Javascript
我正在尝试使用PHP simplehtmldom库获取此网站的内容。
http://www.immigration.govt.nz/migrant/stream/work/workingholiday/czechwhs.htm"
它不起作用,所以我尝试使用CURL:
function curl_get_file_contents($URL)
{
$c = curl_init();
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($c, CURLOPT_URL, $URL);
$contents = curl_exec($c);
curl_close($c);
if ($contents) return $contents;
else return FALSE;
}
但总是只得到一些JS代码和内容的回应:
<noscript>Please enable JavaScript to view the page content.</noscript>
有没有可能使用PHP来解决这个问题?在这种情况下,我必须使用PHP,所以我需要模拟基于JS的浏览器。
非常感谢你的建议。
在这种情况下,我必须使用PHP,所以我需要模拟基于JS的浏览器。
我向你推荐两种方法:
- 利用v8jsphp插件在抓取时处理网站的js。请参阅此处的用法示例
- 使用Selenium、iMacros或webRobots.io Chrome ext.模拟基于JS的浏览器。但在这种情况下,您不需要编写PHP脚本
相关文章:
- 如何从网站上抓取链接和图片
- Html抓取网站加载错误的J汤Java
- 如何获取网站所有页面的链接以进行数据抓取
- 我如何从一个无限滚动的网站抓取图像,其中api是隐藏的,我无法通过使用Inspect Element获得它->网络
- PHP:如何基于Javascript抓取网站内容
- 以类似于谷歌机器人的方式抓取网站html和javascript
- 如何抓取使用直接Web远程处理(DWR)返回操纵页面的Javascript的网站's的HTML
- 用Ruby抓取一个Javascript很重的网站
- Jsdom如何从网站抓取信息
- 从Playstation官方网站抓取奖杯数据
- CSS选择器代码,用于从棘手的网站抓取/解析数据
- 从ASP网站抓取JavaScript下载链接
- 如何使用jQuery从其他网站抓取内容
- R: 网站抓取器的想法
- 需要一个Javascript函数自动从网站抓取数据
- 使用jquery load和php从外部网站抓取信息
- 如何从外部网站抓取和显示图片
- 选项文章从许多不同的网站抓取
- 使用WebKit和Selenium工具进行Javascript网站抓取
- 从一个网站抓取纯文本并显示在另一个网站上