我可以't在javascript执行后下载页面.页面的最终版本

I can't download pages after javascript have executed. Final version of page.

本文关键字:下载 版本 执行 javascript 我可以      更新时间:2023-09-26

我正在抓取网站,但很少有网站因为javascript而无法正确显示。所以我需要scraper,它也可以处理javascript&iframes(类似浏览器),并为我提供页面的最终输出。

我想让这个东西在php上运行,但到目前为止,这似乎是不可能的,因为javascript在客户端执行,但php是服务器端进程。已尝试文件集内容&卷曲也是简单的测试。

所以我在c#中搜索解决方案。发现了硒元素,花了一整天的时间试图弄清楚如何设置一切。遗憾的是,selenium在javascript执行之前也会下载页面。

我越来越累,越来越绝望。有人能给我一些建议吗?

您正在寻找的是所谓的无头浏览器。蟒蛇有一个名字叫机械化:此处

此外,还有HtmlUnit。HtmlUnit是用Java创建的,但可以移植到C#(使用IKVM相当容易)。

以下是关于如何将其移植到C#的信息:如何在C#中使用HtmlUnit