提取网页的源代码

extracting source code of a webpage

本文关键字:源代码 网页 提取      更新时间:2023-09-26

嗨,我想提取一个外部网站(不在我的域上)的源代码,然后解析它,使其成为一个应用程序。我知道如何使用JAVA的Jsoup库,但我找不到任何关于如何使用Javascript、Jquery或任何客户端web编程语言的链接。有人能告诉我该用哪个图书馆吗。基本上,我想获得网页的HTML源代码,然后对其进行解析,以提取某些标签下的某些链接。

由于同源策略,您将无法单独使用JavaScript执行此操作。这将阻止您从其他域读取信息。

您需要做的是使用服务器端代理来获取信息。Ajax调用可以调用代理来获取页面。