在Java中从某个URL调用脚本

Calling a script from a certain URL in Java?

本文关键字:URL 调用 脚本 Java      更新时间:2023-09-26

我使用Java从一个随机网站解析HTML,假设它是http://google.com为了方便。解析HTML数据后,我想提取一些数据,并将其显示在显示器上。之后,用户将输入一个搜索词,并按下一个按钮。此按钮将在"搜索"按钮后面执行该脚本。我想在几个网站上做这件事,所以给我一个只适用于谷歌的方法对我没有多大帮助。

编辑:

啊,我明白了。您正在询问如何使用代码调用远程网页?有几种方法可以做到这一点:

  • 您可以使用Java URL类"手动"执行此操作
  • 您可以使用伟大的ApacheHTTPClient库
  • 另一种可能性是像HTMLUnit这样的工具

网站的抓取是一个难题,我很少发现一个抓取器可以处理多个网站。通用刮刀的想法是不可能的。

我建议编写一个类似于HandleSearchPage的Java interface。它将包含一个废弃页面并提取部分数据的方法,以及另一个提交搜索的方法。

然后你可以为谷歌、雅虎等实现你的scraper。至于如何解析html和驱动网页,还有很多关于这个特定主题的其他问题/答案。

  • Java中抓取页面的一些帮助
  • 尝试使用Java解析HTML目录列表中的链接

祝你好运。

对不起,我不太确定quesiton是什么。-如果你想从java中获取一个网页,然后去掉html数据,那么这是一项非常容易完成的任务-或者使用类似nutch的东西。如果你想在java中的一个页面中运行javascript,那么你需要看看像rhino这样的东西。

nutch将遍历页面,并更新数据库(通常是solr),然后可以对数据库进行搜索并显示结果。