从网页中提取内容并使用Java进行比较

Extracting contents from a webpage and comparing using Java

本文关键字：Java 比较网页提取更新时间：2023-09-26

我正在开发一个Java项目，其中我有一个子模块，需要从网页中提取内容[文本、图像、颜色]，并将其与另一个网页进行比较。我计划使用WinHTTrack软件在本地下载网页，但问题是它没有将其保存为HTML。如何使用WinHTTrack等软件下载具有HTML扩展的网页[或仅通过ctrl+s保存网页即可。？]。此外，我计划在本地下载网页后，使用HTML Parsers提取3种内容类型[文本、图像、颜色]。那么应该使用哪个解析器呢。？

WEll我使用Htrack，它也会获取html文件。您可能将winhttrack项目文件作为唯一的输出文件，但如果您在项目目录中检查，则会发现有html文件（以及图像等）。我建议使用-http://htmlparser.sourceforge.net/.它是一个java库，由于您的项目是java项目，因此使用它应该相当容易。您还可以使用org.htmlparser.parseraplications.SiteCapturer在本地保存整个网站（并指定是否也应该捕获图像等资源）。希望能有所帮助。