从网页中提取内容并使用Java进行比较

Extracting contents from a webpage and comparing using Java

本文关键字:Java 比较 网页 提取      更新时间:2023-09-26

我正在开发一个Java项目,其中我有一个子模块,需要从网页中提取内容[文本、图像、颜色],并将其与另一个网页进行比较。我计划使用WinHTTrack软件在本地下载网页,但问题是它没有将其保存为HTML。如何使用WinHTTrack等软件下载具有HTML扩展的网页[或仅通过ctrl+s保存网页即可。?]。此外,我计划在本地下载网页后,使用HTML Parsers提取3种内容类型[文本、图像、颜色]。那么应该使用哪个解析器呢。?

WEll我使用Htrack,它也会获取html文件。您可能将winhttrack项目文件作为唯一的输出文件,但如果您在项目目录中检查,则会发现有html文件(以及图像等)。我建议使用-http://htmlparser.sourceforge.net/.它是一个java库,由于您的项目是java项目,因此使用它应该相当容易。您还可以使用org.htmlparser.parseraplications.SiteCapturer在本地保存整个网站(并指定是否也应该捕获图像等资源)。希望能有所帮助。