从网页中提取内容并使用Java进行比较
Extracting contents from a webpage and comparing using Java
我正在开发一个Java项目,其中我有一个子模块,需要从网页中提取内容[文本、图像、颜色],并将其与另一个网页进行比较。我计划使用WinHTTrack软件在本地下载网页,但问题是它没有将其保存为HTML。如何使用WinHTTrack等软件下载具有HTML扩展的网页[或仅通过ctrl+s保存网页即可。?]。此外,我计划在本地下载网页后,使用HTML Parsers提取3种内容类型[文本、图像、颜色]。那么应该使用哪个解析器呢。?
WEll我使用Htrack,它也会获取html文件。您可能将winhttrack项目文件作为唯一的输出文件,但如果您在项目目录中检查,则会发现有html文件(以及图像等)。我建议使用-http://htmlparser.sourceforge.net/.它是一个java库,由于您的项目是java项目,因此使用它应该相当容易。您还可以使用org.htmlparser.parseraplications.SiteCapturer在本地保存整个网站(并指定是否也应该捕获图像等资源)。希望能有所帮助。
相关文章:
- 将jsp文件下拉列表中的选定项分配给一个java变量(比如String selection)
- 比较从函数和生成的日期对象
- 借助asp.net验证或java脚本对多个文本进行验证
- java.net和javascript之间正则表达式的差异
- 如何在Java Script中比较二维数组和一维数组,并将常见数据存储在另一个数组中
- 如何在 Java 脚本中比较两个不同的图像
- 我可以将来自java的哈希代码与来自javascript的哈希代码进行比较吗?
- 如何比较从 JSP 捕获的 java 脚本中的 2 个日期
- 通过java比较颜色以查看是互补的、拆分互补的、三元的还是类似的
- 从网页中提取内容并使用Java进行比较
- Java脚本时间与给定时间的比较
- 使用java脚本比较三个变量
- 日期的java脚本比较;始终显示消息,因为当前日期是较早的日期
- 将图像的Javascript md5哈希与Java进行比较
- 在这种情况下,java脚本中对象方法的比较返回false
- 如何在java脚本中比较单行中的两个字符串
- 比较变量和数组元素(java脚本)
- 将Ascii转换成十六进制在Java脚本中进行比较
- 比较java脚本中的数组
- 比较文本文件中的值与输入的值,使用Java进行登录