如何从HTML页面中提取完整的DOM树

Howto extract a complete DOM Tree out of an HTML Page

本文关键字:DOM 提取 HTML      更新时间:2023-09-26

我必须比较两个网页并分析它们之间是否有任何差异。问题是:我需要包括每个DOM元素(也是那些通过javascript动态添加),我需要包括所有应用的CSS设置(又名。计算风格)。

例如:如果有一个CSS :hover设置定义,我需要得到一个不同的结果,当我的鼠标在元素上,而不是在元素上。

也许我可以对页面的每个元素进行javascript迭代,询问每个css设置和每个子DOM元素。但是我认为这会花费很长时间,并且会破坏生成的DOM,使比较变得更加困难。

有什么想法?谢谢! !

对于Firefox, XmlSerializer是您的好朋友。

我会检查selenium。有一个命令selenium.getHtmlSource();您可以在javascript函数发生后调用它。快速浏览后,我发现了这个

http://davidlaing.com/2008/12/29/selenium-gotcha-seleniumgethtmlsource-returns-processed-html/

需要使用Java比较2个html文档&硒

我知道这不是你所希望的优雅的方式,但我希望这能让你开始