如何从HTML页面中提取完整的DOM树

Howto extract a complete DOM Tree out of an HTML Page

本文关键字：DOM 提取 HTML 更新时间：2023-09-26

我必须比较两个网页并分析它们之间是否有任何差异。问题是:我需要包括每个DOM元素(也是那些通过javascript动态添加)，我需要包括所有应用的CSS设置(又名。计算风格)。

例如:如果有一个CSS :hover设置定义，我需要得到一个不同的结果，当我的鼠标在元素上，而不是在元素上。

也许我可以对页面的每个元素进行javascript迭代，询问每个css设置和每个子DOM元素。但是我认为这会花费很长时间，并且会破坏生成的DOM，使比较变得更加困难。

有什么想法?谢谢! !

对于Firefox, XmlSerializer是您的好朋友。

我会检查selenium。有一个命令selenium.getHtmlSource();您可以在javascript函数发生后调用它。快速浏览后，我发现了这个

http://davidlaing.com/2008/12/29/selenium-gotcha-seleniumgethtmlsource-returns-processed-html/

和

需要使用Java比较2个html文档&硒

我知道这不是你所希望的优雅的方式，但我希望这能让你开始