在HtmlUnit HtmlElement中访问原始HTML

Getting access to the original HTML in HtmlUnit HtmlElement?

本文关键字:原始 HTML 访问 HtmlUnit HtmlElement      更新时间:2023-09-26

我使用HtmlUnit从一个网站读取内容。

一切都很完美,我正在阅读的内容:

  HtmlDivision div = page.getHtmlElementById("my-id");

即使div.asText()返回预期的字符串对象,但我想获得<div>...</div>内部的原始HTML作为字符串对象。我该怎么做呢?

我不愿意将HtlmUnit更改为其他东西,因为网站期望客户端运行JavaScript,而HtmlUnit似乎能够做所需的事情。

如果原始HTML是指HTMLUnit已经格式化的HTML代码,那么您可以使用div.asXml()。现在,如果您真的在寻找服务器发送给您的原始HTML,那么您将找不到这样做的方法(至少到v2.14)。

现在,作为一种解决方法,您可以获得服务器发送给您的页面的整个文本,并给出以下答案:如何在HTMLUnit中获得页面的纯原始HTML,同时忽略JavaScript和CSS?

作为旁注,您可能应该仔细考虑为什么需要HTML代码。HTMLUnit将允许您从代码中获取数据,因此不需要存储源代码,只需要存储源代码中包含的信息。我的两分钱。