撒克逊错误 - 如何忽略/跳过它

SAXON Error- How to ignore/skip it?

本文关键字:何忽略 错误 撒克逊      更新时间:2023-09-26

使用撒克逊HE(网络版(wget和batch,我正在尝试转换通过wget下载的页面。

每当在页面上调用命令时,我都会收到以下错误:

SXXP0003:XML 分析器报告的错误:实体名称必须 紧跟实体引用中的"&"。

它与一个非常尴尬的javescript行中的一行有关。但是,我无法控制要转换的页面,因此我无法对这一侧的此错误执行任何操作。

有没有办法告诉撒克逊跳过这样的错误?我不介意它是否会删除整个标签,因为我不想从 javascript 元素中读取任何数据。

提前非常感谢!

正如错误消息所述,这是 Saxon 用于解析您提供给它的文档标记的基础 XML 解析器报告的错误。如果这不是格式正确的XML,那么任何XML解析器都会拒绝它。Saxon 为您提供了使用 HTML 标签汤解析器(如 TagSoup(的选择,如果您将 TagSoup http://home.ccil.org/~cowan/tagsoup/中的 TagSoup 放在类路径上,则-x:org.ccil.cowan.tagsoup.Parser 来调用它。