JSOUP:从HTML文档中解析Javascript字段

JSOUP: Parsing Javascript fields from an HTML document?

本文关键字:Javascript 字段 文档 HTML JSOUP      更新时间:2023-09-26

我对JSOUP相当陌生,使用Element.select解析标签或id值时没有遇到任何问题。我遇到的问题是如何在页面中筛选 javascript 代码。在这里我加载文档:

Document doc = Jsoup.connect(pageUrl)
                .userAgent(Agent)
                .timeout(5000)
                .get();

我尝试提取的 javascript 字段值如下:

arrayGPSLocation["0"]    = "-19473982376,6848295867";
arrayGPSLocation["1"]    = "-19473982376,6848296245";

由于这些数组值不在标准代码标记中<>JSOUP是执行此操作的合适方法吗?我喜欢JSOUP的API。唯一的其他方法是将字符串例程组合在一起......即:

int start = pageBuffer.indexOf("arrayGPSLocation['" + counter + '"]");
int end = pageBuffer.indexOf(";");
String result = pageBuffer.subString(start,end);

此伪代码示例在分析大页面时会出现严重的性能问题。有谁知道如何使用 JSOUP 完成此操作,或者我应该编写自己的刮刀?

你所能做的就是选择包含javascript代码的元素,将其值获取为字符串并处理这个字符串。就像你举个例子一样。