用于提取 HTML 标记的 XPaPath

xpath for extracting html tags

本文关键字:XPaPath 提取 HTML 用于      更新时间:2023-09-26

我想从这种形式的给定 html 中提取城市和州

<table class="wikitable sortable">
<tr>
<th>Name of City/Town</th>
<th>Name of State</th>
<th>Classification</th>
<th>Population (2001)</th>
<th>Population (2011)</th>
</tr>
<tr>
<td><a href="/wiki/Abhayapuri" title="Abhayapuri">**Abhayapuri**</a></td>
<td><a href="/wiki/Assam" title="Assam">**Assam**</a></td>
<td>TC</td>
<td style="text-align:right;">14,673</td>
<td style="text-align:right;"></td>
</tr>

我试过这样做 $x('//table/tbody/tr/td/a')

但它返回了我不需要的结果(即包含智利节点、子节点、类列表、innerHTML 和其他元数据的列表)。不知道我做错了什么

这个 XPath:

$x('//table/tbody/tr/td/a/text()')

会让你得到城市和州:

["**Abhayapuri**", "**Assam**"]

这个XPath将带你去城市:

$x('//table/tbody/tr/td[1]/a/text()')
["**Abhayapuri**"]

这个 XPath 会给你状态:

$x('//table/tbody/tr/td[2]/a/text()')
["**Assam**"]