使用 XPath，如何根据节点的文本内容和属性值来选择节点？

xml xpath xquery

鉴于此 XML：

<DocText>
<WithQuads>
    <Page pageNumber="3">
        <Word>
            July
            <Quad>
                <P1 X="84" Y="711.25" />
                <P2 X="102.062" Y="711.25" />
                <P3 X="102.062" Y="723.658" />
                <P4 X="84.0" Y="723.658" />
            </Quad>
        </Word>
        <Word>
        </Word>
        <Word>
            30,
            <Quad>
                <P1 X="104.812" Y="711.25" />
                <P2 X="118.562" Y="711.25" />
                <P3 X="118.562" Y="723.658" />
                <P4 X="104.812" Y="723.658" />
            </Quad>
        </Word>
    </Page>
</WithQuads>

我想找到文本为“July”且 Quad/P1/X 属性大于 90 的节点。因此，在这种情况下，它不应返回任何匹配项。但是，如果我使用 GT (>) 或 LT (<)，我会在第一个 Word 元素上得到匹配。如果我使用 eq (=)，我将无法匹配。

所以：

//Word[text()='July' and //P1[@X < 90]]

将返回 true，也将返回

//Word[text()='July' and //P1[@X > 90]]

如何在 P1@X 属性上正确限制它？

此外，假设我有多个 Page 元素，用于不同的页码。我将如何另外限制上述搜索以查找具有 text()='July', P1@X < 90 和 Page@pageNumber=3 的节点？

对于这个特定的 XML，需要注意的重要一点可能对每个读者来说都不是显而易见的，因为这个 XML 使用混合内容模型，因此很难将元素与 XPath 匹配。我最近遇到了这个问题，并且对我的 XPath 生疏了，正要得出结论，直到我在下面找到 Michael Kay 的答案之前，无法匹配混合内容元素。我还没有找到任何其他关于混合内容和 XPath 的陷阱的参考资料。

你的问题回答了我的问题。在 XPath 中对字符串使用“单撇号”非常重要，而不是“双引号”。这真的非常重要。谢谢你的线索。

AnthonyWJones

一般来说，我会认为在 XPath 中使用不带前缀的 // 是一种难闻的气味。

尝试这个：-

/DocText/WithQuads/Page/Word[text()='July' and Quad/P1/@X > 90]

您的问题是您使用从文档开头开始的 //P1[@X < 90] 并开始搜索任何 P1，因此它总是正确的。同样，//P1[@X > 90] 始终为真。

我很惊讶这实际上是有效的，因为 Michael Kay 的回答中解决了空白问题。我在几个不同的 XPath 评估器中尝试了这个答案，但两者都不匹配。一旦我切换到带有“normalize-space”的谓词，我就进行了成功的匹配。

您可以使用 .//P1 在当前级别开始搜索，而不是指定固定路径

Mads Hansen

除了“//”问题之外，这个 XML 是对混合内容的一种非常奇怪的使用。如果任何子文本节点正好等于 July，谓词 text()='July' 将匹配该元素，在您的示例中这不是真的，因为周围有空格。根据源 XML 的确切定义，我会选择 [text()[normalize-space(.)='July'] and Quad/P1/@X > 90]

谢谢你，迈克尔。我想知道空格....我在粘贴到堆栈溢出之前格式化了示例，但是我的源 XML 都是“紧密的”。当我针对格式化版本运行 xpath 时，它确实无法正常工作。我会尝试使用 normalize-space(.)

使用 XPath，如何根据节点的文本内容和属性值来选择节点？

关注公众号

想领先一步获取最新的外包任务吗？

相似问题

平台

支持

联系我们