ChatGPT解决这个技术问题 Extra ChatGPT

使用 XPath,如何根据节点的文本内容和属性值来选择节点?

鉴于此 XML:

<DocText>
<WithQuads>
    <Page pageNumber="3">
        <Word>
            July
            <Quad>
                <P1 X="84" Y="711.25" />
                <P2 X="102.062" Y="711.25" />
                <P3 X="102.062" Y="723.658" />
                <P4 X="84.0" Y="723.658" />
            </Quad>
        </Word>
        <Word>
        </Word>
        <Word>
            30,
            <Quad>
                <P1 X="104.812" Y="711.25" />
                <P2 X="118.562" Y="711.25" />
                <P3 X="118.562" Y="723.658" />
                <P4 X="104.812" Y="723.658" />
            </Quad>
        </Word>
    </Page>
</WithQuads>

我想找到文本为“July”且 Quad/P1/X 属性大于 90 的节点。因此,在这种情况下,它不应返回任何匹配项。但是,如果我使用 GT (>) 或 LT (<),我会在第一个 Word 元素上得到匹配。如果我使用 eq (=),我将无法匹配。

所以:

//Word[text()='July' and //P1[@X < 90]]

将返回 true,也将返回

//Word[text()='July' and //P1[@X > 90]]

如何在 P1@X 属性上正确限制它?

此外,假设我有多个 Page 元素,用于不同的页码。我将如何另外限制上述搜索以查找具有 text()='July', P1@X < 90 和 Page@pageNumber=3 的节点?

对于这个特定的 XML,需要注意的重要一点可能对每个读者来说都不是显而易见的,因为这个 XML 使用混合内容模型,因此很难将元素与 XPath 匹配。我最近遇到了这个问题,并且对我的 XPath 生疏了,正要得出结论,直到我在下面找到 Michael Kay 的答案之前,无法匹配混合内容元素。我还没有找到任何其他关于混合内容和 XPath 的陷阱的参考资料。
你的问题回答了我的问题。在 XPath 中对字符串使用“单撇号”非常重要,而不是“双引号”。这真的非常重要。谢谢你的线索。

A
AnthonyWJones

一般来说,我会认为在 XPath 中使用不带前缀的 // 是一种难闻的气味。

尝试这个:-

/DocText/WithQuads/Page/Word[text()='July' and Quad/P1/@X > 90]

您的问题是您使用从文档开头开始的 //P1[@X < 90] 并开始搜索任何 P1,因此它总是正确的。同样,//P1[@X > 90] 始终为真。


我很惊讶这实际上是有效的,因为 Michael Kay 的回答中解决了空白问题。我在几个不同的 XPath 评估器中尝试了这个答案,但两者都不匹配。一旦我切换到带有“normalize-space”的谓词,我就进行了成功的匹配。
您可以使用 .//P1 在当前级别开始搜索,而不是指定固定路径
M
Mads Hansen

除了“//”问题之外,这个 XML 是对混合内容的一种非常奇怪的使用。如果任何子文本节点正好等于 July,谓词 text()='July' 将匹配该元素,在您的示例中这不是真的,因为周围有空格。根据源 XML 的确切定义,我会选择 [text()[normalize-space(.)='July'] and Quad/P1/@X > 90]


谢谢你,迈克尔。我想知道空格....我在粘贴到堆栈溢出之前格式化了示例,但是我的源 XML 都是“紧密的”。当我针对格式化版本运行 xpath 时,它确实无法正常工作。我会尝试使用 normalize-space(.)