小编典典

通过“ElementTree”在 Python 中使用命名空间解析 XML

all

我有以下要使用 Python 解析的 XML ElementTree

<rdf:RDF xml:base="http://dbpedia.org/ontology/"
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:owl="http://www.w3.org/2002/07/owl#"
    xmlns:xsd="http://www.w3.org/2001/XMLSchema#"
    xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
    xmlns="http://dbpedia.org/ontology/">

    <owl:Class rdf:about="http://dbpedia.org/ontology/BasketballLeague">
        <rdfs:label xml:lang="en">basketball league</rdfs:label>
        <rdfs:comment xml:lang="en">
          a group of sports teams that compete against each other
          in Basketball
        </rdfs:comment>
    </owl:Class>

</rdf:RDF>

我想找到所有owl:Class标签,然后提取其中所有rdfs:label实例的值。我正在使用以下代码:

tree = ET.parse("filename")
root = tree.getroot()
root.findall('owl:Class')

由于命名空间,我收到以下错误。

SyntaxError: prefix 'owl' not found in prefix map

我尝试阅读http://effbot.org/zone/element-
namespaces.htm上的文档,但由于上述 XML
有多个嵌套命名空间,我仍然无法正常工作。

请让我知道如何更改代码以查找所有owl:Class标签。


阅读 113

收藏
2022-08-03

共1个答案

小编典典

你需要给.find(),findall()iterfind()方法一个明确的命名空间字典:

namespaces = {'owl': 'http://www.w3.org/2002/07/owl#'} # add more as needed

root.findall('owl:Class', namespaces)

前缀 只会 在您传入的参数中查找namespaces。这意味着您可以使用任何您喜欢的命名空间前缀;API
将部分拆分出来owl:,在字典中查找相应的命名空间 URL namespaces,然后将搜索更改为查找 XPath
表达式{http://www.w3.org/2002/07/owl}Class。当然,您也可以自己使用相同的语法:

root.findall('{http://www.w3.org/2002/07/owl#}Class')

另请参阅 ElementTree 文档的 Parsing XML with Namespaces
部分

如果您可以切换到lxml图书馆,那就更好了;.nsmap该库支持相同的 ElementTree
API,但在元素的属性中为您收集命名空间,并且通常具有出色的命名空间支持。

2022-08-03