小编典典

SAX解析器跳过一些不被解析的元素?

java

所以,我有一个像

<root>
  <transaction ts="1">
    <abc><def></def></abc>
  </transaction>
  <transaction ts="2">
    <abc><def></def></abc>
  </transaction>
</root>

所以,我有一个条件说如果ts =“ 2”然后做某事…现在的问题是,当它找到ts =“ 1”时,它仍然扫描标签
,然后到达

当条件与解析中断不匹配并直接寻找下一个事务标记时,是否有办法?


阅读 459

收藏
2020-11-26

共1个答案

小编典典

SAX解析器必须扫描所有子树(例如“ ”)以知道下一个元素的起始位置。无法解决它,这也是为什么您不能为单个XML文档并行化XML Parser的原因。

在您的情况下,我可以想到的仅有两种调优方法:

1)如果您要解析许多XML文档,则可以在其自己的线程中为每个文档运行一个解析器。这样至少可以使整体工作并行化,并利用所有可用的CPU和Core。

2)如果您只需要阅读特定条件(例如您提到的),则可以在达到该条件后立即跳过解析。如果跳过解析器会有所帮助,则方法是抛出Exception。

startElement在中的实现ContentHandler将如下所示:

public void startElement(String uri, String localName, String qName, Attributes atts) throws SAXException {
    if(atts == null) return;
        if(localName.equals("transaction") && "2".equals(atts.getValue("ts"))) {
            // TODO: Whatever should happen when condition is reached
            throw new SAXException("Condition reached. Just skip rest of parsing");
        }
    }
2020-11-26