小编典典

巨大的XML文件到文本文件

java

我有一个巨大的XML文件(15 GB)。我想将XML文件中的“文本”标签转换为单个页面。

样本XML文件:

<root>
    <page>
        <id> 1 </id>
        <text>
        .... 1000 to 50000 lines of text
        </text>
    </page>
    ... Like wise 2 Million `page` tags
</root>

我最初使用DOM解析器,但它使JAVA OUT OF
MEMORY(Valid)不足。现在,我已经使用STAX编写了JAVA代码。它运作良好,但是性能确实很慢。

这是我编写的代码:

 XMLEventReader xMLEventReader = XMLInputFactory.newInstance().createXMLEventReader(new FileInputStream(filePath));
    while(xMLEventReader.hasNext()){
      xmlEvent = xMLEventReader.nextEvent();

    switch(xmlEvent.getEventType()){
    case XMLStreamConstants.START_ELEMENT:
    if( element == "text")
      isText    = true;
    break;
    case XMLStreamConstants.CHARACTERS:
      chars = (Characters) xmlEvent;
      if(! (chars.isWhiteSpace() || chars.isIgnorableWhiteSpace()))
               if(isText)
              pageContent += chars.getData() + '\n';
      break;
    case XMLStreamConstants.END_ELEMENT:
      String elementEnd = (((EndElement) xmlEvent).getName()).getLocalPart();
      if( elementEnd == "text" )
      {
          createFile(id, pageContent);
          pageContent = "";
          isText = false;
      }
      break;
    }
}

这段代码运行良好。(忽略任何小错误)。根据我的理解,XMLStreamConstants.CHARACTERS会针对文本标签的每一行进行迭代。如果TEXT标记中包含10000行,则XMLStreamConstants.CHARACTERS迭代下一个10000行。有什么更好的方法可以提高性能。


阅读 224

收藏
2020-11-16

共1个答案

小编典典

什么pageContent
它似乎是一个String。立即进行的一个简单优化就是使用StringBuilder;它可以追加字符串,而不必像Strings
+=一样完全创建字符串的新副本(您也可以使用初始保留的容量来构造它,以减少内存的重新分配和复制,如果您对长度有所了解的话)。

连接Strings是一个很慢的操作,因为字符串在Java中是不可变的。每次调用a += b它时,必须分配一个新字符串,将a其复制b到该字符串中,然后复制到该字符串的末尾;使 每个
串联为O(n)wrt。两个字符串的总长度。追加单个字符也是如此。StringBuilder另一方面,具有与ArrayList追加时相同的性能特征。所以你有:

pageContent += chars.getData() + '\n';

改为更改pageContent为a StringBuilder并执行以下操作:

pageContent.append(chars.getData()).append('\n');

同样,如果您对这些字符串之一的长度的上限有猜想,可以将其传递给StringBuilder构造函数以分配初始容量,并减少必须进行内存重新分配和完整复制的机会。

顺便说一句,另一种选择是StringBuilder完全跳过并将数据直接写入输出文件(假定您首先不以某种方式处理数据)。如果执行此操作,并且性能受到I /
O的限制,则在其他物理磁盘上选择输出文件会有所帮助。

2020-11-16