我有一个巨大的XML文件(15 GB)。我想将XML文件中的“文本”标签转换为单个页面。
样本XML文件:
<root> <page> <id> 1 </id> <text> .... 1000 to 50000 lines of text </text> </page> ... Like wise 2 Million `page` tags </root>
我最初使用DOM解析器,但它使JAVA OUT OF MEMORY(Valid)不足。现在,我已经使用STAX编写了JAVA代码。它运作良好,但是性能确实很慢。
这是我编写的代码:
XMLEventReader xMLEventReader = XMLInputFactory.newInstance().createXMLEventReader(new FileInputStream(filePath)); while(xMLEventReader.hasNext()){ xmlEvent = xMLEventReader.nextEvent(); switch(xmlEvent.getEventType()){ case XMLStreamConstants.START_ELEMENT: if( element == "text") isText = true; break; case XMLStreamConstants.CHARACTERS: chars = (Characters) xmlEvent; if(! (chars.isWhiteSpace() || chars.isIgnorableWhiteSpace())) if(isText) pageContent += chars.getData() + '\n'; break; case XMLStreamConstants.END_ELEMENT: String elementEnd = (((EndElement) xmlEvent).getName()).getLocalPart(); if( elementEnd == "text" ) { createFile(id, pageContent); pageContent = ""; isText = false; } break; } }
这段代码运行良好。(忽略任何小错误)。根据我的理解,XMLStreamConstants.CHARACTERS会针对文本标签的每一行进行迭代。如果TEXT标记中包含10000行,则XMLStreamConstants.CHARACTERS迭代下一个10000行。有什么更好的方法可以提高性能。
什么pageContent啊 它似乎是一个String。立即进行的一个简单优化就是使用StringBuilder;它可以追加字符串,而不必像Strings +=一样完全创建字符串的新副本(您也可以使用初始保留的容量来构造它,以减少内存的重新分配和复制,如果您对长度有所了解的话)。
pageContent
String
StringBuilder
+=
连接Strings是一个很慢的操作,因为字符串在Java中是不可变的。每次调用a += b它时,必须分配一个新字符串,将a其复制b到该字符串中,然后复制到该字符串的末尾;使 每个 串联为O(n)wrt。两个字符串的总长度。追加单个字符也是如此。StringBuilder另一方面,具有与ArrayList追加时相同的性能特征。所以你有:
a += b
a
b
ArrayList
pageContent += chars.getData() + '\n';
改为更改pageContent为a StringBuilder并执行以下操作:
pageContent.append(chars.getData()).append('\n');
同样,如果您对这些字符串之一的长度的上限有猜想,可以将其传递给StringBuilder构造函数以分配初始容量,并减少必须进行内存重新分配和完整复制的机会。
顺便说一句,另一种选择是StringBuilder完全跳过并将数据直接写入输出文件(假定您首先不以某种方式处理数据)。如果执行此操作,并且性能受到I / O的限制,则在其他物理磁盘上选择输出文件会有所帮助。