Spring Boot:将JPA批量插入性能提高100倍


我遇到了一个问题,我想将数百万条记录插入数据库,而这需要从文件中导入。

因此,我对此进行了一些研究,并希望与您分享我发现的发现,这些发现帮助我将插入记录的吞吐量提高了近100倍。

最初,当我只是尝试使用spring JPA的saveAll方法进行批量插入时,每10,000条记录获得约185秒的性能。在执行以下更改之后,插入10,000条记录的性能仅需4.3秒。

是的,每10k记录4.3秒。

因此,要实现这一点,我必须更改插入数据的方式。

1.插入时更改记录数

最初插入时,我是通过调用saveAll方法直接推送列表中的所有10k记录。我将其更改为30的批处理大小。您也可以将批处理大小增加至60,但是它并不是插入记录所花费的时间的一半。请参阅下表。

为此,您需要设置hibernate属性batch_size=30。

spring.jpa.properties.hibernate.jdbc.batch_size=30

然后,我添加了以下连接字符串属性:

cachePrepStmts=true
useServerPrepStmts=true
rewriteBatchedStatements=true

e.g
jdbc:mysql://localhost:3306/BOOKS_DB?serverTimezone=UTC&cachePrepStmts=true&useServerPrepStmts=true&rewriteBatchedStatements=true

2.发送批处理记录

接下来,我更改了插入代码,以便saveAll按照我们也在属性文件中设置的方法,使方法的批处理大小为30。像这样的非常粗略的实现:

for (int i = 0; i < totalObjects; i = i + batchSize) {
    if( i+ batchSize > totalObjects){
        List<Book> books1 = books.subList(i, totalObjects - 1);
        repository.saveAll(books1);
        break;
    }
    List<Book> books1 = books.subList(i, i + batchSize);
    repository.saveAll(books1);
}

这减少了一点时间。它从185秒降低到153秒。大约提高了18%。

3.更改ID生成策略

这产生了重大影响。

最初,我在@GeneratedValue策略GenerationType.IDENTITY上使用注释,即在我的实体类上。

Hibernate使用此策略禁用了批量更新,因为它必须进行选择调用才能从数据库中获取ID以插入每一行。您可以在此处了解更多信息。

我将策略更改为SEQUENCE并提供了序列生成器。

public class Book {
    @Id
    @GeneratedValue(strategy = SEQUENCE, generator = "seqGen")
    @SequenceGenerator(name = "seqGen", sequenceName = "seq", initialValue = 1)
    private Long id;

由于Hibernate能够利用批量插入,这极大地改变了插入性能。

从以前的153秒的性能改进开始,插入10k记录的时间减少到只有9秒。性能提高了近95%。

注意:MySQL不支持创建序列。

为了解决这个问题,我创建了一个表,该表的序列名称只有一个名为的字段next_val。然后,我添加了具有初始值的单行。

对于上述序列,我创建了以下内容:

CREATE TABLE `seq` (
  `next_val` bigint(20) DEFAULT NULL
);
INSERT INTO `seq` (`next_val`) VALUES(1);

然后,Hibernate将下表用作序列生成器。

接下来,我进一步推动它以使用更大的批处理大小,并且我注意到将批处理大小加倍不会使时间按时增加一倍。插入时间仅逐渐减少。您可以在下面看到此内容:

随时间推移的效果截图。

对于我的情况,最佳的批处理大小为1,000,记录10K 大约需要4.39秒。


原文链接:http://codingdict.com