我遇到了一个问题,我想将数百万条记录插入数据库,而这需要从文件中导入。
因此,我对此进行了一些研究,并希望与您分享我发现的发现,这些发现帮助我将插入记录的吞吐量提高了近100倍。
最初,当我只是尝试使用spring JPA的saveAll方法进行批量插入时,每10,000条记录获得约185秒的性能。在执行以下更改之后,插入10,000条记录的性能仅需4.3秒。
saveAll
是的,每10k记录4.3秒。
因此,要实现这一点,我必须更改插入数据的方式。
1.插入时更改记录数
最初插入时,我是通过调用saveAll方法直接推送列表中的所有10k记录。我将其更改为30的批处理大小。您也可以将批处理大小增加至60,但是它并不是插入记录所花费的时间的一半。请参阅下表。
为此,您需要设置hibernate属性batch_size=30。
spring.jpa.properties.hibernate.jdbc.batch_size=30
然后,我添加了以下连接字符串属性:
cachePrepStmts=true useServerPrepStmts=true rewriteBatchedStatements=true e.g jdbc:mysql://localhost:3306/BOOKS_DB?serverTimezone=UTC&cachePrepStmts=true&useServerPrepStmts=true&rewriteBatchedStatements=true
2.发送批处理记录
接下来,我更改了插入代码,以便saveAll按照我们也在属性文件中设置的方法,使方法的批处理大小为30。像这样的非常粗略的实现:
for (int i = 0; i < totalObjects; i = i + batchSize) { if( i+ batchSize > totalObjects){ List<Book> books1 = books.subList(i, totalObjects - 1); repository.saveAll(books1); break; } List<Book> books1 = books.subList(i, i + batchSize); repository.saveAll(books1); }
这减少了一点时间。它从185秒降低到153秒。大约提高了18%。
3.更改ID生成策略
这产生了重大影响。
最初,我在@GeneratedValue策略GenerationType.IDENTITY上使用注释,即在我的实体类上。
Hibernate使用此策略禁用了批量更新,因为它必须进行选择调用才能从数据库中获取ID以插入每一行。您可以在此处了解更多信息。
我将策略更改为SEQUENCE并提供了序列生成器。
public class Book { @Id @GeneratedValue(strategy = SEQUENCE, generator = "seqGen") @SequenceGenerator(name = "seqGen", sequenceName = "seq", initialValue = 1) private Long id;
由于Hibernate能够利用批量插入,这极大地改变了插入性能。
从以前的153秒的性能改进开始,插入10k记录的时间减少到只有9秒。性能提高了近95%。
注意:MySQL不支持创建序列。
为了解决这个问题,我创建了一个表,该表的序列名称只有一个名为的字段next_val。然后,我添加了具有初始值的单行。
对于上述序列,我创建了以下内容:
CREATE TABLE `seq` ( `next_val` bigint(20) DEFAULT NULL ); INSERT INTO `seq` (`next_val`) VALUES(1);
然后,Hibernate将下表用作序列生成器。
接下来,我进一步推动它以使用更大的批处理大小,并且我注意到将批处理大小加倍不会使时间按时增加一倍。插入时间仅逐渐减少。您可以在下面看到此内容:
随时间推移的效果截图。
对于我的情况,最佳的批处理大小为1,000,记录10K 大约需要4.39秒。
原文链接:http://codingdict.com