给定一个大表(10至1亿行),向其中添加一些额外的(未索引)列的最佳方法是什么?
答案会根据额外的列是密集的(通常不是null)还是稀疏的(通常是null)而改变吗?
在大多数情况下,NULL可以将具有值的列添加到行中,而无需更改数据页的其余部分。 NULL位图中 仅需设置一位。因此,是的,在大多数情况下,添加稀疏列要便宜得多。
NULL
为额外的列 创建一个 单独的1:1表 是否是一个好主意,在很大程度上取决于用例。它通常更昂贵。对于初学者,每行有28个字节的开销(堆元组标头加项目标识符),每个表有一些额外开销。与JOIN单行读取相比,查询中的行也要昂贵得多。并且您需要添加一个主/外键列以及一个索引。如果您在大多数查询中不需要其他列,则拆分可能是一个好主意。通常这是一个坏主意。
JOIN
在PostgreSQL中添加列很快速。 更新 列中的值可能会很昂贵,因为每个人都会UPDATE写入新行(由于MVCC模型)。因此,最好一次更新多个列。
UPDATE
手册中的数据库页面布局。