我在带有IGNORE NULLS参数的Vertica的FIRST_VALUE()分析函数中看到意外的行为。它似乎不应该返回NULL。
问题出现在这个很小的表中:
drop table if exists temp; create table temp (time_ timestamp(6), name varchar(10)); insert into temp (time_) values ('2016-03-18 20:32:16.144'); insert into temp (time_, name) values ('2016-03-18 20:52:09.062', 'abc');
这是表的内容(从临时表中选择*):
time_ | name ------------------------+-------- 2016-03-18 20:32:16.144 | <null> 2016-03-18 20:52:09.062 | abc
这是我正在运行的查询:
select time_, first_value(name ignore nulls) over (order by time_) first_name from temp;
以下是此查询返回的结果:
time_ | first_name ------------------------+------------ 2016-03-18 20:32:16.144 | <null> 2016-03-18 20:52:09.062 | abc
这是我从此查询中期望(和期望)的结果:
time_ | first_name ------------------------+------------ 2016-03-18 20:32:16.144 | abc 2016-03-18 20:52:09.062 | abc
上面的查询是否有一个非常基本的语法错误?在Vertica Community Edition 7.1.1上会发生此问题。
该功能按预期方式工作。 over (order by time_)是的快捷方式,over (order by time_ range unbounded preceding)它是的快捷方式over (order by time_ range between unbounded preceding and current row),这意味着每一行都只能看到其前面的行,包括本身。 第一行仅显示自身,因此其范围内没有非NULL值。
over (order by time_)
over (order by time_ range unbounded preceding)
over (order by time_ range between unbounded preceding and current row)
如果要整个作用域的第一个非NULL值,则必须指定整个作用域:
first_value(name ignore nulls) over (order by time_ range between unbounded preceding and unbounded following) first_name
不,这绝对不是错误。
您可能一直在使用诸如sum(x) over (order by y)运行总计之类的语法,而RANGE UNBOUNDED PRECEDING的默认窗口对您来说似乎很自然。 由于尚未为FIRST_VALUE函数定义显式窗口,因此您一直在使用相同的默认窗口。
sum(x) over (order by y)
这是另一个测试用例:
ts val -- ---- 1 NULL 2 X 3 NULL 4 Y 5 NULL
您希望从以下功能中得到什么?
last_value (val) order (by ts)
last_value (val ignore nulls) order (by ts)