我对具有多个联接的大量大表(行和列)进行了查询,但是其中一个表有一些重复的数据行,这导致我的查询出现问题。由于这是来自另一个部门的只读实时供稿,因此我无法修复该数据,但是我正尝试防止由此产生的查询问题。
鉴于此,我需要将此废话数据添加为我的良好查询的左连接。数据集如下所示:
IDNo FirstName LastName ... ------------------------------------------- uqx bob smith abc john willis ABC john willis aBc john willis WTF jeff bridges sss bill doe ere sally abby wtf jeff bridges ...
(大约2打列,10万行)
我的第一个本能是执行一个与众不同的操作,给了我约8万行:
SELECT DISTINCT P.IDNo FROM people P
但是,当我尝试以下操作时,我得到了所有的行:
SELECT DISTINCT P.* FROM people P
或者
SELECT DISTINCT(P.IDNo) AS IDNoUnq ,P.FirstName ,P.LastName ...etc. FROM people P
然后我以为我会在所有列上执行FIRST()聚合函数,但是这也感觉不对。语法上我在这里做错了吗?
更新: 只是要注意:这些记录是重复的,基于上面列出的ID的非键/非索引字段。ID是一个文本字段,尽管具有相同的值,但与导致该问题的其他数据的大小写不同。
原来我做错了,我需要首先对重要列执行嵌套选择,然后进行独特的选择,以防止“唯一”数据的垃圾列破坏我的好数据。以下内容似乎已解决了该问题…但是稍后我将尝试使用完整的数据集。
SELECT DISTINCT P2.* FROM ( SELECT IDNo , FirstName , LastName FROM people P ) P2
以下是一些要求的播放数据:http : //sqlfiddle.com/#!3/050e0d/3
CREATE TABLE people ( [entry] int , [IDNo] varchar(3) , [FirstName] varchar(5) , [LastName] varchar(7) ); INSERT INTO people (entry,[IDNo], [FirstName], [LastName]) VALUES (1,'uqx', 'bob', 'smith'), (2,'abc', 'john', 'willis'), (3,'ABC', 'john', 'willis'), (4,'aBc', 'john', 'willis'), (5,'WTF', 'jeff', 'bridges'), (6,'Sss', 'bill', 'doe'), (7,'sSs', 'bill', 'doe'), (8,'ssS', 'bill', 'doe'), (9,'ere', 'sally', 'abby'), (10,'wtf', 'jeff', 'bridges') ;