我有一个看起来像这样的熊猫数据框。
Column1 Column2 Column3 0 cat 1 C 1 dog 1 A 2 cat 1 B
我想确定cat和bat是重复的相同值,因此想删除一个记录并仅保留第一条记录。结果数据帧应该只有一个。
Column1 Column2 Column3 0 cat 1 C 1 dog 1 A
使用drop_duplicates具有subset与列的列表上检查重复和keep='first'保持第一重复的。
drop_duplicates
subset
keep='first'
如果dataframe是:
dataframe
df = pd.DataFrame({'Column1': ["'cat'", "'toy'", "'cat'"], 'Column2': ["'bat'", "'flower'", "'bat'"], 'Column3': ["'xyz'", "'abc'", "'lmn'"]}) print(df)
结果:
Column1 Column2 Column3 0 'cat' 'bat' 'xyz' 1 'toy' 'flower' 'abc' 2 'cat' 'bat' 'lmn'
然后:
result_df = df.drop_duplicates(subset=['Column1', 'Column2'], keep='first') print(result_df)
Column1 Column2 Column3 0 'cat' 'bat' 'xyz' 1 'toy' 'flower' 'abc'