python查找/删除重复记录

时间 2020-08-12 标签 python 查找删除重复记录

1：查找重复项html

df.duplicated()返回的是一个布尔型Series（返回值是True或者False），表示各行是不是重复行，能够在（）内添加列名来查找某一列是否有重复值，第一个出现的值为False，后边再出现相同的行为True
彻底重复的项目 df.duplicated() / 某一列重复df.duplicated('列名')code

aa = [[1,2,3],[4,5,6],[1,2,3],[1,2,1]]
index = [0,1,2,3]
columns=['a','b','c']
df = pd.DataFrame(data=aa, index=index, columns=columns)  htm

	a	b	c
0	1	2	3
1	4	5	6
2	1	2	3
3	1	2	1

df.duplicated()it

0    False
1    False
2     True
3    False
dtype: bool

df.duplicated('a') table

0    False
1    False
2     True
3     True
dtype: bool

查看重复的数量，返回结果为True都是前面出现过的
volume_summery[volume_summery.duplicated('order_item_id')==True].shapeclass

2：删除重复项项目

df.drop_duplicates（）删除彻底重复的项，返回不重复的项目tab

	a	b	c
0	1	2	3
1	4	5	6
3	1	2	1

df.drop_duplicates(['列名']) 以该列为标准，删除重复的项目，返回不重复的项目co

	a	b	c
0	1	2	3
1	4	5	6