Python 去重csv文件中相同的重复行
2021-03-03 10:29
标签:lse bsp ati pytho 部分 重复 文件 选择 生成 通常会分为两种情况,一种是去除完全重复的行数据,另一种是去除某几列重复的行数据,就这两种情况可用下面的代码进行处理。 1. 去除完全重复的行数据 2. 去除某几列重复的行数据 subset: 列名,可选,默认为None keep: {‘first’, ‘last’, False}, 默认值 ‘first’ inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。 ( inplace=True表示直接在原来的DataFrame上删除重复项,而默认值False表示生成一个副本。) DataFrame.drop_duplicates(subset = None, keep = ‘first‘) DataFrame.drop_duplicates()中的参数完全实现。 其中subset这个参数默认‘None’是指选择所有列,即所有列的值都相同我才认为这两行是重复的, 也可以自定义为其中一部分列变量名,比如subset=[‘name‘,‘sex‘,‘age‘]。 keep参数中‘first‘和‘last’会根据index的前后产生不同的效果。参数False会去除所有重复行。 举个栗子: name sex age 0 coco female 7 1 lily female 7 2 joe male 15 3 coco female 7 DataFrame.drop_duplicates(subset = None, keep = ‘first‘),产生的结果如下: name sex age 0 coco female 7 1 lily female 7 2 joe male 15 若使用代码DataFrame.drop_duplicates(subset = None, keep = ‘last‘),结果如下: name sex age 1 lily female 7 2 joe male 15 3 coco female 7 发现不考虑index以及行的顺序,效果与参数first相同。 若使用代码DataFrame.drop_duplicates(subset = None, keep = False), 则把相同的行全部删除,结果如下: name sex age 1 lily female 7 2 joe male 15 所有重复的行都被删除,没有保留。 若使用代码DataFrame.drop_duplicates(subset = [‘sex‘ , ‘age‘] , keep = False), 结果如下: name sex age 2 joe male 15 Python 去重csv文件中相同的重复行 标签:lse bsp ati pytho 部分 重复 文件 选择 生成 原文地址:https://www.cnblogs.com/tonyxiao/p/14397664.html
下一篇:排序算法介绍和分类