Python/Numpy & Pandas
[Pandas] 데이터 전처리 / 중복 데이터 확인 및 제거 (duplicated, drop_duplicates)
all_sound
2022. 10. 2. 18:44
중복 데이터 처리
▶ 중복 데이터 확인
- duplicated() : 동일한 관측값이 중복되는지 여부를 확인
- 전에 나온 행들과 비교하여 중복되는 행이면 True, 처음 나오는 행은 False 반환
df
#데이터 프레임 전체행에서 중복값 찾기
df.duplicated()
# c2열에서 중복값 찾기
df.c2.duplicated()
▶ 중복 데이터 제거
- drop_duplicates() : 중복된 행을 제거하고 고유한 관측값을 가진 행들만 보존
#데이터 프래임에서 중복 행을 제거
df.drop_duplicates()
# c2,c3 열을 기준으로 중복 행을 제거(subset 옵션)
df.drop_duplicates(subset=['c2', 'c3'])