조금씩 꾸준히 완성을 향해

[Pandas] 데이터 전처리 / 중복 데이터 확인 및 제거 (duplicated, drop_duplicates) 본문

Python/Numpy & Pandas

[Pandas] 데이터 전처리 / 중복 데이터 확인 및 제거 (duplicated, drop_duplicates)

all_sound 2022. 10. 2. 18:44

중복 데이터 처리


중복 데이터 확인
 
  • duplicated()  : 동일한 관측값이 중복되는지 여부를 확인
  • 전에 나온 행들과 비교하여 중복되는 행이면 True, 처음 나오는 행은 False 반환
df

#데이터 프레임 전체행에서 중복값 찾기
df.duplicated()

# c2열에서 중복값 찾기
df.c2.duplicated()

 

 

 

 중복 데이터 제거

 

  •  drop_duplicates() : 중복된 행을 제거하고 고유한 관측값을 가진 행들만 보존 
#데이터 프래임에서 중복 행을 제거
df.drop_duplicates()

# c2,c3 열을 기준으로 중복 행을 제거(subset 옵션)
df.drop_duplicates(subset=['c2', 'c3'])