1. 이상한 데이터는 어떻게 생겨났을까? - 데이터를 100% 믿는 건 굉장히 위험한 행동이다. 다음의 가능성이 있기 때문이다. 1) 생성 / 측정 단계 : 관측자의 실수 (휴먼에러), 측정 장비의 오류 2) 수집 / 전달 단계 : 데이터 수집 프로그램의 오류 (버그), 데이터 관리자의 실수 (휴먼에러), 데이터 전달 프로그램의 오류 (Open API) - 실무에서 가장 흔한 데이터 오염은 데이터 관리자에 의해 발생한다. - 이상한 데이터를 찾아내는 방법 (Anomaly Detection) 1) 다시 측정한다. 2) 같은 데이터의 다른 출처를 찾아서 비교한다. (Supervised) 3) 데이터 스스로의 특징을 활용하여 찾아낸다. (Unsupervised) - 만약 같은 데이터를 제공하는 다른 출처가 있..