데이터 전처리란? 데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 데이터 전처리를 왜 하느냐? 완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류 더보기 Note! 이상치(outlier) 정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미 ▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과..
[데이터마이닝] 데이터 전처리
데이터 전처리란? 데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 데이터 전처리를 왜 하느냐? 완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류 더보기 Note! 이상치(outlier) 정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미 ▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과..
2023.10.12