새소식

Data theory/데이터마이닝

[데이터마이닝] 데이터 전처리

  • -

데이터 전처리란?

데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념

데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용

 

데이터 전처리를 왜 하느냐?

완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문.

  1. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류
  2. 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류
더보기

Note! 이상치(outlier)

 

정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미

▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과정에서 적절한 이상치 처리가 필수적!!

 

그렇다면 데이터를 어떻게 전처리하느냐?

일반적인 데이터 전처리는 다음 절차를 따른다.

▶ repeat {① 데이터 수집    ② 데이터 정제   ③ 데이터 통합   ④ 데이터 축소   ⑤ 데이터 변환}

 


(1) 데이터 수집

문제의 정의/문제 해결을 위한 데이터 분석 기획 및 시나리오 구성, 정보 수집 시기와 방법 설정

데이터 종류에 따라 내부/외부, 질적/양적 데이터 수집

 

(2) 데이터 정제

데이터를 활용할 수 있도록 만드는 과정

누락값/불일치/오류 수정, 컴퓨터가 읽지 못하는 요소 제거, 숫자/날짜 형식 일관화, 적합한 파일 포맷으로 변환 등

이래는 데이터 정제 과정이다.

 

➊ 데이터 특성 파악 (By 메타데이터)

메타데이터란? 다른 데이터를 설명해주는 데이터, 데이터에 관한 구조화된 데이터

  • 기술용 메타데이터: 정보 자원의 검색이 목적
  • 관리용 메타데이터: 자원 관리를 용이하게 함을 목적
  • 구조용 메타데이터: 복합적 디지털 객체들을 통합하기 위한 메타데이터

➋ 데이터 모순점 발견

잘못 설계된 데이터 입력 폼이 존재할 수 있음

ex) 입력 과정에서 사람의 실수, 응답자의 의도적 오류, 만료된 데이터, 일치하지 않는 코드 사용, 계측 장치 및 시스템 오류 등

result) 결측값과 잡음 등 발생!

 

잠깐! 결측값(Missing values)이란?

더보기

결측값이란? 값이 존재하지 않고 비어 있는 상태. NA(결측값) 또는 Null(값이 없다) 값이다.

 

결측값 구분

 ⑴ MCAR(Missing Completely At Random)

  • 결측값이 관측된/관측되지 않은 데이터와 독립적이며 완전 무작위로 발생
  • 데이터 분석 시 결측값이 편향되지 않아서 문제가 되지 않음

⑵ MAR(Missing At Random) or MCAR(Missing Conditionally At Random)

  • 결측값이 조건이 다른 변수에 따라 조건부로 무작위 발생, 변수의 조건에 따른 결측값이 설명할 수 있는 경우
  • 분석 시 편향이 발생할 수 있음

⑶ MNAR(Missing Not At Random)

  • MCAR 또는 MAR이 아닌 데이터
  • 무시할 수 없는 무응답 데이터(누락된 이유가 존재함)

 

결측값 처리 방법

⑴ 결측값 데이터 개체/속성 제거

결측값이 발생한 데이터 개체/속성을 분석 과정에서 제거

데이터가 충분히 많다면 ok, 단 결측치가 많으면 대부분의 정보가 제거될 수 있음

 

⑵ 수동으로 결측값 입력

결측값이 발생한 데이터 재조사하여 입력

극도로 고비용, 결측값이 많으면 비현실적임

 

⑶ 전역상수를 사용한 결측값 입력

단순하고 명확함

전역상수 값이 분석 결과 왜곡할 수도 있음

 

⑷ 결측값의 무시

결측치가 발생한 속성을 무시하고 분석 수행

영향이 크지 않다면 적용 가능, 결측값이 산재해 있다면 너무 많은 데이터가 제외될 수 있음

속성이 많지 않은 경우에 좋지 않음

 

결측값의 추정

 

결측값이 발생한 데이터와 유사한 데이터를 사용하여 결측값 추정

일반적으로 많이 사용, 추정 방법에 따라 다양한 형태 존재

 

잠깐! 잡음(Noise data)이란?

더보기

잡음이란? 측정된 변수/속성에서의 오류나 오차 값
잡음으로부터 경향성 훼손이 발생하기 때문에 이를 줄이기 위한 평활화 기법이 존재

데이터 평활화 기법 ⑴ 구간화
정렬된 데이터 값들을 몇 개의 빈(또는 버킷)으로 분할하여 평활화
주변 값들을 참조하여 정렬된 데이터를 매끄럽게 함
▷평균값 평활화: 버킷에 있는 값들이 그 버킷의 평균값으로 대체
▷중앙값 평활화: 버킷에 있는 값들이 그 버킷의 중앙값으로 대체
▷경계값 평활화: 버킷의 최대값과 최소값이 그 버킷의 경계가 되며 두 경계 중 가까운 값으로 대체

데이터 평활화 기법 ⑵ 회귀
회귀함수를 이용한 평활화 기법
선형 회귀(단일 속성), 다중 회귀(두 개 이상의 속성) 등을 이용

데이터 평활화 기법 ⑶ 군집화
유사한 값들끼리 그룹화하는 과정
여기서의 이상값: 어떤 군집에도 속하지 않는 값

 

그 외의 데이터 모순은...

더보기

모순, 불일치란? 동일한 개체에 대한 측정 데이터가 다르게 나타나는 경우

중복이란? 언제든 발생 가능한 오류이지만, 중복된 데이터 속성의 차이나 값을 불일치가 나타나면 문제가 됨

 

➌ 데이터 수정 변환

위와 같은 모순점이 발견된 데이터에 대해 수정 변환 필요

(그러나 수정 변환 시 오류 발생 가능성도 높고, 어떤 수정 변환은 더 많은 모순이 감지될 수 있음...)

 

(3) 데이터 통합

서로 다른 출처의 여러 데이터를 결합

서로 다른 데이터 세트가 호환이 가능하도록 통합

같은 객체, 같은 단위나 좌표로 데이터 통합

 

(4) 데이터 축소

대용량 데이터에 대한 복잡한 분석은 실행하기 어렵거나 불가능

축소 후 기존보다 작은 양의 데이터를 얻게 되더라도 원 데이터의 완결성을 유지하기 위해 사용

데이터를 축소하며 분석 시 좀 더 효과적, 원 데이터와 거의 동일한 분석 결과를 얻어낼 수 있음!!

 

(5) 데이터 변환

데이터를 한 형식/구조에서 다른 형식/구조로 변환

 

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.