데이터 마이닝이란?
- 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것
- 의미 있는 패턴과 규칙을 발견하기 위해서 자동화/반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정
- 데이터셋으로부터 정보를 추출, 추후 사용을 위해 이해할 수 있는 구조로 변환하는 것을 목표로 함
데이터 |
정보 |
지식 |
지혜 |
관측(미가공, 오류와 잡음 포함) |
데이터를 가공 |
정보 취합/분석해서 이해한 것 |
지식보다 높은 수준의 통찰 |
DBMS(Database Management System)
- 데이터를 저장할 수 있도록 해주는 소프트웨어
- 응용프로그램과 물리적 데이터 파일들 간의 인터페이스
- 업무 기능 중심
데이터 웨어하우스(Data warehouse)
- 특정 주제에 따른 분류
- 다수의 핵심적인 거래시스템으로부터 현재/과거 데이터를 저장
- 전사적 사용을 위해 정보 통합/표준화 가능, 변경 불가능
데이터 마트(Data mart)
- 데이터 웨어하우스의 일부분
- 특정 사용자 집단이 사용할 수 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분
- 초점은 일반적으로 단일 주제 영역/업무 영역에 맞춤
- 데이터 웨어하우스랑 용량과 사용자 규모에서 차이, DBMS 및 데이터 애플리케이션 등 기본 구성요소는 동일
Data
(1) 데이터의 정의
- 이론을 세우는 데 기초가 되는 사실 또는 바탕이 되는 자료
- 관찰이나 실험, 조사로 얻은 사실이나 자료
- 컴퓨터가 처리할 수 있는 문자, 소리, 숫자, 그림 등의 형태로 된 자료
- (in analysis) 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일
- (in analysis) 컴퓨터에 의해 특정한 방법으로 처리되거나 해석될 목적으로 순서를 가지고 나열된 기호가 모여 있는 것
(2) 데이터 용어
- 데이터 세트: 데이터 개체들의 집합
- 데이터 개체: record, point, vector, pattern, case, event, sample, observation,entity..., 여러 개 속성으로 기술
- 속성: variable, characteristic, field, feature, dimension..., 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징
(3) 데이터의 형태
- 질적 자료: 범주 또는 순서 형태의 속성을 가지는 자료, 원칙적으로 숫자로 표시될 수 없음
- 범주형 자료: 사람의 피부색, 성별 등
- 순서형 자료: 제품의 품질, 등급, 순위 등
- 질적 변수: 변수의 값이 자료를 특정 카테고리에 포함시키도록 하는 변수
- 양적 자료:관측된 값이 수치 형태의 속성을 가지는 자료
- 범위형 자료: 화씨, 섭씨 등 (수치 간의 차이가 의미를 가지는 자료)
- 비율 자료: 무게 등 (수치+비율 또한 의미를 가지는 자료)
- 양적 변수: 변수의 값을 숫자로 나타낼 수 있는 변수
- 이산형 자료: 유한하거나 셀 수 있는 무한한 값 집합
- 연속형 자료: 셀 수 없는 무한한 값 집합
Note!
데이터의 차원: 각 데이터 개체가 가지는 속성의 개수
차원의 저주: 속성의 수가 너무 많아 분석의 어려움이 발생하는 경우
(4) 데이터의 형태
기준 1) 실험설계 유무
- 실험 데이터
- 설정된 실험환경에서 수집된 데이터
- 미리 가설을 설정, 가설에 따른 실험 설계
- 관측 데이터
- 실험과정이 설계되지 않은 환경에서 관측되어 수집된 데이터
- 주된 데이터마이닝 대상
기준 2) 구조 유무
- 정형 데이터
- 비정형 데이터
- 구조가 일정하지 않은 데이터
- ex) 텍스트, 스트림, 서열, 클릭, 시스템 로그, 그래프...
그 외...
(4-1) 레코드 데이터
레코드의 모음으로 구성, 각 레코드는 고정된 수의 속성으로 구성
데이터 마이닝에 가장 많이 사용되는 데이터 형태
- 트랜잭션 데이터
- 구매자─구매물품목록 형태로 구성, 장바구니 데이터
- 데이터 행렬
- 모든 속성이 수치 형태의 값을 가지는 행렬 형테의 데이터셋
- 행은 개체, 열은 속성을 나타냄
(4-2) 그래프 데이터
데이터의 개체 간 관계 또는 데이터 자체를 그래프로 표현하는 경우에 사용
(4-3) 순서 데이터
데이터 개체의 속성이 시간/공간적인 순서와 연관되는 데이터 세트
- 연속 데이터: 트랜잭션 데이터에서 시간 성분을 추가적으로 고려
- 서열 데이터: 데이터 개체들 사이에 순서가 존재 (ex: DNA 서열)
- 시계열 데이터: 시간에 따른 속성의 변화를 관찰한 데이터 집합
- 공간 데이터: 각 데이터 개체가 공간 상의 위치 정보와 연관이 되는 데이터 집합
대표 이미지 출처: Graphix's Art