새소식

Data theory/데이터마이닝

[데이터마이닝] 데이터마이닝이란

  • -

데이터 마이닝이란?

  • 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것
  • 의미 있는 패턴과 규칙을 발견하기 위해서 자동화/반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정
  • 데이터셋으로부터 정보를 추출, 추후 사용을 위해 이해할 수 있는 구조로 변환하는 것을 목표로 함

 

데이터 정보 지식 지혜
관측(미가공, 오류와 잡음 포함) 데이터를 가공 정보 취합/분석해서 이해한 것 지식보다 높은 수준의 통찰

 

DBMS(Database Management System)

  • 데이터를 저장할 수 있도록 해주는 소프트웨어
  • 응용프로그램과 물리적 데이터 파일들 간의 인터페이스
  • 업무 기능 중심

 

데이터 웨어하우스(Data warehouse)

  • 특정 주제에 따른 분류
  • 다수의 핵심적인 거래시스템으로부터 현재/과거 데이터를 저장
  • 전사적 사용을 위해 정보 통합/표준화 가능, 변경 불가능

 

데이터 마트(Data mart)

  • 데이터 웨어하우스의 일부분
  • 특정 사용자 집단이 사용할 수 있도록 특정 초점을 가지고 요약된 조직 데이터의 일부분
  • 초점은 일반적으로 단일 주제 영역/업무 영역에 맞춤
  • 데이터 웨어하우스랑 용량과 사용자 규모에서 차이, DBMS 및 데이터 애플리케이션 등 기본 구성요소는 동일

 


Data

(1) 데이터의 정의

  • 이론을 세우는 데 기초가 되는 사실 또는 바탕이 되는 자료
  • 관찰이나 실험, 조사로 얻은 사실이나 자료
  • 컴퓨터가 처리할 수 있는 문자, 소리, 숫자, 그림 등의 형태로 된 자료
  • (in analysis) 프로그램에 부속된 파일, 특히 사용자가 해독할 수 없는 형태의 이진 파일
  • (in analysis) 컴퓨터에 의해 특정한 방법으로 처리되거나 해석될 목적으로 순서를 가지고 나열된 기호가 모여 있는 것

 

(2) 데이터 용어

  • 데이터 세트: 데이터 개체들의 집합
  • 데이터 개체: record, point, vector, pattern, case, event, sample, observation,entity..., 여러 개 속성으로 기술
  • 속성: variable, characteristic, field, feature, dimension..., 데이터 개체들 사이의 차이를 규정할 수 있는 특성이나 특징

 

(3) 데이터의 형태

  • 질적 자료: 범주 또는 순서 형태의 속성을 가지는 자료, 원칙적으로 숫자로 표시될 수 없음
    • 범주형 자료: 사람의 피부색, 성별 등
    • 순서형 자료: 제품의 품질, 등급, 순위 등
  • 질적 변수: 변수의 값이 자료를 특정 카테고리에 포함시키도록 하는 변수

 

  • 양적 자료:관측된 값이 수치 형태의 속성을 가지는 자료
    • 범위형 자료: 화씨, 섭씨 등 (수치 간의 차이가 의미를 가지는 자료)
    • 비율 자료: 무게 등 (수치+비율 또한 의미를 가지는 자료)
  • 양적 변수: 변수의 값을 숫자로 나타낼 수 있는 변수
    • 이산형 자료: 유한하거나 셀 수 있는 무한한 값 집합
    • 연속형 자료: 셀 수 없는 무한한 값 집합

 

Note!

데이터의 차원: 각 데이터 개체가 가지는 속성의 개수
차원의 저주: 속성의 수가 너무 많아 분석의 어려움이 발생하는 경우

 

 

(4) 데이터의 형태

기준 1) 실험설계 유무

  • 실험 데이터
    • 설정된 실험환경에서 수집된 데이터
    • 미리 가설을 설정, 가설에 따른 실험 설계
  • 관측 데이터
    • 실험과정이 설계되지 않은 환경에서 관측되어 수집된 데이터
    • 주된 데이터마이닝 대상

기준 2) 구조 유무

  • 정형 데이터
    • 일정한 구조 보유
    • 데이터베이스 테이블
  • 비정형 데이터
    • 구조가 일정하지 않은 데이터
    • ex) 텍스트, 스트림, 서열, 클릭, 시스템 로그, 그래프...

 

그 외...

(4-1) 레코드 데이터

레코드의 모음으로 구성, 각 레코드는 고정된 수의 속성으로 구성

데이터 마이닝에 가장 많이 사용되는 데이터 형태

  • 트랜잭션 데이터
    • 구매자─구매물품목록 형태로 구성, 장바구니 데이터
  • 데이터 행렬
    • 모든 속성이 수치 형태의 값을 가지는 행렬 형테의 데이터셋
    • 행은 개체, 열은 속성을 나타냄

(4-2) 그래프 데이터

데이터의 개체 간 관계 또는 데이터 자체를 그래프로 표현하는 경우에 사용

 

(4-3) 순서 데이터

데이터 개체의 속성이 시간/공간적인 순서와 연관되는 데이터 세트

  • 연속 데이터: 트랜잭션 데이터에서 시간 성분을 추가적으로 고려
  • 서열 데이터: 데이터 개체들 사이에 순서가 존재 (ex: DNA 서열)
  • 시계열 데이터: 시간에 따른 속성의 변화를 관찰한 데이터 집합
  • 공간 데이터: 각 데이터 개체가 공간 상의 위치 정보와 연관이 되는 데이터 집합

 

 

 

대표 이미지 출처: Graphix's Art

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.