Data theory/데이터마이닝
-
시작하기 전... 더보기 분류와 회귀 분류(Classification) 회귀(Regression) 데이터를 정해진 범주에 따라 분류 데이터의 경향성으로 연속적인 수치를 예측 예측하고자 하는 타겟 값이 범주형 변수 예측하고자 하는 타겟 값이 실수(숫자) 연속성을 지니는 이산값을 가진다 예측 결과가 연속성을 지닌다 의사결정나무(Decision Tree) 예측 변수를 기반으로 결과를 분류하거나 예측하는 모델. 주로 분류에 쓰인다. 의사결정규칙을 나무 구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 목표 변수가 범주형 변수면 분류나무(분류), 목표 변수가 수치형 변수면 회귀나무(예측) 주요 방법 Trees and Rules 구조: 규칙은 나무 모델로, 결과는 규칙으로 표현 재귀적 분할: 나무를 만드는 ..
[데이터마이닝] 의사결정나무시작하기 전... 더보기 분류와 회귀 분류(Classification) 회귀(Regression) 데이터를 정해진 범주에 따라 분류 데이터의 경향성으로 연속적인 수치를 예측 예측하고자 하는 타겟 값이 범주형 변수 예측하고자 하는 타겟 값이 실수(숫자) 연속성을 지니는 이산값을 가진다 예측 결과가 연속성을 지닌다 의사결정나무(Decision Tree) 예측 변수를 기반으로 결과를 분류하거나 예측하는 모델. 주로 분류에 쓰인다. 의사결정규칙을 나무 구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 목표 변수가 범주형 변수면 분류나무(분류), 목표 변수가 수치형 변수면 회귀나무(예측) 주요 방법 Trees and Rules 구조: 규칙은 나무 모델로, 결과는 규칙으로 표현 재귀적 분할: 나무를 만드는 ..
2023.10.14 -
연관규칙 연관규칙이란? 트랜잭션 집합이 주어졌을 때 트랜잭션에서 다른 항목들의 발생을 기반으로 항목의 발생을 예측하는 구간을 찾는 것 연관규칙의 활용 거래 형식의 데이터베이스에서 아이템 클러스터를 파악 어떤 제품들이 함께 구매되는 경향이 있는지 파악 교차 판매, 묶음 판매, 상품 진열, 거래 후 쿠폰 제공 등 용어 설명 항목 집합: 하나 이상의 항목 모음 k-항목집합: k개 항목들이 포함된 항목 집합 지지 횟수($\sigma$): 항목 집합의 출현 빈도 빈발 항목집합: minsup 임계값보다 크거나 같은 항목 집합 연관규칙: $X\to Y$형식의 함축적 표현식 ($X, Y$는 항목집합) 규칙 평가 척도 지지도: 항목 집합을 포함하는 트랜잭션의 비율 신뢰도: $X$가 포함된 트랜잭션에서 $Y$에 있는 항목..
[데이터마이닝] 연관규칙연관규칙 연관규칙이란? 트랜잭션 집합이 주어졌을 때 트랜잭션에서 다른 항목들의 발생을 기반으로 항목의 발생을 예측하는 구간을 찾는 것 연관규칙의 활용 거래 형식의 데이터베이스에서 아이템 클러스터를 파악 어떤 제품들이 함께 구매되는 경향이 있는지 파악 교차 판매, 묶음 판매, 상품 진열, 거래 후 쿠폰 제공 등 용어 설명 항목 집합: 하나 이상의 항목 모음 k-항목집합: k개 항목들이 포함된 항목 집합 지지 횟수($\sigma$): 항목 집합의 출현 빈도 빈발 항목집합: minsup 임계값보다 크거나 같은 항목 집합 연관규칙: $X\to Y$형식의 함축적 표현식 ($X, Y$는 항목집합) 규칙 평가 척도 지지도: 항목 집합을 포함하는 트랜잭션의 비율 신뢰도: $X$가 포함된 트랜잭션에서 $Y$에 있는 항목..
2023.10.13 -
로지스틱 회귀모델이 왜 필요한가? ▶ 반응변수가 범주형일 경우 선형회귀모델과는 다른 방식으로 접근해야 한다! ▶ 왜? 반응변수와 독립변수 사이의 관계식이 선형이 아니기 때문 로지스틱 함수(logistic functon) = 시그모이드 함수(sigmoid function) $$ f(X)=\frac{1}{1+e^{-(\beta_0+\beta_1X)}} $$ output 범위: 0~1 input 값에 대해 단조증가(단조감소)함수 미분 결과를 output의 함수로 표현 가능 $$\frac{\partial \phi(z)}{\partial x}=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})=\phi (z)(1-\phi (z))$$ $E(y)=\pi (X=x)=P(Y=1|X=x) = 1-P..
[데이터마이닝] 로지스틱 회귀분석로지스틱 회귀모델이 왜 필요한가? ▶ 반응변수가 범주형일 경우 선형회귀모델과는 다른 방식으로 접근해야 한다! ▶ 왜? 반응변수와 독립변수 사이의 관계식이 선형이 아니기 때문 로지스틱 함수(logistic functon) = 시그모이드 함수(sigmoid function) $$ f(X)=\frac{1}{1+e^{-(\beta_0+\beta_1X)}} $$ output 범위: 0~1 input 값에 대해 단조증가(단조감소)함수 미분 결과를 output의 함수로 표현 가능 $$\frac{\partial \phi(z)}{\partial x}=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})=\phi (z)(1-\phi (z))$$ $E(y)=\pi (X=x)=P(Y=1|X=x) = 1-P..
2023.10.13 -
들어가기 전 기계학습의 진짜진짜 간단한 구성 요소부터 알아봅시다 알고 있다면 넘겨도 무관 더보기 Input x (in 다변량 데이터, 독립변수/예측변수/입력변수...) Output y (in 다변량 데이터, 종속변수/반응변수/출력변수...) Target function f:x->y (ideal function) Hypothesis g:x->y (machine learning model) 기계학습의 목표! g = f로 만드는 것 기계학습 성능 향상을 위한 조건 (1) 많은 데이터 (2) 질적으로 좋은 데이터 (3) 올바른 머신러닝 알고리즘 선택 (4) 속성과 파라미터의 선택 1. 선형회귀모델(Linear Regression Model) 모델: $h_\theta(x) = \theta_0+\theta_1x$ ..
[데이터마이닝] 선형회귀분석들어가기 전 기계학습의 진짜진짜 간단한 구성 요소부터 알아봅시다 알고 있다면 넘겨도 무관 더보기 Input x (in 다변량 데이터, 독립변수/예측변수/입력변수...) Output y (in 다변량 데이터, 종속변수/반응변수/출력변수...) Target function f:x->y (ideal function) Hypothesis g:x->y (machine learning model) 기계학습의 목표! g = f로 만드는 것 기계학습 성능 향상을 위한 조건 (1) 많은 데이터 (2) 질적으로 좋은 데이터 (3) 올바른 머신러닝 알고리즘 선택 (4) 속성과 파라미터의 선택 1. 선형회귀모델(Linear Regression Model) 모델: $h_\theta(x) = \theta_0+\theta_1x$ ..
2023.10.12 -
들어가기 전! 데이터 분석시 자주 쓰이는 간단한 수학 표기를 알아봅시다. 표기법 의미 $$I_n$$ n*n 차원 항등행렬 $$\mathbb{R}^n$$ n차원 실수 벡터 집합 $$A^T$$ 행렬 A의 전치 $$A^{-1}$$ 행렬 A의 역행렬 $$tr(A)$$ 행렬 A의 대각성분 합 $$\frac{\partial f}{\partial x}$$ 함수 f의 x에 대한 미분 $$\frac{\partial f}{\partial x_i}$$ 다차원 입력 함수 f의 xi에 대한 편미분 $$\bigtriangledown f$$ 함수 f의 기울기 $$P(X)$$ 조건 X가 일어날 확률 $$P(X|Y)$$ Y가 참일 때 X가 일어날 조건부 확률 1. 기계학습(Machine Learning)의 종류 (1-1) 지도 학습(..
[데이터마이닝] 데이터 분석 기초 이론들어가기 전! 데이터 분석시 자주 쓰이는 간단한 수학 표기를 알아봅시다. 표기법 의미 $$I_n$$ n*n 차원 항등행렬 $$\mathbb{R}^n$$ n차원 실수 벡터 집합 $$A^T$$ 행렬 A의 전치 $$A^{-1}$$ 행렬 A의 역행렬 $$tr(A)$$ 행렬 A의 대각성분 합 $$\frac{\partial f}{\partial x}$$ 함수 f의 x에 대한 미분 $$\frac{\partial f}{\partial x_i}$$ 다차원 입력 함수 f의 xi에 대한 편미분 $$\bigtriangledown f$$ 함수 f의 기울기 $$P(X)$$ 조건 X가 일어날 확률 $$P(X|Y)$$ Y가 참일 때 X가 일어날 조건부 확률 1. 기계학습(Machine Learning)의 종류 (1-1) 지도 학습(..
2023.10.12 -
데이터 전처리란? 데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 데이터 전처리를 왜 하느냐? 완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류 더보기 Note! 이상치(outlier) 정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미 ▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과..
[데이터마이닝] 데이터 전처리데이터 전처리란? 데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 데이터 전처리를 왜 하느냐? 완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류 더보기 Note! 이상치(outlier) 정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미 ▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과..
2023.10.12 -
데이터 마이닝이란? 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 의미 있는 패턴과 규칙을 발견하기 위해서 자동화/반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정 데이터셋으로부터 정보를 추출, 추후 사용을 위해 이해할 수 있는 구조로 변환하는 것을 목표로 함 데이터 정보 지식 지혜 관측(미가공, 오류와 잡음 포함) 데이터를 가공 정보 취합/분석해서 이해한 것 지식보다 높은 수준의 통찰 DBMS(Database Management System) 데이터를 저장할 수 있도록 해주는 소프트웨어 응용프로그램과 물리적 데이터 파일들 간의 인터페이스 업무 기능 중심 데이터 웨어하우스(Data warehouse) 특정 주제에 따른 분류 다수의 핵심적인 거래시스템으로부터 현재/과거 데이터를 저장..
[데이터마이닝] 데이터마이닝이란데이터 마이닝이란? 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 의미 있는 패턴과 규칙을 발견하기 위해서 자동화/반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정 데이터셋으로부터 정보를 추출, 추후 사용을 위해 이해할 수 있는 구조로 변환하는 것을 목표로 함 데이터 정보 지식 지혜 관측(미가공, 오류와 잡음 포함) 데이터를 가공 정보 취합/분석해서 이해한 것 지식보다 높은 수준의 통찰 DBMS(Database Management System) 데이터를 저장할 수 있도록 해주는 소프트웨어 응용프로그램과 물리적 데이터 파일들 간의 인터페이스 업무 기능 중심 데이터 웨어하우스(Data warehouse) 특정 주제에 따른 분류 다수의 핵심적인 거래시스템으로부터 현재/과거 데이터를 저장..
2023.10.12