Data theory
-
연관규칙 연관규칙이란? 트랜잭션 집합이 주어졌을 때 트랜잭션에서 다른 항목들의 발생을 기반으로 항목의 발생을 예측하는 구간을 찾는 것 연관규칙의 활용 거래 형식의 데이터베이스에서 아이템 클러스터를 파악 어떤 제품들이 함께 구매되는 경향이 있는지 파악 교차 판매, 묶음 판매, 상품 진열, 거래 후 쿠폰 제공 등 용어 설명 항목 집합: 하나 이상의 항목 모음 k-항목집합: k개 항목들이 포함된 항목 집합 지지 횟수($\sigma$): 항목 집합의 출현 빈도 빈발 항목집합: minsup 임계값보다 크거나 같은 항목 집합 연관규칙: $X\to Y$형식의 함축적 표현식 ($X, Y$는 항목집합) 규칙 평가 척도 지지도: 항목 집합을 포함하는 트랜잭션의 비율 신뢰도: $X$가 포함된 트랜잭션에서 $Y$에 있는 항목..
[데이터마이닝] 연관규칙연관규칙 연관규칙이란? 트랜잭션 집합이 주어졌을 때 트랜잭션에서 다른 항목들의 발생을 기반으로 항목의 발생을 예측하는 구간을 찾는 것 연관규칙의 활용 거래 형식의 데이터베이스에서 아이템 클러스터를 파악 어떤 제품들이 함께 구매되는 경향이 있는지 파악 교차 판매, 묶음 판매, 상품 진열, 거래 후 쿠폰 제공 등 용어 설명 항목 집합: 하나 이상의 항목 모음 k-항목집합: k개 항목들이 포함된 항목 집합 지지 횟수($\sigma$): 항목 집합의 출현 빈도 빈발 항목집합: minsup 임계값보다 크거나 같은 항목 집합 연관규칙: $X\to Y$형식의 함축적 표현식 ($X, Y$는 항목집합) 규칙 평가 척도 지지도: 항목 집합을 포함하는 트랜잭션의 비율 신뢰도: $X$가 포함된 트랜잭션에서 $Y$에 있는 항목..
2023.10.13 -
로지스틱 회귀모델이 왜 필요한가? ▶ 반응변수가 범주형일 경우 선형회귀모델과는 다른 방식으로 접근해야 한다! ▶ 왜? 반응변수와 독립변수 사이의 관계식이 선형이 아니기 때문 로지스틱 함수(logistic functon) = 시그모이드 함수(sigmoid function) $$ f(X)=\frac{1}{1+e^{-(\beta_0+\beta_1X)}} $$ output 범위: 0~1 input 값에 대해 단조증가(단조감소)함수 미분 결과를 output의 함수로 표현 가능 $$\frac{\partial \phi(z)}{\partial x}=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})=\phi (z)(1-\phi (z))$$ $E(y)=\pi (X=x)=P(Y=1|X=x) = 1-P..
[데이터마이닝] 로지스틱 회귀분석로지스틱 회귀모델이 왜 필요한가? ▶ 반응변수가 범주형일 경우 선형회귀모델과는 다른 방식으로 접근해야 한다! ▶ 왜? 반응변수와 독립변수 사이의 관계식이 선형이 아니기 때문 로지스틱 함수(logistic functon) = 시그모이드 함수(sigmoid function) $$ f(X)=\frac{1}{1+e^{-(\beta_0+\beta_1X)}} $$ output 범위: 0~1 input 값에 대해 단조증가(단조감소)함수 미분 결과를 output의 함수로 표현 가능 $$\frac{\partial \phi(z)}{\partial x}=\frac{1}{1+e^{-z}}(1-\frac{1}{1+e^{-z}})=\phi (z)(1-\phi (z))$$ $E(y)=\pi (X=x)=P(Y=1|X=x) = 1-P..
2023.10.13 -
들어가기 전 기계학습의 진짜진짜 간단한 구성 요소부터 알아봅시다 알고 있다면 넘겨도 무관 더보기 Input x (in 다변량 데이터, 독립변수/예측변수/입력변수...) Output y (in 다변량 데이터, 종속변수/반응변수/출력변수...) Target function f:x->y (ideal function) Hypothesis g:x->y (machine learning model) 기계학습의 목표! g = f로 만드는 것 기계학습 성능 향상을 위한 조건 (1) 많은 데이터 (2) 질적으로 좋은 데이터 (3) 올바른 머신러닝 알고리즘 선택 (4) 속성과 파라미터의 선택 1. 선형회귀모델(Linear Regression Model) 모델: $h_\theta(x) = \theta_0+\theta_1x$ ..
[데이터마이닝] 선형회귀분석들어가기 전 기계학습의 진짜진짜 간단한 구성 요소부터 알아봅시다 알고 있다면 넘겨도 무관 더보기 Input x (in 다변량 데이터, 독립변수/예측변수/입력변수...) Output y (in 다변량 데이터, 종속변수/반응변수/출력변수...) Target function f:x->y (ideal function) Hypothesis g:x->y (machine learning model) 기계학습의 목표! g = f로 만드는 것 기계학습 성능 향상을 위한 조건 (1) 많은 데이터 (2) 질적으로 좋은 데이터 (3) 올바른 머신러닝 알고리즘 선택 (4) 속성과 파라미터의 선택 1. 선형회귀모델(Linear Regression Model) 모델: $h_\theta(x) = \theta_0+\theta_1x$ ..
2023.10.12 -
들어가기 전! 데이터 분석시 자주 쓰이는 간단한 수학 표기를 알아봅시다. 표기법 의미 $$I_n$$ n*n 차원 항등행렬 $$\mathbb{R}^n$$ n차원 실수 벡터 집합 $$A^T$$ 행렬 A의 전치 $$A^{-1}$$ 행렬 A의 역행렬 $$tr(A)$$ 행렬 A의 대각성분 합 $$\frac{\partial f}{\partial x}$$ 함수 f의 x에 대한 미분 $$\frac{\partial f}{\partial x_i}$$ 다차원 입력 함수 f의 xi에 대한 편미분 $$\bigtriangledown f$$ 함수 f의 기울기 $$P(X)$$ 조건 X가 일어날 확률 $$P(X|Y)$$ Y가 참일 때 X가 일어날 조건부 확률 1. 기계학습(Machine Learning)의 종류 (1-1) 지도 학습(..
[데이터마이닝] 데이터 분석 기초 이론들어가기 전! 데이터 분석시 자주 쓰이는 간단한 수학 표기를 알아봅시다. 표기법 의미 $$I_n$$ n*n 차원 항등행렬 $$\mathbb{R}^n$$ n차원 실수 벡터 집합 $$A^T$$ 행렬 A의 전치 $$A^{-1}$$ 행렬 A의 역행렬 $$tr(A)$$ 행렬 A의 대각성분 합 $$\frac{\partial f}{\partial x}$$ 함수 f의 x에 대한 미분 $$\frac{\partial f}{\partial x_i}$$ 다차원 입력 함수 f의 xi에 대한 편미분 $$\bigtriangledown f$$ 함수 f의 기울기 $$P(X)$$ 조건 X가 일어날 확률 $$P(X|Y)$$ Y가 참일 때 X가 일어날 조건부 확률 1. 기계학습(Machine Learning)의 종류 (1-1) 지도 학습(..
2023.10.12 -
데이터 전처리란? 데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 데이터 전처리를 왜 하느냐? 완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류 더보기 Note! 이상치(outlier) 정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미 ▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과..
[데이터마이닝] 데이터 전처리데이터 전처리란? 데이터를 분석/처리에 적합한 형태로 만드는 과정을 총칭하는 개념 데이터 분석, 데이터 마이닝, 머신 러닝 프로젝트에 적용 데이터 전처리를 왜 하느냐? 완벽한 데이터를 얻는 것은 실제로 불가능하다. 왜? 다음과 같은 오류가 존재하기 때문. 측정 오류: 사람의 실수로 잘못된 단위로 기록하거나 측정 장비 자체의 한계 등 측정 과정에서 발생하는 오류 수집 과정 오류: 데이터의 손실, 중복 등의 문제로 발생하는 오류 더보기 Note! 이상치(outlier) 정의: 대부분의 데이터와 다른 특성을 보이거나 특정 속성의 값이 다른 개체들과 달리 유별난 값을 가지는 데이터, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값을 의미 ▶이상치가 의사결정에 큰 영향을 미칠 수 있으므로 전처리 과..
2023.10.12 -
데이터 마이닝이란? 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 의미 있는 패턴과 규칙을 발견하기 위해서 자동화/반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정 데이터셋으로부터 정보를 추출, 추후 사용을 위해 이해할 수 있는 구조로 변환하는 것을 목표로 함 데이터 정보 지식 지혜 관측(미가공, 오류와 잡음 포함) 데이터를 가공 정보 취합/분석해서 이해한 것 지식보다 높은 수준의 통찰 DBMS(Database Management System) 데이터를 저장할 수 있도록 해주는 소프트웨어 응용프로그램과 물리적 데이터 파일들 간의 인터페이스 업무 기능 중심 데이터 웨어하우스(Data warehouse) 특정 주제에 따른 분류 다수의 핵심적인 거래시스템으로부터 현재/과거 데이터를 저장..
[데이터마이닝] 데이터마이닝이란데이터 마이닝이란? 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 의미 있는 패턴과 규칙을 발견하기 위해서 자동화/반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정 데이터셋으로부터 정보를 추출, 추후 사용을 위해 이해할 수 있는 구조로 변환하는 것을 목표로 함 데이터 정보 지식 지혜 관측(미가공, 오류와 잡음 포함) 데이터를 가공 정보 취합/분석해서 이해한 것 지식보다 높은 수준의 통찰 DBMS(Database Management System) 데이터를 저장할 수 있도록 해주는 소프트웨어 응용프로그램과 물리적 데이터 파일들 간의 인터페이스 업무 기능 중심 데이터 웨어하우스(Data warehouse) 특정 주제에 따른 분류 다수의 핵심적인 거래시스템으로부터 현재/과거 데이터를 저장..
2023.10.12