Data theory
-
머신러닝 알고리즘을 결합한 협업필터링 개인화 추천시스템 응용연구김재식, 김범수서강대학교 경영대학 1. 서론─협업 필터링 알고리즘: 온라인 추천 시스템의 핵심 기술─사용자와 다른 사용자들의 상호작용을 분석함으로써 맞춤형 추천 제공─협업 필터링을 사용하되 다른 알고리즘을 결합하여 대용량 데이터에서 작동가능한 방안 제안연구 목적─추천 시스템의 정확도와 개인화 수준 향상시킬 새로운 방법론 제안─랜덤 포레스트 알고리즘: 사용자의 상품 카테고리별 선호도 예측─K-means 클러스터링: 사용자를 여러 그룹으로 분류, 유사한 패턴의 사용자 그룹화─두 알고리즘의 결과를 바탕으로 협업 필터링 적용 2. 이론적 배경협업 필터링─사용자와 상품 간 관계를 나타내는 이진 데이터를 담은 행렬 기반─코사인 유사도를 바탕으로 사용자..
[논문 요약/정리] 머신러닝 알고리즘을 결합한 협업필터링 개인화 추천시스템 응용연구머신러닝 알고리즘을 결합한 협업필터링 개인화 추천시스템 응용연구김재식, 김범수서강대학교 경영대학 1. 서론─협업 필터링 알고리즘: 온라인 추천 시스템의 핵심 기술─사용자와 다른 사용자들의 상호작용을 분석함으로써 맞춤형 추천 제공─협업 필터링을 사용하되 다른 알고리즘을 결합하여 대용량 데이터에서 작동가능한 방안 제안연구 목적─추천 시스템의 정확도와 개인화 수준 향상시킬 새로운 방법론 제안─랜덤 포레스트 알고리즘: 사용자의 상품 카테고리별 선호도 예측─K-means 클러스터링: 사용자를 여러 그룹으로 분류, 유사한 패턴의 사용자 그룹화─두 알고리즘의 결과를 바탕으로 협업 필터링 적용 2. 이론적 배경협업 필터링─사용자와 상품 간 관계를 나타내는 이진 데이터를 담은 행렬 기반─코사인 유사도를 바탕으로 사용자..
2024.12.13 -
- 2024 한국정보기술학회 하계 종합학술대회 논문집 -LDA 토픽모델링 및 머신러닝 기반 뉴스의 주가 영향력 예측 시스템정용한*, 최연호*, 강연범*, 백민재*, 김순태**1. 서론투자자들은 보도되는 뉴스 기사를 통해 정보를 얻음투자자들의 객관적인 의사결정을 위한 영향력 지표 설정─토픽 모델링을 사용하여 뉴스 토픽 추출, 토픽 가중치 활용 위해 Ridge/Lasso 회귀 사용 2. 주가 영향력 예측 시스템 구축데이터 수집─2022.4.19~2024.4.29 총 2개년 치의 뉴스 데이터, 주가 데이터 수집─뉴스 기사에서 토픽 추출하는 뉴스 크롤링 오픈소스 KoreaNewsCrawler 사용─주가 데이터는 증권사 API 추출 데이터 전처리─TF-IDF 활용한 문서 간 유사도 분석─유사 데이터 중 가장 오래..
[논문 요약/정리] LDA 토픽모델링 및 머신러닝 기반 뉴스의 주가 영향력 예측시스템- 2024 한국정보기술학회 하계 종합학술대회 논문집 -LDA 토픽모델링 및 머신러닝 기반 뉴스의 주가 영향력 예측 시스템정용한*, 최연호*, 강연범*, 백민재*, 김순태**1. 서론투자자들은 보도되는 뉴스 기사를 통해 정보를 얻음투자자들의 객관적인 의사결정을 위한 영향력 지표 설정─토픽 모델링을 사용하여 뉴스 토픽 추출, 토픽 가중치 활용 위해 Ridge/Lasso 회귀 사용 2. 주가 영향력 예측 시스템 구축데이터 수집─2022.4.19~2024.4.29 총 2개년 치의 뉴스 데이터, 주가 데이터 수집─뉴스 기사에서 토픽 추출하는 뉴스 크롤링 오픈소스 KoreaNewsCrawler 사용─주가 데이터는 증권사 API 추출 데이터 전처리─TF-IDF 활용한 문서 간 유사도 분석─유사 데이터 중 가장 오래..
2024.12.13 -
JKIICE (Journal of the Korea Institute of Information and Communication Engineering)한국정보통신학회논문지 Vol. 28, No. 8: 891~897, Aug. 2024뇌졸중 데이터를 통한 머신러닝, 딥러닝 예측 및 분류 기법 성능비교김재호1·김장영2 더보기선택 이유─머신러닝, 딥러닝 기법을 전반적으로 살펴보고 성능을 평가할 수 있는 방법들이 있을 것 같아 탐구해보고 유사한 프로젝트로 재현해보고자 함1. 서론뇌졸중: 뇌의 일부분에 혈액을 공급하는 혈관이 막히거나(뇌경색), 혈관이 터짐(뇌출혈)으로써 뇌가 손상되어 나타나는 증상사용한 데이터셋 : Kaggle 링크 Stroke Prediction Dataset11 clinical feature..
[논문 요약/정리] 뇌졸중 데이터를 통한 머신러닝, 딥러닝 예측 및 분류 기법 성능비교JKIICE (Journal of the Korea Institute of Information and Communication Engineering)한국정보통신학회논문지 Vol. 28, No. 8: 891~897, Aug. 2024뇌졸중 데이터를 통한 머신러닝, 딥러닝 예측 및 분류 기법 성능비교김재호1·김장영2 더보기선택 이유─머신러닝, 딥러닝 기법을 전반적으로 살펴보고 성능을 평가할 수 있는 방법들이 있을 것 같아 탐구해보고 유사한 프로젝트로 재현해보고자 함1. 서론뇌졸중: 뇌의 일부분에 혈액을 공급하는 혈관이 막히거나(뇌경색), 혈관이 터짐(뇌출혈)으로써 뇌가 손상되어 나타나는 증상사용한 데이터셋 : Kaggle 링크 Stroke Prediction Dataset11 clinical feature..
2024.11.27 -
딥러닝의 기본 개념부터 알아봅시다. 신경망(Neural Network) 인간 두뇌에 대한 계산적 모델을 통해 인공지능을 구현하려는 분야. 신경세포 뉴런(neuron)의 이름을 따왔다. 이 뉴런을 흉내내어 만든 신경망 모델을 퍼셉트론(Perceptron)이라고 한다. 퍼셉트론(Perceptron) 로젠블랏이 제안한 학습 가능한 신경망 모델. 입력변수를 받아 선형 결합한 후 비선형으로 전환하여 결과를 도출한다. 다층 퍼셉트론(Multi-layer Perceptron; MLP) 여러 개의 퍼셉트론을 층 구조로 구성한 신경망 모델 입력층(Input layer) 은닉층(Hidden layer) 출력층(Output layer) 입력변수의 값이 들어오는 곳 다수 노드 포함 가능 (범주형이면) 출력 노드의 수 =출력변..
[딥러닝] Deep learning (딥러닝)딥러닝의 기본 개념부터 알아봅시다. 신경망(Neural Network) 인간 두뇌에 대한 계산적 모델을 통해 인공지능을 구현하려는 분야. 신경세포 뉴런(neuron)의 이름을 따왔다. 이 뉴런을 흉내내어 만든 신경망 모델을 퍼셉트론(Perceptron)이라고 한다. 퍼셉트론(Perceptron) 로젠블랏이 제안한 학습 가능한 신경망 모델. 입력변수를 받아 선형 결합한 후 비선형으로 전환하여 결과를 도출한다. 다층 퍼셉트론(Multi-layer Perceptron; MLP) 여러 개의 퍼셉트론을 층 구조로 구성한 신경망 모델 입력층(Input layer) 은닉층(Hidden layer) 출력층(Output layer) 입력변수의 값이 들어오는 곳 다수 노드 포함 가능 (범주형이면) 출력 노드의 수 =출력변..
2023.10.15 -
서포트 벡터 머신 (Support Vector Machine; SVM) 고차원 데이터의 분류 문제에서 좋은 성능을 나타내는 분류 방법 분류 오차를 줄이면서 동시에 여백을 최대로 하는 결정 경계를 갖는 이진 분류기 결정 경계 (decision boundary): $w^Tx+b=0$으로 나타낼 수 있다. 여백(margin): 결정 경계와 가장 가까이에 있는 학습 데이터까지의 거리. 기울기로 표현 가능하다. 서포트 벡터(support vector): 결정 경계로부터 가장 가까이에 있는 학습 데이터들 $x^+$: plus plane 위의 점, $x^-$: minus plane 위의 점이라 하자. $x^+=x^-+\lambda w$라 하면 $w^Tx^++b=1$은 $w^T(x^-+\lambda w )+b=1 $로..
[딥러닝] 서포트 벡터 머신 (SVM)서포트 벡터 머신 (Support Vector Machine; SVM) 고차원 데이터의 분류 문제에서 좋은 성능을 나타내는 분류 방법 분류 오차를 줄이면서 동시에 여백을 최대로 하는 결정 경계를 갖는 이진 분류기 결정 경계 (decision boundary): $w^Tx+b=0$으로 나타낼 수 있다. 여백(margin): 결정 경계와 가장 가까이에 있는 학습 데이터까지의 거리. 기울기로 표현 가능하다. 서포트 벡터(support vector): 결정 경계로부터 가장 가까이에 있는 학습 데이터들 $x^+$: plus plane 위의 점, $x^-$: minus plane 위의 점이라 하자. $x^+=x^-+\lambda w$라 하면 $w^Tx^++b=1$은 $w^T(x^-+\lambda w )+b=1 $로..
2023.10.15 -
들어가기 전! 모델 베이스 기법과 인스턴스 베이스 기법의 종류를 가볍게 보고 넘어가자. 더보기 Model-based learning: 선형/비선형 모델, Neural Network, 의사결정나무, Support vector machine... ☞데이터로부터 모델을 생성하여 분류/예측 진행 Instance-based learning: K-nearest neighbor, Locallly weighted regression... ☞별도의 모델 생성 없이 인접 데이터를 분류/예측에 사용 이 중 Nearest Neighbor를 알아보자. KNN(K-Nearest Neighbor) 미지의 데이터로부터 K개의 가장 가까운 이웃을 선택하고 해당 이웃의 정보로 미지의 데이터를 분류/예측한다. 특징 Instance-bas..
[딥러닝] KNN들어가기 전! 모델 베이스 기법과 인스턴스 베이스 기법의 종류를 가볍게 보고 넘어가자. 더보기 Model-based learning: 선형/비선형 모델, Neural Network, 의사결정나무, Support vector machine... ☞데이터로부터 모델을 생성하여 분류/예측 진행 Instance-based learning: K-nearest neighbor, Locallly weighted regression... ☞별도의 모델 생성 없이 인접 데이터를 분류/예측에 사용 이 중 Nearest Neighbor를 알아보자. KNN(K-Nearest Neighbor) 미지의 데이터로부터 K개의 가장 가까운 이웃을 선택하고 해당 이웃의 정보로 미지의 데이터를 분류/예측한다. 특징 Instance-bas..
2023.10.15 -
들어가기 전... 머신러닝의 앙상블 기법에 대해 알아보자. 더보기 앙상블이란? 여러 Base 모델들의 예측을 다수결 또는 평균을 이용하여 예측의 정확성을 향상시키는 방법이다. Base 모델이 서로 독립적이며 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋을 때 앙상블 모델은 Base 모델보다 우수한 성능을 보인다. 앙상블 모델의 오류율 $e_{ensemble}=\sum_{i=[N/2]}^{N}\binom{N}{i}e^i(1-e)^{N-i}$ (이때 $e$:Base 모델의 오류율, $N$:Base 모델의 수) 의사결정나무 모델 앙상블의 대표적 모델. 앙상블의 Base 모델로서 활용도가 높다. 데이터의 크기가 방대해도 모델을 빨리 구축할 수 있으며 데이터 분포에 대한 가정이 불필요하다. 랜덤 포..
[딥러닝] 군집 분석 (Clustering)들어가기 전... 머신러닝의 앙상블 기법에 대해 알아보자. 더보기 앙상블이란? 여러 Base 모델들의 예측을 다수결 또는 평균을 이용하여 예측의 정확성을 향상시키는 방법이다. Base 모델이 서로 독립적이며 Base 모델들이 무작위 예측을 수행하는 모델보다 성능이 좋을 때 앙상블 모델은 Base 모델보다 우수한 성능을 보인다. 앙상블 모델의 오류율 $e_{ensemble}=\sum_{i=[N/2]}^{N}\binom{N}{i}e^i(1-e)^{N-i}$ (이때 $e$:Base 모델의 오류율, $N$:Base 모델의 수) 의사결정나무 모델 앙상블의 대표적 모델. 앙상블의 Base 모델로서 활용도가 높다. 데이터의 크기가 방대해도 모델을 빨리 구축할 수 있으며 데이터 분포에 대한 가정이 불필요하다. 랜덤 포..
2023.10.14 -
시작하기 전... 더보기 분류와 회귀 분류(Classification) 회귀(Regression) 데이터를 정해진 범주에 따라 분류 데이터의 경향성으로 연속적인 수치를 예측 예측하고자 하는 타겟 값이 범주형 변수 예측하고자 하는 타겟 값이 실수(숫자) 연속성을 지니는 이산값을 가진다 예측 결과가 연속성을 지닌다 의사결정나무(Decision Tree) 예측 변수를 기반으로 결과를 분류하거나 예측하는 모델. 주로 분류에 쓰인다. 의사결정규칙을 나무 구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 목표 변수가 범주형 변수면 분류나무(분류), 목표 변수가 수치형 변수면 회귀나무(예측) 주요 방법 Trees and Rules 구조: 규칙은 나무 모델로, 결과는 규칙으로 표현 재귀적 분할: 나무를 만드는 ..
[데이터마이닝] 의사결정나무시작하기 전... 더보기 분류와 회귀 분류(Classification) 회귀(Regression) 데이터를 정해진 범주에 따라 분류 데이터의 경향성으로 연속적인 수치를 예측 예측하고자 하는 타겟 값이 범주형 변수 예측하고자 하는 타겟 값이 실수(숫자) 연속성을 지니는 이산값을 가진다 예측 결과가 연속성을 지닌다 의사결정나무(Decision Tree) 예측 변수를 기반으로 결과를 분류하거나 예측하는 모델. 주로 분류에 쓰인다. 의사결정규칙을 나무 구조로 도표화하여 분류와 예측을 수행하는 분석 방법이다. 목표 변수가 범주형 변수면 분류나무(분류), 목표 변수가 수치형 변수면 회귀나무(예측) 주요 방법 Trees and Rules 구조: 규칙은 나무 모델로, 결과는 규칙으로 표현 재귀적 분할: 나무를 만드는 ..
2023.10.14