새소식

Data theory/머신러닝

[논문 요약/정리] 머신러닝 알고리즘을 결합한 협업필터링 개인화 추천시스템 응용연구

  • -

머신러닝 알고리즘을 결합한 협업필터링 개인화 추천시스템 응용연구

김재식, 김범수
서강대학교 경영대학

 

 


1. 서론

─협업 필터링 알고리즘: 온라인 추천 시스템의 핵심 기술

─사용자와 다른 사용자들의 상호작용을 분석함으로써 맞춤형 추천 제공

─협업 필터링을 사용하되 다른 알고리즘을 결합하여 대용량 데이터에서 작동가능한 방안 제안

연구 목적

─추천 시스템의 정확도와 개인화 수준 향상시킬 새로운 방법론 제안

─랜덤 포레스트 알고리즘: 사용자의 상품 카테고리별 선호도 예측

─K-means 클러스터링: 사용자를 여러 그룹으로 분류, 유사한 패턴의 사용자 그룹화

─두 알고리즘의 결과를 바탕으로 협업 필터링 적용

 

2. 이론적 배경

협업 필터링

─사용자와 상품 간 관계를 나타내는 이진 데이터를 담은 행렬 기반

─코사인 유사도를 바탕으로 사용자별 상품 예측 점수 계산

─상품 숫자가 증가할수록 계산 복잡성이 커짐

─희소성이 있는 상품의 경우 유사도에 부정적인 영향

 

랜덤 포레스트

─트리 기반 머신러닝 알고리즘

─트리 노드에서 변수를 랜덤하게 선택함으로써 과적합 방지

─변수 중요도를 통해 중요한 변수 식별

─협업 필터링과 함께 쓰여 행렬 크기를 줄여주는 역할을 수행(상품 관련 축소)

 

K-means 클러스터링

─데이터 내 유사한 특성을 기반으로 그룹화하여 패턴을 이해하는 비지도학습 알고리즘

─협업 필터링과 함께 쓰여 행렬의 크기를 줄여주는 역할을 수행(고객 관련 축소)

 

 

3. 연구의 방법

분석 개요

─2023.10~2023.12 A사 구매 고객 2,637,420명의 주문 데이터 

─주문일시, 고객번호, 상품번호, 주문수량, 주문금액, 할인금액, 쿠폰사용수량, 주문 상품코드, 주문 영역코드, 결제수단 등 변수 존재

─파생변수(고객/주문시간대/주문요일/고객 활동성/상품유형 등) 생성

─window 통계량(3, 6개월간 평균, 표준편차 등)

 

실증분석

 

4. 연구 결과

랜덤포레스트를 이용한 상품 카테고리 선호도 예측

─A사 상품 대분류: 가구, 가전, 건강, 문화서비스, 보석장신구, 생활잡화, 속옷, 스포츠레저, 식품, 유아동용품, 의류, 이미용품, 주방용품, 침구침장, 패션잡화

─상위 4개 카테고리가 전체 매출의 다수를 차지하여 세부 분류 진행

─AUROC 값의 평균이 0.763으로 비교적 안정적임

─최댓값 0.904(Y=애완용품) 최솟값은 0.667(Y=베이스화장품)

─f1-score 평균 0.683, 최댓값 0.885(Y=애완용품) 최솟값은 0.532(Y=베이스화장품)

 

K-means 클러스터링을 활용한 고객 분류

─엘보우 방법으로 K 개수 선택 (K=100)

─카테고리 선호도 스코어 값을 기준으로 고객 분류 시 사용

협업 필터링

Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.