머신러닝 알고리즘을 결합한 협업필터링 개인화 추천시스템 응용연구
김재식, 김범수
서강대학교 경영대학
1. 서론
─협업 필터링 알고리즘: 온라인 추천 시스템의 핵심 기술
─사용자와 다른 사용자들의 상호작용을 분석함으로써 맞춤형 추천 제공
─협업 필터링을 사용하되 다른 알고리즘을 결합하여 대용량 데이터에서 작동가능한 방안 제안
연구 목적
─추천 시스템의 정확도와 개인화 수준 향상시킬 새로운 방법론 제안
─랜덤 포레스트 알고리즘: 사용자의 상품 카테고리별 선호도 예측
─K-means 클러스터링: 사용자를 여러 그룹으로 분류, 유사한 패턴의 사용자 그룹화
─두 알고리즘의 결과를 바탕으로 협업 필터링 적용
2. 이론적 배경
협업 필터링
─사용자와 상품 간 관계를 나타내는 이진 데이터를 담은 행렬 기반
─코사인 유사도를 바탕으로 사용자별 상품 예측 점수 계산
─상품 숫자가 증가할수록 계산 복잡성이 커짐
─희소성이 있는 상품의 경우 유사도에 부정적인 영향
랜덤 포레스트
─트리 기반 머신러닝 알고리즘
─트리 노드에서 변수를 랜덤하게 선택함으로써 과적합 방지
─변수 중요도를 통해 중요한 변수 식별
─협업 필터링과 함께 쓰여 행렬 크기를 줄여주는 역할을 수행(상품 관련 축소)
K-means 클러스터링
─데이터 내 유사한 특성을 기반으로 그룹화하여 패턴을 이해하는 비지도학습 알고리즘
─협업 필터링과 함께 쓰여 행렬의 크기를 줄여주는 역할을 수행(고객 관련 축소)
3. 연구의 방법
분석 개요
─2023.10~2023.12 A사 구매 고객 2,637,420명의 주문 데이터
─주문일시, 고객번호, 상품번호, 주문수량, 주문금액, 할인금액, 쿠폰사용수량, 주문 상품코드, 주문 영역코드, 결제수단 등 변수 존재
─파생변수(고객/주문시간대/주문요일/고객 활동성/상품유형 등) 생성
─window 통계량(3, 6개월간 평균, 표준편차 등)
실증분석
4. 연구 결과
랜덤포레스트를 이용한 상품 카테고리 선호도 예측
─A사 상품 대분류: 가구, 가전, 건강, 문화서비스, 보석장신구, 생활잡화, 속옷, 스포츠레저, 식품, 유아동용품, 의류, 이미용품, 주방용품, 침구침장, 패션잡화
─상위 4개 카테고리가 전체 매출의 다수를 차지하여 세부 분류 진행
─AUROC 값의 평균이 0.763으로 비교적 안정적임
─최댓값 0.904(Y=애완용품) 최솟값은 0.667(Y=베이스화장품)
─f1-score 평균 0.683, 최댓값 0.885(Y=애완용품) 최솟값은 0.532(Y=베이스화장품)
K-means 클러스터링을 활용한 고객 분류
─엘보우 방법으로 K 개수 선택 (K=100)
─카테고리 선호도 스코어 값을 기준으로 고객 분류 시 사용
협업 필터링