검색 상세

고객 이용 로그와 순환신경망을 활용한 이커머스 고객 이탈 예측

E-commerce customer churn prediction using recurrent neural network and sequential log data

초록/요약

이윤을 추구하는 기업에서 고객의 이탈은 기업의 존립을 위협하는 중요한 문제다. 이탈 고객이 증가하면 기업은 매출 감소에 직면하게 되어 신규 고객을 유치하기 위해 많은 비용을 지출해야 한다. 기업은 이탈이 예상되는 고객에게 적립, 할인 제공 등의 마케팅을 진행하여 기존 고객의 유지율(retention)을 높이려고 노력한다. 이탈 예정자에 대한 마케팅의 효율을 높이기 위해서는 정확도 높은 이탈 예측 모형의 구축이 요구된다. 본 논문은 화장품 관련 이커머스 사이트의 고객별 이용로그 데이터를 기반으로 고객 이탈 여부를 예측한다. 지도학습 기반 이진분류 문제인 이탈 예측 연구에는 지도학습 기반의 머신러닝 모델과 앙상블된 머신러닝 모델을 사용한 선행연구가 많이 관찰되었다. 머신러닝 모델의 성능 향상에 영향을 미치는 자질은 접속 주기, 마지막 구매 이후 경과일수와 같은 고객의 ‘행동적 특징’이었으며 주로 고객 이용 로그를 집계(aggregate)하거나 요약(static summarize)하는 식으로 획득하였다. 본 논문은 이커머스 고객이 시계열에 따라 변화하는 이용 패턴을 가지고 있는 점에 착안, 시퀀스를 학습하기 용이한 순환신경망 모델인 LSTM과 BiLSTM을 예측 모델로 선정했다. 그리고 순환신경망 모델의 성능을 비교하기 위해 기존 모델인 로지스틱 회귀와 XGB, 다층퍼셉트론을 베이스라인으로 도입했다. 실험 결과에 따르면 로그 데이터를 다변량 시계열로 변환해 LSTM과 BiLSTM으로 학습을 했을 때 기존 머신러닝 모델에 비해 개선된 재현율과 AUC를 보였다. 또한 단방향으로 패턴을 학습하는 LSTM보다는 양방향으로 가중치를 학습하는 BiLSTM이 성능 개선에 효과적이라는 사실을 도출할 수 있었다. Keyword: Churn Prediction, E-commerce, Customer Churn, LSTM, BiLSTM, sequential model, recurrent neural network, CRM

more

초록/요약

As the nature of a business is seeking profits, customer churn is a significant threat which can decide whether a business can sustain or not. The more the number of customers who would like to churn increases, the more companies face a decrease in sales and naturally they must allocate much of their budget to attract new customers as much as they churn. Companies conduct various marketing activities such as savings and discounts to increase the retention rate of existing customers. In order to raise the efficiency of marketing activities conducted to those who are expected to leave, it is required to build a highly accurate prediction model. This paper predicts customer churn based on customer usage data of cosmetics-related e-commerce sites. In the study of churn prediction, which is a binary classification problem based on supervised learning, many preceding studies using supervised learning-based machine learning models and ensemble machine learning models have been observed. Features influencing the performance improvement of the machine learning model were behavioral features of customers, such as access cycle and number of days since the last purchase, and were mainly obtained by aggregating or summarizing customer usage logs. This paper selects LSTM and biLSTM as models that can learn the time series pattern itself, focusing on the fact that e-commerce customers have changing usage patterns according to time series. And to compare the performance of recurrent neural networks, we introduced logistic regression, XGB, and multi-layer perceptron, which are existing models, as baselines. As a result of the experiment, when learning with LSTM and BiLSTM, which are time series-based deep learning techniques, improved recall and AUC compared to existing models were shown. In addition, it was possible to derive the fact that BiLSTM, which learns weights in both directions, is more effective in improving performance than LSTM, which learns patterns in one direction.

more

목차

1. 서론 1
1.1연구 배경 및 목적 1
1.2 논문의 구성 2
2. 선행연구 및 이론 3
2.1. 고객 이탈 예측(Customer Churn Prediction) 3
2.2 순차데이터 기반 고객 이탈 예측 연구 6
2.3 모델 선택 8
3. 연구 범위 및 방법 11
3.1 연구 데이터셋 11
3.2 이탈(Churn)의 정의 12
3.3 자질 집합(Feature Engineering) 15
3.4모델 구축(Model construction) 19
3.5 평가지표 24
3.6실험 환경 27
4. 연구결과 및 모델 성능 28
4.1 LSTM 과 BiLSTM 최적 모델 선택 28
4.2 최종 실험결과 30
5. 연구결과 및 시사점 33
6. 참고문헌 35

more