검색 상세

Clustering과 Supervised Learning을 활용한 P2P 대출 상환 여부 예측

The prediction of P2P loan status using clustering and superised learning

초록/요약

P2P 대출은 크라우드 펀딩으로, 전통적인 금융기관이 아닌, 온라인 플랫폼에서 개인 간에 필요한 자금을 대출해주는 서비스이다. 전세계적으로 P2P시장의 규모가 커지고 관심이 급격하게 증가하는 상황에서 P2P대출시장의 채무불이행 및 안정성 측면에서 문제가 제기된다. 본 연구에서는 딥 러닝, 머신 러닝 모델로 P2P 대출 상환여부를 예측하고, 대출 상환 예측의 새로운 시각을 제시하고자 한다. 대출 상환을 기존 신용등급 방식이 아닌, 비지도학습과 지도 학습의 결합된 방식으로 대출 상환 여부를 예측하고자 한다. 대출 데이터를 K-means Clustering을 통해서 K 개의 군집을 생성하고, 각 군집에 대하여 Label을 생성하였다. Label을 대출 상환여부를 예측하는 하나의 Feature로 사용하여 기존 신용등급과의 정확도를 비교하였다. RFE(Recursive Feature Elimination) 기법으로 중요한 변수를 확인하였으며, 해당 Label을 포함한 금융데이터를 Artificial Neural Networks (ANNs), XG Boost, Random Forest모델로 분석하여 대출 상환여부를 예측하였다. 기존의 신용등급과 Clustering Label변수의 유무에 따라 Confusion Matrix의 Accuracy, ACU값의 차이가 있는지 비교하였다. 해당 금융 데이터셋에서는 딥 러닝 보다는 머신 러닝 모델의 Accuracy값이 높았으며, 모델 별로 효과적인 샘플링 방법에 차이가 있었다. 또한, Cluster ID가 없을 때 보다 있을 때 Accuracy값을 증가함으로써, Clustering을 활용하여 대출상환예측 하는 것이 유의미하다는 것을 확인하였다. RFE(Recursive Feature Elimination)로 169개의 변수 중에서 39개의 변수로 선택했을 때 AUC값의 더욱 유의미해지는 것을 확인하였다.

more

목차

1장. 서론 1
1.1 연구 배경 및 목적 1
1.1.1 P2P 금융(Peer-to-Peer Financing)시장의 성장 1
1.1.2 씬 파일러(Thin-filer) 를 위한 대안 평가 필요성 2
1.2 논문의 구성 2
2장. 이론적 배경 4
2.1 대출 상환 여부 예측 관련 선행연구 4
2.2 SMOTE (Synthetic Minority Oversampling Technique) 5
2.3 Recursive Feature Elimination (RFE) 5
2.4 데이터 군집화 (Clustering) 6
2.5 Artificial Neural Networks (ANNs) 6
2.6 XGBoost (eXtreme Gradient Boosting) 7
2.7 랜덤 포레스트 (Random Forest) 7
2.8 앙상블 (Ensemble) 8
3장. 실험 데이터 및 모델 설계 9
3.1 실험 환경 9
3.2 실험 데이터 9
3.2.1 실험 데이터 구성 9
3.2.2 설명변수 및 종속변수 9
3.3 샘플링 방법 11
3.4 데이터 전처리 12
3.4.1 이상치(Outlier) 제거 12
3.4.2 부정적 정보 이진 분류 13
3.4.3 Null값 처리 13
3.4.4 날짜 데이터 처리(대출 실행일, 신용 개설일) 15
3.4.5 범주형 데이터 처리 15
3.5 연구 모형 설계 15
4장. 연구 분석 및 결과 18
4.1 K-means Clustering (비지도 학습) 18
4.2 Under Sampling 과Over Sampling 20
4.2.1 Random under Sampling 20
4.2.2 Over Sampling (SMOTE) 21
4.3 주요 변수 확인 22
4.3.1 Random Forest 22
4.3.2 Recursive Feature Elimination (RFE) 24
4.4 대출상환 여부 예측 (클러스터링 활용) 25
4.4.1 분류 성능평가 지표 25
4.4.2 Artificial Neural Networks (ANNs) 25
4.4.2 XGBoost 28
4.4.3 Random Forest 29
4.4.4 Ensemble (Hard Voting Classifier) 31
5장. 결론 및 향후 과제 33
5.1 모델 평가 및 결론 33
5.1.1 기존 신용등급 활용 대출상환 예측 정확도 비교 33
5.1.2 클러스터링 활용 대출상환 예측 정확도 비교 34
5.2한계점 및 향후 과제 36
참고문헌 37

more