리뷰데이터를 활용한 추천시스템 고도화 연구
A Study on the Improvement of Recommendation System Using Review Data
초록/요약
According to IBM estimates, today's global data transmission, data centers, and mobile computers produce about 2.5 billion gigabytes of data per day. A recommendation system based on a lot of data generated through the development of digital technology is being introduced. Studies related to the existing recommendation system to provide customized information to individuals have been mainly analyzed using structured data that are easy to quantify, such as users' purchase status, ratings on items, and the number of visits. There is a problem that recommending limited to structured data is less accurate. This paper aims to derive an emotional index by analyzing the review data left by the user, generate a new rating using the derived emotional index, and compare it with a recommendation system limited to the rating. Performance evaluation was conducted using user-based collaborative filtering of memory-based filtering, item-based collaborative filtering, and singular value decomposition in model-based filtering. Two directions of evaluation were conducted, the first using RMSE and MAE based on rating prediction, and the second using Precision@K and Recall@K based on ranking prediction. It was found that the performance of the recommendation system was better when using the corrected rating using the review data proposed in this paper in two directions: the rating prediction base and the ranking prediction base.
more초록/요약
IBM의 추정에 따르면 오늘 날의 글로벌 데이터 전송, 데이터 센터 및 모바일 컴퓨터는 하루 약 25억 기가바이트의 데이터를 생산한다. 이러한 디지털 기술의 발달을 통해 생성된 많은 방대한 데이터는 다양한 분양에서 활용되고 있으며, 추천시스템은 이러한 활용 사례 중 하나이다. 개인에게 맞춤형 정보를 제공해주기 위한 기존 추천 시스템 관련 연구들은 사용자들의 구매 여부, 아이템에 대한 평점, 방문 수 등 계량화하기 용이한 정형 데이터를 활용한 분석이 주류를 이뤘다. 정형데이터에 국한하여 추천하는 것은 정확도가 떨어진다는 문제가 제기되고 있는다. 본 논문은 사용자가 남긴 리뷰데이터를 감성 분석하여 감성지수를 도출한다. 이후, 도출된 감성지수를 활용하여 평점을 보정하고 보정되지 않은 평점과의 성능 비교를 진행하고자 한다. 메모리 기반 필터링의 유저 기반 협업 필터링과 아이템 기반 협업 필터링, 모델 기반 필터링에서 특이값 분해를 사용하여 성능 평가를 진행하였다. 두가지 방향의 평가를 진행하였는데, 첫번째는 평점 예측 기반으로 RMSE와 MAE를 이용하여 비교하였고, 두번째로는 랭킹 예측 기반으로 Precision@K와 Recall@K를 이용하여 비교하였다. 평점 예측 기반과 랭킹 예측 기반 모두 본 논문에서 제안한 리뷰데이터를 활용하여 보정한 평점을 이용하였을 때 추천 시스템의 성능이 더 좋은 것으로 나타났다.
more목차
1장. 서론 1
2장. 이론적 배경 3
2.1 추천 시스템 3
2.1.1 콘텐츠 기반 필터링 4
2.1.2 협업 필터링 4
2.1.2.1 메모리 기반 협업 필터링 5
2.1.2.2 모델 기반 협업 필터링 5
2.1.3 하이브리드 추천 시스템 5
2.2 감성분석 6
3장. 분석 방법 7
3.1 데이터 7
3.2 감성 분석 8
3.3 평점 보정 12
3.4 평점 예측 13
4장. 분석 결과 17
4.1 평가 방법 17
4.1.1 평점 예측 기반 17
4.1.2 랭킹 예측 기반 18
4.2 평가 및 결과 19
4.2.1 평점 예측 기반 19
4.2.2 랭킹 예측 기반 24
5장. 결론 30
참고문헌 32