검색 상세

빅데이터 분석을 위한 실시간 로지스틱 회귀모형에 관한 연구 : 베이지안 접근법을 중심으로

초록/요약

본 논문은 배치 방식에 대비되는 온라인 모형 적합 방법을 샘플 수가 수천만건에 이르고 다수의 범주형 변수, 그리고 범주의 개수가 유동적인 대규모 데이터에 적용하기 위한 모형 적합 방법과 해싱을 이용한 가변수 코딩(Feature Hashing)에 대해 고려해 보고 각 방법의 특성에 대해서 고찰하였다. 적합 방법으로는 최적화 알고리즘의 하나인 확률적 경사하강법(Stochastic Gradient Descent)과 변분 베이즈(Variational Bayes) 방법의 하나인 추정된 밀도 필터링(Assumed Density Filtering)을 소규모 데이터에 적용하여 그 성능이 배치 방식의 로지스틱 회귀 모형에 비견할만 하다는 것을 확인 했고, 이러한 방법이 대규모 데이터 분석에도 유용함을 확인하기 위해 천만건 이상의 이항 반응 변수 데이터에 적용해 보았다.

more

목차

제 1 장 끎말 1
제 1 절 개요 . . . . . . . . . . . . . . . . . . . . . . . 1
제 2 장 해싱을 이용한 가변수 코딩과 온라인 최적화 알고리즘 4
제 1 절 해싱을 이용한 가변수 코딩(Hashing Trick) . . . . . 4
제 2 절 온라인 최적화 방법 . . . . . . . . . . . . . . . . 6
제 3 절 베이지안 로지스틱 회귀 모형 . . . . . . . . . . . 8
제 4 절 추정된 밀도 필터링(Assumed-density filtering) . . 10
제 5 절 일반화 선형 모형에서의 가우시안 근사 . . . . . . . 11
제 3 장 사례 연구 14
제 1 절 타이타닉 탑승자 자료 . . . . . . . . . . . . . . . 14
제 2 절 온라인 광고 자료 . . . . . . . . . . . . . . . . . 16
제 4 장 맺음말 20
참고문헌 22

more