The Comparison of Methods for Model Averaging : Stacking and Bayesian Model Averaging
- 주제(키워드) Model Averaging , Stacking , Bayesian Model Averaging
- 발행기관 고려대학교 대학원
- 지도교수 송주원
- 발행년도 2014
- 학위수여년월 2014. 2
- 학위구분 석사
- 학과 일반대학원 통계학과
- 원문페이지 54 p
- 실제URI http://www.dcollection.net/handler/korea/000000048626
- 본문언어 영어
- 제출원본 000045791495
초록/요약
In a regression model, it is common to concentrate our efforts on selection of a model which best explains a response variable. Instead of choosing a model, it is often useful to combine several plausible models for better prediction. In this respect, methods such as stacking and Bayesian model averaging (BMA) have been suggested from the perspective of averaging methods among the candidate models. The advantage of such techniques is to reflect the model uncertainty. Since stacking and BMA approaches have different properties, it is hard to distinguish which method is more appropriate to a specific situation. In this paper, we compare the bias of estimators and prediction error based on each combining method under several simulation settings. First, when a true model involves a square terms, it is examined which model averaging methods provide better performance if the candidate models does not contain a true model. Additionally, when we consider a linear regression model, we compare two model-combining method if some assumptions are violated : (1) data include outliers, and (2) the error terms do not follow a normal distribution. Finally we provide an example in which confirms that such model averaging method can consistently gives a better performance than the ordinary least squared method in real data by using New York rivers data.
more초록/요약
회귀분석 모형을 적합 시킬 때, 여러 후보 모형 중 반응변수를 가장 잘 설명하는 하나의 모형을 선택하기 위해 많은 노력을 기울인다. 그러나 때때로 단 하나의 후모 모형을 선택하는 것 보다는 반응 변수를 잘 설명하는 여러 후보 모형을 결합시킨 모형을 선택하는 것이 예측력을 높이는데 도움이 된다. 이러한 관점에서 후보 모형들을 결합시키는, 여러 기법들 중 쌓기기법(stacking)과 베이지안 모형 결합 (Bayesian Model Averaging)이 대표적인 두가지 방법으로 제안되어 왔다. 이러한 기법들은 모형의 불확실성을 잘 반영하여 설명한다. 하지만 베이지안 모형 결합과 쌓기기법은 각각 다른 접근 방법으로 모형을 결합시키기 때문에 특정상황에서 어떠한 기법이 더 유리한지 파악하기 쉽지 않다. 이 논문에서는 다양한 상황에서 두 기법의 추정치의 성능과 모형의 예측력을 비교한다. 우선 참 모형이 제곱항을 포함할 경우, 후보 모형이 참 모형을 포함하고 있지 않다면 어떤 모형 결합 기법이 더 좋은 결과를 주는지 비교한다. 또한 자료가 이상치를 포함한 경우와 오차항이 정규분포를 따르지 않는 경우와 같이 일반적인 선형 회귀 모형을 적합할 때 가정이 위배되면 어떠한 모형 결합 기법이 추정치와 예측에서 더 좋은 결과를 주는지 알아본다. 또, 뉴욕 지역 강의 오염도를 측정한 자료를 사용하여 두 결합 기법 및 stepwise 변수선택법의 결과를 모든 변수를 고려한 회귀 모형 분석의 결과와 비교하였다.
more목차
1 Introduction 5
2 Stacking 7
2.1 Definition 7
2.1.1 Restriction Type 1 (S1) 10
2.1.2 Restriction Type 2 (S2) 10
2.1.3 Restriction Type 3 (S3) 11
2.1.4 Restriction Type 4 (S4) 11
2.2 Estimation of Stacked coefficients 12
3 Bayesian Model Averaging 14
3.1 Definition 14
3.2 Estimation of Combined Coefficients in BMA 17
4 Simulations 19
4.1 When a True Model is Not Included in the Candidate Model List 19
4.2 Data Containing Outliers 22
4.3 When Error Terms Come From Non-Normal Distribution 31
4.3.1 Heavy-Tailed Data From a t-Distribution 31
4.3.2 Poisson Response Data 32
5 Application : New York Rivers Data 38
5.1 Introduction 38
5.2 Explanatory Data Analysis and Estimation of Parameter 39
5.3 Comparison Between Stepwise Method and Model Averaging Methods 42
6 Discussion 45
Bibliography 48

