Weighted Validation of Heteroscedastic Regression Models by Cross-validation
- 주제(키워드) Cross-validation , Weight , Heteroscedasticity
- 발행기관 고려대학교 대학원
- 지도교수 정윤서
- 발행년도 2020
- 학위수여년월 2020. 2
- 학위구분 석사
- 학과 대학원 통계학과
- 세부전공 응용통계학
- 원문페이지 56 p
- UCI I804:11009-000000128053
- DOI 10.23186/korea.000000128053.11009.0000956
- 본문언어 영어
- 제출원본 000046022622
초록/요약
This paper suggests the method which solves heteroscedasticity problem in model validation step, Weighted Cross-validation. This method calculates the evaluation metric, using inverse of predicted variances as weight. The variances are predicted by IQR from fitted quantile regression in training data. The method controls heteroscedasticity by reflecting that observations which have large variance of error are more likely to get large residual. We study this method by using ε-SVR, Smoothing spline and SCAD and the results of weighted cross-validation is better than those of original cross-validation in simulation studies and real data applications.
more초록/요약
본 논문은 교차검증의 모형 검증 단계 (Model validation step)에서 이분산성을 해결하는 방법인 가중 교차검증 (Weighted Cross-validation)을 제안한다. 이 방법은 검증에 사용되는 데이터의 이분산성을 예측한 후, 예측한 분산의 역수를 가중치로 사용하여 모형의 검증 단계에서의 평가 지표를 계산한다. 분산의 추 정치는 학습 데이터에서 적합한 분위수 회귀모형을 이용한 시험 데이터에서의 사분범위 예측값이다. 이러한 방법은 오차의 분산이 클수록 잔차가 클 확률이 높은 것을 반영하여 이분산성을 해결하고자 하는 것이다. 이 방법의 성능을 평가하기 위해 ε-SVR, Smoothing spline, SCAD 모형을 사용한 모의실험과 실제 데이터 분석을 진행하였고 기존의 교차검증 방법보다 좋은 성능을 가짐을 확인하였다.
more목차
1 Introduction 1
2 Weighted Cross-validation 5
3 Simulation Studies 12
3.1 Univariate Case 13
3.1.1 ε-support vector regression(ε-SVR) 13
3.1.2 Smoothing spline 16
3.2 Multivariate Case 19
3.2.1 Smoothly clipped absolute deviation (SCAD) 19
4 Real Data Applications 25
4.1 Boston Housing data 26
4.2 LIDAR data 29
4.3 Barro-Lee Educational Attainment data 33
5 Concluding Remarks 39

