랜덤포레스트를 위한 상관예측변수 중요도
- 주제(키워드) random forests , variable importance , correlation
- 발행기관 고려대학교 대학원
- 지도교수 조형준
- 발행년도 2021
- 학위수여년월 2021. 2
- 학위구분 석사
- 학과 대학원 통계학과
- 세부전공 응용통계학 전공
- 원문페이지 43 p
- UCI I804:11009-000000234998
- DOI 10.23186/korea.000000234998.11009.0001192
- 본문언어 한국어
- 제출원본 000046070022
초록/요약
랜덤포레스트는 의사결정나무가 가진 불안정성을 보완하고 예측 정확도를 높여 현재까지 대중적으로 쓰이고 있는 방법이다. 하지만, 정확도를 높인 대신 해석하기 어렵다는 문제점이 생겼고, 이를 보완하기 위해 변수중요도로 특정 변수가 랜덤포레스트의 성능에 얼마나 영향을 주는지 확인해왔다. 그러나, 어떤 변수가 중요한 변수인지 알려줄 것으로 기대되는 변수중요도는 예측변수가 다른 예측변수와 선형 또는 비선형 상관관계가 있고, 그에 대한 상관계수가 높을수록 그 변수가 랜덤포레스트에 줄 수 있는 영향력이 본래보다 낮게 편향된 수치를 보이는 경향이 있다. 그로 인해 분석에 도움이 되는 변수를 선별할 때, 중요한 변수를 중요하지 않다고 판단하는 상황이 발생할 수 있다. 본 논문은 랜덤포레스트의 변수중요도가 낮게 편향되는 문제를 확인하고 해결할 방법을 제안한다. 먼저 기존의 변수중요도 알고리즘과 이를 수정한 알고리즘을 설명한 후, 모의실험을 통해 변수중요도의 하향 편향과 이것의 개선된 결과를 보여주었다. 또한, 실제 자료를 사용한 결과, 실제 자료에도 수정한 변수중요도의 효과를 확인할 수 있었다.
more목차
제 1 장 서론 1
제 2 장 분류 변수중요도 4
2.1 MDI 변수중요도 5
2.2 Max MDI 변수중요도 6
2.3 MDA 변수중요도 9
2.4 Max MDA 변수중요도 10
제 3 장 모의실험 13
제 4 장 사례 분석 26
4.1 자료 소개 26
4.2 제안 알고리즘 적합 27
제 5 장 결론 35
참고문헌 36

