검색 상세

군집분석을 이용한 결측값 대치방법

  • 발행기관 고려대학교
  • 발행년도 2004
  • 학위명 석사
  • 학과 및 전공 고려대학교 대학원:통계학과
  • 식별자(기타) DL:000005718693
  • 본문언어 한국어
  • 서지제어번호 000000872632

초록/요약 도움말

자료의 분석에 앞서 주어진 자료가 결측값을 포함하게 되는 경우 결측값을 포함하는 개체를 제거하거나 결측값을 대치(imputation)하고 분석을 하게 된다. 결측자료에 대해서 최근에 많이 사용하고 있는 대치법은 KNN 알고리즘(K-Nearest Neighbor)에 의한 대치법이다. 그러나 KNN 알고리즘은 고정된 k값에 의하여 의존하는 성향이 강하기 때문에 지역적인 성격을 반영하기가 어렵다. 이러한 문제를 보완하고자 k-means clustering을 사용한 대치방법을 제안하였다. 본 논문은 k-means clustering에 최대 군집 크기(Maximum Cluster Size)라는 개념을 제안하여 자료의 지역적인 성격을 반영하고자 하였다. 최대 군집 크기는 군집의 크기가 모두 동일하지 않다는 개념에서 고정된 KNN의 K와 비교하기 위하여 제안된 것이다. 모의실험을 통하여 KNN 알고리즘에 의한 대치법과 비슷한 결과를 제시하거나 더 좋은 결과를 제시함을 확인하였다.

more

목차 도움말

요약 = ⅰ
목차 = ⅱ
1. 서론 = 1
1.1. 자료 내에 결측값의 문제 = 1
1.2. 자료내의 결측값 발생원인 = 1
1.3. 동기 및 목적 = 3
2. 알고리즘의 소개 = 4
2.1. 기존 알고리즘 = 4
2.1.1. 알고리즘에 사용될 용어 정리 = 4
2.1.2. KNN 대치 알고리즘 = 5
2.1.3. KNN 알고리즘의 간단한 예 = 5
2.2. 제안된 알고리즘 = 6
2.2.1. k-means 알고리즘 = 7
2.2.2. Restricted k-means 대치 알고리즘 = 7
3. 모의실험과 사례분석 = 10
3.1. 모의실험 = 10
3.1.1. 구형의 자료 = 10
3.1.2. 타원형의 자료 = 16
3.2. 사례분석 = 18
4. 결론 및 토의 = 22
5. 부록 = 24
6. 참고문헌 = 26

more