검색 상세

복잡한 구조를 갖는 데이터에 대하여 확장된 클러스터링 방법에 관한 연구

초록/요약

본 연구에서는 복잡한 구조를 갖는 데이터들에 대하여 기존의 클러스터링 방법들을 확장시킨 두 가지의 방법들을 소개한다. 첫 번째 방법은 데이터에 중도절단 뿐만 아니라 결측치가 함께 발생한 변수가 포함된 경우에 정규혼합모형을 적합할 수 있도록 깁스 샘플링(Gibbs sampling)을 사용한 클러스터링을 확장시킨 방법이다. 클러스터의 개수를 추정하기 위해서는 편차 정보 기준(DIC)이 적용되며, 지하수의 오염형태를 알아보기 위한 데이터와 모의실험을 통해 이 방법의 성능을 확인한다. 그리고 두 번째 방법은 기존의 타이트 클러스터링(tight clustering)을 확장시킨 feature-specific 타이트 클러스터링으로, 대용량 데이터(high-throughput data)인 마이크로어레이(microarray) 데이터에서 가장 큰 정보력을 갖는 클러스터들을 찾기 위한 방법이다. 두 가지의 모의실험에서 적절한 모수값들과 확장된 방법의 우수성을 확인하며, 모의실험 결과를 토대로 확장된 방법을 실제 마이크로어레이 메타데이터에 적용해본다.

more

목차

제 1 장 서 론 1

제 2 장 중도절단과 결측치가 있는 데이터에서 깁스 샘플링을 사용한 정규혼합모형의 추정 3
2.1 서 론 3
2.2 모 형 6
2.2.1 정규혼합모형(Normal Mixture Model) 6
2.2.2 중도절단과 결측치가 있는 정규혼합모형의 우도함수 7
(1) 관측된 우도함수(Observed Likelihood Function) 7
(2) 완전 우도함수(Complete Likelihood Function) 11
2.2.3 베이지안 모형(Bayesian Model) 13
2.3 깁스 샘플링(Gibbs Sampling) 16
2.4 편차 정보 기준(DIC)과 모형의 선택 21
2.5 실제 데이터의 적용 사례 24
2.6 모의실험 31
2.7 결 론 39

제 3 장 대용량 데이터에 대한 Feature-Specific Tight Clustering 40
3.1 서 론 40
3.2 타이트 클러스터링(Tight Clustering) 43
3.3 Adjusted Rand Index 46
3.4 Feature-Specific 타이트 클러스터링 49
3.5 모의실험 53
3.6 실제 데이터의 적용 사례 60
3.7 결 론 63

제 4 장 결 론 64

참 고 문 헌 66

more