검색 상세

An Alternative Approach to Growth Mixture Model: Performance of Covariance Pattern Mixture Model

성장혼합모형의 대안으로서 공분산 패턴 혼합 모형의 성능 탐색

초록/요약

In the fields of education and social science, the growth mixture model (GMM) is frequently employed to identify heterogeneity in developmental trajectories within longitudinal data. GMM allows for flexible data modeling by explaining diverse subgroup growth trajectories through random effects. However, using random effects can complicate the estimation process, often leading to convergence issues. To mitigate such convergence problems, researchers commonly use constrained growth mixture models (GMMC), which set growth factor variances as equal across classes, or latent class growth models (LCGM), which constrain these variances to zero. While these adjustments can facilitate convergence, they may also introduce bias in parameter estimates compared to an unconstrained GMM (GMMU). Additionally, constrained models are often seen as overly specialized and difficult to generalize, with many constraints criticized for lacking solid theoretical justification. Given these limitations, McNeish and Harring (2020) introduced the covariance pattern mixture model (CPMM), which captures mean trajectories of subgroups in longitudinal data by modeling the covariance structure between repeated measures without using random effects. Previous simulation studies have shown that CPMM not only achieves more stable estimation than GMM but also improves accuracy in parameter estimation and class enumeration. Nonetheless, unlike the extensive research conducted on the performance of GMM across varied conditions, CPMM, which was introduced more recently, has not fully dealt with a range of conditions, such as sample size, class proportions disparities, and the degree of class separation. Moreover, despite the potential influence of covariance structure selection on CPMM’s performance, comparative analyses of CPMM with different covariance structures across diverse conditions remain scarce. Therefore, this study aimed to compare the performance of five models—GMMU, GMMC, LCGM, CPMM-CS (CPMM with compound symmetry), and CPMM-TP (CPMM with Toeplitz structure)—across a broader set of conditions. In a Monte Carlo simulation, a 3-class GMM with five time points was set as the population model. Simulation conditions included (1) sample size (200, 400, 700, 1500), (2) the degree of class separation (high, low), and (3) class proportions disparities (equal, relatively unequal, severely unequal). A total of 24 conditions were simulated, with 500 replications per outcome variable, generating data for each condition. Model performance was evaluated based on three criteria: (1) convergence rate, (2) class enumeration accuracy, and (3) parameter estimation accuracy. Class enumeration accuracy was assessed using AIC, BIC, SABIC, and BLRT, and parameter estimation accuracy was evaluated through measures of bias, RMSE, and visual comparisons of the mean trajectories for each latent class across models. The results revealed that GMMU exhibited the lowest convergence rates across all conditions, except when the degree of class separation was high and class proportions were relatively unequal. CPMM-TP, on the other hand, achieved the highest accuracy in class enumeration, except when evaluated using AIC with a sample size of 1500. Particularly under small sample sizes (i.e., 200), where GMM commonly faces convergence challenges, CPMM-TP outperformed GMMU in both convergence and class enumeration accuracy. While CPMM-CS generally achieved high convergence and parameter estimation accuracy, its performance in class enumeration was lower except when assessed with BIC under low class separation and a sample size of 200. In terms of parameter estimation accuracy, LCGM exhibited significant bias in all estimates except for intercepts under conditions of high class separation with a sample size of 200. GMMC had a severe bias in intercept when class separation was low. Under low class separation conditions, slope estimates across all models showed high bias, however, estimates from GMMU, CPMM-TP, and CPMM-CS were within acceptable levels for all other conditions. Also, GMMU exhibited a clear trend of reduced bias in all parameter estimates as the sample size increased, whereas other models displayed mixed patterns, with bias decreasing for some estimates while increasing for others. The present study provides a significant contribution by identifying a model that achieves stable convergence maintaining high accuracy in class enumeration and parameter estimation, thereby addressing the convergence issues often associated with GMM. While earlier research primarily focused on CPMM-CS, this study expands the discussion by investigating the performance of CPMM with different covariance structures under a broader set of conditions. Among these, CPMM demonstrated exceptional balance across all evaluation criteria, highlighting its potential as a viable alternative to GMM for applied researchers who focus on identifying the number of latent classes within longitudinal data and their mean trajectories. The findings of this study offer valuable guidance for selecting conditions that best support CPMM-TP, expanding the methodological options available for examining heterogeneous patterns in longitudinal data.

more

초록/요약

교육학 및 사회과학 분야에서는 종단 자료 내 존재하는 발달 궤적의 이질성을 탐색하기 위한 통계적 방법으로 성장혼합모형(growth mixture model; GMM)이 널리 사용되고 있다. 성장혼합모형은 이질적인 잠재집단 간 성장궤적을 무선효과로 설명하여 데이터를 유연하게 모델링하는 장점이 있지만, 해당 무선효과는 추정 과정을 복잡하게 만들어 수렴 실패의 문제를 초래할 수 있다. 이러한 비수렴 문제를 해결하기 위해 연구자들은 성장요인의 분산을 계층 간 동일하게 제약하는 모형(constrained GMM; GMMC) 혹은 0으로 제약하는 모형(latent class growth model; LCGM)을 적용함으로써 추정하는 모수의 수를 줄이는 방법을 활용하는 경우가 많다. 해당 모형들을 사용하면 수렴의 용이성이 증가하지만, 제약되지 않은 성장혼합모형(unconstrained GMM; GMMU)에 비해 모수 추정의 편향이 나타날 수 있으며, 제약 모형은 일반화가 어렵다는 제한점도 존재한다. 또한, 이러한 제약들은 이론적 근거에 기반한 타당화 과정 없이 관행적으로 이루어진다는 점에서 비판이 제기되기도 하였다. 이에 McNeish와 Harring(2020)는 무선효과 없이 반복 측정값 간 공분산 구조를 활용하여 이질적인 하위 집단의 평균 궤적을 포착할 수 있는 공분산 패턴 혼합 모형(covariance pattern mixture model; CPMM)을 제안하였다. CPMM 관련 시뮬레이션 선행 연구에 따르면 CPMM은 GMM에 비해 상대적으로 추정이 간편하고, 모수 추정이나 잠재계층 식별에 있어서도 보다 정확한 성능을 보이는 것으로 나타났다. 그러나 GMM의 성능을 다양한 조건에서 탐색한 선행연구들에 비해, 해당 연구는 표본 크기만을 시뮬레이션 조건으로 포함하는 등 다소 제한적인 조건에서 이루어졌다. 또한, CPMM은 적용되는 공분산 구조의 종류에 따라 성능 차이가 있을 수 있음에도 불구하고, 여러 공분산 구조에 기반한 CPMM의 성능을 다양한 조건에서 살펴본 연구는 거의 드물었다. 이러한 연구의 공백을 해소하기 위하여, 본 연구는 선행 연구보다 확장된 조건에서 GMMU, GMMC, LCGM, CPMM-CS(CPMM with compound symmetry covariance structure), CPMM-TP(CPMM with Toeplitz structure) 다섯 모형의 성능을 비교하고자 했으며, 수렴률, 잠재계층 수 추정의 정확도 및 모수 추정의 정확도 측면에서 성능을 평가했다. 몬테카를로 시뮬레이션을 위해 5개의 균일한 시점에 기반한 3-class GMM을 모집단 모형으로 설정하였다. 이전 연구에서 GMM의 성능에 영향을 미치는 것으로 알려진 (1) 표본 크기(200, 400, 700, 1500), (2) 잠재계층 간 분리 정도(높음, 낮음), (3) 잠재계층 비율 간 균형(균일, 일부 비균일, 매우 비균일)와 같은 다양한 조건을 고려하였다. 총 24개의 조건을 각 500회씩 반복하여 데이터를 생성한 후, 5개 모형을 적합하여 결과를 도출했다. 모형의 성능 비교를 위한 평가 지표로는 (1) 수렴률(convergence rate), (2) 잠재계층 수 추정의 정확도(class enumeration accuracy), (3) 모수 추정 정확도(parameter estimation accuracy)를 활용하였다. 다섯 모형의 잠재계층 개수 추정의 정확도를 평가하는 기준으로는 AIC, BIC, SABIC, BLRT를 사용하였으며, 모수 추정의 정확도는 bias, RMSE 및 각 모형에서 추정된 잠재계층별 평균 궤적의 시각적 비교에 기반하여 평가하였다. 연구 결과, GMMU의 수렴률은 잠재계층 간 분리 정도가 높고 잠재계층 비율이 일부 비균일한 경우를 제외한 모든 조건에서 가장 낮은 수준으로 나타났으며, 잠재계층 수는 표본크기가 1500일 때 AIC를 기준으로 평가한 경우를 제외하고 CPMM-TP가 가장 정확하게 추정했다. 특히 GMM의 수렴률이 낮은 조건으로 알려진 작은 표본크기 상황(즉, 표본크기가 200 이하인 조건)에서 CPMM-TP를 사용했을 때 GMMU에 비해 수렴률이 높았고, 최적의 잠재계층 수 추정에 있어서도 더 높은 수행력을 보였다. CPMM-CS는 수렴률과 모수 추정의 정확도는 대체로 우수했으나 잠재계층 수 추정에서는 잠재계층 분리 정도가 낮고 표본크기가 200이하일 때 BIC 기준으로 평가한 경우를 제외한 모든 조건에서 다소 낮은 성능을 보였다. 모수 추정의 정확도를 살펴본 결과, 표본크기가 200인 조건에서 LCGM은 잠재계층 간 분리 정도가 높을 때 절편을 제외한 모든 추정치에서, GMMC는 잠재계층 간 분리 정도가 낮을 때 절편 추정치에서 심한 편향을 보였다. 잠재계층 분리 정도가 낮은 조건에서의 기울기 추정치는 모든 모형이 높은 편향을 보였으며, GMMU와 CPMM-TP, CPMM-CS에 기반한 추정치는 이를 제외한 모든 조건에서 허용 가능한 수준으로 나타났다. 잠재계층 분리 정도가 낮을 때, 표본크기가 증가할수록 GMMU는 모든 모수 추정치에서 편향이 감소하는 경향이 뚜렷했으나, 다른 모형들은 편향이 일부 추정치에서만 감소하거나 오히려 증가하는 경향도 보였다. 본 연구는 GMM적용에 있어 주로 발생하는 수렴 문제에 대응하기 위해, 수렴이 원활히 이루어지면서도 모수 추정이나 잠재계층 추정의 정확성이 유지되는 모형을 찾고자 했다. 선행연구에서는 CPMM-CS의 성능만을 살펴보았으나, 본 연구는 보다 광범위한 조건에서 다양한 공분산 구조를 가진 CPMM을 포함하여 기존 논의를 확장하고자 했으며, 모든 관점에서 균형 잡힌 성능을 보이는 CPMM-TP의 잠재력을 확인하였다. 이를 통해 이질적인 종단 발달 궤적의 수와 잠재계층별 평균 궤적이 주 관심사인 연구자들에게 CPMM-TP가 GMM의 대안으로서 기능할 수 있다는 가능성을 제시하였다. 또한, 이러한 모형을 적용하고자 하는 연구자들에게 해당 모형을 사용하기에 적합한 조건을 제시했다는 점에서 학술적 의의를 지닌다. 본 연구의 결과를 통해 종단 자료의 이질적 패턴을 분석하고자 하는 연구자들이 고려 가능한 모형 선택의 폭을 넓힐 수 있을 것으로 기대한다.

more

목차

ABSTRACT i
국문 초록 iv
TABLE OF CONTENTS ix
LIST OF TABLES xi
LIST OF FIGURES xiii
CHAPTER 1. INTRODUCTION 1
1.1 Purpose of the Study 1
1.2 Research Questions 4
CHAPTER 2. THEORETICAL BACKGROUNDS 5
2.1 Growth Mixture Models 5
2.2 Latent Class Growth Models 8
2.3 Covariance Pattern Mixture Models 10
2.4 Previous Simulation Studies 15
CHAPTER 3. METHOD 19
3.1 Monte Carlo Simulation 19
3.2 Manipulated Conditions 21
3.3 Data Analysis 23
3.4 Evaluation Criteria 25
3.4.1 Convergence Rate 26
3.4.2 Class Enumeration Accuracy 26
3.4.3 Parameter Estimation Accuracy 28
CHAPTER 4. RESULT 30
4.1 Convergence Rates 30
4.2 Class Enumeration Accuracy 33
4.3 Parameter Estimation Accuracy 49
4.3.1 Bias 49
4.3.2 RMSE 57
4.3.3 Trajectory Bias 64
CHAPTER 5. CONCLUSION 72
5.1 Summary of the Study 72
5.2 Implications 75
5.3 Limitations and Significance 77
REFERENCES 79
APPENDICES 87
A. Mplus Syntax for Fitting CPMM with Toeplitz Covariance Structure 87
B. Bias 93
C. RMSE 99
D. Trajectory Bias 105

more