검색 상세

A Three-Step Maximum Likelihood Approach to the Multilevel Topic Model

세 단계 최대우도 접근법을 활용한 다층 토픽 모델링

초록/요약

Topic modeling is a widely used method for analyzing text data to identify latent topics within documents and to extract meaningful topics from unstructured textual content. A commonly used probabilistic topic modeling framework, Latent Dirichlet Allocation (LDA; Blei et al., 2003), models each document as being generated from a combination of latent topics, with each topic characterized by its own probability distribution over terms. However, LDA has limitations in capturing topic dependencies within documents and in achieving both comprehensiveness and specificity simultaneously in topic representation. To overcome these limitations, the Multilevel Topic Model (MTM) has been proposed based on a nonparametric random effects framework with a hierarchical latent structure. MTM introduces a document-level topic called “theme” above the word-level topics, enabling the model to account for topic dependencies through its hierarchical structure. Additionally, by separating document-level themes from word-level topics, MTM achieves comprehensiveness and specificity among topics. This study applies the Three-Step Approach (Vermunt, 2010; Lyrvall et al., 2024) to the MTM to examine the extent to which covariates determine the assignment of documents to latent themes, while accounting for classification error in the structural model. In this framework, document-level covariate is combined to the theme proportions through a logit form. The Three-Step approach is composed of the following stages: First, the MTM without covariate is estimated to identify the latent structure. Second, documents are probabilistically assigned to themes using posterior distributions, and a misclassification matrix is constructed to summarize the uncertainty in assignments. Third, this matrix is integrated into the model to correct for classification errors when estimating unbiased covariate effects on theme memberships. For the empirical analysis, the CMU 2008 Political Blog Corpus is employed, with the political orientation of each blog serving as a document-level covariate. This approach enables a systematic assessment of covariate effects on latent themes and examines how the distribution of themes varies across political orientation. Moreover, in comparison with the one-step approach, it constitutes to be a legitimate and practically useful modeling alternative.

more

초록/요약

토픽 모델링은 텍스트 데이터를 분석하여 문서 내 잠재적인 주제(topic)를 분류하고, 비정형 텍스트 데이터에서 의미 있는 토픽을 식별하는 데 활용된다. 대표적인 확률적 토픽 모델인 Latent Dirichlet Allocation(LDA)은 문서별로 토픽 분포를 확률적으로 추정하는 방식으로 발전해왔다. 그러나 LDA는 동일 문서 내 존재하는 토픽 간의 관계를 반영하지 못하고, 각 토픽이 포괄성과 구체성을 동시에 갖추는 데에도 한계가 있다. 이러한 한계를 극복하기 위해, 비모수적 랜덤 효과 다층 잠재 계층 구조를 기반으로하는 Multilevel Topic Model(MTM)이 제안되었다. MTM은 토픽 상위 수준에 테마라는 개념을 도입하여, 문서 수준의 테마와 단어 수준의 토픽을 분리함으로써 토픽 간 의존성을 계층적으로 설명하고, 주제 해석에서 포괄성과 구체성을 동시에 달성할 수 있도록 설계되었다. 본 연구는 MTM에 세 단계 접근법을 적용하여 테마 할당 과정에서 발생하는 분류 오류를 보정하고 문서 내부 또는 외부의 메타데이터인 공변량이 테마에 미치는 영향을 분석하였다. 이때 공변량은 문서 수준의 테마 비율에 로지스틱 형식을 통해 링크되었으며, 세 단계 접근법은 다음과 같은 단계로 구성된다: 첫째, 공변량 없이 MTM을 적합하여 잠재 테마와 토픽의 구조를 추정한다. 둘째, 사후확률을 기반으로 각 문서를 특정 테마에 할당하고, 이 과정에서 발생하는 분류 오류 행렬을 계산한다. 셋째, 계산된 분류 오류를 보정 항으로 반영하여, 공변량이 잠재 테마에 미치는 영향을 편향 없이 추정한다. 실증분석에는 CMU 2008 Political Blog Corpus를 활용하였으며, 공변량으로는 각 문서가 속한 블로그의 정치적 성향을 사용하였다. 아울러 일단계 접근법과 비교를 통해 세 단계 접근법의 공변량 추정의 신뢰도를 평가하였다. 이를 통해 각 문서의 테마 비율이 블로그 성향에 따라 어떻게 달라지는지를 분석하였다.

more

목차

Abstract i
국문초록 iii
Table of Contents iv
List of Tables vii
List of Figures viii

1 Introduction 1
2 Model Structure 4
2.1 The Generative Process 4
2.2 Likelihood Function 5
2.3 Covariates 6
3 Parameter Estimation 8
3.1 Step 1 - Multilevel Topic Model without Covariates 8
3.1.1 Expectation-Maximization Algorithm 9
3.1.2 Upward-Downward Algorithm 10
3.2 Step 2 - Latent Theme Assignment and the Estimation of Classification Error 12
3.3 Step 3 - Bias-Adjusted Modeling of Covariate Effects on Themes 14
4 Application 17
4.1 Data Description 17
4.2 Selectiong the Numbers of Latent Themes and Topics 18
4.3 Three-Step Framework for the Multilevel Topic Model 19
4.3.1 Step 1 - Multilevel Topic Model without Covariates 19
4.3.2 Step 2 - Latent Theme Assignment and the Estimation of Classification Error 22
4.3.3 Step 3 - Bias-Adjusted Modeling of Covariate Effects on Themes 24
5 Conclusion 26
Reference 28

more