검색 상세

Bayesian Approach to Multilevel Topic Model

베이지안 접근법을 통한 다층 토픽 모델

초록/요약

This study proposes a Bayesian approach to parameter estimation in the Multilevel Topic Model (MTM), a topic model with a hierarchical structure that captures relationships among topics within a document, and compares its performance with the conventional Expectation-Maximization (EM) algorithm. MTM addresses the limitations of Latent Dirichlet Allocation (LDA), a typical method for topic modeling, by having a structure in which documents belong to a certain theme and multiple topics are dependent within that theme. To evaluate the performance of Bayesian estimation, various simulation scenarios were designed and compared with the EM algorithm. The results indicated that, in the mixed structure scenario (MM scenario) where both topic proportion θ and topic distribution β are mixed, the EM algorithm produced unstable estimates of the theme proportion π. The Bayesian approach, on the other hand, computes estimation and confidence intervals directly from the samples repeatedly drawn from the posterior distribution, making it more reliable than the EM algorithm. These results suggest that the Bayesian approach can provide more reliable parameter estimates and confidence intervals than the EM algorithm in MTM.

more

초록/요약

본 연구는 문서 내 토픽의 관계를 반영하는 계층적 구조를 적용한 토픽 모델인 Multilevel Topic Model에 대해 Bayesian 접근법을 적용하여 MTM의 파라미터를 추정하는 방법에 대해 제안한다. 또한 기존 Expectation Maximization (EM) 알고리즘 기반의 추정과 비교하였다. MTM은 문서가 특정 theme에 속하고, 해당 theme 내에서 여러 개의 토픽이 종속적으로 존재하는 구조를 가짐으로써 기존 토픽 모델링의 대표적인 방법인 Latent Dirichlet Allocation (LDA)의 한계점을 보완한다. 본 연구에서는 베이지안 추정의 성능을 확인하기 위해 다양한 시뮬레이션을 설계하고 EM알고리즘과 비교 실험을 수행하였다. 그 결과 특히 theme이 주어졌을 때 topic이 선택될 확률인 θ와 topic이 주어졌을 때 word가 선택될 확률인 β가 mixed인 구조(MM 시나리오)에서 EM알고리즘이 theme proportion π를 불안정하게 추정함을 확인하였다. 반면 베이지안 접근법은 posterior 분포로부터 반복샘플링한 분위수를 통해 신뢰구간을 직접 계산하기 때문에 EM알고리즘보다 신뢰성있는 결과를 보였다. 이러한 결과는 MTM에서 베이지안 접근법 기반 추정이 EM알고리즘보다 더 신뢰성있는 파라미터 추정과 신뢰구간을 제공할 수 있음을 시사한다.

more

목차

Abstract i
국문초록 ii
Table of Contents iii
List of Tables v
List of Figures vi
1. Introduction 1
2. Model Structure 4
2.1 Latent Dirichlet Allocation 4
2.2 Multilevel Topic Model 5
3. Estimation 9
3.1 Likelihood 9
3.2 Upward Downward algorithm 10
3.3 Bayesian Estimation 12

4. Simulation 15
4.1 Simulation Set Up 15
4.2 Result 17
5. Conclusion 21
Reference 23

more