Multilevel Topic Model with Group-level Covariates : An Application to Topic Dependency of Political Column Corpus
집단 수준의 공변량을 포함한 다층토픽모형 : 정치 칼럼 문서의 토픽 상호 연관성 연구
- 주제(키워드) multilevel LCA , nonparametric , topic clustering , covariates , EM algorithm , Newton-Raphson method
- 발행기관 고려대학교 대학원
- 지도교수 정환
- 발행년도 2024
- 학위수여년월 2024. 8
- 학위명 석사
- 학과 및 전공 대학원 통계학과
- 원문페이지 33 p
- 실제URI http://www.dcollection.net/handler/korea/000000289160
- UCI I804:11009-000000289160
- DOI 10.23186/korea.000000289160.11009.0001570
- 본문언어 영어
초록/요약
토픽 모델링 (Topic Modeling)은 텍스트 데이터로부터 각 문서별로 관찰 가능한 단어들 속에 잠재적으로 존재하는 것으로 가정된 토픽을 추출해내는 통계적 기법이다. 잠재 디리클레 할당 (Latent Dirichlet Allocation)은 토픽 모델링을 수행하는 가장 보편적인 방법론이지만, 토픽이 다루는 주제는 포괄성과 엄밀성을 모두 충족할 수 없으며 토픽 간의 상호 연관성 또한 파악할 수 없다는 단점이 존재한다. 이러한 한계를 극복하기 위해, 비모수적 다층잠재계층모형 (Nonparametric Multilevel Latent Class Analysis)의 구조를 텍스트 데이터에 적용한 다층토픽모형 (Multilevel Topic Model)이 새로운 토픽 모델링 방법론으로 연구된 바 있다. 다층토픽모형은 토픽을 상위 토픽 (theme)과 하위 토픽 (topic)으로 이원화해 각각 주제의 포괄성과 엄밀성을 충족하며, 계층화된 구조를 통해 토픽 간의 상호 연관성을 파악할 수 있다. 본 논문은 다층토픽모형을 한단계 더 발전시켜, 텍스트 데이터뿐만 아니라 문서의 내외부적으로 존재하는 임의의 메타데이터인 공변량까지 모형의 생성적 과정 (generative process)에 포함하는 방법을 연구한다. 특히 문서단위의 공변량 (document-level covariate)이 여러 모수 중 상위 토픽의 비율 (theme proportion)에 결합되는 경우를 중심적으로 탐구하며, 추정을 위해 기대값 최대화 알고리즘 (expectation-maximization algorithm)과 뉴턴랩슨방법 (Newton-Raphson method)이 함께 사용되었다. 또한 새로운 모형을 실제 데이터에 적용하기 위해 CMU 2008 Political Blog Corpus를 활용한다. 이를 통해 2008년 미국 대선 당시 각 사설이 다루던 문서차원의 주제 비율이 매체의 정당 지지 성향에 따라 어떻게 변화하는지 탐구한다.
more초록/요약
Topic modeling is a statistical method that identifies latent key topics assumed to coexist among the words in textual data. Latent Dirichlet Allocation (LDA) is the most commonly used method for topic modeling. However, it has some disadvantages: the scope of each topic rarely achieves both comprehensiveness and specificity simultaneously, and topic dependency is ignored. To overcome these limitations, the multilevel topic model (MTM), a new topic modeling approach inspired by the structure of nonparametric random effect multilevel latent class analysis, has been proposed. MTM achieves both comprehensiveness and specificity by dualizing the topic into a document-level theme and a word-level topic. Additionally, the hierarchical structure of the model enables the investigation of potential relationships among topics. This paper further advances the multilevel topic model by incorporating covariates, arbitrary metadata that exist internally or externally to the documents, into the generative process of the model. In particular, this study focuses on the case where the document-level covariate is combined with the theme proportion in a logit form among several possible parameters. The estimation process employs both the expectation-maximization algorithm and the Newton-Raphson method. Additionally, to apply the new model to real data, the CMU 2008 Political Blog Corpus is utilized. This allows for an exploration of how the proportion of themes addressed in each posts changed according to the party affiliation of the media outlet during the 2008 U.S. presidential election.
more목차
Abstract i
국문초록 iii
Table of Contents iv
List of Tables vii
List of Figures viii
1. Introduction 1
2. Model Structure 5
2.1 The Generative Process 5
2.2 The Expressions and the Likelihoods 7
3. Estimation 9
3.1 The EM Algorithm 9
3.2 Newton-Raphson Method 10
3.3 Upward-Downward Algorithm 12
4. Application 14
4.1 Data Description 14
4.2 Model Selection and Evaluation 14
4.3 Interpretation 16
5. Conclusion 18
Reference 20

