검색 상세

A Two-Step Estimator for the Multilevel Topic Model with Covariates : An Application to Financial App User Reviews

공변량을 포함한 다층토픽모형의 2단계 추정법 : 금융 앱 사용자 리뷰 분석을 중심으로

초록/요약

As digital environments continue to develop, unstructured text data such as online user reviews are increasingly generated, making it important to identify latent topics from such data. Topic modeling is a statistical method that extracts latent topics assumed to exist within combinations of words in textual data. Latent Dirichlet Allocation (LDA) is one of the most widely used topic modeling methods, but it is limited in capturing potential relationships among topics due to its horizontal structure. To overcome this limitation, the Multilevel Topic Model (MTM) has been proposed by adapting the structure of nonparametric Multilevel Latent Class Analysis (npMLCA) to topic modeling. The MTM introduces a hierarchical structure consisting of document-level themes and word-level topics, thereby capturing dependencies among topics. Furthermore, various metadata associated with textual data can be incorporated as covariates in the model, enabling richer interpretations of the latent structure. This paper proposes a two-step estimator for the MTM with covariates. The proposed method separates the parameter estimation of the measurement model from that of the structural model, which achieves algorithmic stability and reduces computational time compared to the simultaneous estimation method. Additionally, simulation studies are conducted to evaluate the performance of the proposed method, and an empirical application to user reviews of a mobile financial app is presented to illustrate its practical usefulness.

more

초록/요약

디지털 환경이 발전함에 따라 온라인 사용자 리뷰와 같은 비정형 텍스트 데이터가 지속적으로 생성되고 있으며, 이러한 데이터에 내재된 잠재적인 토픽을 식별하는 것은 중요한 분석 과제이다. 토픽 모델링(Topic modeling)은 텍스트 데이터에 포함된 단어들의 조합으로부터 그 안에 잠재적으로 존재하는 토픽들을 통계적으로 추출하는 분석 기법이다. 그중 잠재 디리클레 할당(Latent Dirichlet Allocation)은 가장 널리 사용되는 토픽 모델링 방법론 중 하나이지만, 모든 토픽을 동일한 수준으로 취급하는 수평적 구조로 인해 토픽 간의 잠재적인 관계를 포착하지 못하는 한계를 지닌다. 이러한 한계를 해결하기 위해, 비모수적 다층 잠재계층분석(nonparametric Multilevel Latent Class Analysis)의 구조를 토픽 모델링에 적용한 다층토픽모델(Multilevel Topic Model)이 제안되었다. 다층토픽모델은 문서 수준의 테마(theme)와 단어 수준의 토픽(topic)으로 구성된 계층적 구조를 도입함으로써 토픽 간의 상호 연관성을 효과적으로 파악할 수있다. 나아가, 텍스트 데이터와 관련된 다양한 메타데이터를 모델의 공변량(covariates)으로 확장할 수 있으며 이를 통해 잠재 구조에 대한 보다 풍부한 해석이 가능하다. 본논문은 이러한 공변량을 포함한 다층토픽모델의 2단계 추정법을 제안한다. 제안된 방법은 측정 모형(measurement model)과 구조 모형(structural model)의 파라미터 추정을 분리함으로써 알고리즘의 안정성을 확보하고 기존의 동시 추정법에 비해 계산 시간을 단축시킨다. 또한 시뮬레이션 연구를 통해 제안된 방법의 성능을 평가하고, 금융 모바일 애플리케이션 사용자 리뷰 데이터를 활용한 실증 분석을 통해 그 실무적 유용성을 제시한다.

more

목차

Abstract i
국문초록 iii
Table of Contents v
List of Tables vii
List of Figures viii
Chapter 1. Introduction 1
Chapter 2. Model Structure 4
2.1 Latent Dirichlet Allocation 4
2.2 Multilevel Topic Model 5
2.2.1 Generative Process 7
2.2.2 Likelihood 8
2.2.3 Covariates 8
Chapter 3. Estimation 10
3.1 Step 1 - Measurement Model without Covariates 11
3.1.1 Expectation-Maximization Algorithm 11
3.1.2 Upward-Downward Algorithm 12
3.2 Step 2 - Structural Model with Covariates 14
3.3 Label Switching 15
3.4 Standard Error Correction 16
3.5 Selecting the Number of Themes and Topics 17
Chapter 4. Simulation 19
4.1 Design 19
4.2 Results 20
Chapter 5. Application 25
5.1 Financial App User Review Data 25
5.2 Two-step Approach 26
5.2.1 Step 1 - Measurement Model without Covariates 26
5.2.2 Step 2 - Structural Model with Covariates 28
5.3 Interpretation 29
Chapter 6. Conclusion 31
Reference 32

more