한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델 : Two Statistical Models for Automatic Word Spacing of Korean Sentences
Two Statistical Models for Automatic Word Spacing of Korean Sentences
- 주제(키워드) 자동 띄어쓰기 , 확률 모델 , 은닉 마르코프 모델 , Automatic word spacing , Probabilistic model , hidden Markov model , Automatic word spacing , Probabilistic model , hidden Markov model
- 발행기관 한국정보과학회
- 발행년도 2003
- 총서유형 Journal
- UCI G704-E00398.2003.30.4.008
- KCI ID ART000908348
초록/요약
자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다.기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다.제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다. 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적용한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%의 어절 단위 정확률을 얻었다.
more

