검색 상세

SJ-RIKS Corpus : 세종 형태의미 분석 코퍼스를 넘어서 : SJ-RIKS Corpus: Beyond 21st Sejong Morph-Sense Tagged Corpus

SJ-RIKS Corpus: Beyond 21st Sejong Morph-Sense Tagged Corpus

초록/요약

이 연구에서는 세종코퍼스의 한계를 극복하기 위한 방안으로 세종코퍼스의 분석 표지와 지침 일부를 변경하고 세종코퍼스에서 나타나는 오류를 기계적으로 검출하기 위한 방안을 제시하는 것을 목표로 하였다. 이를 위해 기존의 세종 분석 표지 가운데 접사와 어근 등의 표지를 제거, 통합하였고 고유 명사의 분석 기준을 변경하였다. 또한 오류를 검출하기 위한 구체적인 방안으로 형식 오류 수정, 원어절-분석 어절 불일치 오류 수정, 분석 중의성 검토에 의한 오류 수정, 코드 변환 대응에 의한 오류 수정, 형태 통사 규칙에 위한 오류 수정, 통계 결과 검토에 의한 오류 수정이라는 여섯 단계의 오류 검출 및 수정 과정을 제안하였다. 이러한 결과로 기존의 세종코퍼스가 가진 한계를 넘어설 수 있는 어휘 분석 중심의 신뢰성 있는 코퍼스(SJ-RIKS)를 구축하였으며, 여섯 단계의 오류 검출과 수정 방법은 대규모의 코퍼스를 주석하고 후처리하는 과정에서 필수적으로 도입될 필요가 있는 방법론임을 제안하였다.

more