검색 상세

Multi-Task Learning 기반 딥 러닝 모델을 활용한 표 인식 및 표 구조 분석에 관한 연구 : 표 추출 통합 학습 방법

초록/요약

본 논문에서는 Multi-Task Learning (MTL) 기법을 적용한 통합 모델을 설계하여 표 인식 (Table Detection, TD) 과 표 구조 분석 (Table Structure Recognition, TSR) 작업을 동시에 해결하는 방법을 제시한다. 컴퓨터 비전 분야에서 문서 이미지에서 표를 추출(Table Extraction, TE)하여 구조화된 정보를 얻는 작업은 중요하다. 기존 연구는 표 추출의 하위 작업을 각각 독립된 데이터 셋과 이를 학습하는 모델로 처리함으로써 자원 효율성과 시스템의 강건성을 저하시킨다. 더불어, 독립된 데이터 셋을 통합하여 단일 모델을 학습시키는 방법은 추가적인 통합 데이터 셋 생성 및 관리에 막대한 비용과 복잡성을 수반하는 문제점이 존재했다. 본 연구의 목표는 표 추출의 하위 작업 간의 연관성을 학습하여 학습 효율성을 높이고, 별도의 통합 데이터 셋을 생성하지 않음으로써 데이터 관리 효율성 또한 높이는 것을 목표로 한다. 제안된 모델은 PubTables-1M test 데이터 셋 기준, 표 인식 작업의 mAP(Mean Average Precision)는 99.9%, 표 구조 분석 작업의 mAP는 94%의 정확도로, 기존 방법 대비 경쟁력 있는 성능을 보였다. 이러한 결과는 제안한 방법이 모델과 데이터 셋 생성 및 관리의 부담을 줄이면서도 경쟁력 있는 성능을 보여준다는 점에서 중요한 의의를 지닌다. 더하여, 표 추출의 하위 작업을 통합적으로 처리할 수 있는 가능성을 제시하며, 향후 관련 연구에 중요한 기여를 할 것으로 기대된다.

more

초록/요약

This paper proposes a method to simultaneously solve Table Detection (TD) and Table Structure Recognition (TSR) tasks by designing an integrated model applying the Multi-Task Learning (MTL) technique. In computer vision, it is important to obtain structured information by extracting tables from document images (TE). Previous research undermines resource efficiency and system robustness by treating table extraction sub-tasks as independent datasets and models that train them, respectively. In addition, the method of training a single model by integrating an independent dataset has problems that involve enormous cost and complexity in creating and managing an additional integrated dataset. The goal of this study is to increase the learning efficiency by learning the associations between the sub-tasks of table extraction, and to also increase the data management efficiency by not generating a separate integrated dataset. The proposed model was based on the PubTables-1M test data set, the Mean Average Precision (mAP) of the table recognition task was 99.9%, and the mAP of the table structure analysis task was 94%, showing competitive performance compared to the existing method. These results are of great significance in that the proposed method shows competitive performance while reducing the burden of creating and managing models and datasets. In addition, it presents the possibility of integrating the sub-tasks of table extraction and is expected to make an important contribution to related research in the future.

more

목차

초록 i
ABSTRACT iii
목차 v
표 목차 vi
그림 목차 vii
1장. 서론 1
2장. 관련 연구 3
2.1 표 추출 3
2.2 Multi-Task Learning 4
2.3 객체 탐지 모델 5
2.4 PubTables-1M 데이터 셋 6
3장. 실험 7
3.1 모델 구조 7
3.2 학습 방법 8
3.3 모델 학습 10
3.4 실험 결과 11
3.5 이미지 전처리 15
4장. 결론 17
참고문헌 18

more