딥러닝 기반 의료 테이블 데이터 학습을 통한 자동 ICD 코드 예측
초록/요약
국제질병분류(ICD, International Classification of Diseases)는 세계보건기구 (WHO, World Health Organization)에서 제정한 의학적 분류 체계이다. 자동 ICD 코딩은 수작업 코딩의 높은 비용을 줄이기 위해 20년 이상 연구되어 왔다. 대부분 의 연구는 텍스트 데이터를 중심으로 이루어지데 반해서, 테이블(Tabular) 데이터는 상대적으로 간과되고 있다. 테이블 데이터의 필요성을 입증한 연구는 소수에 불과하 며, 이러한 연구들은 주로 테이블과 텍스트 데이터를 개별적으로 처리하고 나중에 통합하는 2 단계 접근법(Two-stage approach)을 채택하고 있다. 이런 2단계 모델 에서 테이블 데이터에는 주로 기계 학습(Machine learning) 기반 모델을 사용하고 있다. 하지만 우리는 테이블 데이터에 대해 간단한 딥러닝(Deep learning) 모델이 더 유리하다고 믿는다. 특히 텍스트나 이미지와 같은 다른 데이터 유형과 통합되는 다중 모달(Multimodal) 상황에서 이점이 클 것이라고 판단한다. 이에 따라 딥러 닝 기반 접근법을 통해 테이블과 텍스트 데이터를 통합하는 Medical Tabular Net- work(MedTabNet) 모델을 제안한다. 제안한 모델은 테이블 데이터를 처리하기 위한 두 가지 주요 모듈(Module)을 포함하고 있다. (1) 각 테이블 특징(Feature)의 고유한 의미를 보존하기 위해 설계된 임베딩 레이어(Embedding layer)와 (2) 유용하지 않은 항목의 영향을 효과적으로 규제하기 위한 게이트 메커니즘(Gate mechanism)을 사용한다. 본 연구에서는 MIMIC-III 50 데이터셋과 관련된 선행연구에서 제안한 모델을 평가하였으며, 최신 텍스트 데이터 활용 모델 대비 F1 macro와 micro 점수가 각각 1% 및 0.9% 이상 높은 성능을 달성하였다. 또한, 제안한 모델은 테이블 데이터에 대해 강력한 성능을 보이는 것으로 알려진 트리 기반(Tree-based)의 비교 모델보다 우수한 성능을 보였다. 이 결과는 의료 테이블 데이터의 특성을 반영한 간단한 딥러닝 모델이 높은 성능을 발휘할 수 있음을 입증하고 앞으로 의료 테이블 데이터에 특화된 딥러닝 모델의 개발 가능성을 시사한다.
more초록/요약
The International Classification of Diseases (ICD) is a medical classification code by the World Health Organization (WHO). Automatic ICD coding has been explored for over 20 years to reduce the high cost of manual coding. While most studies focus on text, tabular data is often overlooked. Only a few studies have demonstrated the necessity of tabular data, and these primarily adopt a two-stage approach where tabular and text data are processed separately, relying on machine learning-based models for tabular data. We believe a simple deep learning model is beneficial for tabular data, especially when integrated with other data types such as text or images. We proposed a Medical Tabular Network (MedTabNet) that integrates tabular and text data employing a deep learning-based approach. Our model incorporates two key components for tabular data: (1) an embedding layer designed to preserve the unique meaning of each tabular feature, and (2) a gate mechanism to effectively regulate the influence of uninformative items. We evaluated proposed model on the MIMIC-III 50 dataset. The results show that our model achieves F1 macro and micro scores exceeding 1% and 0.9%, respectively, compared to state-of-the-art models utilizing text data. Furthermore, our model outperforms baseline model that utilize tabular data using tree-based models well- known for strong performance on tabular data. These results demonstrate a simple deep learning model designed to reflect the characteristics of medical tabular data shows strong performance. Additionally, they emphasize the potential for advanced deep learning models specifically tailored for tabular data in the future.
more목차
초록 i
Abstract iii
서문 v
목차 vi
표 목차 viii
그림 목차 ix
1. 서론 1
2. 선행연구 4
2.1 자동ICD코딩 ............................. 4
2.2 테이블데이터에서의표현학습 .................... 6
3. 방법론 7
3.1 테이블인코더.............................. 8
3.1.1 테이블 임베딩 . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.1.2 희소항목게이트 ........................ 10
3.2 모델구조 ................................ 12
3.2.1 텍스트인코더.......................... 12
3.2.2 크로스어텐션.......................... 13
3.2.3 라벨어텐션........................... 14
4. 실험 16
4.1 데이터셋................................. 17
4.2 베이스라인................................ 17
4.3 평가지표 ................................ 18
4.4 실험환경 ................................ 19
4.5 실험결과 ................................ 19
4.6 절제연구 ................................ 20
4.7 추가연구 ................................ 22
5. 결론 24
참고문헌 25

