MemoReader: Large-Scale Reading Comprehension through Neural Memory Controller : 메모리더: 신경망 메모리 조절기를 이용한 대규모 기계 독해 방법
메모리더: 신경망 메모리 조절기를 이용한 대규모 기계 독해 방법
- 주제(키워드) Neural Network , Machine Reading Comprehension , Question Answering
- 발행기관 고려대학교 컴퓨터정보통신대학원
- 지도교수 주재걸
- 발행년도 2019
- 학위수여년월 2019. 2
- 유형 Text
- 학위구분 석사
- 학과 컴퓨터정보통신대학원 빅데이터융합학과
- 원문페이지 40 p
- 실제URI http://www.dcollection.net/handler/korea/000000082728
- UCI I804:11009-000000082728
- DOI 10.23186/korea.000000082728.11009.0000822
- 본문언어 영어
- 제출원본 000045978764
초록/요약
Machine reading comprehension helps machines learn to utilize most of the human knowledge written in the form of text. Building an algorithms to teach machines to read and to comprehend text is one of the biggest challenge in the natural language processing research topics. A common way for proving these algorithms is by formulating them as RC tasks. This can be defined as selecting an answer corresponding to a question in the given document as an evidence. Existing approaches made a significant progress comparable to human-level performance, but they are still limited in understanding, up to a few paragraphs, failing to properly comprehend lengthy document. We assume that a reason of failing in previous approaches is lack of ability to capture long-term dependency between the words. In this paper, we propose a novel deep neural network architecture to handle a long-range dependency in RC tasks. In detail, our method has two novel aspects: (1) an advanced memory-augmented architecture and (2) an expanded gated recurrent unit with dense connections that mitigate potential information distortion occurring in the memory. Our proposed architecture is widely applicable to other models. We have performed extensive experiments with well-known benchmark datasets such as TriviaQA, QUASAR-T, and SQuAD. The experimental results demonstrate that the proposed method outperforms existing methods, especially for lengthy documents.
more초록/요약
기계독해 방법은 자연어로 쓰여진 인간의 지식을 기계가 학습하는 방법 중 하나이다. 자연언어처리 연구 분야에서 기계에게 언어를 읽고 이해하는 알고리즘을 설계하는것은 매우 도전적인 작업이다. 이 작업을 증명하는데 쓰이는 보편적인 방법은 RC 테스크인데, 이 테스크는 주어진 문서에 대한 질문에 대해 문서 안에서 해당 질문에 맞는 답을 골라내는 작업으로 정의될 수 있다. 이 테스크를 풀기위해 기존의 제안된 모델들의 성능은 어느정도 인간의 성능과 비슷하지만, 길이가 긴 문서에 대해서는 성능이 매우 제한적이다. 우리는 그 이유가 긴 문서에서 주로 발생 하는 멀리 떨어진 단어들에 대한 연관관계를 찾는 능력이 현재 모델에서는 고려되고 있지 않기 때문이라고 생각하였다. 이 논문에서는 멀리 떨어진 단어들의 연관성을 찾을 수 있는 새로운 딥뉴럴 네트워크 구조를 제안하였다. 우리는 다음과 같이 두 가지의 새로운 측면에서 기존의 모델을 향상 시켰다: (1) 진보된 메모리 증강 구조 개발, (2) 밀도있는 연결을 이용하여 GRU 를 확장한 새로운 인코더 개발. 우리는 많이 알려진 TriviaQA, QUASAR-T, SQuAD 데이터세트에 대해서 제안된 모델을 이용하여 실험을 하였다. 실험 결과, 길이가 긴 문서들에 대해서 제안된 모델이 기존의 모든 모델들 대비 더 높은 성능을 보임을 확인할 수 있었다.
more목차
Abstract
Contents i
List of Figures iii
List of Tables iv
1 Introduction 1
2 Related work 3
3 Proposed Method 5
3.1 Memory Controller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Dense Encoder Block with Self Attention . . . . . . . . . . . . . . . . 7
3.3 MRC Model with Proposed Components . . . . . . . . . . . . . . . . . 8
3.3.1 Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.2 Co-attention layer . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.3 Memory controller . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.3.4 Prediction layer . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Memory Interfacing Detail . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4.1 Interface vector . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4.2 Memory addressing . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.3 Read operation . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4.4 Write operation . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4 Experimental Setup 13
4.1 Datasets and preprocessing . . . . . . . . . . . . . . . . . . . . . . . . 13
4.2 Implementation details . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5 Quantitative Results 15
5.1 Performance on TriviaQA dataset . . . . . . . . . . . . . . . . . . . . . 15
5.2 Performance on QUASAR-T dataset . . . . . . . . . . . . . . . . . . . 17
5.3 Performance on SQuAD dataset . . . . . . . . . . . . . . . . . . . . . 17
6 Analysis 19
6.1 Minimum anchor distance . . . . . . . . . . . . . . . . . . . . . . . . . 19
6.2 Ablation study with an encoder block . . . . . . . . . . . . . . . . . . 20
6.3 Adding our proposed modules to other models . . . . . . . . . . . . . 20
6.4 Comparing between the input and the output of the memory controller 21
7 Conclusion 26
Bibliography 27
국문 초록
Acknowledgement

