검색 상세

Toward Robust Evaluation of Data Quality for Training Language Models

자연어 학습 데이터 품질의 엄밀한 검증을 위한 연구

초록/요약

Under the consensus that the training data determines language model, the evaluation of natural language training data has gained growing attention and importance. However, the inherent subjectivity of evaluation makes objective data assessment a persistent and central challenge. This dissertation identifies blind spots in prior work that hinder objective data evaluation and proposes dataset-invariant criteria for evaluation. In particular, this study argues that both the general effectiveness of quality measures and biases introduced by evaluation settings require explicit consideration, and sets out research principles for obtaining reliable results. This study also uncovers quality dimensions that remain unexamined in recent large language models and suggests directions for future research direction on natural language evaluation. In doing so, this dissertation aims to guide the development of trustworthy evaluation methods in a rapidly evolving language modeling landscape.

more

초록/요약

학습데이터의 품질이 언어모델의 성능에 직결된다는 합의점 아래, 자연어 학습 데이터의 품질 평가 연구는 계속해서 그 필요성과 중요성이 강조되고 있다. 그러나 평가 작업의 본질적인 주관성에 의해, 객관적인 데이터 평가는 자연어처리 분야에서 오랫동안 핵심적인 난제로 여겨지고 있다. 본 논문은 객관적인 데이터 평가를 어렵게 만드는 기존 연구들의 맹점들을 발견하고, 나아가 데이터가 평가에 있어 고려되어야 하는 연구 원칙들을 제안한다. 특히 품질 평가 지표들의 일반적인 효과성과 검증 환경에 의한 편향이 고려되어야 함을 실증하며, 기존 연구들의 맹점들을 보완하여 신뢰성있는 결과를 얻기 위한 방안을 제시한다. 최종적으로는 최신 초거대언어모델에서 여전히 다뤄지지 않고 있는 품질 척도를 발견하며 향후 자연어 평가 연구의 발전 방향을 제시한다. 본 연구는 빠르게 발전하는 언어모델 기술 환경 속에서 신뢰할 수 있는 자연어 평가 연구의 미래 방향성을 제시한다는 점에서 의의를 갖는다.

more

목차

Abstract i
국문 초록 ii
Preface iii
감사의 말 v
Contents vi
List of Tables ix
List of Figures xi
1 Introduction 1
2 Related Work 8
2.1 Parallel Corpus Filtering 8
2.2 Training Data Evaluation for Large Language Models 9
3 General Robustness of the Data Evaluation 12
3.1 Experimental Setup 13
3.1.1 Data Quality Measures 13
3.1.2 Verification Process 16
3.1.3 Implementation Detail 19
3.2 Results 22
3.2.1 Generalizability of the Quality Measure 22
3.2.2 Optimality of the High Score 24
3.2.3 Qualitative Analysis 27
3.3 Takeaway & Principles 29
4 Verification Bias on the Data Quality Measure 31
4.1 Experimental Setting 33
4.1.1 Verification Process 33
4.1.2 Implementation Detail 33
4.2 Results 35
4.2.1 Hyperparameter Dependency of Data Quality Evaluation 35
4.2.2 Optimal Configuration Suggestion 37
4.3 Takeaway & Principles 38
5 Continuity of Data Evaluation 41
5.1 LimaCost 42
5.2 Experimental Settings 47
5.2.1 Verification Process 47
5.2.2 Implementation Details 49
5.3 Results 50
5.3.1 Baseline Comparison 50
5.3.2 Cost Analysis 54
5.3.3 Correlation with the Character Length 55
5.3.4 Case Study on the Layer Selection 56
5.3.5 Case Study on the Choice of LIMA 58
5.4 Takeaway 59
6 Diagnosing Current States of Language Model 61
6.1 Overreacting to the Instruction Format 62
6.1.1 Problem Statement 62
6.1.2 Dataset Construction 63
6.1.3 Evaluation Measure 65
6.1.4 Experiments 68
6.1.5 Takeaway 72
6.2 Sparse Context Understanding 72
6.2.1 Problem Statement 72
6.2.2 Dataset Construction 73
6.2.3 Experiments 76
6.2.4 Takeaway 82
7 Conclusion 83
Bibliography 86

more