검색 상세

LogitMixup Feature Reweighting: Addressing Spurious Correlations for Improved Generalizability of Minority Subgroup

로짓혼합특징재가중기법: 소수그룹의일반화성능 향상을 위한 허위 상관관계 개선

초록/요약

Over-parameterization in machine learning often leads to models heavily relying on `spurious' features, which lack causal relationships with the true labels. This reliance can significantly impair the model's performance, especially concerning minority subgroups. Previous works address this issue under the assumptions that restrict the appliance to real-world scenarios using subgroup labels and mitigation under the existence of a single shortcut. Alleviating this issue is particularly challenging in the absence of such tenuous assumptions. To improve the robustness of the model against spurious correlations without naive assumptions, we propose LogitMixup Feature Reweighting (LFR), a novel two-stage method to enhance the robustness of the model. Initially, we train an auxiliary model deliberately tuned to amplify spurious correlations. We subsequently divide the dataset into two pseudo-groups based on the output logits of the auxiliary model: one group aligns with the bias, while the other conflicts with the bias. We then apply mixup augmentation on pairs from these two groups within the same class, organizing a reweighting dataset. In the following stage, we freeze the feature extractor and retrain only the decision layer of the model originally trained via empirical risk minimization. LFR enhances the robustness of minority subgroups of the model without requiring additional supervision, such as annotation or labels of spurious attributes. Furthermore, LFR retrains only the final decision layer of the model with only a few epochs, which does not require supervision at model selection time. Our experiments on benchmark datasets demonstrate that LFR improves the model’s group robustness by reweighting the model’s reliance on spurious features. We also demonstrate that LFR effectively mitigates spurious correlations in scenarios with multiple shortcuts in the dataset.

more

초록/요약

기계 학습 모델에서 과적합은 레이블과 인과 관계가 떨어지는 없는 허위 특징에 크게 의존하게 만들어 이러한 허위 특징만을 고려하여 결정을 내리는 문제를 야기한다. 이러한 의존성은 특히 허위 특징과 상반되는 속성을 가지는 소수 하위 그룹과 관련하여 모델의 성능을 크게 저하하는 이슈를 발생시킨다. 이전의 연구는 하위 그룹 레이블의 정보를 사용하거나 단일의 허위 상관만 존재하는 가정하에 이러한 문제를 해결했고, 이는 실제 상황에서의 적용에 제한된다. 이러한 제한된 가정을 하지 않고 문제를 해결하는 것은 특히나 어려운 문제이다. 본 논문에서는 하위 그룹 레이블의 정보를 사용하지 않고 모델의 강건성을 향상시키기 위해 2단계의 방법인 로짓 혼합 특징 재가중 기법(LFR)을 제안한다. 먼저, 우리는 잘못된 상관관계를 증폭시키도록 조정된 보조 모델을 학습한다. 그 후, 보조 모델의 출력 로짓을 기반으로 데이터셋을 두 개의 의사 그룹으로 나눕니다: 하나는 편향 그룹이고, 다른 하나는 편향에 반대되는 그룹이다. 동일한 클래스 내에서 이 두 그룹의 쌍에 대해 mixup 증강을 적용하여 허위 상관에 대한 의존도를 낮추는 가중치 재설정 데이터셋을 구성한다. 이후 특징 추출기를 고정하고 경험적 위험 최소화(ERM)를 통해 원래 훈련된 모델의 결정층만 다시 학습한다. 이를 통해 LFR은 잘못된 속성의 주석이나 레이블과 같은 추가 감독 없이도 모델의 소수 하위 그룹에 대한 강건성을 향상시킨다. 또한, LFR은 추가적인 그룹 레이블을 사용하여 모델 선택 과정을 필요로 하지 않으며, 몇 번의 에포크 만으로 모델의 최종 결정층을 재훈련한다. 벤치마크 데이터셋에 대한 실험 결과, LFR은 모델의 잘못된 특징 의존성을 재가중하여 그룹 강건성을 향상시킨다. 또한 LFR은 성공적으로 다중 허위상관이 존재하는 데이터의 상황에서 허위 상관을 효과적으로 해결함을 입증했다.

more

목차

Abstract i
Preface v
Acknowledgement vi
Contents vii
List of Tables ix
List of Figures x
1 Introduction 1
2 Related Works 5
2.1 Spurious Correlations 5
2.2 Improving robustness against spurious correlations 6
3 Preliminaries 8
3.1 Problem Formulation 8
3.2 Spurious Feature Learning in Neural Networks 10
4 LogitMixup Feature Reweighting 12
4.1 Organizing Reweighting Dataset 13
4.1.1 Identification for logit-wise grouping 13
4.1.2 Logit-wise mixup augmentation 16
4.2 Retraining the Decision Layer 17
5 Experiments 20
5.1 Datasets 20
5.1.1 Waterbirds dataset 20
5.1.2 bFFHQ dataset 21
5.1.3 Urbancars dataset 21
5.2 Baselines 22
5.3 Implementation Details 23
5.4 Results 23
5.4.1 Single shortcut mitigation 23
5.4.2 Mitigation without group labeled validation data 25
5.4.3 Gradient activation based sampling 26
5.4.4 Multiple spurious correlation mitigation 26
5.4.5 Activation visualization 27
5.4.6 Ablation study 28
6 Conclusion 29
Bibliography 30

more