Communication-efficient learning in RKHS
RKHS를 이용한 통신효율적 학습
- 주제(키워드) Distribution , non-linear , RKHS , Communication cost
- 발행기관 고려대학교 대학원
- 지도교수 신승준
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 대학원 통계학과
- 세부전공 통계적데이터과학 전공
- 원문페이지 26 p
- 실제URI http://www.dcollection.net/handler/korea/000000290498
- UCI I804:11009-000000290498
- DOI 10.23186/korea.000000290498.11009.0001881
- 본문언어 영어
초록/요약
This paper proposes a new statistical approach to efficiently process large-scale data in a distributed environment and minimize communication costs for nonlinear data processing. The goal is to extend the concept of surrogate loss, as introduced in the existing study ”Communication-Efficient Distributed Statistical Inference” (Michael I. Jordan et al., 2019), to nonlinear data. In distributed learning, data is typically spread across hundreds or thousands of machines, making centralized analysis challenging, and requiring parallel processing in a distributed architecture. However, simply merging results from multiple machines incurs high communication costs. To address this, we propose a communication-efficient surrogate loss function by defining the global loss through Taylor expansion and replacing higher-order derivatives of the global loss with local loss terms. Additionally, kernels are introduced to handle nonlinear data, and the computational cost of the kernel is reduced through low-rank linearization. As a result, the application of communication-efficient surrogate loss to linearized kernels enables Communication-Efficient Distributed Learning. This method can be applied to various models, such as Kernel SVM and Kernel Quantile Regression, allowing for fast predictions and classifications on large-scale datasets. Given the growing importance of efficient processing of large-scale data, this methodology is expected to be highly useful.
more초록/요약
본 논문은 대용량 데이터의 비선형 처리를 위해 분산 환경에서 데이터를 효율적으로 처리하고 통신 비용을 최소화하는 새로운 통계적 접근법을 제안한다. 기존 연구인 "Communication-Efficient Distributed Statistical Inference" (Michael I. Jordan et al., 2019)에서 제안된 surrogate loss 개념을 비선형 데이터에 확장하여 적용하는 것을 목표로 한다. 분산 학습 환경에서 데이터는 수백 또는 수천 대의 머신에 분산되어 있어, 중앙 집중적인 분석이 어려운 상황에서 병렬 처리를 통해 분석을 수행해야 한다. 그러나 분산된 결과를 단순 병합하는 것은 높은 통신 비용을 유발할 수 있다. 이를 해결하기 위해 본 논문에서는 기존의 global loss 함수를 테일러 전개를 통해 정의하고, local loss로 2차 이상의 미분항을 대체하여 communication-efficient surrogate loss 함수를 새롭게 정의하였다. 또한 비선형 데이터 처리에 kernel 방법론을 도입하고, low-rank linearization을 통해 kernel의 계산 비용을 낮추었다. 결과적으로, 선형화된 kernel에 communication-efficient surrogate loss를 적용함으로써 대용량 데이터를 효율적으로 처리할 수 있는 분산 학습 방법론을 제시한다. 이 방법론은 Kernel SVM, Kernel Quantile Regression 등 다양한 모델에 적용 가능하며, 빠르고 정확한 예측 및 분류를 가능하게 한다.
more목차
Abstract i
국문초록 iii
Table of Contents iv
List of Tables vi
List of Figures vii
1 Introduction 1
2 Background and Problem Formulation 2
2.1 Communication-Efficient Distributed Statistical Inference 2
2.1.1 Data Distribution and Loss Functions 3
2.1.2 Surrogate Loss for Communication-Efficient Learning 4
2.2 Non-linear learning in RKHS 6
2.2.1 Low-Lank Linearization of kernel 6
2.3 Problem Formulation 9
3 Simulation 11
3.1 Distributed kernel SVC with communication-efficient surrogate loss 11
3.2 Distributed KQR with communication-efficient surrogate loss 13
4 Discussion 15
Reference 16

