딥시크와 같은 대규모 언어 모델의 통계 모델링 능력 평가 : 통계학적 추론의 새로운 패러다임
Evaluating Statistical Modeling Capabilities of Large Language Models like DeepSeek: A New Paradigm for Statistical Inference
- 주제(키워드) 대규모 언어 모델 , 딥시크 , 통계 모델링 , 인공지능 , 통계적 추론 , 코드 품질 , Large Language Models , DeepSeek , Statistical Modeling , Artificial Intelligence , Statistical Inference , Code Quality
- 발행기관 고려대학교 정책대학원
- 지도교수 정윤서
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 정책대학원 데이터통계학과
- 원문페이지 143 p
- 실제URI http://www.dcollection.net/handler/korea/000000305230
- UCI I804:11009-000000305230
- DOI 10.23186/korea.000000305230.11009.0002469
- 본문언어 한국어
초록/요약
본 연구는 딥시크(DeepSeek)와 같은 최신 대규모 언어 모델(LLM)의 통계 모델링 능력을 체계적으로 평가하고자 한다. 인공지능 기술의 급속한 발전으로 LLM은 다양한 분야에서 인간 수준의 추론 능력을 보여주고 있으나, 통계 모델링이라는 특수한 영역에서의 성능은 아직 충분히 검증되지 않았다. 본 연구에서는 기초 통계, 중급 통계, 고급 통계 영역을 포괄하는 체계적인 문제 세트를 구성하여 DeepSeek R1, GPT-4.5, Claude 3.7 Sonnet 세 가지 주요 LLM의 통계 모델링 능력을 비교 분석하였다. 평가는 초기 응답 정확도와 오류 해결 능력을 중심으로 이루어졌으며, 코드 품질은 Codacy를 통해 자동화된 방식으로 평가되었다. 연구 결과, 세 모델 모두 기초 통계 문제에서는 높은 정확도를 보였으나, 복잡한 베이지안 모델링과 다변량 분석과 같은 고급 통계 문제에서는 성능 차이가 뚜렷하게 나타났다. 특히 DeepSeek R1은 수학적 추론이 필요한 문제에서 상대적으로 우수한 성능을 보였으며, GPT-4.5는 코드 품질 측면에서, Claude 3.7 Sonnet는 오류 해결 능력 측면에서 강점을 보였다. 본 연구는 LLM이 통계 모델링 분야에서 보이는 강점과 한계를 명확히 하고, 통계학자와 LLM의 상호보완적 관계를 통해 통계 연구의 효율성을 높일 수 있는 방안을 제시한다. 이를 통해 AI 시대의 통계학의 역할을 재정의하고, 데이터 프라이버시와 같은 잠재적 위험에 대한 인식을 높이는 데 기여하고자 한다.
more초록/요약
This study systematically evaluates the statistical modeling capabilities of advanced Large Language Models (LLMs) such as DeepSeek. While LLMs have demonstrated human-level reasoning abilities across various domains due to rapid advancements in artificial intelligence technology, their performance in the specialized field of statistical modeling has not been thoroughly validated. This research constructs a comprehensive set of problems spanning basic, intermediate, and advanced statistical domains to compare and analyze the statistical modeling capabilities of three major LLMs: DeepSeek R1, GPT-4.5, and Claude 3.7 Sonnet. The evaluation focused on initial response accuracy and error resolution ability, with code quality assessed through automated evaluation using Codacy. Results show that while all three models demonstrated high accuracy in basic statistical problems, significant performance differences emerged in advanced statistical problems such as complex Bayesian modeling and multivariate analysis. Notably, DeepSeek showed relatively superior performance in problems requiring mathematical reasoning, while GPT-4.5 excelled in code quality aspects, and Claude 3.7 demonstrated strengths in error resolution capabilities. This study clarifies the strengths and limitations of LLMs in statistical modeling and suggests ways to enhance the efficiency of statistical research through the complementary relationship between statisticians and LLMs. Through this, we aim to redefine the role of statistics in the AI era and raise awareness of potential risks such as data privacy concerns.
more목차
1장. 서론 1
1.1 연구 배경 1
1.2 연구 목적 및 중요성 3
1.3 연구 질문 5
1.4 논문 구성 7
2 장. 이론적 배경 및 문헌 검토 10
2.1 대규모 언어 모델(LLM)의 개요 10
2.1.1 LLM의 정의와 발전 과정 10
2.1.2 딥시크 R1, GPT-4.5, Claude 3.7의 특징 11
2.2 LLM의 작동 원리와 추론 능력 13
2.2.1 트랜스포머 아키텍처 13
2.2.2 자기 주의 메커니즘 15
2.2.3 추론 과정 17
2.3 통계학과 LLM의 관계 20
2.3.1 LLM의 통계학적 기반 20
2.3.2 통계학에 대한 LLM의 기여 21
2.3.3 LLM 개발에 대한 통계학의 기여 22
2.3.4 통계학과 LLM의 통합 사례 23
2.4 LLM의 통계 모델링 능력에 관한 선행 연구 24
2.4.1 LLM의 통계적 추론 능력 평가 24
2.4.2 통계 테스트 선택에 대한 LLM의 능력 25
2.4.3 다양한 통계 프로그래밍 언어에서의 LLM 성능 25
2.4.4 LLM의 통계 모델링 강점과 한계 26
2.4.5 LLM을 활용한 통계 교육 및 연구 28
3 장. 연구 방법론 29
3.1 연구 설계 개요 29
3.1.1 연구 접근법 29
3.1.2 연구 설계 프레임워크 30
3.1.3 실험 설계 31
3.1.4 연구 변수 32
3.1.5 데이터 분석 방법 33
3.2 문제 세트 구성 34
3.2.1 기초 통계 문제 34
3.2.2 중급 통계 문제 36
3.2.3 고급 통계 문제 38
3.3 데이터 상세 41
3.3.1 기초 통계 문제용 데이터셋 42
3.3.2 중급 통계 문제용 데이터셋 43
3.3.3 고급 통계 문제용 데이터셋 45
3.3.4 데이터 전처리 및 품질 관리 47
3.4 평가 기준 47
3.4.1 초기 응답 정확도 48
3.4.2 오류 해결 능력 49
3.4.3 코드 품질 평가 51
3.5 실험 절차 52
3.5.1 실험 환경 설정 52
3.5.2 실험 진행 절차 53
3.5.3 데이터 수집 및 기록 55
3.5.4 통제 변수 관리 57
4 장. 연구 결과 58
4.1 모델별 성능 비교 58
4.1.1 초기 응답 정확도 비교 58
4.1.2 오류 해결 능력 비교 61
4.1.3 코드 품질 비교 64
4.2 난이도별 성능 분석 67
4.2.1 기초 통계 문제 결과 68
4.2.2 중급 통계 문제 결과 70
4.2.3 고급 통계 문제 결과 74
4.3 통계 영역별 성능 분석 78
4.3.1 기술통계 및 확률분포 78
4.3.2 회귀분석 및 시계열 분석 81
4.3.3 베이지안 추론 및 다변량 분석 84
4.3.4 생존분석 및 비모수적 방법론 87
5 장. 논의 94
5.1 LLM의 통계 모델링 강점과 한계 94
5.1.1 LLM의 통계 모델링 강점 94
5.1.2 LLM의 통계 모델링 한계 97
5.1.3 LLM별 통계 모델링 특성 비교 100
5.1.4 통계 분석 프로세스에서 LLM의 기여 가능성 101
5.1.5 향후 LLM 통계 모델링 능력 발전 방향 103
6 장. 결론 105
6.1 연구 요약 105
6.2 연구의 한계 106
6.3 향후 연구 방향 108
참고문헌 110
부록 112
A. 통계 문제 데이터셋 전체 목록 112
A.1 기초 통계 문제 112
A.1.1 기술통계 문제 (Kaggle - Student Performance) 112
A.1.2 확률분포 문제 (Bureau of Labor Statistics) 112
A.1.3 가설검정 문제 (WHO - Vaccine Coverage) 113
A.2 중급 통계 문제 115
A.2.1 회귀분석 문제 (Kaggle - House Prices) 115
A.2.2 시계열 분석 문제 (Yahoo Finance - Dow Jones) 115
A.2.3 베이지안 추론 문제 (UCI ML - Wine Quality) 115
A.3 고급 통계 문제 117
A.3.1 다변량 분석 문제 (UCI ML - Iris Dataset) 117
A.3.2 베이지안 모델링 문제 (SEER - Cancer Incidence) 118
A.3.3 생존분석 문제 (Kaggle - Titanic) 118
A.3.4 비모수적 방법론 문제 (BLS - Income Data) 118
B. 초기 프롬프트 템플릿 예시 121
C. 오류 수정 프롬프트 템필릿 예시 125
D. 주요 오류 사례 127
D.1 프롬프트 입력시 응답 오류 127
D.2 요청사항 무시 및 코드 미제공 128
D.3 생성코드 누락 129

