검색 상세

빅데이터 환경에서 관찰되는 짝진 이항자료 비율 차이에 대한 불일치쌍 기반 신뢰구간

Discordant pair-based Confidence Intervals for Difference of Proportions with Paired Binary Data in a Big data Environment

초록/요약

Objectives: In crossover studies, paired cohort studies or paired case-control studies frequently observed in public health or clinical researches, difference between two paired binomial proportions is often interval-estimated to compare the incidence of two events. The main purpose of interval estimation is to determine accuracy and precision of confidence interval for point estimate. Confidence intervals for the difference between two paired binomial proportions proposed in previous researches are constructed basically using the entire pairs of data and, hence, are likely to be affected excessively by concordant pairs according to the distribution of binary data with large numbers of samples in a big data environment. In this study, methods of constructing confidence intervals based on discordant pairs were proposed and compared with existing confidence intervals. Methods: We proposed confidence intervals that use discordant pair of paired binary data, namely, discordant pair oriented confidence interval, discordant pair oriented confidence interval with continuity correction, discordant pair oriented confidence interval with Agresti-Min psuedo-frequency adjustment and discordant pair oriented confidence interval with Bonett-Price Laplace adjustment. Simulated data were generated by changing success probability of one of two paired binomial events, difference between success probabilities of two events, and correlation coefficient between two events. Performance of confidence intervals are evaluated and compared using its coverage probability and width of interval. Results: Simulation showed that performance of the confidence intervals depends on the correlation between two paired binomial events. When correlation between the two events was positive, narrower widths of confidence intervals using discordant pairs than those of Wald-type confidence intervals and Tango asymptotic-score confidence intervals, which using entire pairs, were observed. however, coverage probabilities of our intervals were lower. On the other hand, if correlation between the two events is negative, the discordant pair-using confidence intervals had coverage probabilities similar to the Wald-type and Tango asymptotic-score confidence interval with narrower widths, except when difference between success probabilities of the two events was large. Conclusion: Confidence intervals based on discordant pairs can provide more accurate and precise estimates of difference between two paired binomial proportions than confidence intervals that using entire pairs of data, especially when correlation coefficients between two binomial events are positive and difference in success probabilities between two paired binomial events is not large.

more

초록/요약

목적: 보건학이나 의학 분야에서 자주 사용되는 교차 설계 연구, 짝진 코호트 연구, 짝진 실험-대조군 연구에서는 두 사건의 발생 정도를 비교하기 위해 두 짝진 이항 비율 간 차이(difference between two paired binary proportions)에 대한 구간 추정을 실시하는 경우가 많다. 이러한 구간 추정의 목적은 점 추정치에 대한 신뢰구간의 정확도와 정밀도를 파악하는 데에 있다. 기존 연구에서 제안된 짝진 이항 비율 간 차이에 대한 신뢰구간은 전체 쌍을 이용한 신뢰구간이며, 이는 빅데이터 환경에서 표본 수가 큰 이항 자료의 분포 형태에 따라 일치쌍의 영향을 과도하게 받을 가능성이 존재한다. 따라서 본 연구에서는 이러한 일치쌍의 영향을 줄이기 위해, 불일치쌍(discordant pair)을 이용한 신뢰구간들을 새로이 제시하였다. 방법: 본 연구에서는 모의실험을 통해 불일치쌍을 이용하여 구축한 불일치쌍 기반 신뢰구간, 불일치쌍 기반 연속성 신뢰구간, 불일치쌍 기반 Agresti-Min 유사-빈도 수정 신뢰구간, 불일치쌍 기반 Bonett-Price의 Laplace 수정 신뢰구간을 비교하였다. 두 짝진 이항 사건 중 한 사건의 성공확률, 두 사건의 성공확률 간 차이, 두 사건 간 상관계수를 변화시키면서 모의실험 자료를 생성하였고, 전체 쌍을 이용한 기존의 신뢰구간과 불일치쌍을 이용한 새로운 신뢰구간을 모수 포함확률, 신뢰구간의 너비 측면에서 해당 수행력을 비교 및 분석하였다. 결과: 모의실험 결과, 두 짝진 이항자료 사건 간의 상관관계에 따라 신뢰구간의 수행력이 차이를 보였다. 두 사건 간 양의 상관관계를 가질 때, 전체 쌍을 이용한 신뢰구간인 Wald-type 신뢰구간과 Tango의 점근-점수 신뢰구간에 비해 불일치쌍을 이용한 신뢰구간들이 너비는 좁았으나 포함확률이 낮은 것으로 나타났다. 한편 두 사건 간 음의 상관관계를 가진 경우에는 불일치쌍을 이용한 신뢰구간이 두 사건 간 발생 확률 차이가 큰 경우를 제외하고는 Wald-type 신뢰구간과 Tango의 점근-점수 신뢰구간과 유사한 포함확률과 좁은 신뢰구간 너비를 가졌다. 결론: 포함확률이 신뢰구간의 정확도, 너비가 신뢰구간의 정밀도를 평가하는 지표임을 고려했을 때, 두 짝진 이항자료 사건 간 양의 상관관계를 가지면서 두 사건 간 성공확률의 차이가 크지 않을 경우, 짝진 이항 비율 차이에 관한 불일치쌍을 이용한 신뢰구간은 기존 신뢰구간들에 비해 정확도와 정밀도 측면에서 효과적인 신뢰구간들이다.

more

목차

Abstract
I. 서 론 1
II. 연구 목적 3
III. 연구 방법 4
1. 전체 쌍을 이용해 신뢰구간을 구축하는 기존 방법들 6
2. 불일치쌍을 이용한 신뢰구간 구축 방법 12
IV. 모의실험 17
1. 모의실험 목적 17
2. 모의실험 설계 17
3. 모의실험 평가 기준 21
4. 모의실험 결과 22
IV. 고 찰 43
V. 결 론 45
참고문헌 47
국문요약 49

more