
[파이썬을 활용한 통계 개념 기초] 08. 근사(Approximation)통계/파이썬을 이용한 통계 기초2024. 10. 10. 08:30
Table of Contents
근사(Approximation)
근사(Approximation)의 정의
근사는 복잡하거나 정확한 계산이 어려운 문제를 간단한 방법으로 대체하여 해결하는 방법입니다. 통계에서 주로 정규분포 근사가 많이 사용되며, 복잡한 분포를 더 계산이 쉬운 정규분포로 대체하여 계산하는 경우가 많습니다.
근사의 필요성
- 복잡한 계산 단순화: 많은 실제 문제에서는 표본 크기가 크거나 계산이 복잡하여 정확한 확률 분포를 계산하는 것이 어렵습니다. 이때 근사를 통해 대략적인 결과를 얻는 것이 실질적으로 유용할 수 있습니다.
- 실용성: 통계에서는 분석 속도와 실용성을 높이기 위해 자주 근사 방법을 사용합니다. 예를 들어, 큰 표본에서 이항분포나 포아송 분포 등을 정규분포로 근사하여 처리할 수 있습니다.
정규분포 근사 (Normal Approximation)
중심극한정리 (Central Limit Theorem, CLT)
- 중심극한정리는 임의의 표본 평균이 충분히 큰 표본에서 정규분포로 수렴한다는 이론입니다.
- 이로 인해 우리는 여러 분포의 평균을 정규분포로 근사할 수 있습니다. 즉, 표본 크기가 커지면 원래 분포가 무엇이든 간에 그 평균은 정규분포와 유사해진다는 것입니다.
이항분포 근사
- 이항분포는 성공/실패라는 두 가지 결과를 가지는 실험에서 성공의 횟수를 따르는 분포입니다. 이항분포에서 표본 크기가 충분히 크면, 정규분포로 근사할 수 있습니다.
- 이항분포 B(n,p)는 n*p와 n(1−p)가 모두 5 이상일 때 정규분포로 근사할 수 있습니다. 즉, 성공 횟수와 실패 횟수가 모두 충분히 크다면 이항분포를 정규분포로 대체할 수 있습니다.
포아송 분포 근사
- 포아송 분포는 일정한 시간 동안 발생하는 사건의 수를 다루는 분포입니다. 포아송 분포는 평균이 클 때 정규분포로 근사할 수 있습니다.
근사 적용 시 주의사항
근사법을 사용할 때는 주의가 필요하며, 다음과 같은 조건을 만족해야 근사가 적절히 작동합니다.
(1) 표본 크기
- 정규분포 근사는 일반적으로 표본 크기가 충분히 클 때 적용할 수 있습니다. 중심극한정리에 따르면, 표본 크기가 충분히 커야 표본 평균이 정규분포를 따르게 됩니다. 하지만 표본 크기가 너무 작다면 정규분포로 근사하는 것이 적절하지 않을 수 있습니다.
(2) 확률 p 값의 극단적인 경우
- 이항분포의 근사에서 성공 확률 p가 0 또는 1에 가까운 경우 근사가 부정확할 수 있습니다. 예를 들어, 성공 확률이 매우 낮거나 매우 높은 경우에는 이항분포가 극단적인 형태를 띠기 때문에 정규분포로 대체하기 어렵습니다.
(3) 대체 가능한 분포
- 정규분포 외에도 더 적합한 분포가 존재할 수 있습니다. 예를 들어, 정규분포가 아닌 스튜던트 t-분포나 베타 분포, 감마 분포 등이 더 적합한 근사 분포일 수 있습니다. 상황에 맞는 분포를 선택하는 것이 중요합니다.
실제 사례에서 근사의 위험성
(1) CTR 분석:
- 광고에서 CTR(클릭률)이 매우 낮은 경우가 흔합니다. CTR이 1% 미만일 때, 정규분포 근사법을 사용하면 신뢰 구간이 부정확해질 수 있습니다. 이 경우 이항분포 자체를 사용하거나, 베이지안 통계 방법으로 분석하는 것이 더 적합할 수 있습니다.
(2) 신뢰구간 및 가설 검정:
- 근사를 사용하여 신뢰구간을 계산할 때, 표본 크기가 작거나 분포가 왜곡된 경우 잘못된 결과를 얻을 수 있습니다. 특히, 가설 검정에서 표본이 작다면 t-분포를 사용하는 것이 더 정확한 경우도 많습니다.
대안 방법
- 베이지안 통계: 정규분포 근사가 부정확한 상황에서는 베이지안 방법을 통해 사전 분포와 관측 데이터를 결합하여 더 정확한 추정치를 얻을 수 있습니다.
- 비대칭 분포: 분포가 비대칭일 때는 정확한 분포를 사용하거나 다른 적절한 통계적 방법을 사용하는 것이 중요합니다.
정리 및 요약
근사법은 통계 분석에서 중요한 도구이지만, 적절한 조건과 상황에서만 사용해야 합니다. 정규분포 근사는 중심극한정리에 의해 자주 사용되지만, 작은 표본이나 극단적인 값에서는 그 한계가 명확합니다. 실제 문제에서는 더 적합한 대체 방법을 사용하거나, 정확한 분포를 선택하는 것이 필요합니다.
728x90
'통계 > 파이썬을 이용한 통계 기초' 카테고리의 다른 글
[파이썬을 활용한 통계 개념 기초] 10. 기댓값(Expectation) (1) | 2024.10.24 |
---|---|
[파이썬을 활용한 통계 개념 기초] 09. 음이항 분포(Negative binomial distribution) (1) | 2024.10.17 |
[파이썬을 활용한 통계 개념 기초] 07. 표준화와 정규화(Standardization and Normalization) (0) | 2024.10.05 |
[파이썬을 활용한 통계 개념 기초] 06. 포아송 분포(Poisson distribution) (0) | 2024.09.24 |
[파이썬을 활용한 통계 개념 기초] 05. 이항 분포(Binomial distribution) (0) | 2024.09.19 |

@ourkofe's story :: ourkofe
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!