통계/파이썬을 이용한 통계 기초

[파이썬을 활용한 통계 개념 기초] 15. 누적 확률 분포(Cumulative distribution function)

ourkofe's story 2025. 1. 22. 17:20

누적 분포 함수 (CDF)

누적 분포 함수(Cumulative Distribution Function, CDF)는 확률 통계에서 매우 중요한 개념으로, 데이터의 분포와 특정 값 이하의 확률을 직관적으로 이해할 수 있게 해줍니다.

이번 글에서는 CDF의 정의, 특징, 계산 방식, 활용 예시 등을 정리했습니다.


누적 분포 함수(CDF)란?

누적 분포 함수(CDF)는 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수입니다.

이는 확률 분포를 설명하는 데 중요한 도구로, 확률 변수 X에 대해 아래와 같이 정의됩니다.

여기서:

  • F_X(x): 확률 변수 가 이하일 확률
  • P(X≤x): 누적 확률

즉, 특정 값 이하의 확률을 누적하여 보여주는 함수가 바로 CDF입니다.


CDF의 주요 특징

(1) 단조 증가 함수 (Monotonically Increasing)

  • x가 증가함에 따라 는 감소하지 않습니다.
  • 이 F_X(x)는 확률이 누적되면서 항상 0에서 1로 점진적으로 증가하기 때문입니다.

(2) 경계값

  • F_X(−∞)=0: 확률 변수 가 모든 값보다 작을 확률은 0입니다.
  • F_X(∞)=1: 확률 변수 가 모든 값보다 작거나 같을 확률은 1입니다.

(3) 구간 확률 계산

  • CDF를 사용하면 특정 구간에 대한 확률을 간단히 계산할 수 있습니다.

  • 예를 들어, 특정 시험 점수 70≤X≤85의 확률은F_X(85) - F_X(70)로 계산합니다.

(4) 연속성과 비연속성

  • 연속형 확률 변수: F_X(x)는 연속적인 함수입니다.
  • 이산형 확률 변수: F_X(x)는 계단형 함수로 나타납니다.

CDF와 PDF, PMF의 차이점

(1) PMF (Probability Mass Function)

  • 이산형 확률 변수에서 특정 값에서의 확률을 나타냅니다.
  • 예: 주사위의 눈 X가 3일 확률 P(X = 3).

(2) PDF (Probability Density Function)

  • 연속형 확률 변수에서 특정 값에서의 확률 밀도를 나타냅니다.
  • 특정 값 자체의 확률은 0이며, 구간 확률을 구하기 위해 적분이 필요합니다.

(3) CDF

  • 특정 값 이하의 확률을 누적하여 계산하며, PDF를 적분하여 얻을 수 있습니다.


CDF의 계산 방식

(1) 연속형 확률 변수의 CDF 계산

  • PDF를 적분하여 CDF를 구할 수 있습니다.
  • 예: 평균이 0, 표준편차가 1인 정규분포(표준 정규분포)의 경우, PDF는 다음과 같으며 이를 적분하여 CDF를 얻습니다.

(2) 이산형 확률 변수의 CDF 계산

  • 특정 값까지의 확률을 모두 더하여 CDF를 계산합니다.
  • 예: 주사위에서 X≤3일 확률은 다음과 같습니다.

(3) Python을 활용한 계산

Python의 scipy 라이브러리를 사용하면 CDF 계산이 매우 간단합니다. 예를 들어, 평균 100, 표준편차 24인 정규분포에서 X≤150일 확률을 계산하려면,

from scipy.stats import norm
prob = norm.cdf(150, loc=100, scale=24)
print(prob)  # 결과: 약 0.981

 

728x90