포아송 분포는 주어진 시간이나 공간에서 사건이 몇 번 발생할지 예측할 수 있는 확률 분포입니다. 고객 센터에 걸려오는 전화 수, 웹사이트 방문자 수, 생산 라인에서 발생하는 결함의 수처럼 드문 사건을 다루기에 적합합니다. 이번 글에서는 포아송 분포의 개념과 실제 활용 사례를 간단하게 알아보겠습니다.
포아송 분포 (Poisson distribution)
포아송 분포란?
포아송 분포(Poisson distribution)는 주어진 시간 간격이나 공간 내에서 발생하는 사건의 수를 모델링할 때 사용하는 이산 확률 분포입니다.
(시간/공간 단위에서 사건이 발생하는 횟수를 설명하는 데 자주 사용되는 분포)
주로 특정한 시간 또는 공간 내에서 사건이 발생하는 평균 빈도(λ)만 알고 있을 때, 해당 시간 또는 공간 내에서 정확히 몇 번 사건이 발생할 확률을 계산할 수 있습니다.
포아송 분포는 사건이 빈번하게 발생하지 않고, 독립적이며 일정한 비율로 발생하는 시스템을 모델링할 때 적합합니다.
예를 들어, 시간당 도착하는 고객 수, 특정 시간 동안 벌어지는 교통사고 수, 하루 동안 발생하는 서버 오류 수 등이 포아송 분포로 모델링될 수 있습니다.
포아송 분포의 주요 특징
- 독립성: 시간이나 공간의 어느 구간에서 사건이 발생할 확률은 다른 구간에서의 사건 발생 확률과 독립적입니다. 예를 들어, 오전에 도착하는 고객 수와 오후에 도착하는 고객 수는 서로 독립적으로 계산됩니다.
- 기대값(평균)과 분산이 같다 : 포아송 분포의 중요한 특징 중 하나는 기대값(평균)과 분산이 동일하다는 점입니다. 즉, 사건이 발생하는 평균 횟수 λ가 분산을 결정합니다. 기대값과 분산이 모두 λ로 주어집니다.
- 이산 확률 분포: 사건 발생 횟수가 정수로 표현됩니다.
- 드문 사건: 사건이 빈번하게 발생하지 않는 경우에 적합합니다. 예를 들어, 하루에 100건의 사건이 발생한다면 포아송 분포보다는 정규 분포를 사용하는 것이 더 적합할 수 있습니다. 그러나 사건의 발생 빈도가 적다면 포아송 분포가 적합합니다.
포아송 분포의 확률 질량 함수(PMF)
포아송 분포의 확률 질량 함수(PMF)는 사건이 특정 시간이나 공간 내에서 몇 번 발생할 확률을 계산하는 데 사용됩니다.
여기서:
- P(X=k)는 단위 시간(혹은 공간) 내에 정확히 k 번 사건이 발생할 확률입니다.
- λ는 단위 시간(혹은 공간) 내에 발생하는 사건의 평균 횟수입니다.
- k는 사건의 횟수입니다.
- e는 자연로그의 밑(약 2.718)입니다.
포아송 분포의 예시
만약 어떤 웹사이트에서 하루 평균 3건의 문의가 들어온다면, 이 상황을 포아송 분포로 모델링할 수 있습니다. 하루에 정확히 5건의 문의가 들어올 확률을 알고 싶다면, λ = 3, k = 5로 포아송 확률을 계산할 수 있습니다.
포아송 분포는 다양한 실생활의 현상을 모델링하는 데 유용합니다.
예를 들어,
- 통화센터에 걸려오는 전화 수
- 웹사이트에 방문하는 특정 시간대의 방문자 수
- 공장에서 생산 중 발생하는 결함의 수
이 분포는 사건이 발생할 가능성을 예측하고 관리하는 데 유용한 도구입니다.
포아송 분포와 다른 분포와의 관계
- 이항 분포와의 관계: 이항 분포에서 사건이 일어나는 횟수는 고정된 시도 횟수와 각 시도에서의 성공 확률로 결정됩니다. 이항 분포에서 성공 확률이 매우 작고, 시도 횟수가 매우 클 때 포아송 분포로 근사할 수 있습니다. 즉, 포아송 분포는 이항 분포에서 시도 횟수 n이 매우 크고 성공 확률 p가 작을 때 근사적으로 사용할 수 있습니다.
- 정규 분포와의 관계: 사건의 발생 횟수가 매우 많아지면 포아송 분포는 정규 분포에 가까워집니다. 특히 λ가 매우 클 때, 정규 분포로 근사할 수 있습니다.
'통계 > 파이썬을 이용한 통계 기초' 카테고리의 다른 글
[파이썬을 활용한 통계 개념 기초] 08. 근사(Approximation) (0) | 2024.10.10 |
---|---|
[파이썬을 활용한 통계 개념 기초] 07. 표준화와 정규화(Standardization and Normalization) (0) | 2024.10.05 |
[파이썬을 활용한 통계 개념 기초] 05. 이항 분포(Binomial distribution) (0) | 2024.09.19 |
[파이썬을 활용한 통계 개념 기초] 04. 정규 분포(Normal distribution) (1) | 2024.09.07 |
[파이썬을 활용한 통계 개념 기초] 03. 확률 질량 함수와 확률 밀도 함수 (pmf & pdf) (2) | 2024.09.03 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!