지난번 01. 확률(Probability) 글에서 설명한 확률 분포는 균일 분포(Uniform distribution)라고 말할 수 있습니다.
지난번에 설명한 균일 분포 (Uniform Distribution)를 다시 설명하면 균일 분포란 사건의 모든 가능한 결과가 동일한 확률을 가지는 분포입니다.
(사건이 무엇인지와 무관하게 확률이 동일한 분포)
균일 분포는 결과 간의 확률이 무차별적이며, 특정한 값이 나타날 가능성이 다른 값들과 동일합니다.
일반적으로 확률 분포의 값은 사건과 모수(parameter)에 따라 달라지며, 그 사이의 관계를 수식을 통해 정의할 수 있습니다.
베르누이 분포 (Bernoulli Distribution)
정의:
결과가 두 가지(예: 성공/실패)로 나뉘는 이산 확률 분포(결과 값이 둘 중 하나만 가능한 분포)입니다. 단일 시행에서 성공할 확률을 p로, 실패할 확률을 1−p로 나타냅니다.
수식:
- 수식 설명 :
- 베르누이 분포(Bernoulli distribution)의 확률 분포 함수(수식은 이산 확률 변수 X가 특정 값 x를 가질 확률을 나타냄.)
- P(X = x)는 확률 변수 X가 x 값을 가질 때의 확률을 의미합니다. 이때 x는 0 또는 1일 수 있습니다.
- p는 분포의 모수(파라미터)로, 확률 변수 X가 1이 될 확률을 의미합니다.
- 수식에서 x=1이면 P(X=1)=p이고, x=0이면 P(X=0)=1−p가 됩니다.
베르누이 분포의 특징:
- 베르누이 분포는 두 가지 가능한 결과(0 또는 1)만을 가지며, 이는 동전 던지기와 같은 이진 상황을 모델링할 수 있습니다.
- 베르누이 분포는 이진 결과를 다루기 때문에 무작위 추출, 머신러닝, 분류 문제 등에서 널리 사용됩니다.
- 베르누이 분포는 머신러닝의 분류 문제에서 자주 사용되며, 시그모이드 함수와 연결되어 로지스틱 회귀와 같은 모델에서 자주 활용됩니다.
혼합 분포:
혼합 분포는 말 그대로 여러 개의 개별 확률 분포를 결합하여 만든 확률 분포입니다.
각각의 개별 분포는 혼합 분포를 구성하는 요소로 여러 가지 경우의 수를 다루며, 이러한 요소들을 섞어서(혼합하여) 전체 데이터를 설명할 수 있는 하나의 새로운 분포를 만듭니다.
혼합 분포는 특히 데이터가 서로 다른 특성을 가진 여러 하위 집단으로부터 온 것일 때 유용합니다. 예를 들어, 키에 대한 데이터를 생각해보면, 남성과 여성의 키는 각각 다른 평균과 분산을 가지는 정규 분포를 따를 수 있습니다. 이때 전체 데이터를 표현하기 위해 남성과 여성 각각의 정규 분포를 혼합한 분포를 사용할 수 있습니다.
지지역 (Support)
지지역은 통계학과 확률론에서 매우 중요한 개념으로, 특정 확률 변수의 가능한 모든 결과값을 포함하는 집합입니다. 쉽게 말해서, 확률 변수가 가질 수 있는 모든 가능한 값을 지지역이라고 부릅니다.
지지역의 기본 개념
- 확률 변수: 확률 변수는 어떤 사건의 결과를 숫자로 표현한 것입니다. 예를 들어, 동전을 던지는 실험에서 '앞면'과 '뒷면'이 나올 수 있는데, 이 두 가지 결과를 각각 1과 0으로 숫자로 나타내는 것이 확률 변수입니다.
- 지지역: 지지역은 이 확률 변수가 가질 수 있는 가능한 모든 숫자 값을 모아놓은 집합입니다. 동전 던지기의 예에서 지지역은 {0, 1}입니다. 0은 '뒷면', 1은 '앞면'을 의미합니다.
왜 지지역이 중요한가?
- 확률 계산의 기초: 지지역을 알아야만 특정 사건이 일어날 확률을 계산할 수 있습니다. 예를 들어, 주사위를 던질 때, 지지역은 {1, 2, 3, 4, 5, 6}입니다. 이 지지역을 바탕으로 각 숫자가 나올 확률을 계산할 수 있습니다.
- 불가능한 사건 구분: 지지역에 포함되지 않은 값은 발생할 수 없는 사건을 의미하며, 이러한 값에 대한 확률은 항상 0입니다. 예를 들어, 동전을 던졌을 때 '2'가 나오는 것은 불가능하므로, '2'는 지지역에 포함되지 않습니다.
지지역의 적용 사례
- 이산 확률 변수: 예를 들어, 동전 던지기, 주사위 던지기 등은 지지역이 명확하게 정의되는 이산 확률 변수에 해당합니다. 동전 던지기에서는 지지역이 {0, 1}, 주사위 던지기에서는 {1, 2, 3, 4, 5, 6}입니다.
- 연속 확률 변수: 키나 몸무게처럼 수치가 연속적인 경우, 지지역은 모든 가능한 실수 값이 될 수 있습니다. 이 경우에는 특정 구간 내에서 확률을 계산하게 됩니다.
숫자로 표현하기
- 통계학에서는 종종 실제 사건(예: '앞면', '뒷면')을 숫자로 변환하여 다룹니다. 이는 계산을 더 쉽게 하고, 데이터 분석에서 표준화된 방법을 사용할 수 있게 하기 때문입니다.
- 예를 들어, '앞면'을 1로, '뒷면'을 0으로 변환하여 확률 변수를 정의할 수 있습니다.
베르누이 분포를 기반으로 발전하거나 관련된 다른 분포
이항 분포 (Binomial Distribution)
- 정의: 이항 분포는 베르누이 분포를 여러 번 반복한 결과를 다룹니다. 각 시행에서 성공 또는 실패가 발생하며, 이항 분포는 이러한 반복된 시행에서 특정 횟수만큼 성공할 확률을 계산하는 데 사용됩니다.
- 응용: 코인 토스, 설문 조사에서 특정 응답을 얻을 확률 등을 계산할 때 사용됩니다.
기하 분포 (Geometric Distribution)
- 정의: 기하 분포는 베르누이 시행을 반복할 때, 첫 번째 성공이 나올 때까지의 시행 횟수를 다룹니다. 이 분포는 실패가 연속으로 일어나는 횟수에 중점을 둡니다.
- 응용: 첫 번째 성공이 나타날 때까지 몇 번의 시도가 필요한지 계산할 때 사용됩니다.
정규 분포 (Normal Distribution)
- 정의: 정규 분포는 연속 확률 분포 중 가장 널리 알려진 분포로, 중심 극한 정리에 따라 많은 독립적인 확률 변수의 합이 정규 분포에 근사하게 된다는 이론적 배경을 가집니다. 이는 종 모양의 대칭적인 분포로, 평균과 표준편차에 의해 결정됩니다.
- 응용: 다양한 자연 현상에서 측정값이 정규 분포를 따릅니다. 예를 들어, 키, 시험 점수, 오차 분포 등이 정규 분포에 가깝습니다.
감마 분포 (Gamma Distribution)
- 정의: 감마 분포는 연속 확률 분포 중 하나로, 주로 대기 시간이나 특정 사건이 발생하기까지의 시간 간격을 모델링하는 데 사용됩니다. 이 분포는 두 개의 모수(형태 모수와 스케일 모수)에 의해 결정됩니다.
- 응용: 보험금 청구, 기계의 고장 시간, 신뢰성 분석 등에서 사용됩니다. 또한, 감마 분포는 지수 분포와 카이제곱 분포의 일반화된 형태로 볼 수 있습니다.
지수 분포 (Exponential Distribution)
- 정의: 지수 분포는 감마 분포의 특수한 경우로, 감마 분포의 형태 모수가 1일 때를 의미합니다. 지수 분포는 연속 확률 분포로, 주로 사건 간의 대기 시간(예: 다음 사건이 발생할 때까지의 시간)을 모델링하는 데 사용됩니다.
- 응용: 반감기, 대기 시간, 서버의 응답 시간 등을 모델링할 때 자주 사용됩니다. 지수 분포는 포아송 과정에서 사건 간 시간 간격을 설명하는 데도 사용됩니다.
포아송 분포 (Poisson Distribution)
- 정의: 포아송 분포는 특정 시간 동안 또는 공간 내에서 일정한 비율로 사건이 발생할 확률을 나타내는 이산 확률 분포입니다. 포아송 분포는 매우 작은 시간 간격 또는 공간 내에서 사건이 발생할 확률이 일정하다는 가정 하에 유도됩니다.
- 응용: 전화 교환기에 걸려오는 전화 수, 병원 응급실에 도착하는 환자 수, 특정 도로 구간에서 발생하는 교통사고 수 등을 모델링할 때 사용됩니다.
베타 분포 (Beta Distribution)
- 정의: 베타 분포는 0과 1 사이의 값을 가지는 연속 확률 분포로, 주로 확률 자체를 모델링하는 데 사용됩니다. 두 개의 모수에 의해 정의되며, 이 모수들은 분포의 모양을 결정합니다.
- 응용: 베타 분포는 베이지안 통계에서 사전 분포로 자주 사용되며, 성공 확률이 불확실한 상황에서 그 불확실성을 모델링할 때 활용됩니다.
‘임의’라는 표현
통계에서의 ‘임의의’라는 표현은 모든 경우에 다 적용된다는 의미로 해석한다면 편리하고 이해가 쉽습니다.
예컨대 임의의 음수는 0보다 작다는 말은 모든 음수가 0보다 작다는 말로 이해하면 쉽게 이해할 수 있습니다.
이처럼 다양한 확률 분포는 실제 문제를 모델링하고 이해하는 데 필수적인 도구입니다. 각각의 분포는 고유한 특성과 응용 분야를 가지므로, 올바른 분포를 선택하는 것이 문제 해결의 핵심입니다.
'통계 > 파이썬을 이용한 통계 기초' 카테고리의 다른 글
[파이썬을 활용한 통계 개념 기초] 06. 포아송 분포(Poisson distribution) (0) | 2024.09.24 |
---|---|
[파이썬을 활용한 통계 개념 기초] 05. 이항 분포(Binomial distribution) (0) | 2024.09.19 |
[파이썬을 활용한 통계 개념 기초] 04. 정규 분포(Normal distribution) (1) | 2024.09.07 |
[파이썬을 활용한 통계 개념 기초] 03. 확률 질량 함수와 확률 밀도 함수 (pmf & pdf) (2) | 2024.09.03 |
[파이썬을 활용한 통계 개념 기초] 01. 확률(Probability) (0) | 2024.08.18 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!