확률 분포를 왜 알아야 하는가?
확률 분포는 데이터 분석, 통계, 그리고 머신러닝에서 매우 중요한 역할을 합니다. 우리가 사용하는 다양한 통계 모델과 머신러닝 모델들은 대부분 확률 분포에 기반을 두고 있습니다. 이를 이해함으로써 우리는 이러한 모델들이 어떻게 작동하는지, 그 유용성과 한계를 이해할 수 있게 됩니다. 적절한 상황에서 적절한 모델을 선택하고 사용할 수 있는 능력도 키울 수 있습니다.
확률의 정의
확률이란 어떤 사건이 발생할 가능성을 수치로 표현한 것입니다. 주사위를 던질 때 특정 숫자가 나올 확률처럼, 어떤 사건이 얼마나 자주 발생할지를 예측하는데 사용됩니다. 확률은 일반적으로 0에서 1 사이의 값으로 표현됩니다. 0은 사건이 절대 일어나지 않음을, 1은 사건이 반드시 일어남을 의미합니다.
확률의 기본 성질
- 확률은 항상 0과 1 사이의 값입니다.
- 어떤 사건이 일어나지 않을 확률은 1에서 그 사건이 일어날 확률을 뺀 값입니다.
- 전체 사건의 확률의 합은 1입니다.
확률의 법칙
덧셈 법칙(Additive Rule)
- 두 개의 상호 배타적인 사건 A와 B에 대해, A 또는 B가 발생할 확률은 각각의 사건이 발생할 확률의 합입니다.
- 수식: P(A∪B)=P(A)+P(B) (상호 배타적인 경우)
곱셈 법칙(Multiplicative Rule)
- 두 개의 독립적인 사건 A와 B에 대해, A와 B가 모두 발생할 확률은 각각의 사건이 발생할 확률의 곱입니다.
- 수식: P(A∩B)=P(A)×P(B)
조건부 확률(Conditional Probability)
- 조건부 확률은 사건 B가 일어났을 때 사건 A가 일어날 확률을 의미합니다.
- 수식으로는 P(A | B)로 표현되며, 이는 사건 B가 발생한 후 사건 A가 발생할 확률을 의미합니다.
전확률 정리(Law of Total Probability)
- 어떤 사건 A의 확률은 사건 A가 다른 사건 B에 조건부로 의존할 때, 사건 B의 모든 가능한 결과를 고려하여 계산할 수 있습니다.
확률 변수와 확률 분포란?
확률 분포를 이해하기 위해 먼저 세 가지 용어를 정의해야 할 필요가 있습니다. 확률, 확률 변수, 그리고 확률 분포입니다.
- 확률(Probability): 어떤 사건이 발생할 가능성을 0에서 1 사이의 값으로 표현한 것입니다. 예를 들어, 동전을 던졌을 때 앞면이 나올 확률은 0.5입니다.
- 확률 변수(Random Variable): 확률적으로 값이 결정되는 변수를 의미합니다. 동전을 던졌을 때 윗면이 앞면일지 뒷면일지가 확률 변수입니다.
- 확률 분포(Probability Distribution): 확률 변수가 특정한 값을 가질 확률을 나타내는 함수입니다. 예를 들어, 동전 던지기에서 앞면이 나올 확률은 0.5, 뒷면이 나올 확률도 0.5입니다. 이때 각 확률을 나타내는 함수가 확률 분포입니다.
확률 변수의 종류
- 이산 확률 변수: 값이 유한하거나 셀 수 있을 정도로 무한한 경우, 예를 들어 주사위 던지기에서 나오는 숫자.
- 연속 확률 변수: 값이 연속적인 경우, 예를 들어 사람의 키나 체중.
확률 분포의 종류
이산 확률 분포(Discrete Probability Distribution)
- 이산 확률 분포는 확률 변수가 취할 수 있는 값이 유한하거나 셀 수 있을 정도로 무한한 경우를 다룹니다. 예를 들어, 주사위를 던져 나오는 숫자나 동전 던지기의 결과는 이산 확률 분포에 해당합니다.
- 예시: 베르누이 분포, 이항 분포(Binomial Distribution), 포아송 분포(Poisson Distribution)
연속 확률 분포(Continuous Probability Distribution)
- 연속 확률 분포는 확률 변수가 취할 수 있는 값이 연속적인 경우를 다룹니다. 예를 들어, 특정 구간에서의 키나 체중과 같은 물리적 측정값이 연속 확률 분포에 해당합니다.
- 예시: 정규 분포(Normal Distribution), 지수 분포(Exponential Distribution), 카이제곱 분포(Chi-Square Distribution)
확률 분포의 예시
- t-test: t분포를 사용하여 두 집단의 평균을 비교합니다.
- 베르누이 분포: 어떤 사건이 발생할 확률을 다룰 때 사용됩니다. 예를 들어, 로지스틱 회귀(Logistic Regression)는 이 분포와 관련이 있습니다.
- 선형 회귀: 잔차(오차)가 일정한 분산을 가지며 독립적이라는 가정을 합니다. 이 가정이 맞지 않으면 모델의 계수를 정확히 해석할 수 없습니다.
- K-means: 각 클러스터가 정규분포를 따른다는 가정을 합니다. 이 가정을 이해하기 위해서는 다변량 정규분포(Multi-variate normal distribution)에 대한 이해가 필요합니다.
- 잠재 디리클레 할당(LDA): 디리클레 분포를 사용하며, 다항 분포와도 관련이 있습니다.
동전 던지기를 통한 확률의 예시
동전을 던질 때 윗면이 무엇이 될지는 확률 변수입니다. 이 확률 변수가 앞면일 확률이나 뒷면일 확률을 확률이라고 부릅니다. 동전을 실제로 던지면 결과는 실현되어 앞면이나 뒷면 중 하나가 나옵니다.
또한, 확률 변수에서 관측될 수 있는 결과의 집합을 사건(사상, Event)이라고 하며, 가능한 모든 사건의 집합을 표본 공간(Sample Space)이라고 합니다. 동전 던지기의 경우, 표본 공간은 {'앞면', '뒷면'}으로 구성됩니다.
확률 분포의 중요성
확률 분포는 우리가 데이터를 분석하고 모델링할 때 필수적인 도구입니다. 이를 통해 데이터를 설명하고 예측하는 데 필요한 통계적 모델을 만들 수 있습니다. 예를 들어, 확률 분포를 이해하면 데이터가 어떻게 분포하는지, 특정 사건이 일어날 가능성이 얼마나 되는지를 알 수 있습니다.
이러한 이유로 확률 분포를 이해하는 것은 데이터 과학에서 매우 중요합니다. 다양한 확률 분포를 다룰 수 있는 능력을 키우면, 복잡한 데이터 분석과 모델링 작업을 더욱 효율적으로 수행할 수 있습니다.
추가 내용
독립 사건과 종속 사건
- 독립 사건: 한 사건의 발생이 다른 사건의 발생에 영향을 미치지 않는 경우. 예를 들어, 주사위를 두 번 던지는 경우 첫 번째 던짐과 두 번째 던짐은 독립적입니다.
- 종속 사건: 한 사건의 발생이 다른 사건의 발생 확률에 영향을 미치는 경우. 예를 들어, 카드 덱에서 카드를 뽑는 경우, 첫 번째 카드의 결과가 두 번째 카드의 결과에 영향을 줍니다.
베이즈 정리(Bayes' Theorem)
- 베이즈 정리는 조건부 확률의 개념을 확장하여 주어진 정보에 따라 사건의 확률을 업데이트하는 방법을 제공합니다.
- 수식:
이 정리는 많은 통계적 추론 방법의 기초가 되며, 특히 베이지안 통계와 머신러닝에서 중요한 역할을 합니다.
확률 분포에 대한 깊은 이해는 데이터 분석과 모델링의 정확성을 크게 향상시킵니다. 확률 개념은 확률 분포와 불확실성을 다루는 데 필수적이며, 이를 통해 더욱 신뢰할 수 있는 예측과 의사결정을 할 수 있습니다.
'통계 > 파이썬을 이용한 통계 기초' 카테고리의 다른 글
[파이썬을 활용한 통계 개념 기초] 06. 포아송 분포(Poisson distribution) (0) | 2024.09.24 |
---|---|
[파이썬을 활용한 통계 개념 기초] 05. 이항 분포(Binomial distribution) (0) | 2024.09.19 |
[파이썬을 활용한 통계 개념 기초] 04. 정규 분포(Normal distribution) (1) | 2024.09.07 |
[파이썬을 활용한 통계 개념 기초] 03. 확률 질량 함수와 확률 밀도 함수 (pmf & pdf) (2) | 2024.09.03 |
[파이썬을 활용한 통계 개념 기초] 02. 확률 분포(Probability distribution) (0) | 2024.08.25 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!