[파이썬을 활용한 통계 개념 기초] 04. 정규 분포(Normal distribution)통계/파이썬을 이용한 통계 기초2024. 9. 7. 13:15
Table of Contents
정규 분포(Normal Distribution)
- 정의: 정규분포는 연속 확률 분포 중에 가장 일반적으로 많이 사용되는 분포입니다. 중심극한정리(CLT;Central limit theorem)에 의해 표본 평균의 분포가 정규분포를 따르게 되는 현상이 있어 통계학에서 매우 중요한 분포라고 할 수 있습니다.
- 주요 특징:
- 정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.
- 평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.
- 분산 (σ², 분산): 데이터가 얼마나 퍼져 있는지를 나타냅니다.(분산은 편차의 제곱 합으로 단위가 평균과 다르다.)
- 표준편차(σ, 표준편차) : 분산의 제곱근으로, 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내고 정규 분포의 너비를 결정합니다. 표준편차가 클수록 분포가 더 넓어지며, 데이터가 평균에서 더 멀리 퍼져 있음을 의미합니다. 반대로 표준편차가 작으면 분포가 더 좁아지고, 데이터가 평균 근처에 집중된다는 뜻입니다. (통계학에서 분산보다 더 많이 쓰임, 단위가 평균과 같다.)
- 평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.
- 정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.
- 특성:
- 대칭성: 정규분포는 평균을 중심으로 좌우 대칭이며, 종 모양의 곡선 (bell shape)을 가집니다.
- 확률밀도함수(pdf): 정규분포의 확률밀도함수는 수학적으로 복잡하여, 이를 계산하기 위해서는 미리 계산된 표를 사용하거나 컴퓨터 도구를 사용하는 것이 일반적입니다.
- 대칭성: 정규분포는 평균을 중심으로 좌우 대칭이며, 종 모양의 곡선 (bell shape)을 가집니다.
이 정규분포의 확률밀도함수는 정규분포의 종 모양을 설명하며, 평균을 중심으로 좌우 대칭이고, 데이터가 평균에 가까울수록 확률이 높아지는 형태를 가집니다.
표준 정규 분포(Standard normal distribution)
- 정의: 표준 정규 분포는 정규분포의 특수한 형태로, 평균이 0이고 표준편차가 1인 정규분포를 의미합니다.(=z분포라고도 한다.)
- 특징:
- 모든 정규 분포는 표준 정규 분포로 변환될 수 있어, 정규 분포를 표준 정규 분포로 변환하는 방법을 알고 있다면, 다양한 정규 분포를 사용할 수 있습니다.
- 변환: 일반적인 정규분포 X∼N(μ ,σ²)를 표준정규분포로 변환하는 방법은 다음과 같습니다.
- 평균이 μ이고 분산이 σ²인 정규 분포를 다음과 같이 표시합니다. → X∼N(μ ,σ²)
- X를 밑과 같이 변환한 확률 변수를Y라고 합니다.
3. 위 과정을 통해 Y는 Y∼N(0,1)을 따르게 되며, 이를 Z-분포 또는 Z-점수라고도 부릅니다.
- Z-점수 (Z-score)의 활용: 표준 정규 분포로 변환된 값인 Z-점수는 특정 값이 평균으로부터 얼마나 떨어져 있는지를 표준편차 단위로 나타낸 값입니다. 이를 통해 서로 다른 정규 분포 간의 값을 비교할 수 있습니다
예를 들어, Z-값이 1이라면 이는 해당 데이터가 평균보다 1 표준편차만큼 크다는 의미입니다. Z-값을 이용해 우리는 데이터를 비교적 쉽게 해석할 수 있고, 표준 정규 분포의 확률 표를 이용하여 특정 값의 확률을 계산할 수 있습니다.
- 표준 정규 분포의 표 사용: 표준 정규 분포 표는 누적분포함수(CDF, Cumulative Distribution Function)를 이용하여 정규 분포 내에서 특정 구간에 해당하는 값의 확률을 계산할 수 있습니다. 이 표를 사용하면 특정 Z-값 이하의 확률을 손쉽게 찾을 수 있으며, 이를 통해 통계적 가설 검정, 신뢰 구간 계산 등 다양한 통계적 분석을 수행할 수 있습니다.
정규 분포와 표준 정규 분포의 응용
- 데이터 분석 및 가설 검정: 정규 분포는 가설 검정에서 매우 자주 사용됩니다. z-검정 또는 t-검정을 통해 모집단의 평균이 특정 값과 다른지를 판단하는 데 사용됩니다. 만약 모집단의 표준편차를 알고 있다면 z-검정을 사용하고, 모집단의 표준편차를 모른다면 t-검정을 사용합니다.
- 확률 계산의 응용: 표준 정규 분포를 활용하여 다양한 실생활 문제를 해결할 수 있습니다. 예를 들어, 특정 시험에서 점수가 평균보다 얼마나 높은지 또는 낮은지를 Z-점수를 사용해 분석할 수 있습니다. Z-점수를 계산하여 그 값이 전체에서 몇 퍼센트에 해당하는지 쉽게 알아낼 수 있습니다.
728x90
'통계 > 파이썬을 이용한 통계 기초' 카테고리의 다른 글
[파이썬을 활용한 통계 개념 기초] 06. 포아송 분포(Poisson distribution) (0) | 2024.09.24 |
---|---|
[파이썬을 활용한 통계 개념 기초] 05. 이항 분포(Binomial distribution) (0) | 2024.09.19 |
[파이썬을 활용한 통계 개념 기초] 03. 확률 질량 함수와 확률 밀도 함수 (pmf & pdf) (2) | 2024.09.03 |
[파이썬을 활용한 통계 개념 기초] 02. 확률 분포(Probability distribution) (0) | 2024.08.25 |
[파이썬을 활용한 통계 개념 기초] 01. 확률(Probability) (0) | 2024.08.18 |
@ourkofe's story :: ourkofe
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!