포아송 분포는 주어진 시간이나 공간에서 사건이 몇 번 발생할지 예측할 수 있는 확률 분포입니다. 고객 센터에 걸려오는 전화 수, 웹사이트 방문자 수, 생산 라인에서 발생하는 결함의 수처럼 드문 사건을 다루기에 적합합니다. 이번 글에서는 포아송 분포의 개념과 실제 활용 사례를 간단하게 알아보겠습니다.포아송 분포 (Poisson distribution)포아송 분포란?포아송 분포(Poisson distribution)는 주어진 시간 간격이나 공간 내에서 발생하는 사건의 수를 모델링할 때 사용하는 이산 확률 분포입니다.(시간/공간 단위에서 사건이 발생하는 횟수를 설명하는 데 자주 사용되는 분포) 주로 특정한 시간 또는 공간 내에서 사건이 발생하는 평균 빈도(λ)만 알고 있을 때, 해당 시간 또는 공간 내에서 정..
이항 분포는 수학적 개념이지만, 일상에서 자주 만나게 되는 확률을 설명할 때 유용한 도구입니다. 예를 들어, "동전을 10번 던졌을 때 몇 번 앞면이 나올까?"와 같은 질문에 답하는 데 사용할 수 있습니다. 그렇다면 이항 분포가 무엇인지, 어떻게 적용되는지 쉽게 설명해 보겠습니다.이항 분포 (Binomial distribution)이항 분포란?이항 분포(Binomial distribution)는 성공/실패처럼 두 가지 결과만 나오는 실험을 여러 번 반복할 때, 성공할 확률을 구하는 데 사용되는 확률 분포입니다. 쉽게 말해, 동전 던지기나 제품 구매 여부 같은 실험에서 성공(혹은 실패) 횟수를 예측하고 싶을 때 이항 분포를 사용합니다.여기서 중요한 요소는 밑과 같습니다:성공 확률: 예를 들어, 동전을 던질..
정규 분포(Normal Distribution)정의: 정규분포는 연속 확률 분포 중에 가장 일반적으로 많이 사용되는 분포입니다. 중심극한정리(CLT;Central limit theorem)에 의해 표본 평균의 분포가 정규분포를 따르게 되는 현상이 있어 통계학에서 매우 중요한 분포라고 할 수 있습니다.주요 특징:정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.분산 (σ², 분산): 데이터가 얼마나 퍼져 있는지를 나타냅니다.(분산은 편차의 제곱 합으로 단위가 평균과 다르다.)표준편차(σ, 표준편차) : 분산의 제곱근으로, 데이터가 평균으로부터 얼마나..
확률 질량 함수와 확률 밀도 함수확률 질량 함수 (pmf) 정의:확률 질량 함수는 X의 값이 이산적(Discrete)일 때 사용됩니다. 이는 X가 0이나 1, 2와 같이 특정한 값을 가질 때 해당 값에 대한 확률을 정의하는 함수입니다.X가 취할 수 있는 값들이 유한하거나 셀 수 있을 때, 각각의 값에 확률을 할당합니다.확률 질량 함수의 예 :성별, 학년, 인원 수특징:확률 질량 함수의 출력은 특정 값에 대한 확률입니다. 예를 들어, 주사위를 굴렸을 때 특정 눈금이 나올 확률은 확률 질량 함수로 표현할 수 있습니다.이산형 확률 분포에서는 각 X 값에 대해 개별적인 확률을 구하고, 이 값들을 모두 더하면 전체 확률이 1이 됩니다.예를 들어, 공정한 6면체 주사위를 굴리는 경우, 주사위 눈금 1이 나올 확률은..
지난번 01. 확률(Probability) 글에서 설명한 확률 분포는 균일 분포(Uniform distribution)라고 말할 수 있습니다.지난번에 설명한 균일 분포 (Uniform Distribution)를 다시 설명하면 균일 분포란 사건의 모든 가능한 결과가 동일한 확률을 가지는 분포입니다.(사건이 무엇인지와 무관하게 확률이 동일한 분포)균일 분포는 결과 간의 확률이 무차별적이며, 특정한 값이 나타날 가능성이 다른 값들과 동일합니다. 일반적으로 확률 분포의 값은 사건과 모수(parameter)에 따라 달라지며, 그 사이의 관계를 수식을 통해 정의할 수 있습니다.베르누이 분포 (Bernoulli Distribution)정의: 결과가 두 가지(예: 성공/실패)로 나뉘는 이산 확률 분포(결과 값이 둘 중..
확률 분포를 왜 알아야 하는가?확률 분포는 데이터 분석, 통계, 그리고 머신러닝에서 매우 중요한 역할을 합니다. 우리가 사용하는 다양한 통계 모델과 머신러닝 모델들은 대부분 확률 분포에 기반을 두고 있습니다. 이를 이해함으로써 우리는 이러한 모델들이 어떻게 작동하는지, 그 유용성과 한계를 이해할 수 있게 됩니다. 적절한 상황에서 적절한 모델을 선택하고 사용할 수 있는 능력도 키울 수 있습니다. 확률의 정의확률이란 어떤 사건이 발생할 가능성을 수치로 표현한 것입니다. 주사위를 던질 때 특정 숫자가 나올 확률처럼, 어떤 사건이 얼마나 자주 발생할지를 예측하는데 사용됩니다. 확률은 일반적으로 0에서 1 사이의 값으로 표현됩니다. 0은 사건이 절대 일어나지 않음을, 1은 사건이 반드시 일어남을 의미합니다.확률의..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)회귀 분석의 개요회귀분석(regression analysis)두 양적 변수 사이의 관계성을 확인하는 데에 사용되는 분석 방법론으로 통계학에서 가장 중요한 방법론 중 하나입니다.설명변수의 변화에 따라 결과 변수가 어느 정도 변화하는가를 구체적인 수치로 표현할 수 있게 해주는 방법론입니다.변수 간의 관계성을 하나의 선으로 나타내고, 이 선을 다시 하나의 식으로 표현해 줍니다.회귀식의 x축에 들어가는 변수는 설명 변수(= 독립 변수)라고 불리우며며, y축의 변수는 결과 변수(= 종속 변수)로 표현합니다.회귀선을 구하는 방법회귀의 관계성을 가장 잘 표현하는 식은 간단한 수학식으로 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)통계적 가설 검정의 개요추론 통계에서는 모집단에 대해서 단정할 수는 없지만, 확률적으로 높은 쪽으로 선택해야 합니다.추론 통계에서는 확률을 도입해서 ‘모든’ 대신 ‘거의 모든’을 생각하도록 해야 합니다.(통계적 가설 검정을 활용하면 예외가 존재할 확률을 인정하면서도 보다 가능성이 높은 쪽으로 선택을 내릴 수 있게 됩니다.)이러한 통계적 가설 검정은 가설을 세우고 표본 데이터를 관찰한 다음, p값을 계산해 유의 수준 α와 비교하고 귀무가설의 기각 여부를 결정하는 과정입니다.통계적 가설 검정의 절차가설 검정 (hypothesis testing)용어) 가설, 귀무가설, 대립가설,..