표본 및 통계모집단과 표본모집단(Population)은 연구의 관심 대상이 되는 전체 집단을 의미합니다. 예를 들어, 한국 20대가 특정 색상을 얼마나 좋아하는지 알고 싶다면, 한국 20대 전체가 모집단이 됩니다. 모집단은 우리가 연구하고자 하는 모든 대상이 포함된 집합으로, 이 안의 특성을 정확하게 파악할 수 있다면 모집단에 대해 확실한 결론을 내릴 수 있습니다.하지만 현실적으로 모든 개체를 조사하는 것은 불가능하거나 비효율적일 수 있습니다. 그래서 모집단의 특성을 추정하기 위해 일부 개체를 선택한 표본(Sample)을 사용합니다. 표본은 모집단을 대표할 수 있도록 선택해야 하며, 확률 표본(Random Sample)을 사용하는 것이 일반적입니다. 확률 표본을 통해 모집단의 모든 개체가 동일한 확률로 ..
독립(Independence)독립은 확률 및 통계에서 매우 중요한 개념입니다. 통계를 다룰 때, 사건들이 서로 독립적인지 아니면 의존적인지를 판단하는 것이 매우 중요합니다.독립을 이해하려면 먼저 조건부 확률(Conditional Probability) 개념을 알아야 합니다.조건부 확률과 공식조건부 확률은 한 사건이 주어진 상황에서 다른 사건이 발생할 확률을 의미합니다.여기서:P(A∣B)는 사건 B가 발생한 상황에서 사건 A가 발생할 확률입니다.P(A∩B)는 사건 A와 B가 동시에 발생할 확률입니다.P(B)는 사건 B가 발생할 확률입니다.이 공식은 사건 B가 발생한 조건에서 사건 A가 일어날 가능성을 계산하는 방법을 제시합니다.독립의 정의두 사건이 독립적이라는 것은, 한 사건의 발생이 다른 사건의 발생 확..
기댓값(Expectation)기댓값(Expectation)이란?기댓값은 확률 변수의 평균적인 값을 나타내는 개념으로, 확률 분포의 중심을 보여줍니다. 이는 확률론과 통계학에서 매우 중요한 개념으로, 데이터나 확률 변수의 일반적인 경향을 파악하는 데 유용합니다.기댓값의 정의이산 확률 변수의 기댓값: 확률 변수가 이산적일 때는 가능한 값들에 확률을 곱한 값들의 합으로 기댓값을 계산합니다.여기서 x_i는 확률 변수 X가 가질 수 있는 값, P(x_i)는 해당 값이 나타날 확률입니다. 연속 확률 변수의 기댓값: 확률 변수가 연속적일 때는 확률 밀도 함수(pdf)를 사용하여 기댓값을 구합니다.여기서 f(x)는 확률 밀도 함수입니다.기댓값의 성질선형성: 기댓값은 선형 연산에 대해 다음과 같은 성질을 가집니다. 이는..
음이항 분포(Negative binomial distribution) 음이항 분포(Negative Binomial Distribution)의 개념음이항 분포는 이항 분포의 확장된 개념으로, 특정한 사건(성공)이 r번 일어날 때까지 실패가 몇 번 일어나는지에 대한 확률 분포입니다. 이 분포는 베르누이 시행의 반복으로 이루어집니다. 주요 개념이항 분포(Binomial Distribution): 성공/실패 두 가지 결과만 있는 베르누이 시행을 n번 반복했을 때, r번 성공할 확률을 나타냅니다. 시행 횟수 n은 고정되어 있습니다.음이항 분포: r번 성공할 때까지 시행되는 베르누이 시행의 실패 횟수에 대한 분포를 나타냅니다. 이때, 성공 횟수 r은 고정되어 있지만, 시행 횟수 n은 고정되지 않습니다.수식음이항 분..
표준화와 정규화는 스케일링 (Scaling) 기법으로, 데이터의 스케일을 조정하여 모델이 특정 변수에 의존하거나 왜곡된 결과를 내는 것을 방지하고, 더 정확한 예측과 분석을 할 수 있게 돕습니다. 특히 머신러닝과 딥러닝에서 자주 사용됩니다.표준화와 정규화표준화 (Standardization)정의 : 데이터의 평균을 0, 표준편차를 1로 변환하는 기법.목적 : 다양한 변수의 분포와 단위가 다를 때, 동일한 기준으로 변환하여 상대적 비교를 용이하게 합니다.수식 :특징 :평균이 0, 표준편차가 1로 맞춰짐.데이터 분포의 모양은 유지하되, 중심을 0으로 맞추고 스케일을 조정하여, 모든 변수들이 동일한 표준편차를 갖게 함.이상치(Outliers)가 있는 데이터에도 강한 내성을 가질 수 있습니다. (평균 중심의 변..
포아송 분포는 주어진 시간이나 공간에서 사건이 몇 번 발생할지 예측할 수 있는 확률 분포입니다. 고객 센터에 걸려오는 전화 수, 웹사이트 방문자 수, 생산 라인에서 발생하는 결함의 수처럼 드문 사건을 다루기에 적합합니다. 이번 글에서는 포아송 분포의 개념과 실제 활용 사례를 간단하게 알아보겠습니다.포아송 분포 (Poisson distribution)포아송 분포란?포아송 분포(Poisson distribution)는 주어진 시간 간격이나 공간 내에서 발생하는 사건의 수를 모델링할 때 사용하는 이산 확률 분포입니다.(시간/공간 단위에서 사건이 발생하는 횟수를 설명하는 데 자주 사용되는 분포) 주로 특정한 시간 또는 공간 내에서 사건이 발생하는 평균 빈도(λ)만 알고 있을 때, 해당 시간 또는 공간 내에서 정..
이항 분포는 수학적 개념이지만, 일상에서 자주 만나게 되는 확률을 설명할 때 유용한 도구입니다. 예를 들어, "동전을 10번 던졌을 때 몇 번 앞면이 나올까?"와 같은 질문에 답하는 데 사용할 수 있습니다. 그렇다면 이항 분포가 무엇인지, 어떻게 적용되는지 쉽게 설명해 보겠습니다.이항 분포 (Binomial distribution)이항 분포란?이항 분포(Binomial distribution)는 성공/실패처럼 두 가지 결과만 나오는 실험을 여러 번 반복할 때, 성공할 확률을 구하는 데 사용되는 확률 분포입니다. 쉽게 말해, 동전 던지기나 제품 구매 여부 같은 실험에서 성공(혹은 실패) 횟수를 예측하고 싶을 때 이항 분포를 사용합니다.여기서 중요한 요소는 밑과 같습니다:성공 확률: 예를 들어, 동전을 던질..
정규 분포(Normal Distribution)정의: 정규분포는 연속 확률 분포 중에 가장 일반적으로 많이 사용되는 분포입니다. 중심극한정리(CLT;Central limit theorem)에 의해 표본 평균의 분포가 정규분포를 따르게 되는 현상이 있어 통계학에서 매우 중요한 분포라고 할 수 있습니다.주요 특징:정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.분산 (σ², 분산): 데이터가 얼마나 퍼져 있는지를 나타냅니다.(분산은 편차의 제곱 합으로 단위가 평균과 다르다.)표준편차(σ, 표준편차) : 분산의 제곱근으로, 데이터가 평균으로부터 얼마나..