이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)
추론통계의 목차
- 통계 리터러시
- 데이터 분석과 통계학
- 표본을 통해 모집단을 파악
- 평균과 표준편차
- 확률과 확률분포
- 정규 분포와 중심극한정리
- 오차와 신뢰구간
- 통계적 가설 검정
- 회귀 분석
통계 리터러시
데이터 분석과 통계학
데이터 분석의 목적
- 현상 파악
- 기술 통계 : 데이터 자체의 특징을 정리하고 요약하는 것
예) 3월 방문자 중 10대 비중이 몇 % 인지? / 고객의 평균 소비 금액 얼마인가? - 이미 비즈니스 현장에서 대다수 종사자들이 쉽게 하고 있는 일
- 기술 통계 : 데이터 자체의 특징을 정리하고 요약하는 것
- 대상에 대한 통찰 (이번에 다루는 내용)
- 추론 통계 : 표본을 바탕으로 모집단을 추론 (모집단을 이해하도록 도움을 주는 통계)
- 모집단은 넓은 범주의 집단으로 완벽하게 전부 조사하는 것은 불가능합니다.
그렇기 때문에 데이터 분석가가 비즈니스 상황에서 행하게 되는 통계는 표본을 통해 모집단을 추론하는 추론통계입니다.
예) 서비스의 유저는 A기능과 B기능 중에 어느 기능을 더 좋아할까?
→ 유저의 일부를 대상으로 하여 기능을 테스트해보고 A가 반응이 좋다면, 전체 서비스에 A를 적용하여 전체적안 유저의 반응이 더 좋아지겠다라는 결론을 내릴 수 있습니다.
- 미래 예측
- 예측 모델링에 통계를 사용하는 경우를 말합니다.
- 데이터 분석보다는 데이터 사이언스에 가까운 분야입니다.
- 머신 러닝이라는 명목 하에 배우는 영역으로, 데이터 분석을 통해 비즈니스 아이디어를 얻고자 하는 경우보다는 특정한 결괏값을 정확히 예측해 내는 방법을 연구하는 상황에서 필요합니다.
예) 앞으로 X 상품의 재고가 어떻게 변할까? / A라는 특성을 가진 유저가 X상품을 선택할 확률은 얼마나 될까
표본을 통해 모집단을 파악
모집단 (population) : 연구 대상이 되는 전체, 통계에서 우리가 알고자 하는 대상
표본 (sample) : 모집단에서 추출된 일부
추론 통계 : 표본의 특성을 바탕으로 모집단의 특성을 추정해내는 것 (예 : 통계적 가설 검정, 회귀분석)
→ 이유? : 전수 조사를 하려면 시간과 비용이 많이 들어서 (전수 조사 : 모집단 전체를 조사)
추론통계를 하는 이유 : 모집단은 너무 크기때문에 표본을 추출하여 표본을 바탕으로 모집단을 추론하기 위해서입니다.
모집단의 분류
- 유한 모집단 : 구성원의 수가 유한한 경우
예) 2024년 00 중학교의 3학년 1반 학생들 - 무한 모집단 : 모집단의 구성 요소가 무한에 가까운 경우 (구성원의 수가 정확한 숫자로 한정되어 있지 않은 경우)
실제 비즈니스 현장에서는, 알고 싶은 모집단은 보통 어떤 제품이나 서비스의 유저인데, 특정 제품이나 서비스에는 새로운 유저가 유입되고 또 기존의 유저가 이탈하기도 하면서 계속해서 유저라는 집단의 구성원이 변하기 때문에 무한 모집단으로 분류됩니다.
모집단과 표본의 괴리를 줄이는 방법
- 무작위 추출(random sampling) : 모집단에서 표본을 추출할 때는 최대한 편향이 없도록 무작위로 추출해야 합니다.
- ‘일정 수준 이상’의 표본의 크기가 필요함 : 모집단에서 표본을 추출할 때는 너무 작지도, 지나치게 크지도 않은 적정한 양의 표본을 선정해야 합니다.
- 큰 수의 법칙(law of large numbers): 표본의 크기가 커지면 표본 평균은 모평균에 한없이 가까워짐
표본오차(=표집오차, sampling error) : 표본의 통계량과 모집단의 통계량 사이에 발생하는 차이
평균과 표준편차
통찰을 위한 통계학에서 중요한 것들
기술통계량으로 불리우는 데이터의 특성을 요약해 주는 지표들이 통찰을 위한 통계학에서 중요한 것들의 후보에 포함될 수 있습니다.
- 기술 통계량: 평균, 중앙값, 최빈값, 최댓값, 최솟값 등
하지만 ‘통찰’의 통계학에서 우리가 주목해야 할 통계량은 ‘평균(mean)’밖에 없습니다.
통찰을 위한 통계학에서 ‘평균’이 중요한 이유
평균(mean) : 데이터의 값을 전부 더하고 그 개수로 나눈 값
- ‘현상 파악’을 위한 기술통계에서는 이상치등의 영향으로 평균뿐만 아니라 중위수와 최빈값도 고려해야 합니다. (평균은 이상치의 영향을 많이 받는다)
- ‘대상에 대한 통찰’이라는 관점에서는 중위수와 최빈값이 별로 도움이 되지 않고, 평균이 중요합니다.
- 평균에 대한 추론 통계가 유효한 경우
- 그룹 간의 평균 차이가 있는지 파악하고자 할 경우
- 특정 조치에 따른 변화를 파악하고자 하는 경우
참고: 평균과 비율은 기본적으로 동일한 개념이다.
데이터는 ‘점’이 아니라 어떻게 ‘구간’으로 이해해야 한다.
데이터를 파악할 때 자주 하는 실수 중에, 데이터를 ‘단 하나의 값’으로 이해하려는 경향이 있습니다.
- 데이터를 점이 아니라 구간으로 포착하는 방법
- 최댓값과 최솟값을 확인한다.
- 하지만 최댓값과 최솟값은 이상치의 영향을 많이 받기에 상황을 왜곡시킬 수 있다는 단점이 있습니다.
- 사분위수를 확인한다.
- 하지만 사분위점 외의 영역에서 변화가 일어난다면 이를 포착할 수 없다는 한계가 있습니다.
- 분산을 확인한다.(데이터의 불규칙성을 표현할 수 있다.)
예) 분산이 4, 표준편차 2
- 최댓값과 최솟값을 확인한다.
확률과 확률분포
표본을 통해 모집단을 추정할 때는 확률적 사고방식이 필요합니다.
‘확률적 사고’ : 모집단의 불확실성을 인정하고 가장 확률이 높은 쪽으로 추정하는 사고 방식
‘표본을 통해서 모집단을 추정한다’ 구절을 풀어서 설명하면 다음과 같이 풀어서 설명할 수 있습니다.
- 모집단에서 표본을 추출해서 표본의 값을 관찰한다.
- 관찰된 데이터가 모집단에서 어느정도의 확률로 나타날 수 있는 값인지 생각한다.
- 데이터의 배후에 있는 모집단에 대해서 추정한다.
확률(P)
어떤 사건이 일어날 가능성
- 예) A라는 사건이 일어날 확률은 P(A)로 표현한다.
- 확률은 0에서 1 사이의 값을 가진다. (0 ≤ P ≤ 1) P : Probability
확률변수 ( r.v. random variable)
발생 가능한 사건의 결과를 실수로 나타낸 것
예) 동전 던지기의 앞면을 1, 뒷면은 0으로 정의하면 0과 1이 확률변수가 됨
- 이산형 확률 변수 (discrete random variable)
예) 동전 던지기(0,1), 주사위 던지기(1,2,3,4,5,6) - 연속형 확률 변수 (continuous random variable)
예) 키
확률분포 (probability distribution)
가로축에는 확률 변수를, 세로축에는 그 확률 변수의 발생 가능성을 표시한 분포
확률분포는 확률 변수가 일어날 확률을 분포로 표현하여 쉽게 계산할 수 있게 해주는 모형입니다.
- 이산형 확률 분포 (pmf ; probability mass function)
- 이산확률변수의 확률분포는 변수별 발생 확률이 서로 구분된 막대로 표현됩니다.
- 막대가 가리키는 세로축의 수치를 읽으면 그게 곧 해당 변수의 확률입나다.
- 연속형 확률 분포 (pdf ; probability density function)
- 연속확률변수의 확률분포는 연속적인 그래프로 표현되며, 변수의 분포를 나타내는 함수를 ‘확률밀도함수’라고 부릅니다.
- 확률밀도함수와 x축으로 둘러싸인 넓이가 곧 확률이 됩니다.
정규분포와 중심극한정리
정규 분포(Normal distribution) = 가우스 분포(Gaussian distribution)
정규분포는 평균 μ와 표준 편차 σ라는 2개의 값으로 정해지는 확률분포 (평균을 중심으로 한 좌우대칭 종형 분포)
- 평균 μ 근처에 가장 값이 많고, 평균에서 멀어질수록 값이 적어지는 형태
- 정규분포가 갖는 변하지 않는 성질:
- μ-σ에서 μ+σ 사이의 범위에 값이 있을 확률은 약 68%
- μ-2σ에서 μ+2σ 사이의 범위에 값이 있을 확률은 약 95%
- μ-3σ에서 μ+3σ 사이의 범위에 값이 있을 확률은 약 99.7%
- 정규 분포가 통계학에서 가장 중요한 확률 분포인 이유
- 우리가 사회적, 자연적 현상에서 접하게 되는 통계치들은 정규 분포와 유사한 형태를 띠는 경우가 많음
예) 키,몸무게, 시험 성적 - 중심 극한정리
- 우리가 사회적, 자연적 현상에서 접하게 되는 통계치들은 정규 분포와 유사한 형태를 띠는 경우가 많음
중심극한정리 (표본 평균들의 분포가 정규 분포에 가까워진다.)
중심 극한 정리 (CLT ; Central Limit Theorem)
모집단의 분포와 상관없이 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 정규 분포에 가까워집니다.
- 중심극한정리는 면접 등에서 자주 물어보는 중요한 개념으로 확실히 개념을 알고 넘어가는 것이 좋습니다.
“모집단의 분포와 관계없이, 이 모집단에서 추출된 표본의 크기가 충분히 크다면 반복적으로 추출된 표본 평균들의 분포는 평균이 모평균 μ이고 표준편차가 \({\sigma\over \sqrt{n}} \)인 정규분포에 가까워진다.” (여기에서 σ는 모집단의 표준편차, n은 표본 크기를 말한다.)
표본의 크기가 커질수록 표준편차는 0에 가까워집니다.
→ 그렇기에 만약 표본의 크기가 상당히 크다면, 우리는 수집된 표본의 평균이 중심극한정리에 의해 모평균 μ에 매우 근접해 있으리라는 생각을 할 수 있습니다.
정규 분포 외에도 통계학에서 빈번하게 등장하는 이론적인 확률분포로는 이항 분포, 푸아송 분포, 지수 분포, 카이제곱 분포 등이 있습니다.
오차와 신뢰구간
오차 : 표본을 통해 얻은 평균 또는 비율이 모집단의 실제 값(참값)에서부터 어떤 확률과 정도로 벗어나 있는지
오차에 영향을 주는 요인
- 표본의 크기 → 표본의 크기가 클수록 표준오차가 작아진다.
- 데이터의 불규칙성 정도 → 불규칙성이 클수록 표준오차가 커진다.
위에서 말한 오차는 엄밀히 표현하면 ‘표준오차(SE, Standard Error)’라고 불리며, 계산하는 식은 아래와 같습니다.
평균의 표준오차(SE) = \({s\over \sqrt{n}} \)
여기서 s는 수집된 데이터의 표준편차, 즉 데이터의 불규칙성을 의미하며, n은 표본 크기, 즉 사용된 데이터의 수를 의미합니다.
- 데이터의 수가 많을수록 = 표본 크기가 커질수록
- 수집된 데이터의 불규칙성이 적을수록 = 표준편차가 작을수록
- 표본 평균의 변동폭이 달라진다 = 표준오차가 작아진다
표준오차가 작을수록 우리는 표본조사를 통해 모집단의 참값에 더 가까이 다가갈 수 있게 됩니다.
신뢰구간
‘신뢰구간(CI, Confidence Interval)’은 모집단의 값이 어느 범위에 있는지 확률적으로 보여주는 방법입니다.
- 신뢰구간을 바탕으로 모평균의 참값 범위 추정하기
95% 수준의 신뢰구간 : 모집단에서 표본을 추출해서 신뢰구간을 구하는 작업을 100번 반복하면 그중 95번만 모평균을 포함하게 됩니다.
99% 수준의 신뢰구간 : 모집단에서 표본을 추출해서 신뢰구간을 구하는 작업을 100번 반복하면 그중 99번만 모평균을 포함하게 됩니다.
이번 글에서는 추론통계의 개요 / 통계 리터러시 / 데이터 분석과 통계학 / 표본을 통해 모집단을 파악 / 평균과 표준편차 / 확률과 확률분포 / 정규 분포와 중심극한정리 / 오차와 신뢰구간이 포함된 내용을 정리했으며, 데이터 분석과 데이터를 다루는 경우에 모두 필수적인 개념들로 꼭 잊지 말고 알아가야 하는 내용인 것 같습니다.
글 읽어주셔서 감사합니다.
출처 및 참고자료 : 코드잇 사이트 강의 '통계적 가설 검정' https://www.codeit.kr/topics/da-sprint-hypothesis
'통계' 카테고리의 다른 글
[통계 개념 정리 4] 추론 통계 개념 정리 3️⃣ (회귀 분석) (0) | 2024.07.07 |
---|---|
[통계 개념 정리 3] 추론 통계 개념 정리 2️⃣ (통계적 가설 검정) (0) | 2024.07.06 |
[통계 개념 정리 1]기초 통계 개념 정리 (0) | 2024.07.05 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!