위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.
(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)
1주차 위클리 페이퍼 주제
1. 사분위수에 대해 설명해주세요.
2. 기술통계와 추론통계는 무엇이고, 어떤 차이가 있나요?
1. 사분위수에 대해 설명해주세요.
사분위수에 대한 개념
사분위수(Quartile)는 데이터를 4등분한 것이다. 통계의 변량을 도수 분포로 정리하였을 때 적은 것으로부터 1/4, 2/4, 3/4 자리의 변량값이다. 임의의 확률변수 축에서 확률분포를 4등분하는 값의 조합이다.
(출처 :위키백과 '사분위수')
즉, 통계에서 데이터 세트를 네 개의 동일한 크기로 나누는 세 개의 값(또는 점)을 의미합니다.
그리고 1/4, 2/4, 3/4 지점의 값들은 데이터 분포의 특정 지점을 나타내고, 데이터의 퍼짐과 중심 경향을 이해하는데 유용합니다.
사분위수의 종류 및 정의
사분위수 | 정의 |
제1사분위수 (Q1) | 데이터의 하위 25% 지점. 데이터 값을 오름차순으로 정렬했을 때, 전체 데이터 중 25% 지점에 위치한 값 즉, 데이터의 25%가 이 값보다 작거나 같음 |
제2사분위수 (Q2) | 데이터의 중간 지점. 중앙값(Median)이라고도 하며, 전체 데이터 중 50% 지점에 위치한 값 즉, 중앙값 데이터의 50%가 이 값보다 작거나 같음 (데이터가 홀수 개일 경우, 중간에 있는 값이 중앙값 / 짝수 개일 경우, 중앙에 있는 두 값의 평균이 중앙값) |
제3사분위수 (Q3) | 데이터의 상위 25% 지점. 전체 데이터 중 75% 지점에 위치한 값 데이터의 75%가 이 값보다 작거나 같음. |
사분위간 범위 (Interquartile Range, IQR) |
제1 사분위수와 제3 사분위수 간의 거리(Q3-Q1)이므로, 데이터의 중간 50%에 대한 범위 (IQR이 크면 데이터가 넓게 퍼져 있음을 의미하고, 작으면 데이터가 집중되어 있음을 의미한다.) |
간단한 예시) 1부터 100까지의 데이터
제 1 사분위수 (Q1) | 25 |
제 2 사분위수 (Q2) | 50 |
제 3 사분위수 (Q3) | 75 |
사분위간 범위 | 50 (= 75 - 50) |
이상치(Outliers)
데이터에서 벗어나는 극단적인 값들로 데이터의 신뢰도를 감소시킵니다.
하지만 IQR을 이용하여 이상치를 식별할 수 있으며 일반적으로 밑과 같은 기준을 적용시킵니다.
Q1 - 1.5 * IQR 보다 작거나 Q3 + 1.5 * IQR 보다 큰 값
이 기준을 통해 데이터에서 이상치(극단적인 값)를 식별하고 분석에서 제외하거나 따로 다룰 수 있습니다.
사분위수를 구하는 방법 (데이터의 크기와 정렬 방식에 따라 조금씩 다름)
- 데이터(측정값)를 최소부터 최대까지 오름차순으로 나열한다.
- 중앙값을 구한다.
자료의 개수가 홀수이면, 중앙에 위치한 자료가 중앙값이고, 자료의 개수가 짝수이면 중앙에 있는 두 자료의 평균이 중앙값이다. - 제 1사분위수는 자료의 중앙값을 기준으로 왼쪽 값들의 중앙값을 의미하며, 제 1사분위수를 구한다.(데이터의 하위 25% 지점)
- 제 3사분위수는 자료의 중앙값을 기준으로 오른쪽 값들의 중앙값을 의미하며, 제 3사분위수를 구한다.(데이터의 상위 75% 지점)
- 추가적으로 3사분위수 - 1사분위수(Q3 - Q1)를 통해 사분위수의 범위까지 구한다.
사분위수 구하는 방법 예시)
- 다음 데이터의 사분위수를 구하세요.
1, 6, 3, 2, 2, 4, 4, 4, 6
단계 1 : 오름차순으로 나열한다.
1, 2, 2, 3, 4, 4, 4, 6, 6
단계 2 : 중앙값을 구한다.
1, 2, 2, 3, 4, 4, 4, 6, 6
자료의 개수가 홀수이므로 중앙에 위치한 4가 중앙값이다.
단계 3 : 제 1사분위수를 구한다.
중앙값을 기준으로 왼쪽 자료의 개수가 짝수이므로, 중앙값은 가운데 두 수의 평균이다.
1, 2, 2, 3
Q1 = (2 + 2) / 2 = 2
단계 4 : 제 3사분위수를 구한다.
중앙값을 기준으로 오른쪽 자료의 개수가 짝수이므로, 중앙값은 가운데 두 수의 평균이다.
4, 4, 6, 6
Q3 = (4 + 6) / 2 = 5
단계 5 : 사분위수 범위를 구한다.
Q3 - Q1 = 5 - 2 = 3
사분위수 범위는 3이다.
데이터 사이언스에서 사분위수를 활용하는 이유
- 데이터의 분포를 이해하기 위해
- 이상치를 제거하기 위해
데이터의 분포를 이해하여 데이터 집합의 범위와 중심 위치를 신속하게 평가할 수 있습니다.
이상값/이상치를 제거하는 이유는 데이터의 오류를 제거하고 신뢰도를 잃지 않게 유지하기 위해서입니다.
etc) 사분위수와 관련된 개념
최솟값, 최댓값
상자 수염 그림
신뢰구간
2. 기술통계와 추론통계는 무엇이고, 어떤 차이가 있나요?
기술통계(Descriptive Statistics)
기술통계는 수집한 데이터를 요약, 묘사하고 설명하는 통계 기법입니다.(표본 자체의 속성을 파악하는데 중점을 둠)
기술통계에서 사용하는 기술은 우리가 흔히 알고 있는 'Skill' 이나 'Technology'가 아닌 묘사한다는 의미의 'Descriptive'입니다.
그래서 기술통계는 수집한 데이터를 전체적인 특성을 이해하고, 주요 패턴이나 경향을 파악하는 데 중요한 역할을 합니다.
보통 추론통계 전에 데이터의 형태를 파악하기 위해 사용됩니다(추론통계의 기초작업)
수집한 데이터를 설명하고 묘사하는 통계기법인 기술통계는 다양한 측정치와 방법들을 크게
데이터가 어떤 값에 집중되어 있는지를 다루는 측정치(중심 경향에 대한 측정치)과
데이터가 어떻게 퍼져 있는지를 설명하는 측정치(산포도에 대한 측정치 & 분포에 대한 측정치) 그리고
데이터를 시각화하여 설명하는 방법(데이터 시각화)들로 나눌 수 있습니다.
측정치와 방법들을 간단히 소개하면,
1. 중심 경향에 대한 측정치(데이터의 중심을 이해)
- 평균 (Mean) : 모든 데이터 값의 합을 데이터의 개수로 나눈 값(데이터들의 전체 합 기준)
- 중앙값 (Median) : 데이터를 크기대로 정렬하였을 때 가장 가운데에 있는 값
- 최빈값 (Mode) : 데이터 셋에서 가장 자주 나타나는 값
2. 산포도에 대한 측정치
- 범위 (Range) : 데이터 셋에서 최댓값과 최솟값의 차이 (계산이 쉬우나, 타당도와 신뢰도가 낮음)
- 분산 (Variance) : 데이터 값이 평균에서 얼마나 떨어져 있는지를 나타내는 측정치
- 표준편차 (Standard Deviation) : 분산의 제곱근으로, 분포의 평균치와 편차 정도를 나타내기 위한 통계적 수치
3. 분포에 대한 측정치
- 사분위수 (Quartiles) :데이터를 가장 작은 수부터 가장 큰 수까지 커지는 순서대로 정렬하였을 때 1/4, 2/4, 3/4 위치에 있는 값
- 백분위수 (Percentiles) : 데이터 세트를 100개의 동일한 크기로 나누는 99개의 값
4. 데이터 시각화
- 히스토그램 (Histogram) : 데이터를 여러 구간으로 나누고, 각 구간에 속하는 데이터의 빈도를 막대로 표시한 그래프
- 상자 그림 (Box Plot) : 데이터의 사분위수와 이상치를 시각적으로 나타내는 그래프
- 막대 그래프 (Bar Graph) : 데이터의 범주별 빈도를 막대로 나타낸 그래프
- 원 그래프 (Pie Chart) : 전체 데이터에서 각 범주가 차지하는 비율을 원형으로 나타낸 그래프
위와 같은 기술통계 기법과 측정치을 활용하여 복잡한 데이터를 보다 쉽게 이해할 수 있으며, 데이터 분석을 위한 과정중에 필수적인 요소입니다.
이 기법은 데이터의 전체적인 분포나 모양을 확인하고 패턴을 확인하는데 중요한 역할을 합니다.
추론통계(Inferential statistics)
추론통계는 수집한 데이터를 바탕으로 추론 예측하는 통계 기법입니다.
추론통계는 기술통계와 달리 단어 그대로의 뜻이 적용되어 표본 데이터를 통해 모집단의 특성(모수)를 추론하거나 예측하는 기법입니다.
추론통계의 과정에서는 표본 데이터를 바탕으로 모집단의 특성이나 모수(평균,분산)를 추정하거나 가설을 검증하는 과정을 포함하고 있습니다.
이 기법은 불완전한 데이터로부터 모집단에 대한 확률적인 일반화를 시도하여 신뢰성 있는 결론을 도출하는 데 필요한 도구들을 제공하며 다양한 분야에서 크게 활용되고 있습니다.
일반적으로, 통계적 추정(표본에서 구한 통계량으로 모집단의 모수를 추정하는 것)과 가설 검증(모집단의 특정 현상에 대한 예상이나 주장이 옳은지 그른지를 표본을 이용하여 판단하는 과정)이라는 2가지 방법으로 이루어집니다.
추론통계에서 사용하는 여러 방법과 개념을 간단히 설명하면,
- 표본 (Sample) : 모집단의 부분집합으로, 분석을 위해 선택된 데이터
- 모집단 (Population) : 관심 있는 전체 그룹을 의미한다.
- 추정
- 점 추정 (Point Estimation) : 모집단의 특성을 나타내기 위해 단일 값(점)을 사용한다.
- 구간 추정 (Interval Estimation) : 모집단의 특성을 나타내기 위해 값의 범위(구간)를 사용한다.
- 가설 검정 (Hypothesis Testing) : 모집단에 대한 주장이나 가설을 검증하는 절차 / 귀무 가설 (Null Hypothesis)와 대립 가설 (Alternative Hypothesis)로 구별한다.
- 신뢰 수준 (Confidence Level) : 구간 추정에서 사용되며, 구간이 참 값을 포함할 확률을 나타낸다.
- 유의 수준 (Significance Level, α) : 가설 검정에서 사용되며, 귀무 가설이 기각되는 기준점을 나타낸다.
- p-값 (p-value) : 가설 검정에서 얻어지는 값으로, 관찰된 데이터가 귀무 가설 하에서 얻어질 확률을 나타냄
방법
- 단일 표본 t-검정 (One-sample t-test) : 표본 평균이 특정 값과 다른지 검정합니다.
- 독립 표본 t-검정 (Independent samples t-test) : 두 개의 독립된 표본 간의 평균 차이를 검정합니다.
- 대응 표본 t-검정 (Paired samples t-test) : 같은 집단에서 두 번의 측정 간의 평균 차이를 검정합니다.
- 분산 분석 (ANOVA, Analysis of Variance) : 세 개 이상의 그룹 간의 평균 차이를 검정합니다.
- 카이제곱 검정 (Chi-square test) : 범주형 데이터의 분포가 예상 분포와 다른지 검정합니다.
- 회귀 분석 (Regression Analysis) : 변수들 간의 관계를 모델링하고 예측합니다. 단순 회귀와 다중 회귀가 있습니다.
위와 같은 방법과 개념들을 활용하여 추론통계가 이루어지며, 표본 데이터를 통해 모집단의 특성을 확인하고 가설을 검정하여 중요한 결정을 내리는 데 많은 도움을 주고 있습니다.
기술통계와 추론통계의 차이
기술통계와 추론통계의 차이는 적용 범위, 목적에 따라 설명할 수 있습니다.
적용범위
기술통계는 전체 데이터 셋 또는 표본에 대한 직접적인 분석이 진행되기 때문에 주어진 데이터의 특성을 계산하고 설명하는 비교적 간단한 통계적 계산을 수행하지만,
추론통계는 표본 데이터를 통해 전체 모집단에 대해 결론을 내리기 때문에 표본의 통계량을 활용하여 모집단의 특성에 따라 추론을 수행하는 확률적인 방법을 수행합니다.
목적
기술통계는 데이터를 정리하고 요약하여 쉽게 설명하기 위해 사용합니다.(데이터 셋을 요약하고 설명하는데 중점 )
추론통계는 표본을 사용하여 모집단에 대한 일반적인 특성을 추론하고 예측하기 위해 사용합니다.
'스프린트 > 위클리페이퍼' 카테고리의 다른 글
[#6] 스프린트 DA 트랙 8주차 위클리 페이퍼(차원 축소, 고유값과 고유벡터, 히스토그램의 단점과 그 대안) (0) | 2024.08.08 |
---|---|
[#5] 스프린트 DA 트랙 5주차 위클리 페이퍼(절대 경로와 상대 경로, Git, Branch) (0) | 2024.07.17 |
[#4] 스프린트 DA 트랙 4주차 위클리 페이퍼(클래스와 인스턴스, 정적 메소드) (0) | 2024.07.11 |
[#3] 스프린트 DA 트랙 3주차 위클리 페이퍼(데이터 전처리, t-test) (0) | 2024.07.03 |
[#2] 스프린트 DA 트랙 2주차 위클리 페이퍼(제 1종 오류와 제 2종 오류, p값) (0) | 2024.06.27 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!