![[#2] 스프린트 DA 트랙 2주차 위클리 페이퍼(제 1종 오류와 제 2종 오류, p값)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdUyjK3%2FbtsIdIKG2xR%2FTEfRm4kwpwpy7IUUmmO5p0%2Fimg.png)

- 이번 2주차 위클리 페이퍼 주제는
- 1. 제1종 오류와 제2종 오류에 대해 설명해주세요.
- 2. p값 (p-value)는 무엇인가요?
- 추론통계
- 통계적 가설 검정
- 통계적 가설 검정의 절차
- 1. 제1종 오류와 제2종 오류에 대해 설명해주세요.
- 제 1종 오류와 제 2종 오류의 사전적 정의
- 제 1종 오류와 제 2종 오류의 예시
- 제 1종 오류와 제 2종 오류 중 어떤 것이 더 치명적일까?
- 제 1종 오류와 제 2종 오류의 관계
- 제 1종 오류와 제 2종 오류를 줄이는 방법
- 2. p값 (p-value)는 무엇인가요?
- p값의 사전적 정의
- p값의 해석
- 통계적으로 유의하다.
- p값을 해석하는 예시
- p값의 고려사항
- p값을 계산하는 방법
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.
(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)
1주차에 이어 이번 2주차에도 위클리 페이퍼를 작성하게 되었습니다.
이번 2주차 위클리 페이퍼 주제는
1. 제1종 오류와 제2종 오류에 대해 설명해주세요.
2. p값 (p-value)는 무엇인가요?
이번 2주차 위클리 페이퍼 주제인 제 1, 2종 오류와 p값을 다루기 위해서는 우선 추론 통계와 통계적 가설 검정을 짚고 넘어갈 필요가 있습니다.
추론통계
추론 통계에 대해서는 저번 주차 위클리 페이퍼에서 다루었던 내용으로 이번 주차에서는 개념만 간단하게 설명하고 넘어가도록 하겠습니다.
추론 통계는 표본 데이터를 통해 모집단의 특성(모수)를 추론하거나 예측하는 기법으로 모집단의 특성이나 모수(평균,분산)를 추정하거나 가설을 검증하는 과정을 포함하고 있습니다.
또한, 불완전한 데이터로부터 모집단에 대한 확률적인 일반화를 시도하여 신뢰성 있는 결론을 도출하는 데 필요한 도구들을 제공하기도 합니다.
통계적 가설 검정
통계적 가설검정은 표본으로부터 얻은 사실을 근거로 하여 모집단에 대한 가설이 맞는지 통계적으로 검정하는 분석 방법을 말하며 추론통계에 포함되는 과정입니다.
(모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정)
거시적으로 보면 표본을 통해 모집단을 추론하기 위해 추론통계를 하고있지만, 표본을 통한 추론통계로 모집단에 대해서 단정지을 수 없기 때문에 확률적으로 높은 쪽으로 선택을 하기 위해 통계적 가설 검정이라는 과정을 거치게 됩니다.
통계적 가설 검정을 이해하기 위해서는 알아야 할 개념들이 몇가지가 있는데 이를 소개하면,
- 가설 : 우리가 입증하고자 하는 바 (표본이 아니라 모집단을 대상으로 세우게 됨)
- 귀무가설 : 대립 가설의 부정 명제 {“차이가 없다”라는 가설)
- 대립가설 : 우리가 밝히고자 하는 가설
- 검정통계량 : 귀무 가설이 참이라고 가정했을 때, 표본을 수집해서 데이터를 관찰하여 얻은 통계량
- p값 : 귀무가설이 옳다는 가정 하에 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나올 확률
- 유의수준 : 통계적인 가설 검정에서 사용되는 기준값(제 1종 오류와 관련된 내용이므로 밑에서 더 자세히 설명함)
- 기각 : 통계에서는 기각 여부를 결정하며 통계에서 '귀무가설을 기각한다'(통계적으로 유의하다)라는 결론을 내릴 수 있다.
통계적 가설 검정의 절차
위의 개념들을 기반으로 통계적 가설 검정의 절차를 살펴보면,
- 가설을 세운다. (귀무가설&대립가설)
- 귀무 가설(null hypothesis, H0) : 대립 가설의 부정 명제로 '어떤 효과나 차이가 없다.'라고 가정하는 가설이다.
예) 1번 메시지 전달률과 2번 메시지 전달률 사이에 차이가 없을 것이다. - 대립 가설(alternative hypothesis, H1, Ha) : 우리가 밝히고자 하는 가설로 '어떤 효과나 차이가 있다.'라고 가정하는 가설이다.
예) 1번 메시지 전달률과 2번 메시지 전달률 사이에 차이가 있을 것이다.
- 귀무 가설(null hypothesis, H0) : 대립 가설의 부정 명제로 '어떤 효과나 차이가 없다.'라고 가정하는 가설이다.
- 일정 수준을 결정한다.
일정 수준 = 유의 수준 = ⍺
일정 수준(유의 수준)은 분석가가 결정하고 분석할 수 있다.
업계에 따라 유의 수준을 다르게 결정(설정)한다. - 검정 통계량을 계산한다.
검정통계량 : 귀무 가설이 참이라고 가정했을 때, 표본을 수집해서 데이터를 관찰하여 얻은 통계량
정규분포, t분포, F분포, 카이제곱분포를 사용하고 이를 일컬어 검정 통계량이라 한다. - p값을 계산한다.
p값 : 귀무가설이 옳다는 가정 하에 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나올 확률 - 판단 & 결론
p값 < 일정 수준(유의 수준)이면 '귀무가설을 기각한다(reject)'라는 결론을 내릴 수 있다.
p값 > 일정 수준(유의 수준)이면 '귀무가설을 기각할만한 충분한 근거가 없다' 라는 결론을 내릴 수 있다.
위와 같은 절차를 통해 통계적 가설 검정을 하게 되며, 오늘 설명하게 될 제 1, 2종 오류와 p값의 개념을 모두 이 과정에서 확인하고 설명할 수 있습니다.
1. 제1종 오류와 제2종 오류에 대해 설명해주세요.
분석가와 데이터 분석을 진행하는 사람들은 항상 모집단 전체에 대해 분석을 하기 힘든 상황을 겪고 있기 때문에 표본을 통해 모집단을 추론하는 과정을 거칩니다.
위 과정 속에서 언제나 오류가 발생할 수 있으며, 우리는 이러한 오류들을 최대한 줄여야만 합니다.
또한, 통계적 가설 검정 과정을 진행하면서도 언제나 오류가 발생할 여지가 있으며, 이러한 통계적 오류를 줄여야만 확률적으로 높은 쪽을 선택하여 성공적으로 모집단을 추론할 수 있으므로, 이번에 통계적 가설 검정 과정동안 발생할 수 있는 제 1종 오류와 제 2종 오류에 대해 알아보려고 합니다.
우선, 통계적 가설 검정 과정에서 발생하는 제 1종 오류와 제 2종 오류에 대한 사전적 정의를 설명하겠습니다.
제 1종 오류와 제 2종 오류의 사전적 정의
- 제 1종 오류 : 귀무가설이 참인데도 귀무가설을 기각하는 오류로 귀무가설이 참이라서 채택해야 하지만 표본의 오차때문에 귀무가설을 채택하지 않는 오류를 말합니다. 유의수준 혹은 일정수준이라고 표현하기도 하며, ⍺로 표기합니다.
(실제로 차이가 없는데 차이가 있다고 판단하는 실수) - 제 2종 오류 : 대립가설이 참인데 귀무가설을 기각하지 않는 오류로 귀무가설이 거짓이라서 기각해야 하지만 표본의 오차때문에 귀무가설을 채택하는 오류를 말합니다. 이는 β로 표기합니다.
(실제로 차이가 있는데 차이가 없다고 판단하는 실수)
위 개념들을 이해하기 위해서는 귀무가설과 대립가설의 개념을 확실히 짚고 넘어가는 것이 좋습니다.
위 개념을 표를 보면서 정리하게 되면,
판단(귀무가설을 기각하는 경우) | 판단(귀무가설을 기각하지 않는 경우) | |
진실(귀무가설이 참인 경우) | 제 1종 오류 (⍺) | 올바른 판단 |
진실(대립가설이 참인 경우) | 검정력(1-β) | 제 2종 오류 (β) |
제 1종 오류는 귀무가설이 실제로 참(차이가 없다)이지만 귀무가설을 기각하는(차이가 있다) 경우이며, ⍺로 나타내고 있습니다.
제 2종 오류는 대립가설이 실제로 참(차이가 있다)이지만, 귀무가설을 기각하지 않고 채택하는(차이가 없다) 경우이며, β로 나타내고 있습니다.
검정력은 대립가설이 사실일 경우, 이를 사실로서 결정할 확률로 1-β의 값을 가지고 검정력이 좋아지게 되는 경우에, 2종 오류(β error)를 범할 확률은 작아지게 됩니다.
분석에서 통계적으로 유의하다고 결론 내기 위해서는 충분한 검정력을 지녀야 하며, 적절한 검정력을 유지하는 것 또한 중요합니다.
제 1종 오류와 제 2종 오류의 예시
제 1종 오류와 제 2종 오류의 이해를 돕기 위해 간단한 예시를 들어 설명하도록 하겠습니다.
가정
- 귀무 가설(H0): 신약은 효과가 없다.
- 대립 가설(H1): 신약은 효과가 있다.
예시
- 제1종 오류 : 신약이 '효과가 없는' 경우에도 '효과가 있다'고 잘못 결론을 내리는 오류
- 결과 : 신약이 불필요하게 시장에 출시된다.
- 제2종 오류 : 신약이 '효과가 있는' 경우에도 '효과가 없다'고 잘못 결론을 내리는 오류
- 결과 : 신약의 개발이나 출시가 중단된다.
제 1종 오류와 제 2종 오류 중 어떤 것이 더 치명적일까?
제 1종 오류와 제 2종 오류 모두 가설 검정에서 불가피하게 발생할 수도 있지만, 두 오류 모두 발생하지 않도록 정확한 분석을 하는 것이 중요합니다.
하지만 만약 오류가 꼭 발생한다면 제 1종 오류와 제 2종 오류 중 더 치명적인 오류는 제 1종 오류입니다.(상황과 성격에 따라 다를 수 있음)
위의 예시를 다시 보면서 그 이유를 설명하겠습니다.
신약을 개발하는 동안 제 1종 오류로 인해 효과가 없는 신약을 효과가 있다고 판단하고 신약을 시장에 출시하는 경우에 소비자 및 환자가 복용하면서 어떤 부작용이나 질병, 위험을 겪을지 예상할 수 없습니다.
이번 경우에는 제 2종 오류로, 신약이 효과가 있지만 신약이 효과가 없다고 판단하게 된다면 기업 차원에서 다시 연구를 진행하게 되어 비효율적인 손실이 일어나고 비용적 손실을 입게 됩니다.
위의 근거들로 종합하여 생각해보면 제 1종 오류와 2종 오류 모두 적지 않은 피해를 입게 되지만 이 경우에서는 제 1종 오류가 신약을 복용한 소비자들이 큰 피해를 입을 수 있고, 기업도 물론 많은 피해를 입고 신뢰를 잃을 수 있기 때문에 더 심각한 오류가 될 수 있습니다.
그래서 이러한 오류를 줄이기 위해,
제 1종 오류는 보다 엄격한 기준을 적용할 필요가 있으며, 제 2종 오류는 보다 완화된 기준을 적용할 필요가 있습니다.
제 1종 오류와 제 2종 오류의 관계
제 1종 오류와 제 2종 오류는 상충 관계로 1종 오류를 줄이게 되면 2종 오류의 가능성이 증가하게 되고, 2종 오류를 줄이게 되면 1종 오류의 가능성이 증가하게 됩니다. 밑의 그림을 보면 1종 오류의 확률이 0.5에서 0.1로 감소할 경우 2종 오류의 확률인 β가 증가하는 것(β가 증가하면 검정력(1-β)이 감소함(표본의 크기로 통제 가능))을 확인할 수 있습니다.
그래서 이러한 위와 같은 관계를 이해하고 적절한 오류 가능성의 균형을 찾는 것 또한 중요합니다.
또한, 보통 통계적 가설 검정에서는 더 치명적인 제 1종 오류를 0.05(5%)로 일반적으로 설정하고 분석을 하게 됩니다.
업계의 성격에 따라 유의 수준(⍺)을 다르게 설정하며 의학계같은 경우에는 보다 더 엄격한 기준을 적용하여 ⍺를 0.01 (1%)로 설정합니다.
추가적으로 제2종 오류의 확률인 β는 보통 0.2 (20%) 이하로 유지하는 것이 일반적입니다.

제 1종 오류와 제 2종 오류를 줄이는 방법
- 표본의 크기를 키워 오류 발생 가능성을 줄여 검증의 정확성을 높인다.
- 정확한 통계 분석을 행한다
- 적절한 연구 설계를 행한다.

2. p값 (p-value)는 무엇인가요?
p값은 통계적 가설 검정에서 매우 중요하게 언급하는 개념으로 통계적 가설 검정에서 유의수준을 설정하고 검정통계량을 계산한 뒤에 p값을 계산하게 됩니다.
p값에 대한 내용을 위에서 잠깐 언급했지만 p값의 사전적 정의부터 설명하면,
p값의 사전적 정의
- p값 : 귀무가설이 옳다는 가정 하에 우리가 관찰한 결과 혹은 그 이상으로 귀무가설에 반하는 데이터가 나올 확률
또한, 귀무가설이 맞다고 가정할 때, 얻은 결과보다 극단적인 결과가 실제로 관측될 확률이며 표본에서 정의되는 확률 변수로, 0~1 사이의 값을 가지고 있습니다.
p값의 해석
p값을 계산하게 되면 위에서 배운 유의수준을 활용하여 비교하는 과정을 거치게 되는데,
- p값 < 일정 수준(유의 수준)이면 '귀무가설을 기각한다(reject)'라는 결론을 내릴 수 있습니다
이 경우 귀무 가설을 기각하고 대립 가설(alternative hypothesis, )을 채택할 수 있는 근거가 됩니다.
유의 수준이 0.05이라면, 귀무가설이 참이라고 가정하고 100번중 5번 이하로 착오로 인해 귀무가설을 선택하게 됩니다. - p값 > 일정 수준(유의 수준)이면 '귀무가설을 기각할만한 충분한 근거가 없다' 라는 결론을 내릴 수 있습니다.
이 경우 귀무 가설 하에서 데이터가 나타날 가능성이 비교적 높다는 것을 의미합니다.
p값이 유의수준보다 낮다는 것은 표본이 모집단에 대해 귀무 가설을 기각할 수 있는 증거를 충분히 제공한다는 의미입니다.
통계적으로 유의하다.
p값이 일정 수준(유의 수준)보다 작으면 '귀무가설을 기각한다(reject)'라는 결론을 내릴 수 있고, 대립가설이 채택되기 때문에 "통계적으로 유의미하다(= 통계적으로 유의미한 차이가 있다. = 통계적으로 유의하다.)"라는 표현을 활용하며 귀무가설을 기각할 충분할 근거가 있다는의미를 전달합니다.
p값을 해석하는 예시
예를 들어, 신약이 기존 약물보다 효과가 있는지 여부를 검정하는 상황을 생각해봅시다.
- 귀무 가설(H0): 신약은 효과가 없다.
- 대립 가설(H1): 신약은 효과가 있다.
임상 시험의 결과를 통해 p값이 0.01이 나왔다고 가정하겠습니다. (유의수준=0.05)
- p값 0.01은 신약이 효과가 없다면(귀무 가설이 참이라면), 이러한 결과(또는 더 극단적인 결과)가 나올 확률이 1%라는 의미입니다.
- p값이 0.05보다 작기 때문에, 일반적으로 연구자들은 귀무 가설을 기각하고 신약이 효과가 있다고 결론지을 수 있습니다.
p값의 고려사항
- p값이 귀무 가설이 거짓일 확률을 의미하지는 않습니다. p값이 낮다고 해서 대립 가설이 참일 확률이 높다는 의미는 아닙니다.
즉, p값은 어떤 가설이 참이라거나 실험 결과가 중요한지와 같은 여부를 결정할 수 없습니다. - 표본 크기가 매우 크면 작은 효과도 유의미한 p값을 가질 수 있으며, 반대로 표본 크기가 작으면 큰 효과도 유의미하지 않을 수 있습니다.
- 다중검정에서는 다중 검정 문제로 인해 잘못된 결론을 도출할 수 있어 p값에 대한 보정을 적용해야 합니다.
p값을 계산하는 방법
p값의 계산 방법은 어떤 가설 검정 방법을 선택하느냐에 따라 달라지며, 가설 검정 방법을 선택하기 위해 고려할 사항도 2가지가 있습니다.
- 가설 검정 방법 선택 고려 사항
- 데이터의 유형(수치형 데이터, 범주형 데이터)
- 변수의 성질 (설명변수, 결과변수, 표본 크기 등)
- p값을 계산하는 몇가지 가설 검정 방법
- t-검정 : 두 집단의 t-통계량을 계산하여 p값을 계산합니다.
- z-검정: 표준 정규 분포를 사용하여 p값을 계산합니다.
- 카이제곱 검정: 카이제곱 분포를 사용하여 p값을 계산합니다.
- ANOVA: 분산분석을 통해 F-통계량을 구하고, F-분포를 사용하여 p값을 계산합니다.
p값은 통계적 가설 검정에서 귀무 가설을 기각할지 여부를 결정하는 중요한 지표로 해석되지만, 완전한 모집단의 값이 될 수는 없으므로 변수의 성질이나 데이터의 유형, 표본 크기들을 고려할 필요가 있습니다.
'스프린트 > 위클리페이퍼' 카테고리의 다른 글
[#6] 스프린트 DA 트랙 8주차 위클리 페이퍼(차원 축소, 고유값과 고유벡터, 히스토그램의 단점과 그 대안) (0) | 2024.08.08 |
---|---|
[#5] 스프린트 DA 트랙 5주차 위클리 페이퍼(절대 경로와 상대 경로, Git, Branch) (0) | 2024.07.17 |
[#4] 스프린트 DA 트랙 4주차 위클리 페이퍼(클래스와 인스턴스, 정적 메소드) (0) | 2024.07.11 |
[#3] 스프린트 DA 트랙 3주차 위클리 페이퍼(데이터 전처리, t-test) (0) | 2024.07.03 |
[#1] 스프린트 DA 트랙 1주차 위클리 페이퍼(사분위수, 기술통계 및 추론통계) (0) | 2024.06.20 |

데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!