위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.
(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함.)
18주차에 이어 이번 19주차 위클리 페이퍼의 내용을 소개하겠습니다.
이번 12번째 위클리 페이퍼 주제는
1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.
2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?
1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.
편향(Bias)과 분산(Variance)은 모델 학습에서 발생할 수 있는 중요한 두 가지 오류입니다.
두 개념은 모델의 예측 성능을 평가하고 개선하기 위한 핵심 요소로, 이들을 적절히 이해하고 조정하지 않으면 모델의 예측력이 크게 저하될 수 있다는 점을 유의할 필요가 있습니다.
편향(Bias)
- 정의: 편향은 모델이 학습 데이터의 복잡성을 충분히 반영하지 못하는 현상으로, 지나치게 단순한 가정을 기반으로 학습할 때 발생하는 오류를 의미합니다.
- 원인: 모델이 지나치게 단순화되면, 데이터의 패턴을 제대로 파악하지 못하게 되어 편향이 높아집니다. 이는 모델이 충분히 복잡하지 않거나, 적절한 학습이 이루어지지 않았을 때 발생합니다. 각 관련 그룹에 대해 충분한 데이터가 있어야 합니다.
- 결과: 고편향 모델은 과소적합이 발생하여 학습 데이터와 테스트 데이터 모두에서 낮은 성능을 보이게 됩니다. 학습 데이터의 특성을 반영하지 못하기 때문에 새로운 데이터에 대한 예측력이 떨어지게 됩니다.
- 예시: 복잡한 비선형 관계가 있는 데이터를 단순한 선형 회귀 모델로 학습하면, 모델은 데이터의 핵심 패턴을 제대로 학습하지 못해 부정확한 예측 결과를 불러옵니다.
편향의 세 가지 유형
- 상호 작용적 편향 :
예를 들어, 대부분 운동화 사진이 포함된 데이터 세트를 가지고 신발을 인식하도록 모델을 훈련시킨다면 시스템은 하이힐을 신발로 인식하는 법을 배우지 못할 것입니다. - 잠재적 편향 :
과거의 유명 과학자 사진을 사용하여 과학자가 어떻게 보이는지에 대해 ML 시스템을 훈련시킬 경우 알고리즘은 아마도 과학자를 남성으로만 연관시키는 법을 습득할 것입니다. - 선택적 편향 :
모델에게 얼굴을 인식하는 훈련을 시킨다고 가정해 보겠습니다. 얼굴 인식을 훈련시키는 데 사용하는 데이터가 하나의 모집단을 지나치게 나타낼 경우 시스템은 다른 인종을 희생하는 것이 더 낫다고 판단하여 인종차별적 결과를 낼 수 있습니다.
분산(Variance)
- 정의: 분산은 모델이 학습 데이터에 지나치게 맞춰져 잡음까지 학습하는 현상을 의미합니다. 이 경우 모델은 데이터의 특이한 부분까지 학습하며, 이는 과도한 적합으로 이어집니다.
- 원인: 모델이 너무 복잡하거나, 학습 데이터에 과도하게 적응한 경우 분산이 높아집니다. 복잡한 모델은 학습 데이터에 지나치게 민감하게 반응하여, 데이터의 노이즈까지 학습하게 됩니다.
- 결과: 고분산 모델은 과적합 문제를 일으키며, 학습 데이터에서는 높은 성능을 보이지만 새로운 데이터에서는 성능이 급격히 저하됩니다. 이는 모델이 학습 데이터의 노이즈까지 학습한 결과로, 새로운 데이터에 대한 일반화가 어렵습니다.
- 예시: 고차원 다항식 회귀 모델처럼 복잡한 모델이 데이터에 과도하게 적응하면 학습 데이터에서의 성능은 좋을 수 있지만, 테스트 데이터나 새로운 데이터에서 예측력이 떨어질 수 있습니다.
편향-분산 트레이드오프 (Bias-Variance Tradeoff) - 편향과 분산의 관계
- 개념: 편향과 분산은 서로 상충하는 관계를 가지고 있으며, 편향을 줄이려면 모델을 복잡하게 만들어야 하지만, 이 경우 분산이 커질 가능성이 있습니다. 반대로 분산을 줄이려면 모델을 단순하게 만들어야 하지만, 이 경우 편향이 증가합니다. 이처럼 두 요소는 상반된 경향을 보이기 때문에 트레이드오프가 발생합니다.
- 고편향 모델: 모델이 지나치게 단순하여 학습 데이터의 패턴을 충분히 반영하지 못해 과소적합되는 경우입니다.
- 고분산 모델: 모델이 지나치게 복잡하여 학습 데이터에 과도하게 적응하고, 결과적으로 새로운 데이터에 대한 예측력이 떨어지는 과적합 상태가 발생합니다.
편향-분산 균형 맞추기
- 중요성: 최적의 모델을 만들기 위해서는 편향과 분산 사이의 균형을 맞추는 것이 중요합니다. 이 균형을 잘 조절해야 과소적합과 과적합을 방지하고, 모델이 학습 데이터와 테스트 데이터 모두에서 좋은 성능을 발휘할 수 있습니다.
- 방법:
- 교차 검증(Cross-validation): 학습 데이터에 과적합되는 것을 방지하기 위해 여러 데이터 셋을 사용해 검증을 반복함으로써, 모델이 데이터에 과도하게 적응하지 않도록 함.
- 정규화 기법(Regularization): 모델의 복잡도를 제어해 과적합을 방지하는 방법. 대표적인 정규화 기법으로는 라쏘(Lasso)와 릿지(Ridge)가 있음.
이 기법은 모델이 너무 복잡해지는 것을 막고, 편향과 분산의 균형 조절. - 적절한 모델 선택: 모델의 복잡도를 조정하거나, 적합한 하이퍼파라미터 튜닝을 통해 편향과 분산 사이의 적절한 균형을 맞춤.
2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?
K-폴드 교차 검증(K-fold Cross-validation)이란?
K-폴드 교차 검증(K-fold Cross-validation)은 주어진 데이터를 K개의 폴드로 나누어, 각 폴드를 한 번씩 검증 세트로 사용하고 나머지를 학습 세트로 활용하는 방식으로 모델을 평가하는 방법입니다.
전체 데이터를 고르게 나누어 반복적으로 학습 및 검증을 수행하기 때문에, 데이터의 특정한 분할에 의한 편향을 줄이고 모델의 일반화 성능을 더 정확하게 평가할 수 있습니다.
K-폴드 교차 검증의 과정
- 데이터를 K개의 폴드로 분할: 원본 데이터를 K개의 동일한 크기로 나눈다.
- 반복적 학습 및 검증: K번의 반복 동안, 매번 하나의 폴드를 검증 데이터로 사용하고, 나머지 폴드를 학습 데이터로 사용하여 모델을 학습시킨다.
- 평가 결과 평균: K번의 평가 결과를 종합하여 모델의 성능을 평가한다.
이 방법은 모델의 일반화 성능을 더 정확하게 평가할 수 있다는 장점이 있습니다.
하나의 훈련-검증 데이터 분할에 의존하지 않기 때문에 데이터의 특정한 분할에 의해 발생할 수 있는 편향을 줄여줍니다.
K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점
K-폴드 교차 검증에서 K의 값은 중요한 결정 요소로, 모델의 성능 평가 및 학습 시간에 직접적인 영향을 미칩니다. K의 값을 선택할 때는 다음과 같은 사항들을 고려해야 합니다.
- K의 크기와 분산의 관계:
- K가 작을수록(예: K=5) 편향(Bias)이 증가할 수 있습니다. 즉, 모델이 학습할 때 더 많은 데이터 포인트를 사용하므로 과소적합의 위험이 줄어들지만, 검증 데이터가 적기 때문에 분산이 커질 수 있습니다.
- K가 클수록(예: K=10 이상) 분산(Variance)이 줄어들지만, 모델은 훈련 데이터에 더 적은 양의 데이터를 사용하게 되어 과적합의 위험이 증가할 수 있습니다.
- 데이터의 크기:
- 작은 데이터셋에서는 K를 크게 설정하는 것이 일반적입니다. 데이터가 적을 때는 훈련 데이터의 비율을 높이기 위해 K를 크게 설정해, 더 많은 데이터를 모델이 학습하도록 합니다. 하지만 지나치게 큰 K 값은 오히려 모델의 성능에 부정적인 영향을 줄 수 있습니다.
- 큰 데이터셋에서는 K를 작게 설정해도 충분한 데이터를 학습에 사용할 수 있어 일반적으로 K=5나 K=10이 자주 사용됩니다.
- 연산 비용:
- K가 클수록 교차 검증 과정에서 모델을 훈련시키는 횟수가 증가하기 때문에 연산 비용이 높아집니다. 즉, K가 커지면 학습 및 평가 시간이 길어지므로 시간과 자원의 제한이 있는 경우 K를 적절히 조정할 필요가 있습니다.
- 일반적인 K 선택:
- 일반적으로 K-폴드 교차 검증에서는 K=5 또는 K=10을 많이 사용합니다. 이 K들이 실용적인 관점에서 편향과 분산 사이의 균형을 잘 맞추기 때문입니다. K=5는 적절한 속도와 신뢰성 있는 평가 결과를 제공하며, K=10은 더 높은 신뢰도를 제공하지만 연산 비용이 더 크다는 점을 가지고 있습니다.
'스프린트 > 위클리페이퍼' 카테고리의 다른 글
[#14] 스프린트 DA 트랙 23주차 위클리 페이퍼(데이터 조회 및 필터링 쿼리, NULL) (0) | 2024.11.20 |
---|---|
[#13] 스프린트 DA 트랙 22주차 위클리 페이퍼(데이터 조회 및 필터링 쿼리, NULL) (0) | 2024.11.13 |
[#11] 스프린트 DA 트랙 18주차 위클리 페이퍼(지도 학습과 비지도 학습, 손실 함수) (0) | 2024.10.16 |
[#10] 스프린트 DA 트랙 17주차 위클리 페이퍼(A/B 테스트, 이벤트 데이터 로그 설계) (2) | 2024.10.09 |
[#9] 스프린트 DA 트랙 11주차 위클리 페이퍼(프로덕트 지표, 고객 생애 가치) (4) | 2024.08.28 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!