위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.
(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함.)
17주차에 이어 이번 18주차 위클리 페이퍼의 내용을 소개하겠습니다.
이번 11번째 위클리 페이퍼 주제는
1. 지도 학습과 비지도 학습의 차이는 무엇인가요?
2. 손실 함수(loss function)란 무엇이며, 왜 중요한가요?
1. 지도 학습과 비지도 학습의 차이는 무엇인가요?
기계학습의 개념
기계 학습의 정의:
- 기계 학습은 데이터를 사용해 컴퓨터가 명시적인 프로그래밍 없이도 학습하고, 그 학습을 바탕으로 미래의 데이터를 예측하거나 결정을 내리는 기술입니다. 즉, 컴퓨터가 데이터를 통해 패턴을 스스로 학습하고, 이를 바탕으로 문제를 해결하는 것을 목표로 합니다.
기계 학습의 목적:
- 과거의 데이터를 이용해 미래에 발생할 상황을 예측하거나 데이터 내에서 패턴을 찾아내는 것입니다.
기계 학습의 주요 유형:
- 기계 학습은 지도 학습, 비지도 학습, 강화 학습으로 나눌 수 있습니다. 이 중 지도 학습과 비지도 학습은 데이터의 레이블 유무에 따라 나뉩니다.
지도 학습 (Supervised Learning)이란?
정의: 지도 학습은 데이터에 입력과 정답(레이블)이 함께 주어지는 학습 방법입니다. 모델은 입력 데이터와 그에 해당하는 정답을 바탕으로 학습하며, 새로운 데이터가 주어졌을 때 정답을 예측할 수 있게 되는 것이 목표입니다.
- 데이터 구조: 입력 데이터(특징) + 정답(레이블)
- 목표: 주어진 입력에 대해 정답을 잘 예측하는 모델을 만드는 것.
- 예시:
- 스팸 메일 분류: 이메일이 스팸인지 아닌지(레이블)를 예측.
- 주택 가격 예측: 주택의 크기나 위치 등 입력 데이터에 기반해 가격(레이블)을 예측.
알고리즘 예시:
- 선형 회귀(Linear Regression)
- 로지스틱 회귀(Logistic Regression)
- 서포트 벡터 머신(SVM)
- 결정 트리(Decision Trees)
- 랜덤 포레스트(Random Forest)
- 인공 신경망(Artificial Neural Networks)
비지도 학습 (Unsupervised Learning)이란?
정의: 비지도 학습은 정답(레이블)이 없는 데이터를 바탕으로 패턴을 찾거나 데이터를 군집화하는 학습 방법입니다. 데이터 자체에서 유사성을 찾아 그룹을 나누거나, 차원을 축소하여 데이터의 핵심적인 구조를 파악합니다.
- 데이터 구조: 입력 데이터(특징)만 존재, 정답 없음.
- 목표: 데이터 안의 패턴이나 그룹을 찾아내는 것
- 예시:
- 고객 세분화: 고객을 행동 패턴에 따라 그룹으로 나누기.
- 차원 축소: 고차원 데이터를 저차원으로 줄여 핵심 정보를 유지하는 방식.
알고리즘 예시:
- K-평균(K-means) 클러스터링
- 주성분 분석(PCA)
- 계층적 클러스터링
- DBSCAN (밀도 기반 클러스터링)
지도 학습과 비지도 학습의 차이
구분 | 지도 학습 (Supervised Learning) | 비지도 학습 (Unsupervised Learning) |
레이블 | 입력 데이터에 대해 정답(레이블)이 제공됨 | 입력 데이터에 정답(레이블)이 없음 |
목표 | 입력 데이터와 레이블 간의 관계를 학습하여 새로운 데이터의 레이블 예측 | 데이터 내에서 숨겨진 패턴이나 그룹을 찾아내는 것 |
알고리즘 | 선형 회귀, 로지스틱 회귀, 결정 트리, 랜덤 포레스트, SVM | K-평균 클러스터링, PCA, 계층적 클러스터링, DBSCAN |
예시 | 주택 가격 예측, 스팸 메일 분류 | 고객 세분화, 뉴스 기사 군집화 |
요구 데이터 | 입력 데이터와 함께 정답이 필요 | 입력 데이터만 필요 |
2. 손실 함수(loss function)란 무엇이며, 왜 중요한가요?
손실 함수란?
손실 함수(Loss Function)는 머신러닝 모델이 예측한 값과 실제 값 간의 차이를 측정하는 함수입니다. 모델의 예측이 얼마나 부정확한지를 수치화하며, 학습 과정에서 모델을 개선하기 위해 사용됩니다. 손실 함수의 목적은 이 차이를 최소화하여, 모델이 점점 더 정확한 예측을 할 수 있도록 돕는 것입니다.
손실 함수의 역할
- 모델 성능 평가: 손실 함수는 예측값과 실제 값 사이의 오차를 수치적으로 표현합니다. 손실 값이 낮을수록 모델이 더 정확하게 예측하고 있다는 의미입니다.
- 모델 학습의 방향성 제공: 손실 함수는 모델이 어떻게 학습해야 할지 방향을 제공합니다. 최적화 알고리즘(예: 경사 하강법)은 손실 함수의 값을 줄이는 방향으로 가중치(모델 파라미터)를 업데이트합니다.
- 모델 수렴 유도: 손실 함수가 점점 더 낮아지면, 모델은 데이터에 대한 최적의 가중치를 찾아가게 됩니다. 이 과정을 통해 학습이 성공적으로 이루어집니다.
손실 함수의 중요성
- 손실 함수는 모델의 예측 성능을 평가하는 핵심 지표입니다.
- 모델이 예측에서 발생한 오차를 줄이기 위해 손실 함수의 값을 최소화하는 과정은 모델이 점점 더 좋은 성능을 갖추게 만듭니다.
- 잘 정의된 손실 함수는 모델이 학습하는 방향을 올바르게 설정하고, 최종적으로 더 나은 결과를 도출할 수 있게 합니다.
손실 함수의 종류
회귀 문제에서 사용되는 손실 함수
- 평균 제곱 오차(MSE, Mean Squared Error): 예측값과 실제 값의 차이를 제곱해 평균을 냄. 큰 오차에 민감.
- 평균 절대 오차(MAE, Mean Absolute Error): 예측값과 실제 값 간의 차이의 절댓값을 평균. 이상치에 덜 민감.
- 후버 손실(Huber Loss): MSE와 MAE의 장점을 결합한 함수로, 작은 오차에는 MSE처럼 작용하고 큰 오차에는 MAE처럼 작용.
- 로그 코사인 손실(Log-Cosh Loss): MSE와 유사하지만 큰 오차에 더 안정적이며, 예측값과 실제 값 차이의 코사인 함수 기반 손실.
분류 문제에서 사용되는 손실 함수
- 교차 엔트로피 손실(Cross-Entropy Loss): 예측 확률 분포와 실제 레이블 분포 간 차이를 측정. 분류 문제에서 자주 사용.
- 히징 손실(Hinge Loss): SVM에서 사용되며, 예측과 실제 값 간의 차이를 평가해 분류 성능을 개선.
- 카테고리컬 교차 엔트로피(Categorical Cross-Entropy): 다중 클래스 분류에서 각 클래스별 예측 확률과 실제 클래스 간의 차이를 측정.
- 바이너리 교차 엔트로피(Binary Cross-Entropy): 이진 분류 문제에서 사용되며, 두 클래스 중 하나를 예측하는 문제에 적합.
기타 손실 함수
- KL 발산(Kullback-Leibler Divergence): 두 확률 분포 간의 차이를 측정하는 데 사용되며, 주로 확률 기반 모델에서 사용.
- 다이스 손실(Dice Loss): 이미지 세그멘테이션 같은 문제에서 예측과 실제 값 간의 겹치는 정도를 평가.
- Focal Loss: 불균형 데이터에서 적합한 손실 함수로, 잘못 예측된 샘플에 더 높은 가중치를 부여.
'스프린트 > 위클리페이퍼' 카테고리의 다른 글
[#13] 스프린트 DA 트랙 22주차 위클리 페이퍼(데이터 조회 및 필터링 쿼리, NULL) (0) | 2024.11.13 |
---|---|
[#12] 스프린트 DA 트랙 19주차 위클리 페이퍼(모델의 편향과 분산, K-폴드 교차 검증) (0) | 2024.10.23 |
[#10] 스프린트 DA 트랙 17주차 위클리 페이퍼(A/B 테스트, 이벤트 데이터 로그 설계) (2) | 2024.10.09 |
[#9] 스프린트 DA 트랙 11주차 위클리 페이퍼(프로덕트 지표, 고객 생애 가치) (4) | 2024.08.28 |
[#8] 스프린트 DA 트랙 10주차 위클리 페이퍼(AARRR 프레임워크, Funnel 분석, 코호트, 세그먼트, RFM 분석) (0) | 2024.08.21 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!