기댓값(Expectation)기댓값(Expectation)이란?기댓값은 확률 변수의 평균적인 값을 나타내는 개념으로, 확률 분포의 중심을 보여줍니다. 이는 확률론과 통계학에서 매우 중요한 개념으로, 데이터나 확률 변수의 일반적인 경향을 파악하는 데 유용합니다.기댓값의 정의이산 확률 변수의 기댓값: 확률 변수가 이산적일 때는 가능한 값들에 확률을 곱한 값들의 합으로 기댓값을 계산합니다.여기서 x_i는 확률 변수 X가 가질 수 있는 값, P(x_i)는 해당 값이 나타날 확률입니다. 연속 확률 변수의 기댓값: 확률 변수가 연속적일 때는 확률 밀도 함수(pdf)를 사용하여 기댓값을 구합니다.여기서 f(x)는 확률 밀도 함수입니다.기댓값의 성질선형성: 기댓값은 선형 연산에 대해 다음과 같은 성질을 가집니다. 이는..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함.)18주차에 이어 이번 19주차 위클리 페이퍼의 내용을 소개하겠습니다. 이번 12번째 위클리 페이퍼 주제는1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의..
정규 분포(Normal Distribution)정의: 정규분포는 연속 확률 분포 중에 가장 일반적으로 많이 사용되는 분포입니다. 중심극한정리(CLT;Central limit theorem)에 의해 표본 평균의 분포가 정규분포를 따르게 되는 현상이 있어 통계학에서 매우 중요한 분포라고 할 수 있습니다.주요 특징:정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.분산 (σ², 분산): 데이터가 얼마나 퍼져 있는지를 나타냅니다.(분산은 편차의 제곱 합으로 단위가 평균과 다르다.)표준편차(σ, 표준편차) : 분산의 제곱근으로, 데이터가 평균으로부터 얼마나..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)상자그림 (Box Plot) 상자 그림에서 박스 중간에 있는 선을 50% 지점인 중간값(Median)이라고 합니다.상자의 아래 부분은 25% 지점으로 제 1 사분위수(Q1)이라고 합니다.상자의 아래 부분은 75% 지점으로 제 3 사분위수(Q3)이라고 합니다.박스 밖에 동떨어져 존재하는 값들을 이상치(Outlier)라고 합니다.제 3사분위수(Q3)에서 제 1사분위수(Q1)를 뺀 범위를 사분위수 범위(IQR ; Interquartile range)라고 하며, 그리고 1, 3 사분위수에서 1.5*IQR만큼 떨어진 값들까지 정상 범주라고 생각하면 됩니다. 상자 그림을 통해 이상치의..