![[파이썬을 활용한 통계 개념 기초] 10. 기댓값(Expectation)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FnBMlZ%2FbtsKgB8PX0n%2FQIrQlgPDQizWigiO2hya81%2Fimg.png)
기댓값(Expectation)기댓값(Expectation)이란?기댓값은 확률 변수의 평균적인 값을 나타내는 개념으로, 확률 분포의 중심을 보여줍니다. 이는 확률론과 통계학에서 매우 중요한 개념으로, 데이터나 확률 변수의 일반적인 경향을 파악하는 데 유용합니다.기댓값의 정의이산 확률 변수의 기댓값: 확률 변수가 이산적일 때는 가능한 값들에 확률을 곱한 값들의 합으로 기댓값을 계산합니다.여기서 x_i는 확률 변수 X가 가질 수 있는 값, P(x_i)는 해당 값이 나타날 확률입니다. 연속 확률 변수의 기댓값: 확률 변수가 연속적일 때는 확률 밀도 함수(pdf)를 사용하여 기댓값을 구합니다.여기서 f(x)는 확률 밀도 함수입니다.기댓값의 성질선형성: 기댓값은 선형 연산에 대해 다음과 같은 성질을 가집니다. 이는..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함.)18주차에 이어 이번 19주차 위클리 페이퍼의 내용을 소개하겠습니다. 이번 12번째 위클리 페이퍼 주제는1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의 관계에 대해 설명해 주세요.2. K-폴드 교차 검증에서 K의 값을 선택할 때 고려해야 할 점은 무엇인가요?1. 모델 학습 시 발생할 수 있는 편향과 분산에 대해 설명하고, 두 개념의..
![[파이썬을 활용한 통계 개념 기초] 04. 정규 분포(Normal distribution)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcmUW5k%2FbtsJt6b4bh6%2FxZRSOOYLWZaPMb0qkrKt70%2Fimg.png)
정규 분포(Normal Distribution)정의: 정규분포는 연속 확률 분포 중에 가장 일반적으로 많이 사용되는 분포입니다. 중심극한정리(CLT;Central limit theorem)에 의해 표본 평균의 분포가 정규분포를 따르게 되는 현상이 있어 통계학에서 매우 중요한 분포라고 할 수 있습니다.주요 특징:정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.분산 (σ², 분산): 데이터가 얼마나 퍼져 있는지를 나타냅니다.(분산은 편차의 제곱 합으로 단위가 평균과 다르다.)표준편차(σ, 표준편차) : 분산의 제곱근으로, 데이터가 평균으로부터 얼마나..
![[파이썬 개념 정리 7]통계의 기본과 파이썬을 이용한 데이터 시각화 개념](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbnKQGb%2FbtsInkvTu8w%2FvcVWn5IKWInWuskb9B2iQK%2Fimg.png)
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)상자그림 (Box Plot) 상자 그림에서 박스 중간에 있는 선을 50% 지점인 중간값(Median)이라고 합니다.상자의 아래 부분은 25% 지점으로 제 1 사분위수(Q1)이라고 합니다.상자의 아래 부분은 75% 지점으로 제 3 사분위수(Q3)이라고 합니다.박스 밖에 동떨어져 존재하는 값들을 이상치(Outlier)라고 합니다.제 3사분위수(Q3)에서 제 1사분위수(Q1)를 뺀 범위를 사분위수 범위(IQR ; Interquartile range)라고 하며, 그리고 1, 3 사분위수에서 1.5*IQR만큼 떨어진 값들까지 정상 범주라고 생각하면 됩니다. 상자 그림을 통해 이상치의..