이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)회귀 분석의 개요회귀분석(regression analysis)두 양적 변수 사이의 관계성을 확인하는 데에 사용되는 분석 방법론으로 통계학에서 가장 중요한 방법론 중 하나입니다.설명변수의 변화에 따라 결과 변수가 어느 정도 변화하는가를 구체적인 수치로 표현할 수 있게 해주는 방법론입니다.변수 간의 관계성을 하나의 선으로 나타내고, 이 선을 다시 하나의 식으로 표현해 줍니다.회귀식의 x축에 들어가는 변수는 설명 변수(= 독립 변수)라고 불리우며며, y축의 변수는 결과 변수(= 종속 변수)로 표현합니다.회귀선을 구하는 방법회귀의 관계성을 가장 잘 표현하는 식은 간단한 수학식으로 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)통계적 가설 검정의 개요추론 통계에서는 모집단에 대해서 단정할 수는 없지만, 확률적으로 높은 쪽으로 선택해야 합니다.추론 통계에서는 확률을 도입해서 ‘모든’ 대신 ‘거의 모든’을 생각하도록 해야 합니다.(통계적 가설 검정을 활용하면 예외가 존재할 확률을 인정하면서도 보다 가능성이 높은 쪽으로 선택을 내릴 수 있게 됩니다.)이러한 통계적 가설 검정은 가설을 세우고 표본 데이터를 관찰한 다음, p값을 계산해 유의 수준 α와 비교하고 귀무가설의 기각 여부를 결정하는 과정입니다.통계적 가설 검정의 절차가설 검정 (hypothesis testing)용어) 가설, 귀무가설, 대립가설,..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)추론통계의 목차통계 리터러시데이터 분석과 통계학표본을 통해 모집단을 파악평균과 표준편차확률과 확률분포정규 분포와 중심극한정리오차와 신뢰구간통계적 가설 검정회귀 분석통계 리터러시데이터 분석과 통계학데이터 분석의 목적현상 파악기술 통계 : 데이터 자체의 특징을 정리하고 요약하는 것 예) 3월 방문자 중 10대 비중이 몇 % 인지? / 고객의 평균 소비 금액 얼마인가?이미 비즈니스 현장에서 대다수 종사자들이 쉽게 하고 있는 일대상에 대한 통찰 (이번에 다루는 내용)추론 통계 : 표본을 바탕으로 모집단을 추론 (모집단을 이해하도록 도움을 주는 통계)모집단은 넓은 범주의 집단으로 완..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Seaborn 라이브러리Seaborn 라이브러리는 통계 정보 시각화 라이브러리로 간결한 코드로 그래프 생성하는 기능을 제공합니다.Matplotlib보다 근사한 그래프를 쉽게 그릴 수 있는 라이브러리Matplotlib과 Seaborn의 차이Seaborn : 간편하게 근사한 그래프 생성Matplotlib : 원하는대로 커스텀하게 그래프 생성# seaborn 라이브러리로 그래프를 그리기 전에 필요한 라이브러리 호출import seaborn as snsimport pandas as pdimport matplotlib.pyplot as plt바 그래프 (bar) # 검은색 막대기를 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)상자그림 (Box Plot) 상자 그림에서 박스 중간에 있는 선을 50% 지점인 중간값(Median)이라고 합니다.상자의 아래 부분은 25% 지점으로 제 1 사분위수(Q1)이라고 합니다.상자의 아래 부분은 75% 지점으로 제 3 사분위수(Q3)이라고 합니다.박스 밖에 동떨어져 존재하는 값들을 이상치(Outlier)라고 합니다.제 3사분위수(Q3)에서 제 1사분위수(Q1)를 뺀 범위를 사분위수 범위(IQR ; Interquartile range)라고 하며, 그리고 1, 3 사분위수에서 1.5*IQR만큼 떨어진 값들까지 정상 범주라고 생각하면 됩니다. 상자 그림을 통해 이상치의..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)기술통계와 추론통계통계통계란 어떤 상황을 쉽게 이해할 수 있도록 숫자로 정리하는 것이다.통계는 기술통계와 추론통계로 나뉜다.기술통계(Descriptive Statistics)데이터를 요약하고 핵심적인 특징을 파악하는 통계기술통계량 : 평균 / 중간값 / 이상점추론통계(Inferential statistics)표본을 바탕으로 모집단을 추론하는 통계 (모집단의 사이즈가 너무 커서 표본을 추출하여 모집단을 추론한다.)모집단(Population) : 관심 대상의 전체집합표본(sample) : 모집단에서 뽑아낸 일부 대표값과 산포도기술통계의 대표값평균 (mean) : 데이터 합계 /..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)2주차에 이어서 이번 3주차 위클리 페이퍼의 내용을 소개하려고 합니다.이번 3주차 위클리 페이퍼 주제는1. 데이터 전처리 방법들 (ex. 결측값 처리 등) 에 대해 설명해 주세요.2. t-test에 대해 설명해 주세요.이번 3주차 위클리 페이퍼의 첫번째 주제 데이터 전처리는 데이터 분석, 기계 학습 모델링, 통계 분석 등을 위해 필수적인 과정입니다.데이터 전처리..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Pandas표 형태의 데이터를 간편하게 다루고 분석하기 위한 라이브러리 (numpy는 pandas에 비해 가독성이 떨어지고, 정보에 대한 레이블 삽입 불가, 한가지 데이터 타입만 사용 가능하다)numpy를 기반으로 만들어진 대표적인 라이브러리데이터 분석에서 50% 이상 사용하는 라이브러리과정데이터 불러오기데이터 전처리(가공)데이터 분석데이터 시각화pandas 호출import pandas as pd # pandas 호출데이터프레임데이터 프레임은 여러 개의 시리즈로 구성되어 있다.가로 줄 - 행 (row) / 세로줄 - 열 (column)import pandas as pdimp..