이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)기술통계와 추론통계통계통계란 어떤 상황을 쉽게 이해할 수 있도록 숫자로 정리하는 것이다.통계는 기술통계와 추론통계로 나뉜다.기술통계(Descriptive Statistics)데이터를 요약하고 핵심적인 특징을 파악하는 통계기술통계량 : 평균 / 중간값 / 이상점추론통계(Inferential statistics)표본을 바탕으로 모집단을 추론하는 통계 (모집단의 사이즈가 너무 커서 표본을 추출하여 모집단을 추론한다.)모집단(Population) : 관심 대상의 전체집합표본(sample) : 모집단에서 뽑아낸 일부 대표값과 산포도기술통계의 대표값평균 (mean) : 데이터 합계 /..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)2주차에 이어서 이번 3주차 위클리 페이퍼의 내용을 소개하려고 합니다.이번 3주차 위클리 페이퍼 주제는1. 데이터 전처리 방법들 (ex. 결측값 처리 등) 에 대해 설명해 주세요.2. t-test에 대해 설명해 주세요.이번 3주차 위클리 페이퍼의 첫번째 주제 데이터 전처리는 데이터 분석, 기계 학습 모델링, 통계 분석 등을 위해 필수적인 과정입니다.데이터 전처리..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Pandas표 형태의 데이터를 간편하게 다루고 분석하기 위한 라이브러리 (numpy는 pandas에 비해 가독성이 떨어지고, 정보에 대한 레이블 삽입 불가, 한가지 데이터 타입만 사용 가능하다)numpy를 기반으로 만들어진 대표적인 라이브러리데이터 분석에서 50% 이상 사용하는 라이브러리과정데이터 불러오기데이터 전처리(가공)데이터 분석데이터 시각화pandas 호출import pandas as pd # pandas 호출데이터프레임데이터 프레임은 여러 개의 시리즈로 구성되어 있다.가로 줄 - 행 (row) / 세로줄 - 열 (column)import pandas as pdimp..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Matplotlib파이썬과 넘파이를 기반으로 만들어진 데이터 시각화 라이브러리시각적으로 표현해서 데이터를 요약해서 볼 수 있다는 장점이 있다.시각화 그래프의 종류선 그래프 (Line Graph)막대 그래프 (Bar Graph)산점도 (Scatter Plot)Matplotlib은 pyplot으로 호출한다.pyplotMatplotlib 라이브러리 호출 방법import numpy as npimport matplotlib.pyplot as plt선 그래프시간의 흐름에 따라서 어떤 값이 어떻게 바뀌었는지 알 수 있는 그래프이다.# 선 그래프 작성 코드plt.plot(array1, a..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)라이브러리데이터 분석 실무에서 많이 활용하는 Toolkit으로, 파이썬에서 필수적인 요소이다.대표적인 라이브러리numpy : 수치적인 연산을 할때 많이 활용함pandas : 데이터를 표 형식으로 정리하고 분석함matplotlib : 데이터의 효과적인 전달을 위해 데이터를 시각화할 때 사용함Numpy(Numerical Python)수치적인 연산에 최적화된 라이브러리이다.(파이썬 도구)수학 연산과 통계 연산이 내장되어 있다.장점 1) 메모리 최적화 2) 연산 최적화numpy이 없이 사용했을 때 상대적으로 복잡한 구현을 numpy로 간단하게 쓸 수 있다.넘파이의 근본이 되는 자료..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)모듈다른 파이썬 프로그램에서 사용할 수 있는 파이썬 코드코드가 길어지는 것을 방지하기 위해 코드를 여러 파일로 분리하고 모듈로 호출하여 코딩할 수 있다.import 모듈# 함수등을 만들어 둔 파일이 있다면 (파일 이름이 예를 들어 calculator.py라면) calculator안에는 더하기, 빼기, 곱하기, 나누기를 해주는 함수가 포함되어 있다.import calculator # 만들어둔 모듈 호출 가능print(calculator.add(2, 5))print(calculator.multiply(3,3))# 모듈명이 너무 길어 코드를 입력하는 데 불편하다면 축약 가능imp..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)리스트리스트(자료형)리스트는 []로 둘러싸인 자료형이다.리스트에서 요소의 위치를 인덱스라고 한다.리스트에서 인덱스를 사용하여 요소를 호출하는 것을 ‘인덱싱’이라고 함.인덱스는 0부터 시작한다.또한 -(마이너스 기호)를 활용하여 뒤의 요소의 인덱싱도 가능하다(-1 : 마지막 요소)# 리스트 예시 / 리스트는 다음과 같이 간단하게 표현 가능하다.numbers = [2, 3, 5, 7, 11, 13] #리스트에 들어간 자료들을 요소라고 한다.names = ["윤수", "혜린", "태호", "영훈"] # 숫자나 문자가 모두 요소가 될 수 있다.print(numbers[0]) -> ..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)1주차에 이어 이번 2주차에도 위클리 페이퍼를 작성하게 되었습니다. 이번 2주차 위클리 페이퍼 주제는1. 제1종 오류와 제2종 오류에 대해 설명해주세요. 2. p값 (p-value)는 무엇인가요?이번 2주차 위클리 페이퍼 주제인 제 1, 2종 오류와 p값을 다루기 위해서는 우선 추론 통계와 통계적 가설 검정을 짚고 넘어갈 필요가 있습니다.추론통계추론 통계에 대해..