이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)그룹별로 분석하기GroupbyPandas의 groupby는 데이터프레임의 데이터를 특정 기준으로 그룹화하고, 그룹별로 요약 통계나 다른 연산을 수행할 수 있는 매우 유용한 기능입니다.groupby를 사용하려면, 먼저 데이터프레임을 특정 열을 기준으로 그룹화합니다.그런 다음, 각 그룹에 대해 집계 함수(예: 합계, 평균, 개수 등)를 적용할 수 있습니다.자주 사용하는 집계 함수sum() : 그룹별 합계를 계산합니다.mean() : 그룹별 평균을 계산합니다.count() : 그룹별 항목 수를 계산합니다.max(), min() : 그룹별 최대값과 최소값을 계산합니다.import ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 합치기같은 형식의 데이터 합치기 : concat()pandas에서 concat() 함수는 여러 데이터프레임(DataFrame)이나 시리즈(Series)를 하나로 합칠 때 사용됩니다.concat() 함수를 사용하면 단순히 데이터프레임을 세로 또는 가로로 이어 붙일 수 있습니다.concat() 함수의 주요 인자들objs : 합칠 객체들(리스트나 딕셔너리 형태로 전달). 데이터프레임이나 시리즈가 될 수 있습니다.axis : 결합할 축을 지정. 0은 세로(행을 따라 결합), 1은 가로(열을 따라 결합). 기본값은 0.join : 결합 방법을 지정. inner와 outer가 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)날짜와 시간 데이터 다루기데이터 분석을 하다 보면 날짜와 시간 데이터를 다루어야 하는 경우가 자주 있습니다. 예를 들어, 데이터프레임의 컬럼에 연, 월, 일과 같은 데이터가 들어가 있을 수도 있고, 시, 분, 초와 같은 데이터가 들어가 있을 수도 있습니다. 날짜와 시간 데이터를 효과적으로 다루기 위해서는 데이터 타입을 적절하게 설정하는 것이 중요합니다.날짜와 시간을 위한 데이터 타입 설정하기문자열로 저장된 날짜와 시간 데이터를 pandas에서 제공하는 to_datetime 함수를 사용하여 datetime 타입으로 변환할 수 있습니다.이렇게 하면 날짜와 시간을 편리하게 다룰 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)문자 데이터 가공하기대소문자 처리하기데이터프레임을 다루다보면 숫자형 데이터 뿐만 아니라 문자형 데이터 또한 다뤄야 하는 상황을 겪게 됩니다.이러한 상황 속에서, pandas에서는 문자열 데이터를 처리하기 위해 편리한 메소드로 str.upper(), str.lower(), str.title(), str.capitalize() 등과 같은 주요 메소드를 제공합니다.# 데이터프레임에서 문자형 컬럼의 값들의 종류 확인하기df['column_name(categoric)'].unique()# 문자형 컬럼의 값을 확인할 때, 같은 범주인데도 대문자나 소문자로 다르게 표현된 경우, 컴퓨터는..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 전처리결측값 찾기Pandas의 DataFrame에서 결측값을 찾는 방법은 여러 가지가 있으며, 이에 대한 방법을 밑에서 설명하도록 하겠습니다.결측값 : 데이터셋에서 값이 누락되었거나 정의되지 않은 값 (NA, NaN, None)info() 메소드 사용info() 메서드는 DataFrame의 각 컬럼에 대한 요약 정보를 제공하기 때문에 요약 정보에 포함된 비결측값(non-null) 개수를 통해 결측값의 유무를 확인할 수 있습니다.df.info()isnull() 또는 isna() 메소드 사용isnull() 메서드는 DataFrame이나 Series 내의 결측값을 True..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Pandas의 Dataframepandas를 사용하면 표 형태의 데이터인 데이터프레임을 불러와서 자유롭게 분석하고 가공할 수 있습니다.평소 주로 사용하는 데이터는 표 형태로, pandas를 사용하는 법을 알고 있다면, 업무나 일상에서 사용하는 다양한 데이터를 원하는 대로 분석할 수 있습니다.pandas의 장점이자 단점은 기능이 많다는 점입니다.(다양한 문법을 가짐)그래서 이번 정리에서는 pandas를 다루며 핵심적으로 필요한 문법만 정리할 예정으로, 이를 숙지한다면, 데이터를 능숙하게 다룰 수 있습니다.Pandas에서는 dataframe을 능숙하게 다루는 것이 중요합니다.D..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Pandas표 형태의 데이터를 간편하게 다루고 분석하기 위한 라이브러리 (numpy는 pandas에 비해 가독성이 떨어지고, 정보에 대한 레이블 삽입 불가, 한가지 데이터 타입만 사용 가능하다)numpy를 기반으로 만들어진 대표적인 라이브러리데이터 분석에서 50% 이상 사용하는 라이브러리과정데이터 불러오기데이터 전처리(가공)데이터 분석데이터 시각화pandas 호출import pandas as pd # pandas 호출데이터프레임데이터 프레임은 여러 개의 시리즈로 구성되어 있다.가로 줄 - 행 (row) / 세로줄 - 열 (column)import pandas as pdimp..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)라이브러리데이터 분석 실무에서 많이 활용하는 Toolkit으로, 파이썬에서 필수적인 요소이다.대표적인 라이브러리numpy : 수치적인 연산을 할때 많이 활용함pandas : 데이터를 표 형식으로 정리하고 분석함matplotlib : 데이터의 효과적인 전달을 위해 데이터를 시각화할 때 사용함Numpy(Numerical Python)수치적인 연산에 최적화된 라이브러리이다.(파이썬 도구)수학 연산과 통계 연산이 내장되어 있다.장점 1) 메모리 최적화 2) 연산 최적화numpy이 없이 사용했을 때 상대적으로 복잡한 구현을 numpy로 간단하게 쓸 수 있다.넘파이의 근본이 되는 자료..