이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)그룹별로 분석하기GroupbyPandas의 groupby는 데이터프레임의 데이터를 특정 기준으로 그룹화하고, 그룹별로 요약 통계나 다른 연산을 수행할 수 있는 매우 유용한 기능입니다.groupby를 사용하려면, 먼저 데이터프레임을 특정 열을 기준으로 그룹화합니다.그런 다음, 각 그룹에 대해 집계 함수(예: 합계, 평균, 개수 등)를 적용할 수 있습니다.자주 사용하는 집계 함수sum() : 그룹별 합계를 계산합니다.mean() : 그룹별 평균을 계산합니다.count() : 그룹별 항목 수를 계산합니다.max(), min() : 그룹별 최대값과 최소값을 계산합니다.import ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 합치기같은 형식의 데이터 합치기 : concat()pandas에서 concat() 함수는 여러 데이터프레임(DataFrame)이나 시리즈(Series)를 하나로 합칠 때 사용됩니다.concat() 함수를 사용하면 단순히 데이터프레임을 세로 또는 가로로 이어 붙일 수 있습니다.concat() 함수의 주요 인자들objs : 합칠 객체들(리스트나 딕셔너리 형태로 전달). 데이터프레임이나 시리즈가 될 수 있습니다.axis : 결합할 축을 지정. 0은 세로(행을 따라 결합), 1은 가로(열을 따라 결합). 기본값은 0.join : 결합 방법을 지정. inner와 outer가 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)날짜와 시간 데이터 다루기데이터 분석을 하다 보면 날짜와 시간 데이터를 다루어야 하는 경우가 자주 있습니다. 예를 들어, 데이터프레임의 컬럼에 연, 월, 일과 같은 데이터가 들어가 있을 수도 있고, 시, 분, 초와 같은 데이터가 들어가 있을 수도 있습니다. 날짜와 시간 데이터를 효과적으로 다루기 위해서는 데이터 타입을 적절하게 설정하는 것이 중요합니다.날짜와 시간을 위한 데이터 타입 설정하기문자열로 저장된 날짜와 시간 데이터를 pandas에서 제공하는 to_datetime 함수를 사용하여 datetime 타입으로 변환할 수 있습니다.이렇게 하면 날짜와 시간을 편리하게 다룰 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)문자 데이터 가공하기대소문자 처리하기데이터프레임을 다루다보면 숫자형 데이터 뿐만 아니라 문자형 데이터 또한 다뤄야 하는 상황을 겪게 됩니다.이러한 상황 속에서, pandas에서는 문자열 데이터를 처리하기 위해 편리한 메소드로 str.upper(), str.lower(), str.title(), str.capitalize() 등과 같은 주요 메소드를 제공합니다.# 데이터프레임에서 문자형 컬럼의 값들의 종류 확인하기df['column_name(categoric)'].unique()# 문자형 컬럼의 값을 확인할 때, 같은 범주인데도 대문자나 소문자로 다르게 표현된 경우, 컴퓨터는..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 전처리결측값 찾기Pandas의 DataFrame에서 결측값을 찾는 방법은 여러 가지가 있으며, 이에 대한 방법을 밑에서 설명하도록 하겠습니다.결측값 : 데이터셋에서 값이 누락되었거나 정의되지 않은 값 (NA, NaN, None)info() 메소드 사용info() 메서드는 DataFrame의 각 컬럼에 대한 요약 정보를 제공하기 때문에 요약 정보에 포함된 비결측값(non-null) 개수를 통해 결측값의 유무를 확인할 수 있습니다.df.info()isnull() 또는 isna() 메소드 사용isnull() 메서드는 DataFrame이나 Series 내의 결측값을 True..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Pandas의 Dataframepandas를 사용하면 표 형태의 데이터인 데이터프레임을 불러와서 자유롭게 분석하고 가공할 수 있습니다.평소 주로 사용하는 데이터는 표 형태로, pandas를 사용하는 법을 알고 있다면, 업무나 일상에서 사용하는 다양한 데이터를 원하는 대로 분석할 수 있습니다.pandas의 장점이자 단점은 기능이 많다는 점입니다.(다양한 문법을 가짐)그래서 이번 정리에서는 pandas를 다루며 핵심적으로 필요한 문법만 정리할 예정으로, 이를 숙지한다면, 데이터를 능숙하게 다룰 수 있습니다.Pandas에서는 dataframe을 능숙하게 다루는 것이 중요합니다.D..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)객체(Object)일반적으로 말하는 객체 : 컴퓨터,사람, 자동차처럼 우리가 주변에서 떠올릴 수 있는 모든 것프로그래밍에서의 객체 : 데이터와 그 데이터를 활용한 함수들을 묶어서 저장해 놓을 수 있는 것들파이썬에서 사용하는 수많은 기능들은 객체로 만들어져 있습니다. 새로운 기능을 만들때도 객체를 활용해야 합니다.데이터 사이언스, 웹 개발, 업무 자동화 등 분야에 상관없이 초급자에서 벗어나 사용하는 코드를 모두 이해하고 본인만의 새로운 기능을 만들어내면서 자유자재로 프로그래밍하기 위해서는 객체가 어떻게 작동하는지 이해해야 합니다.데이터 → 속성함수가 작동하는 것 → 행동객체와..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)파이썬 환경환경 : 우리에게 직접적 혹은 간접적으로 영향을 주는 자연적 조건이나 사회적 상황 예) 날씨, 경제적 여유, 문화개발 환경 : 프로그래밍 코드를 작성하거나 실행할 때 영향을 주는 여러가지 요소 예) 운영체제, 텍스트 에디터나 IDE, 특정 언어 버전, (프레임워크, 라이브러리, 패키지) + 버전, 컴퓨터 사양목차파이썬과 파이썬 패키지 작동 원리파이썬과 파이썬 패키지가 실행에 미치는 영향파이썬 환경을 만들고, 관리하고, 공유하는 방법파이썬 환경의 개요개발 환경이란 운영 체제, 텍스트 에디터나 IDE, 특정 언어 버전, 라이브러리와 패키지 버전, 컴퓨터 사양 등을 말..