데이터 분석에서 시각화는 데이터를 이해하고 해석하는 데 중요한 역할을 합니다. 시각화는 복잡한 데이터를 간단하고 직관적으로 표현할 수 있는 도구로, R은 이러한 시각화를 위한 다양한 도구와 패키지를 제공합니다. 이번 글에서는 R에서 제공하는 기본 그래픽 시스템을 활용한 시각화 방법에 대해 살펴보겠습니다.데이터 시각화 도구 및 패키지R에서 데이터 시각화는 데이터를 탐색하고 인사이트를 얻기 위해 매우 중요한 단계입니다.R은 다양한 시각화 도구와 패키지를 제공하며, 그 중에서도 기본 그래픽 시스템과 ggplot2 패키지가 가장 널리 사용됩니다.기본 그래픽 시스템 R의 기본 그래픽 시스템은 R에 내장된 함수들로 간단한 시각화를 빠르게 생성할 수 있습니다. 예시# 기본 플롯 함수 사용 예시x plot(): 가장 ..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)6,7주차는 프로젝트로 위클리페이퍼를 작성하지 않았으며, 이번 8주차부터 다시 6번째 위클리페이퍼를 이어서 작성하게 되었습니다. 이번 6번째 위클리 페이퍼 주제는1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요. 2. 고..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)이번 글은 태블로에 대한 개념을 설명하며, 태블로라고 불리우는 프로그램 설치부터 프로그램을 다루는 기초적인 방법까지 전반적인 내용을 담을 예정입니다.Tableau라는 이름의 프로그램은 Salesforce라는 회사가 제공하는 데이터 시각화 프로그램입니다.태블로(Tableau) 설치 과정태블로 계정 생성하기https://public.tableau.com/app/discover 에 접속합니다.자신이 사용할 성과 이름, 이메일을 입력하고 ‘내 계정 만들기’를 눌러 계정을 생성합니다.생성된 계정의 메일의 수신함으로 이동하여 “Tableau Software 계정 활성화” 라는 제목의 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Seaborn 라이브러리Seaborn 라이브러리는 통계 정보 시각화 라이브러리로 간결한 코드로 그래프 생성하는 기능을 제공합니다.Matplotlib보다 근사한 그래프를 쉽게 그릴 수 있는 라이브러리Matplotlib과 Seaborn의 차이Seaborn : 간편하게 근사한 그래프 생성Matplotlib : 원하는대로 커스텀하게 그래프 생성# seaborn 라이브러리로 그래프를 그리기 전에 필요한 라이브러리 호출import seaborn as snsimport pandas as pdimport matplotlib.pyplot as plt바 그래프 (bar) # 검은색 막대기를 ..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)상자그림 (Box Plot) 상자 그림에서 박스 중간에 있는 선을 50% 지점인 중간값(Median)이라고 합니다.상자의 아래 부분은 25% 지점으로 제 1 사분위수(Q1)이라고 합니다.상자의 아래 부분은 75% 지점으로 제 3 사분위수(Q3)이라고 합니다.박스 밖에 동떨어져 존재하는 값들을 이상치(Outlier)라고 합니다.제 3사분위수(Q3)에서 제 1사분위수(Q1)를 뺀 범위를 사분위수 범위(IQR ; Interquartile range)라고 하며, 그리고 1, 3 사분위수에서 1.5*IQR만큼 떨어진 값들까지 정상 범주라고 생각하면 됩니다. 상자 그림을 통해 이상치의..