이번 글에서는 저번 글에 이어 R의 변수와 데이터 타입 및 구조에 대해 이어 내용을 설명하려고 합니다.저번 글에서는 데이터 구조 중에서 벡터까지 설명을 했으며, 이번 글에서는 리스트, 행렬과 데이터프레임에 대한 설명이 이루어질 예정입니다.R의 데이터 종류(구조)R에서는 다양한 데이터 구조가 있으며, 각 구조는 특정 형태로 데이터를 저장하는 방법을 제공합니다.리스트 (List)R에서 가장 유연하고 강력한 데이터 구조 중 하나로, 서로 다른 데이터 타입을 가진 객체들을 하나의 구조 안에 저장할 수 있는 1차원 데이터 구조입니다.리스트는 벡터와 달리 각 요소가 서로 다른 데이터 타입을 가질 수 있으며, 이러한 요소들은 숫자, 문자, 논리형, 벡터, 행렬, 데이터 프레임 등 다양한 R 객체일 수 있습니다.리스트..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)연관 규칙 마이닝Apriori 알고리즘연관 규칙을 찾기 위해 가능한 모든 조합을 시도하는 것은 매우 비효율적입니다. 특히, 상품의 개수가 많아질수록 조합의 수가 기하급수적으로 증가하므로, 이를 다 처리하는 것은 거의 불가능에 가깝습니다. 따라서 가능한 모든 조합을 다 시도하는 무차별 탐색(Brute Force) 방식은 현실적으로 사용하기 어렵습니다.Apriori 알고리즘의 소개상위 조합에서부터 차례로 스캔하면서 특정 조합이 자주 발생하지 않는다면 이의 결과물로 탄생한 후속 조합들까지 모두 후보에서 배제하는 방식의 알고리즘입니다.Apriori 알고리즘을 활용하면 하나의 조합만..
위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)8주차에 이어 이번 9주차 위클리 페이퍼의 내용을 소개하겠습니다. 이번 7번째 위클리 페이퍼 주제는1. 장바구니 분석의 다양한 활용 사례를 설명해 주세요. 각 사례에서 얻을 수 있는 비즈니스 인사이트는 무엇인지 구체적으로 설명해 주세요.2. Support, Confidence, Lift 지표의 정의와 각 지표의 중요성을 설명해 주세요. 이 지표들을 해석하는 방법..
변수와 데이터 타입은 R 프로그래밍의 가장 기본적인 개념입니다. 데이터를 저장하고 조작하기 위해서는 변수를 사용해야 하며, 각 변수는 특정한 데이터 타입을 가집니다. 데이터 타입을 정확히 이해하면, 데이터를 올바르게 처리하고 분석할 수 있습니다.변수 할당 및 사용법변수란 무엇인가?변수는 데이터를 저장하는 공간으로 나중에 이 값을 사용하거나 조작할 수 있게 해줍니다. 변수에 값을 할당하면, R은 해당 값을 메모리에 저장하고 그 값을 참조할 수 있는 이름(변수명)을 부여합니다.변수명은 사용자가 정의할 수 있으며, 변수에 값을 할당하는 방식은 다음과 같습니다.변수 할당 방법R에서 변수를 할당하는 방법은 두 가지가 있습니다:할당 연산자 : 가장 일반적인 변수 할당 방법입니다.예: x 이 코드에서 숫자 10이 변..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)많은 기업들이 데이터의 중요성을 인식하면서, 데이터를 수집하고 저장하는 데에 상당한 노력을 기울이고 있습니다. 하지만 단순히 데이터를 모아두는 것만으로는 비즈니스 성장을 이끌어낼 수 없습니다. 데이터를 효과적으로 활용하기 위해서는 그 안에서 유용한 정보를 추출해내는 과정이 필수적입니다.예를 들어, 마트에서 고객들의 구매 데이터를 단순히 저장해두기만 한다면, 이는 그저 숫자에 불과할 것입니다. 그러나 이 데이터를 체계적으로 분석해 "매년 8월에는 맥주 매출이 전월 대비 150% 증가한다"는 패턴을 발견했다면 어떻게 될까요? 이를 바탕으로 8월에 맥주를 집중적으로 판매하기 위한..
R은 통계 분석과 데이터 시각화를 위한 강력한 프로그래밍 언어이며, 다양한 기능을 추가하기 위해 많은 패키지가 개발되었습니다. 이번 목차에서 이러한 R 패키지에 대한 설명들을 하도록 하겠습니다.R package 설치 및 불러오기R package란?R 패키지는 특정 작업을 수행하기 위한 함수, 데이터, 코드 등을 모아놓은 집합체로 다양한 분야의 분석도구를 제공합니다.예를 들어, 데이터 시각화 패키지인 ggplot2, 데이터 조작 패키지인 dplyr, 생물정보학 분석을 위한 Bioconductor 등이 있습니다. 각 패키지는 특정 기능을 효율적으로 수행할 수 있도록 도와줍니다.패키지 설치R 패키지는 CRAN(Comprehensive R Archive Network)이라는 중앙 저장소에 저장되어 있으며, 이를..
R이란?R은 통계 분석과 그래프 작성 및 데이터 과학에 특화된 프로그래밍 언어이자 개발 환경입니다.생물정보학은 생물학적 데이터를 분석하고 해석하는 학문으로, 유전자 서열, 단백질 구조, 유전자 발현 데이터 등 다양한 형태의 데이터를 다룹니다.R은 이러한 데이터의 분석을 효율적으로 수행할 수 있도록 다양한 패키지와 기능을 제공합니다.역사와 배경R은 1990년대 중반 뉴질랜드 오클랜드 대학교의 로스 이하카(Ross Ihaka)와 로버트 젠틀맨(Robert Gentleman)에 의해 개발되었습니다.이름 'R'은 개발자 이름의 첫 글자에서 따온 것이며, 통계 계산 소프트웨어인 'S' 언어에서 영향을 받았습니다.특징오픈 소스: R은 GNU GPL 라이선스 하에 무료로 제공됩니다.강력한 패키지 시스템: CRAN(C..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)코드 리뷰코드 리뷰 문화코드 리뷰의 중요성1. 트럭 팩터 증가트럭 팩터(또는 버스 팩터)는 프로젝트의 핵심 지식을 얼마나 많은 개발자가 공유하고 있는지를 나타내는 지표입니다. 트럭 팩터가 ‘1’인 프로젝트는 한 명의 개발자만이 중요한 지식을 가지고 있다는 의미입니다. 만약 그 개발자가 프로젝트에서 떠난다면, 프로젝트는 큰 위험에 처할 수 있습니다. 코드 리뷰는 이러한 문제를 완화하는 데 중요한 역할을 합니다. 코드 리뷰를 통해 모든 팀원이 서로의 코드를 검토하고 이해할 수 있게 되면, 트럭 팩터가 증가하여 프로젝트의 안정성이 높아집니다.2. 코드 품질 향상코드 리뷰는 코드 ..