이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)로그 설계 시작하기User Property와 Event Property User Property(유저 프로퍼티)정의:User Property는 특정 시점에서의 유저 특성을 나타내는 정보입니다.User Property의 종류:서비스용 데이터베이스에 저장된 정보: 나이, 성별, 멤버십 정보 등. 이러한 정보는 서비스 운영에 필수적이며, 별도의 로그 설계가 필요하지 않습니다.로그 설계가 필요한 정보: 시점별로 변화하는 유저 특성 정보(예: 로그인 상태, 유입 채널 등). 이러한 정보는 특정 시점에 기록되어야 하므로 로그 설계가 필요합니다.User Property 설계의 특징:Us..
객체 지향 프로그래밍객체(Object)란 무엇인가? 객체는 데이터와 그 데이터에 관련된 함수(동작)를 포함하는 하나의 단위입니다. 예를 들어, 숫자 5는 하나의 객체입니다. 이 숫자 5는 데이터(숫자 값)를 가지고 있으며, 그 데이터에 적용할 수 있는 함수(예: 더하기, 빼기)가 있습니다.R에서 사용되는 대부분의 데이터(벡터, 리스트, 데이터 프레임 등)는 객체라고 생각할 수 있습니다.클래스(Class)란 무엇인가? 클래스는 객체의 청사진입니다. 즉, 특정 유형의 객체들이 어떻게 생기고, 어떤 동작을 할 수 있는지를 정의하는 틀입니다. 예를 들어, 사람(Person)이라는 클래스를 정의하면, 이 클래스를 기반으로 여러 사람 객체(예: John, Alice)를 만들 수 있습니다.객체는 어떤 클래스로 만들어..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)로그 설계와 사용자 행동 데이터 분석웹 서비스 운영에서 사용자 행동 데이터를 체계적으로 기록하고 분석하는 것은 프로덕트 개선에 필수적입니다.로그 데이터는 미리 체계적으로 기록되지 않으면 나중에 분석할 때 사용할 수 없으므로, 초기 설계 단계에서부터 로그 설계가 중요합니다. 로그 설계의 중요성:사용자 행동 데이터를 분석하려면 체계적으로 데이터를 기록하는 로그 설계가 필요합니다.로그 설계는 데이터를 어떻게 기록할지 기준을 설정하는 과정으로, 프로덕트 개선을 위한 첫걸음입니다.로그 설계의 비유:로그 설계는 유치원 선생님이 아이들의 행동을 체계적으로 관찰 일지에 기록하는 것과 유사..
R에서는 기본 그래픽 시스템과 ggplot2 외에도, 보다 고급화된 시각화를 위한 다양한 패키지를 제공합니다.이 중에서도 특히 lattice, shiny, plotly는 복잡한 데이터 시각화와 상호작용을 가능하게 하는 강력한 도구입니다.고급 시각화 기법Lattice 패키지lattice 패키지는 고급 다변량 그래프를 그릴 수 있도록 설계된 강력한 그래픽 시스템입니다. lattice는 ggplot2와 마찬가지로 "Trellis Graphics"라는 개념을 바탕으로 여러 변수의 상호작용을 시각화하는 데 중점을 둡니다. 다중 플롯이나 복잡한 데이터 구조를 시각화할 때 매우 유용합니다. xyplot() 함수: lattice의 기본 함수 중 하나로, 산점도(scatter plot)를 그립니다. ggplot2와 달리..
정규 분포(Normal Distribution)정의: 정규분포는 연속 확률 분포 중에 가장 일반적으로 많이 사용되는 분포입니다. 중심극한정리(CLT;Central limit theorem)에 의해 표본 평균의 분포가 정규분포를 따르게 되는 현상이 있어 통계학에서 매우 중요한 분포라고 할 수 있습니다.주요 특징:정규 분포는 평균과 분산이라는 두개의 모수(모집단의 특성)를 가지고 있습니다.평균 (μ, 평균): 분포의 중심을 나타냅니다. 평균이 클수록 정규 분포의 중심이 오른쪽으로 이동하며, 작을수록 왼쪽으로 이동합니다.분산 (σ², 분산): 데이터가 얼마나 퍼져 있는지를 나타냅니다.(분산은 편차의 제곱 합으로 단위가 평균과 다르다.)표준편차(σ, 표준편차) : 분산의 제곱근으로, 데이터가 평균으로부터 얼마나..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)A/B 테스트 결과 분석하기결론 도출하기(결과 분석 및 성과 판단 가이드)A/B 테스트 실험 기간이 끝나면 A 그룹과 B 그룹 간의 성과를 평가해야 합니다. 이 과정에서는 각 그룹별로 설정된 성공 지표를 비교하고, 그 차이가 통계적으로 유의미한지 판단하는 것이 중요합니다. 1. 전환율 계산전환율 확인: 각 그룹에 노출된 사용자 수를 분모로, 총 이벤트를 일으킨 사용자 수를 분자로 하여 전환율을 계산합니다.예: 클릭 수 대신 클릭 전환율, 주문 수 대신 주문 전환율 등 상대적인 전환율을 확인합니다.2. 개선율 계산그룹 간 비교: 그룹 A 대비 그룹 B의 성과 개선율을 계산합니..
ggplot2는 R의 시각화 패키지 중 가장 강력하고 유연한 도구로, 데이터를 시각적으로 효과적으로 표현할 수 있습니다.ggplot2는 그래프를 층(layer)으로 쌓아올리듯이 구성합니다.이 패키지는 "Grammar of Graphics"에 기반한 구조적인 접근 방식을 제공하여, 데이터를 효과적으로 시각화할 수 있도록 도와줍니다.ggplot2 패키지를 이용한 시각화기본 구조ggplot2의 시각화는 기본적으로 ggplot() 함수와 aes() 함수를 사용하여 시작됩니다.ggplot() 함수: 이 함수는 시각화를 시작하는 기본 틀을 만듭니다. ggplot()은 주로 데이터 프레임을 입력받고, 그 위에 여러 지오메트리 레이어(geom layers)를 추가하여 그래프를 완성합니다.aes() 함수: aesthet..
이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)A/B 테스트 시작하기목표 수립하기목표 수립의 중요성명확한 목표 설정: A/B 테스트에서 달성하고자 하는 목표가 명확해야 실험 결과를 제대로 해석할 수 있습니다.단일 목표 설정: 하나의 실험에서는 하나의 목표만 설정해야 합니다. 여러 목표를 동시에 설정하면 실험 설계와 결과 해석이 복잡해지고 어려워질 수 있습니다.목표 설정 방법정성적 목표:정의: 목표를 달성하기 위해 설정된 결과나 행동에 대한 설명입니다.예시: "사용자 경험을 개선한다", "사용자 만족도를 높인다"와 같은 목표.주의점: 정성적 목표만 설정하면 각자의 주관에 따라 해석이 달라질 수 있어, 어떤 안이 더 나은지..