위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.
(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)
6,7주차는 프로젝트로 위클리페이퍼를 작성하지 않았으며, 이번 8주차부터 다시 6번째 위클리페이퍼를 이어서 작성하게 되었습니다.
이번 6번째 위클리 페이퍼 주제는
1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.
2. 고유값(eigenvalue)과 고유벡터(eigenvector)에 대해 설명해 주세요. 이들이 데이터 분석에서 왜 중요한지 구체적인 예를 들어 설명해 주세요.
3. 히스토그램의 주요 단점은 무엇이며, 이를 극복하기 위한 대안적인 시각화 방법을 설명해 주세요.
이번 8주차 위클리 페이퍼의 첫 질문에서 생소할 수 있는 몇가지 개념을 간단히 설명한 후에 뒤에서 자세한 설명을 이어가도록 하겠습니다.
우선 질문부터 확인해보겠습니다.
데이터 간의 유사도를 계산할 때, feature의 수가 많다면, 발생하는 high-dimensional clustering 문제 해결 방법들을 설명해 주세요.
첫번째로, 'Feature(특성)'란 무엇인가?
특성은 데이터셋에서 각 데이터 포인트를 설명하는 속성이나 변수입니다. 각각의 특성은 우리가 데이터 포인트를 이해하고 비교하는 데 사용됩니다. 특성들은 데이터를 구체적으로 설명하며, 머신러닝 모델이 학습할 때 중요한 입력값이 됩니다.
(간단하게 데이터셋에서 열(컬럼)을 특성이라고 할 수 있습니다.)
두번째, '데이터 간의 유사도 계산'이란 무엇인가?
유사도 계산은 두 데이터 포인트가 얼마나 비슷한지 측정하는 과정입니다.
고차원 데이터에서는 많은 특성이 존재하기 때문에 유사도 계산이 복잡해질 수 있습니다.
이를 해결하는 몇 가지 방법이 있으며, 이를 밑에서 몇가지 설명하겠습니다.
- 차원 축소(Dimensionality Reduction):
- PCA(주성분 분석): 데이터를 변환하여 가장 중요한 특성만 남기고 나머지는 제거합니다. 이를 통해 데이터의 차원을 줄여 계산을 간단하게 만듭니다.
- t-SNE: 고차원 데이터를 저차원으로 변환하면서 데이터 포인트 간의 유사성을 최대한 보존합니다. 주로 데이터 시각화에 사용됩니다.
- UMAP: t-SNE와 유사하지만 더 빠르고 확장성이 좋습니다.
- 특성 선택 및 추출(Feature Selection and Extraction):
- Lasso Regression: 중요하지 않은 특성을 제거하고 중요한 특성만 선택합니다.
- 랜덤 포레스트: 특성 중요도를 평가하여 중요한 특성만 선택합니다.
- 적절한 거리 측정 방법 사용:
- 유클리드 거리: 두 점 사이의 직선 거리를 계산합니다.
- 코사인 유사도: 두 벡터 간의 각도를 계산하여 유사도를 측정합니다.
- 자카드 유사도: 두 집합 간의 유사도를 측정합니다.
세번째, '클러스터링'이란 무엇인가?
클러스터링은 데이터를 그룹으로 묶는 작업입니다. 고차원 데이터에서는 다음과 같은 클러스터링 방법을 사용할 수 있습니다:
- k-means 클러스터링: 데이터를 k개의 그룹으로 나누고, 각 그룹의 중심점을 찾아 데이터를 할당합니다.
- DBSCAN: 데이터의 밀도가 높은 부분을 클러스터로 정의합니다.
- Hierarchical Clustering: 데이터의 계층 구조를 이용하여 클러스터를 만듭니다.
- GMM : 데이터가 k 개의 정규분포에서 생성되었다고 가정하고 다변량 가우시안 분포의 평균과 공분산을 찾아가는 과정의 모델입니다.
위의 내용과 같이 특성(feature)은 데이터 포인트를 설명하는 속성입니다. 데이터 간의 유사도를 계산하고 고차원 데이터를 클러스터링하는 것은 많은 특성으로 인해 복잡할 수 있습니다. 이를 해결하기 위해 차원 축소, 특성 선택 및 추출, 적절한 거리 측정 방법 사용과 같은 기술을 사용할 수 있습니다. 이러한 기술들을 통해 고차원 데이터에서도 효과적으로 클러스터링을 수행할 수 있습니다.
지금부터 위의 개념을 기반으로 이번주차 위클리 페이퍼의 첫번째 주제를 설명하도록 하겠습니다.
1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요.
위에서 설명한대로, 데이터 분석가들이 고차원 데이터를 다루고 있을 때, 데이터의 특성이 많아지면 유사도를 계산하고 클러스터링을 수행하는 것이 매우 어려워진다는 문제에 직면하게 됩니다.
고차원 데이터를 다룰 때는 차원의 저주(curse of dimensionality) 문제를 겪기 쉬우며, 이는 모델의 성능과 분석의 정확도를 떨어뜨릴 수 있습니다.
예를 들어, 특성의 수가 100개 이상일 때, 두 데이터 포인트 사이의 거리 계산은 복잡해지고, 데이터 간의 관계를 제대로 이해하기 어렵게 됩니다. 이러한 문제를 해결하기 위해 우리는 밑과 같은 방법들을 사용할 수 있습니다.
차원 축소 (Dimensionality Reduction)
첫 번째로 사용할 수 있는 방법은 차원 축소입니다.
데이터에서 ‘차원’이란 변수의 개수를 의미하며, 변수가 1개인 데이터는 1차원 데이터, 변수가 2개인 데이터는 2차원 데이터, n개인 데이터는 n차원 데이터라고 부릅니다.
차원이 높은 데이터를 분석에 활용하면 더 많은 정보를 반영한 결과를 얻을 수 있기에 차원이 많은 데이터를 활용할 필요가 있습니다.
이렇게 데이터의 차원이 높아지면 많은 정보를 나타낼 수 있지만, 너무 많은 차원은 분석의 정확도를 떨어지는 결과를 불러 일으키며, 이를 ‘차원의 저주’라고 합니다.
그래서 차원의 저주를 해결하기 위해 차원 축소라는 방법을 사용하며, 차원 축소는 데이터를 구성하는 특성의 수를 줄여 계산을 단순화하고 효율성을 높이는 기술로, 크게 두 가지 접근법이 있습니다.
이는 차원 선택과 차원 추출입니다.
차원 선택
차원 선택은 다중공선성을 제거하기 위해 강한 상관성을 가진 특성을 제거하는 과정을 통해 분석하고자 하는 차원을 선택하는 방법입니다.
차원 선택은 데이터의 전체 차원 중 의미 있다고 판단되는 것들만 선택해 사용하는 방법을 통해 적용할 수 있습니다.
차원 추출
차원추출은 데이터를 가장 잘 설명하는 차원을 새롭게 생성하여 차원을 줄이는 방법이자 여러 변수의 특징을 종합적으로 나타내는 새로운 변수를 찾아 통합하는 방법입니다.
일반적으로 차원 추출 방법이 데이터를 설명하는 데 필요한 정보를 최대한 보존하고 차원 선택보다 상대적으로 나은 성능을 보이고 있어, 주된 차원 축소 방법으로 사용하고 있습니다.
이러한 차원 추출 방법의 종류에는 3가지가 있으며, 이를 밑에서 차례대로 설명하겠습니다.
- 주성분 분석 (PCA): PCA는 대표적인 차원 축소(정사영) 기법 중 하나로 여러 차원들의 특징을 가장 잘 설명해 주는 차원인 주성분을 이용하여 차원을 축소하는 방법입니다.
예를 들어, 고차원 공간의 데이터를 몇 개의 주요 성분으로 축약하여 데이터의 특성을 유지하면서도 차원을 줄이는 방식입니다. 이는 마치 방대한 서류 더미에서 가장 중요한 문서 몇 개만 추려내는 것과 비슷합니다.
주성분은 데이터들의 중심(원점)을 지나면서 모든 데이터들에서의 수직 거리의 합이 가장 가깝도록 하는 선을 말합니다. - t-SNE 및 UMAP: t-SNE와 UMAP은 고차원 데이터를 저차원 공간으로 변환하면서 데이터 포인트 간의 유사성을 최대한 보존하는 방법입니다. 특히, t-SNE는 데이터 시각화에 유용하며, UMAP은 속도와 확장성 면에서 장점을 가집니다.
고차원 데이터 클러스터링 기법
두번째 해결방법으로는, 고차원 데이터를 효과적으로 클러스터링하기 위해 특화된 클러스터링 알고리즘을 사용할 수 있습니다.
클러스터링에 대해 자세히 설명하면, 클러스터링은 데이터셋에서 유사한 특성을 가진 데이터 포인트들을 그룹으로 묶는 비지도 학습 방법이라고 할 수 있습니다.
- k-means 클러스터링: 데이터의 중심을 찾고, 각 데이터를 가장 가까운 중심에 할당합니다. 고차원 데이터에서는 PCA와 같은 차원 축소 방법과 함께 사용하는 것이 일반적입니다.
- DBSCAN (Density-Based Spatial Clustering of Applications with Noise): 밀도 기반 클러스터링 방법으로, 데이터의 밀도가 높은 부분을 클러스터로 정의합니다. 이는 복잡한 형태의 클러스터를 찾는 데 유용합니다.
- Hierarchical Clustering: 데이터의 계층 구조를 이용한 클러스터링 방법으로, 데이터 간의 유사도 매트릭스를 기반으로 합니다. 고차원 데이터에서는 메모리와 시간 복잡도가 증가할 수 있습니다.
- Gaussian Mixture Model (GMM): GMM은 데이터가 여러 개의 가우시안 분포를 따르는 혼합 모델로 가정하고, 각 데이터 포인트가 어느 가우시안 분포에 속하는지 확률적으로 결정합니다. 이는 데이터의 분포를 더 잘 설명할 수 있으며, 클러스터의 모양이 원형이 아닌 경우에도 효과적으로 클러스터링할 수 있습니다.
고차원 데이터를 다루는 경우에 유사도를 계산하고 클러스터링을 수행하는 것은 쉽지 않은 과정입니다.
그러나 차원 축소, 특성 선택 및 추출, 고차원 데이터 클러스터링 기법 등의 방법들을 통해 이 문제를 효과적으로 해결할 수 있습니다. 특히, k-means 클러스터링과 같은 기법은 데이터의 복잡한 분포를 잘 설명할 수 있어 유용합니다. 데이터 분석가들은 이러한 기술들을 활용하여 고차원 데이터에서도 유의미한 정보를 추출하고, 데이터 간의 유사도를 정확하게 계산하여 클러스터링을 성공적으로 수행할 수 있습니다.
8주차 위클리 페이퍼 두번째 질문의 고유값(eigenvalue)과 고유벡터(eigenvector)은 선형 대수에서 중요한 개념으로, 행렬의 특성과 구조를 이해하는 데 사용되는 개념입니다.
이 개념들은 데이터 분석에서 특히 주성분 분석(PCA)과 같은 차원 축소 기법에서 중요한 역할을 합니다.
밑에서 고유값과 고유벡터의 개념을 먼저 설명하고 난 후에 이 개념들이 활용되는 차원 축소 기법에서의 역할을 예시로 들며, 데이터 분석에서 왜 중요한지를 살펴보겠습니다.
2. 고유값(eigenvalue)과 고유벡터(eigenvector)에 대해 설명해 주세요. 이들이 데이터 분석에서 왜 중요한지 구체적인 예를 들어 설명해 주세요.
고유값과 고유벡터의 정의
- 고유값(Eigenvalue): 정방행렬 A에 대해, 행렬 A에 의해 변환된 벡터가 원래의 벡터의 스칼라 배가 되는 경우, 그 스칼라 값을 고유값 λ라고 합니다.
- 정방 행렬 A를 선형 변환으로 봤을 때, 선형 변환 A에 의한 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터의 상수배 값
- 고유벡터(Eigenvector): 정방행렬 A에 대해, 행렬 A에 의해 변환된 벡터가 원래의 벡터의 스칼라 배가 되는 벡터 v를 고유벡터라고 합니다.
- 정방 행렬 A를 선형 변환으로 봤을 때, 선형 변환 A에 의한 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터
- 고유값, 고유 벡터는 정방 행렬에 대해서만 정의될 수 있습니다.
고유값과 고유벡터는 다음과 같은 관계를 갖고 있습니다. Av = λv
- A는 정방행렬
- λ는 고유값,
- v는 고유벡터입니다.
즉, 정방 행렬 A에 대해서 Av = λv를 만족하는 0이 아닌 열벡터 v를 고유 벡터, 상수 λ를 고유값이라고 합니다.
고유값과 고유벡터의 의미
고유벡터는 변환 A에 의해 방향이 바뀌지 않는 벡터를 의미하며, 고유값은 그 변환 과정에서 벡터가 늘어나거나 줄어드는 배율을 의미합니다.
고유값과 고유벡터가 활용되는 PCA
고유값과 고유벡터는 데이터 분석에서 특히 차원 축소와 데이터의 패턴 인식에 중요한 역할을 하는데 이 중 가장 대표적인 예는 주성분 분석(PCA)입니다.
- PCA는 데이터의 분산을 최대화하는 새로운 축을 찾는 차원 축소 기법으로 데이터를 변환하여 가장 중요한 특성만 남기고 나머지는 제거합니다.
- 이를 통해 데이터의 주요 패턴을 파악하고, 데이터 시각화, 노이즈 제거, 압축 등의 목적으로 사용됩니다.
PCA 과정에서 고유값과 고유벡터의 역할:
1. 데이터 정규화: 각 특성의 평균을 0, 표준 편차를 1로 맞춥니다.
2. 공분산 행렬 계산: 데이터의 공분산 행렬을 계산합니다.
- 공분산 행렬 : 2 이상의 변량들에서, 두 변량 값들 간의 공분산 또는 상관계수들을 행렬로 표현한 것입니다.
여기서 A_i 와 B_i는 데이터 벡터, μ_A는 A와 B의 평균 벡터입니다.
3. 고유값과 고유벡터 계산: 공분산 행렬 C의 고유값과 고유벡터를 계산합니다.(C가 정방 행렬일 때만 고유값과 고유 벡터를 구할 수 있다)
4. 주성분 선택: 고유값이 큰 순서대로 몇 개의 주성분을 선택합니다. 고유값이 클수록 해당 고유벡터가 설명하는 분산이 큽니다.
5. 데이터 변환: 원래 데이터를 선택된 고유벡터(주성분) 공간으로 변환합니다.
이를 통해 차원이 축소된 데이터셋을 얻습니다. Z=XV여기서 Z는 변환된 데이터셋, X는 원래 데이터셋, V는 주성분 행렬입니다.
구체적인 예
예를 들어, 5개의 주식 종목으로 구성된 10일간의 주식 가격 데이터가 있다고 가정했을 때, 주식 시장 데이터를 PCA를 통해 분석하는 과정을 살펴보겠습니다. 이 데이터셋을 2차원으로 축소하고 싶다면 PCA를 사용할 수 있습니다.
- 데이터 표준화:
- 각 주식 종목의 가격을 평균 0, 표준 편차 1로 표준화합니다.
- 공분산 행렬 계산:
- 표준화된 데이터의 공분산 행렬을 계산합니다.
- 고유값과 고유벡터 계산:
- 공분산 행렬의 고유값과 고유벡터를 계산합니다.
- 주성분 선택:
- 고유값이 가장 큰 두 개의 고유벡터를 선택합니다. 이 두 고유벡터는 데이터의 가장 큰 분산을 설명합니다.
- 데이터 변환:
- 원래 데이터를 선택된 두 개의 고유벡터를 사용하여 2차원 데이터로 변환합니다.
두 개의 주성분으로 변환된 데이터를 시각화하면, 5개의 주식 종목 간의 주요 패턴을 더 쉽게 이해할 수 있습니다.
예를 들어, 첫 번째 주성분은 전체 시장의 상승/하락을 설명하고, 두 번째 주성분은 특정 산업 섹터의 변동을 설명할 수 있습니다.
고차원 데이터의 경우 위와 같은 일련의 과정을 통해, 우리는 데이터의 중요한 특성을 유지하면서도 차원을 줄여서 시각화하거나 분석할 수 있습니다.
고유값과 고유벡터는 데이터 분석, 특히 차원 축소와 패턴 인식에서 매우 중요한 역할을 합니다. 주성분 분석(PCA)과 같은 기법에서 고유값과 고유벡터를 사용하여 데이터의 주요 패턴을 추출하고, 이를 통해 데이터의 구조를 더 잘 이해하고 효율적으로 분석할 수 있습니다.
8주차 위클리 페이퍼 마지막 질문의 히스토그램은 데이터의 분포를 시각화하는 방법으로, 데이터를 일정한 구간(빈, bin)으로 나누고 각 구간에 속하는 데이터 포인트의 개수를 세어 막대 형태로 나타내는 그래프입니다.
밑에서 우선 히스토그램의 정의와 단점을 설명하고 난 후에 히스토그램의 단점을 보완하는 대안적인 시각화 방법에 대해 살펴보겠습니다.
3. 히스토그램의 주요 단점은 무엇이며, 이를 극복하기 위한 대안적인 시각화 방법을 설명해 주세요.
히스토그램의 개념
히스토그램은 연속형 데이터의 분포를 시각화하는 그래프입니다. 데이터를 일정한 구간(빈, bin)으로 나누고, 각 구간에 속하는 데이터 포인트의 개수를 세어 막대 형태로 나타냅니다. 각 막대의 높이는 해당 구간의 빈도(혹은 상대 빈도)를 나타내며, 이를 통해 데이터가 어떻게 분포되어 있는지 쉽게 파악할 수 있습니다.
히스토그램의 구성 요소
- 구간(빈, Bin): 데이터 범위를 일정한 간격으로 나눈 구간입니다.
각 구간의 크기는 동일하게 설정할 수 있으며, 구간의 개수와 크기는 분석자가 선택합니다. - 막대(Bar): 각 구간에 속하는 데이터 포인트의 개수를 나타내는 직사각형입니다.
막대의 높이는 해당 구간의 데이터 빈도를 나타냅니다. - 빈도(Frequency): 각 구간에 속하는 데이터 포인트의 개수입니다.
상대 빈도(relative frequency)를 사용하여 구간 내 데이터 비율을 표시할 수도 있습니다. - 축(Axis): X축은 데이터 값의 범위를 나타내고, Y축은 빈도(또는 상대 빈도)를 나타냅니다.
히스토그램의 장점
- 데이터 분포 시각화: 데이터를 시각적으로 표현하여 분포를 쉽게 이해할 수 있습니다.
- 중앙값과 분산 확인: 데이터의 중앙값과 분산을 확인하는 데 유용합니다.
- 비대칭성 확인: 데이터 분포의 비대칭성을 확인할 수 있습니다.
히스토그램의 주요 단점
- 빈의 크기에 대한 민감성:
- 히스토그램의 결과는 선택한 빈의 크기와 수에 따라 크게 달라질 수 있습니다. 적절하지 않은 빈 크기는 데이터 분포를 왜곡하거나, 지나치게 부드럽게 만들 수 있습니다.
- 세부 정보의 손실(원데이터의 손실):
- 히스토그램은 데이터를 빈으로 묶기 때문에 개별 데이터 포인트에 대한 세부 정보가 사라질 수 있습니다. 특히 작은 데이터셋에서는 데이터의 분포를 정확히 표현하지 못할 수 있습니다.
- 연속적인 데이터 표현의 어려움:
- 히스토그램은 이산적인 빈을 사용하므로, 연속적인 데이터 분포를 부드럽게 나타내기 어렵습니다.
- 데이터셋 간 비교의 어려움:
- 여러 데이터셋을 비교할 때, 히스토그램은 시각적으로 복잡해질 수 있습니다. 동일한 축을 사용하더라도, 겹치는 히스토그램은 해석하기 어려울 수 있습니다.
히스토그램의 단점을 보완하는 시각화 방법
- 커널 밀도 추정 (Kernel Density Estimation, KDE):
- 설명: KDE는 데이터의 분포를 부드럽게 추정하는 방법으로, 각 데이터 포인트 주위에 커널 함수(보통 가우시안)를 적용하여 전체 분포를 추정합니다.
- 장점: 연속적인 분포를 부드럽게 표현하며, 빈의 크기에 민감하지 않습니다. 데이터의 세부적인 분포를 더 잘 보여줍니다.
- 단점: 데이터가 많을 때 계산 비용이 증가할 수 있습니다.
- 누적 분포 함수 (Cumulative Distribution Function, CDF):
- 설명: CDF는 데이터 포인트가 특정 값 이하일 확률을 나타내는 함수입니다.
- 장점: 데이터의 전체 분포를 파악하는 데 유용하며, 서로 다른 데이터셋 간의 비교가 쉽습니다.
- 단점: 직관적으로 이해하기 어려울 수 있으며, 분포의 밀도를 직접 보여주지 않습니다.
- 박스 플롯 (Box Plot):
- 설명: 박스 플롯은 데이터의 사분위수를 이용해 분포를 시각화하며, 중앙값, 사분위 범위, 이상치를 보여줍니다.
- 장점: 데이터의 분포와 중심 경향, 이상치를 한눈에 파악할 수 있으며, 여러 데이터셋을 비교하기 용이합니다.
- 단점: 데이터의 전체 분포를 자세히 보여주지는 않으며, 히스토그램만큼의 세부 정보를 제공하지 않습니다.
- 바이올린 플롯 (Violin Plot):
- 설명: 바이올린 플롯은 박스 플롯과 KDE를 결합한 형태로, 데이터의 분포와 중심 경향을 동시에 시각화합니다.
- 장점: 데이터의 분포와 중심 경향을 모두 보여주며, 여러 데이터셋을 비교하기 좋습니다.
- 단점: 시각적으로 복잡할 수 있으며, 데이터의 분포가 비대칭일 때 해석이 어려울 수 있습니다.
- 도트 플롯 (Dot Plot):
- 설명: 각 데이터 포인트를 점으로 표시하여 분포를 시각화합니다.
- 장점: 데이터의 분포를 매우 자세하게 보여주며, 작은 데이터셋에 적합합니다.
- 단점: 데이터가 많을 때 점들이 겹쳐 보일 수 있습니다.
- 히트맵(Heatmap):
- 설명: 히트맵은 데이터 값에 따라 색상으로 표현하는 그래프입니다. 주로 2차원 데이터의 분포를 시각화하는 데 사용됩니다.
- 장점: 데이터의 패턴과 밀도를 직관적으로 파악할 수 있습니다.
- 단점: 색상 해석이 필요하며, 데이터 값이 클수록 시각적 구분이 어려울 수 있습니다.
- 그 외 러그 플롯(Rug Plot), 스웜 플롯(Swarm Plot), 스트립 플롯(Strip Plot), 리도그램(Ridgeline Plot)
히스토그램은 데이터 분포를 시각화하는 데 유용하지만, 빈의 선택에 민감하고 세부 정보를 잃어버릴 수 있는 단점이 있습니다.
이를 극복하기 위해 KDE, CDF, 박스 플롯, 바이올린 플롯, 도트 플롯 등의 대안적인 시각화 방법을 사용할 수 있습니다.
이러한 대안들은 데이터의 분포를 부드럽게 표현하거나, 중심 경향과 분포의 특징을 더 명확하게 시각화하는 데 도움이 됩니다.
'스프린트 > 위클리페이퍼' 카테고리의 다른 글
[#8] 스프린트 DA 트랙 10주차 위클리 페이퍼(AARRR 프레임워크, Funnel 분석, 코호트, 세그먼트, RFM 분석) (0) | 2024.08.21 |
---|---|
[#7] 스프린트 DA 트랙 9주차 위클리 페이퍼(장바구니 분석, 연관 규칙 평가 지표) (0) | 2024.08.14 |
[#5] 스프린트 DA 트랙 5주차 위클리 페이퍼(절대 경로와 상대 경로, Git, Branch) (0) | 2024.07.17 |
[#4] 스프린트 DA 트랙 4주차 위클리 페이퍼(클래스와 인스턴스, 정적 메소드) (0) | 2024.07.11 |
[#3] 스프린트 DA 트랙 3주차 위클리 페이퍼(데이터 전처리, t-test) (0) | 2024.07.03 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!