[#6] 스프린트 DA 트랙 8주차 위클리 페이퍼(차원 축소, 고유값과 고유벡터, 히스토그램의 단점과 그 대안)
스프린트/위클리페이퍼2024. 8. 8. 00:50[#6] 스프린트 DA 트랙 8주차 위클리 페이퍼(차원 축소, 고유값과 고유벡터, 히스토그램의 단점과 그 대안)

위클리 페이퍼는 현재 훈련받고 있는 코드잇 스프린트 데이터 애널리스트 트랙에서 매주마다 훈련생 스스로 프로그래밍 언어, 데이터분석, 통계, 머신러닝 등 특정 주제에 대하여 심화 학습을 할 수 있도록 제출하는 과제입니다.(매주 2~3가지 주제를 스스로 알아보고 학습하여 관련된 내용을 정리하여 후에 취업 활동 간에 경험할 수 있는 기술 면접을 대비함)6,7주차는 프로젝트로 위클리페이퍼를 작성하지 않았으며, 이번 8주차부터 다시 6번째 위클리페이퍼를 이어서 작성하게 되었습니다. 이번 6번째 위클리 페이퍼 주제는1. 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering 문제를 해결하기 위한 방법들을 설명해 주세요. 2. 고..

생물정보학/생물정보학 기초2024. 8. 7. 20:08[생물정보학 기초] 07. 생물정보학의 미래 기술 동향

이번 글은 생물정보학의 다양한 기술을 다루며 현재와 미래에서 주요하게 적용할 수 있는 기술에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.현재 생물정보학의 발전 단계현재 생물정보학은 빠르게 발전하고 있으며, 다양한 연구와 기술이 융합되어 중요한 진보를 이루고 있습니다.생물정보학의 발전 단계를 몇 가지 주요 영역으로 나누어 밑에서 설명하겠습니다.데이터 생성 및 수집고속 유전체 시퀀싱 기술 발전으로 대규모 유전체 데이터 생성다중오믹스 데이터 수집 능력 향상데이터 저장 및 관리Ensembl, NCBI, UCSC Genome Browser 등 대형 데이터베이스 구축클라우드 컴퓨팅을 통한 대규모 데이터 저장 및 분석데이터 분석 및 해석유전체 정렬 및 분석 알고리..

프로그래밍/Git2024. 8. 6. 23:16Git 협업하기 개념 정리 1️⃣ (Git을 통한 협업)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Git을 통한 협업Git을 통한 협업 개요협업 과정은 프로젝트 규모가 작을 때는 문제가 없지만, 프로젝트의 규모가 커지다 보면 협업 과정 중에서 여러 문제들이 발생합니다.협업에 관해 문제들이 발생하고 이를 해결하지 못한다면, 프로젝트 참여자들의 생산성이 눈에 띄게 낮아지고, 프로젝트의 성공 여부도 불투명해지게 됩니다.협업 실패의 원인Git과 GitHub에 대한 이해 부족: 이 도구들은 소스 코드 버전 관리와 협업을 효율적으로 관리하기 위해 필수적입니다. 그러나 이를 제대로 사용하지 못하면 코드 충돌, 버그 발생, 브랜치 관리 실패 등의 문제가 발생합니다.커뮤니케이션 스킬 부..

[Excel 개념 정리 4]엑셀을 활용한 추론 통계 개념 정리 4️⃣ (데이터 분석)
프로그래밍/Excel2024. 8. 5. 23:13[Excel 개념 정리 4]엑셀을 활용한 추론 통계 개념 정리 4️⃣ (데이터 분석)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)이번 글에서는 엑셀에서의 데이터 전처리에 이어 데이터 분석에 대한 내용 정리를 하려고 합니다.이번 글에서는 엑셀에서 하는 기술 통계, t-test, 분산 분석과 회귀 분석에 대한 내용을 다룰 예정입니다.엑셀에서의 데이터 분석엑셀에서의 데이터 분석에 대해 기술 통계 분석 / t검정 / 분산 분석(AVONA) / 회귀 분석(regression anlaysis) 4가지 방법을 소개하겠습니다.엑셀에서는 위 4가지 분석을 포함한 다양한 데이터 분석 툴을 Analaysis Toolpak 이라는 이름으로 자체적으로 제공하고 있습니다.엑셀에서의 데이터 분석은 데이터 전처리가 먼저 선행된 ..

프로그래밍/데이터 분석2024. 8. 4. 17:12[데이터 분석 심화 개념] 차원 축소 개념 정리

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)차원 축소란?차원 축소데이터에서 ‘차원’이란 변수의 개수를 의미합니다.변수가 1개인 데이터는 1차원 데이터, 변수가 2개인 데이터는 2차원 데이터, n개인 데이터는 n차원 데이터라고 부릅니다.예를 들어, 고객 정보 데이터에서 변수가 6개인 경우, 각 변수는 고객의 다양한 특성을 나타냅니다.차원이 높은 데이터를 분석에 활용하면 더 많은 정보를 반영한 결과를 얻을 수 있기에 차원이 많은 데이터를 활용할 필요가 있습니다.이렇게 데이터의 차원이 높아지면 많은 정보를 나타낼 수 있지만, 너무 많은 차원은 분석의 정확도를 떨어지는 결과를 불러 일으키며, 이를 ‘차원의 저주’라고 합니다..

프로그래밍/데이터 분석2024. 8. 4. 02:27[데이터 분석 심화 개념] 클러스터링 개념 정리 3️⃣ (다양한 클러스터링 모델)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)다양한 클러스터링 모델다양한 클러스터링의 종류계층 기반 클러스터링 (Hierarchical Clustering)기본 아이디어: 유사한 데이터를 묶은 클러스터들을 층으로 쌓아가며 클러스터링을 합니다.(계층 구조 바탕)장점: 데이터 간의 관계를 시각화된 결과물을 통해 쉽게 파악할 수 있으며, 원하는 수의 클러스터로 간단하게 구분 가능합니다.밀도 기반 클러스터링 (Density-Based Clustering)기본 아이디어: 밀도가 높은 부분을 같은 클러스터로 묶어 나감. 클러스터 내의 데이터들은 밀집되어 있습니다.장점: 기하학적인 형태의 데이터를 클러스터링할 때 효과적입니다.분포..

[데이터 분석 심화 개념] 클러스터링 개념 정리 2️⃣ (K-Means)
프로그래밍/데이터 분석2024. 8. 4. 02:24[데이터 분석 심화 개념] 클러스터링 개념 정리 2️⃣ (K-Means)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)K-MeansK-Means란?K-Means는 k개의 클러스터로 나누고, 각 클러스터의 중심을 반복적으로 갱신하여 최적의 클러스터 구성을 찾는 알고리즘입니다.K-Means의 기본 개념은 유사한 데이터는 Centroid(중심점)로부터 가까이에 모여있다는 점입니다.k-means 클러스터링 동작 과정Centroid 배치 :클러스터 개수 k를 설정합니다. (예시: k=2)k만큼의 Centroid를 생성하여 임의로 배치합니다.클러스터 형성 :각 데이터와 Centroid 사이의 거리를 계산하여, 가까운 Centroid에 데이터들을 할당하여 클러스터를 형성합니다.Centroid 위치 갱신..

프로그래밍/데이터 분석2024. 8. 4. 01:30[데이터 분석 심화 개념] 클러스터링 개념 정리 1️⃣ (지도학습 및 비지도학습, 클러스터링)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)지도학습과 비지도학습지도학습과 비지도학습은 기계학습의 두 가지 주요 방법론입니다. 이들은 데이터를 학습시키는 방식과 목표에 따라 차이점을 가집니다.기계학습은 데이터를 사용하여 모델을 학습시키고 예측, 분류, 패턴 인식 등의 작업을 수행하는 인공지능의 한 분야입니다.기계학습은 주로 세 가지 지도학습, 비지도학습, 그리고 강화학습과 같은 범주로 나눌 수 있습니다.각 범주는 데이터의 라벨링 여부와 학습 방법에 따라 구분됩니다.지도학습지도학습은 라벨이 있는 데이터를 사용하여 모델을 학습시키는 방법(입력 데이터와 정답 레이블이 쌍으로 주어진 데이터를 학습하는 방법)입니다.즉, 각 입..

300x250
image