프로그래밍 언어/Python2024. 8. 2. 01:20[파이썬 개념 정리 18] scipy 라이브러리

이번 글 또한 내용 공유의 목적이 아닌 scikit-learn 라이브러리에 대해 언제든 내용을 확인할 수 있게 만든 노트 목적의 글입니다.다른 분들도 필요하다면 언제든 참고하셔도 좋습니다.scipy란?SciPy는 파이썬을 위한 오픈 소스 라이브러리로, 과학 기술 계산을 위한 다양한 수치 알고리즘과 도구를 제공합니다.수치적 선형 대수, 통계, 최적화, 신호 처리 등 다양한 과학적 계산 작업을 수행하는 데 유용합니다.역사 및 배경SciPy는 2001년 Travis Oliphant와 다른 기여자들에 의해 시작되었습니다.NumPy와 긴밀히 연동되며, 특히 과학 및 공학 분야의 연구자와 개발자들 사이에서 널리 사용되고 있습니다.설치 방법SciPy은 pip을 통해 간단하게 설치할 수 있습니다.다음 명령어를 통해 설..

프로그래밍 언어/Python2024. 8. 2. 01:10[파이썬 개념 정리 17] scikit-learn 라이브러리

이번 글은 내용 공유의 목적이 아닌 scikit-learn 라이브러리에 대해 언제든 내용을 확인할 수 있게 만든 노트 목적의 글입니다.다른 분들도 필요하다면 언제든 참고하셔도 좋습니다.scikit-learn이란?scikit-learn은 Python을 위한 오픈 소스 머신러닝 라이브러리입니다.다양한 분류, 회귀, 클러스터링 알고리즘뿐만 아니라 전처리, 모델 선택 및 평가를 위한 도구들을 제공합니다.단순하면서도 강력한 API 덕분에 데이터 과학자와 엔지니어들이 손쉽게 머신러닝 모델을 구현하고 실험할 수 있습니다.역사 및 배경scikit-learn은 2007년 David Cournapeau가 Google Summer of Code 프로젝트로 시작했습니다.이후 여러 개발자들의 기여를 통해 발전해왔으며, 현재는 ..

프로그래밍 언어/Python2024. 8. 1. 23:21[파이썬 개념 정리 16] Pandas의 DataFrame 마스터하기 6️⃣ (그룹별로 분석하기)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)그룹별로 분석하기GroupbyPandas의 groupby는 데이터프레임의 데이터를 특정 기준으로 그룹화하고, 그룹별로 요약 통계나 다른 연산을 수행할 수 있는 매우 유용한 기능입니다.groupby를 사용하려면, 먼저 데이터프레임을 특정 열을 기준으로 그룹화합니다.그런 다음, 각 그룹에 대해 집계 함수(예: 합계, 평균, 개수 등)를 적용할 수 있습니다.자주 사용하는 집계 함수sum() : 그룹별 합계를 계산합니다.mean() : 그룹별 평균을 계산합니다.count() : 그룹별 항목 수를 계산합니다.max(), min() : 그룹별 최대값과 최소값을 계산합니다.import ..

프로그래밍 언어/Python2024. 8. 1. 00:00[파이썬 개념 정리 15] Pandas의 DataFrame 마스터하기 5️⃣ (데이터 합치기)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 합치기같은 형식의 데이터 합치기 : concat()pandas에서 concat() 함수는 여러 데이터프레임(DataFrame)이나 시리즈(Series)를 하나로 합칠 때 사용됩니다.concat() 함수를 사용하면 단순히 데이터프레임을 세로 또는 가로로 이어 붙일 수 있습니다.concat() 함수의 주요 인자들objs : 합칠 객체들(리스트나 딕셔너리 형태로 전달). 데이터프레임이나 시리즈가 될 수 있습니다.axis : 결합할 축을 지정. 0은 세로(행을 따라 결합), 1은 가로(열을 따라 결합). 기본값은 0.join : 결합 방법을 지정. inner와 outer가 ..

프로그래밍 언어/Python2024. 7. 31. 00:08[파이썬 개념 정리 14] Pandas의 DataFrame 마스터하기 4️⃣ (날짜와 시간 데이터 다루기)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)날짜와 시간 데이터 다루기데이터 분석을 하다 보면 날짜와 시간 데이터를 다루어야 하는 경우가 자주 있습니다. 예를 들어, 데이터프레임의 컬럼에 연, 월, 일과 같은 데이터가 들어가 있을 수도 있고, 시, 분, 초와 같은 데이터가 들어가 있을 수도 있습니다. 날짜와 시간 데이터를 효과적으로 다루기 위해서는 데이터 타입을 적절하게 설정하는 것이 중요합니다.날짜와 시간을 위한 데이터 타입 설정하기문자열로 저장된 날짜와 시간 데이터를 pandas에서 제공하는 to_datetime 함수를 사용하여 datetime 타입으로 변환할 수 있습니다.이렇게 하면 날짜와 시간을 편리하게 다룰 ..

[생물정보학 기초] 06. 생물정보학을 위한 기초 지식 2️⃣ (프로그래밍, 통계, 협업)
생물정보학/생물정보학 기초2024. 7. 30. 23:56[생물정보학 기초] 06. 생물정보학을 위한 기초 지식 2️⃣ (프로그래밍, 통계, 협업)

이번 글은 생물정보학을 위한 기초 지식을 다루며 그 중에 프로그래밍, 통계 및 협업에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.프로그래밍생물정보학을 위한 프로그래밍에는 Python, R, Matlab, Julia, UNIX command가 사용됩니다.Python생물정보학을 위한 파이썬에서는 pandas, numpy, biopython과 같은 라이브러리를 주요하게 보는 것이 좋습니다.numpy와 pandas는 파이썬을 다루는 기초 라이브러리이기 때문에 지금은 biopython에 대한 설명만 간단하게 다루겠습니다.BiopythonBiopython은 생물정보학(생물학적 데이터 분석) 작업을 위한 Python 라이브러리 모음입니다.Biopython은 다양한..

[생물정보학 기초] 05. 생물정보학을 위한 기초 지식 1️⃣ (데이터 양식)
생물정보학/생물정보학 기초2024. 7. 30. 00:35[생물정보학 기초] 05. 생물정보학을 위한 기초 지식 1️⃣ (데이터 양식)

이번 글은 생물정보학을 위한 기초 지식을 다루며 그 중에 데이터 양식에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.데이터 양식생물정보학에서 사용하는 데이터 양식FASTA설명: DNA 및 단백질 서열 정보를 저장하는 기본 파일 형식으로, 설명 행과 서열 데이터로 구성됩니다.FASTQ설명: DNA 서열과 각 염기의 품질 정보를 네 줄로 저장하는 형식으로, 주로 차세대 시퀀싱 데이터에서 사용됩니다.SAM/BAM설명: DNA 서열을 참조 유전체에 매핑한 정보를 저장하는 형식으로, SAM은 텍스트 형식, BAM은 이진 형식입니다.VCF설명: 유전 변이 정보를 위치, 유형, 참고 유전체와의 차이를 포함하여 저장하는 형식입니다.BED설명: 유전자 위치, ChIP-..

[파이썬 개념 정리 13] Pandas의 DataFrame 마스터하기 3️⃣ (문자 데이터 가공하기, 숫자 데이터 가공하기)
프로그래밍 언어/Python2024. 7. 29. 23:53[파이썬 개념 정리 13] Pandas의 DataFrame 마스터하기 3️⃣ (문자 데이터 가공하기, 숫자 데이터 가공하기)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)문자 데이터 가공하기대소문자 처리하기데이터프레임을 다루다보면 숫자형 데이터 뿐만 아니라 문자형 데이터 또한 다뤄야 하는 상황을 겪게 됩니다.이러한 상황 속에서, pandas에서는 문자열 데이터를 처리하기 위해 편리한 메소드로 str.upper(), str.lower(), str.title(), str.capitalize() 등과 같은 주요 메소드를 제공합니다.# 데이터프레임에서 문자형 컬럼의 값들의 종류 확인하기df['column_name(categoric)'].unique()# 문자형 컬럼의 값을 확인할 때, 같은 범주인데도 대문자나 소문자로 다르게 표현된 경우, 컴퓨터는..

300x250
image