[생물정보학 기초] 06. 생물정보학을 위한 기초 지식 2️⃣ (프로그래밍, 통계, 협업)
생물정보학/생물정보학 기초2024. 7. 30. 23:56[생물정보학 기초] 06. 생물정보학을 위한 기초 지식 2️⃣ (프로그래밍, 통계, 협업)

이번 글은 생물정보학을 위한 기초 지식을 다루며 그 중에 프로그래밍, 통계 및 협업에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.프로그래밍생물정보학을 위한 프로그래밍에는 Python, R, Matlab, Julia, UNIX command가 사용됩니다.Python생물정보학을 위한 파이썬에서는 pandas, numpy, biopython과 같은 라이브러리를 주요하게 보는 것이 좋습니다.numpy와 pandas는 파이썬을 다루는 기초 라이브러리이기 때문에 지금은 biopython에 대한 설명만 간단하게 다루겠습니다.BiopythonBiopython은 생물정보학(생물학적 데이터 분석) 작업을 위한 Python 라이브러리 모음입니다.Biopython은 다양한..

[생물정보학 기초] 05. 생물정보학을 위한 기초 지식 1️⃣ (데이터 양식)
생물정보학/생물정보학 기초2024. 7. 30. 00:35[생물정보학 기초] 05. 생물정보학을 위한 기초 지식 1️⃣ (데이터 양식)

이번 글은 생물정보학을 위한 기초 지식을 다루며 그 중에 데이터 양식에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.데이터 양식생물정보학에서 사용하는 데이터 양식FASTA설명: DNA 및 단백질 서열 정보를 저장하는 기본 파일 형식으로, 설명 행과 서열 데이터로 구성됩니다.FASTQ설명: DNA 서열과 각 염기의 품질 정보를 네 줄로 저장하는 형식으로, 주로 차세대 시퀀싱 데이터에서 사용됩니다.SAM/BAM설명: DNA 서열을 참조 유전체에 매핑한 정보를 저장하는 형식으로, SAM은 텍스트 형식, BAM은 이진 형식입니다.VCF설명: 유전 변이 정보를 위치, 유형, 참고 유전체와의 차이를 포함하여 저장하는 형식입니다.BED설명: 유전자 위치, ChIP-..

[파이썬 개념 정리 13] Pandas의 DataFrame 마스터하기 3️⃣ (문자 데이터 가공하기, 숫자 데이터 가공하기)
프로그래밍 언어/Python2024. 7. 29. 23:53[파이썬 개념 정리 13] Pandas의 DataFrame 마스터하기 3️⃣ (문자 데이터 가공하기, 숫자 데이터 가공하기)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)문자 데이터 가공하기대소문자 처리하기데이터프레임을 다루다보면 숫자형 데이터 뿐만 아니라 문자형 데이터 또한 다뤄야 하는 상황을 겪게 됩니다.이러한 상황 속에서, pandas에서는 문자열 데이터를 처리하기 위해 편리한 메소드로 str.upper(), str.lower(), str.title(), str.capitalize() 등과 같은 주요 메소드를 제공합니다.# 데이터프레임에서 문자형 컬럼의 값들의 종류 확인하기df['column_name(categoric)'].unique()# 문자형 컬럼의 값을 확인할 때, 같은 범주인데도 대문자나 소문자로 다르게 표현된 경우, 컴퓨터는..

프로그래밍 언어/Python2024. 7. 28. 23:34[파이썬 개념 정리 12] Pandas의 DataFrame 마스터하기 2️⃣ (데이터 전처리)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)데이터 전처리결측값 찾기Pandas의 DataFrame에서 결측값을 찾는 방법은 여러 가지가 있으며, 이에 대한 방법을 밑에서 설명하도록 하겠습니다.결측값 : 데이터셋에서 값이 누락되었거나 정의되지 않은 값 (NA, NaN, None)info() 메소드 사용info() 메서드는 DataFrame의 각 컬럼에 대한 요약 정보를 제공하기 때문에 요약 정보에 포함된 비결측값(non-null) 개수를 통해 결측값의 유무를 확인할 수 있습니다.df.info()isnull() 또는 isna() 메소드 사용isnull() 메서드는 DataFrame이나 Series 내의 결측값을 True..

프로그래밍 언어/Python2024. 7. 28. 21:54[파이썬 개념 정리 11] Pandas의 DataFrame 마스터하기 1️⃣ (DataFrame의 기본)

이번 글은 코드잇 강의를 수강하면서 배운 내용을 주로 하여 정리되어 있습니다. (코드잇 스프린트 데이터 애널리스트 트랙 1기 훈련생)Pandas의 Dataframepandas를 사용하면 표 형태의 데이터인 데이터프레임을 불러와서 자유롭게 분석하고 가공할 수 있습니다.평소 주로 사용하는 데이터는 표 형태로, pandas를 사용하는 법을 알고 있다면, 업무나 일상에서 사용하는 다양한 데이터를 원하는 대로 분석할 수 있습니다.pandas의 장점이자 단점은 기능이 많다는 점입니다.(다양한 문법을 가짐)그래서 이번 정리에서는 pandas를 다루며 핵심적으로 필요한 문법만 정리할 예정으로, 이를 숙지한다면, 데이터를 능숙하게 다룰 수 있습니다.Pandas에서는 dataframe을 능숙하게 다루는 것이 중요합니다.D..

[생물정보학 기초] 04. 유전체 빅데이터의 소개
생물정보학/생물정보학 기초2024. 7. 27. 22:19[생물정보학 기초] 04. 유전체 빅데이터의 소개

이번 글은 유전적 조성과 원인 유전자 탐색에 대한 설명을 통해 생물정보학의 근간이 되는 유전체 빅데이터에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.유전적 조성유전체 데이터를 활용한 맞춤형 정밀의료 시대의 시작유전체 빅데이터를 이용한 맞춤형 정밀의료는 각 개인의 유전체 정보를 분석하여 그 사람에게 최적화된 치료법과 예방 전략을 제공하는 의료 접근 방식입니다.정의 및 개념정밀의료(Precision Medicine): 각 개인의 유전적, 환경적, 생활습관적 차이를 고려하여 최적화된 의료 서비스를 제공하는 접근 방식입니다.맞춤형 의료(Personalized Medicine): 개인의 유전체 정보를 바탕으로 질병 예방, 진단, 치료를 개인화하는 의료 방법입니..

생물정보학/생물정보학 기초2024. 7. 27. 12:06[생물정보학 기초] 03. 생물정보학의 개요 3️⃣ (알고리즘, 방법론, 시각화, 미래 전망, 추천 도서 및 자료)

이번 글은 생물정보학의 개요 세 번째 글로, 생물정보학의 알고리즘 및 방법론, 생물데이터 시각화, 생물정보학 미래 전망 및 도전 과제 그리고 추천 도서 및 자료에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.생물정보학 알고리즘 및 방법론서열 정리 알고리즘전역 정렬 (Global Alignment)Needleman-Wunsch 알고리즘목적: 두 서열 전체를 비교하여 최적의 정렬을 찾음.방법: 동적 프로그래밍을 사용하여 서열 간의 최적 일치 경로를 찾음.지역 정렬 (Local Alignment)Smith-Waterman 알고리즘목적: 서열의 부분 정렬을 찾아 가장 유사한 서브서열을 식별.방법: 동적 프로그래밍을 사용하여 특정 부분의 최적 정렬을 수행.구조 ..

생물정보학/생물정보학 기초2024. 7. 27. 01:05[생물정보학 기초] 02. 생물정보학의 개요 2️⃣ (기본 개념, 용어, 데이터베이스, 도구, 분석 기법, 응용 분야)

이번 글은 생물정보학의 개요 두 번째 글로, 생물정보학의 기본 개념과 용어, 생물정보학 데이터베이스 및 도구, 생물정보학 분석 기법 그리고 응용 분야에 대해 다루고 있습니다. 부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.생물정보학 기본 개념 및 용어생물정보학(Bioinformatics)은 생물학 데이터의 수집, 저장, 분석, 해석에 정보기술을 활용하는 학문으로 생물정보학에서 사용되는 기본 개념과 용어를 설명하도록 하겠습니다.기본 개념염기서열(Sequence)DNA 염기서열: DNA의 기본 단위인 아데닌(A), 사이토신(C), 구아닌(G), 티민(T)의 배열.RNA 염기서열: RNA의 기본 단위인 아데닌(A), 사이토신(C), 구아닌(G), 유라실(U)의 배열.유전자(Gene)..

300x250
image