이번 글은 생물정보학을 위한 기초 지식을 다루며 그 중에 데이터 양식에 대해 다루고 있습니다.
부족한 점이 많겠지만, 너그러운 마음으로 가볍게 읽어주시면 감사하겠습니다.
데이터 양식
생물정보학에서 사용하는 데이터 양식
- FASTA
- 설명: DNA 및 단백질 서열 정보를 저장하는 기본 파일 형식으로, 설명 행과 서열 데이터로 구성됩니다.
- FASTQ
- 설명: DNA 서열과 각 염기의 품질 정보를 네 줄로 저장하는 형식으로, 주로 차세대 시퀀싱 데이터에서 사용됩니다.
- SAM/BAM
- 설명: DNA 서열을 참조 유전체에 매핑한 정보를 저장하는 형식으로, SAM은 텍스트 형식, BAM은 이진 형식입니다.
- VCF
- 설명: 유전 변이 정보를 위치, 유형, 참고 유전체와의 차이를 포함하여 저장하는 형식입니다.
- BED
- 설명: 유전자 위치, ChIP-seq 피크, 기능적 요소 등의 유전체 정보를 저장하는 형식입니다.
- GFF/GTF
- 설명: 유전자 주석 정보를 저장하는 형식으로, 유전자의 위치와 구조 정보를 포함합니다.
- CRAM
- 설명: SAM/BAM 파일의 압축된 형태로, 참조 유전체를 이용해 데이터를 효율적으로 저장합니다.
- BEDGraph/WIG
- 설명: 유전체의 특정 위치에서의 정량적 데이터를 저장하는 형식으로, 유전자 발현 수준 등을 표현합니다.
- AGP
- 설명: 유전체 어셈블리 정보를 저장하는 형식으로, 컨티그와 스캐폴드의 구조적 정보를 포함합니다.
- PSL
- 설명: BLAT 프로그램의 서열 정렬 결과를 저장하는 형식으로, 서열 간의 상동성을 분석합니다.
- GVCF
- 설명: VCF 파일의 확장으로, 모든 유전체 위치에 대한 변이 및 비변이 정보를 포함합니다.
이 요약된 정보들은 생물정보학 연구에서 데이터 저장 및 분석에 필수적인 형식들로, 각 데이터 형식은 특정한 분석 요구에 맞추어 설계되었습니다.
FASTA
FASTA는 유전자 서열 데이터(DNA, RNA)와 단백질 서열 데이터를 저장하는 파일 형식입니다. 가장 기본적이고 널리 사용되는 서열 데이터 형식입니다.
구조
각 서열 데이터(유전자, 단백질)는 두 부분으로 구성됩니다.
- 헤더 라인: '>' 문자로 시작하며, 서열에 대한 식별자(ID)와 설명을 포함합니다. 예: >seq1 description of sequence 1
- 서열 라인: 실제 서열 데이터를 포함하며, 여러 줄로 나뉠 수 있습니다. 서열은 일반적으로 대문자로 표기됩니다.
# 서열 라인 예시
ATGCTAGCTAGCTCGATCGATCGTAGCTAGCTAGCTCGATCGATCG
TAGCTAGCTCGATCGTAGCTAGCTCGATCGATCGATCGTAGCTAG
FASTA 전체 구조 예시
>seq1 Homo sapiens chromosome 1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTGACTGACTGACTGACTGACTGACTG
GACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTG
>seq2 Mus musculus gene ABC
TTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTG
GACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACT
>seq3 Escherichia coli protein XYZ # 아미노산 서열
MKKFFDSRREILVGVVRKNKTLDVEAERILDSRIGKELGDAIEGKLVIHSL
GDIGTDSVRTIKELGDLVSAVEEDLAKAKRIEIKKELEEVRDTEETIKKI
FASTA의 장점
- 단순성: 읽기 쉽고 편집하기 쉬운 형식입니다.
- 유연성: DNA, RNA, 단백질 서열 모두를 저장할 수 있습니다.
- 호환성: 다양한 생물정보학 소프트웨어와 호환됩니다.
용도
- 서열 데이터 저장: 유전자나 단백질 서열을 저장하고 공유하는 데 사용됩니다.
- 서열 분석: 서열 정렬, 유전자 예측, 서열 검색 등 다양한 생물정보학 분석에 사용됩니다.
- 데이터베이스: 유전체 데이터베이스와 단백질 데이터베이스에서 서열 데이터를 저장하는 표준 형식입니다.
FASTA 형식은 그 단순성과 효율성 때문에 생물정보학에서 가장 기본적이고 널리 사용되는 데이터 형식 중 하나입니다.
FASTAQ
FASTQ는 DNA 서열 데이터와 각 염기의 품질 점수를 함께 저장하는 파일 형식입니다.
주로 차세대 염기서열 분석(NGS)에서 사용되며, 서열 데이터의 품질을 평가하는 데 중요한 역할을 합니다.
구조
각 서열 데이터(읽기, read)는 네 부분으로 구성됩니다.
- 헤더 라인: '@' 문자로 시작하며, 서열에 대한 식별자(ID)와 설명을 포함합니다.
예: @seq1 description of sequence 1 - 서열 라인: 실제 서열 데이터를 포함하며, 일반적으로 대문자로 표기됩니다.
예: ATGCTAGCTAGCTCGATCGATCGTAGCTAG - 플러스 라인: '+' 문자로 시작하며, 서열의 헤더 라인을 다시 포함하거나 생략할 수 있습니다.
예: + - 품질 점수 라인(Quality scores): 서열 라인과 동일한 길이로 각 염기의 품질 점수를 ASCII 문자로 표현합니다.
예: IIIIIIIIIIIIIIIIIIIIIIIIIIIIII
FASTAQ 전체 구조 예시
@seq1 Homo sapiens sample 1
ATGCGTACGTAGCTAGCTAGCTAGCTAGCTGACTGACTGACTGACTGACTGACTG
+
IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII
@seq2 Mus musculus sample 2
TTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTGACTG
+
JJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJ
@seq3 Escherichia coli sample 3
MKKFFDSRREILVGVVRKNKTLDVEAERILDSRIGKELGDAIEGKLVIHSL
+
KKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKKK
FASTAQ 장점
- 품질 정보 포함: 각 염기의 품질 점수를 저장하여 데이터의 신뢰성을 평가할 수 있습니다.
- 표준 형식: NGS 데이터 분석에서 표준 형식으로 사용됩니다.
- 호환성: 다양한 생물정보학 소프트웨어와 호환됩니다.
용도
- 차세대 염기서열 분석(NGS): 시퀀싱 데이터를 저장하고 품질을 평가하는 데 사용됩니다.
- 서열 정렬: 품질 점수를 고려한 서열 정렬 및 분석에 사용됩니다.
- 데이터베이스: 시퀀싱 데이터베이스에서 서열 데이터와 품질 점수를 저장하는 표준 형식입니다.
FASTQ 형식은 품질 정보를 포함한 서열 데이터를 효율적으로 저장할 수 있어, 차세대 염기서열 분석에서 널리 사용되는 데이터 형식 중 하나입니다.
SAM/BAM
SAM (Sequence Alignment/Map)과 BAM (Binary Alignment/Map)은 DNA 서열 데이터를 참조 유전체에 매핑한 정보를 저장하는 파일 형식입니다. SAM은 텍스트 형식이고, BAM은 SAM 파일의 이진(binary) 형식으로, 저장 공간을 절약하고 데이터 처리 속도를 향상시킵니다.
구조
SAM 파일은 헤더 섹션과 본문 섹션으로 구성됩니다.
- 헤더 섹션: @ 문자로 시작하며, 파일의 전반적인 정보를 포함합니다. 예를 들어, 참조 유전체의 이름과 길이, 정렬 프로그램 정보 등을 포함합니다.
@HD VN:1.0 SO:coordinate
@SQ SN:chr1 LN:248956422
- 본문 섹션: 각 라인은 하나의 읽기(read)와 그에 대한 매핑 정보를 포함합니다. 필드는 탭(\\t)으로 구분됩니다.
- QNAME: 읽기 이름 (query name)
- FLAG: 정렬 상태를 나타내는 플래그
- RNAME: 참조 유전체의 이름
- POS: 1-기반 참조 위치
- MAPQ: 매핑 품질 점수
- CIGAR: 매핑된 시퀀스의 길이와 유형
- RNEXT: 다음 읽기의 참조 이름
- PNEXT: 다음 읽기의 1-기반 위치
- TLEN: 템플릿 길이
- SEQ: 서열 데이터
- QUAL: 품질 점수
- TAGs: 추가적인 정보
read001 0 chr1 7 60 8M * 0 0 GATTACA * AS:i:0 XS:i:0
read002 0 chr1 9 60 8M * 0 0 CTGAAGCT * AS:i:0 XS:i:0
SAM 전체 구조 예시
@HD VN:1.0 SO:coordinate
@SQ SN:chr1 LN:248956422
@SQ SN:chr2 LN:242193529
read001 0 chr1 7 60 8M * 0 0 GATTACA *
read002 0 chr1 9 60 8M * 0 0 CTGAAGCT *
read003 0 chr2 15 60 8M * 0 0 TGACGACA *
장점
- 정렬 정보 포함: 읽기 데이터를 참조 유전체에 매핑한 결과를 저장합니다.
- 호환성: 다양한 정렬 및 분석 소프트웨어와 호환됩니다.
- 이진 형식(BAM): SAM 파일을 더 효율적으로 저장할 수 있으며, 대규모 데이터의 처리 속도를 향상시킵니다.
용도
- 시퀀싱 데이터 분석: DNA 서열 데이터를 참조 유전체에 매핑한 후, 다양한 분석에 사용됩니다.
- 변이 탐지: 정렬 데이터를 기반으로 유전체 변이를 탐지하는 데 사용됩니다.
- 데이터 공유: 정렬된 시퀀싱 데이터를 저장하고 공유하는 표준 형식입니다.
SAM/BAM 형식은 DNA 서열 데이터를 참조 유전체에 정렬하고, 그 결과를 효율적으로 저장할 수 있어, 생물정보학에서 널리 사용되는 데이터 형식입니다.
VCF
VCF(Variant Call Format)는 유전 변이 정보를 저장하는 파일 형식으로, 각 변이에 대한 위치, 유형, 참고 유전체와의 차이 등을 포함합니다. 유전체 변이 분석의 표준 형식으로 널리 사용됩니다.
구조
VCF 파일은 헤더 섹션과 본문 섹션으로 구성됩니다.
- 헤더 섹션: # 문자로 시작하며, 파일 형식, 참조 유전체, 변이 형식 등에 대한 정보를 포함합니다.
##fileformat=VCFv4.2##source=myvariantcaller##reference=hg19#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT
sample1 sample2
- 본문 섹션: 각 라인은 하나의 변이 정보를 포함합니다. 필드는 탭(\t)으로 구분됩니다.
- CHROM: 변이가 위치한 염색체
- POS: 변이의 1-기반 위치
- ID: 변이의 식별자 (있을 경우)
- REF: 참조 서열
- ALT: 변이 서열
- QUAL: 변이의 품질 점수
- FILTER: 변이에 적용된 필터
- INFO: 추가적인 정보 (예: 변이 유형, 영향 등)
- FORMAT: 각 샘플에 대한 서식
- sample columns: 각 샘플에 대한 변이 정보
chr1 123456 . G A 50 PASS DP=100;AF=0.5 GT:AD:DP 0/1:50,50:100 0/0:100,0:100
chr2 789101 . T C 99 PASS DP=200;AF=0.25 GT:AD:DP 1/1:0,200:200 0/1:150,50:200
VCF 전체 구조 예시
##fileformat=VCFv4.2
##source=myvariantcaller
##reference=hg19
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT sample1 sample2
chr1 123456 . G A 50 PASS DP=100;AF=0.5 GT:AD:DP 0/1:50,50:100 0/0:100,0:100
chr2 789101 . T C 99 PASS DP=200;AF=0.25 GT:AD:DP 1/1:0,200:200 0/1:150,50:200
장점
- 표준화: 유전체 변이 정보를 일관되게 저장할 수 있는 표준 형식입니다.
- 확장성: 추가적인 정보와 다양한 형식을 지원하여 유연하게 사용할 수 있습니다.
- 호환성: 다양한 유전체 분석 소프트웨어와 호환됩니다.
용도
- 변이 분석: 유전체 내 변이를 탐지하고 분석하는 데 사용됩니다.
- 유전체 데이터베이스: 변이 정보를 저장하고 공유하는 데 사용됩니다.
- 연구 및 임상 적용: 유전 질환 연구 및 임상 진단에 중요한 역할을 합니다.
VCF 형식은 변이 정보를 체계적으로 저장하고 분석할 수 있어, 유전체 연구 및 변이 분석에 필수적인 데이터 형식입니다.
Genome annotation
유전체 주석은 유전체 서열에서 유전자의 위치, 기능, 구조 등을 식별하고 기술하는 과정입니다.
유전체 주석은 유전체 데이터를 해석하고, 유전자의 기능과 관련된 생물학적 정보를 추출하는 데 필수적입니다.
주요 단계
- 유전자 예측 (Gene Prediction):
- 설명: 유전체 서열에서 단백질 코딩 유전자와 비코딩 유전자를 식별합니다.
- 방법: 컴퓨터 알고리즘과 실험 데이터를 사용하여 유전자의 엑손, 인트론, 프로모터 등을 예측합니다.
- 기능 주석 (Functional Annotation):
- 설명: 예측된 유전자의 기능을 결정하고 설명합니다.
- 방법: 유전자 서열을 기존의 데이터베이스와 비교하여 유전자 기능, 단백질 도메인, 생물학적 경로 등을 기술합니다.
- 구조적 주석 (Structural Annotation):
- 설명: 유전자의 구조적 특징을 기술합니다.
- 방법: 유전자의 시작 위치, 종료 위치, 엑손-인트론 구조, 스플라이싱 변이 등을 결정합니다.
방법론
- 비교 유전체학 (Comparative Genomics):
- 설명: 다른 종의 유전체와 비교하여 유사한 유전자를 식별합니다.
- 장점: 진화적으로 보존된 유전자를 식별하는 데 유용합니다.
- 실험적 데이터 통합 (Experimental Data Integration):
- 설명: RNA 시퀀싱, 단백질 분석 등의 실험 데이터를 통합하여 주석을 보강합니다.
- 장점: 예측의 정확성을 높이고, 기능적 정보를 추가합니다.
- 데이터베이스 사용 (Database Utilization):
- 설명: RefSeq, Ensembl, UniProt 등의 데이터베이스를 활용하여 주석을 작성합니다.
- 장점: 기존의 검증된 데이터를 사용하여 신뢰성을 높입니다.
도구 및 소프트웨어
- Glimmer: 유전자 예측 도구.
- Augustus: 정확한 유전자 예측을 위한 도구.
- BLAST: 서열 비교를 통한 유전자 기능 예측 도구.
- InterProScan: 단백질 도메인 및 기능 예측 도구.
- AnnotSV: 구조 변이 주석 도구.
중요성
- 유전자 기능 이해: 유전자 주석은 유전자 기능을 이해하고, 질병과 관련된 유전자를 식별하는 데 필수적입니다.
- 생물학적 연구: 유전체 데이터를 기반으로 한 생물학적 연구의 기초를 제공합니다.
- 의료 및 농업: 유전자 주석은 개인 맞춤형 의료, 유전자 치료, 작물 개선 등 다양한 분야에 활용됩니다.
이번 글에서는 생물정보학의 기초 지식 중 하나인 데이터 양식에 대해 설명하는 시간을 가졌습니다. 다양한 데이터 양식을 이해함으로써, 생물정보학 연구에 필요한 데이터를 효과적으로 저장하고 분석하는 방법을 배울 수 있었습니다. 유전자 서열을 저장하는 FASTA부터, 유전 변이 정보를 담는 VCF, 정렬 데이터를 관리하는 SAM/BAM까지, 각 데이터 형식은 생물정보학의 다양한 분석 요구에 맞추어 설계되었습니다.
이처럼, 생물정보학 데이터 형식의 발전은 유전체 연구의 정밀성과 효율성을 높이며, 정밀의료와 맞춤형 치료의 새로운 시대를 열고 있습니다. 지속적인 연구와 협력을 통해 더 많은 질병의 비밀이 밝혀지기를 기대합니다.
이번 글도 읽어주셔서 감사합니다!
'생물정보학 > 생물정보학 기초' 카테고리의 다른 글
[생물정보학 기초] 07. 생물정보학의 미래 기술 동향 (0) | 2024.08.07 |
---|---|
[생물정보학 기초] 06. 생물정보학을 위한 기초 지식 2️⃣ (프로그래밍, 통계, 협업) (0) | 2024.07.30 |
[생물정보학 기초] 04. 유전체 빅데이터의 소개 (0) | 2024.07.27 |
[생물정보학 기초] 03. 생물정보학의 개요 3️⃣ (알고리즘, 방법론, 시각화, 미래 전망, 추천 도서 및 자료) (0) | 2024.07.27 |
[생물정보학 기초] 02. 생물정보학의 개요 2️⃣ (기본 개념, 용어, 데이터베이스, 도구, 분석 기법, 응용 분야) (0) | 2024.07.27 |
데이터 분석을 공부하고 카페를 열심히 돌아다니는 이야기
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!