FASTQ 포맷이란?

Bioinformatics

FASTQ란 무엇인가? FASTA와 다른점은?

저자

William

공개

2023년 3월 15일

FASTQ란 무엇인가요?

FASTQ는 생물학적 서열 데이터, 특히 뉴클레오티드 서열 (DNA 또는 RNA) 및 해당 품질 점수를 저장하는 데 사용되는 텍스트 기반 형식입니다. 이는 Illumina 및 Ion Torrent 플랫폼과 같은 고처리량 시퀀싱(HTS) 기술에 의해 생성된 시퀀싱 데이터를 저장, 공유 및 분석하기 위해 생물 정보학 및 유전체학 분야에서 널리 사용됩니다.

FASTQ format이란 무엇을 의미하는 걸까요?

FASTQ 형식은 FASTQ 파일 내의 데이터 구조와 조직을 나타냅니다. FASTQ 파일의 각 항목은 단일 서열 독립본을 나타내며 네 줄로 구성됩니다. 이 형식은 각 염기와 관련된 품질 점수와 함께 서열 정보를 저장하기 위해 설계되었습니다.

FASTA 포맷과의 차이점은?

FASTA와 FASTQ 형식은 핵산 및 아미노산 서열을 나타내는 데 있어서 생물 정보학 분야에서 널리 사용됩니다. 그러나 두 형식 간에는 구조, 응용 분야 및 포함 정보 등의 중요한 차이점이 있습니다. (주요 차이점은 품질 정보의 유무와 용도입니다.)

FASTA 포맷은 단순한 구조를 가지고 있어 연구자들이 유전자, 단백질 및 RNA 서열 데이터를 효율적으로 저장하고 공유할 수 있습니다. 특히, 각 서열은 ‘>’ 기호로 시작하는 헤더와 이어지는 A, T, C, G(또는 단백질 서열의 경우 20가지 아미노산 코드)로 이루어진 서열로 구성됩니다. 따라서 FASTA 포맷은 서열 정렬, 유전체 데이터베이스 구축 및 활용 등 다양한 분야에서 사용됩니다.

반면, FASTQ 포맷은 FASTA 포맷의 모든 정보에 더해, 서열 품질 정보를 제공합니다. 이 포맷은 네 줄로 구성되며, 첫 번째 줄은 ‘@’ 기호로 시작하는 헤더, 두 번째 줄은 서열 정보, 세 번째 줄은 ‘+’ 기호와 선택적인 설명 정보, 그리고 마지막 줄은 품질 점수를 ASCII 문자로 표현한 품질 정보를 담고 있습니다. 품질 점수는 서열의 각 염기에 대한 정확도를 나타내며, 이는 대부분의 경우 현대 DNA 서열 분석에서 매우 중요한 요소입니다.

요약하자면, FASTA 포맷은 간단한 구조를 가지고 있어 다양한 생명과학 연구에 사용되지만, 품질 정보를 포함하지 않습니다. 반면 FASTQ 포맷은 품질 정보까지 포함하여 DNA 서열 분석에서 더욱 세밀한 연구를 가능케 합니다. 이에 따라 서열 데이터의 용도와 필요한 정보에 따라 연구자들은 적절한 포맷을 선택하여 사용합니다.

출처 ¹

¹ https://learn.gencore.bio.nyu.edu/ngs-file-formats/fastq-format/

FASTQ에서 각 줄이 무엇을 의미하나요?

FASTQ 파일에서 네 줄 각각은 특정한 의미를 지니며 다음과 같습니다:

1번째 줄: ’@’로 시작하며 서열 독립본에 대한 고유 식별자를 포함합니다. 이 식별자는 종종 시퀀싱 실행, 기기 또는 샘플에 대한 정보를 포함할 수도 있습니다.
2번째 줄: 생물학적 데이터를 나타내는 순수한 뉴클레오티드 서열을 문자열로 나타냅니다(DNA의 경우 A, C, G, T; RNA의 경우 A, C, G, U). 이 줄은 시퀀싱 과정에서 얻은 실제 생물학적 데이터를 나타냅니다.
3번째 줄: ’+’로 시작하여 선택적으로 설명 또는 1번째 줄과 동일한 식별자가 이어집니다. 이 줄은 서열과 품질 점수 사이의 구분자 역할을 합니다.
4번째 줄: ASCII 문자로 표시된 각 염기의 품질 점수를 포함합니다. 이 점수는 시퀀싱 기기에서 생성되며 각 염기 콜의 확신도 또는 정확도를 나타냅니다. 품질 점수는 일반적으로 Phred 품질 점수 시스템을 사용하여 나타내며 높은 점수는 콜의 높은 신뢰도를 나타냅니다.

이 네 줄은 FASTQ 파일의 단일 항목을 구성하며, 시퀀싱 데이터셋의 크기에 따라 파일에 수백만 개의 항목이 포함될 수 있습니다.

출처²

² https://www.researchgate.net/publication/331702618/figure/fig2/AS:745823247810566@1554829527399/An-example-of-the-FASTA-format-used-in-iLearn.ppm

FASTQ를 사용하는 툴들

FASTQ 파일은 시퀀스 얼라인먼트, 게놈 어셈블리, 품질 통제 등 다양한 생물정보학 애플리케이션에서 널리 사용됩니다. 다음은 각 범주에서 FASTQ 파일을 사용하는 인기있는 소프트웨어 도구 몇 가지입니다.

Aligners(mappers):

BWA(Burrows-Wheeler Aligner) - 대규모 참조 유전체에 대한 저다양한 시퀀스 매핑을 위한 널리 사용하는 도구입니다.
Bowtie2 - 시퀀싱 리드를 긴 참조 시퀀스에 정렬하기 위한 빠르고 메모리 효율적인 도구입니다.
HISAT2 - 인간 유전체와 같은 대규모 참조 유전체에 대한 다음 세대 시퀀싱 리드(DNA 및 RNA 모두) 매핑을 위한 빠르고 민감한 정렬 도구입니다.
STAR(Spliced Transcripts Alignment to a Reference) - 비정형 스플라이스 및 키메릭(융합) 전사체를 발견 할 수 있는 RNA-seq 어셈블러입니다.

Assemblers:

SPAdes(St. Petersburg genome assembler) - 소규모 게놈, 단일 세포 및 메타 게놈 데이터를 위해 설계된 데 노 게놈 어셈블러입니다.
Velvet - Illumina와 같은 단독 리드 시퀀싱 기술에 대한 데 노 게놈 어셈블러입니다.
ABySS(Assembly By Short Sequences) - 대규모 게놈에 대한 데 노, 병렬, 페어 엔드 시퀀스 어셈블러입니다.
Canu - PacBio 및 Oxford Nanopore에서 생성 된 데이터와 같은 고노이즈 단일 분자 시퀀싱을 위해 설계된 Celera Assembler의 포크입니다.

Quality Control (QC) Tools:

FastQC - FASTQ 파일에서 원시 시퀀스 데이터의 품질을 평가하는 모듈러 세트를 제공하는 인기있는 도구입니다.
PRINSEQ (PRocessing INtegrated SEQuence data) - FASTQ 파일과 같은 고처리량 시퀀싱 데이터를 전처리하고 필터링하는 도구입니다.
MultiQC - 여러 샘플의 품질 통제 데이터를 단일 보고서로 집계하는 도구입니다.
Trimmomatic - Illumina NGS 데이터에 대한 유연한 리드 트리밍 도구로 어댑터 시퀀스, 저품질 베이스 및 기타 잠재적 문제를 제거 할 수 있습니다.

이것들은 FASTQ 파일을 활용하는 수많은 생물 정보학 도구 중 일부 예시일 뿐입니다. 많은 다른 도구들이 있으며, 각각은 특정 유형의 분석, 시퀀싱 기술 또는 생물체 게놈에 맞게 맞추어져 있습니다.

참고하면 좋은 자료들:

FASTQ 형식에 대한 정보와 FASTQ 파일 작업 도구를 제공하는 많은 온라인 자료가 있습니다. 다음은 시작하기에 유용한 자료입니다:

The original FASTQ format paper: Cock, P.J.A., Fields, C.J., Goto, N., Heuer, M.L., and Rice, P.M. (2010). The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic Acids Research, 38(6), 1767-1771. doi:10.1093/nar/gkp1137 Available at: https://academic.oup.com/nar/article/38/6/1767/3112533
The Wikipedia page on FASTQ format provides a good overview and details on the format, as well as some relevant references: https://en.wikipedia.org/wiki/FASTQ_format
NCBI의 시퀀스 독립 아카이브(SRA)는 FASTQ 형식으로 공개적으로 사용 가능한 많은 시퀀싱 데이터 컬렉션과 이러한 데이터에 액세스하고 다운로드하는 방법에 대한 문서 및 튜토리얼을 제공합니다: https://www.ncbi.nlm.nih.gov/sra
FastQC는 FASTQ 파일의 품질을 검사하기 위해 널리 사용되는 도구입니다. 문서와 사용자 가이드에서는 FASTQ 파일과 관련된 품질 메트릭을 이해하고 해석하는 데 유용한 정보를 제공합니다: https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Galaxy 플랫폼은 생물 정보학 분석을 위한 오픈소스 웹 기반 플랫폼으로, 접근성, 재현성 및 투명성을 갖춘 여러 가지 바이오 인포매틱스 도구 및 FASTQ 파일 작업을 위한 여러 가지 튜토리얼 및 교육 자료를 포함하고 있습니다. https://training.galaxyproject.org/
온라인 포럼인 Biostars (https://www.biostars.org/)와 SEQanswers (http://seqanswers.com/)는 FASTQ 파일과 관련된 도구를 비롯한 바이오인포매틱스에 대한 다양한 주제를 논의하는 활발한 커뮤니티를 가지고 있습니다. 기존 토론을 검색하거나 질문을 할 수 있습니다.
바이오인포매틱스에 관련된 온라인 강좌와 튜토리얼은 종종 FASTQ 파일과 이를 다루는 주제를 다룹니다. Coursera, edX와 등 인기 있는 플랫폼에서 해당 강좌를 제공합니다.

이러한 자료들은 FASTQ 형식의 이해, FASTQ 파일 작업, 시퀀싱 데이터 처리 및 분석 도구 및 기술에 대한 핵심적인 기반을 제공합니다.

라이센스

https://creativecommons.org/licenses/by/4.0/deed.ko