Variant Call Format

Das Variant Call Format (VCF) ist ein wichtiges Text-Format in der Bioinformatik zur Speicherung von Gensequenz-Variationen. Das Format wurde mit dem Aufkommen von groß angelegten Genotypisierungs- und DNA-Sequenzierungs-Projekten, wie dem 1000-Genome-Projekt, entwickelt. Andere Formate für genetische Daten wie das General feature format (GFF) speicherten alle genetischen Daten, von denen viele redundant sind, da sie über die Genome hinweg gemeinsam genutzt werden. Bei Verwendung des Variant-Call-Formats müssen nur die Variationen zusammen mit einem Referenzgenom gespeichert werden.

Variant Call Format
Dateiendung: vcf
Entwickelt von: VCFtools
Aktuelle Version 4.3
Erweitert von: CSV (Dateiformat)
https://samtools.github.io/hts-specs/


Die neuste Version des Standards ist derzeit 4.3[1][2]. Version 4.4 ist aktuell in Entwicklung[3].

Es gibt auch ein Genomic VCF (gVCF) erweitertes Format, das zusätzliche Informationen über "Blöcke", die mit der Referenz übereinstimmen, und deren Qualitäten enthält.[4] Für die Bearbeitung und Manipulation der Dateien steht eine Reihe von Tools zur Verfügung.[5] [6]

Aufbau des VCF-Header

Der Header beginnt die Datei und enthält Metadaten, die den Hauptteil der Datei beschreiben. Header-Zeilen werden als mit # beginnend gekennzeichnet. Spezielle Schlüsselwörter im Header werden mit ## gekennzeichnet. Empfohlene Schlüsselwörter sind fileformat, fileDate und reference.

Der Header enthält Schlüsselwörter, die optional semantisch und syntaktisch die im Körper der Datei verwendeten Felder beschreiben, insbesondere INFO, FILTER und FORMAT (siehe unten).

Aufbau des VCF-Body

Der Body einer VCF folgt auf die Kopfzeile und ist durch Tabulatoren in 8 Pflichtspalten und eine unbegrenzte Anzahl von optionalen Spalten unterteilt, die zur Aufzeichnung anderer Informationen über die Probe(n) verwendet werden können. Wenn zusätzliche Spalten verwendet werden, wird die erste optionale Spalte verwendet, um das Format der Daten in den folgenden Spalten zu beschreiben.

NameKurzbeschreibung
1CHROMDer Name der Sequenz (typischerweise ein Chromosom), auf der die Variation aufgerufen wird. Diese Sequenz wird üblicherweise als "Referenzsequenz" bezeichnet, d. h. die Sequenz, gegen die die gegebene Probe variiert.
2POSDie 1-basierte Position der Variation auf der gegebenen Sequenz.
3IDDer Bezeichner der Variation, z. B. ein dbSNP rs Bezeichner, oder wenn unbekannt ein ".". Mehrere Bezeichner sollten durch Semikolon ohne Leerzeichen getrennt werden.
4REFDie Referenzbase (oder Basen im Falle einer indel) an der angegebenen Position auf der angegebenen Referenzsequenz.
5ALTDie Liste der alternativen Allelen dieser Position.
6QUALEine Qualitätsbewertung, die mit der Inferenz der gegebenen Allele verbunden ist.
7FILTEREin Flag, das anzeigt, welche einer gegebenen Menge von Filtern die Variation passiert hat.
8INFOEine erweiterbare Liste von Schlüssel-Wert-Paaren (Feldern), die die Variation beschreiben. Siehe unten für einige gängige Felder. Mehrere Felder werden durch Semikolons mit optionalen Werten im Format getrennt: <key>=<data>[,data].
9FORMATEine (optionale) erweiterbare Liste von Feldern zur Beschreibung der Proben. Siehe unten für einige gängige Felder.
+SAMPLEsFür jede (optionale) Probe, die in der Datei beschrieben wird, werden Werte für die in FORMAT aufgeführten Felder angegeben

Beispiel

##fileformat=VCFv4.2
##FILTER=<ID=PASS,Description="All filters passed">
##samtoolsVersion=1.12+htslib-1.12
##samtoolsCommand=samtools mpileup -d 250 -ugf Homo_sapiens.GRCh37.dna.primary_assembly.gz read.sorted.bam
##reference=file:Homo_sapiens.GRCh37.dna.primary_assembly.gz
##contig=<ID=1,length=249250621>
##contig=<ID=10,length=135534747>
##contig=<ID=11,length=135006516>
##contig=<ID=12,length=133851895>
##contig=<ID=13,length=115169878>
##contig=<ID=14,length=107349540>
##ALT=<ID=*,Description="Represents allele(s) other than observed.">
##INFO=<ID=INDEL,Number=0,Type=Flag,Description="Indicates that the variant is an INDEL.">
##INFO=<ID=RPB,Number=1,Type=Float,Description="Mann-Whitney U test of Read Position Bias (bigger is better)">
##INFO=<ID=MQB,Number=1,Type=Float,Description="Mann-Whitney U test of Mapping Quality Bias (bigger is better)">
##INFO=<ID=MQ0F,Number=1,Type=Float,Description="Fraction of MQ0 reads (smaller is better)">
##FORMAT=<ID=PL,Number=G,Type=Integer,Description="List of Phred-scaled genotype likelihoods">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##bcftools_callVersion=1.12+htslib-1.12
##bcftools_callCommand=call -vmO z -o 'variants.vcf.gz' 'read.pileup'; Date=Sun May 27 15:04:45 2021
#CHROM	POS	       ID	REF	ALT	QUAL	FILTER	INFO	 FORMAT	read.sorted.bam
3	10035634	.	C	T	35.3302	.	DP=16;VDB=0.907611;SGB=-0.636426;RPB=0.966012;MQB=0.428703;BQB=0.0628765;MQ0F=0;AC=1;AN=2;DP4=7,0,7,0;MQ=49	GT:PL	0/1:68,0,85
3	10035648	.	G	A	43.0805	.	DP=17;VDB=0.539658;SGB=-0.636426;RPB=0.887766;MQB=0.621145;BQB=0.708895;MQ0F=0;AC=1;AN=2;DP4=10,0,7,0;MQ=54	GT:PL	0/1:76,0,114
3	10035654	.	C	A	42.1818	.	DP=16;VDB=0.0485232;SGB=-0.616816;RPB=0.686279;MQB=0.863243;BQB=0.0253122;MQ0F=0;AC=1;AN=2;DP4=10,0,6,0;MQ=57	GT:PL	0/1:75,0,98
3	10035655	.	A	G	42.1042	.	DP=16;VDB=0.0485232;SGB=-0.616816;RPB=0.686279;MQB=0.863243;BQB=0.0292791;MQ0F=0;AC=1;AN=2;DP4=10,0,6,0;MQ=57	GT:PL	0/1:75,0,105
3	10035685	.	T	C	57.2592	.	DP=28;VDB=0.877004;SGB=-0.680642;RPB=0.877755;MQB=0.933359;BQB=0.0384;MQ0F=0;AC=1;AN=2;DP4=16,0,12,0;MQ=58	GT:PL	0/1:90,0,109
3	10035697	.	G	A	67.1854	.	DP=29;VDB=0.67865;SGB=-0.676189;RPB=0.923174;MQB=1;BQB=0.628158;MQ0F=0;AC=1;AN=2;DP4=17,0,11,0;MQ=60	GT:PL	0/1:100,0,122
3	10035774	.	A	G	27.9794	.	DP=49;VDB=0.245012;SGB=-0.692976;RPB=0.976675;MQB=3.31401e-07;BQB=1.09401e-05;MQ0F=0.0204082;AC=1;AN=2;DP4=22,0,26,0;MQ=37	GT:PL	0/1:61,0,112
3	10035778	.	AAGTCT	A	70.9586	.	INDEL;IDV=24;IMF=0.5;DP=48;VDB=0.14127;SGB=-0.692914;MQ0F=0.0208333;AC=1;AN=2;DP4=21,0,25,0;MQ=35	GT:PL	0/1:105,0,255
3	10037079	.	T	C	58.4147	.	DP=26;VDB=0.120141;SGB=-0.692976;MQ0F=0.0769231;AC=2;AN=2;DP4=0,0,26,0;MQ=12	GT:PL	1/1:88,78,0
3	10044262	.	G	A	23.0139	.	DP=5;VDB=0.309755;SGB=-0.511536;RPB=0.333333;MQB=1;BQB=0;MQ0F=0;AC=1;AN=2;DP4=2,0,3,0;MQ=60	GT:PL	0/1:56,0,26

Einzelnachweise

  1. VCF Specification. Abgerufen am 29. Mai 2021.
  2. Specifications of SAM/BAM and related high-throughput sequencing file formats. Abgerufen am 29. Mai 2021.
  3. VCF Specification 4.4. Abgerufen am 29. Mai 2021.
  4. GVCF - Genomic Variant Call Format. In: GATK. Broad Institute;
  5. VCFtools auf Github.io. Abgerufen am 29. Mai 2021.
  6. BCFtools auf Github.io. Abgerufen am 29. Mai 2021.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.