Bioinformatik
Die Bioinformatik (englisch bioinformatics) ist eine interdisziplinäre Wissenschaft, die Probleme aus den Lebenswissenschaften mit theoretischen computergestützten Methoden löst. Sie hat zu grundlegenden Erkenntnissen der modernen Biologie und Medizin beigetragen. Bekanntheit in den Medien erreichte die Bioinformatik in erster Linie 2001 mit ihrem wesentlichen Beitrag zur Sequenzierung des menschlichen Genoms.
Bioinformatik ist ein weitgefächertes Forschungsgebiet, sowohl bei Problemstellungen als auch den angewandten Methoden. Wesentliche Gebiete der Bioinformatik sind die Verwaltung und Integration biologischer Daten, die Sequenzanalyse, die Strukturbioinformatik und die Analyse von Daten aus Hochdurchsatzmethoden (~omics). Da Bioinformatik unentbehrlich ist, um Daten in großem Maßstab zu analysieren, bildet sie einen wesentlichen Pfeiler der Systembiologie.
Der Bioinformatik wird im englischen Sprachraum oft die computational biology gegenübergestellt, die einen weiteren Bereich als die klassische Bioinformatik abdeckt, meist benutzt man beide Begriffe jedoch synonym.
Datenverwaltung
Die rasch wachsende Menge biologischer Daten, insbesondere DNA- und Proteinsequenzen, deren Kommentierung (die Annotation), 3D-Proteinstrukturen, Interaktionen biologischer Moleküle und Hochdurchsatzdaten von beispielsweise Microarrays, stellt besondere Anforderungen an die Handhabung dieser Daten. Ein wichtiges Problem der Bioinformatik besteht daher in der Datenaufbereitung und Speicherung in geeignet indizierten und verknüpften biologischen Datenbanken.[1] Die Vorteile liegen dabei in der einheitlichen Struktur, der leichteren Durchsuchbarkeit und der Automatisierbarkeit von Analysen durch Software.
Eine der ältesten biologischen Datenbanken ist die Protein Data Bank, PDB, für Daten über 3D-Strukturen biologischer Makromoleküle, zumeist Proteine. In den 80er Jahren wurden Datenbanken zur Verwaltung von Nukleotidsequenzen (EMBL Data Library, GenBank) und Aminosäuresequenzen (Protein Information Resource, Swiss-Prot) aufgebaut. Die in der Internationalen Nukleotidsequenz-Datenbank-Zusammenarbeit zusammengeschlossenen Nukleotidsequenz-Datenbanken sind als Primärdatenbanken Archive von Originaldaten, die von den Forschern selbst eingereicht werden. Demgegenüber stellt UniProt, der Zusammenschluss aus PIR und Swiss-Prot, qualitativ hochwertige, von Experten gepflegte und annotierte Einträge von Proteinsequenzen mit umfangreichen Informationen zu jedem einzelnen Protein bereit, die ergänzt werden durch aus der EMBL-Bank automatisch translatierte Proteinsequenzen ohne weitere Annotation.
Andere Datenbanken enthalten wiederkehrende Motive in Proteinsequenzen (Pfam), Informationen über Enzyme und biochemische Komponenten (GeneCards, BRENDA, KEGG LIGAND und ENZYME), über Protein-Protein-[2] oder Protein-DNA-Wechselwirkungen (TRANSFAC), über Stoffwechsel- und regulatorische Netzwerke (KEGG, REACTOME), über Genexpression (Bgee) sowie vieles mehr.
Der Umfang der einzelnen Datenbanken wächst teilweise exponentiell.[3] Auch die Anzahl einschlägiger Datenbanken wächst beständig (über 350 weltweit, Stand 2011).[4] Bei der Suche nach relevanten Informationen werden daher häufig Bioinformatik-Meta-Suchmaschinen (Bioinformatik-Harvester, Entrez, EBI SRS) benutzt. Die Vielfalt an weltweit verfügbaren Datenbanken führt oft zu redundanter und damit fehleranfälliger Datenhaltung, zumal DNA-Sequenzen teils in Fragmenten (raw reads), teils in vollständig assemblierten Konsensus-Sequenzen vorliegen.
Eine weitere Aufgabe bei der Datenintegration ist das Erstellen von kontrollierten Vokabularien und Ontologien, die eine Zuordnung von Funktionsbezeichnungen quer durch alle Ebenen ermöglichen.
Sequenzanalyse
Die ersten reinen Bioinformatikanwendungen wurden für die DNA-Sequenzanalyse und für Sequenzalignment entwickelt. Bei der Sequenzanalyse geht es in erster Linie um das schnelle Auffinden von Mustern in Protein- oder DNA-Sequenzen. Beim Sequenzalignment geht es um die Frage, ob zwei Gene oder Proteine miteinander verwandt („homolog“) sind. Dazu werden die Sequenzen so übereinandergelegt und gegeneinander ausgerichtet, dass eine möglichst gute Übereinstimmung erzielt wird. Ist die Übereinstimmung signifikant besser, als durch zufällige Ähnlichkeit zu erwarten wäre, kann man auf Verwandtschaft schließen: Bei Genen und Proteinen impliziert Verwandtschaft stets ähnliche Struktur und meist ähnliche Funktion. Eine zentrale Bedeutung des Sequenzvergleichs für die Bioinformatik liegt demnach in seinem Einsatz für die Sequenz- und Strukturvorhersage unbekannter, vermuteter Gene. Zur Anwendung kommen dabei Algorithmen der dynamischen Programmierung und heuristische Algorithmen. Die dynamische Programmierung liefert optimale Lösungen, ist aber wegen der benötigten Computerressourcen in der Praxis nicht auf sehr lange Sequenzen oder sehr große Datenbanken anwendbar. Heuristische Algorithmen eignen sich zur Durchsuchung der großen, global verfügbaren Datenbanken, die sämtliche bekannten Sequenzen archivieren; sie garantieren zwar keine optimalen Ergebnisse, leisten aber dennoch so gute Dienste, dass die tägliche Arbeit des Bioinformatikers und Molekularbiologen ohne den Einsatz beispielsweise des BLAST-Algorithmus nicht möglich wäre. Weitere häufig verwendete Algorithmen, die je nach Einsatzgebiet unterschiedliche Funktionen erfüllen, sind FASTA, Needleman-Wunsch oder Smith-Waterman.
Seltener benötigt man bei biologischen Fragestellungen die Suche nach exakten Übereinstimmungen von kurzen Sequenzenabschnitten, typischerweise für Schnittstellen von Restriktionsenzymen in DNA-Sequenzen, gegebenenfalls auch von Sequenzmustern in Proteinen, aus der PROSITE-Datenbank.
Eine große Rolle spielt die Bioinformatik auch bei der Genom-Analyse. Die in kleinen Einheiten sequenzierten DNA-Bruchstücke werden mit Hilfe bioinformatischer Methoden zu einer Gesamtsequenz zusammengefügt.
Des Weiteren wurden Methoden zum Auffinden von Genen in unbekannten DNA-Sequenzen entwickelt (Genvorhersage, engl. gene finding oder gene prediction). Dieses Problem wird mit verschiedenen Rechenmethoden und Algorithmen angegangen, darunter statistische Sequenzanalyse, Markow-Ketten und künstliche neuronale Netze zur Mustererkennung.
Sowohl anhand von DNA- als auch von Aminosäuresequenzen lassen sich phylogenetische Bäume erstellen, die die evolutionäre Entwicklung der heutigen Lebewesen aus größtenteils unbekannten und daher hypothetischen Vorfahren darstellen.
Strukturbioinformatik
Mit der Aufklärung und weitreichenden Funktionsanalyse verschiedener vollständiger Genome verlagert sich der Schwerpunkt bioinformatischer Arbeit auf Fragestellungen der Proteomik, z. B. das Problem der Proteinfaltung und Strukturvorhersage, also die Frage nach der Sekundär- oder Tertiärstruktur bei gegebener Aminosäuresequenz. Auch die Frage nach der Interaktion von Proteinen mit verschiedenen Liganden (Nukleinsäuren, anderen Proteinen oder auch kleineren Molekülen) wird untersucht, da sich daraus neben Erkenntnissen für die Grundlagenforschung auch wichtige Informationen für die Medizin und Pharmazie ableiten lassen, beispielsweise darüber, wie ein durch eine Mutation verändertes Protein die Körperfunktionen beeinflusst oder welche Medikamente in welcher Weise an verschiedenen Proteinen wirken.
Siehe auch
Literatur
- Cynthia Gibas, Per Jambeck: Einführung in die praktische Bioinformatik. O’Reilly, 2002, ISBN 3-89721-289-7.
- Nicola Gaedeke: Biowissenschaftlich recherchieren: Über den Einsatz von Datenbanken und anderen Ressourcen der Bioinformatik. Birkhäuser, 2007, ISBN 978-3-7643-8525-5.
- G. A. Reeves, D. Talavera, J. M. Thornton: Genome and proteome annotation: organization, interpretation and integration. In: J R Soc Interface. Band 6, Nr. 31, Februar 2009, S. 129–147, doi:10.1098/rsif.2008.0341, PMID 19019817, PMC 2658791 (freier Volltext) – (royalsocietypublishing.org).
Weblinks
Einzelnachweise
- T. K. Attwood, A. Gisel, N.-E. Eriksson, E. Bongcam-Rudloff: Concepts, Historical Milestones and the Central Place of Bioinformatics in Modern Biology: A European Perspective. In: Mahmood A Mahdavi (Hrsg.): Bioinformatics - Trends and Methodologies. InTech, 2011, ISBN 978-953-307-282-1, doi:10.5772/23535.
- IntAct Protein-Interaktions-Datenbank am EBI.
- GenBank-Wachstum, Statistik 1982–2008
- Michael Y. Galperin, Guy R. Cochrane: The 2011 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection. In: Nucleic Acids Research. Band 39, suppl 1, 1. Januar 2011, S. D1–D6, doi:10.1093/nar/gkq1243.