Die Epigenomik, die Erforschung der gesamten epigenetischen Modifikationen am genetischen Material einer Zelle, hat in den letzten Jahren eine tiefgreifende Big-Data-Revolution durchlaufen. Um die Forschung und damit verbundene Entdeckungen durch die optimale Nutzung der generierten Daten zu ermöglichen, hat sichdie Epigenomics-Fokusgruppe zum Ziel gesetzt, Empfehlungen zur Erreichung der FAIR-Prinzipien vorzuschlagen, von der Datenvisualisierung über die Metadaten-Annotation bis hin zum Benchmarking von Analysewerkzeugen. Sie bringt SIB-Mitglieder aus verschiedenen Disziplinen wie Epigenetik, Transkriptomik, Core Facilities und Benchmarking zusammen.

Förderung der Nutzung und Analyse frei verfügbarer Daten durch FAIR-Prinzipien

Neuartige Hochdurchsatz-Sequenzierungstechnologien haben seit etwa 15 Jahren das Gebiet der Epigenomik revolutioniert. Assays wie ChIP-seq, ATAC-seq, MNase-seq oder CAGE-seq erstellen genomweite Karten von Transkriptionsfaktor-Bindungsstellen, posttranslationalen Modifikationen von Histonen, offenen Chromatinregionen, Nukleosomen und Transkriptionsstartstellen mit einer Auflösung auf Basispaar- oder nahezu Basispaar-Ebene. Dadurch sind bisher verborgene genregulatorische Ereignisse entlang der Chromosomen plötzlich sichtbar geworden. Es wurde bereits eine unglaubliche Fülle an öffentlichen Daten generiert, die weiterhin exponentiell wächst. Trotz uneingeschränktem Datenzugang werden diese Daten nach wie vor nur unzureichend genutzt und analysiert. Der Schwerpunkt dieser Gruppe liegt daher auf Fragen der Datenverwendbarkeit, Interoperabilität, Visualisierung und Reproduzierbarkeit, kurz gesagt auf den FAIR-Prinzipien. Die drei unten aufgeführten Bereiche werden vorrangig berücksichtigt.

Über die SIB-Fokusgruppen

Die Fokusgruppen sollen den Wissensaustausch und die Zusammenarbeit innerhalb der Gemeinschaft von 900 SIB-Mitgliedern zu bestimmten wissenschaftlichen und/oder übergreifenden Themen fördern, von der Einzelzellsequenzierung bis hin zu Gleichstellung, Vielfalt und Inklusion. Alle Fokusgruppen anzeigen

Datenvisualisierung, eine Initiative des SIB Epigenomics Track Hub

Biologen, die sich mit Genregulation beschäftigen, interessieren sich oft nur für sehr kleine Genomregionen, in denen sie auf verschiedene Datentypen aus vielen verschiedenen Labors zugreifen und diese untersuchen müssen. Und das möglichst mit nur wenigen Mausklicks. Leider sind öffentliche Epigenomdaten so organisiert, dass dies schwierig ist. Sie kommen als riesige Dateien mit Daten für das gesamte Genom, aber nur aus einem einzigen Experiment. Um diesen Engpass zu beseitigen, plädiert die Gruppe dafür, Epigenomikdaten über UCSC Track Hubssichtbar zu machen , parallel zur Hinterlegung der Rohdaten in einem öffentlichen Repository. Track Hubs ermöglichen in Verbindung mit indizierten Big-Data-Formaten die einfache und schnelle Integration von Daten aus aller Welt in einem einzigen Browserfenster. Die vorgeschlagene Initiative zielt darauf ab, Schweizer Epigenomik-Forscher zu ermutigen, ihre eigenen Daten als Track Hubs zur Verfügung zu stellen, indem sie Beratung und technische Unterstützung durch Training und persönlichen Know-how-Transfer anbieten. Da Bioinformatik-Kernkompetenzen dabei eine zentrale Rolle spielen könnten, strebt die Gruppe Kooperationen mit solchen Einrichtungen an.

Bekämpfung der Metadatenkrise mit Empfehlungen für die Annotation von Beispielen

Epigenomikdaten sind leicht zugänglich, die verwendeten Formate sind in der Regel standardisiert, und für die Analyse der Daten steht bereits eine Vielzahl leistungsfähiger Methoden und Software-Ressourcen zur Verfügung. Allerdings gibt es erhebliche Mängel und Unterschiede hinsichtlich der Qualität und Vollständigkeit der Metadaten. Ohne gesicherte Kenntnisse über die Bedeutung der Daten in einer bestimmten Datei lassen sich selbst mit den ausgefeiltesten Algorithmen keine biologischen Erkenntnisse gewinnen. „Die Metadatenkrise ist zum einen auf fehlende Anreize für Datenproduzenten zurückzuführen, ihre Daten ordnungsgemäß zu annotieren, zum anderen auf unzureichende Qualitätskontrollen und Datenkurationsmaßnahmen entlang der Datenverbreitungskanäle, beispielsweise seitens der Mitarbeiter von Datenrepositorien oder Zeitschriftenredakteure“, erklärt Philipp Bucher, Vorsitzender der Fokusgruppe. Die Situation wird durch das Fehlen oder die Seltenheit von gemeinschaftlich akzeptierten Standards für die Darstellung von Metadaten (Ontologien) für regulatorische Genomregionen und, in geringerem Maße, für Zelltypen und physiologische Zustände noch verschärft. Die Epigenomics Focus Group soll ein Forum für die Diskussion und Bewältigung der Engpässe in diesem Bereich unter Experten aus verschiedenen Fachgebieten werden. Ein konkretes Ziel ist es, Empfehlungen für die Annotation von Epigenomik-Datensätzen zu erarbeiten, die von den SIB-Gruppen und darüber hinaus breit unterstützt werden. Da sich viele Aspekte der Metadatenkrise in der Epigenomik auch auf andere Omics-Bereiche, insbesondere die Transkriptomik, ausweiten, begrüßt die Gruppe die Teilnahme und den Austausch mit Datenproduzenten, Datennutzern und Biokuratoren aus benachbarten Bereichen.

Erleichterung der Datenanalyse durch Benchmarking, Austausch von Protokollen und Tools

Forscher, die ihre eigenen Daten oder öffentliche Daten analysieren möchten, stehen vor einer schwierigen Wahl. Es gibt bereits zahlreiche öffentliche Programme und Webressourcen, und ständig kommen neue hinzu. Wie wählt man die besten Bioinformatik-Tools für eine bestimmte Aufgabe aus? Das Testen einer neuen Methode ist oft zeitaufwändig und führt zu Enttäuschungen. Der Schwerpunkt der Gruppe in diesem Bereich liegt auf dem Benchmarking und dem Austausch von Erfahrungen aus erster Hand zwischen Anwendern von Bioinformatik-Tools, sowohl auf der Ebene einzelner Verarbeitungsschritte (z. B. Peak-Finding) als auch auf der Ebene umfassender Analyse-Pipelines (z. B. von Sequenz-Reads bis hin zu Genregulationsnetzwerken). Fragen der rechnerischen Reproduzierbarkeit und der richtigen Bereitstellung von Workflows werden ebenfalls diskutiert. Ziel ist es, eine Community von Menschen zu schaffen, die daran interessiert sind, ihre Erfahrungen und ihr Know-how auszutauschen, und eine Infrastruktur für diesen Zweck aufzubauen. Dies kann neben der Nutzung von Standardkommunikationsmitteln wie Telekonferenzen oder Mailinglisten auch die Erstellung von Referenzdatensätzen und die Organisation von Benchmarking-Veranstaltungen umfassen. Die Teilnahme und der Austausch mit Experten aus anderen Bereichen wie Benchmarking und rechnerische Reproduzierbarkeit werden hier ausdrücklich begrüßt.

Koordinierende Mitglieder der Fokusgruppe:

Sind Sie SIB-Mitglied und an einer Teilnahme interessiert? Wenden Sie sich bitte an Philipp Bucher.