Im Tandem – ein smarter Ansatz für Data Stewardship

Wie gelingt Data Stewardship als Aufgabe, die auf mehrere Schultern verteilt ist? Dr. Sabina Keller und Dr. Lukas Hörtnagl (Forschungsgruppe Grassland Sciences am D-USYS) berichten im Interview. 

Dr. Lukas Hörtnagl und Dr. Sabina Keller

Data Stewardship in einer Forschungsgruppe muss keine «One-Person-Show» sein. Welche Synergien können im Tandem genutzt werden, um Herausforderungen zu meistern und die Arbeit einer Forschungsgruppe effizienter zu gestalten? Wie dies gelingen kann, zeigt die ETH-Bibliothek im Gespräch mit Dr. Sabina Keller (SK) und Dr. Lukas Hörtnagl (LH). 

Arbeiten Sie an der ETH Zürich und beschäftigen Sie sich mit Forschungsdatenmanagement, Data Stewardship oder Open Research Data?  
Vernetzen Sie sich mit anderen Expert:innen, tauschen Sie Erfahrungen und Lösungen aus und profitieren Sie von Best Practices im Data-Stewardship-Netzwerk. 
Profitieren Sie vom Wissen der Community und gestalten Sie Data Stewardship an der ETH aktiv mit – melden Sie sich bitte per E-​Mail an uns: .

Sabina und Lukas, ihr arbeitet zurzeit als Datenarchiv-Managerin und Data Scientist. Was sind eure Aufgaben?

SK: Als Datenarchiv-Managerin führe ich alle neuen Gruppenmitglieder ‒ von Bachelor-Studierenden zu Postdocs ‒ in die Standards unseres Datenmanagements ein. Dabei geht es um Themen wie die externe Seite FAIR-Prinzipien, unsere Variablennamen-Konvention, die Dokumentation von Metadaten, unsere Data Policy, etc.. Zu Beginn ihrer Tätigkeit unterzeichnen neue Gruppenmitglieder ein «Research Data Access and Use Agreement». Bei Abschluss eines Projekts treffe ich mich mit dem/r Datenautor:in, um die Aufbereitung der Daten für die Langzeitarchivierung zu besprechen. Nach Eingabe der Daten kontrolliere ich die projektbasierten Datensätze auf Vollständigkeit, passe sie nötigenfalls bezüglich Formaten und Codierung an und transferiere sie mit den dazugehörenden Metadaten und der entsprechenden Nutzungslizenz ins Langzeit-Datenarchiv der ETH-Bibliothek. Da ich manchmal sehr grosse Datenmengen eines Projekts ins ETH Data Archive übertragen möchte, nutzen wir dazu in Zusammenarbeit mit der ETH-Bibliothek einen gesonderten «Batch Processing Ingest». Die Daten werden später mit der Research Collection verknüpft und können dort gefunden und – falls Open Access – heruntergeladen werden.

LH: Als Data Scientist decke ich in unserem Team ein breites Spektrum an Aufgaben ab, das sowohl technische Datenverarbeitung als auch wissenschaftliche Analysen umfasst. Mein Schwerpunkt liegt auf der Berechnung des Gasaustauschs zwischen Biosphäre und Atmosphäre. Dazu gehören die sorgfältige Qualitätskontrolle, Korrektur und Vervollständigung von Daten, um lückenlose Langzeitdatensätze zu erstellen. Diese Datensätze, die an einigen unserer Messstationen im Swiss FluxNet bereits mehrere Jahrzehnte umfassen, stellen wir über Plattformen wie die ETH Research Collection und externe Seite FLUXNET offen zur Verfügung.

Um die Daten unserer Messstationen effizienter zu überwachen, habe ich vor einigen Jahren eine Datenbank (externe Seite InfluxDB) implementiert, in die täglich neue Messwerte einfliessen. Ausserdem unterstütze ich Studierende und Postdocs bei der Aufbereitung und Interpretation ihrer Ökosystemdaten, um die erfolgreiche Umsetzung ihrer Forschungsprojekte zu unterstützen.

Dr. Sabina Keller ist seit 2004 in verschiedenen Funktionen als Lehr- und Wissenschaftsassistentin in der Gruppe tätig: Als Datenarchiv-Managerin in der Schulung der Gruppenmitglieder und der Archivierung von Forschungsdaten, als Dozentin, und mit Outreach-Projekten zur Wissenschafts- und Forschungsvermittlung. 

Dr. Lukas Hörtnagl arbeitet seit 2014 zuerst als Postdoc, später als Data Scientist in der Gruppe. Er beschäftigt sich u.a. mit dem Austausch von Gasen wie Kohlendioxid und Methan zwischen Biosphäre und Atmosphäre, und koordiniert den Datenupload in internationale Datenbanken, um aktuelle Forschungsdaten zeitnah und offen zugänglich zu machen.

Welche Herausforderungen seht ihr bei euren Aufgaben bezüglich Datenmanagement?

SK: Eine mangelnde Dokumentation während der Datenerhebung kann dazu führen, dass wichtige Metadaten für eine spätere Nutzung durch andere Forschende fehlen. Zum Beispiel können bei der Erhebung von Proben im Feld in Zukunft keine Folgeerhebungen an genau denselben Standorten gemacht werden, wenn eine geografische Verortung (GIS) fehlt.
Oft merkt man erst, wo Handlungs- oder Aufklärungsbedarf besteht, wenn Probleme auftreten. Kürzlich diskutierten wir in der Gruppe sinnvolle Unique Sample IDs für von Hand erhobene Daten. 

LH: Eine Herausforderung ist die Definition und Dokumentation transparenter und nachvollziehbarer Aufbereitungskriterien, was aufgrund der Vielfalt unserer Messdaten oft komplex ist. In der Datenverarbeitung unterscheiden wir daher grundlegend zwischen Rohdaten und prozessierten Daten. Dabei sind Rohdaten die ursprünglichen, unveränderten Daten, die direkt von Messinstrumenten im Feld erfasst werden. Sie stellen die Basis für alle weiteren Verarbeitungsschritte dar. Prozessierte Daten entstehen durch die Bearbeitung der Rohdaten. Dabei können beispielsweise fehlerhafte Messwerte aufgrund definierter Kriterien entfernt oder Daten transformiert werden. Um die Transparenz zu erhöhen, dokumentieren wir seit einigen Jahren die Datenaufbereitung in externe Seite Jupyter Notebooks. Diese enthalten sowohl den verwendeten Programmcode als auch visuelle Darstellungen der Datenverarbeitungsschritte. Dadurch ist es jederzeit möglich, die Entstehung der Datensätze schnell und einfach zu überprüfen.

Eine weitere Herausforderung ist die Wahl eines geeigneten Datenformats zur Speicherung der Daten. Wir legen Wert auf einen einfachen und direkten Zugriff auf unsere Datensätze. Daher speichern wir Rohdaten und Ergebnisse in allgemein lesbaren Textdateien (CSV, gepackt als ZIP). Für die eigentliche Datenverarbeitung nutzen wir zusätzlich Formate wie Apache Parquet, die eine hohe Verarbeitungsgeschwindigkeit für grosse Datenmengen ermöglichen.

Welche Möglichkeiten seht ihr im Zusammenhang mit eurer Rolle als Data Stewards, sich auch über Forschungseinheiten hinweg auszutauschen? Was ergab sich bisher?

SK: Die Möglichkeiten für einen Austausch ergaben sich bei mir bisher aufgrund von Anfragen: So stellte ich unser Datenmanagement z. B. den Mitgliedern einer anderen Professur am Departement und einem Gastprofessor vor. Beide haben gehört, dass wir ein etabliertes Datenmanagement haben. Kürzlich erhielten wir auch eine Anfrage von einer Professorin am Karlsruher Institut für Technologie, eine ehemalige Doktorandin der Gruppe Graslandwissenschaften, die ihre Forschungsgruppe für das Thema rüsten möchte. 

LH: Durch die enge Einbindung der Gruppe in internationale Forschungsprojekte wie externe Seite ICOS kommt es zu zahlreichen Kooperationen. Wir stellen unsere Daten generell offen unter einer grosszügigen Creative-Commons-Lizenz zur Verfügung. 

«Wir stellen unsere Daten generell offen unter einer grosszügigen Creative-Commons-Lizenz zur Verfügung.»
Lukas Hörtnagl

Dadurch kommt es zu zahlreichen Anfragen entweder zu den Daten selbst oder bezüglich Input zu wissenschaftlichen Publikationen. Oft wird auch angefragt, ob zusätzliche Daten verfügbar sind, die wir dann nach Möglichkeit nachliefern. Es ist mir ein Anliegen, die Nutzung unserer offenen Daten zu unterstützen, daher versuche ich eingehenden Anfragen möglichst zeitnah nachzukommen.

Welches Potenzial seht ihr darin, Data Stewardship als geteilte Aufgabe wahrzunehmen, so wie ihr es bei Grassland Sciences lebt?

SK: Wir haben bei uns unterschiedliche Forschungsschwerpunkte, entsprechend variieren auch die Anforderungen ans Datenmanagement. Zusammen decken wir aber die unterschiedlichen Aspekte des Datenmanagements gut ab. Zum einen gibt es die SwissFluxNet-Messstationen mit den langjährigen Dauermessungen von Treibhausgasflüssen und Messreihen von verschiedenen Meteo-Variablen. Die Messreihen werden von verschiedenen Stations-Verantwortlichen prozessiert und kontrolliert. Lukas implementierte hier alle Abläufe und kontrolliert und koordiniert z. B. das Einhalten der Standards, das Überspielen der Daten in internationale Datenbanken. Da ist sowohl disziplinspezifisches Know-How wie auch IT-Affinität gefragt, was Lukas zum Glück beides abdecken kann. Zum anderen gibt es Projekte im Bereich Pflanzen- und Ökosystemphysiologie und zur funktionellen Pflanzendiversität, bei denen während Feld-Kampagnen einzelne Datensätze generiert werden. Die Archivierung dieser Datensätze ist eine administrative Angelegenheit. Das ist dann mein Part, diese ins ETH Data Archive zu überführen und zu schauen, dass die Dokumentation (z. B. Feldbücher) komplett ist. 

LH: Sabina beschreibt unsere gelungene Arbeitsteilung schon sehr treffend. Ich überwache und betreue die Arbeitsschritte bis zu den finalen Datensätzen. Zusammen mit unserem Team kümmere ich mich um die regelmässige Datenüberprüfung aktueller Messdaten. Hier ist unsere Datenbank hilfreich, die historische und aktuelle Daten kombiniert und Datenabbildungen erstellt. Ich denke dies ist eine wichtige Unterscheidung mit Hinblick auf Data Stewardship: einerseits gibt es aktuelle, kontinuierlich aktualisierte Daten, die wir über die Datenbank in einen historischen Kontext zueinander setzen und vor der Weiterverarbeitung überprüfen, andererseits gibt es die archivierten Langzeitdaten als Endprodukte. Diese Unterscheidung ermöglicht einen optimierten Arbeitsablauf zwischen mir und Sabina, mit klarer Aufgabenteilung und Verantwortlichkeiten. Beide Aspekte werden so angemessen berücksichtigt.

Wie geht ihr vor, um das Datenmanagement in der Gruppe Grassland Sciences zu verbessern?

SK: Wie beschrieben sind wir, denke ich, insgesamt schon ganz gut aufgestellt – auch dadurch, dass wir Data Stewardship schon als geteilte Aufgabe leben und umsetzen.

«Eine Herausforderung ist aber sicher, bei jungen Forschenden ein Bewusstsein dafür zu schaffen, dass Datenmanagement schon bei der Planung eines Experiments und in allen Prozessen der Datenverarbeitung [...] mitgedacht wird.»
Sabina Keller

Durch eine Einführung ins Datenmanagement bereits zu Beginn eines Forschungsprojekts sensibilisieren wir die jungen Forschenden dafür und thematisieren auch die Verantwortung in den weiteren Schritten der Forschung, z. B. zum richtigen Zitieren von Datenquellen.

LH: Wir haben regelmässige Treffen, meist monatlich, um uns zu Methoden (z. B. Berechnung, Verarbeitung, Variablenbenennung) auszutauschen oder abzustimmen, und um gemeinsam neueste Daten durchzugehen. Die bereits vorhandene Erfahrung innerhalb der Gruppe wird an neue Gruppenmitglieder weitergegeben. Das ist zunächst zeitintensiv, doch langfristig führt es zu einer deutlichen Effizienzsteigerung in der täglichen Arbeit. Zudem diskutieren wir Daten-Themen auf jedem Gruppen-Retreat. Durch meine feste Anstellung kann ich versuchen dazu beizutragen, die Kontinuität, Konsistenz und domänenspezifisches Wissen innerhalb der Gruppe so weit wie möglich zu erhalten und weiterzuentwickeln. Das ist aus meiner Sicht enorm wertvoll und ermöglicht uns, Data Stewardship nachhaltig in unserer Forschungsgruppe zu verankern.

Data ​Stewardship an der ETH Zürich

Im Rahmen der externe Seite nationalen ORD-Strategie von swissuniversities sowie des ORD-Programms des ETH-Bereichs wird Data Stewardship an der ETH Zürich unterstützt. Die ETH-​Bibliothek engagiert sich aktiv in diesen Programmen und koordiniert unter der Leitung von Dr. Julian Dederke Aktivitäten zu Data Stewardship. 
Lesen Sie hier die früheren Interviews zu Data-Stewardship-Modellen an der ETH Zürich und die News zum Start des Data Stewardship Network.

JavaScript wurde auf Ihrem Browser deaktiviert