Finden & Nachnutzen

Was sind offene Daten, was sind FAIRe Daten?

Offene Daten – Open Data – können ohne Einschränkungen genutzt und verbreitet werden. Die Möglichkeiten der Weiterverwendung sind dabei über offene Lizenzen – meist Creative Commons – kenntlich. [7]

Da es aus verschiedenen Gründen (z. B. Datenschutz oder wirtschaftliche Verwertungsinteressen) oft nicht möglich ist, Primärdaten komplett offen zur Verfügung zu stellen, ist das Ziel bei der Veröffentlichung von Daten, diese möglichst FAIR zugänglich zu machen.

Die FAIR-Prinzipien besagen, dass Forschungsdaten auffindbar (findable), zugänglich (accessible), interoperabel (interoperable) und wiederverwendbar (reuseable) veröffentlicht werden sollen. Sollen also sensible Daten zugänglich gemacht werden, ist die Ablage in einem Repositorium, dass eine Datennutzung nur nach vorheriger Authentifizierung und Autorisierung ermöglicht, im Einklang mit den FAIR-Prinzipien.

Diese und weitere Informationen finden Sie auf der Informationsplattform forschungsdaten.info.
 

Wo finde ich nachnutzbare Daten?

Oft werden Forschungsdaten in Repositorien abgelegt. Um passende Repositorien aufzufinden, stehen u. a. Re3Data, OpenDOAR und RIsources zur Verfügung. 

Um direkt nach Forschungsdaten zu suchen, können z. B. die Suchmaschinen DataCite Commons, das European Union Open Data Portal, B2FIND oder Google Dataset Search genutzt werden.

Diese und weitere Informationen finden Sie auf der Informationsplattform forschungsdaten.info.
 

Erheben & Aufbereiten

Wozu dient ein Datenmanagementplan (DMP)? Wie kann ein DMP erstellt werden?

Mit einem Datenmanagementplan (DMP) wird der Umgang mit Forschungsdaten während und nach Abschluss eines wissenschaftlichen Projekts beschrieben. Ein DMP ist ein sinnvolles Hilfsmittel, das der Projektleitung und allen Projektbeteiligten über die gesamte Dauer und den Forschungsdatenlebenszyklus hinweg den Überblick über Datenhaltung und -verwaltung ermöglicht.

Die Erstellung eines DMP kann unabhängig davon, ob eine Publikation der Daten angestrebt wird, sinnvoll sein, da Lücken und Unklarheiten in Bezug auf den Umgang mit den erstellten Forschungsdaten frühzeitig und umfassend ausgeräumt werden können. Die Art der Daten, der dafür benötigte Speicherplatz sowie Zugriffsrechte während und nach Ende des Projekts sind ein paar Aspekte, die in einem DMP geklärt und dokumentiert werden können.

Mehrere Forschungsfördereinrichtungen fordern Angaben zum Umgang mit Forschungsdaten in Anträgen. Meist wird dabei kein formaler DMP erwartet, die Umsetzung dieser Förderbedingung kann mit einem DMP jedoch erleichtert werden. Die Vorgaben der forschungsfördernden Institutionen sind auf der Informationsplattform forschungsdaten.info in einer Übersicht dargestellt.

Ein verbreitetes Tool zur Erstellung eines DMP ist der Research Data Management Organiser (RDMO). Frei verfügbare Installationen werden von forschungsdaten.info und NFDI4Ing zur Verfügung gestellt. Der Login ist jeweils u. a. mit Ihrer ORCID ID möglich.

Die Deutsche Forschungsgemeinschaft (DFG) bietet eine Checkliste zum Inhalt eines DMP. Die Plattform DMPonline, die ebenfalls zur Erstellung von DMP genutzt werden kann, führt eine Liste mit öffentlich einsehbaren DMP, die als Beispiele genutzt werden können (nicht qualitätsgeprüft).

Diese und weitere Informationen finden Sie auf der Informationsplattform forschungsdaten.info.
 

Wie lassen sich Daten organisieren?

Eine von vornherein geregelte Strukturierung, Dokumentation und Sicherung der Forschungsdaten kann für eine erhebliche Reduzierung von Aufwand und Zeit in der alltäglichen Forschungsarbeit sorgen. Dazu zählen so grundlegende Festlegungen wie eine klar geregelte Ordnerstruktur und -benennung im Rahmen eines Projekts, die für alle Beteiligten bindend ist. Empfehlenswert ist dabei eine Ordnerhierarchie, die aus höchstens drei Ebenen besteht. Außerdem sollte eine klare Regelung für die Datenlöschung nach Projektende getroffen werden. Alle Festlegungen sollten dabei schriftlich dokumentiert und allen Projektbeteiligten bekannt und jederzeit zugreifbar gemacht werden.

Für die erhobenen Daten(sätze) selbst ist es entscheidend, Veränderungen durch eine funktionale Versionskontrolle nachvollziehbar zu machen. Dies kann durch eine präzise Benennungskonvention erreicht werden, in der eine Versionsnummer und das Änderungsdatum (bestenfalls in der Form YYYYMMDD) enthalten ist. Final bearbeitete Datensätze sollten eine entsprechende Kennzeichnung erhalten. Um Datenverlust möglichst zu vermeiden, empfiehlt es sich, regelmäßig Versionen, die nicht gelöscht oder verändert werden dürfen, an einem weiteren Speicherort zu sichern.

Diese und weitere Informationen finden Sie auf der Informationsplattform forschungsdaten.info.
 

Veröffentlichen & Archivieren

Warum sollen Forschungsdaten veröffentlicht werden?

Die Veröffentlichung von Forschungsdaten dient v. a. der guten wissenschaftlichen Praxis und wird an mehreren Stellen des Kodex Leitlinien zur Sicherung guter wissenschaftlichen Praxis der Deutschen Forschungsgemeinschaft (DFG) adressiert.

Besonders relevant ist dafür Leitlinie 12: Dokumentation, die beschreibt, dass zur Bewertung und Überprüfung von Forschungsergebnissen sämtliche relevanten Informationen zu deren Entstehung nach fachspezifischen Standards dokumentiert werden müssen. Dabei sind Maßnahmen zum Schutz vor Manipulation zu treffen und Dritten der Zugang zu diesen Informationen zu ermöglichen. Neben Forschungsdaten betrifft dies u. a. auch Methode, Auswertung und Analyse sowie Quellcode von Forschungssoftware.

In Leitlinie 13: Herstellung von öffentlichem Zugang zu Forschungsergebnissen wird eingangs dargelegt, dass es in Einzelfällen begründet sein kann, Ergebnisse nicht zu veröffentlichen. Forschende treffen eigenverantwortlich und auf Grundlage von Gepflogenheiten des jeweiligen Fachgebiets die Entscheidung der Veröffentlichung. Forschungsdaten sollen dabei unter Berücksichtigung der FAIR-Prinzipien (s. auch Abschnitt “Wie können Forschungsdaten FAIR veröffentlicht werden?”) in zuverlässigen Repositorien zugänglich gemacht werden.

Der Umgang mit Forschungsdaten wird außerdem u. a. in Leitlinie 10: Rechtliche und ethische Rahmenbedingungen, Nutzungsrechte und Leitlinie 17: Archivierung geregelt. Einen Überblick zu den Aussagen des Kodex zu Forschungsdaten gibt die Informationsplattform forschungsdaten.info
 

Wie können Forschungsdaten FAIR veröffentlicht werden?

Die FAIR-Prinzipien besagen, dass Forschungsdaten auffindbar (findable), zugänglich (accessible), interoperabel (interoperable) und wiederverwendbar (reuseable) veröffentlicht werden sollen.

Um die Auffindbarkeit zu gewährleisten, müssen die Daten u. a. mit umfangreichen Metadaten beschrieben werden und einen persistenten Identifikator (z. B. DOI) bekommen. Außerdem ist die Indexierung der (Meta-)Daten in einer Suchmaschine oder Datenbank notwendig.

Die Zugänglichkeit zu den (Meta-)Daten soll über ein standardisiertes und offenes Kommunikationsprotokoll möglich sein, das bei Bedarf eine Authentifizierung und Autorisierung ermöglicht. Die Metadaten bleiben abrufbar, auch wenn die Verfügbarkeit der eigentlichen Forschungsdaten nicht (mehr) gegeben ist.

Im Kontext der Interoperabilität werden die genutzten Sprachen und Vokabularien für die (Meta-)Daten beschrieben. Außerdem sollen die (Meta-)Daten jeweils sinnvoll mit weiteren (Meta-)Daten verknüpft werden.

Die Wiederverwendbarkeit zielt v. a. auf die Beschreibung der Daten ab. Dabei sind der Entstehungskontext der Daten, die Verwendung einer Nutzungslizenz sowie fachspezifische Standards zu berücksichtigen.

Diese und weitere ausführliche Informationen zu den FAIR-Prinzipien sowie Erläuterungen zu ihrer Umsetzung bietet GO FAIR.
 

Wo können Forschungsdaten veröffentlicht werden?

Zur reinen Beschreibung komplexer und bedeutsamer Datensätze eignen sich Artikel in Data Journals. Analog zu klassischen Forschungsartikeln in wissenschaftlichen Journals durchlaufen sie ein Begutachtungsverfahren. Einen Überblick über Data Journals bietet u. a. das Portal forschungsdaten.org. [8]

Der beschriebene Datensatz sollte separat in einem geeigneten Repositorium veröffentlicht werden. Bei der Auswahl sind fachspezifische Standards und Vorgaben der Förderinstitutionen oder von Verlagen zu beachten. Auch eine angestrebte Langzeitarchivierung sollte berücksichtigt werden.

Wenn ein passendes fachliches Repositorium existiert, sollte die Veröffentlichung der Forschungsdaten dort erfolgen. Die Verzeichnisse Re3Data und RIsources ermöglichen eine fachspezifische Suche nach Repositorien. 

Stehen keine geeigneten fachlichen Repositorien zur Verfügung, können generische Repositorien genutzt werden, z. B. Zenodo.

Diese und weitere Informationen finden Sie auf der Informationsplattform forschungsdaten.info.
 

Welche Dateiformate eignen sich für Nachnutzung und Langzeitarchivierung?

Um die langfristige Nachnutzbarkeit Ihrer Forschungsdaten zu gewährleisten, sollten Sie für die Veröffentlichung Dateiformate nutzen, die mit verschiedenen Systemen kompatibel, möglichst langfristig archivierbar und verlustfrei konvertierbar sind.

Bei der Datenerhebung werden i. d. R. spezielle Programme verwendet, die in den Fachgebieten verbreitet und auf die Erhebungsmethode gezielt ausgerichtet sind. Dabei werden meistens eigene Dateiformate genutzt. Steht eine Exportfunktion zur Verfügung, die eine Speicherung in einem alternativen, nach den oben genannten Kriterien für die Veröffentlichung besser geeigneten Dateiformat ermöglicht, sollte diese genutzt werden. Die Informationsplattform forschungsdaten.info hat eine Übersicht zu Dateiformaten erstellt, die sich für eine Veröffentlichung langfristig oder mittelfristig eignen oder als ungeeignet angesehen werden.

Wenn eine Konvertierung in ein anderes Dateiformat notwendig ist, muss die Entscheidung getroffen werden, ob diese Konvertierung verlustfrei, verlustbehaftet oder sinnhaft erfolgen soll. Eine verlustbehaftete Konvertierung kann gegenüber einer verlustfreien Konvertierung von Vorteil sein, wenn eine geringere Dateigröße angestrebt wird. Erfolgt diese verlustbehaftete Konvertierung so, dass alle wesentlichen Inhalte erhalten bleiben (also sinnhaft), kann dies ausreichend sein.

Diese und weitere Informationen finden Sie auf der Informationsplattform forschungsdaten.info.