Forschungsdatenmanagement in Literatur- und Sprachwissenschaften: Vortrag am 27.1. am IWS

Am Mo, den 27.1. um 14 Uhr hält Carolin Odebrecht (HU Berlin) am IWS einen Vortrag zum Umgang mit der Vielfalt von Daten und Methoden in den Literaturwissenschaften und der Linguistik.

Viele (nicht nur) geisteswissenschaftliche Fachbereiche sind bereits durch die Förderorganisationen, Hochschulinitiativen und eigene Forschungsprojekte für die Aufgaben und Herausforderungen des Forschungsdatenmanagements sensibilisiert worden. Angesichts einer großen methodischen Vielfalt und Heterogenität der Daten gibt es in den Literatur- und Sprachwissenschaften aber keine generelle Lösung für die konkrete Umsetzung des Datenmanagements.

Carolin Odebrecht stellt den Ansatz der Fakultät für Sprach-, Literatur- und Geisteswissenschaften der HU Berlin vor, der sich auf einen domänenspezifischen Ansatz zum Forschungsdatenmanagement konzentriert und diskutiert Möglichkeiten, eine Balance zwischen generellen Anforderungen und spezifischen Forschungsinteressen zu finden.

Wann: Mo, 27.1. 2020 – 14 Uhr bis 15.30 Uhr

Wo: IMS, Pfaffenwaldring 5b, Raum V 5.01/5.02

Vortragende: Carolin Odebrecht (HU Berlin)

Titel des Vortrags: Handling the diversity of speech, texts and concepts created in experimental, data based or data driven research:  Research data management in the context of a diversity in data and methods for literary studies and linguistics

Informationen zum Forschungsdatenmanagement an der Universität Stuttgart finden sich auf den Seiten des Forschungsdaten Kompetenzzentrums FoKUS.

Neue Zeitschrift „Bausteine Forschungsdatenmanagement“ online

Best-Practice–Beispiele zum Forschungsdatenmanagement

Zielgruppe sind Fachleute in Wissenschaft und Infrastruktureinrichtungen

Unter dem Titel „Bausteine Forschungsdatenmanagement – Empfehlungen und Erfahrungsberichte für die Praxis von Forschungsdatenmanagerinnen und -managern“ ist eine neue Fachzeitschrift veröffentlicht worden. Zielgruppe sind Verantwortliche im Forschungsdatenmanagement in Wissenschaft und Informationsinfrastruktur-Einrichtungen wie Bibliotheken. Neben Überblicksartikeln erscheinen auch Best-Practice–Beispiele.

Eine Unterarbeitsgruppe der DINI/nestor AG Forschungsdaten hat unter dem Link https://bausteine-fdm.de erste Beiträge zu unterschiedlichen Themen des Forschungsdatenmanagements in der Praxis veröffentlicht.
In der Reihe, die nach und nach ergänzt werden soll, sind von Autorinnen und Autoren zunächst folgende Bausteine erschienen:
• Wissen vermitteln über den Umgang mit Forschungsdaten
• Aufbau und Bekanntmachung von Informationsangeboten über Forschungsdatenmanagement für Forschende
• Erstellung und Realisierung einer institutionellen Forschungsdaten-Policy
• Beratungsangebote für Forschende
• Lösungsansätze zu einer technischen Infrastruktur für Forschungsdatenmanagement

„Bausteine Forschungsdatenmanagement“ ist eine Open-Access-Publikation. Die Veröffentlichung ist für die Autorinnen und Autoren kostenfrei. Alle eingereichten Beiträge werden begutachtet und sind zitierfähig.

Die Universitätsbibliothek Stuttgart beteiligt sich an der Herausgabe der Zeitschrift: Sibylle Hermann, Referentin für Forschungsdatenmanagement, gehört zum Redaktionsteam. Sie ist Sprecherin der Unterarbeitsgruppe „Bausteine Forschungsdatenmanagement“ der DINI/nestor AG Forschungsdaten.

Kontakt:
Deutsche Initiative für Netzwerkinformation e. V.
DINI/nestor AG Forschungsdaten
Redaktion „Bausteine Forschungsdatenmanagement“
E-Mail: redaktion@bausteine-fdm.de
https://bausteine-fdm.de

Dokumentation von Zwischenständen im Forschungsprozess mit RePlay-DH

Definition und Umsetzung von Prozessmetadaten

Was wir unter Prozessmetadaten verstehen

Um Zwischenergebnisse in der eigenen Forschungsarbeit besser dokumentieren zu können, ist es hilfreich auf ein einfaches Metadatenschema zurückgreifen zu können. Das ermöglicht, mit wenig Aufwand eine sinnvolle Beschreibung der getanen Arbeit zu gewährleisten. Im Projekt RePlay-DH wurde dazu ein Schema für Metadaten serialisiert, das den Prozess, der zu einem Zwischenstand geführt hat, abbildet. Diese Metadaten, im Projekt als „Prozessemetadaten“ bezeichnet, werden beim Speichern der Änderungen (als Commit in Git) mit abgelegt.

Wie wir die Prozesse in der Computerlinguistik abbilden

Dazu wurden sieben Felder definiert, die in einem Arbeitsschritt in der Regel anfallen: Das Feld „Title“ beinhaltet eine kurze Beschreibung des Workflowschritts. „Person“, bildet die Person(en) ab, die an diesem Arbeitsschritt beteiligt waren (z.B. Annotator). Die „Description“ bietet die Möglichkeit einen Freitext zur Beschreibung des Zwischenergebnisses einzugeben. Das  Feld „Input“ benennt die Dateien, die während des jeweiligen Arbeitsschrittes beteiligt waren (z.B. Korpora) . Das „Output“-Feld, beinhaltet die Ressourcen, die erzeugt, bzw. angepasst wurden (z.B. Ergebnisdaten).  Die eingesetzten Softwarewerkzeuge werden im Feld „Tool“  aufgenommen. Es ist dabei möglich, beliebig viele Programme oder Skripte zu erfassen und auch deren Ausführungsreihenfolge und deren Parameter anzugeben. In „Custom Properties“ können beliebige Metadateneinträge hinterlegt werden, um zusätzlich maschinenlesbare Informationen bereitstellen zu können.

Wie findet die technische Umsetzung statt?

Die Prozessmetadaten werden im Datenaustauschformat JSON modelliert und mit Hilfe eines JSON-Schemas validiert. Es wird dabei angestrebt, dass der Inhalt der Prozessmetadaten im Idealfall nur einmal angeben werden muss bzw. möglichst automatisch generiert wird, so dass der Nutzer sich auf seine eigentliche Forschungsarbeit konzentrieren kann. Des Weiteren soll es im Client künftig möglich sein, die Prozessmetadaten für den eigenen Arbeitsprozess auch auf andere Fachbereiche anzupassen.

Universität Stuttgart veröffentlicht Forschungsdatenpolicy

Leitlinien zum Umgang mit Forschungsdaten

Die Universität Stuttgart hat auf ihren Webseiten eine Forschungsdatenpolicy veröffentlicht. Sie enthält für die Forscher die Leitlinien der Universität zum Umgang mit Forschungsdaten. Die Forschungsdatenpolicy beschreibt und setzt die Rahmenbedingungen für den Umgang mit Forschungsdaten und die Organisation des Forschungsdatenmanagements an der Universität Stuttgart. Damit erhalten die Forscher der Universität Leitlinien, die sie als Richtschnur für den Umgang mit eigenen Forschungsdaten verwenden können.

Eine deutsche und englische Version befinden sich auf der Webseite der Universitätsbibliothek im Bereich Forschungsdatenmanagement.

Das Konzept von RePlay-DH: Datenmanagement per Versionsverwaltung

Ein einfacher Client hilft bei der Nutzung einer komplexen Versionsverwaltungssoftware.

Für viele Wissenschaftler in den digitalen Geisteswissenschaften stellt sich ab einem bestimmten Punkt die Frage, wie man am besten den Überblick in komplexen Projekten behalten kann. Das Projekt Replay-DH entwickelt anhand eines Use Case aus der Computerlinguistik zur Korpus-Annotation eine Softwareumgebung, die durch den Einsatz von Versionsverwaltungssoftware für Übersichtlichkeit beim Management der eigenen Daten und Tools während des Forschungsprozesses sorgen soll.

Die Problemstellung

Prozesse in den digitalen Geisteswissenschaften tendieren dazu, teils hochgradig individualisiert abzulaufen und können dabei beliebig komplex werden. Das Resultat: bei ungenügender Dokumentation, kann eine Nachvollziehbarkeit der Resultate unter Umständen nur noch eingeschränkt, im schlimmsten Falle gar nicht mehr, gewährleistet werden. Während die digitalen Geisteswissenschaften bislang viele Softwareentwicklungen im Bereich virtueller Forschungsumgebungen verzeichnen, ist ein Ansatz, der den Wissenschaftler an seiner eigenen Forschungsumgebung am Arbeitsplatz abholt, bislang nicht realisiert und auch in der Literatur noch nicht näher beschrieben.

Das Konzept

RePlay Digital Humanities nimmt dieses Manko als Prämisse zur Entwicklung einer Neu-Implementierung eines bestehenden Systems, indem das Konzept einer Versionsverwaltungssoftware für einen neuen Kontext und eine neue Nutzergruppe anwendbar gemacht wird, kann der Forscher seine gewohnten Arbeitsprozesse beibehalten. Replay-DH unterstützt den Forscher während des Arbeitsprozesses beim Management und bei der Beschreibung der genutzten Tools und der erhobenen Daten, um eine bestmögliche Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten.

Wie funktioniert das Ganze? Die Architektur hinter der Idee
  • Git als Basis des Datenmanagements
  • Java-Anwendung als plattformübergreifende Software
  • Anbindung an (GitLab-)Server zur Kollaboration in Forschergruppen
  • Anbindung an (DSpace-)Repositorien zur Veröffentlichung der Inhalte
Warum sollte ich den Replay-Client als Wissenschaftler nutzen?
  • Bessere Dokumentation und Wiederauffindbarkeit bestimmter Arbeitsstände
  • Möglichkeit der Anbindung an eine lokal vorahandene Git-Infrastruktur (z.B. GitLab am Institut)
  • Möglichkeit des kollaborativen Arbeitens mit Kollegen
  • Möglichkeit der Anbindung an eine Veröffentlichungs-Infrastruktur

Informationsseite zum Forschungsdatenmanagement online

Forschung und Daten managen: www.forschungsdaten.info

Im Rahmen einer Initiative des Ministeriums für Wissenschaft, Forschung und Kunst in Baden-Württemberg (MWK) ist eine neue Informationsseite zum Forschungsdatenmanagement in Baden-Württemberg und darüber hinaus online gegangen. Die Webseite bietet Informationen zum Prozess des Forschungsdatenmanagements und deckt damit alle relevanten Fragestellungen ab, die für ein erfolgreiches Forschungsdatenmanagement wichtig sind. Ferner gibt sie eine Übersicht über die in Baden-Württemberg geförderten E-Science-Projekte:

https://www.forschungsdaten.info/

Empfehlungen zum Forschungsdatenmanagement in Deutschland

Positionspapier des Rates für Informationsinfrastrukturen

Der Rat für Informationsinfrastrukturen hat in der Mitte dieses Jahres ein Positionspapier mit dem Titel „Leistung aus Vielfalt“ mit „Empfehlungen zu Strukturen, Prozessen und Finanzierung des Forschungsdatenmanagements (FDM) in Deutschland“ veröffentlicht. In diesem empfiehlt er den Aufbau einer Nationalen Forschungsdateninfrastruktur, kurz NFDI, die „Kompetenzen bündeln und [eine] Grundversorgung mit Services für das Forschungsdatenmanagement schaffen“ soll. In diesem Papier werden alle wichtigen Kriterien für ein erfolgreiches FDM genannt, die aus Sicht des Rates ausgebaut und gefördert werden sollten:

  • Einbettung der Informationsinfrastrukturen in einen europäischen Kontext,
  • Klärung der Fragen der Langzeitarchivierung und Verfügbarkeit der Daten,
  • Schaffung von organisatorischen Leitlinien im FDM (wie z. B. der Veröffentlichung von Forschungsdatenpolicies und der Erstellung von Datenmanagementplänen (DMP)),
  • Schaffung und Ausbildung von akademischen und nicht-akademischen Personal für das FDM sowie
  • Stärkung der Informationskompetenz in Lehre und Forschung.

Nachzulesen ist das Positionspapier auf der Webseite des Rates für Informationsinfrastrukturen und kann auch dort als PDF-Datei heruntergeladen werden.