Forschungsdaten: Client-Code für Versionierung veröffentlicht

Seit Mai ist der Quellcode des RePlay-DH-Clients auf GitHub zugänglich.

Dokumentation ist eine wichtige aber oft vernachlässigte Aufgabe. Das Projekt RePlay-DH hat sich zum Ziel gesetzt ein Programm zu entwickeln, das, ohne den gewohnten Arbeitsalltag zu verlassen, auf einfache Art und Weise ermöglicht, Zwischenstände von Forschungsdaten zu dokumentieren. Ein erste Version ist nun fertig gestellt worden und steht zum Testen zur Verfügung. Sowohl der Sourcecode als auch ein ausführbares Programm sind unter https://GitHub.com/RePlay-DH/ verfügbar. Die aktuelle Version des Programms kann als zip-File heruntergeladen werden. Um den Client zu starten, muss Java (Version 8 oder höher) auf dem Rechner installiert sein. Beim ersten Start wird der Nutzer durch einen Setup-Wizard geführt, danach kann ein beliebiges Verzeichnis auf Änderungen überwacht werden.

Die Änderungen können mit definierten Metadaten beschrieben werden. Bisher ist das in dem Projekt entwickelte Metadatenschema für die Computer-Linguistik hinterlegt. Es besteht die Möglichkeit weitere Metadatenschemata einzufügen. Metadaten, mit denen der Arbeitsprozess dokumentiert wurde,  können in verschiedene Formate exportiert werden. Darüber hinaus ist die  Anbindung an ein lokales Repositorium vorgesehen, um Daten aus dem Client heraus zu publizieren. Bisher wurde dazu eine Schnittstelle zu DSpace implementiert.

Das Projektteam freut sich über Tester und Rückmeldungen:
info.replay-dh@lists.uni-ulm.de

Dokumentation von Zwischenständen im Forschungsprozess mit RePlay-DH

Definition und Umsetzung von Prozessmetadaten

Was wir unter Prozessmetadaten verstehen

Um Zwischenergebnisse in der eigenen Forschungsarbeit besser dokumentieren zu können, ist es hilfreich auf ein einfaches Metadatenschema zurückgreifen zu können. Das ermöglicht, mit wenig Aufwand eine sinnvolle Beschreibung der getanen Arbeit zu gewährleisten. Im Projekt RePlay-DH wurde dazu ein Schema für Metadaten serialisiert, das den Prozess, der zu einem Zwischenstand geführt hat, abbildet. Diese Metadaten, im Projekt als „Prozessemetadaten“ bezeichnet, werden beim Speichern der Änderungen (als Commit in Git) mit abgelegt.

Wie wir die Prozesse in der Computerlinguistik abbilden

Dazu wurden sieben Felder definiert, die in einem Arbeitsschritt in der Regel anfallen: Das Feld „Title“ beinhaltet eine kurze Beschreibung des Workflowschritts. „Person“, bildet die Person(en) ab, die an diesem Arbeitsschritt beteiligt waren (z.B. Annotator). Die „Description“ bietet die Möglichkeit einen Freitext zur Beschreibung des Zwischenergebnisses einzugeben. Das  Feld „Input“ benennt die Dateien, die während des jeweiligen Arbeitsschrittes beteiligt waren (z.B. Korpora) . Das „Output“-Feld, beinhaltet die Ressourcen, die erzeugt, bzw. angepasst wurden (z.B. Ergebnisdaten).  Die eingesetzten Softwarewerkzeuge werden im Feld „Tool“  aufgenommen. Es ist dabei möglich, beliebig viele Programme oder Skripte zu erfassen und auch deren Ausführungsreihenfolge und deren Parameter anzugeben. In „Custom Properties“ können beliebige Metadateneinträge hinterlegt werden, um zusätzlich maschinenlesbare Informationen bereitstellen zu können.

Wie findet die technische Umsetzung statt?

Die Prozessmetadaten werden im Datenaustauschformat JSON modelliert und mit Hilfe eines JSON-Schemas validiert. Es wird dabei angestrebt, dass der Inhalt der Prozessmetadaten im Idealfall nur einmal angeben werden muss bzw. möglichst automatisch generiert wird, so dass der Nutzer sich auf seine eigentliche Forschungsarbeit konzentrieren kann. Des Weiteren soll es im Client künftig möglich sein, die Prozessmetadaten für den eigenen Arbeitsprozess auch auf andere Fachbereiche anzupassen.

Das Konzept von RePlay-DH: Datenmanagement per Versionsverwaltung

Ein einfacher Client hilft bei der Nutzung einer komplexen Versionsverwaltungssoftware.

Für viele Wissenschaftler in den digitalen Geisteswissenschaften stellt sich ab einem bestimmten Punkt die Frage, wie man am besten den Überblick in komplexen Projekten behalten kann. Das Projekt Replay-DH entwickelt anhand eines Use Case aus der Computerlinguistik zur Korpus-Annotation eine Softwareumgebung, die durch den Einsatz von Versionsverwaltungssoftware für Übersichtlichkeit beim Management der eigenen Daten und Tools während des Forschungsprozesses sorgen soll.

Die Problemstellung

Prozesse in den digitalen Geisteswissenschaften tendieren dazu, teils hochgradig individualisiert abzulaufen und können dabei beliebig komplex werden. Das Resultat: bei ungenügender Dokumentation, kann eine Nachvollziehbarkeit der Resultate unter Umständen nur noch eingeschränkt, im schlimmsten Falle gar nicht mehr, gewährleistet werden. Während die digitalen Geisteswissenschaften bislang viele Softwareentwicklungen im Bereich virtueller Forschungsumgebungen verzeichnen, ist ein Ansatz, der den Wissenschaftler an seiner eigenen Forschungsumgebung am Arbeitsplatz abholt, bislang nicht realisiert und auch in der Literatur noch nicht näher beschrieben.

Das Konzept

RePlay Digital Humanities nimmt dieses Manko als Prämisse zur Entwicklung einer Neu-Implementierung eines bestehenden Systems, indem das Konzept einer Versionsverwaltungssoftware für einen neuen Kontext und eine neue Nutzergruppe anwendbar gemacht wird, kann der Forscher seine gewohnten Arbeitsprozesse beibehalten. Replay-DH unterstützt den Forscher während des Arbeitsprozesses beim Management und bei der Beschreibung der genutzten Tools und der erhobenen Daten, um eine bestmögliche Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten.

Wie funktioniert das Ganze? Die Architektur hinter der Idee
  • Git als Basis des Datenmanagements
  • Java-Anwendung als plattformübergreifende Software
  • Anbindung an (GitLab-)Server zur Kollaboration in Forschergruppen
  • Anbindung an (DSpace-)Repositorien zur Veröffentlichung der Inhalte
Warum sollte ich den Replay-Client als Wissenschaftler nutzen?
  • Bessere Dokumentation und Wiederauffindbarkeit bestimmter Arbeitsstände
  • Möglichkeit der Anbindung an eine lokal vorahandene Git-Infrastruktur (z.B. GitLab am Institut)
  • Möglichkeit des kollaborativen Arbeitens mit Kollegen
  • Möglichkeit der Anbindung an eine Veröffentlichungs-Infrastruktur

Posterbeitrag E-Science-Tage 2017

Poster zeigt Konzept hinter dem Projekt ReplayDH

Die E-Science-Tage 2017 in Heidelberg boten unserem Projekt eine gute Möglichkeit, das für Replay-DH entwickelte Konzept näher zu erläutern: im Zentrum steht dabei die Entwicklung eines Clients zur Verwaltung von Forschungsdaten für Corpus-Annotationen in der Computerlinguistik.

Mit unserem Posterbeitrag konnten wir die Idee, spezifische Prozesse aus der Computerlinguistik (im Sinne eines „Workflow-Trackers“) mit einer Versionsverwaltung zu dokumentieren, Arbeitsstände mit Kollegen teilen zu können und daraus ausgewählte Teilschritte zu veröffentlichen, erstmals einem interessierten Publikum näher erläutern und erste Feedbacks einholen. Wir halten Sie über die Weiterentwicklung unseres Clients auf dem Laufenden und freuen uns über Feedback aus der Community der Computerlinguisten und dem Bereich der Digital Humanities!

Neuigkeiten aus dem Projekt Replay-DH

Informationskanal zu den aktuellen Entwicklungen, per RSS-Feed abonnierbar

Die Entwicklungen im Projekt Replay-DH schreiten voran und das Feedback von potenziellen Nutzern zu unseren Konzepten und in Kürze zu unserem Client, wird immer relevanter.

Mit diesem Blog stellen wir allen Interessierten Informationen rund um das Projekt bereit. Im Zentrum von Replay-DH steht die Entwicklung eines Clients, der Forschern bei der Arbeit mit Text-Corpora, genauer bei der Corpus-Annotation, eine Hilfestellung geben soll: der Client dokumentiert dabei die eigenen Arbeitsprozesse und soll es in einem späteren Entwicklungsstadium ermöglichen, Arbeitsstände mit Kollegen zu teilen. Das Programm nutzt dabei die Funktionen der Versionsverwaltungssoftware Git und passt diese auf das Anwendungsszenario der Corpus-Annotation an.

In unserem Blog werden wir sie über weitere Entwicklungen und neu implementierte  Features auf dem Laufenden halten! Wenn Sie Interesse an den weiteren Entwicklungen haben, können Sie sich auch einen RSS-Feed einrichten. Da das Projekt Replay-DH mit dem Feedback aus der Fachcommunity lebt, ist Ihr Feedback sehr willkommen!