Das Konzept von RePlay-DH: Datenmanagement per Versionsverwaltung

Ein einfacher Client hilft bei der Nutzung einer komplexen Versionsverwaltungssoftware.

Für viele Wissenschaftler in den digitalen Geisteswissenschaften stellt sich ab einem bestimmten Punkt die Frage, wie man am besten den Überblick in komplexen Projekten behalten kann. Das Projekt Replay-DH entwickelt anhand eines Use Case aus der Computerlinguistik zur Korpus-Annotation eine Softwareumgebung, die durch den Einsatz von Versionsverwaltungssoftware für Übersichtlichkeit beim Management der eigenen Daten und Tools während des Forschungsprozesses sorgen soll.

Die Problemstellung

Prozesse in den digitalen Geisteswissenschaften tendieren dazu, teils hochgradig individualisiert abzulaufen und können dabei beliebig komplex werden. Das Resultat: bei ungenügender Dokumentation, kann eine Nachvollziehbarkeit der Resultate unter Umständen nur noch eingeschränkt, im schlimmsten Falle gar nicht mehr, gewährleistet werden. Während die digitalen Geisteswissenschaften bislang viele Softwareentwicklungen im Bereich virtueller Forschungsumgebungen verzeichnen, ist ein Ansatz, der den Wissenschaftler an seiner eigenen Forschungsumgebung am Arbeitsplatz abholt, bislang nicht realisiert und auch in der Literatur noch nicht näher beschrieben.

Das Konzept

RePlay Digital Humanities nimmt dieses Manko als Prämisse zur Entwicklung einer Neu-Implementierung eines bestehenden Systems, indem das Konzept einer Versionsverwaltungssoftware für einen neuen Kontext und eine neue Nutzergruppe anwendbar gemacht wird, kann der Forscher seine gewohnten Arbeitsprozesse beibehalten. Replay-DH unterstützt den Forscher während des Arbeitsprozesses beim Management und bei der Beschreibung der genutzten Tools und der erhobenen Daten, um eine bestmögliche Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten.

Wie funktioniert das Ganze? Die Architektur hinter der Idee
  • Git als Basis des Datenmanagements
  • Java-Anwendung als plattformübergreifende Software
  • Anbindung an (GitLab-)Server zur Kollaboration in Forschergruppen
  • Anbindung an (DSpace-)Repositorien zur Veröffentlichung der Inhalte
Warum sollte ich den Replay-Client als Wissenschaftler nutzen?
  • Bessere Dokumentation und Wiederauffindbarkeit bestimmter Arbeitsstände
  • Möglichkeit der Anbindung an eine lokal vorahandene Git-Infrastruktur (z.B. GitLab am Institut)
  • Möglichkeit des kollaborativen Arbeitens mit Kollegen
  • Möglichkeit der Anbindung an eine Veröffentlichungs-Infrastruktur