Forschungsdaten: Client-Code für Versionierung veröffentlicht

Seit Mai ist der Quellcode des RePlay-DH-Clients auf GitHub zugänglich.

Dokumentation ist eine wichtige aber oft vernachlässigte Aufgabe. Das Projekt RePlay-DH hat sich zum Ziel gesetzt ein Programm zu entwickeln, das, ohne den gewohnten Arbeitsalltag zu verlassen, auf einfache Art und Weise ermöglicht, Zwischenstände von Forschungsdaten zu dokumentieren. Ein erste Version ist nun fertig gestellt worden und steht zum Testen zur Verfügung. Sowohl der Sourcecode als auch ein ausführbares Programm sind unter https://GitHub.com/RePlay-DH/ verfügbar. Die aktuelle Version des Programms kann als zip-File heruntergeladen werden. Um den Client zu starten, muss Java (Version 8 oder höher) auf dem Rechner installiert sein. Beim ersten Start wird der Nutzer durch einen Setup-Wizard geführt, danach kann ein beliebiges Verzeichnis auf Änderungen überwacht werden.

Die Änderungen können mit definierten Metadaten beschrieben werden. Bisher ist das in dem Projekt entwickelte Metadatenschema für die Computer-Linguistik hinterlegt. Es besteht die Möglichkeit weitere Metadatenschemata einzufügen. Metadaten, mit denen der Arbeitsprozess dokumentiert wurde,  können in verschiedene Formate exportiert werden. Darüber hinaus ist die  Anbindung an ein lokales Repositorium vorgesehen, um Daten aus dem Client heraus zu publizieren. Bisher wurde dazu eine Schnittstelle zu DSpace implementiert.

Das Projektteam freut sich über Tester und Rückmeldungen:
info.replay-dh@lists.uni-ulm.de

Das Konzept von RePlay-DH: Datenmanagement per Versionsverwaltung

Ein einfacher Client hilft bei der Nutzung einer komplexen Versionsverwaltungssoftware.

Für viele Wissenschaftler in den digitalen Geisteswissenschaften stellt sich ab einem bestimmten Punkt die Frage, wie man am besten den Überblick in komplexen Projekten behalten kann. Das Projekt Replay-DH entwickelt anhand eines Use Case aus der Computerlinguistik zur Korpus-Annotation eine Softwareumgebung, die durch den Einsatz von Versionsverwaltungssoftware für Übersichtlichkeit beim Management der eigenen Daten und Tools während des Forschungsprozesses sorgen soll.

Die Problemstellung

Prozesse in den digitalen Geisteswissenschaften tendieren dazu, teils hochgradig individualisiert abzulaufen und können dabei beliebig komplex werden. Das Resultat: bei ungenügender Dokumentation, kann eine Nachvollziehbarkeit der Resultate unter Umständen nur noch eingeschränkt, im schlimmsten Falle gar nicht mehr, gewährleistet werden. Während die digitalen Geisteswissenschaften bislang viele Softwareentwicklungen im Bereich virtueller Forschungsumgebungen verzeichnen, ist ein Ansatz, der den Wissenschaftler an seiner eigenen Forschungsumgebung am Arbeitsplatz abholt, bislang nicht realisiert und auch in der Literatur noch nicht näher beschrieben.

Das Konzept

RePlay Digital Humanities nimmt dieses Manko als Prämisse zur Entwicklung einer Neu-Implementierung eines bestehenden Systems, indem das Konzept einer Versionsverwaltungssoftware für einen neuen Kontext und eine neue Nutzergruppe anwendbar gemacht wird, kann der Forscher seine gewohnten Arbeitsprozesse beibehalten. Replay-DH unterstützt den Forscher während des Arbeitsprozesses beim Management und bei der Beschreibung der genutzten Tools und der erhobenen Daten, um eine bestmögliche Reproduzierbarkeit der Forschungsergebnisse zu gewährleisten.

Wie funktioniert das Ganze? Die Architektur hinter der Idee
  • Git als Basis des Datenmanagements
  • Java-Anwendung als plattformübergreifende Software
  • Anbindung an (GitLab-)Server zur Kollaboration in Forschergruppen
  • Anbindung an (DSpace-)Repositorien zur Veröffentlichung der Inhalte
Warum sollte ich den Replay-Client als Wissenschaftler nutzen?
  • Bessere Dokumentation und Wiederauffindbarkeit bestimmter Arbeitsstände
  • Möglichkeit der Anbindung an eine lokal vorahandene Git-Infrastruktur (z.B. GitLab am Institut)
  • Möglichkeit des kollaborativen Arbeitens mit Kollegen
  • Möglichkeit der Anbindung an eine Veröffentlichungs-Infrastruktur

Neuigkeiten aus dem Projekt Replay-DH

Informationskanal zu den aktuellen Entwicklungen, per RSS-Feed abonnierbar

Die Entwicklungen im Projekt Replay-DH schreiten voran und das Feedback von potenziellen Nutzern zu unseren Konzepten und in Kürze zu unserem Client, wird immer relevanter.

Mit diesem Blog stellen wir allen Interessierten Informationen rund um das Projekt bereit. Im Zentrum von Replay-DH steht die Entwicklung eines Clients, der Forschern bei der Arbeit mit Text-Corpora, genauer bei der Corpus-Annotation, eine Hilfestellung geben soll: der Client dokumentiert dabei die eigenen Arbeitsprozesse und soll es in einem späteren Entwicklungsstadium ermöglichen, Arbeitsstände mit Kollegen zu teilen. Das Programm nutzt dabei die Funktionen der Versionsverwaltungssoftware Git und passt diese auf das Anwendungsszenario der Corpus-Annotation an.

In unserem Blog werden wir sie über weitere Entwicklungen und neu implementierte  Features auf dem Laufenden halten! Wenn Sie Interesse an den weiteren Entwicklungen haben, können Sie sich auch einen RSS-Feed einrichten. Da das Projekt Replay-DH mit dem Feedback aus der Fachcommunity lebt, ist Ihr Feedback sehr willkommen!