Dokumentation von Zwischenständen im Forschungsprozess mit RePlay-DH

Definition und Umsetzung von Prozessmetadaten

Was wir unter Prozessmetadaten verstehen

Um Zwischenergebnisse in der eigenen Forschungsarbeit besser dokumentieren zu können, ist es hilfreich auf ein einfaches Metadatenschema zurückgreifen zu können. Das ermöglicht, mit wenig Aufwand eine sinnvolle Beschreibung der getanen Arbeit zu gewährleisten. Im Projekt RePlay-DH wurde dazu ein Schema für Metadaten serialisiert, das den Prozess, der zu einem Zwischenstand geführt hat, abbildet. Diese Metadaten, im Projekt als „Prozessemetadaten“ bezeichnet, werden beim Speichern der Änderungen (als Commit in Git) mit abgelegt.

Wie wir die Prozesse in der Computerlinguistik abbilden

Dazu wurden sieben Felder definiert, die in einem Arbeitsschritt in der Regel anfallen: Das Feld „Title“ beinhaltet eine kurze Beschreibung des Workflowschritts. „Person“, bildet die Person(en) ab, die an diesem Arbeitsschritt beteiligt waren (z.B. Annotator). Die „Description“ bietet die Möglichkeit einen Freitext zur Beschreibung des Zwischenergebnisses einzugeben. Das  Feld „Input“ benennt die Dateien, die während des jeweiligen Arbeitsschrittes beteiligt waren (z.B. Korpora) . Das „Output“-Feld, beinhaltet die Ressourcen, die erzeugt, bzw. angepasst wurden (z.B. Ergebnisdaten).  Die eingesetzten Softwarewerkzeuge werden im Feld „Tool“  aufgenommen. Es ist dabei möglich, beliebig viele Programme oder Skripte zu erfassen und auch deren Ausführungsreihenfolge und deren Parameter anzugeben. In „Custom Properties“ können beliebige Metadateneinträge hinterlegt werden, um zusätzlich maschinenlesbare Informationen bereitstellen zu können.

Wie findet die technische Umsetzung statt?

Die Prozessmetadaten werden im Datenaustauschformat JSON modelliert und mit Hilfe eines JSON-Schemas validiert. Es wird dabei angestrebt, dass der Inhalt der Prozessmetadaten im Idealfall nur einmal angeben werden muss bzw. möglichst automatisch generiert wird, so dass der Nutzer sich auf seine eigentliche Forschungsarbeit konzentrieren kann. Des Weiteren soll es im Client künftig möglich sein, die Prozessmetadaten für den eigenen Arbeitsprozess auch auf andere Fachbereiche anzupassen.