provit — Ein Tool für den Herkunftsnachweis von Forschungsdaten

provit - Tool zum Herkunftsnachweis von Forschungsdaten

pro­vit ist ein Werk­zeug zur Anno­ta­ti­on und Doku­men­ta­ti­on von Daten und ihrer Her­kunft (Pro­ve­ni­enz). Es bie­tet ver­schie­de­ne Funk­tio­nen zum Erstel­len und Abru­fen von Pro­ve­ni­en­z­in­for­ma­tio­nen für in Datei­en gespei­cher­te Daten. Die Ver­fol­gung von Quel­len, Ände­run­gen und Zusam­men­füh­run­gen ermög­licht es dem Benut­zer, ein Pro­to­koll aller Ände­run­gen zu füh­ren. Dies ist beson­ders nütz­lich für Daten­sät­ze, auf die regel­mä­ßig und durch meh­re­re Per­so­nen zuge­grif­fen wird oder die Teil eines lang lau­fen­den Work­flows sind (z.B. für eine wis­sen­schaft­li­che Arbeit). Dar­über hin­aus kön­nen Pro­ve­ni­enz­da­ten, die neben den Daten in einem Archiv gespei­chert sind, ande­ren hel­fen, Qua­li­tät, Wert und Aktua­li­tät der Daten und damit des durch­lau­fe­nen For­schungs­pro­zes­ses zu erken­nen. Einer der Ent­wick­ler von pro­vit, Flo­ri­an Rämisch, hat mit uns über die Soft­ware und deren Anwen­dung gesprochen.

Idee und Anforderungen

Wäh­rend unse­rer daten­ba­sier­ten For­schung zur Video­spiel­kul­tur im von der DFG finan­zier­ten Pro­jekt dig­gr haben wir eine Viel­zahl von hete­ro­ge­nen Daten­quel­len erschlos­sen. Zur Beant­wor­tung unse­rer For­schungs­fra­gen war es not­wen­dig, die Infor­ma­tio­nen und Inhal­te die­ser Quel­len auf ver­schie­de­nen Ebe­nen zu ver­ei­nen, anzu­rei­chern und neu zusam­men­zu­stel­len. Die­se Pro­zes­se waren z.T. zeit­in­ten­siv, erfor­der­ten Bear­bei­tung durch ver­schie­de­ne Men­schen und Pro­gram­me. Anfang 2018 began­nen wir nach einer Mög­lich­keit zu suchen, die­se Bear­bei­tungs­schrit­te struk­tu­riert und nach­voll­zieh­bar zu doku­men­tie­ren. Es soll­te also zu jedem For­schungs­da­ten­satz den wir erstellt hat­ten jeder­zeit nach­voll­zieh­bar sein:

  1. Wie aktu­ell sind die zugrun­de lie­gen­den Rohdaten?
  2. Wann und wie wur­den die­se akquiriert?
  3. Wel­che wei­te­ren Bear­bei­tungs­schrit­te wur­den wann und in wel­cher Rei­hen­fol­ge durchgeführt?

Pro­ven­an­ce Manage­ment Sys­te­me sind nichts neu­es, es gab bereits eini­ge Tools mit unter­schied­li­chen Aus­rich­tun­gen. Unse­ren Anfor­de­run­gen ent­sprach aller­dings kei­nes. Wir haben ein Sys­tem mit fol­gen­den Eigen­schaf­ten gesucht:

  1. Kei­ne zen­tra­le Infrastruktur/Datenbank,
  2. Infor­ma­ti­ons­spei­che­rung mög­lichst dateibasiert,
  3. Basie­rend auf einem eta­blier­ten und inter­ope­ra­blen Datenformat,
  4. Mög­lich­keit der ein­fa­chen Inte­gra­ti­on in bestehen­de ETL-Pipe­line,
  5. Nutz­bar­keit durch Forscher*innen ohne Programmierkenntnisse.

Das von uns ent­wi­ckel­te Tool pro­vit ist ein ers­ter Ver­such die­sen Anfor­de­run­gen so gut es geht gerecht zu wer­den und die­se auf ihre Pra­xis­taug­lich­keit zu testen.

Zielgruppe

Die Ziel­grup­pe von pro­vit sind Forscher*innen und wis­sen­schaft­li­che Softwareentwickler*innen, die allein oder in klei­nen Grup­pen über län­ge­re Zeit­räu­me mit Daten arbei­ten. Daten, die ins­be­son­de­re vie­le Zwi­schen­be­ar­bei­tun­gen (Berei­ni­gung, Zusam­men­füh­rung, etc.) erfor­dern, bevor sie zur Beant­wor­tung von For­schungs­fra­gen genutzt wer­den können.

Funktionsweise

Für Forscher*innen

Forscher*innen kön­nen mit­hil­fe einer brow­ser­ba­sier­ten gra­fi­schen Benut­zer­ober­flä­che oder per Kom­man­do­zei­le mit pro­vit inter­agie­ren. Die gra­fi­sche Benut­zer­ober­flä­che ermög­licht es auch auf ein­fa­che Wei­se vor­han­de­ne Pro­ven­an­ce-Infor­ma­tio­nen von Datei­en anzu­schau­en und zu erkun­den, sowie wei­te­re Punk­te hinzuzufügen.

provit Browserschnittstelle

Die Brow­ser­schnitt­stel­le von provit

Für Entwickler*innen

Entwickler*innen kön­nen pro­vit sehr leicht in ihre bestehen­den python­ba­sier­ten ETL-Pipe­lines inte­grie­ren. Dafür kann man aus dem Python Packa­ge Index (also direkt per pip install provit) das Pro­gramm instal­lie­ren und dann ent­spre­chend der Anlei­tung benutzen.

provit CLI-Schnittstelle

pro­vit auf der Kommandozeile

Weitere Entwicklungen

Unser For­schungs­pro­jekt endet im Juli 2020, daher wird die Wei­ter­ent­wick­lung, sofern sich kei­ne Maintainer*in fin­det, ver­mut­lich zu die­sem Zeit­punkt eingestellt.

Danksagung

Pro­vit wur­de im Rah­men des DFG-For­schungs­pro­jek­tes „Daten­ba­sier­te Spu­ren­su­che glo­ba­ler Ein­flüs­se japa­ni­scher Video­spiel­kul­tur“ (DFG Pro­jekt­num­mer 316697723) an der Uni­ver­si­täts­bi­blio­thek Leip­zig in Koope­ra­ti­on mit der Japa­no­lo­gie des Ost­asia­ti­schen Insti­tuts der Uni­ver­si­tät Leip­zig entwickelt.

Autor: Flo­ri­an Rämisch 
Repo­si­to­ry: https://github.com/diggr/provit

Kon­takt
Für Fra­gen und Anre­gun­gen zum The­ma wen­den Sie Sich bit­te an die Ansprech­part­ner des UBLabs.