pyg ist ein Wrapper für die Youtube-API und ermöglicht das einfache Abrufen und Analysieren spezifischer Daten. Die Software ist im Rahmen des DFG-geförderten Projektes zur japanischen Videospielekultur diggr entstanden. Florian Rämisch, einer der Entwickler von pyg, hat uns zu pyg Rede und Antwort gestanden.
Wie ist die Idee zu pyg entstanden?
Im Jahr 2018 haben wir begonnen in unserer Forschungsgruppe die Kommentarspalten von Youtube-Videos sowie Netzwerke von Youtubern zu analysieren, um mehr über die Rezeption von Videospielen zu erfahren. Genauer gesagt wurde pyg entwickelt, um uns die Forschungsarbeit zu erleichtern und insbesondere die zu dem Zeitpunkt technisch weniger versierten Forscher*innen zu ermächtigen, eigenständig und automatisiert Daten von Youtube abzurufen.
Wer sollte pyg benutzen?
Jede*r Forscher*in die sich mit Youtubern, deren Videos, Rezeption und Netzwerken im weitesten Sinn befasst, kann mit pyg eventuell Teile der Datenerhebung wesentlich vereinfachen bzw. beschleunigen.
Leider muss man an dieser Stelle aber direkt auch einige einschränkende Dinge erwähnen. Der abrufbare Umfang der Daten kann durch Google täglich ohne Angabe von Gründen oder Vorwarnung geändert werden. Insbesondere für Forschungsanliegen, die auf eine längerfristige Datenerhebung angewiesen sind (z.B. um Schwankungen, Trends oder ähnliches zu analysieren), sollten damit klarkommen, wenn nach einem Teil des Erhebungszeitraums keine Erhebung mehr möglich ist bzw. wenn dadurch die Software an die Änderungen angepasst werden muss.
Wie funktioniert pyg?
Zunächst einmal benötigt jede Nutzer*in einen API-Key für die Youtube-API. Diese Zeichenkette (eine Art Passwort) ist die Voraussetzung die Youtube-API überhaupt nutzen zu können. Dieser Key muss bei jeder Anfrage an die Youtube-API mitgeschickt werden. Damit lassen sich nicht die Herausgeber des Keys, in dem Falle Google, nicht nur Anfragen einem bestimmten Account/Key zuordnen, sondern auch Limitierungen was Anzahl und Umfang der Anfragen angeht einschränken.
a) für den Nutzenden
Entsprechend der von Google bereitgestellten Anleitung beschafft man sich einen API Key. Anschließend kann es auch schon mit der Installation des Programms losgehen. Diese ist nicht sonderlich aufwendig und unter https://github.com/diggr/pyg genau erklärt. Nun kann es eigentlich auch schon losgehen mit der Erstellung des ersten Projekts. pyg hat keine grafische Benutzeroberfläche, sondern wird ausschließlich über die Kommandozeile aufgerufen und über Textdateien konfiguriert. Das heißt, man kann den Texteditor der eigenen Wahl benutzen (bspw: Notepad++, Nano, Atom). Um Youtube-Channels zum Herunterladen vorzumerken, werden die Channel IDs in die von pyg erstellte Datei channels.yml
eingetragen. Mit dem nächsten Aufruf des Programms werden alle dort enthaltenen Channel dann automatisch heruntergeladen.
main_group:
- channel/UCdQHEqTxcFzjFCrq0o4V7dg
- channel/UCI06ztiuPl-F9cSXsejMV8A
other_group:
- channel/UCZzPA6tCoQAZNiddpE-xA_Q
pyg lädt lediglich Metadaten herunter und bereitet diese zur Weiterverarbeitung z.B. in Elasticsearch auf. Damit bleiben die heruntergeladenen Datensätze relativ kompakt. Dadurch, dass pyg keine Werkzeuge zur Analyse mitbringt, muss diese mit Hilfe eines anderen Programms erfolgen. Wir haben dazu einen Export nach Elasticsearch eingebaut, aber auch andere Exportformate sind denkbar, allerdings derzeit nicht implementiert.
b) für die Entwickler*in
Das Programm befindet sich mit Dokumentation und Quelltext auf GitHub und kann dort von jeder und jedem heruntergeladen und entsprechend der Freiheiten welche die GNU General Public License einräumt modifiziert, vertrieben, etc. werden. Das Programm ist vollständig in Python (>3.5) implementiert und benutzt ansonsten noch YAML (für die Konfiguration) und Elasticsearch (für den Datenexport) als weitere Technologien.
Welche weiteren Entwicklungen sind geplant?
Da wir mit kurz vor dem Projektende stehen, wird es von unserer Seite aus leider keine weiteren Updates der Software geben. Sollte es interessierte Menschen geben, die die Software maintainen und weiterentwickeln möchten, können diese gerne mit dem Bereich Digitale Dienste der Universitätsbibliothek Leipzig Kontakt aufnehmen.
Danksagung
pyg wurde im Rahmen des DFG-Forschungsprojektes „Datenbasierte Spurensuche globaler Einflüsse japanischer Videospielkultur“ (DFG Projektnummer 316697723) an der Universitätsbibliothek Leipzig in Kooperation mit der Japanologie des Ostasiatischen Instituts der Universität Leipzig entwickelt.
Autor: Florian Rämisch
pyg (this link opens in a new window) by diggr (this link opens in a new window)
pyg — Passable YouTube Grabber. Generate research datasets containing YouTube video metadata, captions and comments.