von Lucia Wagner
Im Mai traf sich das Netzwerk aller, die sich mit Daten und der Digitalisierung wissenschaftlicher Sammlungen beschäftigen, zum SODa Barcamp. Seit 2023 hat sich das Format als fester Bestandteil der SODa-Community etabliert und fand nun bereits zum dritten Mal statt. Über 50 Teilnehmende aus mehr als 25 Institutionen – Sammlungsverantwortliche, Digitalisierungsexpert*innen, Softwareentwickler*innen und viele mehr – kamen in Nürnberg zusammen, um sich auszutauschen und Erfahrungen zu teilen.
Die SODa-Barcamp Sessions haben wir in diesem Artikel knapp zusammengefasst. Ihr wollt mehr erfahren? Dann schaut euch die Notizen an, die kollaborativ zu jeder einzelnen Session entstanden sind. Die Links zu den Etherpad Protokollen findet ihr im Programmplan.
Tag 1: Ankommen, HowTo Barcamp und „Kann KI das?“
Nürnberg empfängt uns mit Sonnenschein – wer will da schon ins Museum? Das SODa Barcamp! Das Germanische Nationalmuseum (GNM) hat neben einer beeindruckenden Sammlung und Architektur auch eine tolle Atmosphäre. Programm und Referent*innen ergeben sich typisch für das Barcamp-Format vor Ort aus dem Kreis der Teilnehmenden heraus in einem Pitch- und Select-Prozess. Und während die Session-Vorschläge hin und hergeschoben werden, hören wir schon, was Barcamps auszeichnet: „Ja, genau." „Wie bei uns." „…Regale voll mit Dias." „...wollten wir eigentlich entsorgen." Mit Lust auf Erfahrungsaustausch und Neugier auf die Möglichkeiten von KI (LLM-Modelle) geht es in die ersten Sessions:
Sarah Wagner (FAU & MfN) stellt das Projekt „Forschung und Verantwortung – Virtueller Zugang zu integriertem Fossil- und Archivmaterial der deutschen Tendaguru-Expedition (1909-1913)“ vor und berichtet über Herausforderungen der strukturierten Erschließung von Fotografien. Gemeinsam überlegt die Gruppe, wie LLMs konkret bei der Bilderschließung unterstützen können, testet diverse LLMs, diskutiert aber auch die damit verbundenen Herausforderungen – insbesondere im Hinblick auf die kolonialen Entstehungskontexte der Fotografien, die eine hochgradig sensible Erschließung und Erforschung erfordern.
Parallel dazu probiert sich eine Gruppe unter Regie von Robert Nasarek (SODa & GNM) im Vibe-Coding mit LLM – mit der konkreten Frage, ob Laien mit Hilfe von KI ein Handy-Spiel programmieren könnten. Dabei ist wichtig, nicht nur auf das Ergebnis zu schauen und einfach weiter zu klicken, denn dazwischen entsteht mehr Code als notwendig. Darum sollte man sich alle Begriffe und Schritte erklären lassen. KI ist keine Blackbox – man kann aber von ihr lernen.
Domenic Schäfer (VZG) stellt das Tool Constrainify zur Datenqualitäts-Analyse vor. Gemeinsam testen die Barcamper*innen die Demoversion und finden sogar einen Bug – davon profitiert die Entwicklung. Ihr wollt es auch ausprobieren? Mehr Infos im Etherpad für Session 1.3.
Wie kann Begriffsgenauigkeit und Auffindbarkeit trotz bzw. bei Mehrsprachigkeit sichergestellt werden? Die Frage wird unter Anleitung von Sebastian Burger (UB Frankfurt) diskutiert. Die Session zeigt: Eine Universallösung gibt es nicht. Aber viele stehen vor ähnlichen Herausforderungen und haben bereits unterschiedliche Workarounds, Strategien und Kompromisse entwickelt. Genau dieser Erfahrungsaustausch eröffnet neue Perspektiven und zeigt praktikable Wege für den Umgang mit mehrsprachigen Begriffswelten auf.
Tag 2: Das GNM, Daten, Daten, Daten, und kontrollierte Vokabulare
Ein Highlight am Morgen waren die Führungen im GNM – wobei es beim Tiefdepot über 20 Meter unter die Erde geht. Großen Dank an Susanne Thürigen, Meike Wolters-Rosbach und Agnes Harder für die spannenden Einblicke. Mittags sitzen wir gemütlich im Museums-Café zu Käsespätzle und Schnitzel. Gut gestärkt beschäftigen wir uns heute u. a. mit Daten (-modellierung) und kontrollierten Vokabularen:
In der Session zur grundlegenden Einführung zu standardisierten Metadaten stellt Kristina Fischer (LEIZA & NFDI4Objects) ihre Arbeit zur Erarbeitung eines Metadaten-Vokabulars für Konservierungs- und Restaurierungsdaten vor. Die Metadaten sind als SKOS-Konzepte abgebildet und durch persistente Identifikationen (URIs) eindeutig adressierbar. Das erfüllt den Wunsch vieler Anwender*innen nach orientierenden Standards bei gleichzeitiger Bewahrung disziplinärer Freiheiten, denn: Durch die Referenzierung dieser Konzepte bleibt die Bedeutung eines Elements systemübergreifend eindeutig, unabhängig davon, wie einzelne Institutionen ihre Datanbankfelder intern benennen.
Auch den Paradaten wird eine Session, angeleitet von Michael Markert (VZG), gewidmet: Sammlungen werden oft ohne weitere Informationen weitergegeben – ein Nachfolgeproblem. Die Erfahrung: meist handelt es sich um befristete Projekte und es bleibt zu wenig Zeit. Die Lösung: schon während des Projekts dokumentieren. Eine Barcamperin erarbeitet derzeit eine GitLab-Dokumentation inklusive Entscheidungsprozessen zu genau diesem Zweck. Wir sind gespannt auf die Ergebnisse!
In einer weiteren Session wurde Modellierung von Objektbiografien in WissKI diskutiert: Wie mit Unsicherheiten und Lücken umgehen? Sind sie eigene Entitäten oder implizit? Und wie können sie dargestellt werden?
Mut zur Lücke beweist die Session zu Modellierung in Wikibase. Da keine Wikibase-Expert*innen dabei sind, versuchen wir als Laien, eine WikiBase aufzusetzen und Vokabulare zu modellieren, dann dasselbe in WissKI – in beiden Fällen ohne Vorwissen nicht möglich. Ein methodisches Ergebnis mit Implikationen für die Zugänglichkeit solcher Tools.
Parallel gehen wir der Frage nach, wie kollaborative und nachhaltige Zusammenarbeit an Vokabularen gestaltet werden kann. Kristina Fischer stellt als Fallbeispiel den Workflow für ein kontrolliertes Vokabular für (archäologische) Konservierung und Restaurierung von LEIZA vor. Praktische Hinweise, wie beispielsweise eine Kommentarfunktion zur vereinfachten Zusammenarbeit an Vokabularen, findet ihr im Etherpad zur Session 2.1.
Konkret wird es bei Michael Markerts Vorstellung von der DANTE-API, einem kostenlosen Tool der VZG zur Veröffentlichung von Vokabularen. Hier probieren sich die Teilnehmenden daran, eigene Daten auf Entitäten mit DANTE Vokabularen zu matchen.
Auch in der LIDO OER Session bringen Celia Krause (DDK - Bildarchiv Foto Marburg) und Domenic Schäfer, beide von der LIDO Servicestelle, eine praktische Übung mit. Gemeinsam wird eruiert, wie LIDO am besten vermittelt werden kann – hilfreiches Feedback für ein geplantes Train-the-Trainer-Format.
Zu guter Letzt ging es dann noch Mal um Künstliche Intelligenz: In der Session zu multimodaler KI in Sammlungenstellen die Barcamper*innen sich der Frage, wie man mehrere KI-Modelle für die semantische Bild- und Textanalyse nutzen kann, und besprechen Anwendungsfälle.
Tag 3: Erfahrungsaustausch und Unsicherheiten
Am letzten Barcamp-Tag widmen wir uns Unsicherheiten und Lücken aus verschiedenen Blickwinkeln. Besonders viel Austauschbedarf gibt es zum Umgang mit Unsicherheiten und Quellenangaben in der Provenienzforschung. An Praxisbeispielen eruieren wir, welche Möglichkeiten CIDOC CRM hier bietet. Unser Ergebnis: Abstufungen sollten innerhalb von Datenbanken danach möglich gemacht werden, wie gesichert die jeweilige Information ist – eine Einstufungen nach Kategorien ist dabei am effektivsten.
Unsicherheiten gibt es auch in Datensätzen zu Bauwerksnormdaten. Normdaten agieren als „kleine Helfer“ für die digitale Transformation, da sie Metadaten generieren. In der GND sind Bauwerksnormdaten jedoch nicht in ausreichender Tiefe vorhanden. Um herauszufinden, wie sie bezogen werden können, fragen die Barcamper*innen Schnittstellen ab. Ergebnisse sind ein Sparkle Endpoint und die Unsicherheit, ob alle Daten wirklich ausgespielt werden.
In der parallel stattfindenden Session zu 3D-Objektvisualisierung: Datenmanagement und neue Capturing-Methoden geht es zunächst noch Mal um Paradaten, bevor Julian Cremerius (SODa) das neue Verfahren „Gaussian Splatting“ zur Visualisierung von Objekten vorstellt. Die Barcamper*innen kommen zu dem Schluss, dass dies zwar für die visuelle Vermittlung interessant ist, sich aber nicht für das Vermessen oder Forschung eignen. Außerdem ist es momentan noch schwierig, Viewer, Software und Speicherinfrastrukturen dafür zu finden. Hier gibt es also noch ein Paar Lücken.
Um Lücken geht es auch bei einem Edit-a-thon: bei diesem Format identifiziert die Community Fehlstellen und generiert selbst Inhalte. Ihre Erfahrungen in der Planung eines Wikidata-Edit-a-thons im Sammlungskontext teilt Anna Gnyp (SODa & DSM). Wichtig ist, schon in der Planungsphase die Kolleg*innen mit einzubeziehen, Ziele und Zielgruppen festzulegen und mögliche Aufgaben klar zu definieren.
Nach dem Barcamp ist vor dem Barcamp
Um kurz nach 12 Uhr kommt die gute Nachricht: „Leute, Kaffee ist wieder da!“ und so kann das SODa Barcamp in einem gemeinsamen Abschluss und Rückblick sein Ende finden. Der offene Austausch zwischen den unterschiedlichen Perspektiven, Erfahrungen und Fachbereichen war wie immer besonders wertvoll!
Danke an alle Teilnehmenden, die mit ihren Interessen, Themen und Expertisen das Barcamp gefüllt haben sowie an das GNM und die Mitarbeiten für die Gastfreundschaft. Und vor allem: Auf das nächste SODa Barcamp, mit neuen Fragen, Ideen und Erfahrungen.
Wer jetzt noch tiefer einsteigen möchte, findet alle Präsentationen, Vorarbeiten, Diskussionen und Notizen dokumentiert in den Etherpad: Links im Programmplan.