Grundlagen
Automatische Bilderkennung (engl. Computer Vision) bezeichnet die maschinelle Erfassung, Analyse und Interpretation von Bildinhalten. Im Kontext von Sammlungen kann sie sowohl in der Erfassung (z. B. Verschlagwortung und Ordnung großer Mengen an 2D-Digitalisaten) als auch in der Forschung (z. B. Anwendung quantitativer und statistischer Methoden auf visuelle Medien) eingesetzt werden.
Je nach Anwendung und Betrachtungsebene werden verschiedene Aufgaben (Tasks) unterschieden:
Klassifikation
Die Klassifikation weist einem Bild eine oder mehrere Kategorien aus einem vordefinierten Set zu. Man unterscheidet:
- Single-Label-Klassifikation: Jedes Bild erhält genau eine Kategorie (z. B. „Gemälde“ oder „Fotografie“).
- Multi-Label-Klassifikation: Ein Bild kann mehrere Kategorien gleichzeitig erhalten (z. B. „Porträt“, „19. Jahrhundert“, „Ölgemälde“).
Objektdetektion
Die Objektdetektion identifiziert und lokalisiert Objekte in einem Bild. Das Ergebnis ist eine Liste der erkannten Objekte mit ihren Positionen, meist visualisiert durch umrahmende Rechtecke (Bounding Boxes). Beispiel: Erkennung von Personen, Tieren oder Artefakten in einem historischen Foto.
Segmentierung
Die Segmentierung ist die feingranularste Analyse und weist jedem Pixel eines Bildes eine Klasse zu. Man unterscheidet:
- Semantische Segmentierung: Alle Pixel einer Klasse erhalten das gleiche Label (z. B. „Himmel“, „Gebäude“).
- Instanzsegmentierung: Jedes einzelne Objekt wird separat markiert (z. B. jedes Buch in einem Regal erhält eine eigene ID).
Posenschätzung
Die Posenschätzung identifiziert und lokalisiert Schlüsselpunkte, die z. B. die Körperhaltung von Personen beschreiben. Diese Methode kann auch auf andere Objekte angewendet werden, um deren räumliche Orientierung zu bestimmen.
Bildsuche/Retrieval
Bildsuche ermöglicht das Auffinden ähnlicher Bilder in einer Datenbank anhand visueller Merkmale. Dazu werden Bilder in einen quantifizierbaren Merkmalsraum überführt, meist mithilfe neuronaler Netzwerke. Beispiel: Suche nach ähnlichen Motiven in einer Sammlung von Digitalisaten.
Technische Aspekte
Pre-Training und Fine-Tuning
Moderne Bilderkennungsmodelle basieren auf vortrainierten neuronalen Netzwerken (z. B. ResNet, EfficientNet, Vision Transformers). Diese Modelle wurden auf großen, allgemeinen Datensätzen (z. B. ImageNet) trainiert und können durch Fine-Tuning an spezifische Anwendungsfälle angepasst werden. Für Sammlungen bedeutet das: Existierende Modelle können mit eigenen Bilddaten nachtrainiert werden, um z. B. spezifische Objekttypen oder Stile zu erkennen.
Backbone und Heads
Bilderkennungsmodelle bestehen oft aus zwei Komponenten:
- Backbone: Extrahiert allgemeine Merkmale aus dem Bild (z. B. Kanten, Texturen).
- Heads: Spezialisierte Module für konkrete Aufgaben (z. B. Klassifikation, Detektion). Durch den Austausch der Heads kann ein Modell für verschiedene Aufgaben genutzt werden.
Loslegen
Online ausprobieren
Für erste Experimente ohne Installation.
- DVExplorer: Tool zur visuellen Analyse großer Bildsammlungen.
- Hugging Face Spaces: Plattform mit interaktiven Demos für Bilderkennung, z. B. Segmentierung oder Klassifikation.
Tools für die Kommandozeile
Für Nutzer:innen mit Zugang zur Kommandozeile und interesse an lokaler Verarbeitung.
- Ultralytics YOLO: Benutzerfreundliches Framework für alle üblichen Bilderkennungsaufgaben
Python-Bibliotheken / GitHub Repositories
Für die Arbeit mit Python (grundlegende Programmierkenntnisse erforderlich, wir beraten gerne). Diese Tools werden über Python Programmierschnittstellen angesprochen und benötigen dementsprechend zumindest grundlegende Coding Kenntnisse.
- Ultralytics: Python-Schnittstelle für YOLO-Modelle. Gut dokumentiert und einfach zu nutzen.
- Hugging Face Transformers: Zugang zu vortrainierten Modellen für alle gängigen Computer Vision Tasks. Enthält auch Tutorials für den Einstieg.
- OpenMMLab (MMSegmentation, MMDetection):, Umfassende Toolkits für Segmentierung und Detektion und viele weitere Computer Vision Tasks
Beratung und Ressourcen
- SODa Helpdesk: Für individuelle Beratung und Unterstützung bei der Umsetzung. Kontakt: soda@sammlungen.io
- Programming Historian: Tutorials zur Bilderkennung im geisteswissenschaftlichen Kontext.