Automatische Bilderkennung

Grundlagen

Automatische Bilderkennung (engl. Computer Vision) bezeichnet die maschinelle Erfassung, Analyse und Interpretation von Bildinhalten. Im Kontext von Sammlungen kann sie sowohl in der Erfassung (z. B. Verschlagwortung und Ordnung großer Mengen an 2D-Digitalisaten) als auch in der Forschung (z. B. Anwendung quantitativer und statistischer Methoden auf visuelle Medien) eingesetzt werden.

Je nach Anwendung und Betrachtungsebene werden verschiedene Aufgaben (Tasks) unterschieden:

Klassifikation

Die Klassifikation weist einem Bild eine oder mehrere Kategorien aus einem vordefinierten Set zu. Man unterscheidet:

  • Single-Label-Klassifikation: Jedes Bild erhält genau eine Kategorie (z. B. „Gemälde“ oder „Fotografie“).
  • Multi-Label-Klassifikation: Ein Bild kann mehrere Kategorien gleichzeitig erhalten (z. B. „Porträt“, „19. Jahrhundert“, „Ölgemälde“).

Objektdetektion

Die Objektdetektion identifiziert und lokalisiert Objekte in einem Bild. Das Ergebnis ist eine Liste der erkannten Objekte mit ihren Positionen, meist visualisiert durch umrahmende Rechtecke (Bounding Boxes). Beispiel: Erkennung von Personen, Tieren oder Artefakten in einem historischen Foto.

Segmentierung

Die Segmentierung ist die feingranularste Analyse und weist jedem Pixel eines Bildes eine Klasse zu. Man unterscheidet:

  • Semantische Segmentierung: Alle Pixel einer Klasse erhalten das gleiche Label (z. B. „Himmel“, „Gebäude“).
  • Instanzsegmentierung: Jedes einzelne Objekt wird separat markiert (z. B. jedes Buch in einem Regal erhält eine eigene ID).

Posenschätzung

Die Posenschätzung identifiziert und lokalisiert Schlüsselpunkte, die z. B. die Körperhaltung von Personen beschreiben. Diese Methode kann auch auf andere Objekte angewendet werden, um deren räumliche Orientierung zu bestimmen.

Bildsuche/Retrieval

Bildsuche ermöglicht das Auffinden ähnlicher Bilder in einer Datenbank anhand visueller Merkmale. Dazu werden Bilder in einen quantifizierbaren Merkmalsraum überführt, meist mithilfe neuronaler Netzwerke. Beispiel: Suche nach ähnlichen Motiven in einer Sammlung von Digitalisaten.

Technische Aspekte

Pre-Training und Fine-Tuning

Moderne Bilderkennungsmodelle basieren auf vortrainierten neuronalen Netzwerken (z. B. ResNet, EfficientNet, Vision Transformers). Diese Modelle wurden auf großen, allgemeinen Datensätzen (z. B. ImageNet) trainiert und können durch Fine-Tuning an spezifische Anwendungsfälle angepasst werden. Für Sammlungen bedeutet das: Existierende Modelle können mit eigenen Bilddaten nachtrainiert werden, um z. B. spezifische Objekttypen oder Stile zu erkennen.

Backbone und Heads

Bilderkennungsmodelle bestehen oft aus zwei Komponenten:

  • Backbone: Extrahiert allgemeine Merkmale aus dem Bild (z. B. Kanten, Texturen).
  • Heads: Spezialisierte Module für konkrete Aufgaben (z. B. Klassifikation, Detektion). Durch den Austausch der Heads kann ein Modell für verschiedene Aufgaben genutzt werden.

Loslegen

Online ausprobieren

Für erste Experimente ohne Installation.

  • DVExplorer: Tool zur visuellen Analyse großer Bildsammlungen.
  • Hugging Face Spaces: Plattform mit interaktiven Demos für Bilderkennung, z. B. Segmentierung oder Klassifikation.

Tools für die Kommandozeile

Für Nutzer:innen mit Zugang zur Kommandozeile und interesse an lokaler Verarbeitung.

  • Ultralytics YOLO: Benutzerfreundliches Framework für alle üblichen Bilderkennungsaufgaben

Python-Bibliotheken / GitHub Repositories

Für die Arbeit mit Python (grundlegende Programmierkenntnisse erforderlich, wir beraten gerne). Diese Tools werden über Python Programmierschnittstellen angesprochen und benötigen dementsprechend zumindest grundlegende Coding Kenntnisse.

  • Ultralytics: Python-Schnittstelle für YOLO-Modelle. Gut dokumentiert und einfach zu nutzen.
  • Hugging Face Transformers: Zugang zu vortrainierten Modellen für alle gängigen Computer Vision Tasks. Enthält auch Tutorials für den Einstieg.
  • OpenMMLab (MMSegmentation, MMDetection):, Umfassende Toolkits für Segmentierung und Detektion und viele weitere Computer Vision Tasks

Beratung und Ressourcen

  • SODa Helpdesk: Für individuelle Beratung und Unterstützung bei der Umsetzung. Kontakt: soda@sammlungen.io
  • Programming Historian: Tutorials zur Bilderkennung im geisteswissenschaftlichen Kontext.
SODa Format
Übersicht
OER?