Sprachverarbeitung

Grundlagen

Die automatische Sprachverarbeitung (engl. Natural Language Processing, NLP) bezeichnet die maschinelle Analyse und Extraktion von Informationen aus Texten. Im Unterschied zur automatischen Texterkennung (ATR) liegen die Eingabedaten hier bereits in digitaler, textueller Form vor.

In der Sammlungspraxis ist NLP das entscheidende Werkzeug, um maschinenlesbare Dokumente (z. B. aus der OCR-Verarbeitung) semantisch zu strukturieren und für die Forschung nutzbar zu machen. Je nach Zielsetzung werden verschiedene Aufgaben (Tasks) unterschieden:

Eigennamenerkennung (Named Entity Recognition – NER)

Die Eigennamenerkennung identifiziert und klassifiziert Entitäten wie Personen, Orte oder Organisationen. Dies ermöglicht es, diese Begriffe zu disambiguieren (eindeutig zuzuweisen) und mit Normdaten (z. B. GND oder Wikidata) zu verknüpfen.

Sentimentanalyse (Stimmungsanalyse)

Hierbei werden Emotionen und affektive Wertungen in Texten erkannt. Die Sentimentanalyse bestimmt, ob eine Aussage eher positiv, negativ oder neutral gefärbt ist, was etwa für die Untersuchung von Briefwechseln oder Rezensionen interessant ist.

Themenmodellierung (Topic Modeling)

Das Topic Modeling dient der automatisierten Verschlagwortung. Es erkennt Themencluster innerhalb großer Textkorpora, ohne dass die Kategorien vorab händisch definiert werden müssen. So lassen sich Bestände explorativ nach Inhalten ordnen.

Technische Aspekte

Frühe NLP-Anwendungen nutzten primär statistische Methoden wie N-Grams (Wortabfolgen) oder Wortfrequenzen (TF-IDF). Mit dem Aufkommen von Deep Learning übernahmen Rekurrente Neuronale Netze (RNNs), insbesondere LSTMs, die Modellierung von Textmustern.

Seit 2017 hat die Einführung des Attention-Mechanismus (Aufmerksamkeitsmodellierung) die Sprachverarbeitung revolutioniert. Sogenannte Transformer-Modelle (wie BERT) können Texte nicht mehr nur Wort für Wort, sondern im gesamten Kontext erfassen.

Heutzutage können fast alle NLP-Aufgaben von generativen Large Language Models (LLMs) übernommen werden. Trotz deren hoher Performanz und Vielseitigkeit ist es im Sinne der Datenautonomie und Nachhaltigkeit (Rechenressourcen) oft sinnvoll, für spezifische Aufgaben auf spezialisierte, "klassische" NLP-Modelle zurückzugreifen, da diese lokal ausführbar und oft präziser auf eine Aufgabe zugeschnitten sind.

Loslegen

Online ausprobieren

displaCy: Interaktive Demo der Bibliothek spaCy zur Visualisierung der Eigennamenerkennung (NER). Link zu displacy
Hugging Face Spaces: Plattform mit zahlreichen Demos für verschiedene Sprachmodelle und Aufgaben.
LLM-Chat-Interfaces: Gängige Sprachmodelle (ChatGPT, Claude, Mistral) eignen sich gut für erste explorative Tests.

Frameworks für die Forschung

spaCy: Die Standard-Bibliothek für industrietaugliches NLP in Python. Sie ist sehr performant und bietet hervorragende Modelle für die deutsche Sprache.
Hugging Face Transformers: Das zentrale Repository für moderne Transformer-Modelle, falls spezialisiertere Lösungen als spaCy benötigt werden.

Beratung und Ressourcen

Programming Historian: Bietet einen Haufen Tutorials zum Thema, z.B. zur Ortsverknüpfung
Bring Your Own Data Labs (HERMES): Workshops zur Arbeit mit eigenen Datensätzen in den Digital Humanities, häufig mit Fokus auf Sprachverarbeitung.
SODa Helpdesk: Für individuelle Beratung und Unterstützung bei der Umsetzung. Kontakt: soda@sammlungen.io

Fachexpertise

2D und Maschinelles Lernen

weitere Formate

FAQ