Sprachverarbeitung

Grundlagen

Die automatische Sprachverarbeitung (engl. Natural Language Processing, NLP) bezeichnet die maschinelle Analyse und Extraktion von Informationen aus Texten. Im Unterschied zur automatischen Texterkennung (ATR) liegen die Eingabedaten hier bereits in digitaler, textueller Form vor.

In der Sammlungspraxis ist NLP das entscheidende Werkzeug, um maschinenlesbare Dokumente (z. B. aus der OCR-Verarbeitung) semantisch zu strukturieren und für die Forschung nutzbar zu machen. Je nach Zielsetzung werden verschiedene Aufgaben (Tasks) unterschieden:

Eigennamenerkennung (Named Entity Recognition – NER)

Die Eigennamenerkennung identifiziert und klassifiziert Entitäten wie Personen, Orte oder Organisationen. Dies ermöglicht es, diese Begriffe zu disambiguieren (eindeutig zuzuweisen) und mit Normdaten (z. B. GND oder Wikidata) zu verknüpfen.

Sentimentanalyse (Stimmungsanalyse)

Hierbei werden Emotionen und affektive Wertungen in Texten erkannt. Die Sentimentanalyse bestimmt, ob eine Aussage eher positiv, negativ oder neutral gefärbt ist, was etwa für die Untersuchung von Briefwechseln oder Rezensionen interessant ist.

Themenmodellierung (Topic Modeling)

Das Topic Modeling dient der automatisierten Verschlagwortung. Es erkennt Themencluster innerhalb großer Textkorpora, ohne dass die Kategorien vorab händisch definiert werden müssen. So lassen sich Bestände explorativ nach Inhalten ordnen.

Technische Aspekte

Frühe NLP-Anwendungen nutzten primär statistische Methoden wie N-Grams (Wortabfolgen) oder Wortfrequenzen (TF-IDF). Mit dem Aufkommen von Deep Learning übernahmen Rekurrente Neuronale Netze (RNNs), insbesondere LSTMs, die Modellierung von Textmustern.

Seit 2017 hat die Einführung des Attention-Mechanismus (Aufmerksamkeitsmodellierung) die Sprachverarbeitung revolutioniert. Sogenannte Transformer-Modelle (wie BERT) können Texte nicht mehr nur Wort für Wort, sondern im gesamten Kontext erfassen.

Heutzutage können fast alle NLP-Aufgaben von generativen Large Language Models (LLMs) übernommen werden. Trotz deren hoher Performanz und Vielseitigkeit ist es im Sinne der Datenautonomie und Nachhaltigkeit (Rechenressourcen) oft sinnvoll, für spezifische Aufgaben auf spezialisierte, "klassische" NLP-Modelle zurückzugreifen, da diese lokal ausführbar und oft präziser auf eine Aufgabe zugeschnitten sind.

Loslegen

Online ausprobieren

  • displaCy: Interaktive Demo der Bibliothek spaCy zur Visualisierung der Eigennamenerkennung (NER). Link zu displacy

  • Hugging Face Spaces: Plattform mit zahlreichen Demos für verschiedene Sprachmodelle und Aufgaben.

  • LLM-Chat-Interfaces: Gängige Sprachmodelle (ChatGPT, Claude, Mistral) eignen sich gut für erste explorative Tests.

Frameworks für die Forschung

  • spaCy: Die Standard-Bibliothek für industrietaugliches NLP in Python. Sie ist sehr performant und bietet hervorragende Modelle für die deutsche Sprache.

  • Hugging Face Transformers: Das zentrale Repository für moderne Transformer-Modelle, falls spezialisiertere Lösungen als spaCy benötigt werden.

Beratung und Ressourcen

SODa Format
Übersicht
OER?