Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) ist ein Teilgebiet der Linguistik, der Informatik, der Informationstechnik und der künstlichen Intelligenz, das sich mit der Interaktion zwischen Computern und menschlichen (natürlichen) Sprachen befasst.
NLP dient der Anwendung linguistischer Analyse und Wissensdarstellung auf Textdaten, um Aufgaben wie automatische Zusammenfassung, Übersetzung, Dialogmanagement, Textklassifizierung, Stimmungsanalyse, Erkennung benannter Entitäten, Themenmodellierung, Beziehungsextraktion und maschinelles Lesen durchzuführen. NLP kann für Anwendungen wie Chatbots, intelligente persönliche Assistenten (IPAs), die automatische Generierung von Untertiteln für Videos oder Bilder und die maschinelle Übersetzung verwendet werden.
NLP-Algorithmen lassen sich grob in zwei Kategorien einteilen: regelbasierte Methoden und statistische Methoden. Regelbasierte Methoden basieren auf handgeschriebenen Regeln, die von Entwicklern oder Linguisten verfasst werden, während statistische Methoden auf Trainingsdaten beruhen, die mit linguistischen Informationen versehen sind. Beide Ansätze haben ihre eigenen Vor- und Nachteile; regelbasierte Methoden sind genauer, erfordern aber mehr Zeit und Aufwand bei der Entwicklung, während statistische Methoden weniger genau, aber einfacher zu entwickeln sind.
NLU und NLG sind verwandte, aber unterschiedliche Teilbereiche des NLP. NLU befasst sich mit der Interpretation natürlichsprachlicher Eingaben, während NLG sich mit der Erzeugung natürlichsprachlicher Ausgaben befasst. NLU-Systeme nehmen unstrukturierte Eingaben wie freien Text auf und analysieren sie in strukturierte Darstellungen wie logische Formen oder Parse-Bäume. NLG-Systeme nehmen strukturierte Eingaben wie logische Formen oder Parse-Bäume entgegen und erzeugen entsprechende natürlichsprachliche Ausgaben. Sowohl NLU- als auch NLG-Systeme können entweder regelbasiert oder statistisch sein.
Morphologie, Syntax, Semantik und Pragmatik sind die wichtigsten linguistischen Aspekte im NLP. Die Morphologie ist die Lehre von der Wortbildung, einschließlich der Flexion (das Hinzufügen von Endungen zu Wortstämmen, um die grammatische Funktion anzuzeigen) und der Derivation (die Bildung neuer Wörter aus bestehenden). Syntax ist die Lehre von der Satzstruktur, einschließlich der Reihenfolge der Wörter innerhalb eines Satzes. Semantik ist die Lehre von der Bedeutung, einschließlich der Wortbedeutung (lexikalische Semantik) und der Satzbedeutung (kompositorische Semantik). Die Pragmatik befasst sich mit der Frage, wie der Kontext die Bedeutung beeinflusst.
Die NLP-Forschung wurde durch eine Reihe verschiedener Ziele motiviert, darunter die Entwicklung besserer Methoden zur Verarbeitung natürlichsprachlicher Daten, die Entwicklung von Systemen, die automatisch natürlichsprachliche Texte verstehen oder erzeugen können, die Verbesserung der Kommunikation zwischen Mensch und Computer, die Unterstützung bei der Entwicklung künstlicher Intelligenz und die Modellierung von Aspekten der menschlichen Kognition.