Glossar

Fachbegriffe und Abkürzungen im Kontext von RAG-Systemen.

RAG

Retrieval-Augmented Generation. Eine Technik zur Verbesserung von Large Language Models durch Integration externer Wissensquellen.

Embedding

Numerische Darstellung von Text in einem Vektorraum. Ähnliche Texte haben ähnliche Vektoren.

Vektor-Datenbank

Spezialisierte Datenbank für die Speicherung und Suche von Vektoren. Ermöglicht effiziente Ähnlichkeitssuchen.

Chunking

Der Prozess des Aufteilens von Dokumenten in kleinere Abschnitte für die Verarbeitung in RAG-Systemen.

Retrieval

Der Prozess des Abrufens relevanter Informationen aus einer Wissensquelle basierend auf einer Anfrage.

Generation

Der Prozess der Erzeugung einer Antwort durch ein Large Language Model basierend auf abgerufenen Informationen.

LLM

Large Language Model. Ein großes Sprachmodell, das auf großen Textmengen trainiert wurde.

Dense Retrieval

Retrieval-Methode, die Embedding-Modelle für semantische Suche verwendet.

Sparse Retrieval

Retrieval-Methode, die traditionelle Methoden wie BM25 für lexikalische Suche verwendet.

Hybrid Search

Kombination aus Dense und Sparse Retrieval für optimale Ergebnisse. Diese Methode nutzt die Stärken beider Ansätze und kann die Recall-Rate erheblich verbessern.

Re-Ranking

Der Prozess der Neubewertung von abgerufenen Dokumenten mit einem spezialisierten Modell. Re-Ranking verbessert die Präzision, indem die Top-Ergebnisse optimiert werden.

Query Expansion

Die Erweiterung von Suchanfragen mit Synonymen oder verwandten Begriffen. Query Expansion kann die Recall-Rate erhöhen, indem mehr relevante Dokumente gefunden werden.

Query Rewriting

Die Umformulierung von Suchanfragen vor dem Retrieval. Query Rewriting kann die Qualität der Retrieval-Ergebnisse verbessern, indem Anfragen optimiert werden.

Multi-Hop Retrieval

Eine Retrieval-Methode, die iterative Suchen für komplexe Fragen ermöglicht. Bei Multi-Hop Retrieval werden zunächst relevante Dokumente abgerufen, die dann verwendet werden, um weitere Suchanfragen zu generieren.

Chunk Overlap

Die Überlappung zwischen benachbarten Chunks. Chunk Overlap hilft, Kontext über Chunk-Grenzen hinweg zu erhalten, erhöht aber auch den Speicherbedarf.

Precision@k

Eine Metrik zur Messung der Retrieval-Genauigkeit. Precision@k misst den Anteil relevanter Dokumente in den Top-k Ergebnissen.

Recall@k

Eine Metrik zur Messung der Retrieval-Abdeckung. Recall@k misst den Anteil relevanter Dokumente, die in den Top-k Ergebnissen gefunden wurden.

Mean Reciprocal Rank

Eine Metrik zur Messung der Retrieval-Qualität. MRR misst die durchschnittliche Position des ersten relevanten Ergebnisses.

Halluzination

Das Phänomen, bei dem Sprachmodelle falsche oder erfundene Informationen generieren. RAG-Systeme reduzieren Halluzinationen, da Antworten auf abgerufene Dokumente basieren.

Fine-Tuning

Der Prozess der Anpassung eines vorab trainierten Modells an spezifische Daten oder Aufgaben. Fine-Tuning kann die Performance für spezifische Anwendungsfälle verbessern.

Prompt Engineering

Die Optimierung von Eingaben für Sprachmodelle, um bessere Ergebnisse zu erzielen. Prompt Engineering kann die Qualität der generierten Antworten verbessern.

Context Window

Die maximale Anzahl von Tokens, die ein Sprachmodell in einem einzigen Request verarbeiten kann. Die Context Window bestimmt, wie viel Kontext in eine Anfrage eingebunden werden kann.

Token

Die kleinste Einheit, in die Text für die Verarbeitung durch Sprachmodelle aufgeteilt wird. Tokens können Wörter, Teile von Wörtern oder einzelne Zeichen sein.

Vector Similarity

Die Messung der Ähnlichkeit zwischen zwei Vektoren. Vector Similarity wird typischerweise mit Metriken wie Cosine Similarity oder Dot Product gemessen.

Cosine Similarity

Eine Metrik zur Messung der Ähnlichkeit zwischen zwei Vektoren. Cosine Similarity misst den Winkel zwischen Vektoren, unabhängig von ihrer Länge.

HNSW

Hierarchical Navigable Small World. Ein Indexierungsalgorithmus für Vektor-Datenbanken, der effiziente Ähnlichkeitssuchen ermöglicht.

IVF

Inverted File Index. Ein Indexierungsalgorithmus für Vektor-Datenbanken, der Vektoren in Clusters gruppiert.

MTEB

Massive Text Embedding Benchmark. Ein Benchmark zur Evaluation von Embedding-Modellen auf verschiedenen Aufgaben.

LangChain

Ein Framework zur Entwicklung von Anwendungen mit Large Language Models. LangChain bietet Tools für RAG-Implementierungen.

Haystack

Ein Framework zur Entwicklung von Such- und Frage-Antwort-Systemen. Haystack bietet Tools für RAG-Implementierungen und Evaluations-Module.

BM25

Best Matching 25. Ein Ranking-Algorithmus für Information Retrieval, der häufig für Sparse Retrieval verwendet wird. BM25 berücksichtigt Term-Frequenz und Inverse Document Frequency.

Term Frequency

Die Häufigkeit, mit der ein Begriff in einem Dokument vorkommt. Term Frequency ist ein wichtiger Faktor in Ranking-Algorithmen wie BM25.

Inverse Document Frequency

Ein Maß für die Seltenheit eines Begriffs über alle Dokumente hinweg. Inverse Document Frequency hilft dabei, häufige aber wenig aussagekräftige Begriffe zu gewichten.

Dot Product

Eine Metrik zur Messung der Ähnlichkeit zwischen zwei Vektoren. Dot Product multipliziert entsprechende Komponenten und summiert die Ergebnisse.

Euclidean Distance

Eine Metrik zur Messung der Distanz zwischen zwei Vektoren. Euclidean Distance misst die direkte Entfernung im Vektorraum.

Indexierung

Der Prozess der Vorbereitung von Dokumenten für effiziente Suche. Indexierung umfasst Chunking, Embedding-Generierung und Speicherung in einer Vektor-Datenbank.

Collection

Eine Gruppierung von Vektoren in einer Vektor-Datenbank. Collections ermöglichen die Organisation und Verwaltung großer Mengen von Vektoren.

Metadata

Zusätzliche Informationen, die mit Vektoren gespeichert werden. Metadaten können für Filterung, Quellenverfolgung und erweiterte Suchfunktionen verwendet werden.

Filtering

Die Einschränkung von Suchergebnissen basierend auf Metadaten. Filtering kann die Präzision verbessern, indem irrelevante Dokumente ausgeschlossen werden.

Batch Processing

Die Verarbeitung mehrerer Anfragen oder Dokumente gleichzeitig. Batch Processing kann die Effizienz erhöhen, erfordert aber auch mehr Ressourcen.

Streaming

Die schrittweise Verarbeitung oder Ausgabe von Daten. Streaming kann die wahrgenommene Latenz reduzieren und den Speicherbedarf verringern.

API

Application Programming Interface. Eine Schnittstelle für die Interaktion mit Systemen oder Diensten. APIs ermöglichen die Integration von RAG-Systemen in andere Anwendungen.

SDK

Software Development Kit. Eine Sammlung von Tools und Bibliotheken für die Entwicklung von Anwendungen. SDKs vereinfachen die Integration von RAG-Komponenten.

REST

Representational State Transfer. Ein Architekturstil für Web-APIs. REST-APIs werden häufig für die Interaktion mit RAG-Systemen verwendet.

GraphQL

Eine Abfragesprache für APIs. GraphQL ermöglicht flexible Abfragen und kann für komplexe RAG-Anwendungen nützlich sein.

Webhook

Ein Mechanismus für ereignisgesteuerte Kommunikation. Webhooks können für Benachrichtigungen über Index-Updates oder Systemereignisse verwendet werden.

Rate Limiting

Die Beschränkung der Anzahl von Anfragen pro Zeiteinheit. Rate Limiting schützt Systeme vor Überlastung und kontrolliert Kosten.

Load Balancing

Die Verteilung von Anfragen auf mehrere Server. Load Balancing verbessert die Performance und Verfügbarkeit von RAG-Systemen.

Redundanz

Die Duplizierung von Systemkomponenten für Ausfallsicherheit. Redundanz verbessert die Verfügbarkeit und Zuverlässigkeit von RAG-Systemen.

Backup

Die Sicherung von Daten und Konfigurationen. Backups sind wichtig für die Wiederherstellung nach Ausfällen oder Datenverlust.

Disaster Recovery

Strategien für die Wiederherstellung nach schwerwiegenden Ausfällen. Disaster Recovery-Pläne sind wichtig für kritische RAG-Anwendungen.