Glossar
Fachbegriffe und Abkürzungen im Kontext von RAG-Systemen.
RAG
Retrieval-Augmented Generation. Eine Technik zur Verbesserung von Large Language Models durch Integration externer Wissensquellen.
Embedding
Numerische Darstellung von Text in einem Vektorraum. Ähnliche Texte haben ähnliche Vektoren.
Vektor-Datenbank
Spezialisierte Datenbank für die Speicherung und Suche von Vektoren. Ermöglicht effiziente Ähnlichkeitssuchen.
Chunking
Der Prozess des Aufteilens von Dokumenten in kleinere Abschnitte für die Verarbeitung in RAG-Systemen.
Retrieval
Der Prozess des Abrufens relevanter Informationen aus einer Wissensquelle basierend auf einer Anfrage.
Generation
Der Prozess der Erzeugung einer Antwort durch ein Large Language Model basierend auf abgerufenen Informationen.
LLM
Large Language Model. Ein großes Sprachmodell, das auf großen Textmengen trainiert wurde.
Dense Retrieval
Retrieval-Methode, die Embedding-Modelle für semantische Suche verwendet.
Sparse Retrieval
Retrieval-Methode, die traditionelle Methoden wie BM25 für lexikalische Suche verwendet.
Hybrid Search
Kombination aus Dense und Sparse Retrieval für optimale Ergebnisse. Diese Methode nutzt die Stärken beider Ansätze und kann die Recall-Rate erheblich verbessern.
Re-Ranking
Der Prozess der Neubewertung von abgerufenen Dokumenten mit einem spezialisierten Modell. Re-Ranking verbessert die Präzision, indem die Top-Ergebnisse optimiert werden.
Query Expansion
Die Erweiterung von Suchanfragen mit Synonymen oder verwandten Begriffen. Query Expansion kann die Recall-Rate erhöhen, indem mehr relevante Dokumente gefunden werden.
Query Rewriting
Die Umformulierung von Suchanfragen vor dem Retrieval. Query Rewriting kann die Qualität der Retrieval-Ergebnisse verbessern, indem Anfragen optimiert werden.
Multi-Hop Retrieval
Eine Retrieval-Methode, die iterative Suchen für komplexe Fragen ermöglicht. Bei Multi-Hop Retrieval werden zunächst relevante Dokumente abgerufen, die dann verwendet werden, um weitere Suchanfragen zu generieren.
Chunk Overlap
Die Überlappung zwischen benachbarten Chunks. Chunk Overlap hilft, Kontext über Chunk-Grenzen hinweg zu erhalten, erhöht aber auch den Speicherbedarf.
Precision@k
Eine Metrik zur Messung der Retrieval-Genauigkeit. Precision@k misst den Anteil relevanter Dokumente in den Top-k Ergebnissen.
Recall@k
Eine Metrik zur Messung der Retrieval-Abdeckung. Recall@k misst den Anteil relevanter Dokumente, die in den Top-k Ergebnissen gefunden wurden.
Mean Reciprocal Rank
Eine Metrik zur Messung der Retrieval-Qualität. MRR misst die durchschnittliche Position des ersten relevanten Ergebnisses.
Halluzination
Das Phänomen, bei dem Sprachmodelle falsche oder erfundene Informationen generieren. RAG-Systeme reduzieren Halluzinationen, da Antworten auf abgerufene Dokumente basieren.
Fine-Tuning
Der Prozess der Anpassung eines vorab trainierten Modells an spezifische Daten oder Aufgaben. Fine-Tuning kann die Performance für spezifische Anwendungsfälle verbessern.
Prompt Engineering
Die Optimierung von Eingaben für Sprachmodelle, um bessere Ergebnisse zu erzielen. Prompt Engineering kann die Qualität der generierten Antworten verbessern.
Context Window
Die maximale Anzahl von Tokens, die ein Sprachmodell in einem einzigen Request verarbeiten kann. Die Context Window bestimmt, wie viel Kontext in eine Anfrage eingebunden werden kann.
Token
Die kleinste Einheit, in die Text für die Verarbeitung durch Sprachmodelle aufgeteilt wird. Tokens können Wörter, Teile von Wörtern oder einzelne Zeichen sein.
Vector Similarity
Die Messung der Ähnlichkeit zwischen zwei Vektoren. Vector Similarity wird typischerweise mit Metriken wie Cosine Similarity oder Dot Product gemessen.
Cosine Similarity
Eine Metrik zur Messung der Ähnlichkeit zwischen zwei Vektoren. Cosine Similarity misst den Winkel zwischen Vektoren, unabhängig von ihrer Länge.
HNSW
Hierarchical Navigable Small World. Ein Indexierungsalgorithmus für Vektor-Datenbanken, der effiziente Ähnlichkeitssuchen ermöglicht.
IVF
Inverted File Index. Ein Indexierungsalgorithmus für Vektor-Datenbanken, der Vektoren in Clusters gruppiert.
MTEB
Massive Text Embedding Benchmark. Ein Benchmark zur Evaluation von Embedding-Modellen auf verschiedenen Aufgaben.
LangChain
Ein Framework zur Entwicklung von Anwendungen mit Large Language Models. LangChain bietet Tools für RAG-Implementierungen.
Haystack
Ein Framework zur Entwicklung von Such- und Frage-Antwort-Systemen. Haystack bietet Tools für RAG-Implementierungen und Evaluations-Module.
BM25
Best Matching 25. Ein Ranking-Algorithmus für Information Retrieval, der häufig für Sparse Retrieval verwendet wird. BM25 berücksichtigt Term-Frequenz und Inverse Document Frequency.
Term Frequency
Die Häufigkeit, mit der ein Begriff in einem Dokument vorkommt. Term Frequency ist ein wichtiger Faktor in Ranking-Algorithmen wie BM25.
Inverse Document Frequency
Ein Maß für die Seltenheit eines Begriffs über alle Dokumente hinweg. Inverse Document Frequency hilft dabei, häufige aber wenig aussagekräftige Begriffe zu gewichten.
Dot Product
Eine Metrik zur Messung der Ähnlichkeit zwischen zwei Vektoren. Dot Product multipliziert entsprechende Komponenten und summiert die Ergebnisse.
Euclidean Distance
Eine Metrik zur Messung der Distanz zwischen zwei Vektoren. Euclidean Distance misst die direkte Entfernung im Vektorraum.
Indexierung
Der Prozess der Vorbereitung von Dokumenten für effiziente Suche. Indexierung umfasst Chunking, Embedding-Generierung und Speicherung in einer Vektor-Datenbank.
Collection
Eine Gruppierung von Vektoren in einer Vektor-Datenbank. Collections ermöglichen die Organisation und Verwaltung großer Mengen von Vektoren.
Metadata
Zusätzliche Informationen, die mit Vektoren gespeichert werden. Metadaten können für Filterung, Quellenverfolgung und erweiterte Suchfunktionen verwendet werden.
Filtering
Die Einschränkung von Suchergebnissen basierend auf Metadaten. Filtering kann die Präzision verbessern, indem irrelevante Dokumente ausgeschlossen werden.
Batch Processing
Die Verarbeitung mehrerer Anfragen oder Dokumente gleichzeitig. Batch Processing kann die Effizienz erhöhen, erfordert aber auch mehr Ressourcen.
Streaming
Die schrittweise Verarbeitung oder Ausgabe von Daten. Streaming kann die wahrgenommene Latenz reduzieren und den Speicherbedarf verringern.
API
Application Programming Interface. Eine Schnittstelle für die Interaktion mit Systemen oder Diensten. APIs ermöglichen die Integration von RAG-Systemen in andere Anwendungen.
SDK
Software Development Kit. Eine Sammlung von Tools und Bibliotheken für die Entwicklung von Anwendungen. SDKs vereinfachen die Integration von RAG-Komponenten.
REST
Representational State Transfer. Ein Architekturstil für Web-APIs. REST-APIs werden häufig für die Interaktion mit RAG-Systemen verwendet.
GraphQL
Eine Abfragesprache für APIs. GraphQL ermöglicht flexible Abfragen und kann für komplexe RAG-Anwendungen nützlich sein.
Webhook
Ein Mechanismus für ereignisgesteuerte Kommunikation. Webhooks können für Benachrichtigungen über Index-Updates oder Systemereignisse verwendet werden.
Rate Limiting
Die Beschränkung der Anzahl von Anfragen pro Zeiteinheit. Rate Limiting schützt Systeme vor Überlastung und kontrolliert Kosten.
Load Balancing
Die Verteilung von Anfragen auf mehrere Server. Load Balancing verbessert die Performance und Verfügbarkeit von RAG-Systemen.
Redundanz
Die Duplizierung von Systemkomponenten für Ausfallsicherheit. Redundanz verbessert die Verfügbarkeit und Zuverlässigkeit von RAG-Systemen.
Backup
Die Sicherung von Daten und Konfigurationen. Backups sind wichtig für die Wiederherstellung nach Ausfällen oder Datenverlust.
Disaster Recovery
Strategien für die Wiederherstellung nach schwerwiegenden Ausfällen. Disaster Recovery-Pläne sind wichtig für kritische RAG-Anwendungen.