Architektura systemów

RAG (Retrieval-Augmented Generation, generowanie z wyszukiwaniem kontekstu)

Architektura, w której LLM przed wygenerowaniem odpowiedzi otrzymuje dynamicznie wyszukane fragmenty z bazy wiedzy klienta, zamiast polegać wyłącznie na wiedzy z trenowania. RAG obniża wskaźnik halucynacji z 10-27 procent do 0,5-3 procent dla zadań informacyjnych i umożliwia wdrożenie AI bez fine-tuningu modelu.

Źródło pierwotne: Meta AI Research 2020 (oryginalna publikacja), AWS Bedrock Knowledge Bases 2025

RAG został opisany akademicko przez Patricka Lewisa i zespół Meta AI w publikacji "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" z maja 2020. Komercjalizacja masowa nastąpiła w latach 2023-2024 jako kontra do dwóch ograniczeń: model nie zna danych klienta i model halucynuje na specjalistyczne tematy.

Mechanizm techniczny

Architektura składa się z czterech komponentów. Pierwszy, vector database (Pinecone, Weaviate, Qdrant, ChromaDB) z embeddings zawartości bazy wiedzy klienta. Drugi, retrieval engine, który dla każdego zapytania znajduje k najbardziej podobnych fragmentów (top-k zwykle 5-20). Trzeci, prompt assembler, łączący zapytanie użytkownika z wybranymi fragmentami. Czwarty, LLM generujący finalną odpowiedź na wzbogaconym promptcie.

Efekt: model odpowiada na podstawie konkretnych dokumentów, nie ogólnej wiedzy. Może cytować źródła. Halucynacje spadają.

Co RAG rozwiązuje, a czego nie

Rozwiązuje: odpowiedzi na pytania o dokumenty firmowe, zmieniającą się wiedzę (aktualizacja przez dodanie do bazy, nie retrening modelu), traceability (każda odpowiedź ma źródło).

Nie rozwiązuje: zadań wymagających rozumowania spoza dostarczonych dokumentów, generowania nowej wiedzy, problemów z jakością bazy wiedzy (śmieci na wejściu = śmieci na wyjściu).

Wskazania i przeciwwskazania

RAG ma sens, kiedy: baza wiedzy zmienia się częściej niż raz na miesiąc, wymagane są cytaty źródeł, fine-tuning byłby kosztowo nieracjonalny.

RAG nie ma sensu, kiedy: baza wiedzy jest mała (poniżej 100 dokumentów), wymagane jest specjalistyczne rozumowanie domeny (medycyna, prawo), latencja jest krytyczna (RAG dodaje 200-800 ms na zapytanie).

Skala wdrożeń enterprise

AWS Bedrock Knowledge Bases i Azure AI Search z 2025 raportują RAG jako najczęściej wybierany pattern wdrożeniowy, z udziałem ponad 60 procent enterprise GenAI projects. W polskich firmach 2025-2026 RAG dominuje w trzech use case'ach: search bazy wiedzy wewnętrznej, chatbot obsługi klienta z dostępem do dokumentacji, generowanie ofert handlowych na podstawie szablonów.

Koszt wdrożenia

Średni RAG dla bazy wiedzy 10 000 dokumentów z monitoring i security: 60 do 200 tysięcy złotych jednorazowo, 3 do 8 tysięcy złotych miesięcznie utrzymanie (hostowanie vector DB, API LLM, monitoring). Koszt można zoptymalizować przez open-source vector DB (Qdrant self-hosted) i lokalne LLM (Llama, Mistral).

Architekturę i wycenę RAG dla Twojej firmy ustalamy w ramach Wdrożenia AI w procesy.