RAG — jak zbudować AI, które mniej zmyśla odpowiedzi (2026)

Kacper Sieradziński25 maja 2026 · 3 min czytania

Streszczenie

→ Dlaczego LLM hallucynuje?
→ Jak działa RAG?
→ Budujemy RAG krok po kroku
→ Krok 1: Przygotowanie dokumentów

RAG — jak zbudować AI, które mniej zmyśla odpowiedzi (2026)

"Kacper, wdrożyliśmy ChatGPT w firmie, ale wymyśla bzdury o naszych produktach."

Słyszę to regularnie. I za każdym razem odpowiedź jest ta sama: potrzebujesz RAG.

RAG — Retrieval-Augmented Generation — to architektura, która sprawia, że AI odpowiada na podstawie Twoich dokumentów, a nie tego, co "pamięta" z treningu. Zamiast hallucynować, szuka odpowiedzi w Twojej bazie wiedzy.

I nie, nie jest to rocket science. Pokażę Ci jak to zbudować.

{% youtube "AGmEtnYE9bQ" %}

Szkolenia AI dla firm · 30 min

Przeszkól zespół z AI, którego realnie użyje w pracy

Copilot, Gemini, ChatGPT, n8n — warsztat na Waszych procesach. Bez generycznej prezentacji o AI.

Kacper Sieradziński · founder Dokodu

4,9 · zwykle odpowiada w 2h

Wybierz dogodny termin bezpłatnej rozmowy (30 min).

Umów bezpłatną rozmowę

Dlaczego LLM hallucynuje?

Żeby zrozumieć RAG, trzeba zrozumieć problem.

Duże modele językowe (GPT-4, Claude, Gemini) mają ogromną wiedzę z treningu, ale:

Nie znają Twoich wewnętrznych dokumentów — regulaminów, procedur, oferty
Mają zamrożoną wiedzę — nie wiedzą co się zmieniło wczoraj
"Wymyślają" gdy nie wiedzą — brzmi pewnie, ale mówi nieprawdę

Dla firmy to katastrofa. Chatbot, który podaje klientowi złą cenę lub nieistniejącą procedurę, jest gorszy niż brak chatbota.

Jak działa RAG?

Idea jest prosta jak budowa cepa:

Wrzucasz swoje dokumenty (PDF-y, strony wiki, baza FAQ)
System dzieli je na fragmenty (chunking — kawałki po 300-500 słów)
Każdy fragment zamieniasz na wektor (embedding — numeryczna reprezentacja znaczenia)
Wektory lądują w bazie wektorowej (pgvector, Chroma, Pinecone)
Gdy przychodzi pytanie: szukasz najbardziej podobnych fragmentów
LLM dostaje pytanie + znalezione fragmenty i odpowiada na ich podstawie

Kluczowy moment: LLM nie zgaduje. Dostaje konkretne fragmenty dokumentów i na nich bazuje odpowiedź. Jeśli informacji nie ma w dokumentach — mówi "nie wiem" zamiast wymyślać.

Budujemy RAG krok po kroku

Krok 1: Przygotowanie dokumentów

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from langchain.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Załaduj dokumenty
loader = DirectoryLoader("./docs", glob="**/*.pdf", loader_cls=PyPDFLoader)
documents = loader.load()

# Podziel na fragmenty
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,  # nakładka żeby nie tracić kontekstu
)
chunks = splitter.split_documents(documents)
print(f"Dokumentów: {len(documents)}, fragmentów: {len(chunks)}")

Chunking to sztuka. Za małe fragmenty — brakuje kontekstu. Za duże — za dużo szumu. 300-500 tokenów to dobry start.

Krok 2: Embeddingi i baza wektorowa

Python
1
2
3
4
5
6
7
8
9
10
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma

# Stwórz embeddingi i zapisz w Chroma
embeddings = OpenAIEmbeddings()  # lub HuggingFace dla self-hosted
vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

Chroma to najprostszy start — działa lokalnie, zero konfiguracji. Na produkcję polecam pgvector (jeśli masz PostgreSQL) lub Pinecone (managed).

Krok 3: Retrieval + LLM

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
from langchain.chat_models import ChatAnthropic
from langchain.chains import RetrievalQA

llm = ChatAnthropic(model="claude-haiku-4-5-20251001")

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # wstaw fragmenty do promptu
    retriever=vectorstore.as_retriever(search_kwargs={"k": 4}),
)

# Pytaj!
result = qa_chain.invoke("Jaka jest polityka zwrotów?")
print(result["result"])

I to jest cały RAG w 30 liniach kodu. Serio.

Najczęstsze błędy przy budowie RAG

1. Za duże chunki

Wrzucasz cały dokument jako jeden fragment? Retrieval nie zadziała — zwróci za dużo nieistotnych informacji. Dziel na logiczne sekcje.

2. Brak overlap

Chunki bez nakładki tracą kontekst na granicach. "Cena wynosi" w jednym chunku, "250 zł" w następnym — i retrieval nie łączy tego w całość. Overlap 50-100 tokenów rozwiązuje problem.

3. Złe embeddingi

Nie każdy model embeddingów jest równy. Dla polskich tekstów sprawdź modele wielojęzyczne (multilingual-e5-large) lub dedykowane polskie. OpenAI text-embedding-3-small/large działa dobrze dla PL.

4. Brak ewaluacji

Skąd wiesz, że Twój RAG odpowiada poprawnie? Potrzebujesz zestawu pytań testowych z oczekiwanymi odpowiedziami. Bez tego optymalizujesz w ciemno.

RAG w produkcji — na co uważać

Aktualizacja dokumentów — gdy zmieniasz dokumenty, musisz przeindeksować bazę wektorową. Zrób pipeline, który automatycznie wykrywa zmiany i reindeksuje.

Bezpieczeństwo — RAG z dostępem do dokumentów poufnych musi mieć kontrolę uprawnień. Nie każdy user powinien widzieć wszystkie dokumenty.

Koszty — embeddingi i wywołania LLM kosztują. Haiku/mini modele do odpowiadania, cacheowanie popularnych pytań, limity per user.

Monitoring — loguj pytania, zwrócone fragmenty i odpowiedzi. Zobaczysz gdzie RAG się myli i co poprawić.

Kiedy RAG, a kiedy fine-tuning?

	RAG	Fine-tuning
Kiedy	Odpowiedzi z dokumentów	Zmiana stylu/formatu odpowiedzi
Dane	Dowolna ilość, łatwa aktualizacja	Potrzebujesz danych treningowych
Koszt	Niski (embeddingi + retrieval)	Wysoki (trening modelu)
Aktualność	Zawsze aktualne (reindeksacja)	Zamrożone po treningu
Halucynacje	Minimalne (cytuje źródła)	Możliwe (model się "uczy")

Dla 90% przypadków biznesowych RAG jest lepszym wyborem.

Podsumowanie

RAG = LLM + wyszukiwanie w dokumentach — AI odpowiada na podstawie Twoich danych
Budowa: chunking → embeddingi → baza wektorowa → retrieval → LLM z kontekstem
30 linii kodu w Pythonie z LangChain — to nie jest trudne
Kluczowe: dobry chunking, overlap, odpowiedni model embeddingów
Na produkcję: ewaluacja, monitoring, aktualizacja indeksu, kontrola dostępu

Jeśli budujesz chatbota firmowego, integrację z bazą wiedzy albo asystenta do dokumentacji — RAG to Twoja odpowiedź.

Chcesz zobaczyć jak to wygląda w praktyce? Na moim kursie n8n pokazuję jak zbudować RAG pipeline bez pisania kodu — od zera do działającego asystenta firmowego.

Tagi

#AI#automatyzacja#RAG#agent AI#Gemini

Najczęściej zadawane pytania

Nie eliminuje, ale redukuje o 80-95% w naszych pomiarach. Model wciąż może zniekształcić informację z dostarczonych fragmentów albo halucynować, jeśli pytanie wykracza poza dokumenty. Pełna eliminacja wymaga warstw dodatkowych: re-ranker, walidator odpowiedzi (sprawdza, czy odpowiedź ma poparcie w kontekście), instrukcja w prompcie 'odpowiadaj wyłącznie na podstawie kontekstu' oraz cytowania źródeł, które user może zweryfikować.

Realistycznie 15-60k PLN jednorazowo dla pierwszego use case (np. chatbot HR na bazie 500-2000 stron dokumentów), plus 300-1500 PLN/mc run-time na 50 tys. zapytań. Kolejne use case'y na tej samej infrastrukturze są tańsze (5-20k każdy). Porównanie z gotowymi SaaS-ami: dla 1-2 wąskich przypadków SaaS może być tańszy w 6 miesięcy, dla 5+ przypadków własny RAG płaci się po 9-12 miesiącach i daje pełną kontrolę.

Tak, ale wymaga konkretnej architektury. Dla danych PII i wrażliwych: self-hosted embeddings (multilingual-e5-large), self-hosted lub zero-retention LLM, pełny audit log, kontrola dostępu per użytkownik (metadata filtering w retrieverze). Dla high-risk obszarów AI Act (HR, finanse, medycyna, prawo) dochodzą wymagania dokumentacji technicznej, oceny ryzyka i human oversight. Realny koszt compliance: 5-15 dodatkowych dni pracy w projekcie.

RAG w 90% przypadków biznesowych. Fine-tuning ma sens, jeśli chcesz zmienić styl odpowiedzi (ton, format, struktura), nie żeby dodać wiedzę faktyczną. RAG jest szybszy we wdrożeniu (2-6 tyg. vs 4-12), tańszy (15-60k PLN vs 30-150k), pozwala na natychmiastową aktualizację danych (reindeks vs retraining), dostarcza cytowania źródeł i jest łatwiejszy do compliance. Fine-tuning + RAG razem stosujemy tylko, gdy firma ma bardzo specyficzny styl komunikacji do utrzymania.

Top 5 powodów: (1) złe chunkowanie — dokument pocięty mechanicznie, nie po sekcjach, (2) słabe embeddingi — szczególnie stare modele na języku polskim, (3) brak re-rankera — vector search zwraca podobne, ale nie zawsze trafne fragmenty, (4) brak ewaluacji — bez 50-200 pytań testowych nie wiesz, czy zmiana stack pomaga czy szkodzi, (5) brak monitoringu po wdrożeniu — RAG degraduje się, gdy dokumenty się zmieniają, a pipeline reindeksacji nie działa. Sześć rzeczy, ale wszystkie naprawialne.

Powiązane

LangChain w 2026 — czy jeszcze warto? Komponenty, agenci, alternatywy

LangChain nie jest już domyślnym wyborem. Sprawdź, kiedy ma sens w RAG i istniejącym stacku, a kiedy lepsze są SDK, MCP albo n8n.

Czytaj →

RAG — jak zbudować AI, które mniej zmyśla odpowiedzi (2026)

Przeszkól zespół z AI, którego realnie użyje w pracy

Dlaczego LLM hallucynuje?

Jak działa RAG?

Budujemy RAG krok po kroku

Krok 1: Przygotowanie dokumentów

Krok 2: Embeddingi i baza wektorowa

Krok 3: Retrieval + LLM

Najczęstsze błędy przy budowie RAG

1. Za duże chunki

2. Brak overlap

3. Złe embeddingi

4. Brak ewaluacji

RAG w produkcji — na co uważać

Kiedy RAG, a kiedy fine-tuning?

Podsumowanie

Tagi

Najczęściej zadawane pytania

Czy RAG całkowicie eliminuje halucynacje LLM?

Ile kosztuje wdrożenie RAG dla firmy 50-500 pracowników?

Czy RAG działa na danych wrażliwych pod RODO i AI Act?

RAG czy fine-tuning — co wybrać dla chatbota firmowego?

Jakie są najczęstsze powody, dla których RAG nie działa po wdrożeniu?

LangChain w 2026 — czy jeszcze warto? Komponenty, agenci, alternatywy

Powiązane artykuły

LangChain w 2026 — czy jeszcze warto? Komponenty, agenci, alternatywy

Agent AI na własnych danych – praktyczny przewodnik z Google ADK

MCP Python: własny serwer Model Context Protocol krok po kroku

Najczęściej zadawane pytania

Czy RAG całkowicie eliminuje halucynacje LLM?

Ile kosztuje wdrożenie RAG dla firmy 50-500 pracowników?

Czy RAG działa na danych wrażliwych pod RODO i AI Act?

RAG czy fine-tuning — co wybrać dla chatbota firmowego?

Jakie są najczęstsze powody, dla których RAG nie działa po wdrożeniu?

Powiązane artykuły

LangChain w 2026 — czy jeszcze warto? Komponenty, agenci, alternatywy

Agent AI na własnych danych – praktyczny przewodnik z Google ADK

MCP Python: własny serwer Model Context Protocol krok po kroku