Czym RAG różni się od fine-tuningu modelu?

Fine-tuning zmienia wagi modelu — model 'zapamiętuje' nowe dane podczas dodatkowego treningu. RAG nie modyfikuje modelu, tylko podaje mu odpowiedni fragment dokumentu jako kontekst przy każdym zapytaniu. RAG jest tańszy, bardziej aktualny (update bazy = update wiedzy) i łatwiej audytowalny — wiesz dokładnie z którego dokumentu pochodzi odpowiedź. Fine-tuning ma sens głównie gdy chcesz zmienić styl albo format odpowiedzi, nie samą wiedzę.

Czy moje dokumenty są bezpieczne w architekturze RAG z OpenAI?

Państwa dokumenty są przechowywane w Państwa własnym Qdrant na Państwa serwerze. Do OpenAI wysyłane są tylko wybrane fragmenty odpowiadające na konkretne pytanie — nie cała baza. OpenAI w umowie API gwarantuje że dane przez API nie są używane do treningu modeli. Dla branż regulowanych (medycyna, finanse, sektor publiczny) można pójść dalej i użyć lokalnych modeli embeddingowych (bge-m3) plus lokalnego LLM (Llama 3.3) — wtedy żadne dane nie opuszczają infrastruktury firmy.

Ile kosztuje wdrożenie RAG dla firmy 50-500 prac.?

Zależy od zakresu. DIY (samodzielnie, jak w tym artykule) — koszt operacyjny 30-55 zł / mies., setup 5-15 godzin pracy programisty. Wdrożenie produkcyjne przez agencję (Dokodu) — 15-40 tys. zł setup + 200-500 zł / mies. operacyjnie, z monitoringiem, ewaluacją, integracjami z CRM/ERP i compliance pod AI Act. Gotowe SaaS-y (Intercom, Drift) — od 50 tys. zł rocznie, ale Państwa dane lecą na ich serwery.

Jakie dokumenty można zasilić do bazy RAG?

Wszystko co da się zamienić na tekst: cenniki PDF, umowy DOCX, regulaminy, FAQ, opisy produktów z bazy CRM, dokumentacja techniczna, SOP-y, polityki HR, wiki firmowa (Confluence, Notion, SharePoint), historyczne tickety obsługi klienta, transkrypcje rozmów z klientami. Obrazy i skany można OCR-ować przed indeksacją. Praktyczna granica to kilkadziesiąt tysięcy dokumentów na jednej kolekcji Qdrant — powyżej warto segmentować po departamentach.

Czy RAG eliminuje halucynacje modeli AI?

Znacznie je redukuje, ale nie eliminuje całkowicie. Z prawidłowo skonfigurowanym RAG (limit retrieval 3-5 fragmentów, temperature=0, jasny system prompt 'jeśli nie wiesz, powiedz że nie wiesz') halucynacje spadają z ~30% do <5%. Pozostałe 5% to przypadki, w których model próbuje ekstrapolować z fragmentów albo otrzymuje niepełny kontekst. Rozwiązanie produkcyjne wymaga ewaluacji — zestaw 20-50 pytań testowych z oczekiwanymi odpowiedziami i regularny monitoring.

RAG chatbot w n8n + Qdrant — przewodnik 2026

Streszczenie

→ Co to jest RAG i dlaczego to ważne?
→ Czego potrzebujesz?
→ Krok 1: Baza wektorowa Qdrant na Docker
→ Krok 2: Workflow zasilający bazę danymi

ChatGPT nie zna Twojego cennika. Nie wie co masz w umowach. Nie przeczytał Twojej strony. Zapytasz go o ceny — zmyśli. To nie jest wina modelu, to jest wina architektury. Rozwiązanie nazywa się RAG i możesz je wdrożyć samodzielnie w 15 minut, bez płacenia agencji grubych tysięcy.

Automatyzacje n8n / Make · 30 min

Co da się zautomatyzować u Ciebie w n8n?

Wskażesz proces robiony ręcznie, my ocenimy wykonalność i ROI. Bezpłatna rozmowa diagnostyczna.

Kacper Sieradziński · founder Dokodu

4,9 · zwykle odpowiada w 2h

Wybierz dogodny termin bezpłatnej rozmowy (30 min).

Umów bezpłatną rozmowę

Co to jest RAG i dlaczego to ważne?

RAG (Retrieval Augmented Generation) to technika która łączy model językowy z Twoją własną bazą wiedzy. Zamiast polegać wyłącznie na tym, czego model nauczył się podczas trenowania, RAG pozwala mu najpierw wyszukać relevantną informację z Twoich dokumentów, a dopiero potem sformułować odpowiedź.

Efekt: asystent który mówi "strzyżenie klasyczne kosztuje 80 zł" zamiast "nie posiadam aktualnych informacji o cenach w tym salonie" — albo co gorsza, podaje wymyśloną kwotę.

Bez RAG:

AI odpowiada na podstawie wiedzy z trenowania (odcięta data)
Nie zna Twoich dokumentów, cenników, procedur
Halucynuje — podaje brzmiące wiarygodnie, ale błędne dane

Z RAG:

AI przeszukuje Twoją bazę wiedzy przed odpowiedzią
Odpowiada tylko na podstawie Twoich danych
Jeśli nie znajdzie informacji — mówi wprost że nie wie

Czego potrzebujesz?

Trzy komponenty:

Model AI (mózg) — w tym tutorialu: OpenAI GPT-4.1 mini (tani, szybki)
Baza wektorowa (pamięć) — Qdrant, open-source, instalujesz na swoim serwerze
Silnik automatyzacji — n8n, który to wszystko łączy

Plus serwer VPS — bo asystent który działa tylko gdy masz otwarty laptop to nie asystent, to zabawka.

Krok 1: Baza wektorowa Qdrant na Docker

Qdrant to baza danych specjalnie zaprojektowana do przechowywania embeddingów (wektorowych reprezentacji tekstu). Open-source, działa lokalnie, zero opłat licencyjnych.

Dodaj do swojego docker-compose.yml:

YAML
1
2
3
4
5
6
7
8
9
10
services:
  qdrant:
    image: qdrant/qdrant:latest
    ports:
      - "6333:6333"
    volumes:
      - qdrant_data:/qdrant/storage

volumes:
  qdrant_data:

Kluczowe szczegóły:

Port 6333 — port API Qdrant (używasz tego wewnątrz sieci Docker)
Port 6334 — port zewnętrzny (jeśli potrzebujesz dostępu z zewnątrz)
Volume qdrant_data — bez tego po restarcie serwera asystent traci całą wiedzę

Uruchom:

Bash
1
docker compose up -d

Sprawdź czy działa: http://twoj-serwer:6333/dashboard

Krok 2: Workflow zasilający bazę danymi

W n8n tworzysz workflow który wczytuje Twoje dokumenty i ładuje je do Qdrant. Składa się z kilku węzłów:

Węzły:

Manual Trigger — uruchamiasz raz, gdy dodajesz nowe dokumenty
Read Binary Files — wczytuje PDF, DOCX lub TXT z dysku
Extract Document Text — wyciąga tekst z pliku
Recursive Character Text Splitter — dzieli tekst na kawałki (chunki)
Qdrant Vector Store — zapisuje chunki do bazy

Ustawienia Text Splittera:

Chunk size: 500 — wielkość kawałka. Przy cennikach: tyle żeby zmieścić jedną usługę z ceną
Chunk overlap: 50 — zakładka między kawałkami, żeby żaden kontekst nie został ucięty na granicy

Ustawienia Qdrant:

URL: http://qdrant:6333 (adres wewnątrz sieci Docker)
Collection name: nazwa Twojej kolekcji, np. cennik_firmy
Embedding model: text-embedding-3-small (OpenAI) — musi być identyczny w tym węźle i w węźle agenta

Po uruchomieniu workflow zobaczysz w Qdrant ile dokumentów (chunks) zostało zaindeksowanych. Dla 2-stronicowego cennika to zazwyczaj 6-15 wpisów.

Krok 3: Agent który odpowiada na pytania

Drugi workflow obsługuje rozmowę. Schemat:

Chat Trigger → Agent → Qdrant Tool + OpenAI Embedding

Chat Trigger

Domyślnie chat jest widoczny tylko wewnętrznie. Gdy zaznaczysz "Make chat publicly available" — dostajesz publiczny URL który możesz osadzić na stronie.

Konfiguracja Agenta:

Chat Model: gpt-4.1-mini (szybki i tani do Q&A)
Memory: włącz — agent będzie pamiętał kontekst rozmowy
Tool: Qdrant Vector Store
- Operation mode: Retrieve Documents (As Tool)
- Collection: nazwa Twojej kolekcji
- Limit: 4 (ile fragmentów z bazy agent dostaje przy każdym pytaniu)
- Description: Use this tool any time you get a question on chat
Embedding: text-embedding-3-small — dokładnie ten sam model co przy zasilaniu bazy

System prompt agenta:

Odpowiadaj tylko na podstawie danych z bazy wektorowej.
Jeśli tej informacji tam nie ma, napisz że nie wiesz.
Nie szukaj wiedzy w innych miejscach.

To kluczowe. Bez tego ograniczenia agent będzie "pomagał" i odpowiadał z ogólnej wiedzy modelu — co niszczy cały sens RAG.

Jak to wygląda w działaniu?

Po uruchomieniu chatu:

Pytanie: Ile kosztuje pietruszka na targu?
Agent: Nie posiadam tej informacji. W czym mogę pomóc?

Pytanie: Ile kosztuje proste strzyżenie?
Agent: Strzyżenie klasyczne (maszynka + nożyczki) kosztuje 80 zł.
       Źródło: Cennik Salon Prestige Cut and Glow.

Agent sięga do Qdrant, pobiera 4 najbardziej pasujące fragmenty, buduje odpowiedź wyłącznie na ich podstawie. Jeśli informacji nie ma w Twoich dokumentach — nie zmyśla.

Koszty

Składnik	Koszt
Qdrant (self-hosted)	0 zł
n8n (self-hosted)	0 zł
OpenAI API (embeddingi + odpowiedzi)	~kilka zł / miesiąc przy normalnym użyciu
VPS (np. 2 vCPU, 4GB RAM)	25-50 zł / miesiąc

Łącznie: 30-55 zł miesięcznie za asystenta który zna Twoje dane i odpowiada 24/7.

Agencja za podobne rozwiązanie policzy 5 000 - 20 000 zł jednorazowo plus abonament.

Co możesz zasilić bazą?

Qdrant przechowuje tekst — więc wszystko co możesz zamienić na tekst:

Cenniki i oferty — asystent obsługi klienta który zna ceny
Baza FAQ — odpowiada na najczęstsze pytania
Procedury wewnętrzne — onboarding, instrukcje dla pracowników
Umowy i regulaminy — prawnik AI który przeszukuje dokumenty
Strona internetowa — chatbot który zna Twoją ofertę

Dalej

Film z budową tego systemu od zera znajdziesz na YouTube — zobaczyć konfigurację Qdrant, workflow n8n i agenta w działaniu:

[Własne AI, które nie kłamie — RAG z n8n i Qdrant (YouTube)](

)

Jeśli chcesz wdrożyć RAG w swojej firmie bez konfigurowania infrastruktury samodzielnie — porozmawiajmy. Umów konsultację →

Powiązane artykuły

Tagi

#AI#automatyzacja#n8n#RAG#agent AI#Qdrant

Chatbot RAG na własnych danych: n8n + Qdrant krok po kroku (2026)

Co da się zautomatyzować u Ciebie w n8n?

Co to jest RAG i dlaczego to ważne?

Czego potrzebujesz?

Krok 1: Baza wektorowa Qdrant na Docker

Krok 2: Workflow zasilający bazę danymi

Węzły:

Ustawienia Text Splittera:

Ustawienia Qdrant:

Krok 3: Agent który odpowiada na pytania

Chat Trigger

Konfiguracja Agenta:

System prompt agenta:

Jak to wygląda w działaniu?

Koszty

Co możesz zasilić bazą?

Dalej

Powiązane artykuły

Tagi

Najczęściej zadawane pytania

Czym RAG różni się od fine-tuningu modelu?

Czy moje dokumenty są bezpieczne w architekturze RAG z OpenAI?

Ile kosztuje wdrożenie RAG dla firmy 50-500 prac.?

Jakie dokumenty można zasilić do bazy RAG?

Czy RAG eliminuje halucynacje modeli AI?

Najczęściej zadawane pytania

Czym RAG różni się od fine-tuningu modelu?

Czy moje dokumenty są bezpieczne w architekturze RAG z OpenAI?

Ile kosztuje wdrożenie RAG dla firmy 50-500 prac.?

Jakie dokumenty można zasilić do bazy RAG?

Czy RAG eliminuje halucynacje modeli AI?