Agenci AI — kompletny przewodnik: od RAG do lokalnych modeli
Chatbot odpowiada na pytania. Agent AI realizuje zadania.
To nie jest subtelna różnica marketingowa — to zmiana architektoniczna. Chatbot czeka na pytanie i generuje odpowiedź. Agent AI dostaje cel, sam planuje kroki, wywołuje narzędzia, sprawdza wyniki i poprawia błędy, aż cel zostanie osiągnięty. Jeden jest rozmówcą, drugi jest wykonawcą.
W 2026 roku agenci AI przestali być eksperymentem i stali się narzędziem produkcyjnym. Firmy wdrażają ich do obsługi klienta, przetwarzania dokumentów, zarządzania danymi i automatyzacji procesów, które do tej pory wymagały człowieka przy klawiaturze.
Ten przewodnik jest centrum klastra treści o agentach AI na blogu Dokodu. Znajdziesz tu wyjaśnienie tego, jak agenci działają od środka, kiedy stosować RAG, kiedy lokalne modele, jak MCP zmienia integracje i gdzie zacząć, jeśli chcesz zbudować własnego agenta w n8n.
Treść jest skierowana do trzech grup: developerów, którzy chcą wiedzieć jak złożyć agenta z komponentów, managerów IT, którzy muszą podjąć decyzje architektoniczne, oraz właścicieli firm, którzy szukają konkretnych zastosowań i szacunków kosztów.
Co to jest agent AI i czym różni się od chatbota?
Zacznijmy od definicji, bo słowo "agent" jest nadużywane.
Chatbot to system, który przyjmuje pytanie w języku naturalnym i generuje odpowiedź. Może być oparty na regułach lub na LLM. Nie pamięta poprzednich rozmów (jeśli nie ma wbudowanej pamięci), nie ma dostępu do narzędzi i nie podejmuje działań w imieniu użytkownika.
Agent AI ma cztery składniki, których chatbotowi brakuje:
| Składnik | Rola w agencie |
|---|---|
| LLM (model językowy) | Mózg — rozumuje, planuje, generuje tekst |
| Narzędzia (tools) | Ręce — wywołuje API, czyta pliki, pisze do bazy |
| Pamięć | Historia rozmów, fakty o użytkowniku, wyniki poprzednich kroków |
| Pętla decyzyjna | Sprawdza czy cel osiągnięty, jeśli nie — planuje kolejny krok |
Przykład, który dobrze ilustruje różnicę:
- Chatbot: "Sprawdź mój email od klienta X."
- Agent: Łączy się ze skrzynką pocztową, wyszukuje emaile od klienta X, czyta treść, ocenia priorytet, kategoryzuje wątek, draft odpowiedzi, pyta cię o zatwierdzenie, wysyła.
Agent nie czeka na kolejne polecenie po każdym kroku. Działa autonomicznie w ramach celu, który mu postawiłeś.
Pętla decyzyjna agenta wygląda tak:
Cel → Plan → Działanie → Obserwacja wyniku → Czy cel osiągnięty?
├── Tak → Zakończ
└── Nie → Plan (nowy krok)
To wzorzec ReAct (Reasoning + Acting) i stanowi podstawę większości agentów produkcyjnych w 2026 roku.
Jak agent AI przetwarza informacje — RAG i okno kontekstowe
Każdy agent musi gdzieś trzymać wiedzę, z której korzysta. Tutaj pojawia się jedno z kluczowych pytań architektonicznych: wklejać dane do kontekstu czy używać RAG?
Zacznijmy od terminologii. Okno kontekstowe (context window) to maksymalna ilość tekstu, którą model może "widzieć" naraz podczas generowania odpowiedzi. Token to około 0,75 słowa — kartka A4 gęsto zapisanego tekstu to mniej więcej 750 tokenów.
Modele w 2026 mają coraz większe okna: Gemini 1.5 Pro obsługuje 1 milion tokenów, Claude 3.5 — 200 tysięcy. To dużo, ale nie nieskończenie.
Dwa podejścia do pamięci zewnętrznej
Context stuffing — wklejasz całą bazę wiedzy bezpośrednio do promptu. Prosto, szybko, bez dodatkowej infrastruktury.
- Kiedy używać: masz mniej niż 1000 dokumentów, dane zmieniają się rzadko, model ma duże okno kontekstowe
- Kiedy odpada: tysiące dokumentów, częste aktualizacje, koszt tokenów staje się problemem
RAG (Retrieval-Augmented Generation) — agent przed odpowiedzią odpytuje bazę wektorową, pobiera tylko te fragmenty, które są semantycznie bliskie pytaniu, i wkleja je do kontekstu.
Pytanie użytkownika
↓
Embedder (zamienia tekst na wektor)
↓
Baza wektorowa (Qdrant, LanceDB, Pinecone)
↓
Top K najbliższych fragmentów
↓
LLM generuje odpowiedź na podstawie fragmentów
- Kiedy używać: setki tysięcy dokumentów, dane zmieniają się regularnie, zależy ci na precyzji źródeł
- Kiedy odpada: małe zbiory danych, gdy context stuffing wystarczy, brak zasobów na serwer wektorowy
Praktyczna zasada: zacznij od context stuffing. Gdy dokumenty nie mieszczą się w oknie lub koszt tokenów rośnie — przejdź na RAG.
Szczegółowe porównanie z przykładami implementacji w n8n:
MCP — nowy standard komunikacji agentów z narzędziami
Przez lata integracja agentów z narzędziami zewnętrznymi wyglądała tak: dla każdego narzędzia pisałeś osobny adapter, dokumentowałeś schemat wywołania, obsługiwałeś błędy specyficzne dla tego API. Każdy agent znał tylko narzędzia, na które był wytrenowany lub do których miał jawnie napisane połączenia.
Model Context Protocol (MCP) zmienia tę logikę. To otwarty standard (Anthropic, 2024), który działa jak USB-C dla agentów — jeden konektor, który obsługuje dowolne narzędzie po obu stronach.
Agent nie musi wiedzieć, jak działa konkretne narzędzie. Musi wiedzieć tylko, że może je wywołać przez MCP, i znać schemat wejścia/wyjścia. Resztą zajmuje się serwer MCP po stronie narzędzia.
Jak MCP działa w praktyce
Agent (klient MCP)
↓
MCP Client (biblioteka w Pythonie/JS)
↓
Transport (stdio lub HTTP/SSE)
↓
MCP Server (uruchomiony lokalnie lub zdalnie)
↓
Narzędzie (baza danych, API, system plików, n8n workflow)
W kontekście n8n MCP oznacza, że Claude Code lub inny agent może sterować workflow n8n bezpośrednio — tworzyć, uruchamiać i modyfikować przepływy bez przechodzenia przez interfejs graficzny. Wystarczy, że n8n wystawia serwer MCP.
W Pythonie własny serwer MCP można napisać w kilkudziesięciu liniach kodu dzięki bibliotece FastMCP:
Python1 2 3 4 5 6 7 8 9 10 11from fastmcp import FastMCP mcp = FastMCP("moj-serwer") @mcp.tool() def get_order_status(order_id: str) -> dict: """Pobiera status zamówienia z bazy danych.""" # logika połączenia z bazą return {"order_id": order_id, "status": "shipped"} mcp.run()
Agent wywołujący ten serwer dostaje narzędzie get_order_status z opisem i schematem. Nie musi znać szczegółów implementacji.
Szczegółowe tutoriale:
Lokalne modele AI — prywatność i niezależność od chmury
Wysyłanie kodu firmowego lub danych klientów do OpenAI czy Google to decyzja z konsekwencjami prawnymi i biznesowymi. RODO nie zakazuje tego wprost, ale wymaga umów o przetwarzanie danych, przejrzystości i kontroli. Firmy z sektorów regulowanych — medycyna, finanse, prawo — często nie mogą lub nie chcą ryzykować.
Odpowiedzią są lokalne modele językowe uruchamiane na własnym sprzęcie.
Sprzęt i wybór GPU
Kluczowy parametr to VRAM (pamięć GPU), nie liczba rdzeni. Model językowy musi w całości zmieścić się w VRAM podczas inferencji.
| Model | Rozmiar (FP4/Q4) | Wymagany VRAM |
|---|---|---|
| Qwen 3 Coder 8B | ~5 GB | RTX 4060 8 GB |
| Llama 3.1 70B | ~40 GB | 2x RTX 4090 lub profesjonalna karta |
| Mistral 7B | ~4 GB | RTX 3060 8 GB |
| DeepSeek Coder V2 16B | ~10 GB | RTX 4080 12 GB |
Drugi ważny parametr: przepustowość pamięci (memory bandwidth). Nowe karty z GDDR7 (RTX 5080, 5090) generują tokeny szybciej nawet przy porównywalnym VRAM, bo model jest ładowany do GPU szybciej przy każdym kroku inferencji.
Praktyczny przykład: Qwen 3 Coder 8B w kwantyzacji FP4 zajmuje około 5 GB VRAM i działa sprawnie na RTX 5080. Na karcie tej klasy generuje kod z prędkością, która nie blokuje developera czekającego na autouzupełnienie.
Narzędzia do lokalnego deployment
Ollama to najprostsze narzędzie do uruchamiania modeli lokalnie. Jedno polecenie pobiera i uruchamia model, wystawia OpenAI-kompatybilne API:
Bash1ollama run qwen3-coder:8b
Od tej chwili n8n, Cursor, Open WebUI lub własna aplikacja może łączyć się z modelem przez http://localhost:11434/v1 — tak samo jak z OpenAI API, bez zmiany kodu.
TensorRT-LLM to opcja dla bardziej zaawansowanych — kompiluje model do formatu zoptymalizowanego pod konkretną kartę NVIDIA, co daje wyraźny wzrost prędkości kosztem złożoności konfiguracji.
Lokalny RAG bez chmury
Lokalny RAG łączy lokalny LLM z lokalną bazą wektorową — żadne dane nie opuszczają serwera.
ColQwen to multimodalny model embeddingów, który "widzi" obrazy w dokumentach PDF. Tradycyjne embeddingi widzą tylko tekst wyodrębniony przez OCR. ColQwen rozumie układ strony, tabele i wykresy — to istotne przy fakturach, raportach technicznych i dokumentacji.
LanceDB to baza wektorowa bez serwera — plik na dysku, Python SDK, brak potrzeby uruchamiania osobnego procesu. Idealna do lokalnych deploymentów i prototypów.
Szczegółowe instrukcje wdrożenia:
- Lokalny asystent AI dla programistów — Qwen 3, Ollama, Docker
- Lokalny RAG bez chmury — RTX 5080, ColQwen i LanceDB
Automatyzacja obrazów i dokumentów z agentami AI
Agenty AI nie operują tylko na tekście. Dwa obszary, gdzie automatyzacja przynosi natychmiastowy ROI dla firm:
Generowanie i edycja zdjęć przez API
Gemini Imagen 3 pozwala edytować zdjęcia produktów z promptu tekstowego bez Photoshopa i grafika. Workflow w n8n wygląda tak:
- Trigger formularza (URL zdjęcia + opis zmian)
- HTTP Request do Gemini Imagen API (zdjęcie zakodowane w base64)
- Dekodowanie odpowiedzi (base64 → plik binarny)
- Zapis do folderu lub wysłanie mailem
Zastosowania w e-commerce: zmiana tła zdjęcia produktu, dopasowanie oświetlenia do sezonu, generowanie wariantów dla A/B testów.
OCR i przetwarzanie PDF
Płatne API do OCR (OpenAI Vision, Google Document AI) kosztują proporcjonalnie do liczby przetworzonych stron. Przy setkach faktur miesięcznie koszty rosną szybko.
Lokalny serwis OCR oparty na FastAPI, PyMuPDF i Tesseract eliminuje te koszty:
- PyMuPDF wyciąga tekst z PDFów z wbudowaną warstwą tekstową (natywne PDF, nie skany)
- Tesseract obsługuje skany przez OCR
- FastAPI wystawia endpoint HTTP, który n8n wywołuje przez węzeł HTTP Request
Serwis działa w Dockerze, dane zostają na twoim serwerze, koszt po wdrożeniu wynosi zero.
Jak zacząć — mapa klastra
Zależnie od twojego punktu startowego, polecam różne ścieżki przez ten klaster:
Jesteś nowy w temacie agentów AI? Zacznij od artykułu, który nie wymaga żadnej infrastruktury wektorowej: Agent AI na własnych danych bez RAG — n8n i Gemini
Chcesz zbudować chatbota na dokumentach?
- Małe zbiory dokumentów (do kilkuset plików): Agent AI na własnych danych bez RAG
- Duże zbiory lub częste aktualizacje: Jak zbudować chatbota RAG z n8n i Qdrant
Interesują cię agenty narzędziowe i integracje? MCP to fundament nowoczesnych integracji:
Chcesz lokalnego asystenta AI do kodowania? Bez wysyłania kodu do chmury: Lokalny asystent AI dla programistów — Qwen 3, Ollama, Docker
Chcesz automatyzować zdjęcia lub dokumenty PDF?
- Edycja zdjęć produktów: Gemini Imagen w n8n
- Przetwarzanie faktur i umów: artykuł o OCR PDF — link po opublikowaniu
Ile kosztuje wdrożenie agenta AI?
Pytanie, które pojawia się zawsze. Odpowiedź zależy od architektury.
Modele chmurowe (OpenAI, Gemini, Anthropic)
Płacisz za tokeny wejściowe i wyjściowe. Nie ma kosztów wdrożenia, nie ma konfiguracji, dane trafiają do dostawcy.
Szacunek dla małej firmy:
- 50 pytań dziennie do Gemini 1.5 Flash (ok. 2000 tokenów na pytanie)
- ~3 000 000 tokenów miesięcznie
- Koszt: ok. 4-5 zł/miesiąc
To bardzo mało. Problem pojawia się przy dużej skali lub przy danych wrażliwych.
Self-hosted (n8n + lokalne modele)
- GPU (RTX 4080/5080): jednorazowy koszt 3000-6000 zł
- VPS lub serwer fizyczny: 80-200 zł/miesiąc
- n8n: bezpłatny (self-hosted, licencja fair code)
- Lokalne modele (Ollama): bezpłatne
Próg opłacalności względem płatnych API zależy od wolumenu i wartości prywatności danych. Firmy z sektora medycznego lub finansowego często wybierają self-hosted nawet przy niskim wolumenie ze względów compliance.
Hybryda (najczęstszy scenariusz)
n8n uruchomiony lokalnie lub na VPS jako orchestrator, Gemini/Claude API jako LLM dla zadań niepoufnych, lokalny Ollama dla zadań z danymi wrażliwymi.
Koszt: ok. 80-150 zł/miesiąc za VPS + zmienne koszty API proporcjonalne do użycia.
| Architektura | Koszt startowy | Koszt miesięczny | Prywatność |
|---|---|---|---|
| Chmura (API) | 0 | 5-200 zł | Dane u dostawcy |
| Self-hosted | 3000-8000 zł | 80-200 zł | Pełna kontrola |
| Hybryda | 0-500 zł | 80-300 zł | Selektywna |
W tym klastrze
Wszystkie artykuły z klastra Agenci AI:
- Agent AI w firmie — jakie problemy rozwiązuje i od czego zacząć
- 7 najlepszych narzędzi do budowania agentów AI
- Claude Code jako agent AI — jak działa i do czego służy
- Agent AI na własnych danych bez RAG — n8n i Gemini
- Jak zbudować chatbota RAG z n8n i Qdrant
- MCP w n8n — jak Claude Code tworzy workflowy
- Własny serwer MCP w Pythonie (FastMCP)
- Lokalny asystent AI dla programistów — Qwen 3, Ollama, Docker
- Lokalny RAG bez chmury — RTX 5080, ColQwen i LanceDB
- Gemini Imagen w n8n — automatyczna edycja zdjęć produktów
- Lokalne generowanie obrazów — Flux LoRA i ComfyUI na RTX 5080
Zbuduj swojego agenta AI z Dokodu
Jeśli wiesz już, czego chcesz, ale nie masz czasu lub zespołu, żeby to wdrożyć — porozmawiajmy. Dokodu buduje agenty AI i automatyzacje n8n dla firm B2B w Polsce.



