Agenci AI — kompletny przewodnik: od RAG do lokalnych modeli

Kacper Sieradziński
Kacper Sieradzinski
18 marca 2026AI10 min czytania

title: "Agenci AI — kompletny przewodnik: od RAG do lokalnych modeli" slug: agenci-ai description: "Agenci AI w n8n, lokalnych modelach i MCP — jak działają, do czego służą i jak zbudować własnego agenta AI krok po kroku." tags: [agenci AI, agent AI, RAG, n8n, MCP, lokalne modele AI] date: 2026-03-22 author: Kacper Sieradzinski cluster: agenci-ai type: pillar

Obraz główny Agenci AI — kompletny przewodnik: od RAG do lokalnych modeli

Agenci AI — kompletny przewodnik: od RAG do lokalnych modeli

Chatbot odpowiada na pytania. Agent AI realizuje zadania.

To nie jest subtelna różnica marketingowa — to zmiana architektoniczna. Chatbot czeka na pytanie i generuje odpowiedź. Agent AI dostaje cel, sam planuje kroki, wywołuje narzędzia, sprawdza wyniki i poprawia błędy, aż cel zostanie osiągnięty. Jeden jest rozmówcą, drugi jest wykonawcą.

W 2026 roku agenci AI przestali być eksperymentem i stali się narzędziem produkcyjnym. Firmy wdrażają ich do obsługi klienta, przetwarzania dokumentów, zarządzania danymi i automatyzacji procesów, które do tej pory wymagały człowieka przy klawiaturze.

Ten przewodnik jest centrum klastra treści o agentach AI na blogu Dokodu. Znajdziesz tu wyjaśnienie tego, jak agenci działają od środka, kiedy stosować RAG, kiedy lokalne modele, jak MCP zmienia integracje i gdzie zacząć, jeśli chcesz zbudować własnego agenta w n8n.

Treść jest skierowana do trzech grup: developerów, którzy chcą wiedzieć jak złożyć agenta z komponentów, managerów IT, którzy muszą podjąć decyzje architektoniczne, oraz właścicieli firm, którzy szukają konkretnych zastosowań i szacunków kosztów.


Co to jest agent AI i czym różni się od chatbota?

Zacznijmy od definicji, bo słowo "agent" jest nadużywane.

Chatbot to system, który przyjmuje pytanie w języku naturalnym i generuje odpowiedź. Może być oparty na regułach lub na LLM. Nie pamięta poprzednich rozmów (jeśli nie ma wbudowanej pamięci), nie ma dostępu do narzędzi i nie podejmuje działań w imieniu użytkownika.

Agent AI ma cztery składniki, których chatbotowi brakuje:

SkładnikRola w agencie
LLM (model językowy)Mózg — rozumuje, planuje, generuje tekst
Narzędzia (tools)Ręce — wywołuje API, czyta pliki, pisze do bazy
PamięćHistoria rozmów, fakty o użytkowniku, wyniki poprzednich kroków
Pętla decyzyjnaSprawdza czy cel osiągnięty, jeśli nie — planuje kolejny krok

Przykład, który dobrze ilustruje różnicę:

  • Chatbot: "Sprawdź mój email od klienta X."
  • Agent: Łączy się ze skrzynką pocztową, wyszukuje emaile od klienta X, czyta treść, ocenia priorytet, kategoryzuje wątek, draft odpowiedzi, pyta cię o zatwierdzenie, wysyła.

Agent nie czeka na kolejne polecenie po każdym kroku. Działa autonomicznie w ramach celu, który mu postawiłeś.

Pętla decyzyjna agenta wygląda tak:

Cel → Plan → Działanie → Obserwacja wyniku → Czy cel osiągnięty?
                                                ├── Tak → Zakończ
                                                └── Nie → Plan (nowy krok)

To wzorzec ReAct (Reasoning + Acting) i stanowi podstawę większości agentów produkcyjnych w 2026 roku.


Jak agent AI przetwarza informacje — RAG i okno kontekstowe

Każdy agent musi gdzieś trzymać wiedzę, z której korzysta. Tutaj pojawia się jedno z kluczowych pytań architektonicznych: wklejać dane do kontekstu czy używać RAG?

Zacznijmy od terminologii. Okno kontekstowe (context window) to maksymalna ilość tekstu, którą model może "widzieć" naraz podczas generowania odpowiedzi. Token to około 0,75 słowa — kartka A4 gęsto zapisanego tekstu to mniej więcej 750 tokenów.

Modele w 2026 mają coraz większe okna: Gemini 1.5 Pro obsługuje 1 milion tokenów, Claude 3.5 — 200 tysięcy. To dużo, ale nie nieskończenie.

Dwa podejścia do pamięci zewnętrznej

Context stuffing — wklejasz całą bazę wiedzy bezpośrednio do promptu. Prosto, szybko, bez dodatkowej infrastruktury.

  • Kiedy używać: masz mniej niż 1000 dokumentów, dane zmieniają się rzadko, model ma duże okno kontekstowe
  • Kiedy odpada: tysiące dokumentów, częste aktualizacje, koszt tokenów staje się problemem

RAG (Retrieval-Augmented Generation) — agent przed odpowiedzią odpytuje bazę wektorową, pobiera tylko te fragmenty, które są semantycznie bliskie pytaniu, i wkleja je do kontekstu.

Pytanie użytkownika
        ↓
Embedder (zamienia tekst na wektor)
        ↓
Baza wektorowa (Qdrant, LanceDB, Pinecone)
        ↓
Top K najbliższych fragmentów
        ↓
LLM generuje odpowiedź na podstawie fragmentów
  • Kiedy używać: setki tysięcy dokumentów, dane zmieniają się regularnie, zależy ci na precyzji źródeł
  • Kiedy odpada: małe zbiory danych, gdy context stuffing wystarczy, brak zasobów na serwer wektorowy

Praktyczna zasada: zacznij od context stuffing. Gdy dokumenty nie mieszczą się w oknie lub koszt tokenów rośnie — przejdź na RAG.

Szczegółowe porównanie z przykładami implementacji w n8n:


MCP — nowy standard komunikacji agentów z narzędziami

Przez lata integracja agentów z narzędziami zewnętrznymi wyglądała tak: dla każdego narzędzia pisałeś osobny adapter, dokumentowałeś schemat wywołania, obsługiwałeś błędy specyficzne dla tego API. Każdy agent znał tylko narzędzia, na które był wytrenowany lub do których miał jawnie napisane połączenia.

Model Context Protocol (MCP) zmienia tę logikę. To otwarty standard (Anthropic, 2024), który działa jak USB-C dla agentów — jeden konektor, który obsługuje dowolne narzędzie po obu stronach.

Agent nie musi wiedzieć, jak działa konkretne narzędzie. Musi wiedzieć tylko, że może je wywołać przez MCP, i znać schemat wejścia/wyjścia. Resztą zajmuje się serwer MCP po stronie narzędzia.

Jak MCP działa w praktyce

Agent (klient MCP)
        ↓
MCP Client (biblioteka w Pythonie/JS)
        ↓
Transport (stdio lub HTTP/SSE)
        ↓
MCP Server (uruchomiony lokalnie lub zdalnie)
        ↓
Narzędzie (baza danych, API, system plików, n8n workflow)

W kontekście n8n MCP oznacza, że Claude Code lub inny agent może sterować workflow n8n bezpośrednio — tworzyć, uruchamiać i modyfikować przepływy bez przechodzenia przez interfejs graficzny. Wystarczy, że n8n wystawia serwer MCP.

W Pythonie własny serwer MCP można napisać w kilkudziesięciu liniach kodu dzięki bibliotece FastMCP:

Python
1 2 3 4 5 6 7 8 9 10 11 from fastmcp import FastMCP mcp = FastMCP("moj-serwer") @mcp.tool() def get_order_status(order_id: str) -> dict: """Pobiera status zamówienia z bazy danych.""" # logika połączenia z bazą return {"order_id": order_id, "status": "shipped"} mcp.run()

Agent wywołujący ten serwer dostaje narzędzie get_order_status z opisem i schematem. Nie musi znać szczegółów implementacji.

Szczegółowe tutoriale:


Lokalne modele AI — prywatność i niezależność od chmury

Wysyłanie kodu firmowego lub danych klientów do OpenAI czy Google to decyzja z konsekwencjami prawnymi i biznesowymi. RODO nie zakazuje tego wprost, ale wymaga umów o przetwarzanie danych, przejrzystości i kontroli. Firmy z sektorów regulowanych — medycyna, finanse, prawo — często nie mogą lub nie chcą ryzykować.

Odpowiedzią są lokalne modele językowe uruchamiane na własnym sprzęcie.

Sprzęt i wybór GPU

Kluczowy parametr to VRAM (pamięć GPU), nie liczba rdzeni. Model językowy musi w całości zmieścić się w VRAM podczas inferencji.

ModelRozmiar (FP4/Q4)Wymagany VRAM
Qwen 3 Coder 8B~5 GBRTX 4060 8 GB
Llama 3.1 70B~40 GB2x RTX 4090 lub profesjonalna karta
Mistral 7B~4 GBRTX 3060 8 GB
DeepSeek Coder V2 16B~10 GBRTX 4080 12 GB

Drugi ważny parametr: przepustowość pamięci (memory bandwidth). Nowe karty z GDDR7 (RTX 5080, 5090) generują tokeny szybciej nawet przy porównywalnym VRAM, bo model jest ładowany do GPU szybciej przy każdym kroku inferencji.

Praktyczny przykład: Qwen 3 Coder 8B w kwantyzacji FP4 zajmuje około 5 GB VRAM i działa sprawnie na RTX 5080. Na karcie tej klasy generuje kod z prędkością, która nie blokuje developera czekającego na autouzupełnienie.

Narzędzia do lokalnego deployment

Ollama to najprostsze narzędzie do uruchamiania modeli lokalnie. Jedno polecenie pobiera i uruchamia model, wystawia OpenAI-kompatybilne API:

Bash
1 ollama run qwen3-coder:8b

Od tej chwili n8n, Cursor, Open WebUI lub własna aplikacja może łączyć się z modelem przez http://localhost:11434/v1 — tak samo jak z OpenAI API, bez zmiany kodu.

TensorRT-LLM to opcja dla bardziej zaawansowanych — kompiluje model do formatu zoptymalizowanego pod konkretną kartę NVIDIA, co daje wyraźny wzrost prędkości kosztem złożoności konfiguracji.

Lokalny RAG bez chmury

Lokalny RAG łączy lokalny LLM z lokalną bazą wektorową — żadne dane nie opuszczają serwera.

ColQwen to multimodalny model embeddingów, który "widzi" obrazy w dokumentach PDF. Tradycyjne embeddingi widzą tylko tekst wyodrębniony przez OCR. ColQwen rozumie układ strony, tabele i wykresy — to istotne przy fakturach, raportach technicznych i dokumentacji.

LanceDB to baza wektorowa bez serwera — plik na dysku, Python SDK, brak potrzeby uruchamiania osobnego procesu. Idealna do lokalnych deploymentów i prototypów.

Szczegółowe instrukcje wdrożenia:


Automatyzacja obrazów i dokumentów z agentami AI

Agenty AI nie operują tylko na tekście. Dwa obszary, gdzie automatyzacja przynosi natychmiastowy ROI dla firm:

Generowanie i edycja zdjęć przez API

Gemini Imagen 3 pozwala edytować zdjęcia produktów z promptu tekstowego bez Photoshopa i grafika. Workflow w n8n wygląda tak:

  1. Trigger formularza (URL zdjęcia + opis zmian)
  2. HTTP Request do Gemini Imagen API (zdjęcie zakodowane w base64)
  3. Dekodowanie odpowiedzi (base64 → plik binarny)
  4. Zapis do folderu lub wysłanie mailem

Zastosowania w e-commerce: zmiana tła zdjęcia produktu, dopasowanie oświetlenia do sezonu, generowanie wariantów dla A/B testów.

OCR i przetwarzanie PDF

Płatne API do OCR (OpenAI Vision, Google Document AI) kosztują proporcjonalnie do liczby przetworzonych stron. Przy setkach faktur miesięcznie koszty rosną szybko.

Lokalny serwis OCR oparty na FastAPI, PyMuPDF i Tesseract eliminuje te koszty:

  • PyMuPDF wyciąga tekst z PDFów z wbudowaną warstwą tekstową (natywne PDF, nie skany)
  • Tesseract obsługuje skany przez OCR
  • FastAPI wystawia endpoint HTTP, który n8n wywołuje przez węzeł HTTP Request

Serwis działa w Dockerze, dane zostają na twoim serwerze, koszt po wdrożeniu wynosi zero.


Jak zacząć — mapa klastra

Zależnie od twojego punktu startowego, polecam różne ścieżki przez ten klaster:

Jesteś nowy w temacie agentów AI? Zacznij od artykułu, który nie wymaga żadnej infrastruktury wektorowej: Agent AI na własnych danych bez RAG — n8n i Gemini

Chcesz zbudować chatbota na dokumentach?

Interesują cię agenty narzędziowe i integracje? MCP to fundament nowoczesnych integracji:

Chcesz lokalnego asystenta AI do kodowania? Bez wysyłania kodu do chmury: Lokalny asystent AI dla programistów — Qwen 3, Ollama, Docker

Chcesz automatyzować zdjęcia lub dokumenty PDF?

  • Edycja zdjęć produktów: Gemini Imagen w n8n
  • Przetwarzanie faktur i umów: artykuł o OCR PDF — link po opublikowaniu

Ile kosztuje wdrożenie agenta AI?

Pytanie, które pojawia się zawsze. Odpowiedź zależy od architektury.

Modele chmurowe (OpenAI, Gemini, Anthropic)

Płacisz za tokeny wejściowe i wyjściowe. Nie ma kosztów wdrożenia, nie ma konfiguracji, dane trafiają do dostawcy.

Szacunek dla małej firmy:

  • 50 pytań dziennie do Gemini 1.5 Flash (ok. 2000 tokenów na pytanie)
  • ~3 000 000 tokenów miesięcznie
  • Koszt: ok. 4-5 zł/miesiąc

To bardzo mało. Problem pojawia się przy dużej skali lub przy danych wrażliwych.

Self-hosted (n8n + lokalne modele)

  • GPU (RTX 4080/5080): jednorazowy koszt 3000-6000 zł
  • VPS lub serwer fizyczny: 80-200 zł/miesiąc
  • n8n: bezpłatny (self-hosted, licencja fair code)
  • Lokalne modele (Ollama): bezpłatne

Próg opłacalności względem płatnych API zależy od wolumenu i wartości prywatności danych. Firmy z sektora medycznego lub finansowego często wybierają self-hosted nawet przy niskim wolumenie ze względów compliance.

Hybryda (najczęstszy scenariusz)

n8n uruchomiony lokalnie lub na VPS jako orchestrator, Gemini/Claude API jako LLM dla zadań niepoufnych, lokalny Ollama dla zadań z danymi wrażliwymi.

Koszt: ok. 80-150 zł/miesiąc za VPS + zmienne koszty API proporcjonalne do użycia.

ArchitekturaKoszt startowyKoszt miesięcznyPrywatność
Chmura (API)05-200 złDane u dostawcy
Self-hosted3000-8000 zł80-200 złPełna kontrola
Hybryda0-500 zł80-300 złSelektywna

W tym klastrze

Wszystkie artykuły z klastra Agenci AI:


Zbuduj swojego agenta AI z Dokodu

Jeśli wiesz już, czego chcesz, ale nie masz czasu lub zespołu, żeby to wdrożyć — porozmawiajmy. Dokodu buduje agenty AI i automatyzacje n8n dla firm B2B w Polsce.

Umów bezpłatną konsultację

Tagi

#AI#automatyzacja#n8n#agenty-ai#sztuczna-inteligencja