Cykl: Automatyzacja procesów z n8n — od danych do AI w jednym narzędziu · Część 20/26

Jak transkrybować spotkania lokalnie — Whisper krok po kroku (2026)

Kacper27 maja 2026 · 4 min czytania

Streszczenie

→ Dlaczego nie Fireflies / Otter / Fathom?
→ Czym jest Whisper?
→ Krok 1: Google Drive — synchronizacja nagrań na dysk
→ Krok 2: Instalacja Whispera

Jak transkrybować spotkania lokalnie — Whisper krok po kroku (2026)

W zeszłym tygodniu napisałem na LinkedIn, że zbudowałem sobie system do transkrybowania spotkań. Kilka osób odpisało to samo: "Fajnie, ale jak to zrobić u siebie?"

Więc dziś Ci to pokażę. Krok po kroku. Bez kodowania, bez abonamentów, bez wysyłania nagrań do żadnego zewnętrznego serwisu.

Jedyne czego potrzebujesz to komputer i trochę cierpliwości na pierwszy raz.

Pięć kroków. Żaden z nich nie jest trudny. Przejdźmy przez nie.

Automatyzacje n8n / Make · 30 min

Co da się zautomatyzować u Ciebie w n8n?

Wskażesz proces robiony ręcznie, my ocenimy wykonalność i ROI. Bezpłatna rozmowa diagnostyczna.

Kacper Sieradziński · founder Dokodu

4,9 · zwykle odpowiada w 2h

Wybierz dogodny termin bezpłatnej rozmowy (30 min).

Umów bezpłatną rozmowę

Dlaczego nie Fireflies / Otter / Fathom?

Są serwisy, które robią to za Ciebie. Podłączasz je do spotkania, dostajesz transkrypcję. Wygodne. Ale:

	Fireflies / Otter	Whisper (lokalnie)
Koszt	~500-1500 PLN/rok	0 PLN
Twoje dane	ich serwery (USA)	Twój komputer
Polski	średnia jakość	dobra (model large-v3)
Wymaga internetu	tak, zawsze	tylko przy instalacji
Konfiguracja	5 min	15-30 min (raz)

Uczciwie — konfiguracją przegrywamy. Ale jeśli na Twoich spotkaniach padają budżety klientów, warunki umów albo dane osobowe, to pytanie "gdzie lecą te nagrania?" przestaje być akademickie.

Czym jest Whisper?

Whisper to model od OpenAI (tak, tych od ChatGPT), który zamienia mowę na tekst. Rozumie polski. Jest darmowy i open source. Po instalacji działa offline — nagranie nigdzie nie wylatuje z Twojego komputera.

Krok 1: Google Drive — synchronizacja nagrań na dysk

Jeśli nagrywasz spotkania w Google Meet, nagrania lądują automatycznie na Twoim Google Drive, w folderze "Meet Recordings".

Żeby nie ściągać ich ręcznie za każdym razem, zainstaluj Google Drive na komputer (Google Drive for Desktop). To oficjalna aplikacja Google — po instalacji Twoje pliki z Drive pojawiają się jako zwykły folder na dysku.

Po instalacji: ustawienia Google Drive → wybierasz foldery do synchronizacji → zaznaczasz "Meet Recordings". Od tego momentu po każdym spotkaniu nagranie pojawi Ci się lokalnie.

Używasz Zoom lub Teams? Ten sam schemat. Zoom zapisuje nagrania lokalnie domyślnie. Teams — po włączeniu opcji "Record to this computer". Wynik ten sam: plik wideo na Twoim dysku.

Krok 2: Instalacja Whispera

Tutaj potrzebujesz terminala. Jeśli nigdy go nie używałeś — terminal to konsola, w którą wpisujesz komendy tekstem zamiast klikać w ikonki. Na Windowsie szukasz "PowerShell" w menu Start. Na Macu — "Terminal" w Spotlight.

Nie musisz go rozumieć w całości. Wystarczy że umiesz wkleić komendę i wcisnąć Enter.

Najpierw Python. Wejdź na python.org, pobierz najnowszą wersję, zainstaluj.

Windows tip: Przy instalacji Pythona zaznacz "Add Python to PATH". Bez tego terminal nie znajdzie Pythona i będziesz się zastanawiać co poszło nie tak. Wiem, bo sam to przeoczyłem za pierwszym razem.

Potem Whisper. Otwierasz terminal i wklejasz:

pip install openai-whisper

Enter. Czekasz. To tyle — Whisper się zainstaluje.

Krok 3: Transkrypcja

Masz nagranie na dysku. Masz Whispera. Teraz jedna komenda:

whisper "ścieżka/do/nagrania.mp4" --model large-v3 --language pl

Co tu się dzieje:

whisper — wywołujesz program
"ścieżka/do/nagrania.mp4" — wskazujesz plik z nagraniem
--model large-v3 — największy model, najdokładniejszy dla polskiego
--language pl — mówisz Whisperowi, że to polski

Pierwsza transkrypcja? Model large-v3 waży ok. 3 GB. Pobierze się raz, przy pierwszym uruchomieniu. Potem Whisper działa offline.

Ale nie każdy komputer udźwignie największy model. Sprawdź co wybrać:

Zmiana modelu to zamiana jednego słowa w komendzie: --model medium zamiast --model large-v3. Reszta bez zmian.

Na wyjściu dostajesz kilka plików. Najważniejsze dwa:

.txt — pełny tekst rozmowy
.srt — tekst z timestampami (kto co mówił o której minucie)

Jakość jest zaskakująco dobra — odmiana polska, liczby, nazwy własne. Dużo lepsza niż wbudowane napisy w Google Meet.

Nie masz karty NVIDIA? Spokojnie. Whisper działa na procesorze. Wolniej, ale działa. Model small poradzi sobie z godzinnym spotkaniem w kilkanaście minut.

Co dalej z surowym tekstem?

Masz transkrypcję. Surowy tekst ze spotkania. Co z nim zrobić — zależy od Ciebie.

Możesz:

Przygotować podsumowanie dla klienta
Wrócić do rozmowy sprzed miesiąca i sprawdzić co ustaliliście
Wyciągnąć wymagania projektowe na podstawie tego, co naprawdę padło — nie tego, co zapamiętałeś
Wychwycić wszystkie decyzje podjęte podczas spotkania

Ja poszedłem krok dalej i zintegrowałem to z lokalnym modelem AI, który analizuje transkrypcje bez wysyłania danych na zewnątrz. O tym opowiem w kolejnym wpisie.

Dziś chodziło o fundamenty: nagranie → tekst, lokalnie, za darmo.

Co dalej? Lokalny pipeline AI dla całej firmy

Whisper to fundament. Następny logiczny krok: lokalny model AI (Ollama + Qwen) który analizuje te transkrypcje i generuje strukturyzowane notatki — decyzje, akcje, ryzyka. Wszystko bez wysyłania danych do ChatGPT/Claude API. Opisuję ten setup w drugiej części serii: Analiza spotkań lokalnym modelem AI — Ollama + Qwen.

Dla większego kontekstu: Agent AI dla firm — koszt, ROI i plan wdrożenia — kompletny pillar o tym, jak wpisać tego typu narzędzia w architekturę procesową firmy (RODO, AI Act, koszty).

💼 Chcesz to mieć u siebie w firmie — automatycznie, dla całego zespołu, z integracją z Twoim CRM/Notion/Slack? Umów bezpłatną 30-minutową konsultację z Dokodu →. Pokażę dokładnie jak postawić ten pipeline w Twojej infrastrukturze, włącznie z compliance pod RODO i AI Act.

Jedno zastrzeżenie

Nagrywanie spotkań wymaga zgody uczestników. To nie jest opcjonalne — to wymóg prawny. Upewnij się, że masz na to zgodę zanim naciśniesz "Nagraj".

Najcenniejsze dane w firmie powstają w rozmowach. Jeśli ich nie zapisujesz, to jakbyś je wyrzucał.

Tagi

#automatyzacja#AI lokalne#compliance#Whisper

Najczęściej zadawane pytania

Tak — i to niezależnie od tego, czy używasz chmurowego SaaS-a, czy lokalnego Whispera. Nagrywanie spotkania to przetwarzanie danych osobowych (głos to dana biometryczna z Art. 9 RODO), więc potrzebujesz zgody wszystkich uczestników. W praktyce: w zaproszeniu kalendarzowym informujesz, że spotkanie będzie nagrywane, w jakim celu, jak długo przechowywane i kto ma dostęp; werbalnie na początku spotkania pytasz, czy ktoś się nie zgadza. Zgoda musi być dobrowolna, świadoma, jednoznaczna i odwoływalna. Whisper lokalnie ułatwia compliance (dane nie wychodzą poza Twoją infrastrukturę), ale nie zastępuje zgody.

W modelu large-v3 — tak. Whisper large-v3 osiąga dla polskiego WER (Word Error Rate) rzędu 2-4%, podczas gdy większość komercyjnych SaaS-ów (Otter.ai, Fathom, Fireflies) plasuje się w okolicach 5-8% dla PL. Whisper dobrze radzi sobie z odmianą, liczbami, nazwami własnymi i mieszanym żargonem polsko-angielskim, jeśli wymusisz --language pl. Warunek jest jeden: musisz użyć dużego modelu (medium lub large-v3); modele tiny i base są dla polskiego nieużywalne.

Dla 50 użytkowników (ok. 5 spotkań/tydzień każdy) Otter.ai Business to ~12 000 EUR rocznie abonamentu, a TCO w 3 lata z audytem RODO i DPIA dochodzi do ~38 000 EUR. Whisper lokalnie na jednej maszynie z GPU (np. RTX 4090) to ~2 300 EUR sprzętu jednorazowo, ~3 000 EUR konfiguracji i ~600 EUR/rok prądu — TCO 3 lata ok. 7 100 EUR. Różnica to ~31 000 EUR oszczędności w 3 lata, a dane zostają u Ciebie. Próg opłacalności Whispera lokalnie zaczyna się już od ~8 użytkowników.

Nie. Whisper działa również na procesorze (CPU) — wolniej, ale działa. Godzinne spotkanie na nowszym laptopie bez GPU policzy się w kilkanaście do trzydziestu minut. Bez NVIDII polecam implementację whisper.cpp (port na C++, działa też na Apple M1/M2/M3) zamiast referencyjnego openai-whisper — jest wyraźnie szybsza na CPU. Z kartą NVIDIA i CUDA transkrypcja jest 10-20x szybsza, więc do batch processingu setek godzin GPU się opłaca.

Tak. Surowy transkrypt (.txt/.json) możesz wpiąć w lokalny model językowy przez Ollamę (Qwen 2.5, Llama 3.3), który wyciągnie decyzje, akcje, ryzyka i podsumowanie — wszystko offline, bez wysyłania treści do ChatGPT czy Claude API. Opisuję to w drugiej części serii (analiza spotkań lokalnym modelem AI). Idąc dalej, setki transkryptów możesz zindeksować w RAG-u (Qdrant + n8n) i przeszukiwać semantycznie — np. wszystkie spotkania, na których padał konkretny temat. Cały pipeline da się postawić na własnej infrastrukturze, zgodnie z RODO i AI Act.

Część 21 z 26

Własny CRM bez abonamentu za użytkownika vs gotowy CRM — kiedy się opłaca? [2026]

druga lekcja cyklu „Automatyzacja procesów z n8n — od danych do AI w jednym narzędziu"

Czytaj kolejny →

Jak transkrybować spotkania lokalnie — Whisper krok po kroku (2026)

Co da się zautomatyzować u Ciebie w n8n?

Dlaczego nie Fireflies / Otter / Fathom?

Czym jest Whisper?

Krok 1: Google Drive — synchronizacja nagrań na dysk

Krok 2: Instalacja Whispera

Krok 3: Transkrypcja

Co dalej z surowym tekstem?

Co dalej? Lokalny pipeline AI dla całej firmy

Jedno zastrzeżenie

Tagi

Najczęściej zadawane pytania

Czy potrzebuję zgody uczestników, żeby nagrywać i transkrybować spotkanie?

Czy Whisper lokalnie jest naprawdę lepszy dla polskiego niż Otter.ai czy Fireflies?

Ile to kosztuje dla firmy 50 osób w porównaniu z Otter.ai?

Muszę mieć kartę graficzną NVIDIA, żeby uruchomić Whisper?

Co dalej z surową transkrypcją — czy mogę ją automatycznie analizować bez chmury?

Własny CRM bez abonamentu za użytkownika vs gotowy CRM — kiedy się opłaca? [2026]

Powiązane artykuły

CRM dla agencji — jak wybrać system pod proces [2026]

Dedykowane oprogramowanie dla firm — kiedy warto zbudować własny system zamiast SaaS [2026]

Własny CRM szyty na miarę — kiedy się opłaca i jak zacząć

Najczęściej zadawane pytania

Czy potrzebuję zgody uczestników, żeby nagrywać i transkrybować spotkanie?

Czy Whisper lokalnie jest naprawdę lepszy dla polskiego niż Otter.ai czy Fireflies?

Ile to kosztuje dla firmy 50 osób w porównaniu z Otter.ai?

Muszę mieć kartę graficzną NVIDIA, żeby uruchomić Whisper?

Co dalej z surową transkrypcją — czy mogę ją automatycznie analizować bez chmury?

Powiązane artykuły

CRM dla agencji — jak wybrać system pod proces [2026]

Dedykowane oprogramowanie dla firm — kiedy warto zbudować własny system zamiast SaaS [2026]

Własny CRM szyty na miarę — kiedy się opłaca i jak zacząć