Więc dziś Ci to pokażę. Krok po kroku. Bez kodowania, bez abonamentów, bez wysyłania nagrań do żadnego zewnętrznego serwisu.
Jedyne czego potrzebujesz to komputer i trochę cierpliwości na pierwszy raz.

Pięć kroków. Żaden z nich nie jest trudny. Przejdźmy przez nie.
Dlaczego nie Fireflies / Otter / Fathom?
Są serwisy, które robią to za Ciebie. Podłączasz je do spotkania, dostajesz transkrypcję. Wygodne. Ale:
| Fireflies / Otter | Whisper (lokalnie) | |
|---|---|---|
| Koszt | ~500-1500 PLN/rok | 0 PLN |
| Twoje dane | ich serwery (USA) | Twój komputer |
| Polski | średnia jakość | dobra (model large-v3) |
| Wymaga internetu | tak, zawsze | tylko przy instalacji |
| Konfiguracja | 5 min | 15-30 min (raz) |
Uczciwie — konfiguracją przegrywamy. Ale jeśli na Twoich spotkaniach padają budżety klientów, warunki umów albo dane osobowe, to pytanie "gdzie lecą te nagrania?" przestaje być akademickie.
Czym jest Whisper?
Whisper to model od OpenAI (tak, tych od ChatGPT), który zamienia mowę na tekst. Rozumie polski. Jest darmowy i open source. Po instalacji działa offline — nagranie nigdzie nie wylatuje z Twojego komputera.
Krok 1: Google Drive — synchronizacja nagrań na dysk
Jeśli nagrywasz spotkania w Google Meet, nagrania lądują automatycznie na Twoim Google Drive, w folderze "Meet Recordings".
Żeby nie ściągać ich ręcznie za każdym razem, zainstaluj Google Drive na komputer (Google Drive for Desktop). To oficjalna aplikacja Google — po instalacji Twoje pliki z Drive pojawiają się jako zwykły folder na dysku.
Po instalacji: ustawienia Google Drive → wybierasz foldery do synchronizacji → zaznaczasz "Meet Recordings". Od tego momentu po każdym spotkaniu nagranie pojawi Ci się lokalnie.
Używasz Zoom lub Teams? Ten sam schemat. Zoom zapisuje nagrania lokalnie domyślnie. Teams — po włączeniu opcji "Record to this computer". Wynik ten sam: plik wideo na Twoim dysku.
Krok 2: Instalacja Whispera
Tutaj potrzebujesz terminala. Jeśli nigdy go nie używałeś — terminal to konsola, w którą wpisujesz komendy tekstem zamiast klikać w ikonki. Na Windowsie szukasz "PowerShell" w menu Start. Na Macu — "Terminal" w Spotlight.
Nie musisz go rozumieć w całości. Wystarczy że umiesz wkleić komendę i wcisnąć Enter.
Najpierw Python. Wejdź na python.org, pobierz najnowszą wersję, zainstaluj.
Windows tip: Przy instalacji Pythona zaznacz "Add Python to PATH". Bez tego terminal nie znajdzie Pythona i będziesz się zastanawiać co poszło nie tak. Wiem, bo sam to przeoczyłem za pierwszym razem.
Potem Whisper. Otwierasz terminal i wklejasz:
pip install openai-whisper
Enter. Czekasz. To tyle — Whisper się zainstaluje.
Krok 3: Transkrypcja
Masz nagranie na dysku. Masz Whispera. Teraz jedna komenda:
whisper "ścieżka/do/nagrania.mp4" --model large-v3 --language pl
Co tu się dzieje:
whisper— wywołujesz program"ścieżka/do/nagrania.mp4"— wskazujesz plik z nagraniem--model large-v3— największy model, najdokładniejszy dla polskiego--language pl— mówisz Whisperowi, że to polski
Pierwsza transkrypcja? Model large-v3 waży ok. 3 GB. Pobierze się raz, przy pierwszym uruchomieniu. Potem Whisper działa offline.
Ale nie każdy komputer udźwignie największy model. Sprawdź co wybrać:

Zmiana modelu to zamiana jednego słowa w komendzie: --model medium zamiast --model large-v3. Reszta bez zmian.
Na wyjściu dostajesz kilka plików. Najważniejsze dwa:
- .txt — pełny tekst rozmowy
- .srt — tekst z timestampami (kto co mówił o której minucie)
Jakość jest zaskakująco dobra — odmiana polska, liczby, nazwy własne. Dużo lepsza niż wbudowane napisy w Google Meet.
Nie masz karty NVIDIA? Spokojnie. Whisper działa na procesorze. Wolniej, ale działa. Model small poradzi sobie z godzinnym spotkaniem w kilkanaście minut.
Co dalej z surowym tekstem?
Masz transkrypcję. Surowy tekst ze spotkania. Co z nim zrobić — zależy od Ciebie.
Możesz:
- Przygotować podsumowanie dla klienta
- Wrócić do rozmowy sprzed miesiąca i sprawdzić co ustaliliście
- Wyciągnąć wymagania projektowe na podstawie tego, co naprawdę padło — nie tego, co zapamiętałeś
- Wychwycić wszystkie decyzje podjęte podczas spotkania
Ja poszedłem krok dalej i zintegrowałem to z lokalnym modelem AI, który analizuje transkrypcje bez wysyłania danych na zewnątrz. O tym opowiem w kolejnym wpisie.
Dziś chodziło o fundamenty: nagranie → tekst, lokalnie, za darmo.
Co dalej? Lokalny pipeline AI dla całej firmy
Whisper to fundament. Następny logiczny krok: lokalny model AI (Ollama + Qwen) który analizuje te transkrypcje i generuje strukturyzowane notatki — decyzje, akcje, ryzyka. Wszystko bez wysyłania danych do ChatGPT/Claude API. Opisuję ten setup w drugiej części serii: Analiza spotkań lokalnym modelem AI — Ollama + Qwen.
Dla większego kontekstu: Agent AI dla firm — koszt, ROI i plan wdrożenia — kompletny pillar o tym, jak wpisać tego typu narzędzia w architekturę procesową firmy (RODO, AI Act, koszty).
💼 Chcesz to mieć u siebie w firmie — automatycznie, dla całego zespołu, z integracją z Twoim CRM/Notion/Slack? Umów bezpłatną 30-minutową konsultację z Dokodu →. Pokażę dokładnie jak postawić ten pipeline w Twojej infrastrukturze, włącznie z compliance pod RODO i AI Act.
Jedno zastrzeżenie
Nagrywanie spotkań wymaga zgody uczestników. To nie jest opcjonalne — to wymóg prawny. Upewnij się, że masz na to zgodę zanim naciśniesz "Nagraj".
Najcenniejsze dane w firmie powstają w rozmowach. Jeśli ich nie zapisujesz, to jakbyś je wyrzucał.



