Jak analizować transkrypcje spotkań lokalnym modelem AI w Ollama

Streszczenie
  • Dlaczego nie ChatGPT API albo Claude API?
  • Czym jest Ollama?
  • Krok 1: Instalacja Ollamy
  • Krok 2: Wybór modelu
Jak analizować transkrypcje spotkań lokalnym modelem AI w Ollama

Tydzień temu pokazałem Ci, jak zrobić transkrypcję spotkania bez chmury — Whisperem, lokalnie i za darmo.

Kompletny przewodnik znajdziesz w pierwszej części tej serii: Jak transkrybować spotkania lokalnie.

Po publikacji dostałem kilkanaście wiadomości z wariantem tego samego pytania:

„OK, mam transkrypcję. Plik txt. Osiemdziesiąt stron. I co teraz?"

Słuszne pytanie.

Transkrypcja to półprodukt. Nikt nie wraca do 80 stron rozmowy, żeby znaleźć, co właściwie ustaliliśmy z klientem. Ja na pewno nie wracam.

Naturalna myśl: wkleić plik do ChatGPT i napisać „podsumuj".

I tu wracamy do tego samego dylematu, który rozwiązaliśmy w pierwszej części, nagrywając i transkrybując lokalnie. Bo ta transkrypcja — z budżetami klientów, warunkami umów, nazwiskami i czasem danymi wrażliwymi — właśnie poleciała na zewnętrzne serwery.

Dlatego dziś druga część: jak postawić lokalny model AI, który zrobi tę samą robotę co ChatGPT na Twojej transkrypcji, ale nie wyśle jej poza Twój komputer.

Dlaczego nie ChatGPT API albo Claude API?

Bo wracamy do tego samego pytania co w pierwszym poście. Tylko tym razem problem jest jeszcze wyraźniejszy.

Do API trafia nie nagranie, z którego trzeba coś dopiero wyłuskać, ale gotowy, czysty tekst rozmowy. Zero szumu. Idealnie strawne dane.

ObszarChatGPT / Claude APIOllama lokalnie
Koszt$5–20 miesięcznie przy 50 spotkaniach0 zł
DaneZewnętrzne serweryTwój komputer
Język polskiBardzo dobryDobry przy większych modelach
InternetWymagany zawszeWymagany tylko przy pobraniu modelu
KonfiguracjaOkoło 5 minutOkoło 15 minut raz

Konfiguracją Ollama przegrywa, ale to nadal jednorazowa robota.

Uczciwie: jakość polskiego w GPT-4 czy Claude jest lepsza niż w lokalnych modelach. Ale „lepsza" oznacza tu głównie niuanse.

Do strukturyzowania notatek ze spotkania — kto co powiedział, jaka była decyzja, jakie jest zadanie — lokalny model w wielu przypadkach wystarcza. Sprawdziłem to na siedmiu spotkaniach i w praktyce różnica nie była dla mnie istotna.

Czym jest Ollama?

Najprościej: Docker dla modeli językowych.

Jedna komenda instaluje serwis, który działa w tle na Twoim komputerze. Druga komenda pobiera model. Trzecia uruchamia rozmowę.

Cały model siedzi na Twoim dysku, działa offline, nie wymaga konta, abonamentu ani limitu zapytań.

Ollama działa na:

  • macOS, szczególnie dobrze na Apple Silicon: M1, M2, M3, M4,
  • Windowsie,
  • Linuxie.

Najlepiej sprawdza się na Macach z układem M-series, bo Apple zrobiło dobrą robotę z Metal Performance Shaders i modele działają tam zaskakująco szybko.

Krok 1: Instalacja Ollamy

Na Macu:

Bash
1 2 brew install ollama ollama serve

Na Windowsie pobierasz instalator z ollama.com i przechodzisz przez klasyczne next-next-finish.

Pierwsza komenda instaluje Ollamę. Druga uruchamia serwis.

Możesz zostawić okno terminala otwarte albo skonfigurować Ollamę jako usługę systemową. Na Macu po pierwszym pobraniu modelu system zwykle robi to sam.

To wszystko. Ollama jest gotowa.

Krok 2: Wybór modelu

Tu mamy realny dylemat.

Modeli językowych są dziś setki, a biblioteka Ollamy zmienia się regularnie. Stan na maj 2026 może być za chwilę nieaktualny, ale mój sprawdzony zestaw wygląda tak.

Qwen 3 — 8B

Bezpieczny start.

Działa na każdym Macu z M1 wzwyż, pobiera się około 5 GB i jest szybki. Wybrałem Qwena zamiast Llamy, bo seria Qwen historycznie lepiej radziła sobie z polskim w tej klasie wielkości.

Do większości zastosowań wystarczy.

Bash
1 ollama pull qwen3:8b

Qwen 3.5 — 9B

Mój wybór, jeśli masz 16 GB RAM.

Polski jest o widoczny próg lepszy względem 8B, a model nadal jest rozsądny sprzętowo. Sam testuję go od niedawna — jeśli będziesz mieć inne doświadczenia, daj znać.

Bash
1 ollama pull qwen3.5:9b

Qwen 3 — 32B

Opcja dla mocniejszych maszyn, np. MacBooka Pro z 32 GB+ unified memory.

Pobiera się około 20 GB i odpowiada wolniej, ale jakość jest wyraźnie lepsza. Dla 95% zastosowań to overkill, ale jeśli masz sprzęt, warto sprawdzić.

Bash
1 ollama pull qwen3:32b

Moja rekomendacja: zacznij od Qwen 3 8B. Jeśli zobaczysz, że polski jest „prawie, ale nie zawsze", zrób upgrade do Qwen 3.5 9B.

Zmiana modelu to dosłownie zmiana jednego słowa w komendzie.

Krok 3: Prompt do analizy spotkania

To jest część, w którą warto włożyć pięć minut myślenia.

Prompt decyduje, czy dostaniesz przydatne notatki, czy ogólne podsumowanie, którego nikt później nie użyje.

Po sześciu iteracjach na własnych spotkaniach mam taki prompt:

Markdown
1 2 3 4 5 6 7 8 9 10 11 Jesteś analitykiem spotkań biznesowych. Otrzymasz transkrypcję spotkania w języku polskim. Wygeneruj strukturyzowane notatki w formacie Markdown, w czterech sekcjach, w tej kolejności: 1. **DECYZJE** — co konkretnie ustalono. Bez "wydaje się że", bez "prawdopodobnie". Format listy. 2. **AKCJE** — kto, co, do kiedy. Format ujednolicony: `- [imię] — [zadanie] — [deadline]` 3. **RYZYKA I OBIEKCJE** — co zabrzmiało niewygodnie albo wymaga uwagi. To tu ukrywają się rzeczy, które klient odebrał inaczej niż Tobie się wydaje. 4. **TL;DR** — trzy-cztery zdania na sam koniec. Zasada twarda: **jeśli czegoś nie ma w transkrypcji — napisz "brak danych"**. Nie wymyślaj cytatów, nie dopowiadaj. Transkrypcja: [TUTAJ WKLEJASZ PEŁEN TEKST]

Dlaczego właśnie takie sekcje?

  • Decyzje — pokazują, co faktycznie ustalono.
  • Akcje — nadają się od razu do przeniesienia do tasków.
  • Ryzyka i obiekcje — wyciągają rzeczy, które łatwo przeoczyć po spotkaniu.
  • TL;DR — daje szybkie podsumowanie dla osób, które nie były na rozmowie.

Najważniejsza jest zasada: jeśli czegoś nie ma w transkrypcji, model ma napisać „brak danych".

Bez tego lokalny LLM może dopowiadać, wygładzać albo wymyślać ustalenia. W notatkach ze spotkania to dyskwalifikujące.

Krok 4: Puszczamy transkrypcję przez model

Najprościej w terminalu:

Bash
1 ollama run qwen3:8b < transkrypcja.txt

Możesz wkleić prompt na początku pliku transkrypcji albo trzymać go osobno i skleić dwa pliki przed wysłaniem.

Ja używam takiego jednolinijkowca:

Bash
1 cat prompt.txt transkrypcja.txt | ollama run qwen3:8b

Po kilkudziesięciu sekundach dla 8B/9B albo kilku minutach dla 32B dostajesz strukturyzowane notatki.

W formacie, który od razu prosi się o wklejenie do Notion, Slacka albo CRM-a.

Pierwsze pięć sekund jest najprzyjemniejsze. To moment, w którym dociera do Ciebie, że właśnie zrobiłeś analizę poufnej rozmowy bez wysyłania jej komukolwiek.

Co dalej? Spinamy Whispera i Ollamę w jeden pipeline

Masz Whispera z pierwszej części i Ollamę z tego artykułu.

To dwa lokalne klocki, które robią całą robotę:

  1. nagranie → transkrypcja,
  2. transkrypcja → notatki,
  3. notatki → Markdown, CRM, Slack albo Notion.

Logiczny następny krok: spiąć to w jeden skrypt.

Jedno polecenie: wskazujesz nagranie, dostajesz strukturyzowane notatki w pliku Markdown. Bez klikania, bez kopiowania między oknami, bez czekania.

To jest dokładnie to, czego używam u siebie.

Jeśli chcesz zobaczyć kompletny pipeline dla całego zespołu — z integracją z CRM, Notion, Slackiem albo Teams — to wychodzimy poza „skrypt na Maca jednej osoby".

Tu zaczyna się temat infrastrukturalny: serwer dla zespołu, autoryzacja, integracje i audyt zgodności z RODO oraz AI Act.

Chcesz mieć taki pipeline w firmie?

Jeśli chcesz mieć lokalny pipeline do transkrypcji i analizy spotkań — automatycznie, dla całego zespołu, z integracją z CRM, Notion, Slackiem albo Teams — umów bezpłatną 30-minutową konsultację z Dokodu.

Pokażę, jak można postawić go w Twojej infrastrukturze i co trzeba sprawdzić pod kątem RODO oraz AI Act.

Jedno zastrzeżenie

Lokalny LLM nadal może się mylić.

Mnie zdarzyło się, że Qwen 3 8B pomylił nazwiska dwóch osób z tej samej firmy. Jedna osoba powiedziała „ja zrobię X", a model przypisał zadanie drugiej. Po przejściu na Qwen 3.5 9B problem przestał występować.

Wniosek: traktuj output lokalnego modelu jak draft, nie jak źródło prawdy.

Przeczytaj notatki, zanim wyślesz je dalej. Tak samo, jak zrobiłbyś z notatkami wygenerowanymi przez ChatGPT.

Powiązane przewodniki

P.S. GPT-OSS w Ollamie

Mała ciekawostka, której nie wcisnąłem w główny tekst.

OpenAI wypuściło niedawno GPT-OSS — swoje pierwsze modele open-source, które możesz uruchomić u siebie przez Ollamę.

Bash
1 ollama pull gpt-oss:20b

Wymaga około 32 GB RAM. Polski jest przyzwoity, ale nie jest jego najmocniejszą stroną — to bardziej model rozumowania niż model językowy.

Ale samego faktu, że da się go uruchomić lokalnie bez płacenia OpenAI za każde zapytanie, nie da się odzobaczyć.

Tagi

#automatyzacja#AI lokalne#compliance#Whisper#Ollama#Qwen