Python i ekstrakcja tekstu z PDF — pdfplumber, OCR i Vision w 2026

Kacper Sieradziński31 maja 2026 · 3 min czytania

Streszczenie

→ Trzy podejścia, trzy biblioteki
→ pdfplumber — król tabel
→ Ekstrakcja tekstu
→ Ekstrakcja tabel

Python i ekstrakcja tekstu z PDF — pdfplumber, OCR i Vision w 2026

"Mam 200 faktur w PDF-ach i potrzebuję wyciągnąć z nich kwoty do Excela."

"Muszę przeszukać 50 umów pod kątem konkretnej klauzuli."

"Chcę zrobić RAG na dokumentach firmowych, ale najpierw muszę je sparsować."

PDF to jeden z najczęstszych formatów w biznesie — i jeden z najbardziej upierdliwych do przetwarzania programistycznie. Ale w Pythonie mamy narzędzia, które robią to dobrze. I za darmo.

{% youtube "-f80-a-OM_s" %}

Kurs · 24 lekcje8h 14m

Kurs

Kurs Python od podstaw — PyStart

Zacznij programować w Pythonie od zera. Praktyczny kurs wideo z ćwiczeniami — bez wcześniejszego doświadczenia.

✓24 lekcje wideo + 80 ćwiczeń
✓Realne bazy z e-commerce
✓Społeczność i code-review

549 zł

Zacznij kurs Pythona

Trzy podejścia, trzy biblioteki

Biblioteka	Najlepsza do	Szybkość	Tabele	Skany
pdfplumber	Tekst + tabele	Średnia	Świetne	Nie
PyMuPDF (fitz)	Szybka ekstrakcja	Bardzo szybka	Podstawowe	Nie
Tesseract OCR	Zeskanowane PDF-y	Wolna	Nie	Tak

Którą wybrać? Zależy od Twoich PDF-ów. Pokażę każdą.

pdfplumber — król tabel

Jeśli Twoje PDF-y mają tabele (faktury, raporty, zestawienia), pdfplumber jest najlepszym wyborem.

Bash
1
pip install pdfplumber

Ekstrakcja tekstu

Python
1
2
3
4
5
6
import pdfplumber

with pdfplumber.open("faktura.pdf") as pdf:
    for page in pdf.pages:
        text = page.extract_text()
        print(text)

Ekstrakcja tabel

Python
1
2
3
4
5
6
7
8
9
import pdfplumber
import csv

with pdfplumber.open("raport.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            for row in table:
                print(row)  # lista komórek

pdfplumber rozpoznaje linie tabeli i poprawnie dzieli dane na kolumny. Dla faktur i raportów finansowych to game changer.

Praktyczny przykład: parsowanie faktur

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import pdfplumber
import re

def parse_invoice(path):
    with pdfplumber.open(path) as pdf:
        text = pdf.pages[0].extract_text()

    # Wyciągnij kluczowe dane
    nip = re.search(r"NIP[:\s]*(\d{10})", text)
    kwota = re.search(r"Do zapłaty[:\s]*([\d\s,]+)\s*(?:zł|PLN)", text)
    data = re.search(r"Data wystawienia[:\s]*(\d{2}[./-]\d{2}[./-]\d{4})", text)

    return {
        "nip": nip.group(1) if nip else None,
        "kwota": kwota.group(1).strip() if kwota else None,
        "data": data.group(1) if data else None,
    }

result = parse_invoice("faktura.pdf")
print(result)
# {'nip': '1234567890', 'kwota': '1 230,00', 'data': '15.03.2026'}

PyMuPDF (fitz) — prędkość i precyzja

PyMuPDF jest 3-5x szybszy niż pdfplumber. Jeśli przetwarzasz tysiące dokumentów, różnica jest ogromna.

Bash
1
pip install PyMuPDF

Ekstrakcja tekstu

Python
1
2
3
4
5
6
import fitz  # PyMuPDF

doc = fitz.open("dokument.pdf")
for page in doc:
    text = page.get_text()
    print(text)

Ekstrakcja z pozycjonowaniem (bounding boxy)

Python
1
2
3
4
5
6
7
8
9
10
import fitz

doc = fitz.open("dokument.pdf")
page = doc[0]

# Tekst z pozycjami — przydatne gdy układ strony jest ważny
blocks = page.get_text("blocks")
for block in blocks:
    x0, y0, x1, y1, text, block_no, block_type = block
    print(f"[{x0:.0f},{y0:.0f}] {text[:60]}")

To jest przydatne gdy musisz wiedzieć gdzie na stronie jest tekst — np. lewy górny róg to nadawca, prawy to odbiorca.

Benchmark

Operacja	pdfplumber	PyMuPDF
10 stron	0.8s	0.15s
100 stron	7.2s	1.1s
1000 stron	68s	9s

Dla batch processingu różnica jest znacząca.

Tesseract OCR — dla skanów

Gdy PDF jest zeskanowanym obrazem (nie ma warstwy tekstowej), potrzebujesz OCR.

Bash
1
2
pip install pytesseract pdf2image Pillow
# + zainstaluj Tesseract: sudo apt install tesseract-ocr tesseract-ocr-pol

Python
1
2
3
4
5
6
7
8
9
10
11
from pdf2image import convert_from_path
import pytesseract

# Konwertuj PDF na obrazy
images = convert_from_path("skan.pdf", dpi=300)

for i, img in enumerate(images):
    # OCR z polskim językiem
    text = pytesseract.image_to_string(img, lang="pol")
    print(f"--- Strona {i+1} ---")
    print(text)

OCR nie jest idealny — jakość zależy od:

DPI skanu — 300 DPI minimum
Jakość oryginału — przekrzywione, rozmazane = słabe wyniki
Język — Tesseract ma model dla polskiego (pol), ale nie jest perfekcyjny

Tip: sprawdź czy PDF potrzebuje OCR

Python
1
2
3
4
5
6
7
8
9
10
11
import fitz

def needs_ocr(pdf_path):
    doc = fitz.open(pdf_path)
    text = doc[0].get_text().strip()
    return len(text) < 50  # Jeśli mniej niż 50 znaków → prawdopodobnie skan

if needs_ocr("dokument.pdf"):
    print("Ten PDF to skan — użyj OCR")
else:
    print("Tekst dostępny — użyj pdfplumber/PyMuPDF")

Bonus: PDF + LLM = automatyczna analiza

Po wyciągnięciu tekstu możesz go podać do LLM i poprosić o analizę:

Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import fitz
import anthropic

# 1. Ekstrakcja tekstu
doc = fitz.open("umowa.pdf")
text = "\n".join(page.get_text() for page in doc)

# 2. Analiza przez Claude
client = anthropic.Anthropic()
msg = client.messages.create(
    model="claude-haiku-4-5-20251001",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": f"Przeanalizuj tę umowę. Wyciągnij: strony, przedmiot, kwotę, terminy, kary.\n\n{text[:3000]}"
    }]
)
print(msg.content[0].text)

To jest fundament systemów RAG, automatycznej analizy dokumentów i chatbotów firmowych.

Które podejście wybrać?

Faktury, raporty z tabelami → pdfplumber
Duże ilości dokumentów tekstowych → PyMuPDF
Skany, zdjęcia dokumentów → Tesseract OCR
Mix → PyMuPDF do szybkiego sprawdzenia + fallback na OCR

Podsumowanie

Python ma 3 świetne biblioteki do PDF: pdfplumber (tabele), PyMuPDF (szybkość), Tesseract (skany)
Nie potrzebujesz płatnych API — wszystko działa lokalnie
pdfplumber najlepszy do faktur i raportów tabelarycznych
PyMuPDF 3-5x szybszy, idealny do batch processingu
Tesseract OCR jako fallback dla zeskanowanych dokumentów
Połącz z LLM (Claude/GPT) do automatycznej analizy dokumentów

Ten temat — ekstrakcja danych z dokumentów — jest fundamentem automatyzacji w firmie. Jeśli chcesz pójść dalej i zbudować pełny pipeline (PDF → analiza → akcja), sprawdź mój kurs n8n.

Zobacz też

Tagi

#AI#automatyzacja#Python#n8n#RAG#OCR

Najczęściej zadawane pytania

Dla większości polskich dokumentów biznesowych pdfplumber jest najlepszym domyślnym wyborem. Świetnie radzi sobie z tabelami w fakturach i raportach. Dla batch processingu tysięcy plików dziennie wybierz PyMuPDF (3-5x szybszy). Dla skanów potrzebujesz OCR Tesseract lub Vision API od OpenAI/Google.

Tak, użyj Tesseracta z polskim modelem językowym (pakiet tesseract-ocr-pol). Skan musi mieć minimum 300 DPI dla sensownej jakości. Dla scanów słabszej jakości, dokumentów krzywych lub odręcznych warto rozważyć Gemini Flash lub GPT-4o Vision — koszt to ułamek grosza za stronę, a jakość znacząco wyższa niż Tesseract.

Problem wynika z niestandardowego mapowania fontów. W pdfplumber pomaga `extract_text(x_tolerance=2, y_tolerance=2)`. W PyMuPDF dodaj flagę `TEXT_PRESERVE_LIGATURES`. Jeśli to nie pomaga, PDF jest praktycznie nieczytelny w warstwie tekstowej — przejdź na OCR Tesseract z `lang='pol'` lub Vision API.

Rzędy wielkości to: Gemini 2.5 Flash ~0,01 zł/strona, Claude Haiku ~0,02 zł, GPT-4o ~0,03 zł. Dla 200 faktur miesięcznie to maksymalnie kilkanaście złotych. Dla firmy przetwarzającej tysiąc dokumentów dziennie — kilkaset złotych miesięcznie. Wciąż tysiące razy taniej niż etat osoby przepisującej.

Otwórz PDF w PyMuPDF, wyciągnij tekst z pierwszej strony i sprawdź jego długość. Jeśli `len(text.strip()) < 50`, to praktycznie pewne, że masz do czynienia ze skanem bez warstwy tekstowej. Dodatkowo policz stosunek znaków alfanumerycznych do długości — jeśli mniej niż 70 procent, to OCR-em zrobiony wcześniej skan ze śmieciami. W obu przypadkach przepuść jeszcze raz przez Tesseracta lub Vision API.

Powiązane

Python – kompletny przewodnik od podstaw do sztucznej inteligencji

Dowiedz się, czym jest język Python, jak się go nauczyć i jak wykorzystać w automatyzacji, web developmencie oraz sztucznej inteligencji.

Czytaj →

Python i ekstrakcja tekstu z PDF — pdfplumber, OCR i Vision w 2026

Kurs Python od podstaw — PyStart

Trzy podejścia, trzy biblioteki

pdfplumber — król tabel

Ekstrakcja tekstu

Ekstrakcja tabel

Praktyczny przykład: parsowanie faktur

PyMuPDF (fitz) — prędkość i precyzja

Ekstrakcja tekstu

Ekstrakcja z pozycjonowaniem (bounding boxy)

Benchmark

Tesseract OCR — dla skanów

Tip: sprawdź czy PDF potrzebuje OCR

Bonus: PDF + LLM = automatyczna analiza

Które podejście wybrać?

Podsumowanie

Zobacz też

Tagi

Najczęściej zadawane pytania

Która biblioteka Pythona jest najlepsza do ekstrakcji tekstu z PDF w 2026?

Czy mogę wyciągać tekst ze zeskanowanych PDF-ów w Pythonie bez płatnego API?

Jak radzić sobie z polskimi znakami w PDF, gdy ą i ę psują się przy ekstrakcji?

Ile kosztuje ekstrakcja PDF przez Vision API (OpenAI, Gemini, Claude) w 2026?

Jak wykryć, czy PDF jest skanem czy ma warstwę tekstową, zanim wyślę go do OCR?

Python – kompletny przewodnik od podstaw do sztucznej inteligencji

Powiązane artykuły

Python – kompletny przewodnik od podstaw do sztucznej inteligencji

Podstawy języka Python – zmienne, pętle, funkcje i pliki

Nauka Pythona od podstaw – kompletny przewodnik dla początkujących

Najczęściej zadawane pytania

Która biblioteka Pythona jest najlepsza do ekstrakcji tekstu z PDF w 2026?

Czy mogę wyciągać tekst ze zeskanowanych PDF-ów w Pythonie bez płatnego API?

Jak radzić sobie z polskimi znakami w PDF, gdy ą i ę psują się przy ekstrakcji?

Ile kosztuje ekstrakcja PDF przez Vision API (OpenAI, Gemini, Claude) w 2026?

Jak wykryć, czy PDF jest skanem czy ma warstwę tekstową, zanim wyślę go do OCR?

Powiązane artykuły

Python – kompletny przewodnik od podstaw do sztucznej inteligencji

Podstawy języka Python – zmienne, pętle, funkcje i pliki

Nauka Pythona od podstaw – kompletny przewodnik dla początkujących