słownik automatyzacji

OCR

OCR (Optical Character Recognition) to technologia zamieniająca obrazy zawierające tekst, skany dokumentów i pliki PDF na maszynowo przetwarzalny tekst lub ustrukturyzowane dane. Nowoczesne systemy OCR oparte na sieciach neuronowych potrafią rozpoznawać nie tylko znaki, ale też strukturę dokumentu i kontekst semantyczny pól.

Klasyczne OCR (Tesseract, ABBYY) wyodrębnia tekst znak po znaku na podstawie kształtów pikseli. Nowoczesne podejście, które Google Document AI reprezentuje, to Document Intelligence: model rozumie kontekst, wie że "1 234,56 zł" to kwota netto, że pole obok to VAT, że razem tworzą tabelę pozycji faktury. Wynik to ustrukturyzowany JSON, nie surowy tekst.

OCR to technologia niezbędna gdy Twój proces ma dokumenty papierowe lub skany jako punkt wejścia. Bez niej każda faktura od dostawcy, który nie wystawia XML, wymaga ręcznego przepisania. Z dobrym OCR ta sama faktura trafia do systemu automatycznie w ciągu kilku sekund od wpłynięcia emaila.

Jakość OCR zależy krytycznie od jakości skanów. Rozmazany faks z 2009 roku i profesjonalny PDF z ERP to zupełnie inne wyzwania. Dobrze zaprojektowany pipeline OCR ma etap walidacji i ścieżkę eskalacji do weryfikacji manualnej dla przypadków o niskiej pewności ekstrakcji.

W praktyce

W projekcie automatyzacji procesowania faktur zakupowych workflow w n8n odbiera email z załącznikiem PDF, wysyła go do Google Document AI (procesor typu "invoice parser"), odbiera JSON z wyekstrahowanymi polami: NIP sprzedawcy, data, pozycje, kwoty netto i brutto, numer faktury. Następnie waliduje czy wymagane pola są obecne i czy suma się zgadza. Przy pewności ekstrakcji powyżej 90% rekord trafia do tabeli stagingowej. Poniżej 90% ląduje w kolejce do weryfikacji manualnej z podglądem dokumentu i wyekstrahowanymi danymi obok siebie.

Powiązane

Przetwarzasz faktury ręcznie?

Buduję automatyzacje OCR faktur z Document AI i n8n. Sprawdź case study z realnego wdrożenia.

OCR faktur

← Wróć do słownika