Przejdź do treści
Workin'Flows ← strona główna

słownik automatyzacji

Pipeline

Pipeline to liniowy łańcuch kroków przetwarzania danych, w którym każdy krok pobiera dane wyjściowe poprzedniego jako wejście i produkuje dane dla następnego. Koncepcja wywodzi się z programowania strumieniowego i jest fundamentalna dla automatyzacji przetwarzania danych na dużą skalę.

Termin pipeline pojawia się w kilku różnych kontekstach w automatyzacji. W ogólnym sensie to każda sekwencja transformacji, przez którą przechodzą dane. W n8n każdy workflow można traktować jako pipeline. W kontekście danych pipeline oznacza przepływ od źródła do magazynu: pobierz z API, oczyść, wzbogać, zapisz. W kontekście ML pipeline to sekwencja od surowych danych przez preprocessing, training, ewaluację do wdrożenia modelu.

Kluczowa cecha dobrze zaprojektowanego pipeline'u to możliwość ponownego uruchomienia pojedynczego kroku bez wpływu na resztę. To wymaga, żeby każdy krok był idempotentny i żeby między krokami były checkpointy stanu. Brak checkpointów oznacza, że przy awarii w kroku 7 z 10 musisz zaczynać od początku.

Pipeline różni się od workflowu głównie stopniem liniowości. Workflow może mieć rozgałęzienia i pętle. Pipeline jest z definicji jednokierunkowy, choć poszczególne kroki mogą przetwarzać dane równolegle.

W praktyce

Pipeline ingestii danych w projekcie OCR faktur wygląda tak: odbiór emaila z załącznikiem PDF (trigger) w n8n, wyodrębnienie załącznika, wysyłka do Document AI w GCP (Google Cloud Document AI), odbiór strukturyzowanego JSON ze strukturą faktury, walidacja pól wymaganych, normalizacja kwot przez decimal.js, próba mapowania na plan kont, zapis do tabeli stagingowej w Postgres, powiadomienie dla osoby weryfikującej. Każdy z tych kroków jest oddzielnym węzłem n8n, każdy loguje wynik, a przy błędzie zatrzymuje się z czytelnym komunikatem zamiast kontynuować z błędnymi danymi.

Powiązane

Masz dane do przetworzenia?

Buduję pipeline'y danych w n8n z Pythonowymi transformacjami i Postgres jako docelowym magazynem.

Automatyzacja procesów
← Wróć do słownika