Details zum E-Book

Airflow. Monitorowanie przepływu danych

Airflow. Monitorowanie przepływu danych

Piotr Chudzik

Wird geladen...
E-BOOK

Wszystkie dane pod pełną kontrolą

W czasach, gdy wiele naszych działań przeniosło się do przestrzeni cyfrowej, tworzymy i agregujemy ogromne ilości danych. Przechowujemy je na dyskach urządzeń, mobilnych nośnikach pamięci, w chmurach, a nawet w formie załączników poczty elektronicznej. Aby uzyskać z nich jak najwięcej informacji, musimy wykonywać odpowiednie procesy analityczno-agregujące, które następnie pozwolą nam na wyciągnięcie właściwych wniosków, a potem podjęcie odpowiednich decyzji. W tym miejscu często pojawia się problem: w jaki sposób pogodzić różne formaty danych, odpowiednio je ze sobą połączyć, wykonać mapowanie i konwertowanie?

Wtedy do gry wkraczają tak zwane orkiestratory zadań, a należy do nich między innymi Apache Airflow. Jest to jedno z najpopularniejszych narzędzi służących do tworzenia, organizowania i monitorowania przepływów pracy, a także uruchamiania łańcuchów zadań na podstawie danych pochodzących z rozmaitych źródeł i występujących w różnych formatach.

Apache Airflow - darmowej usłudze dostępnej dla każdego, kto zna język Python - poświęcona jest ta książka:

  • Znajdziesz w niej opis poszczególnych modułów narzędzia Apache Airflow
  • Korzystając z zawartych w niej wskazówek, przeprowadzisz proces instalacji i przygotujesz środowisko pracy
  • Przyjrzysz się poszczególnym elementom Apache Airflow
  • Poznasz dobre praktyki związane z pracą w orkiestratorze danych
Od autora

Wprowadzenie

Rozdział 1. DAG i zadania

  • Pierwszy DAG
  • BashOperator
    • Skrypty powłoki (sh)
  • Kolejność wykonywania poleceń (graf)
    • Podejście bitowe (rekomendowane)
    • Podejście funkcyjne
    • Przykładowa implementacja
  • Operatory Pythona
    • PythonOperator
    • Skrypty i moduły
    • PythonVirtualenvOperator
    • ExternalPythonOperator
  • Konfiguracja i harmonogram DAG-a
    • default_args
    • Dokumentacja
    • Podstawowy harmonogram zadań (scheduler)
    • catchup i indywidualny start/end
  • Historia wykonań

Rozdział 2. Połączenia, HTTP, sensory

  • Połączenia
  • Operator i sensor HTTP
  • FileSensor
  • BashSensor
  • PythonSensor
  • Sterowanie zadaniami
  • Operatory sterujące

Rozdział 3. Reguły wykonywania zadania

  • all_success
  • all_failed
  • all_done
  • one_failed
  • one_success
  • none_failed
  • none_skipped
  • none_failed_min_one_success
  • Przykładowa implementacja

Rozdział 4. Przekazywanie informacji

  • Szablon Jinja
  • XCom
  • Historia XCom
  • Variable
  • DAG Config oraz obiekt Param
    • Opcja do modyfikacji daty logicznej

Rozdział 5. Zadania oparte na SQL-u

  • Instalacja rozszerzeń
  • SQLExecuteQueryOperator
  • SQLColumnCheckOperator/SQLTableCheckOperator
  • SQLCheckOperator/SQLValueCheckOperator
  • SQLIntervalCheckOperator/SQLThresholdCheckOperator
  • BranchSQLOperator
  • SQLSensor

Rozdział 6. Hooki i pozostałe operatory

  • Hooki
  • TriggerDagRunOperator
  • ShortCircuitOperator

Rozdział 7. Dataset i backfill

  • Dataset jako harmonogram
  • Backfill

Rozdział 8. Bezpieczeństwo i administracja

  • fernet key
    • Rotacja kluczy
  • Użytkownicy i uprawnienia

Rozdział 9. Przykłady rozszerzeń (providers)

  • Docker
  • SFTP
  • MongoDB

Rozdział 10. Symulacja środowiska HA

  • Uruchomienie klastra
  • Pool i kolejka

Rozdział 11. Airflow CLI

  • airflow db
  • airflow dags
  • airflow tasks
  • airflow users
  • airflow roles
  • airflow variables
  • airflow connections
  • airflow info/version/fernet
  • Titel:Airflow. Monitorowanie przepływu danych
  • Autor:Piotr Chudzik
  • ISBN:978-83-289-3387-3, 9788328933873
  • Veröffentlichungsdatum:2025-09-23
  • Format:E-Book
  • Artikel-ID: airflo
  • Verleger: Helion
Wird geladen...
Wird geladen...