Helion


Szczegóły kursu video

 
Airflow. Kurs video. Zarządzanie i monitorowanie przepływu danych

Airflow. Kurs video. Zarządzanie i monitorowanie przepływu danych

15+


Obierz kurs na... operowanie przepływami danych

Jeśli pracujesz lub będziesz pracować na danych, prędzej czy później zetkniesz się z akronimem ETL. ETL, czyli wyodrębnianie, przekształcanie i ładowanie, jest procesem powszechnie stosowanym przez organizacje gromadzące i łączące dane z wielu źródeł w celu wspomagania zadań wykrywania, raportowania, analizowania i podejmowania decyzji. Apache Airflow pozwala na tworzenie wysokiej jakości procesów ETL i wprowadzenie optymalizacji niezależnie od infrastruktury końcowej (na przykład relacyjna baza danych, pliki json itp.). Korzystający z języka Python Airflow służy do harmonogramowania wielu zadań i przepływów pracy w projektach i organizacjach. Dlatego też będzie idealny dla osób, które są obeznane z Pythonem, muszą pracować na zbiorach danych i monitorować ich przepływ, ale nie chcą budować własnego narzędzia ETL.

Jako rozwiązanie typu open source Apache Airflow jest coraz częściej wymagany na stanowiskach typu data engineer czy data analysis. Nic w tym dziwnego, skoro automatyzacja to jeden z najważniejszych procesów dzisiejszego IT, a główną zaletą Airflow jest właśnie ułatwienie automatyzowania procesów. Podstawowym sposobem definiowania zadań są tu acykliczne grafy skierowane (DAG), które określają relacje między operatorami, porządek i zależności. Airflow DAG może zawierać wiele gałęzi i to Ty będziesz decydować, które z nich mają być przestrzegane, a które będą pomijalne w trakcie wykonywania przepływu pracy.

Nasz kurs obejmuje podstawowe tematy powiązane z orkiestracją zadań poprzez Apache Airflow. W jego trakcie dowiesz się, jak stworzyć w pełni proces za pomocą Airflow: skonfigurować zmienne globalne i połączenia, stworzyć DAG i jego scheduler czy konfigurację. Poznasz też najważniejsze elementy Airflow, takie jak Operator czy Sensor.

Co Cię czeka podczas naszego profesjonalnego szkolenia

W trakcie kursu między innymi:

  • Zobaczysz, jak poprawnie skonfigurować środowisko pracy
  • Dowiesz się, czym jest DAG i na czym polega orkiestracja zadań
  • Stworzysz operatory typu Bash, Empty, Python, SimpleHTTP i PostgreSQL
  • Ustawisz scheduler i operację catch, a także domyślne argumenty DAG-a
  • Skonfigurujesz sensory
  • Uruchomisz polecenia SQL na bazie danych PostgreSQL
  • Skonfigurujesz zmienne webservera za pomocą obiektów Param, Variable, Config
  • Skorzystasz z szablonów Jinja do przekazywania parametrów
  • Będziesz zarządzać zadaniami za pomocą grupowania, branchowania i tworzenia triggerów

Airflow. Kurs video. Zarządzanie i monitorowanie przepływu danych zakończysz na poziomie podstawowym. Zdobyta wiedza pozwoli Ci samodzielnie przygotować proste orkiestratory zadań oparte na języku SQL i Python. Dodatkowo będziesz w stanie zabezpieczyć procesy za pomocą sensorów i wprowadzić zmienne globalne czy konfiguracje za pomocą obiektów webservera.

Na zdobycie szczytu zawsze składa się postawienie tysięcy małych kroków. Aby zrozumieć rzeczy skomplikowane i złożone, należy najpierw przyswoić wiedzę w podstawowym zakresie. Materiał zawarty w powyższym kursie jest pierwszym krokiem dla osób, które widzą swoją przyszłość w branży IT.

  • 1. Wprowadzenie
    • 1.1. Wstęp00:03:34
    • 1.2. Instalacja Apache Airflow00:09:10
    • 1.3. Uruchomienie Apache Airflow00:12:34
  • 2. DAG, operatory, scheduler
    • 2.1. Pierwszy DAG, DummyOperator00:11:11
    • 2.2. BashOperator00:10:49
    • 2.3. PythonOperator00:12:16
    • 2.4. DAG Scheduler00:12:03
    • 2.5. SimpleHttpOperator00:07:33
  • 3. Sensory
    • 3.1. HTTPSensor00:10:45
    • 3.2. FileSensor00:08:38
    • 3.3. PythonSensor00:07:20
  • 4. Zmienne i dane
    • 4.1. Domyślne argumenty DAGa00:05:41
    • 4.2. Variable00:07:38
    • 4.3. XCOMs00:15:56
    • 4.4. Szablony Jinja00:09:16
    • 4.5. Parametry DAGa (Config)00:12:05
  • 5. Zarządzanie zadaniami
    • 5.1. Grupowanie zadań00:05:32
    • 5.2. PythonBranchOperator00:07:10
    • 5.3. Administracja zadań00:10:13
  • 6. Triggery
    • 6.1. one_success i all_done00:07:07
    • 6.2. one_failed, all_failed00:04:47
    • 6.3. none_failed00:03:03
  • 7. Praca z bazami danych
    • 7.1. Przygotowanie PostgreSQL00:05:31
    • 7.2. Ustawienie połączenia z Apache Airflow00:04:47
    • 7.3. Wykonywanie poleceń SQL00:04:26
    • 7.4. Wykonywanie skryptu SQL00:04:11
    • 7.5. Parametry dla poleceń SQL00:07:13
  • 8. Środowisko wielozadaniowe + projekt
    • 8.1. LocalExecutor + PostgreSQL dla Airflow00:10:35
    • 8.2. Omówienie projektu00:03:15
    • 8.3. Przygotowanie daga00:07:24
    • 8.4. Procesowanie danych00:08:37
    • 8.5. Zapis do pliku00:10:40
    • 8.6. Zapis do bazy danych cz. 100:10:45
    • 8.7. Zapis do bazy danych cz. 200:06:38
    • 8.8. Sterowania zadaniami00:10:30