Szczegóły ebooka

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy

James Densmore

Ebook

Poprawnie zaprojektowane i wdrożone potoki danych mają kluczowe znaczenie dla pomyślnej analizy danych, a także w trakcie uczenia maszynowego. Pozyskanie ogromnych ilości danych z różnych źródeł najczęściej nie stanowi problemu. Nieco trudniejsze jest zaprojektowanie procesu ich przetwarzania w celu dostarczenia kontekstu w taki sposób, aby efektywnie korzystać z posiadanych danych w codziennej pracy organizacji i podejmować dzięki nim rozsądne decyzje.

Oto zwięzły przewodnik przeznaczony dla inżynierów danych, którzy chcą poznać zasady implementacji potoków danych. Wyjaśnia najważniejsze pojęcia związane z potokami danych, opisuje zasady ich tworzenia i implementacji, prezentuje także najlepsze praktyki stosowane przez liderów w branży analizy danych. Dzięki książce zrozumiesz, w jaki sposób potoki danych działają na nowoczesnym stosie danych, poznasz też typowe zagadnienia, które trzeba przemyśleć przed podjęciem decyzji dotyczących implementacji. Dowiesz się, jakie są zalety samodzielnego opracowania rozwiązania, a jakie - zakupu gotowego produktu. Poznasz również podstawowe koncepcje, które mają zastosowanie dla frameworków typu open source, produktów komercyjnych i samodzielnie opracowywanych rozwiązań.

Dowiedz się:

  • czym jest potok danych i na czym polega jego działanie
  • jak się odbywa przenoszenie i przetwarzanie danych w nowoczesnej infrastrukturze
  • jakie narzędzia są szczególnie przydatne do tworzenia potoków danych
  • jak używać potoków danych do analizy i tworzenia raportów
  • jakie są najważniejsze aspekty obsługi potoków, ich testowania i rozwiązywania problemów

Poznaj najlepsze praktyki projektowania i implementacji potoków danych!

Spis treści

Wprowadzenie

Rozdział 1. Wprowadzenie do potoków danych

  • Czym jest potok danych?
  • Kto tworzy potok danych?
    • Podstawy pracy z SQL i hurtowniami danych
    • Python i/lub Java
    • Przetwarzanie rozproszone
    • Podstawowa administracja systemem
    • Nastawienie bazujące na celach
  • Dlaczego w ogóle są tworzone potoki danych?
  • Jak jest tworzony potok danych?

Rozdział 2. Nowoczesna infrastruktura danych

  • Różnorodność źródeł danych
    • Własność źródła danych
    • Interfejs pobierania danych i ich struktura
    • Wolumen danych
    • Czystość danych i ich weryfikacja
    • Opóźnienie i przepustowość systemu źródłowego
  • Jezioro danych i hurtownia danych w chmurze
  • Narzędzia pobierania danych
  • Przekształcanie danych i narzędzia modelowania
  • Platformy narzędzi koordynacji sposobu pracy
    • Skierowany graf acykliczny
  • Dostosowanie infrastruktury danych do własnych potrzeb

Rozdział 3. Najczęściej spotykane wzorce potoków danych

  • ETL i ELT
  • Pojawienie się ELT po ETL
  • Podwzorzec EtLT
  • ELT w analizie danych
  • ELT dla naukowca
  • ELT dla produktów danych i uczenia maszynowego
    • Etapy potoku danych dla uczenia maszynowego
    • Wykorzystanie informacji zwrotnych w potoku
    • Więcej zasobów dotyczących potoków danych dla uczenia maszynowego

Rozdział 4. Pobieranie danych - wyodrębnianie

  • Przygotowanie środowiska Pythona
  • Przygotowanie plikowego magazynu danych w chmurze
  • Wyodrębnianie danych z bazy danych MySQL
    • Pełne i przyrostowe wyodrębnianie danych z tabeli MySQL
    • Binarny dziennik zdarzeń replikacji danych MySQL
  • Wyodrębnianie danych z bazy danych PostgreSQL
    • Pełne i przyrostowe wyodrębnianie danych z tabeli PostgreSQL
    • Replikacja danych za pomocą dziennika zdarzeń WAL
  • Wyodrębnianie danych z API REST
  • Wyodrębnianie danych z bazy danych MongoDB
  • Strumieniowane pobieranie danych za pomocą Kafki i Debezium

Rozdział 5. Pobieranie danych - wczytywanie

  • Konfiguracja hurtowni danych Amazon Redshift jako miejsca docelowego
  • Wczytywanie danych do hurtowni danych Redshift
    • Wczytywanie przyrostowe a pełne
    • Wczytywanie danych wyodrębnionych z dziennika zdarzeń CDC
  • Konfiguracja hurtowni danych Snowflake jako miejsca docelowego
  • Wczytywanie danych do hurtowni danych Snowflake
  • Używanie plikowego magazynu danych jako jeziora danych
  • Frameworki typu open source
  • Alternatywy komercyjne

Rozdział 6. Przekształcanie danych

  • Przekształcenia pozbawione kontekstu
    • Usunięcie powtarzających się rekordów w tabeli
    • Przetwarzanie adresów URL
  • Kiedy powinno odbywać się przekształcanie - podczas pobierania danych czy już po?
  • Podstawy modelowania danych
    • Najważniejsze pojęcia związane z modelowaniem danych
    • Modelowanie w pełni odświeżonych danych
    • Powolna zmiana wymiarów w celu pełnego odświeżenia danych
    • Modelowanie przyrostowo pobieranych danych
    • Modelowanie danych, które są tylko dołączane
    • Modelowanie zmiany przechwytywanych danych

Rozdział 7. Narzędzia instrumentacji potoków danych

  • Skierowany graf acykliczny
  • Konfiguracja Apache Airflow i ogólne omówienie tego frameworka
    • Instalacja i konfiguracja
    • Baza danych Apache Airflow
    • Serwer WWW i interfejs użytkownika
    • Harmonogram
    • Wykonawca
    • Operatory
  • Tworzenie skierowanego grafu acyklicznego za pomocą Apache Airflow
    • Prosty skierowany graf acykliczny
    • Skierowany graf acykliczny potoku danych ELT
  • Dodatkowe zadania potoku danych
    • Komunikaty i powiadomienia
    • Weryfikacja danych
  • Zaawansowane konfiguracje koordynacji
    • Połączone a niepołączone zadania potoku danych
    • Kiedy podzielić skierowany graf acykliczny?
    • Koordynacja wielu grafów za pomocą operatora Sensor
  • Zarządzane opcje Apache Airflow
  • Inne frameworki koordynacji

Rozdział 8. Weryfikacja danych w potoku

  • Weryfikuj wcześnie i często
    • Jakość danych w systemie źródłowym
    • Niebezpieczeństwa związane z pobieraniem danych
    • Umożliwienie analitykowi weryfikacji danych
  • Prosty framework weryfikacji
    • Kod frameworka weryfikacji
    • Struktura testu weryfikacyjnego
    • Wykonywanie testu weryfikacyjnego
    • Używanie frameworka w skierowanym grafie acyklicznym Apache Airflow
    • Kiedy zatrzymać wykonywanie potoku, a kiedy tylko wygenerować ostrzeżenie i kontynuować potok?
    • Rozbudowa frameworka
  • Przykłady testów weryfikacyjnych
    • Powielone rekordy po operacji pobierania danych
    • Nieoczekiwana zmiana liczby rekordów po operacji pobierania danych
    • Fluktuacje wartości wskaźników
  • Komercyjne i niekomercyjne frameworki do weryfikacji danych

Rozdział 9. Najlepsze praktyki podczas pracy z potokiem danych

  • Obsługa zmian w systemach źródłowych
    • Wprowadzenie abstrakcji
    • Obsługa kontraktów danych
    • Ograniczenia schematu podczas odczytu
  • Skalowanie złożoności
    • Standaryzacja pobierania danych
    • Wielokrotne używanie logiki modelu danych
    • Zapewnienie spójności zależności

Rozdział 10. Pomiar i monitorowanie wydajności działania potoku danych

  • Kluczowe wskaźniki potoku
  • Przygotowanie hurtowni danych
    • Schemat infrastruktury danych
  • Rejestrowanie danych i sprawdzanie wydajności działania operacji pobierania danych
    • Pobieranie z Apache Airflow historii wykonania poszczególnych skierowanych grafów acyklicznych
    • Dodawanie funkcjonalności rejestrowania danych do frameworka weryfikacji danych
  • Przekształcanie danych dotyczących wydajności działania
    • Wskaźnik sukcesu skierowanego grafu acyklicznego
    • Zmiana czasu wykonywania skierowanego grafu acyklicznego na przestrzeni czasu
    • Liczba testów weryfikacyjnych i współczynnik sukcesu
  • Koordynacja wydajności działania potoku
    • Skierowany graf acykliczny dotyczący wydajności działania
  • Przejrzystość wydajności działania

Skorowidz

  • Tytuł: Potoki danych. Leksykon kieszonkowy. Przenoszenie i przetwarzanie danych na potrzeby ich analizy
  • Autor: James Densmore
  • Tytuł oryginału: Data Pipelines Pocket Reference: Moving and Processing Data for Analytics
  • Tłumaczenie: Robert Górczyński
  • ISBN: 978-83-8322-339-1, 9788383223391
  • Data wydania: 2023-05-23
  • Format: Ebook
  • Identyfikator pozycji: potdan
  • Wydawca: Helion