E-book details

Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse

Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse

James Serra

Ebook

Architektury data fabric i data lakehouse, a także siatka danych pojawiły się niedawno jako alternatywy hurtowni danych. Te nowe architektury mają swoje mocne strony, ale podczas projektowania rzeczywistych rozwiązań musisz pamiętać o odróżnianiu faktów od przesadnych pochwał i niejasności. Nie zawsze jest to proste i oczywiste zadanie.

Niezwykłość tej książki polega na przekształcaniu złożonych zagadnień technicznych w jasne i zrozumiałe objaśnienia.

Annie Xu, starszy inżynier danych, Google

Dzięki temu praktycznemu przewodnikowi profesjonaliści zajmujący się danymi dobrze zrozumieją wady i zalety poszczególnych rozwiązań. Omówiono tu typowe zagadnienia dotyczące architektur danych, w tym ich rozwój i możliwości. Żadna architektura nie jest na tyle uniwersalna, by być odpowiednia w każdej sytuacji, dlatego w książce znajdziesz rzetelne porównanie cech poszczególnych architektur. Dowiesz się, jakie kompromisy towarzyszą każdej z nich, niezależnie od popularności. W ten sposób o wiele łatwiej przyjdzie Ci wybór rozwiązania, które najlepiej odpowiada Twoim potrzebom.

Najciekawsze zagadnienia:

  • praktyczne działanie architektur danych, ich mocne i słabe strony
  • wybór najlepszej architektury pod kątem konkretnego zastosowania
  • różnice między hurtowniami i "jeziorami" danych
  • wspólne koncepcje architektur danych i ich historyczny rozwój
  • sesje projektowania architektury, organizacja zespołów i najważniejsze uwarunkowania

Połóż tę książkę na biurku. Będziesz często po nią sięgać!

Sawyer Nyquist, autor, właściciel The Data Shop

Słowo wstępne

Przedmowa

Część I. Fundamenty

  • 1. Technologia Big Data
    • Czym jest technologia Big Data i jak może być pomocna?
    • Dojrzałość danych
      • Etap 1: reakcyjny
      • Etap 2: informacyjny
      • Etap 3: predyktywny
      • Etap 4: transformatywny
    • Samoobsługowa analityka biznesowa
    • Podsumowanie
  • 2. Typy architektur danych
    • Ewolucja architektur danych
    • Relacyjna hurtownia danych
    • Jezioro danych
    • Nowoczesna hurtownia danych
    • Architektura Data Fabric
    • Architektura Data Lakehouse
    • Siatka danych
    • Podsumowanie
  • 3. Sesja projektowania architektury
    • Czym jest sesja projektowania architektury?
    • Dlaczego należy przeprowadzać sesję ADS?
    • Przed sesją ADS
      • Przygotowanie
      • Zaproszenie uczestników
    • Przeprowadzanie sesji ADS
      • Wprowadzenia
      • Ustalenia
      • Korzystanie z tablicy
    • Po zakończeniu sesji ADS
    • Wskazówki dotyczące prowadzenia sesji ADS
    • Podsumowanie

Część II. Typowe pojęcia związane z architekturami danych

  • 4. Relacyjna hurtownia danych
    • Czym jest relacyjna hurtownia danych?
    • Czym hurtownia danych nie jest?
    • Podejście odgórne
    • Dlaczego warto skorzystać z relacyjnej hurtowni danych?
    • Wady związane z korzystaniem z relacyjnej hurtowni danych
    • Zasilanie hurtowni danych
      • Częstotliwość wyodrębniania danych
      • Metody wyodrębniania
      • Metoda określania, jakie dane zmieniły się od ostatniej operacji wyodrębnienia
    • Informacje o kresie relacyjnej hurtowni danych okazały się mocno przesadzone
    • Podsumowanie
  • 5. Jezioro danych
    • Czym jest jezioro danych?
    • Dlaczego warto używać jeziora danych?
    • Podejście oddolne
    • Najlepsze praktyki projektowania architektury jeziora danych
    • Wiele jezior danych
      • Zalety
      • Wady
    • Podsumowanie
  • 6. Procesy i rozwiązania z zakresu magazynowania danych
    • Rozwiązania do przechowywania danych
      • Składnice danych
      • Magazyny danych operacyjnych
      • Centra danych
    • Procesy danych
      • Zarządzanie danymi głównymi
      • Wirtualizacja i federacja danych
      • Katalogi danych
      • Platformy danych
    • Podsumowanie
  • 7. Metody projektowe
    • Porównanie systemów OLTP i OLAP
    • Dane operacyjne i analityczne
    • Przetwarzanie SMP i MPP
    • Architektura Lambda
    • Architektura Kappa
    • Trwałość poliglotyczna i poliglotyczne magazyny danych
    • Podsumowanie
  • 8. Metody modelowania danych
    • Modelowanie relacyjne
      • Klucze
      • Diagramy relacji encji
      • Reguły i formy normalizacji
      • Śledzenie zmian
    • Modelowanie wymiarowe
      • Fakty, wymiary i klucze
      • Monitorowanie zmian
      • Denormalizacja
    • Wspólny model danych
    • Model Data Vault
    • Metodologie Kimballa i Inmona dotyczące hurtowni danych
      • Metodologia odgórna Inmona
      • Metodologia oddolna Kimballa
      • Wybór metodologii
      • Modele hybrydowe
    • Mity dotyczące metodologii
    • Podsumowanie
  • 9. Metody pozyskiwania danych
    • Porównanie procesów ETL i ELT
    • Odwrócony proces ETL
    • Porównanie przetwarzania wsadowego oraz przetwarzania w czasie rzeczywistym
      • Zalety i wady przetwarzania wsadowego
      • Zalety i wady przetwarzania w czasie rzeczywistym
    • Nadzór nad danymi
    • Podsumowanie

Część III. Architektury danych

  • 10. Nowoczesna hurtownia danych
    • Architektura nowoczesnej hurtowni danych
    • Zalety i wady architektury nowoczesnej hurtowni danych
    • Łączenie relacyjnej hurtowni danych z jeziorem danych
      • Jezioro danych
      • Relacyjna hurtownia danych
    • Kamienie milowe prowadzące do hurtowni MDW
      • Rozbudowa korporacyjnej hurtowni danych
      • Tymczasowe jezioro danych oraz korporacyjna hurtownia danych
      • Rozwiązanie kompleksowe
    • Studium przypadku: strategiczne przejście firmy Wilson & Gunkerk do nowoczesnej hurtowni danych
      • Wyzwanie
      • Rozwiązanie
      • Rezultat
    • Podsumowanie
  • 11. Architektura Data Fabric
    • Architektura Data Fabric
      • Zasady dostępu do danych
      • Katalog metadanych
      • Zarządzanie danymi głównymi
      • Wirtualizacja danych
      • Przetwarzanie w czasie rzeczywistym
      • Interfejsy API
      • Usługi
      • Produkty
    • Dlaczego warto dokonać przejścia z hurtowni MDW na architekturę Data Fabric?
    • Potencjalne wady
    • Podsumowanie
  • 12. Architektura Data Lakehouse
    • Opcje warstwy Delta Lake
    • Poprawa wydajności
    • Architektura Data Lakehouse
    • Co się stanie, gdy zrezygnujesz z relacyjnej hurtowni danych?
    • Relacyjna warstwa udostępniająca
    • Podsumowanie
  • 13. Fundamenty siatki danych
    • Zdecentralizowana architektura danych
    • Szum wokół siatki danych
    • Cztery zasady Dehghani dotyczące siatki danych
      • Pierwsza zasada: własność domeny
      • Druga zasada: dane jako produkt
      • Trzecia zasada: samoobsługowa infrastruktura danych jako platforma
      • Czwarta zasada: nadzór nad federacyjnymi zasobami obliczeniowymi
    • "Czysta" siatka danych
    • Domeny danych
    • Logiczna architektura siatki danych
    • Różne topologie
    • Porównanie siatki danych i architektury Data Fabric
    • Warianty zastosowania
    • Podsumowanie
  • 14. Czy powinno się adaptować siatkę danych? Mity, obawy i przyszłość
    • Mity
      • Mit: użycie siatki danych to cudowny środek pozwalający szybko poradzić sobie z wszystkimi trudnościami towarzyszącymi danym
      • Mit: siatka danych zastąpi Twoje jezioro danych i hurtownię danych
      • Mit: wszystkie projekty z hurtownią danych nie udają się, a siatka danych rozwiąże ten problem
      • Mit: budowanie siatki danych oznacza decentralizację absolutnie wszystkiego
      • Mit: możesz użyć wirtualizacji danych, aby utworzyć siatkę danych
    • Obawy
      • Kwestie filozoficzne i koncepcyjne
      • Łączenie danych w środowisku zdecentralizowanym
      • Inne kwestie związane z decentralizacją
      • Złożoność
      • Duplikacja
      • Wykonalność
      • Ludzie
      • Bariery na poziomie domen
    • Ocena organizacyjna: czy powinno się adaptować siatkę danych?
    • Zalecenia dotyczące implementowania z powodzeniem siatki danych
    • Przyszłość siatki danych
    • Szersze spojrzenie: zrozumienie architektur danych i ich zastosowań
    • Podsumowanie

Część IV. Ludzie, procesy i technologia

  • 15. Ludzie i procesy
    • Organizacja zespołów: role i obowiązki
      • Role w przypadku nowoczesnej hurtowni danych oraz architektur Data Fabric lub Data Lakehouse
      • Role w przypadku siatki danych
    • Dlaczego projekty się nie udają: pułapki i zapobieganie im
      • Pułapka: pozwalanie szefostwu myśleć, że analityka biznesowa jest "łatwa"
      • Pułapka: używanie niewłaściwych technologii
      • Pułapka: zgromadzenie zbyt wielu wymagań biznesowych
      • Pułapka: zgromadzenie zbyt małej liczby wymagań biznesowych
      • Pułapka: prezentowanie raportów bez wcześniejszego sprawdzenia poprawności ich zawartości
      • Pułapka: zatrudnianie niedoświadczonej firmy konsultingowej
      • Pułapka: zatrudnianie firmy konsultingowej, która zleca prace projektowe pracownikom z innych krajów
      • Pułapka: przekazywanie konsultantom własności projektu
      • Pułapka: zlekceważenie konieczności transferu zasobów wiedzy z powrotem do organizacji
      • Pułapka: zmniejszanie budżetu w połowie trwania projektu
      • Pułapka: rozpoczynanie od daty końcowej i cofanie się z działaniami
      • Pułapka: określanie struktury hurtowni danych zgodnie z danymi źródłowymi, a nie wymogami firmy
      • Pułapka: zaprezentowanie użytkownikom rozwiązania z długim czasem odpowiedzi lub innymi problemami z wydajnością
      • Pułapka: przesadzenie z projektem architektury danych lub niedopracowanie go
      • Pułapka: kiepska komunikacja między działem informatycznym i domenami biznesowymi
    • Wskazówki dotyczące sukcesu
      • Nie oszczędzaj na inwestycjach
      • Angażuj użytkowników, prezentuj im wyniki i wzbudzaj ich entuzjazm
      • Zapewnij wartość w nowych raportach i panelach kontrolnych
      • Poproś użytkowników o zbudowanie prototypu
      • Znajdź orędownika/sponsora projektu
      • Stwórz plan projektu z celem 80% efektywności
    • Podsumowanie
  • 16. Technologie
    • Wybór platformy
      • Rozwiązania open source
      • Rozwiązania lokalne
      • Rozwiązania dostawców usług w chmurze
    • Modele usług w chmurze
      • Główni dostawcy usług w chmurze
      • Rozwiązania z wieloma chmurami
    • Środowiska oprogramowania
      • Hadoop
      • Databricks
      • Snowflake
    • Podsumowanie
  • Title: Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse
  • Author: James Serra
  • Original title: Deciphering Data Architectures: Choosing Between a Modern Data Warehouse, Data Fabric, Data Lakehouse, and Data Mesh
  • Translation: Piotr Pilch
  • ISBN: 978-83-289-1670-8, 9788328916708
  • Date of issue: 2024-11-26
  • Format: Ebook
  • Item ID: noarda
  • Publisher: Helion