E-book details

Korporacyjne jezioro danych. Wykorzystaj potencjał big data w swojej organizacji

Korporacyjne jezioro danych. Wykorzystaj potencjał big data w swojej organizacji

Alex Gorelik

Ebook

Koncepcja big data, nauka o danych i analityka danych wspomagają dziś procesy decyzyjne w przedsiębiorstwach w niespotykanym wcześniej zakresie. Zwiększają poziom efektywności pracy w wielu różnych branżach. Korporacje zaczęły więc eksperymenty z wykorzystaniem big data i technologii chmury, aby budować jeziora danych oraz tworzyć oparte na nich systemy podejmowania decyzji. Niejeden z tych projektów się nie powiódł, gdyż nie został dostosowany do kultury i potrzeb przedsiębiorstwa. Najwyraźniej zabrakło wiedzy, w jaki sposób skutecznie przeprowadzać tak radykalną transformację.

Ta książka jest praktycznym przewodnikiem, który ułatwia wdrażanie architektury jeziora danych (ang. data lake) w przedsiębiorstwie. Omówiono tu różne podejścia do jej uruchamiania i rozwijania, w tym kałuże danych (analityczne piaskownice) i stawy danych (hurtownie danych), a także budowanie jezior danych od podstaw. Opisano konfigurowanie różnych stref, co pozwala na odpowiednie rozmieszczenie zarówno surowych, jak i starannie zarządzanych i przetworzonych danych. Wyjaśniono znaczenie zarządzania dostępem do stref. Zawarto tu również wskazówki umożliwiające zachowanie zgodności z regułami zarządzania danymi przedsiębiorstwa.

W tej książce:

  • wprowadzenie do hurtowni danych, big data i nauki o danych
  • praktyczne techniki budowania jezior danych
  • najlepsze praktyki dostarczania analitykom dostępu do danych
  • projektowanie architektury jeziora danych oraz różne techniki implementacji
  • zalety i wady różnych podejść do budowania magazynów danych i zarządzania nimi

Jeziora danych i big data - ocean możliwości!


Wstęp 9

1. Wprowadzenie do jezior danych 13

  • Dojrzewanie jeziora danych 15
    • Kałuże danych 17
    • Stawy danych 17
  • Udane tworzenie jeziora danych 18
    • Właściwa platforma 18
    • Właściwe dane 19
    • Właściwy interfejs 20
    • Bagno danych 22
  • Wskazówki dotyczące sukcesu w budowaniu jezior danych 23
    • Tworzenie jeziora danych 24
    • Organizowanie jeziora danych 24
    • Konfiguracja jeziora danych pod kątem samoobsługi 26
  • Architektury jeziora danych 30
    • Jeziora danych w chmurze publicznej 31
    • Logiczne jeziora danych 31
  • Podsumowanie 34

2. Perspektywa historyczna 37

  • Dysk do danych samoobsługowych - narodziny baz danych 37
  • Imperatyw analityczny - narodziny hurtowni danych 40
  • Ekosystem hurtowni danych 41
    • Przechowywanie i kwerendowanie danych 42
    • Ładowanie danych - narzędzia do integracji danych 47
    • Organizowanie danych i zarządzanie nimi 50
    • Konsumowanie danych 55
  • Podsumowanie 56

3. Wprowadzenie do big data i nauki o danych 57

  • Hadoop przewodzi historycznemu przejściu na big data 57
    • System plików Hadoop 58
    • Współdziałanie przetwarzania i przechowywania w zadaniu MapReduce 59
    • Schemat odczytu 60
    • Projekty Hadoop 61
  • Nauka o danych 62
  • Uczenie maszynowe 66
    • Zdolność wyjaśnienia 67
    • Zarządzanie zmianami 68
  • Podsumowanie 69

4. Budowanie jeziora danych 71

  • Co to jest Hadoop i dlaczego z niego korzystamy? 71
  • Zapobieganie rozprzestrzenianiu się kałuż danych 74
  • Wykorzystanie big data 74
    • Nauka o danych jako główny czynnik 75
    • Strategia 1. - przeniesienie istniejącej funkcjonalności 77
    • Strategia 2. - jeziora danych dla nowych projektów 79
    • Strategia 3. - ustanowienie centralnego punktu zarządzania 79
    • Który sposób jest odpowiedni dla Ciebie? 80
  • Podsumowanie 82

5. Od stawów danych, czyli hurtowni danych big data, do jezior danych 83

  • Podstawowe funkcje hurtowni danych 84
    • Modelowanie wymiarowe dla analityki 85
    • Integrowanie danych z różnych źródeł 86
    • Zachowywanie historii za pomocą powoli zmieniających się wymiarów 86
    • Ograniczenia hurtowni danych jako repozytorium historycznego 86
  • Przejście do stawu danych 87
    • Utrzymywanie historii w stawie danych 87
    • Wdrażanie powoli zmieniających się wymiarów w stawie danych 88
  • Rozrastanie się stawów danych w jeziora danych - ładowanie danych, które nie znajdują się w hurtowni danych 90
    • Surowe dane 91
    • Dane zewnętrzne 91
    • Internet rzeczy (IoT) i inne dane strumieniowe 94
  • Architektura Lambda 94
  • Transformacje danych 97
  • Systemy docelowe 99
    • Hurtownie danych 100
    • Operacyjne magazyny danych 100
    • Aplikacje czasu rzeczywistego i produkty oparte na danych 100
  • Podsumowanie 101

6. Optymalizacja pod kątem samoobsługi 103

  • Początki samoobsługi 103
  • Analitycy biznesowi 105
    • Znajdowanie i zrozumienie danych - dokumentowanie przedsiębiorstwa 106
    • Budowanie zaufania 109
    • Dostarczanie 115
    • Przygotowanie danych do analizy 116
  • Przygotowywanie danych w jeziorze danych 117
    • Umiejscowienie przygotowywania danych w Hadoop 118
    • Powszechne przypadki użycia dla przygotowywania danych 119
  • Analiza i wizualizacja 120
  • Podsumowanie 123

7. Architektura jeziora danych 125

  • Organizacja jeziora danych 125
    • Strefa lądowania lub surowa 126
    • Strefa złota 127
    • Strefa robocza 129
    • Strefa wrażliwa 129
  • Wiele jezior danych 131
    • Zalety utrzymywania osobnych jezior danych 131
    • Zalety scalania jezior danych 131
  • Jeziora danych w chmurze 132
  • Wirtualne jeziora danych 135
    • Federacja danych 135
    • Wirtualizacja big data 136
    • Eliminacja redundancji 137
  • Podsumowanie 139

8. Katalogowanie jeziora danych 141

  • Organizowanie danych 141
    • Metadane techniczne 142
    • Metadane biznesowe 146
  • Znakowanie 148
    • Automatyczne katalogowanie 149
  • Logiczne zarządzanie danymi 150
    • Zarządzanie wrażliwymi danymi i kontrola dostępu 150
    • Jakość danych 152
  • Powiązanie różnych danych 154
  • Ustanawianie pochodzenia 155
  • Dostarczanie danych 156
  • Narzędzia służące do budowania katalogu 157
    • Porównanie narzędzi 158
  • Ocean danych 159
  • Podsumowanie 159

9. Zarządzanie dostępem do danych 161

  • Autoryzacja lub kontrola dostępu 162
  • Zasady dostępu do danych oparte na znacznikach 163
  • Anonimizacja wrażliwych danych 166
    • Suwerenność danych i zgodność z przepisami 169
  • Samoobsługowe zarządzanie dostępem 171
    • Dostarczanie danych 174
  • Podsumowanie 180

10. Perspektywy dla różnych branż 181

  • Big data w usługach finansowych 182
    • Konsumenci, cyfryzacja i dane zmieniają znane nam finanse 182
    • Ratowanie banku 183
    • Nowe możliwości oferowane przez nowe dane 186
    • Kluczowe procesy korzystania z jeziora danych 188
  • Wartość dodana przez jeziora danych w usługach finansowych 190
  • Jeziora danych w branży ubezpieczeniowej 191
  • Inteligentne miasta 193
  • Big data w medycynie 194

Skorowidz 196

  • Title: Korporacyjne jezioro danych. Wykorzystaj potencjał big data w swojej organizacji
  • Author: Alex Gorelik
  • Original title: The Enterprise Big Data Lake: Delivering on the Promise of Hadoop and Data Science in the Enterprise
  • Translation: Lech Lachowski
  • ISBN: 978-83-283-5089-2, 9788328350892
  • Date of issue: 2019-11-05
  • Format: Ebook
  • Item ID: kojeda
  • Publisher: Helion