Ebooki InneSzczegóły ebooka: Korporacyjne jezioro danych. Wykorzystaj potencjał big...

Szczegóły ebooka

Zaloguj się, jeśli jesteś zainteresowany treścią pozycji.

Korporacyjne jezioro danych. Wykorzystaj potencjał big data w swojej organizacji

Alex Gorelik

EBOOK

Koncepcja big data, nauka o danych i analityka danych wspomagają dziś procesy decyzyjne w przedsiębiorstwach w niespotykanym wcześniej zakresie. Zwiększają poziom efektywności pracy w wielu różnych branżach. Korporacje zaczęły więc eksperymenty z wykorzystaniem big data i technologii chmury, aby budować jeziora danych oraz tworzyć oparte na nich systemy podejmowania decyzji. Niejeden z tych projektów się nie powiódł, gdyż nie został dostosowany do kultury i potrzeb przedsiębiorstwa. Najwyraźniej zabrakło wiedzy, w jaki sposób skutecznie przeprowadzać tak radykalną transformację.

Ta książka jest praktycznym przewodnikiem, który ułatwia wdrażanie architektury jeziora danych (ang. data lake) w przedsiębiorstwie. Omówiono tu różne podejścia do jej uruchamiania i rozwijania, w tym kałuże danych (analityczne piaskownice) i stawy danych (hurtownie danych), a także budowanie jezior danych od podstaw. Opisano konfigurowanie różnych stref, co pozwala na odpowiednie rozmieszczenie zarówno surowych, jak i starannie zarządzanych i przetworzonych danych. Wyjaśniono znaczenie zarządzania dostępem do stref. Zawarto tu również wskazówki umożliwiające zachowanie zgodności z regułami zarządzania danymi przedsiębiorstwa.

W tej książce:

wprowadzenie do hurtowni danych, big data i nauki o danych
praktyczne techniki budowania jezior danych
najlepsze praktyki dostarczania analitykom dostępu do danych
projektowanie architektury jeziora danych oraz różne techniki implementacji
zalety i wady różnych podejść do budowania magazynów danych i zarządzania nimi

Jeziora danych i big data - ocean możliwości!

Wstęp 9

1. Wprowadzenie do jezior danych 13

Dojrzewanie jeziora danych 15
- Kałuże danych 17
- Stawy danych 17
Udane tworzenie jeziora danych 18
- Właściwa platforma 18
- Właściwe dane 19
- Właściwy interfejs 20
- Bagno danych 22
Wskazówki dotyczące sukcesu w budowaniu jezior danych 23
- Tworzenie jeziora danych 24
- Organizowanie jeziora danych 24
- Konfiguracja jeziora danych pod kątem samoobsługi 26
Architektury jeziora danych 30
- Jeziora danych w chmurze publicznej 31
- Logiczne jeziora danych 31
Podsumowanie 34

2. Perspektywa historyczna 37

Dysk do danych samoobsługowych - narodziny baz danych 37
Imperatyw analityczny - narodziny hurtowni danych 40
Ekosystem hurtowni danych 41
- Przechowywanie i kwerendowanie danych 42
- Ładowanie danych - narzędzia do integracji danych 47
- Organizowanie danych i zarządzanie nimi 50
- Konsumowanie danych 55
Podsumowanie 56

3. Wprowadzenie do big data i nauki o danych 57

Hadoop przewodzi historycznemu przejściu na big data 57
- System plików Hadoop 58
- Współdziałanie przetwarzania i przechowywania w zadaniu MapReduce 59
- Schemat odczytu 60
- Projekty Hadoop 61
Nauka o danych 62
Uczenie maszynowe 66
- Zdolność wyjaśnienia 67
- Zarządzanie zmianami 68
Podsumowanie 69

4. Budowanie jeziora danych 71

Co to jest Hadoop i dlaczego z niego korzystamy? 71
Zapobieganie rozprzestrzenianiu się kałuż danych 74
Wykorzystanie big data 74
- Nauka o danych jako główny czynnik 75
- Strategia 1. - przeniesienie istniejącej funkcjonalności 77
- Strategia 2. - jeziora danych dla nowych projektów 79
- Strategia 3. - ustanowienie centralnego punktu zarządzania 79
- Który sposób jest odpowiedni dla Ciebie? 80
Podsumowanie 82

5. Od stawów danych, czyli hurtowni danych big data, do jezior danych 83

Podstawowe funkcje hurtowni danych 84
- Modelowanie wymiarowe dla analityki 85
- Integrowanie danych z różnych źródeł 86
- Zachowywanie historii za pomocą powoli zmieniających się wymiarów 86
- Ograniczenia hurtowni danych jako repozytorium historycznego 86
Przejście do stawu danych 87
- Utrzymywanie historii w stawie danych 87
- Wdrażanie powoli zmieniających się wymiarów w stawie danych 88
Rozrastanie się stawów danych w jeziora danych - ładowanie danych, które nie znajdują się w hurtowni danych 90
- Surowe dane 91
- Dane zewnętrzne 91
- Internet rzeczy (IoT) i inne dane strumieniowe 94
Architektura Lambda 94
Transformacje danych 97
Systemy docelowe 99
- Hurtownie danych 100
- Operacyjne magazyny danych 100
- Aplikacje czasu rzeczywistego i produkty oparte na danych 100
Podsumowanie 101

6. Optymalizacja pod kątem samoobsługi 103

Początki samoobsługi 103
Analitycy biznesowi 105
- Znajdowanie i zrozumienie danych - dokumentowanie przedsiębiorstwa 106
- Budowanie zaufania 109
- Dostarczanie 115
- Przygotowanie danych do analizy 116
Przygotowywanie danych w jeziorze danych 117
- Umiejscowienie przygotowywania danych w Hadoop 118
- Powszechne przypadki użycia dla przygotowywania danych 119
Analiza i wizualizacja 120
Podsumowanie 123

7. Architektura jeziora danych 125

Organizacja jeziora danych 125
- Strefa lądowania lub surowa 126
- Strefa złota 127
- Strefa robocza 129
- Strefa wrażliwa 129
Wiele jezior danych 131
- Zalety utrzymywania osobnych jezior danych 131
- Zalety scalania jezior danych 131
Jeziora danych w chmurze 132
Wirtualne jeziora danych 135
- Federacja danych 135
- Wirtualizacja big data 136
- Eliminacja redundancji 137
Podsumowanie 139

8. Katalogowanie jeziora danych 141

Organizowanie danych 141
- Metadane techniczne 142
- Metadane biznesowe 146
Znakowanie 148
- Automatyczne katalogowanie 149
Logiczne zarządzanie danymi 150
- Zarządzanie wrażliwymi danymi i kontrola dostępu 150
- Jakość danych 152
Powiązanie różnych danych 154
Ustanawianie pochodzenia 155
Dostarczanie danych 156
Narzędzia służące do budowania katalogu 157
- Porównanie narzędzi 158
Ocean danych 159
Podsumowanie 159

9. Zarządzanie dostępem do danych 161

Autoryzacja lub kontrola dostępu 162
Zasady dostępu do danych oparte na znacznikach 163
Anonimizacja wrażliwych danych 166
- Suwerenność danych i zgodność z przepisami 169
Samoobsługowe zarządzanie dostępem 171
- Dostarczanie danych 174
Podsumowanie 180

10. Perspektywy dla różnych branż 181

Big data w usługach finansowych 182
- Konsumenci, cyfryzacja i dane zmieniają znane nam finanse 182
- Ratowanie banku 183
- Nowe możliwości oferowane przez nowe dane 186
- Kluczowe procesy korzystania z jeziora danych 188
Wartość dodana przez jeziora danych w usługach finansowych 190
Jeziora danych w branży ubezpieczeniowej 191
Inteligentne miasta 193
Big data w medycynie 194

Skorowidz 196

Tytuł:Korporacyjne jezioro danych. Wykorzystaj potencjał big data w swojej organizacji
Autor:Alex Gorelik
Tytuł oryginału:The Enterprise Big Data Lake: Delivering on the Promise of Hadoop and Data Science in the Enterprise
Tłumaczenie:Lech Lachowski
ISBN:978-83-283-5089-2, 9788328350892
Data wydania:2019-11-05
Format:Ebook - EPUB
Identyfikator pozycji: kojeda
Wydawca: Helion