Категорії
Електронні книги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комп'ютер в офісі
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Мультимедійне навчання
- Нерухомість
- Переконання та НЛП
- Податки
- Соціальна політика
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Звіти, аналізи
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Електронна преса
- Architektura i wnętrza
- Biznes i Ekonomia
- Будинок та сад
- Електронний бізнес
- Фінанси
- Особисті фінанси
- Бізнес
- Фотографія
- Інформатика
- Відділ кадрів та оплата праці
- Комп'ютери, Excel
- Бухгалтерія
- Культура та література
- Наукові та академічні
- Охорона навколишнього середовища
- Впливові
- Освіта
- Податки
- Подорожі
- Психологія
- Релігія
- Сільське господарство
- Ринок книг і преси
- Транспорт та спедиція
- Здоров'я та краса
-
Історія
-
Інформатика
- Офісні застосунки
- Бази даних
- Біоінформатика
- Бізнес ІТ
- CAD/CAM
- Digital Lifestyle
- DTP
- Електроніка
- Цифрова фотографія
- Комп'ютерна графіка
- Ігри
- Хакування
- Hardware
- IT w ekonomii
- Наукові пакети
- Шкільні підручники
- Основи комп'ютера
- Програмування
- Мобільне програмування
- Інтернет-сервери
- Комп'ютерні мережі
- Стартап
- Операційні системи
- Штучний інтелект
- Технологія для дітей
- Вебмайстерність
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Оповідна поезія
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Шкільні підручники
-
Науково-популярна та академічна
- Археологія
- Bibliotekoznawstwo
- Кінознавство / Теорія кіно
- Філологія
- Польська філологія
- Філософія
- Finanse i bankowość
- Географія
- Економіка
- Торгівля. Світова економіка
- Історія та археологія
- Історія мистецтва і архітектури
- Культурологія
- Мовознавство
- літературні студії
- Логістика
- Математика
- Ліки
- Гуманітарні науки
- Педагогіка
- Навчальні засоби
- Науково-популярна
- Інше
- Психологія
- Соціологія
- Театральні студії
- Богослов’я
- Економічні теорії та науки
- Transport i spedycja
- Фізичне виховання
- Zarządzanie i marketing
-
Порадники
-
Ігрові посібники
-
Професійні та спеціальні порадники
-
Юридична
- Безпека життєдіяльності
- Історія
- Дорожній кодекс. Водійські права
- Юридичні науки
- Охорона здоров'я
- Загальне, компендіум
- Академічні підручники
- Інше
- Закон про будівництво і житло
- Цивільне право
- Фінансове право
- Господарське право
- Господарське та комерційне право
- Кримінальний закон
- Кримінальне право. Кримінальні злочини. Кримінологія
- Міжнародне право
- Міжнародне та іноземне право
- Закон про охорону здоров'я
- Закон про освіту
- Податкове право
- Трудове право та законодавство про соціальне забезпечення
- Громадське, конституційне та адміністративне право
- Кодекс про шлюб і сім'ю
- Аграрне право
- Соціальне право, трудове право
- Законодавство Євросоюзу
- Промисловість
- Сільське господарство та захист навколишнього середовища
- Словники та енциклопедії
- Державні закупівлі
- Управління
-
Путівники та подорожі
- Африка
- Альбоми
- Південна Америка
- Центральна та Північна Америка
- Австралія, Нова Зеландія, Океанія
- Австрія
- Азії
- Балкани
- Близький Схід
- Болгарія
- Китай
- Хорватія
- Чеська Республіка
- Данія
- Єгипет
- Естонія
- Європа
- Франція
- Гори
- Греція
- Іспанія
- Нідерланди
- Ісландія
- Литва
- Латвія
- Mapy, Plany miast, Atlasy
- Мініпутівники
- Німеччина
- Норвегія
- Активні подорожі
- Польща
- Португалія
- Інше
- Росія
- Румунія
- Словаччина
- Словенія
- Швейцарія
- Швеція
- Світ
- Туреччина
- Україна
- Угорщина
- Велика Британія
- Італія
-
Психологія
- Філософія життя
- Kompetencje psychospołeczne
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Аудіокниги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Нерухомість
- Переконання та НЛП
- Податки
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Історія
-
Інформатика
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Науково-популярна та академічна
-
Порадники
-
Професійні та спеціальні порадники
-
Юридична
-
Путівники та подорожі
-
Психологія
- Філософія життя
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Відеокурси
-
Бази даних
-
Big Data
-
Biznes, ekonomia i marketing
-
Кібербезпека
-
Data Science
-
DevOps
-
Для дітей
-
Електроніка
-
Графіка / Відео / CAX
-
Ігри
-
Microsoft Office
-
Інструменти розробки
-
Програмування
-
Особистісний розвиток
-
Комп'ютерні мережі
-
Операційні системи
-
Тестування програмного забезпечення
-
Мобільні пристрої
-
UX/UI
-
Веброзробка, Web development
-
Управління
Подкасти
- Електронні книги
- Big data (Великі дані)
- Аналіз даних
- Spark. Błyskawiczna analiza danych. Wydanie II
Деталі електронної книги
Spark. Błyskawiczna analiza danych. Wydanie II
Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
Apache Spark jest oprogramowaniem open source, przeznaczonym do klastrowego przetwarzania danych dostarczanych w różnych formatach. Pozwala na uzyskanie niespotykanej wydajności, umożliwia też pracę w trybie wsadowym i strumieniowym. Framework ten jest również świetnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko sprawia, że Apache Spark stanowi znakomity wybór dla programistów zajmujących się big data, a także eksploracją i analizą danych.
To książka przeznaczona dla inżynierów danych i programistów, którzy chcą za pomocą Sparka przeprowadzać skomplikowane analizy danych i korzystać z algorytmów uczenia maszynowego, nawet jeśli te dane pochodzą z różnych źródeł. Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać duże zbiory informacji, aby powstawały niezawodne jeziora danych, w jaki sposób wykonuje się interaktywne zapytania SQL, a także jak tworzy się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omówiono również współdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczególnych środowiskach.
W książce:
- API strukturalne dla Pythona, SQL, Scali i Javy
- operacje Sparka i silnika SQL
- konfiguracje Sparka i interfejs Spark UI
- nawiązywanie połączeń ze źródłami danych: JSON, Parquet, CSV, Avro, ORC, Hive, S3 i Kafka
- operacje analityczne na danych wsadowych i strumieniowanych
- niezawodne potoki danych i potoki uczenia maszynowego
Spark: twórz skalowalne i niezawodne aplikacje big data!
Przedmowa
Wprowadzenie
1. Wprowadzenie do Apache Spark - ujednolicony silnik analityczny
- Geneza Sparka
- Big data i przetwarzanie rozproszone w Google
- Hadoop w Yahoo!
- Wczesne lata Sparka w AMPLab
- Czym jest Apache Spark?
- Szybkość
- Łatwość użycia
- Modułowość
- Rozszerzalność
- Ujednolicona analityka
- Komponenty Apache Spark tworzą ujednolicony stos
- Spark MLlib
- Wykonywanie rozproszone w Apache Spark
- Z punktu widzenia programisty
- Kto używa Sparka i w jakim celu?
- Popularność w społeczności i dalsza ekspansja
2. Pobranie Apache Spark i rozpoczęcie pracy
- Krok 1. - pobranie Apache Spark
- Pliki i katalogi Sparka
- Krok 2. - używanie powłoki Scali lub PySparka
- Używanie komputera lokalnego
- Krok 3. - poznanie koncepcji aplikacji Apache Spark
- Aplikacja Sparka i SparkSession
- Zlecenia Sparka
- Etapy Sparka
- Zadania Sparka
- Transformacje, akcje i późna ocena
- Transformacje wąskie i szerokie
- Spark UI
- Pierwsza niezależna aplikacja
- Zliczanie cukierków M&M's
- Tworzenie niezależnych aplikacji w Scali
- Podsumowanie
3. API strukturalne Apache Spark
- Spark - co się kryje za akronimem RDD?
- Strukturyzacja Sparka
- Kluczowe zalety i wartość struktury
- API DataFrame
- Podstawowe typy danych Sparka
- Strukturalne i złożone typy danych Sparka
- Schemat i tworzenie egzemplarza DataFrame
- Kolumny i wyrażenia
- Rekord
- Najczęściej przeprowadzane operacje z użyciem DataFrame
- Przykład pełnego rozwiązania wykorzystującego DataFrame
- API Dataset
- Obiekty typowane i nietypowane oraz ogólne rekordy
- Tworzenie egzemplarza Dataset
- Operacje na egzemplarzu Dataset
- Przykład pełnego rozwiązania wykorzystującego Dataset
- Egzemplarz DataFrame kontra Dataset
- Kiedy używać RDD?
- Silnik Spark SQL
- Optymalizator Catalyst
- Podsumowanie
4. Spark SQL i DataFrame - wprowadzenie do wbudowanych źródeł danych
- Używanie Spark SQL w aplikacji Sparka
- Przykłady podstawowych zapytań
- Widoki i tabele SQL
- Tabele zarządzane kontra tabele niezarządzane
- Tworzenie baz danych i tabel SQL
- Tworzenie widoku
- Wyświetlanie metadanych
- Buforowanie tabel SQL
- Wczytywanie zawartości tabeli do egzemplarza DataFrame
- Źródła danych dla egzemplarzy DataFrame i tabel SQL
- DataFrameReader
- DataFrameWriter
- Parquet
- JSON
- CSV
- Avro
- ORC
- Obrazy
- Pliki binarne
- Podsumowanie
5. Spark SQL i DataFrame - współpraca z zewnętrznymi źródłami danych
- Spark SQL i Apache Hive
- Funkcje zdefiniowane przez użytkownika
- Wykonywanie zapytań z użyciem powłoki Spark SQL, Beeline i Tableau
- Używanie powłoki Spark SQL
- Praca z narzędziem Beeline
- Praca z Tableau
- Zewnętrzne źródła danych
- Bazy danych SQL i JDBC
- PostgreSQL
- MySQL
- Azure Cosmos DB
- MS SQL Server
- Inne zewnętrzne źródła danych
- Funkcje wyższego rzędu w egzemplarzach DataFrame i silniku Spark SQL
- Opcja 1. - konwersja struktury
- Opcja 2. - funkcja zdefiniowana przez użytkownika
- Wbudowane funkcje dla złożonych typów danych
- Funkcje wyższego rzędu
- Najczęściej wykonywane operacje w DataFrame i Spark SQL
- Suma
- Złączenie
- Okno czasowe
- Modyfikacje
- Podsumowanie
6. Spark SQL i Dataset
- Pojedyncze API dla Javy i Scali
- Klasy case Scali i JavaBean dla egzemplarzy Dataset
- Praca z egzemplarzem Dataset
- Tworzenie przykładowych danych
- Transformacja przykładowych danych
- Zarządzanie pamięcią podczas pracy z egzemplarzami Dataset i DataFrame
- Kodeki egzemplarza Dataset
- Wewnętrzny format Sparka kontra format obiektu Javy
- Serializacja i deserializacja
- Koszt związany z używaniem egzemplarza Dataset
- Strategie pozwalające obniżyć koszty
- Podsumowanie
7. Optymalizacja i dostrajanie aplikacji Sparka
- Optymalizacja i dostrajanie Sparka w celu zapewnienia efektywności działania
- Wyświetlanie i definiowanie konfiguracji Apache Spark
- Skalowanie Sparka pod kątem ogromnych obciążeń
- Buforowanie i trwałe przechowywanie danych
- DataFrame.cache()
- DataFrame.persist()
- Kiedy buforować i trwale przechowywać dane?
- Kiedy nie buforować i nie przechowywać trwale danych?
- Rodzina złączeń w Sparku
- Złączenie BHJ
- Złączenie SMJ
- Spark UI
- Karty narzędzia Spark UI
- Podsumowanie
8. Strumieniowanie strukturalne
- Ewolucja silnika przetwarzania strumieni w Apache Spark
- Przetwarzanie strumieniowe mikropartii
- Cechy mechanizmu Spark Streaming (DStreams)
- Filozofia strumieniowania strukturalnego
- Model programowania strumieniowania strukturalnego
- Podstawy zapytania strumieniowania strukturalnego
- Pięć kroków do zdefiniowania zapytania strumieniowego
- Pod maską aktywnego zapytania strumieniowanego
- Odzyskiwanie danych po awarii i gwarancja "dokładnie raz"
- Monitorowanie aktywnego zapytania
- Źródło i ujście strumieniowanych danych
- Pliki
- Apache Kafka
- Niestandardowe źródła strumieni i ujść danych
- Transformacje danych
- Wykonywanie przyrostowe i stan strumieniowania
- Transformacje bezstanowe
- Transformacje stanowe
- Agregacje strumieniowania
- Agregacja nieuwzględniająca czasu
- Agregacje z oknami czasowymi na podstawie zdarzeń
- Złączenie strumieniowane
- Złączenie strumienia i egzemplarza statycznego
- Złączenia między egzemplarzami strumieniowanymi
- Dowolne operacje związane ze stanem
- Modelowanie za pomocą mapGroupsWithState() dowolnych operacji stanu
- Stosowanie limitów czasu do zarządzania nieaktywnymi grupami
- Generalizacja z użyciem wywołania flatMapGroupsWithState()
- Dostrajanie wydajności działania
- Podsumowanie
9. Tworzenie niezawodnych jezior danych za pomocą Apache Spark
- Waga optymalnego rozwiązania w zakresie pamięci masowej
- Bazy danych
- Krótkie wprowadzenie do SQL
- Odczytywanie i zapisywanie informacji w bazie danych za pomocą Apache Spark
- Ograniczenia baz danych
- Jezioro danych
- Krótkie wprowadzenie do jezior danych
- Odczytywanie i zapisywanie danych jeziora danych za pomocą Apache Spark
- Ograniczenia jezior danych
- Lakehouse - następny krok w ewolucji rozwiązań pamięci masowej
- Apache Hudi
- Apache Iceberg
- Delta Lake
- Tworzenie repozytorium danych za pomocą Apache Spark i Delta Lake
- Konfiguracja Apache Spark i Delta Lake
- Wczytywanie danych do tabeli Delta Lake
- Wczytywanie strumieni danych do tabeli Delta Lake
- Zarządzanie schematem podczas zapisu w celu zapobiegania uszkodzeniu danych
- Ewolucja schematu w celu dostosowania go do zmieniających się danych
- Transformacja istniejących danych
- Audyt zmian danych przeprowadzany za pomocą historii operacji
- Wykonywanie zapytań do poprzednich migawek tabeli dzięki funkcjonalności podróży w czasie
- Podsumowanie
10. Uczenie maszynowe z użyciem biblioteki MLlib
- Czym jest uczenie maszynowe?
- Nadzorowane uczenie maszynowe
- Nienadzorowane uczenie maszynowe
- Dlaczego Spark dla uczenia maszynowego?
- Projektowanie potoków uczenia maszynowego
- Wczytywanie i przygotowywanie danych
- Tworzenie zbiorów danych - testowego i treningowego
- Przygotowywanie cech za pomocą transformerów
- Regresja liniowa
- Stosowanie estymatorów do tworzenia modeli
- Tworzenie potoku
- Ocena modelu
- Zapisywanie i wczytywanie modeli
- Dostrajanie hiperparametru
- Modele oparte na drzewach
- k-krotny sprawdzian krzyżowy
- Optymalizacja potoku
- Podsumowanie
11. Stosowanie Apache Spark do wdrażania potoków uczenia maszynowego oraz ich skalowania i zarządzania nimi
- Zarządzanie modelem
- MLflow
- Opcje wdrażania modelu za pomocą MLlib
- Wsadowe
- Strumieniowane
- Wzorce eksportu modelu dla rozwiązania niemalże w czasie rzeczywistym
- Wykorzystanie Sparka do pracy z modelami, które nie zostały utworzone za pomocą MLlib
- Zdefiniowane przez użytkownika funkcje pandas
- Spark i rozproszone dostrajanie hiperparametru
- Podsumowanie
12. Epilog - Apache Spark 3.0
- Spark Core i Spark SQL
- Dynamiczne oczyszczanie partycji
- Adaptacyjne wykonywanie zapytań
- Podpowiedzi dotyczące złączeń SQL
- API wtyczek katalogu i DataSourceV2
- Planowanie z użyciem akceleratorów
- Strumieniowanie strukturalne
- PySpark, zdefiniowane przez użytkownika funkcje pandas i API funkcji pandas
- Usprawnione zdefiniowane przez użytkownika funkcje pandas zapewniające obsługę podpowiedzi typów w Pythonie
- Obsługa iteratora w zdefiniowanych przez użytkownika funkcjach pandas
- Nowe API funkcji pandas
- Zmieniona funkcjonalność
- Obsługiwane języki
- Zmiany w API DataFrame i Dataset
- Polecenia SQL EXPLAIN i DataFrame
- Podsumowanie
- Назва: Spark. Błyskawiczna analiza danych. Wydanie II
- Автор: Jules S. Damji, Brooke Wenig, Tathagata Das, Denny Lee
- Оригінальна назва: Learning Spark: Lightning-Fast Data Analytics, 2nd Edition
- Переклад: Robert Górczyński
- ISBN: 978-83-283-9915-0, 9788328399150
- Дата видання: 2023-02-07
- Формат: Eлектронна книга
- Ідентифікатор видання: sparb2
- Видавець: Helion