Категорії
Електронні книги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комп'ютер в офісі
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Мультимедійне навчання
- Нерухомість
- Переконання та НЛП
- Податки
- Соціальна політика
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Звіти, аналізи
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Електронна преса
- Architektura i wnętrza
- Biznes i Ekonomia
- Будинок та сад
- Електронний бізнес
- Фінанси
- Особисті фінанси
- Бізнес
- Фотографія
- Інформатика
- Відділ кадрів та оплата праці
- Комп'ютери, Excel
- Бухгалтерія
- Культура та література
- Наукові та академічні
- Охорона навколишнього середовища
- Впливові
- Освіта
- Податки
- Подорожі
- Психологія
- Релігія
- Сільське господарство
- Ринок книг і преси
- Транспорт та спедиція
- Здоров'я та краса
-
Історія
-
Інформатика
- Офісні застосунки
- Бази даних
- Біоінформатика
- Бізнес ІТ
- CAD/CAM
- Digital Lifestyle
- DTP
- Електроніка
- Цифрова фотографія
- Комп'ютерна графіка
- Ігри
- Хакування
- Hardware
- IT w ekonomii
- Наукові пакети
- Шкільні підручники
- Основи комп'ютера
- Програмування
- Мобільне програмування
- Інтернет-сервери
- Комп'ютерні мережі
- Стартап
- Операційні системи
- Штучний інтелект
- Технологія для дітей
- Вебмайстерність
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Оповідна поезія
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Шкільні підручники
-
Науково-популярна та академічна
- Археологія
- Bibliotekoznawstwo
- Кінознавство / Теорія кіно
- Філологія
- Польська філологія
- Філософія
- Finanse i bankowość
- Географія
- Економіка
- Торгівля. Світова економіка
- Історія та археологія
- Історія мистецтва і архітектури
- Культурологія
- Мовознавство
- літературні студії
- Логістика
- Математика
- Ліки
- Гуманітарні науки
- Педагогіка
- Навчальні засоби
- Науково-популярна
- Інше
- Психологія
- Соціологія
- Театральні студії
- Богослов’я
- Економічні теорії та науки
- Transport i spedycja
- Фізичне виховання
- Zarządzanie i marketing
-
Порадники
-
Ігрові посібники
-
Професійні та спеціальні порадники
-
Юридична
- Безпека життєдіяльності
- Історія
- Дорожній кодекс. Водійські права
- Юридичні науки
- Охорона здоров'я
- Загальне, компендіум
- Академічні підручники
- Інше
- Закон про будівництво і житло
- Цивільне право
- Фінансове право
- Господарське право
- Господарське та комерційне право
- Кримінальний закон
- Кримінальне право. Кримінальні злочини. Кримінологія
- Міжнародне право
- Міжнародне та іноземне право
- Закон про охорону здоров'я
- Закон про освіту
- Податкове право
- Трудове право та законодавство про соціальне забезпечення
- Громадське, конституційне та адміністративне право
- Кодекс про шлюб і сім'ю
- Аграрне право
- Соціальне право, трудове право
- Законодавство Євросоюзу
- Промисловість
- Сільське господарство та захист навколишнього середовища
- Словники та енциклопедії
- Державні закупівлі
- Управління
-
Путівники та подорожі
- Африка
- Альбоми
- Південна Америка
- Центральна та Північна Америка
- Австралія, Нова Зеландія, Океанія
- Австрія
- Азії
- Балкани
- Близький Схід
- Болгарія
- Китай
- Хорватія
- Чеська Республіка
- Данія
- Єгипет
- Естонія
- Європа
- Франція
- Гори
- Греція
- Іспанія
- Нідерланди
- Ісландія
- Литва
- Латвія
- Mapy, Plany miast, Atlasy
- Мініпутівники
- Німеччина
- Норвегія
- Активні подорожі
- Польща
- Португалія
- Інше
- Росія
- Румунія
- Словаччина
- Словенія
- Швейцарія
- Швеція
- Світ
- Туреччина
- Україна
- Угорщина
- Велика Британія
- Італія
-
Психологія
- Філософія життя
- Kompetencje psychospołeczne
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Аудіокниги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Нерухомість
- Переконання та НЛП
- Податки
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Історія
-
Інформатика
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Науково-популярна та академічна
-
Порадники
-
Професійні та спеціальні порадники
-
Юридична
-
Путівники та подорожі
-
Психологія
- Філософія життя
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Відеокурси
-
Бази даних
-
Big Data
-
Biznes, ekonomia i marketing
-
Кібербезпека
-
Data Science
-
DevOps
-
Для дітей
-
Електроніка
-
Графіка / Відео / CAX
-
Ігри
-
Microsoft Office
-
Інструменти розробки
-
Програмування
-
Особистісний розвиток
-
Комп'ютерні мережі
-
Операційні системи
-
Тестування програмного забезпечення
-
Мобільні пристрої
-
UX/UI
-
Веброзробка, Web development
-
Управління
Подкасти
- Електронні книги
- Бізнес ІТ
- Big data (Великі дані)
- Spark. Zaawansowana analiza danych
Деталі електронної книги
Analiza ogromnych zbiorów danych nie musi być wolna!
Apache Spark to darmowy, zaawansowany szkielet i silnik pozwalający na szybkie przetwarzanie oraz analizę ogromnych zbiorów danych. Prace nad tym projektem rozpoczęły się w 2009 roku, a już rok później Spark został udostępniony użytkownikom. Jeżeli potrzebujesz najwyższej wydajności w przetwarzaniu informacji, jeżeli chcesz uzyskiwać odpowiedź na trudne pytania niemalże w czasie rzeczywistym, Spark może być odpowiedzią na Twoje oczekiwania.
Sięgnij po tę książkę i przekonaj się, czy tak jest w rzeczywistości. Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark. Nauczysz się też przeprowadzać analizę semantyczną i zobaczysz, jak w praktyce przeprowadzić analizę sieci współwystępowań za pomocą biblioteki GraphX. Na koniec dowiesz się, jak przetwarzać dane geoprzestrzenne i genomiczne, a także oszacujesz ryzyko metodą symulacji Monte Carlo. Książka ta pozwoli Ci na wykorzystanie potencjału Apache Spark i zaprzęgnięcie go do najtrudniejszych zadań!
Przykłady prezetnowane w książce obejmują:
- Rekomendowanie muzyki i dane Audioscrobbler
- Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich
- Wikipedia i ukryta analiza semantyczna
- Analiza sieci współwystępowań za pomocą biblioteki GraphX
- Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Szacowanie ryzyka finansowego metodą symulacji Monte Carlo
- Analiza danych genomicznych i projekt BDG
- Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder
Poznaj potencjał i wydajność Apache Spark!
Przedmowa (9)
Słowo wstępne (11)
1. Analiza wielkich zbiorów danych (13)
- Wyzwania w nauce o danych (15)
- Przedstawiamy Apache Spark (16)
- O czym jest ta książka (18)
2. Wprowadzenie do analizy danych za pomocą Scala i Spark (21)
- Scala dla badaczy danych (22)
- Model programowania w Spark (23)
- Wiązanie rekordów danych (23)
- Pierwsze kroki - powłoka Spark i kontekst SparkContext (24)
- Przesyłanie danych z klastra do klienta (29)
- Wysyłanie kodu z klienta do klastra (32)
- Tworzenie list danych i klas wyboru (33)
- Agregowanie danych (36)
- Tworzenie histogramów (38)
- Statystyki sumaryzacyjne ciągłych wartości (39)
- Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne (40)
- Prosty wybór zmiennych i ocena zgodności rekordów (44)
- Następny krok (45)
3. Rekomendowanie muzyki i dane Audioscrobbler (47)
- Zbiór danych (48)
- Algorytm rekomendacyjny wykorzystujący metodę naprzemiennych najmniejszych kwadratów (49)
- Przygotowanie danych (51)
- Utworzenie pierwszego modelu (54)
- Wyrywkowe sprawdzanie rekomendacji (56)
- Ocena jakości rekomendacji (57)
- Obliczenie metryki AUC (59)
- Dobór wartości hiperparametrów (60)
- Przygotowanie rekomendacji (62)
- Dalsze kroki (63)
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego (65)
- Szybkie przejście do regresji (65)
- Wektory i cechy (66)
- Przykłady treningowe (67)
- Drzewa i lasy decyzyjne (68)
- Dane Covtype (70)
- Przygotowanie danych (71)
- Pierwsze drzewo decyzyjne (72)
- Hiperparametry drzewa decyzyjnego (76)
- Regulacja drzewa decyzyjnego (77)
- Weryfikacja cech kategorialnych (79)
- Losowy las decyzyjny (81)
- Prognozowanie (83)
- Dalsze kroki (83)
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich (85)
- Wykrywanie anomalii (86)
- Grupowanie według k-średnich (86)
- Włamania sieciowe (87)
- Dane KDD Cup 1999 (87)
- Pierwsza próba grupowania (88)
- Dobór wartości k (90)
- Wizualizacja w środowisku R (93)
- Normalizacja cech (94)
- Zmienne kategorialne (96)
- Wykorzystanie etykiet i wskaźnika entropii (97)
- Grupowanie w akcji (98)
- Dalsze kroki (100)
6. Wikipedia i ukryta analiza semantyczna (101)
- Macierz słowo - dokument (102)
- Pobranie danych (104)
- Analiza składni i przygotowanie danych (104)
- Lematyzacja (105)
- Wyliczenie metryk TF-IDF (106)
- Rozkład według wartości osobliwych (108)
- Wyszukiwanie ważnych pojęć (110)
- Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej reprezentacji danych (113)
- Związek dwóch słów (114)
- Związek dwóch dokumentów (115)
- Związek słowa i dokumentu (116)
- Wyszukiwanie wielu słów (117)
- Dalsze kroki (118)
7. Analiza sieci współwystępowań za pomocą biblioteki GraphX (121)
- Katalog cytowań bazy MEDLINE - analiza sieci (122)
- Pobranie danych (123)
- Analiza dokumentów XML za pomocą biblioteki Scala (125)
- Analiza głównych znaczników i ich współwystępowań (126)
- Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX (128)
- Struktura sieci (131)
- Połączone komponenty (131)
- Rozkład stopni wierzchołków (133)
- Filtrowanie krawędzi zakłócających dane (135)
- Przetwarzanie struktury EdgeTriplet (136)
- Analiza przefiltrowanego grafu (138)
- Sieci typu "mały świat" (139)
- Kliki i współczynniki klastrowania (139)
- Obliczenie średniej długości ścieżki za pomocą systemu Pregel (141)
- Dalsze kroki (145)
8. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek (147)
- Pobranie danych (148)
- Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark (148)
- Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime (149)
- Przetwarzanie danych geoprzestrzennych za pomocą Esri Geometry API i Spray (150)
- Użycie interfejsu API Esri Geometry (151)
- Wprowadzenie do formatu GeoJSON (152)
- Przygotowanie danych dotyczących kursów taksówek (154)
- Obsługa dużej liczby błędnych rekordów danych (155)
- Analiza danych geoprzestrzennych (158)
- Sesjonowanie w systemie Spark (161)
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark (162)
- Dalsze kroki (165)
9. Szacowanie ryzyka finansowego metodą symulacji Monte Carlo (167)
- Terminologia (168)
- Metody obliczania wskaźnika VaR (169)
- Wariancja-kowariancja (169)
- Symulacja historyczna (169)
- Symulacja Monte Carlo (169)
- Nasz model (170)
- Pobranie danych (171)
- Wstępne przetworzenie danych (171)
- Określenie wag czynników (174)
- Losowanie prób (176)
- Wielowymiarowy rozkład normalny (178)
- Wykonanie testów (179)
- Wizualizacja rozkładu zwrotów (181)
- Ocena wyników (182)
- Dalsze kroki (184)
10. Analiza danych genomicznych i projekt BDG (187)
- Rozdzielenie sposobów zapisu i modelowania danych (188)
- Przetwarzanie danych genomicznych za pomocą wiersza poleceń systemu ADAM (190)
- Format Parquet i format kolumnowy (195)
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE (197)
- Odczytywanie informacji o genotypach z danych 1000 Genomes (203)
- Dalsze kroki (204)
11. Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder (205)
- Ogólne informacje o pakiecie PySpark (206)
- Budowa pakietu PySpark (207)
- Ogólne informacje i instalacja biblioteki pakietu Thunder (209)
- Ładowanie danych za pomocą pakietu Thunder (210)
- Podstawowe typy danych w pakiecie Thunder (214)
- Klasyfikowanie neuronów za pomocą pakietu Thunder (216)
- Dalsze kroki (221)
A. Więcej o systemie Spark (223)
- Serializacja (224)
- Akumulatory (225)
- System Spark i metody pracy badacza danych (226)
- Formaty plików (228)
- Podprojekty Spark (229)
- MLlib (229)
- Spark Streaming (230)
- Spark SQL (230)
- GraphX (230)
B. Nowy interfejs MLlib Pipelines API (231)
- Samo modelowanie to za mało (231)
- Interfejs API Pipelines (232)
- Przykład procesu klasyfikacji tekstu (233)
Skorowidz (237)
- Назва: Spark. Zaawansowana analiza danych
- Автор: Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
- Оригінальна назва: Advanced Analytics with Spark
- Переклад: Andrzej Watrak
- ISBN: 978-83-283-1464-1, 9788328314641
- Дата видання: 2015-11-24
- Формат: Eлектронна книга
- Ідентифікатор видання: sparkz
- Видавець: Helion