Kategorie
Ebooki
-
Biznes i ekonomia
- Bitcoin
- Bizneswoman
- Coaching
- Controlling
- E-biznes
- Ekonomia
- Finanse
- Giełda i inwestycje
- Kompetencje osobiste
- Komputer w biurze
- Komunikacja i negocjacje
- Mała firma
- Marketing
- Motywacja
- Multimedialne szkolenia
- Nieruchomości
- Perswazja i NLP
- Podatki
- Polityka społeczna
- Poradniki
- Prezentacje
- Przywództwo
- Public Relation
- Raporty, analizy
- Sekret
- Social Media
- Sprzedaż
- Start-up
- Twoja kariera
- Zarządzanie
- Zarządzanie projektami
- Zasoby ludzkie (HR)
-
Dla dzieci
-
Dla młodzieży
-
Edukacja
-
Encyklopedie, słowniki
-
E-prasa
- Architektura i wnętrza
- Biznes i Ekonomia
- Dom i ogród
- E-Biznes
- Finanse
- Finanse osobiste
- Firma
- Fotografia
- Informatyka
- Kadry i płace
- Komputery, Excel
- Księgowość
- Kultura i literatura
- Naukowe i akademickie
- Ochrona środowiska
- Opiniotwórcze
- Oświata
- Podatki
- Podróże
- Psychologia
- Religia
- Rolnictwo
- Rynek książki i prasy
- Transport i Spedycja
- Zdrowie i uroda
-
Historia
-
Informatyka
- Aplikacje biurowe
- Bazy danych
- Bioinformatyka
- Biznes IT
- CAD/CAM
- Digital Lifestyle
- DTP
- Elektronika
- Fotografia cyfrowa
- Grafika komputerowa
- Gry
- Hacking
- Hardware
- IT w ekonomii
- Pakiety naukowe
- Podręczniki szkolne
- Podstawy komputera
- Programowanie
- Programowanie mobilne
- Serwery internetowe
- Sieci komputerowe
- Start-up
- Systemy operacyjne
- Sztuczna inteligencja
- Technologia dla dzieci
- Webmasterstwo
-
Inne
-
Języki obce
-
Kultura i sztuka
-
Lektury szkolne
-
Literatura
- Antologie
- Ballada
- Biografie i autobiografie
- Dla dorosłych
- Dramat
- Dzienniki, pamiętniki, listy
- Epos, epopeja
- Esej
- Fantastyka i science-fiction
- Felietony
- Fikcja
- Humor, satyra
- Inne
- Klasyczna
- Kryminał
- Literatura faktu
- Literatura piękna
- Mity i legendy
- Nobliści
- Nowele
- Obyczajowa
- Okultyzm i magia
- Opowiadania
- Pamiętniki
- Podróże
- Poemat
- Poezja
- Polityka
- Popularnonaukowa
- Powieść
- Powieść historyczna
- Proza
- Przygodowa
- Publicystyka
- Reportaż
- Romans i literatura obyczajowa
- Sensacja
- Thriller, Horror
- Wywiady i wspomnienia
-
Nauki przyrodnicze
-
Nauki społeczne
-
Podręczniki szkolne
-
Popularnonaukowe i akademickie
- Archeologia
- Bibliotekoznawstwo
- Filmoznawstwo
- Filologia
- Filologia polska
- Filozofia
- Finanse i bankowość
- Geografia
- Gospodarka
- Handel. Gospodarka światowa
- Historia i archeologia
- Historia sztuki i architektury
- Kulturoznawstwo
- Lingwistyka
- Literaturoznawstwo
- Logistyka
- Matematyka
- Medycyna
- Nauki humanistyczne
- Pedagogika
- Pomoce naukowe
- Popularnonaukowa
- Pozostałe
- Psychologia
- Socjologia
- Teatrologia
- Teologia
- Teorie i nauki ekonomiczne
- Transport i spedycja
- Wychowanie fizyczne
- Zarządzanie i marketing
-
Poradniki
-
Poradniki do gier
-
Poradniki zawodowe i specjalistyczne
-
Prawo
- BHP
- Historia
- Kodeks drogowy. Prawo jazdy
- Nauki prawne
- Ochrona zdrowia
- Ogólne, kompendium wiedzy
- Podręczniki akademickie
- Pozostałe
- Prawo budowlane i lokalowe
- Prawo cywilne
- Prawo finansowe
- Prawo gospodarcze
- Prawo gospodarcze i handlowe
- Prawo karne
- Prawo karne. Przestępstwa karne. Kryminologia
- Prawo międzynarodowe
- Prawo międzynarodowe i zagraniczne
- Prawo ochrony zdrowia
- Prawo oświatowe
- Prawo podatkowe
- Prawo pracy i ubezpieczeń społecznych
- Prawo publiczne, konstytucyjne i administracyjne
- Prawo rodzinne i opiekuńcze
- Prawo rolne
- Prawo socjalne, prawo pracy
- Prawo Unii Europejskiej
- Przemysł
- Rolne i ochrona środowiska
- Słowniki i encyklopedie
- Zamówienia publiczne
- Zarządzanie
-
Przewodniki i podróże
- Afryka
- Albumy
- Ameryka Południowa
- Ameryka Środkowa i Północna
- Australia, Nowa Zelandia, Oceania
- Austria
- Azja
- Bałkany
- Bliski Wschód
- Bułgaria
- Chiny
- Chorwacja
- Czechy
- Dania
- Egipt
- Estonia
- Europa
- Francja
- Góry
- Grecja
- Hiszpania
- Holandia
- Islandia
- Litwa
- Łotwa
- Mapy, Plany miast, Atlasy
- Miniprzewodniki
- Niemcy
- Norwegia
- Podróże aktywne
- Polska
- Portugalia
- Pozostałe
- Rosja
- Rumunia
- Słowacja
- Słowenia
- Szwajcaria
- Szwecja
- Świat
- Turcja
- Ukraina
- Węgry
- Wielka Brytania
- Włochy
-
Psychologia
- Filozofie życiowe
- Kompetencje psychospołeczne
- Komunikacja międzyludzka
- Mindfulness
- Ogólne
- Perswazja i NLP
- Psychologia akademicka
- Psychologia duszy i umysłu
- Psychologia pracy
- Relacje i związki
- Rodzicielstwo i psychologia dziecka
- Rozwiązywanie problemów
- Rozwój intelektualny
- Sekret
- Seksualność
- Uwodzenie
- Wygląd i wizerunek
- Życiowe filozofie
-
Religia
-
Sport, fitness, diety
-
Technika i mechanika
Audiobooki
-
Biznes i ekonomia
- Bitcoin
- Bizneswoman
- Coaching
- Controlling
- E-biznes
- Ekonomia
- Finanse
- Giełda i inwestycje
- Kompetencje osobiste
- Komunikacja i negocjacje
- Mała firma
- Marketing
- Motywacja
- Nieruchomości
- Perswazja i NLP
- Podatki
- Poradniki
- Prezentacje
- Przywództwo
- Public Relation
- Sekret
- Social Media
- Sprzedaż
- Start-up
- Twoja kariera
- Zarządzanie
- Zarządzanie projektami
- Zasoby ludzkie (HR)
-
Dla dzieci
-
Dla młodzieży
-
Edukacja
-
Encyklopedie, słowniki
-
Historia
-
Informatyka
-
Inne
-
Języki obce
-
Kultura i sztuka
-
Lektury szkolne
-
Literatura
- Antologie
- Ballada
- Biografie i autobiografie
- Dla dorosłych
- Dramat
- Dzienniki, pamiętniki, listy
- Epos, epopeja
- Esej
- Fantastyka i science-fiction
- Felietony
- Fikcja
- Humor, satyra
- Inne
- Klasyczna
- Kryminał
- Literatura faktu
- Literatura piękna
- Mity i legendy
- Nobliści
- Nowele
- Obyczajowa
- Okultyzm i magia
- Opowiadania
- Pamiętniki
- Podróże
- Poezja
- Polityka
- Popularnonaukowa
- Powieść
- Powieść historyczna
- Proza
- Przygodowa
- Publicystyka
- Reportaż
- Romans i literatura obyczajowa
- Sensacja
- Thriller, Horror
- Wywiady i wspomnienia
-
Nauki przyrodnicze
-
Nauki społeczne
-
Popularnonaukowe i akademickie
-
Poradniki
-
Poradniki zawodowe i specjalistyczne
-
Prawo
-
Przewodniki i podróże
-
Psychologia
- Filozofie życiowe
- Komunikacja międzyludzka
- Mindfulness
- Ogólne
- Perswazja i NLP
- Psychologia akademicka
- Psychologia duszy i umysłu
- Psychologia pracy
- Relacje i związki
- Rodzicielstwo i psychologia dziecka
- Rozwiązywanie problemów
- Rozwój intelektualny
- Sekret
- Seksualność
- Uwodzenie
- Wygląd i wizerunek
- Życiowe filozofie
-
Religia
-
Sport, fitness, diety
-
Technika i mechanika
Kursy video
-
Bazy danych
-
Big Data
-
Biznes, ekonomia i marketing
-
Cyberbezpieczeństwo
-
Data Science
-
DevOps
-
Dla dzieci
-
Elektronika
-
Grafika/Wideo/CAX
-
Gry
-
Microsoft Office
-
Narzędzia programistyczne
-
Programowanie
-
Rozwój osobisty
-
Sieci komputerowe
-
Systemy operacyjne
-
Testowanie oprogramowania
-
Urządzenia mobilne
-
UX/UI
-
Web development
-
Zarządzanie
Podcasty
Szczegóły ebooka
Analiza ogromnych zbiorów danych nie musi być wolna!
Apache Spark to darmowy, zaawansowany szkielet i silnik pozwalający na szybkie przetwarzanie oraz analizę ogromnych zbiorów danych. Prace nad tym projektem rozpoczęły się w 2009 roku, a już rok później Spark został udostępniony użytkownikom. Jeżeli potrzebujesz najwyższej wydajności w przetwarzaniu informacji, jeżeli chcesz uzyskiwać odpowiedź na trudne pytania niemalże w czasie rzeczywistym, Spark może być odpowiedzią na Twoje oczekiwania.
Sięgnij po tę książkę i przekonaj się, czy tak jest w rzeczywistości. Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark. Nauczysz się też przeprowadzać analizę semantyczną i zobaczysz, jak w praktyce przeprowadzić analizę sieci współwystępowań za pomocą biblioteki GraphX. Na koniec dowiesz się, jak przetwarzać dane geoprzestrzenne i genomiczne, a także oszacujesz ryzyko metodą symulacji Monte Carlo. Książka ta pozwoli Ci na wykorzystanie potencjału Apache Spark i zaprzęgnięcie go do najtrudniejszych zadań!
Przykłady prezetnowane w książce obejmują:
- Rekomendowanie muzyki i dane Audioscrobbler
- Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich
- Wikipedia i ukryta analiza semantyczna
- Analiza sieci współwystępowań za pomocą biblioteki GraphX
- Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Szacowanie ryzyka finansowego metodą symulacji Monte Carlo
- Analiza danych genomicznych i projekt BDG
- Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder
Poznaj potencjał i wydajność Apache Spark!
Przedmowa (9)
Słowo wstępne (11)
1. Analiza wielkich zbiorów danych (13)
- Wyzwania w nauce o danych (15)
- Przedstawiamy Apache Spark (16)
- O czym jest ta książka (18)
2. Wprowadzenie do analizy danych za pomocą Scala i Spark (21)
- Scala dla badaczy danych (22)
- Model programowania w Spark (23)
- Wiązanie rekordów danych (23)
- Pierwsze kroki - powłoka Spark i kontekst SparkContext (24)
- Przesyłanie danych z klastra do klienta (29)
- Wysyłanie kodu z klienta do klastra (32)
- Tworzenie list danych i klas wyboru (33)
- Agregowanie danych (36)
- Tworzenie histogramów (38)
- Statystyki sumaryzacyjne ciągłych wartości (39)
- Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne (40)
- Prosty wybór zmiennych i ocena zgodności rekordów (44)
- Następny krok (45)
3. Rekomendowanie muzyki i dane Audioscrobbler (47)
- Zbiór danych (48)
- Algorytm rekomendacyjny wykorzystujący metodę naprzemiennych najmniejszych kwadratów (49)
- Przygotowanie danych (51)
- Utworzenie pierwszego modelu (54)
- Wyrywkowe sprawdzanie rekomendacji (56)
- Ocena jakości rekomendacji (57)
- Obliczenie metryki AUC (59)
- Dobór wartości hiperparametrów (60)
- Przygotowanie rekomendacji (62)
- Dalsze kroki (63)
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego (65)
- Szybkie przejście do regresji (65)
- Wektory i cechy (66)
- Przykłady treningowe (67)
- Drzewa i lasy decyzyjne (68)
- Dane Covtype (70)
- Przygotowanie danych (71)
- Pierwsze drzewo decyzyjne (72)
- Hiperparametry drzewa decyzyjnego (76)
- Regulacja drzewa decyzyjnego (77)
- Weryfikacja cech kategorialnych (79)
- Losowy las decyzyjny (81)
- Prognozowanie (83)
- Dalsze kroki (83)
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich (85)
- Wykrywanie anomalii (86)
- Grupowanie według k-średnich (86)
- Włamania sieciowe (87)
- Dane KDD Cup 1999 (87)
- Pierwsza próba grupowania (88)
- Dobór wartości k (90)
- Wizualizacja w środowisku R (93)
- Normalizacja cech (94)
- Zmienne kategorialne (96)
- Wykorzystanie etykiet i wskaźnika entropii (97)
- Grupowanie w akcji (98)
- Dalsze kroki (100)
6. Wikipedia i ukryta analiza semantyczna (101)
- Macierz słowo - dokument (102)
- Pobranie danych (104)
- Analiza składni i przygotowanie danych (104)
- Lematyzacja (105)
- Wyliczenie metryk TF-IDF (106)
- Rozkład według wartości osobliwych (108)
- Wyszukiwanie ważnych pojęć (110)
- Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej reprezentacji danych (113)
- Związek dwóch słów (114)
- Związek dwóch dokumentów (115)
- Związek słowa i dokumentu (116)
- Wyszukiwanie wielu słów (117)
- Dalsze kroki (118)
7. Analiza sieci współwystępowań za pomocą biblioteki GraphX (121)
- Katalog cytowań bazy MEDLINE - analiza sieci (122)
- Pobranie danych (123)
- Analiza dokumentów XML za pomocą biblioteki Scala (125)
- Analiza głównych znaczników i ich współwystępowań (126)
- Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX (128)
- Struktura sieci (131)
- Połączone komponenty (131)
- Rozkład stopni wierzchołków (133)
- Filtrowanie krawędzi zakłócających dane (135)
- Przetwarzanie struktury EdgeTriplet (136)
- Analiza przefiltrowanego grafu (138)
- Sieci typu "mały świat" (139)
- Kliki i współczynniki klastrowania (139)
- Obliczenie średniej długości ścieżki za pomocą systemu Pregel (141)
- Dalsze kroki (145)
8. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek (147)
- Pobranie danych (148)
- Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark (148)
- Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime (149)
- Przetwarzanie danych geoprzestrzennych za pomocą Esri Geometry API i Spray (150)
- Użycie interfejsu API Esri Geometry (151)
- Wprowadzenie do formatu GeoJSON (152)
- Przygotowanie danych dotyczących kursów taksówek (154)
- Obsługa dużej liczby błędnych rekordów danych (155)
- Analiza danych geoprzestrzennych (158)
- Sesjonowanie w systemie Spark (161)
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark (162)
- Dalsze kroki (165)
9. Szacowanie ryzyka finansowego metodą symulacji Monte Carlo (167)
- Terminologia (168)
- Metody obliczania wskaźnika VaR (169)
- Wariancja-kowariancja (169)
- Symulacja historyczna (169)
- Symulacja Monte Carlo (169)
- Nasz model (170)
- Pobranie danych (171)
- Wstępne przetworzenie danych (171)
- Określenie wag czynników (174)
- Losowanie prób (176)
- Wielowymiarowy rozkład normalny (178)
- Wykonanie testów (179)
- Wizualizacja rozkładu zwrotów (181)
- Ocena wyników (182)
- Dalsze kroki (184)
10. Analiza danych genomicznych i projekt BDG (187)
- Rozdzielenie sposobów zapisu i modelowania danych (188)
- Przetwarzanie danych genomicznych za pomocą wiersza poleceń systemu ADAM (190)
- Format Parquet i format kolumnowy (195)
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE (197)
- Odczytywanie informacji o genotypach z danych 1000 Genomes (203)
- Dalsze kroki (204)
11. Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder (205)
- Ogólne informacje o pakiecie PySpark (206)
- Budowa pakietu PySpark (207)
- Ogólne informacje i instalacja biblioteki pakietu Thunder (209)
- Ładowanie danych za pomocą pakietu Thunder (210)
- Podstawowe typy danych w pakiecie Thunder (214)
- Klasyfikowanie neuronów za pomocą pakietu Thunder (216)
- Dalsze kroki (221)
A. Więcej o systemie Spark (223)
- Serializacja (224)
- Akumulatory (225)
- System Spark i metody pracy badacza danych (226)
- Formaty plików (228)
- Podprojekty Spark (229)
- MLlib (229)
- Spark Streaming (230)
- Spark SQL (230)
- GraphX (230)
B. Nowy interfejs MLlib Pipelines API (231)
- Samo modelowanie to za mało (231)
- Interfejs API Pipelines (232)
- Przykład procesu klasyfikacji tekstu (233)
Skorowidz (237)
- Tytuł: Spark. Zaawansowana analiza danych
- Autor: Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
- Tytuł oryginału: Advanced Analytics with Spark
- Tłumaczenie: Andrzej Watrak
- ISBN: 978-83-283-1464-1, 9788328314641
- Data wydania: 2015-11-24
- Format: Ebook
- Identyfikator pozycji: sparkz
- Wydawca: Helion