Kategorie
Ebooki
-
Biznes i ekonomia
- Bitcoin
- Bizneswoman
- Coaching
- Controlling
- E-biznes
- Ekonomia
- Finanse
- Giełda i inwestycje
- Kompetencje osobiste
- Komputer w biurze
- Komunikacja i negocjacje
- Mała firma
- Marketing
- Motywacja
- Multimedialne szkolenia
- Nieruchomości
- Perswazja i NLP
- Podatki
- Polityka społeczna
- Poradniki
- Prezentacje
- Przywództwo
- Public Relation
- Raporty, analizy
- Sekret
- Social Media
- Sprzedaż
- Start-up
- Twoja kariera
- Zarządzanie
- Zarządzanie projektami
- Zasoby ludzkie (HR)
-
Dla dzieci
-
Dla młodzieży
-
Edukacja
-
Encyklopedie, słowniki
-
E-prasa
- Architektura i wnętrza
- Biznes i Ekonomia
- Dom i ogród
- E-Biznes
- Finanse
- Finanse osobiste
- Firma
- Fotografia
- Informatyka
- Kadry i płace
- Komputery, Excel
- Księgowość
- Kultura i literatura
- Naukowe i akademickie
- Ochrona środowiska
- Opiniotwórcze
- Oświata
- Podatki
- Podróże
- Psychologia
- Religia
- Rolnictwo
- Rynek książki i prasy
- Transport i Spedycja
- Zdrowie i uroda
-
Historia
-
Informatyka
- Aplikacje biurowe
- Bazy danych
- Bioinformatyka
- Biznes IT
- CAD/CAM
- Digital Lifestyle
- DTP
- Elektronika
- Fotografia cyfrowa
- Grafika komputerowa
- Gry
- Hacking
- Hardware
- IT w ekonomii
- Pakiety naukowe
- Podręczniki szkolne
- Podstawy komputera
- Programowanie
- Programowanie mobilne
- Serwery internetowe
- Sieci komputerowe
- Start-up
- Systemy operacyjne
- Sztuczna inteligencja
- Technologia dla dzieci
- Webmasterstwo
-
Inne
-
Języki obce
-
Kultura i sztuka
-
Lektury szkolne
-
Literatura
- Antologie
- Ballada
- Biografie i autobiografie
- Dla dorosłych
- Dramat
- Dzienniki, pamiętniki, listy
- Epos, epopeja
- Esej
- Fantastyka i science-fiction
- Felietony
- Fikcja
- Humor, satyra
- Inne
- Klasyczna
- Kryminał
- Literatura faktu
- Literatura piękna
- Mity i legendy
- Nobliści
- Nowele
- Obyczajowa
- Okultyzm i magia
- Opowiadania
- Pamiętniki
- Podróże
- Poemat
- Poezja
- Polityka
- Popularnonaukowa
- Powieść
- Powieść historyczna
- Proza
- Przygodowa
- Publicystyka
- Reportaż
- Romans i literatura obyczajowa
- Sensacja
- Thriller, Horror
- Wywiady i wspomnienia
-
Nauki przyrodnicze
-
Nauki społeczne
-
Podręczniki szkolne
-
Popularnonaukowe i akademickie
- Archeologia
- Bibliotekoznawstwo
- Filmoznawstwo
- Filologia
- Filologia polska
- Filozofia
- Finanse i bankowość
- Geografia
- Gospodarka
- Handel. Gospodarka światowa
- Historia i archeologia
- Historia sztuki i architektury
- Kulturoznawstwo
- Lingwistyka
- Literaturoznawstwo
- Logistyka
- Matematyka
- Medycyna
- Nauki humanistyczne
- Pedagogika
- Pomoce naukowe
- Popularnonaukowa
- Pozostałe
- Psychologia
- Socjologia
- Teatrologia
- Teologia
- Teorie i nauki ekonomiczne
- Transport i spedycja
- Wychowanie fizyczne
- Zarządzanie i marketing
-
Poradniki
-
Poradniki do gier
-
Poradniki zawodowe i specjalistyczne
-
Prawo
- BHP
- Historia
- Kodeks drogowy. Prawo jazdy
- Nauki prawne
- Ochrona zdrowia
- Ogólne, kompendium wiedzy
- Podręczniki akademickie
- Pozostałe
- Prawo budowlane i lokalowe
- Prawo cywilne
- Prawo finansowe
- Prawo gospodarcze
- Prawo gospodarcze i handlowe
- Prawo karne
- Prawo karne. Przestępstwa karne. Kryminologia
- Prawo międzynarodowe
- Prawo międzynarodowe i zagraniczne
- Prawo ochrony zdrowia
- Prawo oświatowe
- Prawo podatkowe
- Prawo pracy i ubezpieczeń społecznych
- Prawo publiczne, konstytucyjne i administracyjne
- Prawo rodzinne i opiekuńcze
- Prawo rolne
- Prawo socjalne, prawo pracy
- Prawo Unii Europejskiej
- Przemysł
- Rolne i ochrona środowiska
- Słowniki i encyklopedie
- Zamówienia publiczne
- Zarządzanie
-
Przewodniki i podróże
- Afryka
- Albumy
- Ameryka Południowa
- Ameryka Środkowa i Północna
- Australia, Nowa Zelandia, Oceania
- Austria
- Azja
- Bałkany
- Bliski Wschód
- Bułgaria
- Chiny
- Chorwacja
- Czechy
- Dania
- Egipt
- Estonia
- Europa
- Francja
- Góry
- Grecja
- Hiszpania
- Holandia
- Islandia
- Litwa
- Łotwa
- Mapy, Plany miast, Atlasy
- Miniprzewodniki
- Niemcy
- Norwegia
- Podróże aktywne
- Polska
- Portugalia
- Pozostałe
- Rosja
- Rumunia
- Słowacja
- Słowenia
- Szwajcaria
- Szwecja
- Świat
- Turcja
- Ukraina
- Węgry
- Wielka Brytania
- Włochy
-
Psychologia
- Filozofie życiowe
- Kompetencje psychospołeczne
- Komunikacja międzyludzka
- Mindfulness
- Ogólne
- Perswazja i NLP
- Psychologia akademicka
- Psychologia duszy i umysłu
- Psychologia pracy
- Relacje i związki
- Rodzicielstwo i psychologia dziecka
- Rozwiązywanie problemów
- Rozwój intelektualny
- Sekret
- Seksualność
- Uwodzenie
- Wygląd i wizerunek
- Życiowe filozofie
-
Religia
-
Sport, fitness, diety
-
Technika i mechanika
Audiobooki
-
Biznes i ekonomia
- Bitcoin
- Bizneswoman
- Coaching
- Controlling
- E-biznes
- Ekonomia
- Finanse
- Giełda i inwestycje
- Kompetencje osobiste
- Komunikacja i negocjacje
- Mała firma
- Marketing
- Motywacja
- Nieruchomości
- Perswazja i NLP
- Podatki
- Poradniki
- Prezentacje
- Przywództwo
- Public Relation
- Sekret
- Social Media
- Sprzedaż
- Start-up
- Twoja kariera
- Zarządzanie
- Zarządzanie projektami
- Zasoby ludzkie (HR)
-
Dla dzieci
-
Dla młodzieży
-
Edukacja
-
Encyklopedie, słowniki
-
Historia
-
Informatyka
-
Inne
-
Języki obce
-
Kultura i sztuka
-
Lektury szkolne
-
Literatura
- Antologie
- Ballada
- Biografie i autobiografie
- Dla dorosłych
- Dramat
- Dzienniki, pamiętniki, listy
- Epos, epopeja
- Esej
- Fantastyka i science-fiction
- Felietony
- Fikcja
- Humor, satyra
- Inne
- Klasyczna
- Kryminał
- Literatura faktu
- Literatura piękna
- Mity i legendy
- Nobliści
- Nowele
- Obyczajowa
- Okultyzm i magia
- Opowiadania
- Pamiętniki
- Podróże
- Poezja
- Polityka
- Popularnonaukowa
- Powieść
- Powieść historyczna
- Proza
- Przygodowa
- Publicystyka
- Reportaż
- Romans i literatura obyczajowa
- Sensacja
- Thriller, Horror
- Wywiady i wspomnienia
-
Nauki przyrodnicze
-
Nauki społeczne
-
Popularnonaukowe i akademickie
-
Poradniki
-
Poradniki zawodowe i specjalistyczne
-
Prawo
-
Przewodniki i podróże
-
Psychologia
- Filozofie życiowe
- Komunikacja międzyludzka
- Mindfulness
- Ogólne
- Perswazja i NLP
- Psychologia akademicka
- Psychologia duszy i umysłu
- Psychologia pracy
- Relacje i związki
- Rodzicielstwo i psychologia dziecka
- Rozwiązywanie problemów
- Rozwój intelektualny
- Sekret
- Seksualność
- Uwodzenie
- Wygląd i wizerunek
- Życiowe filozofie
-
Religia
-
Sport, fitness, diety
-
Technika i mechanika
Kursy video
-
Bazy danych
-
Big Data
-
Biznes, ekonomia i marketing
-
Cyberbezpieczeństwo
-
Data Science
-
DevOps
-
Dla dzieci
-
Elektronika
-
Grafika/Wideo/CAX
-
Gry
-
Microsoft Office
-
Narzędzia programistyczne
-
Programowanie
-
Rozwój osobisty
-
Sieci komputerowe
-
Systemy operacyjne
-
Testowanie oprogramowania
-
Urządzenia mobilne
-
UX/UI
-
Web development
-
Zarządzanie
Podcasty
- Ebooki
- Programowanie
- Python
- Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Szczegóły ebooka
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.
Dzięki książce poznasz:
- model programowania w ekosystemie Spark
- podstawowe metody stosowane w nauce o danych
- pełne implementacje analiz dużych publicznych zbiorów danych
- konkretne przypadki użycia narzędzi uczenia maszynowego
- kod, który łatwo dostosujesz do swoich potrzeb
PySpark: systemowa odpowiedź na problemy inżyniera danych!
Słowo wstępne
1. Analiza wielkich zbiorów danych
- Praca z wielkimi zbiorami danych
- Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
- Spark 3.0
- PySpark i wyzwania w nauce o danych
- O czym jest ta książka
2. Wprowadzenie do analizy danych za pomocą PySpark
- Architektura systemu Spark
- Instalacja interfejsu PySpark
- Przygotowanie danych
- Analiza danych za pomocą struktury DataFrame
- Szybkie statystyki zbiorcze w strukturze DataFrame
- Przestawienie i przekształcenie struktury DataFrame
- Złączenie struktur DataFrame i wybór cech
- Ocena modelu
- Dalsze kroki
3. Rekomendowanie muzyki i dane Audioscrobbler
- Zbiór danych
- Wymagania dla systemu rekomendacyjnego
- Algorytm naprzemiennych najmniejszych kwadratów
- Przygotowanie danych
- Utworzenie pierwszego modelu
- Wyrywkowe sprawdzanie rekomendacji
- Ocena jakości rekomendacji
- Obliczenie wskaźnika AUC
- Dobór wartości hiperparametrów
- Przygotowanie rekomendacji
- Dalsze kroki
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Drzewa i lasy decyzyjne
- Przygotowanie danych
- Pierwsze drzewo decyzyjne
- Hiperparametry drzewa decyzyjnego
- Regulacja drzewa decyzyjnego
- Weryfikacja cech kategorialnych
- Losowy las decyzyjny
- Prognozowanie
- Dalsze kroki
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich
- Grupowanie według k-średnich
- Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
- Pierwsza próba grupowania
- Dobór wartości k
- Wizualizacja w środowisku R
- Normalizacja cech
- Zmienne kategorialne
- Wykorzystanie etykiet i wskaźnika entropii
- Grupowanie w akcji
- Dalsze kroki
6. Wikipedia, algorytmy LDA i Spark NLP
- Algorytm LDA
- Algorytm LDA w interfejsie PySpark
- Pobranie danych
- Spark NLP
- Przygotowanie środowiska
- Przekształcenie danych
- Przygotowanie danych za pomocą biblioteki Spark NLP
- Metoda TF-IDF
- Wyliczenie wskaźników TF-IDF
- Utworzenie modelu LDA
- Dalsze kroki
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
- Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
- Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
- Dalsze kroki
8. Szacowanie ryzyka finansowego
- Terminologia
- Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
- Nasz model
- Pobranie danych
- Przygotowanie danych
- Określenie wag czynników
- Losowanie prób
- Wielowymiarowy rozkład normalny
- Wykonanie testów
- Wizualizacja rozkładu zwrotów
- Dalsze kroki
9. Analiza danych genomicznych i projekt BDG
- Rozdzielenie sposobów zapisu i modelowania danych
- Przygotowanie pakietu ADAM
- Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
- Dalsze kroki
10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH
- PyTorch
- Instalacja
- Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
- Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
- Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
- Dalsze kroki
11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow
- Cykl uczenia maszynowego
- Platforma MLflow
- Śledzenie eksperymentów
- Zarządzanie modelami uczenia maszynowego i udostępnianie ich
- Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
- Dalsze kroki
- Tytuł: Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
- Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
- Tytuł oryginału: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
- Tłumaczenie: Andrzej Watrak
- ISBN: 978-83-8322-070-3, 9788383220703
- Data wydania: 2023-03-07
- Format: Ebook
- Identyfikator pozycji: zaanpy
- Wydawca: Helion