Kategorien
E-Books
-
Wirtschaft
- Bitcoin
- Geschäftsfrau
- Coaching
- Controlling
- E-Business
- Ökonomie
- Finanzen
- Börse und Investitionen
- Persönliche Kompetenzen
- Computer im Büro
- Kommunikation und Verhandlungen
- Kleines Unternehmen
- Marketing
- Motivation
- Multimedia-Training
- Immobilien
- Überzeugung und NLP
- Steuern
- Sozialpolitik
- Handbȕcher
- Präsentationen
- Führung
- Public Relation
- Berichte, Analysen
- Geheimnis
- Social Media
- Verkauf
- Start-up
- Ihre Karriere
- Management
- Projektmanagement
- Personal (HR)
-
Für Kinder
-
Für Jugendliche
-
Bildung
-
Enzyklopädien, Wörterbücher
-
E-Presse
- Architektura i wnętrza
- Biznes i Ekonomia
- Haus und Garten
- E-Business
- Finanzen
- Persönliche Finanzen
- Unternehmen
- Fotografie
- Informatik
- HR und Gehaltsabrechnung
- Computer, Excel
- Buchhaltung
- Kultur und Literatur
- Wissenschaftlich und akademisch
- Umweltschutz
- meinungsbildend
- Bildung
- Steuern
- Reisen
- Psychologie
- Religion
- Landwirtschaft
- Buch- und Pressemarkt
- Transport und Spedition
- Gesundheit und Schönheit
-
Geschichte
-
Informatik
- Office-Programme
- Datenbank
- Bioinformatik
- IT Branche
- CAD/CAM
- Digital Lifestyle
- DTP
- Elektronik
- Digitale Fotografie
- Computergrafik
- Spiele
- Hacking
- Hardware
- IT w ekonomii
- Wissenschaftliche Pakete
- Schulbücher
- Computergrundlagen
- Programmierung
- Mobile-Programmierung
- Internet-Server
- Computernetzwerke
- Start-up
- Betriebssysteme
- Künstliche Inteligenz
- Technik für Kinder
- Webmaster
-
Andere
-
Fremdsprachen lernen
-
Kultur und Kunst
-
Lektüre
-
Literatur
- Anthologien
- Ballade
- Biografien und Autobiografien
- Für Erwachsene
- Drama
- Tagebücher, Memoiren, Briefe
- Epos
- Essay
- Science Fiction
- Felietonys
- Fiktion
- Humor, Satire
- Andere
- Klassisch
- Krimi
- Sachbücher
- Belletristik
- Mity i legendy
- Nobelpreisträger
- Kurzgeschichten
- Gesellschaftlich
- Okultyzm i magia
- Erzählung
- Erinnerungen
- Reisen
- Gedicht
- Poesie
- Politik
- Populärwissenschaftlich
- Roman
- Historischer Roman
- Prosa
- Abenteuer
- Journalismus
- Reportage
- Romans i literatura obyczajowa
- Sensation
- Thriller, Horror
- Interviews und Erinnerungen
-
Naturwissenschaften
-
Sozialwissenschaften
-
Schulbücher
-
Populärwissenschaft und akademisch
- Archäologie
- Bibliotekoznawstwo
- Filmwissenschaft
- Philologie
- Polnische Philologie
- Philosophie
- Finanse i bankowość
- Erdkunde
- Wirtschaft
- Handel. Weltwirtschaft
- Geschichte und Archäologie
- Kunst- und Architekturgeschichte
- Kulturwissenschaft
- Linguistik
- Literaturwissenschaft
- Logistik
- Mathematik
- Medizin
- Geisteswissenschaften
- Pädagogik
- Lehrmittel
- Populärwissenschaftlich
- Andere
- Psychologie
- Soziologie
- Theatrologie
- Teologie
- Theorien und Wirtschaftswissenschaften
- Transport i spedycja
- Sportunterricht
- Zarządzanie i marketing
-
Handbȕcher
-
Spielanleitungen
-
Professioneller und fachkundige Leitfaden
-
Jura
- Sicherheit und Gesundheit am Arbeitsplatz
- Geschichte
- Verkehrsregeln. Führerschein
- Rechtswissenschaften
- Gesundheitswesen
- Allgemeines. Wissenskompendium
- akademische Bücher
- Andere
- Bau- und Wohnungsrecht
- Zivilrecht
- Finanzrecht
- Wirtschaftsrecht
- Wirtschafts- und Handelsrecht
- Strafrecht
- Strafrecht. Kriminelle Taten. Kriminologie
- Internationales Recht
- Internationales und ausländisches Recht
- Gesundheitsschutzgesetz
- Bildungsrecht
- Steuerrecht
- Arbeits- und Sozialversicherungsrecht
- Öffentliches, Verfassungs- und Verwaltungsrecht
- Familien- und Vormundschaftsrecht
- Agrarrecht
- Sozialrecht, Arbeitsrecht
- EU-Recht
- Industrie
- Agrar- und Umweltschutz
- Wörterbücher und Enzyklopädien
- Öffentliche Auftragsvergabe
- Management
-
Führer und Reisen
- Afrika
- Alben
- Südamerika
- Mittel- und Nordamerika
- Australien, Neuseeland, Ozeanien
- Österreich
- Asien
- Balkan
- Naher Osten
- Bulgarien
- China
- Kroatien
- Tschechische Republik
- Dänemark
- Ägypten
- Estland
- Europa
- Frankreich
- Berge
- Griechenland
- Spanien
- Niederlande
- Island
- Litauen
- Lettland
- Mapy, Plany miast, Atlasy
- Miniführer
- Deutschland
- Norwegen
- Aktive Reisen
- Polen
- Portugal
- Andere
- Russland
- Rumänien
- Slowakei
- Slowenien
- Schweiz
- Schweden
- Welt
- Türkei
- Ukraine
- Ungarn
- Großbritannien
- Italien
-
Psychologie
- Lebensphilosophien
- Kompetencje psychospołeczne
- zwischenmenschliche Kommunikation
- Mindfulness
- Allgemeines
- Überzeugung und NLP
- Akademische Psychologie
- Psychologie von Seele und Geist
- Arbeitspsychologie
- Relacje i związki
- Elternschafts- und Kinderpsychologie
- Problemlösung
- Intellektuelle Entwicklung
- Geheimnis
- Sexualität
- Verführung
- Aussehen ind Image
- Lebensphilosophien
-
Religion
-
Sport, Fitness, Diäten
-
Technik und Mechanik
Hörbücher
-
Wirtschaft
- Bitcoin
- Geschäftsfrau
- Coaching
- Controlling
- E-Business
- Ökonomie
- Finanzen
- Börse und Investitionen
- Persönliche Kompetenzen
- Kommunikation und Verhandlungen
- Kleines Unternehmen
- Marketing
- Motivation
- Immobilien
- Überzeugung und NLP
- Steuern
- Handbȕcher
- Präsentationen
- Führung
- Public Relation
- Geheimnis
- Social Media
- Verkauf
- Start-up
- Ihre Karriere
- Management
- Projektmanagement
- Personal (HR)
-
Für Kinder
-
Für Jugendliche
-
Bildung
-
Enzyklopädien, Wörterbücher
-
Geschichte
-
Informatik
-
Andere
-
Fremdsprachen lernen
-
Kultur und Kunst
-
Lektüre
-
Literatur
- Anthologien
- Ballade
- Biografien und Autobiografien
- Für Erwachsene
- Drama
- Tagebücher, Memoiren, Briefe
- Epos
- Essay
- Science Fiction
- Felietonys
- Fiktion
- Humor, Satire
- Andere
- Klassisch
- Krimi
- Sachbücher
- Belletristik
- Mity i legendy
- Nobelpreisträger
- Kurzgeschichten
- Gesellschaftlich
- Okultyzm i magia
- Erzählung
- Erinnerungen
- Reisen
- Poesie
- Politik
- Populärwissenschaftlich
- Roman
- Historischer Roman
- Prosa
- Abenteuer
- Journalismus
- Reportage
- Romans i literatura obyczajowa
- Sensation
- Thriller, Horror
- Interviews und Erinnerungen
-
Naturwissenschaften
-
Sozialwissenschaften
-
Populärwissenschaft und akademisch
- Archäologie
- Philosophie
- Wirtschaft
- Handel. Weltwirtschaft
- Geschichte und Archäologie
- Kunst- und Architekturgeschichte
- Kulturwissenschaft
- Literaturwissenschaft
- Mathematik
- Medizin
- Geisteswissenschaften
- Pädagogik
- Lehrmittel
- Populärwissenschaftlich
- Andere
- Psychologie
- Soziologie
- Teologie
- Zarządzanie i marketing
-
Handbȕcher
-
Professioneller und fachkundige Leitfaden
-
Jura
-
Führer und Reisen
-
Psychologie
- Lebensphilosophien
- zwischenmenschliche Kommunikation
- Mindfulness
- Allgemeines
- Überzeugung und NLP
- Akademische Psychologie
- Psychologie von Seele und Geist
- Arbeitspsychologie
- Relacje i związki
- Elternschafts- und Kinderpsychologie
- Problemlösung
- Intellektuelle Entwicklung
- Geheimnis
- Sexualität
- Verführung
- Aussehen ind Image
- Lebensphilosophien
-
Religion
-
Sport, Fitness, Diäten
-
Technik und Mechanik
Videokurse
-
Datenbank
-
Big Data
-
Biznes, ekonomia i marketing
-
Cybersicherheit
-
Data Science
-
DevOps
-
Für Kinder
-
Elektronik
-
Grafik / Video / CAX
-
Spiele
-
Microsoft Office
-
Entwicklungstools
-
Programmierung
-
Persönliche Entwicklung
-
Computernetzwerke
-
Betriebssysteme
-
Softwaretest
-
Mobile Geräte
-
UX/UI
-
Web development
-
Management
Podcasts
- E-Books
- Programmierung
- Python
- Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Details zum E-Book
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.
Dzięki książce poznasz:
- model programowania w ekosystemie Spark
- podstawowe metody stosowane w nauce o danych
- pełne implementacje analiz dużych publicznych zbiorów danych
- konkretne przypadki użycia narzędzi uczenia maszynowego
- kod, który łatwo dostosujesz do swoich potrzeb
PySpark: systemowa odpowiedź na problemy inżyniera danych!
Słowo wstępne
1. Analiza wielkich zbiorów danych
- Praca z wielkimi zbiorami danych
- Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
- Spark 3.0
- PySpark i wyzwania w nauce o danych
- O czym jest ta książka
2. Wprowadzenie do analizy danych za pomocą PySpark
- Architektura systemu Spark
- Instalacja interfejsu PySpark
- Przygotowanie danych
- Analiza danych za pomocą struktury DataFrame
- Szybkie statystyki zbiorcze w strukturze DataFrame
- Przestawienie i przekształcenie struktury DataFrame
- Złączenie struktur DataFrame i wybór cech
- Ocena modelu
- Dalsze kroki
3. Rekomendowanie muzyki i dane Audioscrobbler
- Zbiór danych
- Wymagania dla systemu rekomendacyjnego
- Algorytm naprzemiennych najmniejszych kwadratów
- Przygotowanie danych
- Utworzenie pierwszego modelu
- Wyrywkowe sprawdzanie rekomendacji
- Ocena jakości rekomendacji
- Obliczenie wskaźnika AUC
- Dobór wartości hiperparametrów
- Przygotowanie rekomendacji
- Dalsze kroki
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Drzewa i lasy decyzyjne
- Przygotowanie danych
- Pierwsze drzewo decyzyjne
- Hiperparametry drzewa decyzyjnego
- Regulacja drzewa decyzyjnego
- Weryfikacja cech kategorialnych
- Losowy las decyzyjny
- Prognozowanie
- Dalsze kroki
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich
- Grupowanie według k-średnich
- Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
- Pierwsza próba grupowania
- Dobór wartości k
- Wizualizacja w środowisku R
- Normalizacja cech
- Zmienne kategorialne
- Wykorzystanie etykiet i wskaźnika entropii
- Grupowanie w akcji
- Dalsze kroki
6. Wikipedia, algorytmy LDA i Spark NLP
- Algorytm LDA
- Algorytm LDA w interfejsie PySpark
- Pobranie danych
- Spark NLP
- Przygotowanie środowiska
- Przekształcenie danych
- Przygotowanie danych za pomocą biblioteki Spark NLP
- Metoda TF-IDF
- Wyliczenie wskaźników TF-IDF
- Utworzenie modelu LDA
- Dalsze kroki
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
- Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
- Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
- Dalsze kroki
8. Szacowanie ryzyka finansowego
- Terminologia
- Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
- Nasz model
- Pobranie danych
- Przygotowanie danych
- Określenie wag czynników
- Losowanie prób
- Wielowymiarowy rozkład normalny
- Wykonanie testów
- Wizualizacja rozkładu zwrotów
- Dalsze kroki
9. Analiza danych genomicznych i projekt BDG
- Rozdzielenie sposobów zapisu i modelowania danych
- Przygotowanie pakietu ADAM
- Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
- Dalsze kroki
10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH
- PyTorch
- Instalacja
- Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
- Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
- Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
- Dalsze kroki
11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow
- Cykl uczenia maszynowego
- Platforma MLflow
- Śledzenie eksperymentów
- Zarządzanie modelami uczenia maszynowego i udostępnianie ich
- Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
- Dalsze kroki
- Titel: Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
- Autor: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
- Originaler Titel: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
- Übersetzung: Andrzej Watrak
- ISBN: 978-83-8322-070-3, 9788383220703
- Veröffentlichungsdatum: 2023-03-07
- Format: E-book
- Artikelkennung: zaanpy
- Verleger: Helion