Categories
Ebooks
-
Business and economy
- Bitcoin
- Businesswoman
- Coaching
- Controlling
- E-business
- Economy
- Finances
- Stocks and investments
- Personal competence
- Computer in the office
- Communication and negotiation
- Small company
- Marketing
- Motivation
- Multimedia trainings
- Real estate
- Persuasion and NLP
- Taxes
- Social policy
- Guides
- Presentations
- Leadership
- Public Relation
- Reports, analyses
- Secret
- Social Media
- Sales
- Start-up
- Your career
- Management
- Project management
- Human Resources
-
For children
-
For youth
-
Education
-
Encyclopedias, dictionaries
-
E-press
- Architektura i wnętrza
- Biznes i Ekonomia
- Home and garden
- E-business
- Finances
- Personal finance
- Business
- Photography
- Computer science
- HR & Payroll
- Computers, Excel
- Accounts
- Culture and literature
- Scientific and academic
- Environmental protection
- Opinion-forming
- Education
- Taxes
- Travelling
- Psychology
- Religion
- Agriculture
- Book and press market
- Transport and Spedition
- Healthand beauty
-
History
-
Computer science
- Office applications
- Data bases
- Bioinformatics
- IT business
- CAD/CAM
- Digital Lifestyle
- DTP
- Electronics
- Digital photography
- Computer graphics
- Games
- Hacking
- Hardware
- IT w ekonomii
- Scientific software package
- School textbooks
- Computer basics
- Programming
- Mobile programming
- Internet servers
- Computer networks
- Start-up
- Operational systems
- Artificial intelligence
- Technology for children
- Webmastering
-
Other
-
Foreign languages
-
Culture and art
-
School reading books
-
Literature
- Antology
- Ballade
- Biographies and autobiographies
- For adults
- Dramas
- Diaries, memoirs, letters
- Epic, epopee
- Essay
- Fantasy and science fiction
- Feuilletons
- Work of fiction
- Humour and satire
- Other
- Classical
- Crime fiction
- Non-fiction
- Fiction
- Mity i legendy
- Nobelists
- Novellas
- Moral
- Okultyzm i magia
- Short stories
- Memoirs
- Travelling
- Narrative poetry
- Poetry
- Politics
- Popular science
- Novel
- Historical novel
- Prose
- Adventure
- Journalism, publicism
- Reportage novels
- Romans i literatura obyczajowa
- Sensational
- Thriller, Horror
- Interviews and memoirs
-
Natural sciences
-
Social sciences
-
School textbooks
-
Popular science and academic
- Archeology
- Bibliotekoznawstwo
- Cinema studies
- Philology
- Polish philology
- Philosophy
- Finanse i bankowość
- Geography
- Economy
- Trade. World economy
- History and archeology
- History of art and architecture
- Cultural studies
- Linguistics
- Literary studies
- Logistics
- Maths
- Medicine
- Humanities
- Pedagogy
- Educational aids
- Popular science
- Other
- Psychology
- Sociology
- Theatre studies
- Theology
- Economic theories and teachings
- Transport i spedycja
- Physical education
- Zarządzanie i marketing
-
Guides
-
Game guides
-
Professional and specialist guides
-
Law
- Health and Safety
- History
- Road Code. Driving license
- Law studies
- Healthcare
- General. Compendium of knowledge
- Academic textbooks
- Other
- Construction and local law
- Civil law
- Financial law
- Economic law
- Economic and trade law
- Criminal law
- Criminal law. Criminal offenses. Criminology
- International law
- International law
- Health care law
- Educational law
- Tax law
- Labor and social security law
- Public, constitutional and administrative law
- Family and Guardianship Code
- agricultural law
- Social law, labour law
- European Union law
- Industry
- Agricultural and environmental
- Dictionaries and encyclopedia
- Public procurement
- Management
-
Tourist guides and travel
- Africa
- Albums
- Southern America
- North and Central America
- Australia, New Zealand, Oceania
- Austria
- Asia
- Balkans
- Middle East
- Bulgary
- China
- Croatia
- The Czech Republic
- Denmark
- Egipt
- Estonia
- Europe
- France
- Mountains
- Greece
- Spain
- Holand
- Iceland
- Lithuania
- Latvia
- Mapy, Plany miast, Atlasy
- Mini travel guides
- Germany
- Norway
- Active travelling
- Poland
- Portugal
- Other
- Russia
- Romania
- Slovakia
- Slovenia
- Switzerland
- Sweden
- World
- Turkey
- Ukraine
- Hungary
- Great Britain
- Italy
-
Psychology
- Philosophy of life
- Kompetencje psychospołeczne
- Interpersonal communication
- Mindfulness
- General
- Persuasion and NLP
- Academic psychology
- Psychology of soul and mind
- Work psychology
- Relacje i związki
- Parenting and children psychology
- Problem solving
- Intellectual growth
- Secret
- Sexapeal
- Seduction
- Appearance and image
- Philosophy of life
-
Religion
-
Sport, fitness, diets
-
Technology and mechanics
Audiobooks
-
Business and economy
- Bitcoin
- Businesswoman
- Coaching
- Controlling
- E-business
- Economy
- Finances
- Stocks and investments
- Personal competence
- Communication and negotiation
- Small company
- Marketing
- Motivation
- Real estate
- Persuasion and NLP
- Taxes
- Guides
- Presentations
- Leadership
- Public Relation
- Secret
- Social Media
- Sales
- Start-up
- Your career
- Management
- Project management
- Human Resources
-
For children
-
For youth
-
Education
-
Encyclopedias, dictionaries
-
History
-
Computer science
-
Other
-
Foreign languages
-
Culture and art
-
School reading books
-
Literature
- Antology
- Ballade
- Biographies and autobiographies
- For adults
- Dramas
- Diaries, memoirs, letters
- Epic, epopee
- Essay
- Fantasy and science fiction
- Feuilletons
- Work of fiction
- Humour and satire
- Other
- Classical
- Crime fiction
- Non-fiction
- Fiction
- Mity i legendy
- Nobelists
- Novellas
- Moral
- Okultyzm i magia
- Short stories
- Memoirs
- Travelling
- Poetry
- Politics
- Popular science
- Novel
- Historical novel
- Prose
- Adventure
- Journalism, publicism
- Reportage novels
- Romans i literatura obyczajowa
- Sensational
- Thriller, Horror
- Interviews and memoirs
-
Natural sciences
-
Social sciences
-
Popular science and academic
-
Guides
-
Professional and specialist guides
-
Law
-
Tourist guides and travel
-
Psychology
- Philosophy of life
- Interpersonal communication
- Mindfulness
- General
- Persuasion and NLP
- Academic psychology
- Psychology of soul and mind
- Work psychology
- Relacje i związki
- Parenting and children psychology
- Problem solving
- Intellectual growth
- Secret
- Sexapeal
- Seduction
- Appearance and image
- Philosophy of life
-
Religion
-
Sport, fitness, diets
-
Technology and mechanics
Videocourses
-
Data bases
-
Big Data
-
Biznes, ekonomia i marketing
-
Cybersecurity
-
Data Science
-
DevOps
-
For children
-
Electronics
-
Graphics/Video/CAX
-
Games
-
Microsoft Office
-
Development tools
-
Programming
-
Personal growth
-
Computer networks
-
Operational systems
-
Software testing
-
Mobile devices
-
UX/UI
-
Web development
-
Management
Podcasts
- Ebooks
- Programming
- Python
- Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
E-book details
Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych.
Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy.
Dzięki książce poznasz:
- model programowania w ekosystemie Spark
- podstawowe metody stosowane w nauce o danych
- pełne implementacje analiz dużych publicznych zbiorów danych
- konkretne przypadki użycia narzędzi uczenia maszynowego
- kod, który łatwo dostosujesz do swoich potrzeb
PySpark: systemowa odpowiedź na problemy inżyniera danych!
Słowo wstępne
1. Analiza wielkich zbiorów danych
- Praca z wielkimi zbiorami danych
- Przedstawiamy Apache Spark i PySpark
- Komponenty
- PySpark
- Ekosystem
- Spark 3.0
- PySpark i wyzwania w nauce o danych
- O czym jest ta książka
2. Wprowadzenie do analizy danych za pomocą PySpark
- Architektura systemu Spark
- Instalacja interfejsu PySpark
- Przygotowanie danych
- Analiza danych za pomocą struktury DataFrame
- Szybkie statystyki zbiorcze w strukturze DataFrame
- Przestawienie i przekształcenie struktury DataFrame
- Złączenie struktur DataFrame i wybór cech
- Ocena modelu
- Dalsze kroki
3. Rekomendowanie muzyki i dane Audioscrobbler
- Zbiór danych
- Wymagania dla systemu rekomendacyjnego
- Algorytm naprzemiennych najmniejszych kwadratów
- Przygotowanie danych
- Utworzenie pierwszego modelu
- Wyrywkowe sprawdzanie rekomendacji
- Ocena jakości rekomendacji
- Obliczenie wskaźnika AUC
- Dobór wartości hiperparametrów
- Przygotowanie rekomendacji
- Dalsze kroki
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Drzewa i lasy decyzyjne
- Przygotowanie danych
- Pierwsze drzewo decyzyjne
- Hiperparametry drzewa decyzyjnego
- Regulacja drzewa decyzyjnego
- Weryfikacja cech kategorialnych
- Losowy las decyzyjny
- Prognozowanie
- Dalsze kroki
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania edług k-średnich
- Grupowanie według k-średnich
- Wykrywanie anomalii w ruchu sieciowym
- Dane KDD Cup 1999
- Pierwsza próba grupowania
- Dobór wartości k
- Wizualizacja w środowisku R
- Normalizacja cech
- Zmienne kategorialne
- Wykorzystanie etykiet i wskaźnika entropii
- Grupowanie w akcji
- Dalsze kroki
6. Wikipedia, algorytmy LDA i Spark NLP
- Algorytm LDA
- Algorytm LDA w interfejsie PySpark
- Pobranie danych
- Spark NLP
- Przygotowanie środowiska
- Przekształcenie danych
- Przygotowanie danych za pomocą biblioteki Spark NLP
- Metoda TF-IDF
- Wyliczenie wskaźników TF-IDF
- Utworzenie modelu LDA
- Dalsze kroki
7. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Przygotowanie danych
- Konwersja ciągów znaków na znaczniki czasu
- Obsługa błędnych rekordów danych
- Analiza danych geoprzestrzennych
- Wprowadzenie do formatu GeoJSON
- Biblioteka GeoPandas
- Sesjonowanie w interfejsie PySpark
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark
- Dalsze kroki
8. Szacowanie ryzyka finansowego
- Terminologia
- Metody obliczania wskaźnika VaR
- Wariancja-kowariancja
- Symulacja historyczna
- Symulacja Monte Carlo
- Nasz model
- Pobranie danych
- Przygotowanie danych
- Określenie wag czynników
- Losowanie prób
- Wielowymiarowy rozkład normalny
- Wykonanie testów
- Wizualizacja rozkładu zwrotów
- Dalsze kroki
9. Analiza danych genomicznych i projekt BDG
- Rozdzielenie sposobów zapisu i modelowania danych
- Przygotowanie pakietu ADAM
- Przetwarzanie danych genomicznych za pomocą pakietu ADAM
- Konwersja formatów plików za pomocą poleceń pakietu ADAM
- Pozyskanie danych genomicznych przy użyciu interfejsu PySpark i pakietu ADAM
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE
- Dalsze kroki
10. Określanie podobieństwa obrazów za pomocą głębokiego uczenia i algorytmu PySpark LSH
- PyTorch
- Instalacja
- Przygotowanie danych
- Skalowanie obrazów za pomocą PyTorch
- Wektoryzacja obrazów za pomocą modelu głębokiego uczenia
- Osadzenie obrazów
- Import osadzeń obrazów do pakietu PySpark
- Określanie podobieństwa obrazów za pomocą algorytmu PySpark LSH
- Wyszukiwanie najbliższych sąsiadów
- Dalsze kroki
11. Zarządzanie cyklem uczenia maszynowego za pomocą platformy MLflow
- Cykl uczenia maszynowego
- Platforma MLflow
- Śledzenie eksperymentów
- Zarządzanie modelami uczenia maszynowego i udostępnianie ich
- Tworzenie i stosowanie projektów za pomocą modułu MLflow Projects
- Dalsze kroki
- Title: Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark
- Author: Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
- Original title: Advanced Analytics with PySpark: Patterns for Learning from Data at Scale Using Python and Spark
- Translation: Andrzej Watrak
- ISBN: 978-83-8322-070-3, 9788383220703
- Date of issue: 2023-03-07
- Format: Ebook
- Item ID: zaanpy
- Publisher: Helion