Categories
Ebooks
-
Business and economy
- Bitcoin
- Businesswoman
- Coaching
- Controlling
- E-business
- Economy
- Finances
- Stocks and investments
- Personal competence
- Computer in the office
- Communication and negotiation
- Small company
- Marketing
- Motivation
- Multimedia trainings
- Real estate
- Persuasion and NLP
- Taxes
- Social policy
- Guides
- Presentations
- Leadership
- Public Relation
- Reports, analyses
- Secret
- Social Media
- Sales
- Start-up
- Your career
- Management
- Project management
- Human Resources
-
For children
-
For youth
-
Education
-
Encyclopedias, dictionaries
-
E-press
- Architektura i wnętrza
- Biznes i Ekonomia
- Home and garden
- E-business
- Finances
- Personal finance
- Business
- Photography
- Computer science
- HR & Payroll
- Computers, Excel
- Accounts
- Culture and literature
- Scientific and academic
- Environmental protection
- Opinion-forming
- Education
- Taxes
- Travelling
- Psychology
- Religion
- Agriculture
- Book and press market
- Transport and Spedition
- Healthand beauty
-
History
-
Computer science
- Office applications
- Data bases
- Bioinformatics
- IT business
- CAD/CAM
- Digital Lifestyle
- DTP
- Electronics
- Digital photography
- Computer graphics
- Games
- Hacking
- Hardware
- IT w ekonomii
- Scientific software package
- School textbooks
- Computer basics
- Programming
- Mobile programming
- Internet servers
- Computer networks
- Start-up
- Operational systems
- Artificial intelligence
- Technology for children
- Webmastering
-
Other
-
Foreign languages
-
Culture and art
-
School reading books
-
Literature
- Antology
- Ballade
- Biographies and autobiographies
- For adults
- Dramas
- Diaries, memoirs, letters
- Epic, epopee
- Essay
- Fantasy and science fiction
- Feuilletons
- Work of fiction
- Humour and satire
- Other
- Classical
- Crime fiction
- Non-fiction
- Fiction
- Mity i legendy
- Nobelists
- Novellas
- Moral
- Okultyzm i magia
- Short stories
- Memoirs
- Travelling
- Narrative poetry
- Poetry
- Politics
- Popular science
- Novel
- Historical novel
- Prose
- Adventure
- Journalism, publicism
- Reportage novels
- Romans i literatura obyczajowa
- Sensational
- Thriller, Horror
- Interviews and memoirs
-
Natural sciences
-
Social sciences
-
School textbooks
-
Popular science and academic
- Archeology
- Bibliotekoznawstwo
- Cinema studies
- Philology
- Polish philology
- Philosophy
- Finanse i bankowość
- Geography
- Economy
- Trade. World economy
- History and archeology
- History of art and architecture
- Cultural studies
- Linguistics
- Literary studies
- Logistics
- Maths
- Medicine
- Humanities
- Pedagogy
- Educational aids
- Popular science
- Other
- Psychology
- Sociology
- Theatre studies
- Theology
- Economic theories and teachings
- Transport i spedycja
- Physical education
- Zarządzanie i marketing
-
Guides
-
Game guides
-
Professional and specialist guides
-
Law
- Health and Safety
- History
- Road Code. Driving license
- Law studies
- Healthcare
- General. Compendium of knowledge
- Academic textbooks
- Other
- Construction and local law
- Civil law
- Financial law
- Economic law
- Economic and trade law
- Criminal law
- Criminal law. Criminal offenses. Criminology
- International law
- International law
- Health care law
- Educational law
- Tax law
- Labor and social security law
- Public, constitutional and administrative law
- Family and Guardianship Code
- agricultural law
- Social law, labour law
- European Union law
- Industry
- Agricultural and environmental
- Dictionaries and encyclopedia
- Public procurement
- Management
-
Tourist guides and travel
- Africa
- Albums
- Southern America
- North and Central America
- Australia, New Zealand, Oceania
- Austria
- Asia
- Balkans
- Middle East
- Bulgary
- China
- Croatia
- The Czech Republic
- Denmark
- Egipt
- Estonia
- Europe
- France
- Mountains
- Greece
- Spain
- Holand
- Iceland
- Lithuania
- Latvia
- Mapy, Plany miast, Atlasy
- Mini travel guides
- Germany
- Norway
- Active travelling
- Poland
- Portugal
- Other
- Russia
- Romania
- Slovakia
- Slovenia
- Switzerland
- Sweden
- World
- Turkey
- Ukraine
- Hungary
- Great Britain
- Italy
-
Psychology
- Philosophy of life
- Kompetencje psychospołeczne
- Interpersonal communication
- Mindfulness
- General
- Persuasion and NLP
- Academic psychology
- Psychology of soul and mind
- Work psychology
- Relacje i związki
- Parenting and children psychology
- Problem solving
- Intellectual growth
- Secret
- Sexapeal
- Seduction
- Appearance and image
- Philosophy of life
-
Religion
-
Sport, fitness, diets
-
Technology and mechanics
Audiobooks
-
Business and economy
- Bitcoin
- Businesswoman
- Coaching
- Controlling
- E-business
- Economy
- Finances
- Stocks and investments
- Personal competence
- Communication and negotiation
- Small company
- Marketing
- Motivation
- Real estate
- Persuasion and NLP
- Taxes
- Guides
- Presentations
- Leadership
- Public Relation
- Secret
- Social Media
- Sales
- Start-up
- Your career
- Management
- Project management
- Human Resources
-
For children
-
For youth
-
Education
-
Encyclopedias, dictionaries
-
History
-
Computer science
-
Other
-
Foreign languages
-
Culture and art
-
School reading books
-
Literature
- Antology
- Ballade
- Biographies and autobiographies
- For adults
- Dramas
- Diaries, memoirs, letters
- Epic, epopee
- Essay
- Fantasy and science fiction
- Feuilletons
- Work of fiction
- Humour and satire
- Other
- Classical
- Crime fiction
- Non-fiction
- Fiction
- Mity i legendy
- Nobelists
- Novellas
- Moral
- Okultyzm i magia
- Short stories
- Memoirs
- Travelling
- Poetry
- Politics
- Popular science
- Novel
- Historical novel
- Prose
- Adventure
- Journalism, publicism
- Reportage novels
- Romans i literatura obyczajowa
- Sensational
- Thriller, Horror
- Interviews and memoirs
-
Natural sciences
-
Social sciences
-
Popular science and academic
-
Guides
-
Professional and specialist guides
-
Law
-
Tourist guides and travel
-
Psychology
- Philosophy of life
- Interpersonal communication
- Mindfulness
- General
- Persuasion and NLP
- Academic psychology
- Psychology of soul and mind
- Work psychology
- Relacje i związki
- Parenting and children psychology
- Problem solving
- Intellectual growth
- Secret
- Sexapeal
- Seduction
- Appearance and image
- Philosophy of life
-
Religion
-
Sport, fitness, diets
-
Technology and mechanics
Videocourses
-
Data bases
-
Big Data
-
Biznes, ekonomia i marketing
-
Cybersecurity
-
Data Science
-
DevOps
-
For children
-
Electronics
-
Graphics/Video/CAX
-
Games
-
Microsoft Office
-
Development tools
-
Programming
-
Personal growth
-
Computer networks
-
Operational systems
-
Software testing
-
Mobile devices
-
UX/UI
-
Web development
-
Management
Podcasts
- Ebooks
- IT business
- Big data
- Spark. Zaawansowana analiza danych
E-book details
Analiza ogromnych zbiorów danych nie musi być wolna!
Apache Spark to darmowy, zaawansowany szkielet i silnik pozwalający na szybkie przetwarzanie oraz analizę ogromnych zbiorów danych. Prace nad tym projektem rozpoczęły się w 2009 roku, a już rok później Spark został udostępniony użytkownikom. Jeżeli potrzebujesz najwyższej wydajności w przetwarzaniu informacji, jeżeli chcesz uzyskiwać odpowiedź na trudne pytania niemalże w czasie rzeczywistym, Spark może być odpowiedzią na Twoje oczekiwania.
Sięgnij po tę książkę i przekonaj się, czy tak jest w rzeczywistości. Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami — wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark. Nauczysz się też przeprowadzać analizę semantyczną i zobaczysz, jak w praktyce przeprowadzić analizę sieci współwystępowań za pomocą biblioteki GraphX. Na koniec dowiesz się, jak przetwarzać dane geoprzestrzenne i genomiczne, a także oszacujesz ryzyko metodą symulacji Monte Carlo. Książka ta pozwoli Ci na wykorzystanie potencjału Apache Spark i zaprzęgnięcie go do najtrudniejszych zadań!
Przykłady prezetnowane w książce obejmują:
- Rekomendowanie muzyki i dane Audioscrobbler
- Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich
- Wikipedia i ukryta analiza semantyczna
- Analiza sieci współwystępowań za pomocą biblioteki GraphX
- Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Szacowanie ryzyka finansowego metodą symulacji Monte Carlo
- Analiza danych genomicznych i projekt BDG
- Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder
Poznaj potencjał i wydajność Apache Spark!
Przedmowa (9)
Słowo wstępne (11)
1. Analiza wielkich zbiorów danych (13)
- Wyzwania w nauce o danych (15)
- Przedstawiamy Apache Spark (16)
- O czym jest ta książka (18)
2. Wprowadzenie do analizy danych za pomocą Scala i Spark (21)
- Scala dla badaczy danych (22)
- Model programowania w Spark (23)
- Wiązanie rekordów danych (23)
- Pierwsze kroki - powłoka Spark i kontekst SparkContext (24)
- Przesyłanie danych z klastra do klienta (29)
- Wysyłanie kodu z klienta do klastra (32)
- Tworzenie list danych i klas wyboru (33)
- Agregowanie danych (36)
- Tworzenie histogramów (38)
- Statystyki sumaryzacyjne ciągłych wartości (39)
- Tworzenie współdzielonego kodu wyliczającego statystyki sumaryczne (40)
- Prosty wybór zmiennych i ocena zgodności rekordów (44)
- Następny krok (45)
3. Rekomendowanie muzyki i dane Audioscrobbler (47)
- Zbiór danych (48)
- Algorytm rekomendacyjny wykorzystujący metodę naprzemiennych najmniejszych kwadratów (49)
- Przygotowanie danych (51)
- Utworzenie pierwszego modelu (54)
- Wyrywkowe sprawdzanie rekomendacji (56)
- Ocena jakości rekomendacji (57)
- Obliczenie metryki AUC (59)
- Dobór wartości hiperparametrów (60)
- Przygotowanie rekomendacji (62)
- Dalsze kroki (63)
4. Prognozowanie zalesienia za pomocą drzewa decyzyjnego (65)
- Szybkie przejście do regresji (65)
- Wektory i cechy (66)
- Przykłady treningowe (67)
- Drzewa i lasy decyzyjne (68)
- Dane Covtype (70)
- Przygotowanie danych (71)
- Pierwsze drzewo decyzyjne (72)
- Hiperparametry drzewa decyzyjnego (76)
- Regulacja drzewa decyzyjnego (77)
- Weryfikacja cech kategorialnych (79)
- Losowy las decyzyjny (81)
- Prognozowanie (83)
- Dalsze kroki (83)
5. Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich (85)
- Wykrywanie anomalii (86)
- Grupowanie według k-średnich (86)
- Włamania sieciowe (87)
- Dane KDD Cup 1999 (87)
- Pierwsza próba grupowania (88)
- Dobór wartości k (90)
- Wizualizacja w środowisku R (93)
- Normalizacja cech (94)
- Zmienne kategorialne (96)
- Wykorzystanie etykiet i wskaźnika entropii (97)
- Grupowanie w akcji (98)
- Dalsze kroki (100)
6. Wikipedia i ukryta analiza semantyczna (101)
- Macierz słowo - dokument (102)
- Pobranie danych (104)
- Analiza składni i przygotowanie danych (104)
- Lematyzacja (105)
- Wyliczenie metryk TF-IDF (106)
- Rozkład według wartości osobliwych (108)
- Wyszukiwanie ważnych pojęć (110)
- Wyszukiwanie i ocenianie informacji za pomocą niskowymiarowej reprezentacji danych (113)
- Związek dwóch słów (114)
- Związek dwóch dokumentów (115)
- Związek słowa i dokumentu (116)
- Wyszukiwanie wielu słów (117)
- Dalsze kroki (118)
7. Analiza sieci współwystępowań za pomocą biblioteki GraphX (121)
- Katalog cytowań bazy MEDLINE - analiza sieci (122)
- Pobranie danych (123)
- Analiza dokumentów XML za pomocą biblioteki Scala (125)
- Analiza głównych znaczników i ich współwystępowań (126)
- Konstruowanie sieci współwystępowań za pomocą biblioteki GraphX (128)
- Struktura sieci (131)
- Połączone komponenty (131)
- Rozkład stopni wierzchołków (133)
- Filtrowanie krawędzi zakłócających dane (135)
- Przetwarzanie struktury EdgeTriplet (136)
- Analiza przefiltrowanego grafu (138)
- Sieci typu "mały świat" (139)
- Kliki i współczynniki klastrowania (139)
- Obliczenie średniej długości ścieżki za pomocą systemu Pregel (141)
- Dalsze kroki (145)
8. Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek (147)
- Pobranie danych (148)
- Przetwarzanie danych temporalnych i geoprzestrzennych w systemie Spark (148)
- Przetwarzanie danych temporalnych za pomocą bibliotek JodaTime i NScalaTime (149)
- Przetwarzanie danych geoprzestrzennych za pomocą Esri Geometry API i Spray (150)
- Użycie interfejsu API Esri Geometry (151)
- Wprowadzenie do formatu GeoJSON (152)
- Przygotowanie danych dotyczących kursów taksówek (154)
- Obsługa dużej liczby błędnych rekordów danych (155)
- Analiza danych geoprzestrzennych (158)
- Sesjonowanie w systemie Spark (161)
- Budowanie sesji - dodatkowe sortowanie danych w systemie Spark (162)
- Dalsze kroki (165)
9. Szacowanie ryzyka finansowego metodą symulacji Monte Carlo (167)
- Terminologia (168)
- Metody obliczania wskaźnika VaR (169)
- Wariancja-kowariancja (169)
- Symulacja historyczna (169)
- Symulacja Monte Carlo (169)
- Nasz model (170)
- Pobranie danych (171)
- Wstępne przetworzenie danych (171)
- Określenie wag czynników (174)
- Losowanie prób (176)
- Wielowymiarowy rozkład normalny (178)
- Wykonanie testów (179)
- Wizualizacja rozkładu zwrotów (181)
- Ocena wyników (182)
- Dalsze kroki (184)
10. Analiza danych genomicznych i projekt BDG (187)
- Rozdzielenie sposobów zapisu i modelowania danych (188)
- Przetwarzanie danych genomicznych za pomocą wiersza poleceń systemu ADAM (190)
- Format Parquet i format kolumnowy (195)
- Prognozowanie miejsc wiązania czynnika transkrypcyjnego na podstawie danych ENCODE (197)
- Odczytywanie informacji o genotypach z danych 1000 Genomes (203)
- Dalsze kroki (204)
11. Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder (205)
- Ogólne informacje o pakiecie PySpark (206)
- Budowa pakietu PySpark (207)
- Ogólne informacje i instalacja biblioteki pakietu Thunder (209)
- Ładowanie danych za pomocą pakietu Thunder (210)
- Podstawowe typy danych w pakiecie Thunder (214)
- Klasyfikowanie neuronów za pomocą pakietu Thunder (216)
- Dalsze kroki (221)
A. Więcej o systemie Spark (223)
- Serializacja (224)
- Akumulatory (225)
- System Spark i metody pracy badacza danych (226)
- Formaty plików (228)
- Podprojekty Spark (229)
- MLlib (229)
- Spark Streaming (230)
- Spark SQL (230)
- GraphX (230)
B. Nowy interfejs MLlib Pipelines API (231)
- Samo modelowanie to za mało (231)
- Interfejs API Pipelines (232)
- Przykład procesu klasyfikacji tekstu (233)
Skorowidz (237)
- Title: Spark. Zaawansowana analiza danych
- Author: Sandy Ryza, Uri Laserson, Sean Owen, Josh Wills
- Original title: Advanced Analytics with Spark
- Translation: Andrzej Watrak
- ISBN: 978-83-283-1464-1, 9788328314641
- Date of issue: 2015-11-24
- Format: Ebook
- Item ID: sparkz
- Publisher: Helion