E-book details

Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III

Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III

Avinash Navlani, Armando Fandango, Ivan Idris

Ebook

Analiza danych sprawia, że dzięki ich dużym i mniejszym kolekcjom uzyskujemy wartościową wiedzę, która pozwala na podejmowanie najlepszych decyzji. Dzieje się to poprzez odkrywanie wzorców lub trendów. Obecnie Python udostępnia przeznaczone specjalnie do tego celu narzędzia i biblioteki. Możemy więc łatwo korzystać z wyrafinowanych technik wydobywania wiedzy z danych. Aby jednak osiągnąć zamierzone efekty, trzeba dobrze poznać zarówno metodologię analizy danych, jak i zasady pracy ze służącymi do tego narzędziami.

Dzięki tej książce zdobędziesz wszystkie potrzebne informacje i umiejętności, aby skutecznie używać Pythona do analizy danych. Omówiono tu niezbędne podstawy statystyki i zasady analizy danych. Wyczerpująco przedstawiono zaawansowane zagadnienia dotyczące przygotowania, przetwarzania i modelowania danych, a także ich wizualizacji. W zrozumiały sposób wyjaśniono takie procesy jak inteligentne przetwarzanie i analizowanie danych za pomocą algorytmów uczenia maszynowego: regresji, klasyfikacji, analizy głównych składowych czy analizy skupień. Nie zabrakło praktycznych przykładów przetwarzania języka naturalnego i analizy obrazów. Ciekawym zagadnieniem jest również wykonywanie obliczeń równoległych za pomocą biblioteki Dask.

W książce między innymi:

  • podstawy analizy danych i korzystanie z bibliotek NumPy i pandas
  • praca z danymi w różnych formatach
  • interaktywna wizualizacja z bibliotekami Matplotlib, seaborn i Bokeh
  • inżynieria cech, analiza szeregów czasowych i przetwarzanie sygnałów
  • zaawansowana analiza danych tekstowych i obrazów

Python: wydobywaj z danych wiedzę o wielkiej wartości!

Współautorzy

Wstęp

Część I. Podstawy analizy danych

  • Rozdział 1. Wprowadzenie do bibliotek Pythona
    • Wyjaśnienie pojęcia "analiza danych"
    • Standardowy proces analizy danych
    • Proces KDD
    • Proces SEMMA
    • Proces CRISP-DM
    • Analiza danych a danetyka
    • Umiejętności analityka danych oraz danetyka
    • Instalacja środowiska Python 3
    • Oprogramowanie używane w tej książce
    • Używanie aplikacji IPython jako powłoki
    • Korzystanie z aplikacji JupyterLab
    • Stosowanie aplikacji Jupyter Notebook
    • Zaawansowane funkcje aplikacji Jupyter Notebook
    • Podsumowanie
  • Rozdział 2. Biblioteki NumPy i pandas
    • Wymogi techniczne
    • Tablice NumPy
    • Numeryczne typy danych tablic NumPy
    • Manipulowanie wymiarami tablic
    • Łączenie tablic NumPy
    • Rozdzielanie tablic NumPy
    • Zmiana typu danych tablic NumPy
    • Tworzenie widoków i kopii NumPy
    • Fragmentowanie tablic NumPy
    • Indeksowanie logiczne i indeksowanie specjalne
    • Rozgłaszanie tablic
    • Tworzenie obiektów DataFrame biblioteki pandas
    • Obiekt Series biblioteki pandas
    • Odczytywanie i kwerendowanie danych Quandl
    • Opisywanie obiektów DataFrame
    • Grupowanie i złączanie obiektów DataFrame
    • Praca z brakującymi danymi
    • Tworzenie tabel przestawnych
    • Rozwiązywanie kwestii dat
    • Podsumowanie
    • Bibliografia
  • Rozdział 3. Statystyka
    • Wymogi techniczne
    • Atrybuty i ich typy
    • Pomiar tendencji centralnej
    • Pomiar dyspersji
    • Skośność i kurtoza
    • Określanie związków za pomocą współczynników kowariancji i korelacji
    • Centralne twierdzenie graniczne
    • Pozyskiwanie prób
    • Przeprowadzanie testów parametrycznych
    • Przeprowadzanie testów nieparametrycznych
    • Podsumowanie
  • Rozdział 4. Algebra liniowa
    • Wymogi techniczne
    • Dopasowywanie do wielomianów za pomocą biblioteki NumPy
    • Wyznacznik macierzy
    • Określanie rzędu macierzy
    • Macierz odwrotna w bibliotece NumPy
    • Rozwiązywanie równań liniowych za pomocą biblioteki NumPy
    • Rozkład macierzy za pomocą SVD
    • Wartości własne i wektory własne w bibliotece NumPy
    • Generowanie liczb losowych
    • Rozkład dwumianowy
    • Rozkład normalny
    • Testowanie normalności rozkładu danych za pomocą biblioteki SciPy
    • Tworzenie tablicy maskowanej za pomocą podpakietu numpy.ma
    • Podsumowanie

Część II. Eksploracyjna analiza danych i oczyszczanie danych

  • Rozdział 5. Wizualizacja danych
    • Wymogi techniczne
    • Wizualizacja za pomocą pakietu Matplotlib
    • Zaawansowana wizualizacja za pomocą pakietu seaborn
    • Wizualizacja interaktywna za pomocą biblioteki Bokeh
    • Podsumowanie
  • Rozdział 6. Pozyskiwanie, przetwarzanie i przechowywanie danych
    • Wymogi techniczne
    • Odczyt i zapis plików CSV za pomocą biblioteki NumPy
    • Odczyt i zapis plików CSV za pomocą biblioteki pandas
    • Odczyt i zapis plików arkusza kalkulacyjnego Excel
    • Odczyt i zapis plików JSON
    • Odczyt i zapis plików HDF5
    • Odczyt i zapis danych z tabel HTML-a
    • Odczyt i zapis plików Parquet
    • Odczyt i zapis danych z obiektu pickle
    • Łatwy dostęp do danych za pomocą modułu sqlite3
    • Odczyt i zapis danych w bazie danych MySQL
    • Odczyt i zapis danych w bazie danych MongoDB
    • Odczyt i zapis danych w bazie danych Cassandra
    • Odczyt i zapis danych w bazie danych Redis
    • PonyORM
    • Podsumowanie
  • Rozdział 7. Oczyszczanie nieuporządkowanych danych
    • Wymogi techniczne
    • Eksploracja danych
    • Filtrowanie danych w celu pozbycia się szumu
    • Rozwiązywanie kwestii brakujących wartości
    • Rozwiązywanie kwestii elementów odstających
    • Techniki kodowania cech
    • Skalowanie cech
    • Przekształcanie cech
    • Rozdzielanie cech
    • Podsumowanie
  • Rozdział 8. Przetwarzanie sygnałów i szeregi czasowe
    • Wymogi techniczne
    • Moduł statsmodels
    • Średnie kroczące
    • Funkcje okna czasowego
    • Kointegracja
    • Rozkład STL
    • Autokorelacja
    • Modele autoregresyjne
    • Model ARMA
    • Generowanie sygnałów okresowych
    • Analiza Fouriera
    • Filtrowanie metodą analizy widmowej
    • Podsumowanie

Część III. Dokładna analiza uczenia maszynowego

  • Rozdział 9. Uczenie nadzorowane: analiza regresyjna
    • Wymogi techniczne
    • Regresja liniowa
    • Wielowspółliniowość
    • Zmienne fikcyjne
    • Projektowanie modelu regresji liniowej
    • Ocenianie skuteczności modelu regresyjnego
    • Dopasowywanie regresji wielomianowej
    • Modele regresji używane w klasyfikacji
    • Regresja logistyczna
    • Implementacja regresji logistycznej za pomocą biblioteki scikit-learn
    • Podsumowanie
  • Rozdział 10. Uczenie nadzorowane: techniki klasyfikacji
    • Wymogi techniczne
    • Klasyfikacja
    • Naiwny klasyfikator Bayesa
    • Drzewa decyzyjne
    • Algorytm KNN
    • Maszyny wektorów nośnych
    • Podział danych na zestawy uczący i testowy
    • Ocena skuteczności modelu klasyfikacji
    • Krzywa ROC i obszar AUC
    • Podsumowanie
  • Rozdział 11. Uczenie nienadzorowane: PCA i analiza skupień
    • Wymogi techniczne
    • Uczenie nienadzorowane
    • Redukowanie wymiarowości danych
    • Analiza głównych składowych
    • Analiza skupień
    • Grupowanie danych za pomocą algorytmu centroidów
    • Hierarchiczna analiza skupień
    • Algorytm DBSCAN
    • Widmowa analiza skupień
    • Ocenianie jakości analizy skupień
    • Podsumowanie

Część IV. Przetwarzanie języka naturalnego, analiza obrazów i obliczenia równoległe

  • Rozdział 12. Analiza danych tekstowych
    • Wymogi techniczne
    • Instalacja bibliotek NLTK i spaCy
    • Normalizacja tekstu
    • Tokenizacja
    • Usuwanie słów nieinformatywnych
    • Rdzeniowanie słów i lematyzacja
    • Oznaczanie części mowy
    • Rozpoznawanie jednostek nazewniczych
    • Analiza zależności
    • Tworzenie chmury słów
    • "Worek słów"
    • Metoda TF-IDF
    • Analiza sentymentów za pomocą klasyfikacji tekstu
    • Podobieństwo tekstów
    • Podsumowanie
  • Rozdział 13. Analiza obrazów
    • Wymogi techniczne
    • Instalacja biblioteki OpenCV
    • Omówienie danych obrazowych
    • Modele barw
    • Rysowanie na obrazach
    • Pisanie na obrazach
    • Zmiana rozmiaru obrazu
    • Przekształcenie izometryczne obrazów
    • Zmiana jasności
    • Rozmywanie obrazu
    • Wykrywanie twarzy
    • Podsumowanie
  • Rozdział 14. Obliczenia równoległe za pomocą biblioteki Dask
    • Obliczenia równoległe za pomocą biblioteki Dask
    • Typy danych Dask
    • Interfejs Dask Delayed
    • Skalowane wstępne przetwarzanie danych
    • Skalowane uczenie maszynowe
    • Podsumowanie
  • Title: Python i praca z danymi. Przetwarzanie, analiza, modelowanie i wizualizacja. Wydanie III
  • Author: Avinash Navlani, Armando Fandango, Ivan Idris
  • Original title: Python Data Analysis: Perform data collection, data processing, wrangling, visualization, and model building using Python, 3rd Edition
  • Translation: Krzysztof Sawka
  • ISBN: 978-83-283-8361-6, 9788328383616
  • Date of issue: 2022-04-26
  • Format: Ebook
  • Item ID: pyprda
  • Publisher: Helion