E-book details

Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka

Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka

Thomas Nield

Ebook

Rosnąca dostępność danych sprawiła, że data science i uczenie maszynowe są powszechnie używane do przeróżnych celów. Równocześnie wiele osób pomija analizy matematyczne przed rozpoczęciem przetwarzania danych. A to wiąże się z ryzykiem popełnienia istotnych błędów już na etapie projektowania danego systemu. Dopiero dogłębne zrozumienie niektórych koncepcji matematycznych i umiejętność ich praktycznego zastosowania sprawia, że kandydat na analityka danych ma szansę osiągnąć poziom profesjonalisty.

To książka przeznaczona dla osób, które chcą dobrze zrozumieć matematyczne podstawy nauki o danych i nauczyć się stosowania niektórych koncepcji w praktyce. Wyjaśniono tu takie zagadnienia jak rachunek różniczkowy i całkowy, rachunek prawdopodobieństwa, algebra liniowa i statystyka, pokazano także, w jaki sposób posługiwać się nimi w regresji liniowej, regresji logistycznej i w tworzeniu sieci neuronowych. Poszczególne tematy zostały omówione zrozumiale, przystępnie, bez naukowego żargonu, za to z licznymi praktycznymi przykładami, co dodatkowo ułatwia przyswojenie koncepcji i prawideł matematyki. Opanowanie zawartej tu wiedzy pozwala uniknąć wielu kosztownych błędów projektowych i trafniej wybierać optymalne rozwiązania!

Dzięki książce nauczysz się:

  • używać kodu Pythona i jego bibliotek do eksplorowania koncepcji matematycznych
  • posługiwać się regresją liniową i regresją logistyczną
  • opisywać dane metodami statystycznymi i testować hipotezy
  • manipulować wektorami i macierzami
  • łączyć wiedzę matematyczną z użyciem modeli regresji
  • unikać typowych błędów w stosowaniu matematyki w data science

Zrozum matematykę i efektywnie używaj danych!

Przedmowa

1. Podstawy matematyki oraz rachunku różniczkowego i całkowego

  • Teoria liczb
  • Kolejność działań
  • Zmienne
  • Funkcje
  • Sumowanie
  • Potęgowanie
  • Logarytmy
  • Liczba Eulera i logarytmy naturalne
    • Liczba Eulera
    • Logarytmy naturalne
  • Granice
  • Pochodne
    • Pochodne cząstkowe
    • Reguła łańcuchowa
  • Całki
  • Podsumowanie
  • Ćwiczenia

2. Prawdopodobieństwo

  • Zrozumieć prawdopodobieństwo
    • Prawdopodobieństwo a statystyka
  • Matematyka prawdopodobieństw
    • Prawdopodobieństwa łączne
    • Prawdopodobieństwa alternatywne
    • Prawdopodobieństwo warunkowe i twierdzenie Bayesa
    • Łączne i alternatywne prawdopodobieństwa warunkowe
  • Rozkład dwumianowy
  • Rozkład beta
  • Podsumowanie
  • Ćwiczenia

3. Statystyka opisowa i wnioskowanie statystyczne

  • Czym są dane?
  • Statystyka opisowa a wnioskowanie statystyczne
  • Populacje, próby i obciążenie
  • Statystyka opisowa
    • Średnia i średnia ważona
    • Mediana
    • Dominanta
    • Wariancja i odchylenie standardowe
    • Rozkład normalny
    • Dystrybuanta odwrotna
    • Standaryzacja Z
  • Wnioskowanie statystyczne
    • Centralne twierdzenie graniczne
    • Przedziały ufności
    • Wartości p
    • Testowanie hipotez
  • Rozkład t: analizowanie małych prób
  • Big data i błąd teksańskiego snajpera
  • Podsumowanie
  • Ćwiczenia

4. Algebra liniowa

  • Co to jest wektor?
    • Dodawanie i łączenie wektorów
    • Skalowanie wektorów
    • Powłoka i zależność liniowa
  • Przekształcenia liniowe
    • Wektory bazowe
    • Mnożenie macierzy przez wektor
  • Mnożenie macierzy
  • Wyznaczniki
  • Specjalne rodzaje macierzy
    • Macierz kwadratowa
    • Macierz jednostkowa
    • Macierz odwrotna
    • Macierz diagonalna
    • Macierz trójkątna
    • Macierz rzadka
  • Układy równań i macierze odwrotne
  • Wektory i wartości własne
  • Podsumowanie
  • Ćwiczenia

5. Regresja liniowa

  • Podstawowa regresja liniowa
  • Reszty i kwadraty błędu
  • Znajdowanie najlepiej dopasowanej linii
    • Równanie w formie zamkniętej
    • Techniki wykorzystujące macierze odwrotne
    • Metoda gradientu prostego
  • Nadmierne dopasowanie i wariancja
  • Metoda stochastycznego gradientu prostego
  • Współczynnik korelacji
  • Istotność statystyczna
  • Współczynnik determinacji
  • Błąd standardowy estymacji
  • Przedziały przewidywania
  • Podział danych na treningowe i testowe
  • Wielokrotna regresja liniowa
  • Podsumowanie
  • Ćwiczenia

6. Regresja logistyczna i klasyfikacja

  • Na czym polega regresja logistyczna?
  • Przeprowadzanie regresji logistycznej
    • Funkcja logistyczna
    • Dopasowywanie krzywej logistycznej
  • Regresja logistyczna z wieloma zmiennymi
  • Logarytm szansy
  • R-kwadrat
  • Wartości p
  • Podziały na dane treningowe i testowe
  • Macierz błędów
  • Twierdzenie Bayesa a klasyfikacja
  • Krzywa ROC/pole pod krzywą
  • Nierównowaga klas
  • Podsumowanie
  • Ćwiczenia

7. Sieci neuronowe

  • Kiedy używać sieci neuronowych i uczenia głębokiego?
  • Prosta sieć neuronowa
    • Funkcje aktywacji
    • Propagacja w przód
  • Propagacja wsteczna
    • Obliczanie pochodnych względem wag i biasów
    • Metoda gradientu stochastycznego
  • Używanie scikit-learn
  • Ograniczenia sieci neuronowych i uczenia maszynowego
  • Podsumowanie
  • Ćwiczenie

8. Porady zawodowe i droga naprzód

  • Nowa definicja data science
  • Krótka historia data science
  • Szukanie przewagi
    • Biegłość w SQL-u
    • Biegłość w programowaniu
    • Wizualizacja danych
    • Znajomość branży
    • Produktywna nauka
    • Praktyk czy doradca?
  • Na co trzeba uważać w pracy związanej z data science?
    • Definicja roli
    • Skupienie organizacyjne i akceptacja
    • Adekwatne zasoby
    • Rozsądne cele
    • Konkurowanie z istniejącymi systemami
    • Twoja rola nie jest tym, czego się spodziewałeś
  • Czy Twoja praca marzeń nie istnieje?
  • Co dalej?
  • Podsumowanie

A. Tematy dodatkowe

B. Odpowiedzi do ćwiczeń

Skorowidz

  • Title: Podstawy matematyki w data science. Algebra liniowa, rachunek prawdopodobieństwa i statystyka
  • Author: Thomas Nield
  • Original title: Essential Math for Data Science: Take Control of Your Data with Fundamental Linear Algebra, Probability, and Statistics
  • Translation: Grzegorz Werner
  • ISBN: 978-83-8322-014-7, 9788383220147
  • Date of issue: 2023-02-14
  • Format: Ebook
  • Item ID: pomads
  • Publisher: Helion