Details zum E-Book

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II

Peter Bruce, Andrew Bruce, Peter Gedeck

E-book

Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.

To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.

W książce między innymi:

  • analiza eksploracyjna we wstępnym badaniu danych
  • próby losowe a jakość dużych zbiorów danych
  • podstawy planowania eksperymentów
  • regresja w szacowaniu wyników i wykrywaniu anomalii
  • statystyczne uczenie maszynowe
  • uczenie nienadzorowane a znaczenie danych niesklasyfikowanych

Statystyka: klasyczne narzędzia w najnowszych technologiach!

  • Przedmowa
    • Konwencja zastosowana w tej książce
    • Wykorzystanie przykładów kodu
    • Podziękowania
  • Rozdział 1. Badania eksploracyjne
    • Elementy danych uporządkowanych
      • Dla pogłębienia wiedzy
    • Dane stabelaryzowane
      • Ramki danych i indeksy
      • Niestabelaryzowane struktury danych
      • Dla pogłębienia wiedzy
    • Miary położenia
      • Średnia
      • Mediana i estymatory odporne
        • Wartości odstające
      • Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
      • Dla pogłębienia wiedzy
    • Miary rozproszenia
      • Odchylenie standardowe i powiązane estymatory
      • Estymatory oparte na percentylach
      • Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
      • Dla pogłębienia wiedzy
    • Badanie rozkładu danych
      • Percentyle i boxploty
      • Tablica częstości i histogramy
      • Szacowanie i wykresy gęstości rozkładu
      • Dla pogłębienia wiedzy
    • Badanie danych binarnych i skategoryzowanych
      • Moda
      • Wartość oczekiwana
      • Prawdopodobieństwo
      • Dla pogłębienia wiedzy
    • Korelacja
      • Wykres punktowy
      • Dla pogłębienia wiedzy
    • Badanie dwóch lub więcej zmiennych
      • Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
      • Dwie zmienne skategoryzowane
      • Dane kategoryzowane i numeryczne
      • Wizualizacja wielu zmiennych
      • Dla pogłębienia wiedzy
    • Podsumowanie
  • Rozdział 2. Rozkłady danych i prób
    • Losowy dobór i obciążenie próby
      • Obciążenie
      • Dobór losowy
      • Rozmiar a jakość: kiedy rozmiar ma znaczenie?
      • Średnia z próby a średnia z populacji
      • Dla pogłębienia wiedzy
    • Błąd doboru
      • Regresja do średniej
      • Dla pogłębienia wiedzy
    • Rozkład próbkowania dla statystyki
      • Centralne twierdzenie graniczne
      • Błąd standardowy
      • Dla pogłębienia wiedzy
    • Próby bootstrapowe
      • Ponowne próbkowanie a próby bootstrapowe
      • Dla pogłębienia wiedzy
    • Przedziały ufności
      • Dla pogłębienia wiedzy
    • Rozkład normalny
      • Standaryzowany rozkład normalny i wykres K-K
    • Rozkłady z długimi ogonami
      • Dla pogłębienia wiedzy
    • Rozkład t-Studenta
      • Dla pogłębienia wiedzy
    • Rozkład binarny
      • Dla pogłębienia wiedzy
    • Rozkład chi-kwadrat
      • Dla pogłębienia wiedzy
    • Rozkład F
      • Dla pogłębienia wiedzy
    • Rozkład Poissona i jego pochodne
      • Rozkład Poissona
      • Rozkład wykładniczy
      • Szacowanie współczynnika porażki
      • Rozkład Weibulla
      • Dla pogłębienia wiedzy
    • Podsumowanie
  • Rozdział 3. Eksperymenty statystyczne i testowanie istotności
    • Test A/B
      • Po co Ci grupa kontrolna?
      • Dlaczego tylko A/B? Dlaczego nie C, D itd.?
      • Dla pogłębienia wiedzy
    • Testowanie hipotezy
      • Hipoteza zerowa
      • Hipoteza alternatywna
      • Test jednostronny i test dwustronny
      • Dla pogłębienia wiedzy
    • Testy randomizacyjne
      • Test permutacyjny
      • Przykład: licznik odwiedzin strony
      • Zupełny test permutacyjny i bootstrap
      • Test permutacyjny: podstawa w data science
      • Dla pogłębienia wiedzy
    • Istotność statystyczna i p-wartość
      • p-wartość
      • Alfa
        • Kontrowersje związane z p-wartością
        • Istotność praktyczna
      • Błędy pierwszego i drugiego rodzaju
      • Data science i p-wartość
      • Dla pogłębienia wiedzy
    • Test t
      • Dla pogłębienia wiedzy
    • Testowanie wielokrotne
      • Dla pogłębienia wiedzy
    • Stopnie swobody
      • Dla pogłębienia wiedzy
    • ANOVA
      • Statystyka F
      • Dwustronna ANOVA
      • Dla pogłębienia wiedzy
    • Test chi-kwadrat
      • Test chi-kwadrat: podejście randomizacyjne
      • Test chi-kwadrat: teoria
      • Dokładny test Fishera
      • Znaczenie testu chi-kwadrat w data science
      • Dla pogłębienia wiedzy
    • Algorytm Wielorękiego Bandyty
      • Dla pogłębienia wiedzy
    • Moc i rozmiar próby
      • Rozmiar próby
      • Dla pogłębienia wiedzy
    • Podsumowanie
  • Rozdział 4. Regresja i predykcja
    • Prosta regresja liniowa
      • Równanie regresji
      • Dopasowanie wartości i rezydua
      • Metoda najmniejszych kwadratów
      • Predykcja a objaśnienie (profilowanie)
      • Dla pogłębienia wiedzy
    • Regresja wieloraka
      • Przykład: wartość domów w King County
      • Ocena modelu
      • Kroswalidacja
      • Dobór modelu i regresja krokowa
      • Regresja ważona
      • Dla pogłębienia wiedzy
    • Predykcja z wykorzystaniem regresji
      • Niebezpieczeństwa związane z ekstrapolacją
      • Przedziały ufności i predykcji
    • Zmienne skategoryzowane w regresji
      • Zmienne fikcyjne
      • Zmienne skategoryzowane na wielu poziomach
      • Uporządkowane zmienne skategoryzowane
    • Interpretacja równania regresji
      • Predyktory skorelowane
      • Współliniowość
      • Zmienne zakłócające
      • Interakcje i efekty główne
    • Diagnostyka regresji
      • Wartości odstające
      • Obserwacje wpływowe
      • Heteroskedastyczność, anormalność i błędy skorelowane
      • Wykresy częściowych rezyduów i nieliniowość
    • Regresja wielomianowa i regresja sklejana
      • Wielomian
      • Funkcja sklejana
      • Uogólnione modele addytywne
      • Dla pogłębienia wiedzy
    • Podsumowanie
  • Rozdział 5. Klasyfikacja
    • Naiwny klasyfikator bayesowski
      • Dlaczego klasyfikator bayesowski jest niepraktyczny?
      • Naiwne rozwiązanie
      • Numeryczne zmienne objaśniające
      • Dla pogłębienia wiedzy
    • Analiza dyskryminacyjna
      • Macierz kowariancji
      • Liniowy dyskryminator Fishera
      • Prosty przykład
      • Dla pogłębienia wiedzy
    • Regresja logistyczna
      • Funkcja odpowiedzi logistycznej i logit
      • Regresja logistyczna i GLM
      • Uogólnione modele liniowe
      • Wartości prognozowane na podstawie regresji logistycznej
      • Interpretacja współczynników i iloraz szans
      • Regresja liniowa i regresja logistyczna: podobieństwa i różnice
        • Dopasowanie modelu
      • Ocena modelu
        • Analiza reszt
      • Dla pogłębienia wiedzy
    • Ewaluacja modeli klasyfikacji
      • Macierz błędów
      • Problem mało licznych klas
      • Precyzja, czułość i swoistość
      • Krzywa ROC
      • Pole pod wykresem krzywej ROC
      • Lift
      • Dla pogłębienia wiedzy
    • Strategie dla niezbilansowanych danych
      • Undersampling
      • Oversampling i zwiększenie/obniżenie wag
      • Generowanie danych
      • Klasyfikacja oparta na kosztach
      • Badanie prognozy
      • Dla pogłębienia wiedzy
    • Podsumowanie
  • Rozdział 6. Statystyczne uczenie maszynowe
    • K-najbliższych sąsiadów
      • Przykład: przewidywanie opóźnienia w spłacie pożyczki
      • Metryki odległości
      • Kodowanie 1 z n
      • Standaryzacja (normalizacja, z-wartość)
      • Dobór K
      • KNN w doborze cech
    • Drzewa decyzyjne
      • Prosty przykład
      • Algorytm rekursywnego podziału
      • Pomiar homogeniczności lub zanieczyszczenia
      • Zatrzymanie wzrostu drzewa
        • Kontrolowanie złożoności drzewa w R
        • Kontrolowanie złożoności drzewa w Pythonie
      • Prognoza ciągłych wartości
      • Jak są wykorzystywane drzewa
      • Dla pogłębienia wiedzy
    • Bagging i lasy losowe
      • Bagging
      • Las losowy
      • Istotność zmiennej
      • Hiperparametry
    • Boosting
      • Algorytm wzmacniania
      • XGBoost
      • Regularyzacja: unikanie nadmiernego dopasowania
      • Hiperparametry i kroswalidacja
    • Podsumowanie
  • Rozdział 7. Uczenie nienadzorowane
    • Analiza głównych składowych
      • Prosty przykład
      • Obliczanie głównych składowych
      • Interpretacja głównych składowych
      • Analiza odpowiedniości
      • Dla pogłębienia wiedzy
    • Metoda K-średnich (centroidów)
      • Prosty przykład
      • Algorytm K-średnich
      • Interpretacja klastrów
      • Dobór liczby klastrów
    • Klasteryzacja hierarchiczna
      • Prosty przykład
      • Dendrogram
      • Algorytm aglomeracyjny
      • Miary podobieństwa
    • Klasteryzacja oparta na modelu
      • Wielowymiarowy rozkład normalny
      • Mieszaniny rozkładów normalnych
      • Dobór liczby klastrów
      • Dla pogłębienia wiedzy
    • Skalowanie i zmienne skategoryzowane
      • Skalowanie zmiennych
      • Zmienne dominujące
      • Zmienne skategoryzowane i odległość Gowera
      • Problem z klasteryzacją danych mieszanych
    • Podsumowanie
  • Bibliografia
    • O autorach
    • Kolofon
  • Titel: Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II
  • Autor: Peter Bruce, Andrew Bruce, Peter Gedeck
  • Originaler Titel: Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2nd Edition
  • Übersetzung: Krzysztof Sawka, Marta Danch-Wierzchowska
  • ISBN: 978-83-283-7428-7, 9788328374287
  • Veröffentlichungsdatum: 2021-06-16
  • Format: E-book
  • Artikelkennung: stpra2
  • Verleger: Helion