Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II - E-book - Peter Bruce, Andrew Bruce, Peter Gedeck - Moderne lernplattform

Kategorien

Details zum E-Book

Einloggen, wenn Sie am Inhalt des Artikels interessiert sind.

Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II

E-book

Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.

To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.

W książce między innymi:

analiza eksploracyjna we wstępnym badaniu danych
próby losowe a jakość dużych zbiorów danych
podstawy planowania eksperymentów
regresja w szacowaniu wyników i wykrywaniu anomalii
statystyczne uczenie maszynowe
uczenie nienadzorowane a znaczenie danych niesklasyfikowanych

Statystyka: klasyczne narzędzia w najnowszych technologiach!

Przedmowa
- Konwencja zastosowana w tej książce
- Wykorzystanie przykładów kodu
- Podziękowania
Rozdział 1. Badania eksploracyjne
- Elementy danych uporządkowanych
  - Dla pogłębienia wiedzy
- Dane stabelaryzowane
  - Ramki danych i indeksy
  - Niestabelaryzowane struktury danych
  - Dla pogłębienia wiedzy
- Miary położenia
  - Średnia
  - Mediana i estymatory odporne
    - Wartości odstające
  - Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
  - Dla pogłębienia wiedzy
- Miary rozproszenia
  - Odchylenie standardowe i powiązane estymatory
  - Estymatory oparte na percentylach
  - Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
  - Dla pogłębienia wiedzy
- Badanie rozkładu danych
  - Percentyle i boxploty
  - Tablica częstości i histogramy
  - Szacowanie i wykresy gęstości rozkładu
  - Dla pogłębienia wiedzy
- Badanie danych binarnych i skategoryzowanych
  - Moda
  - Wartość oczekiwana
  - Prawdopodobieństwo
  - Dla pogłębienia wiedzy
- Korelacja
  - Wykres punktowy
  - Dla pogłębienia wiedzy
- Badanie dwóch lub więcej zmiennych
  - Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
  - Dwie zmienne skategoryzowane
  - Dane kategoryzowane i numeryczne
  - Wizualizacja wielu zmiennych
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 2. Rozkłady danych i prób
- Losowy dobór i obciążenie próby
  - Obciążenie
  - Dobór losowy
  - Rozmiar a jakość: kiedy rozmiar ma znaczenie?
  - Średnia z próby a średnia z populacji
  - Dla pogłębienia wiedzy
- Błąd doboru
  - Regresja do średniej
  - Dla pogłębienia wiedzy
- Rozkład próbkowania dla statystyki
  - Centralne twierdzenie graniczne
  - Błąd standardowy
  - Dla pogłębienia wiedzy
- Próby bootstrapowe
  - Ponowne próbkowanie a próby bootstrapowe
  - Dla pogłębienia wiedzy
- Przedziały ufności
  - Dla pogłębienia wiedzy
- Rozkład normalny
  - Standaryzowany rozkład normalny i wykres K-K
- Rozkłady z długimi ogonami
  - Dla pogłębienia wiedzy
- Rozkład t-Studenta
  - Dla pogłębienia wiedzy
- Rozkład binarny
  - Dla pogłębienia wiedzy
- Rozkład chi-kwadrat
  - Dla pogłębienia wiedzy
- Rozkład F
  - Dla pogłębienia wiedzy
- Rozkład Poissona i jego pochodne
  - Rozkład Poissona
  - Rozkład wykładniczy
  - Szacowanie współczynnika porażki
  - Rozkład Weibulla
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 3. Eksperymenty statystyczne i testowanie istotności
- Test A/B
  - Po co Ci grupa kontrolna?
  - Dlaczego tylko A/B? Dlaczego nie C, D itd.?
  - Dla pogłębienia wiedzy
- Testowanie hipotezy
  - Hipoteza zerowa
  - Hipoteza alternatywna
  - Test jednostronny i test dwustronny
  - Dla pogłębienia wiedzy
- Testy randomizacyjne
  - Test permutacyjny
  - Przykład: licznik odwiedzin strony
  - Zupełny test permutacyjny i bootstrap
  - Test permutacyjny: podstawa w data science
  - Dla pogłębienia wiedzy
- Istotność statystyczna i p-wartość
  - p-wartość
  - Alfa
    - Kontrowersje związane z p-wartością
    - Istotność praktyczna
  - Błędy pierwszego i drugiego rodzaju
  - Data science i p-wartość
  - Dla pogłębienia wiedzy
- Test t
  - Dla pogłębienia wiedzy
- Testowanie wielokrotne
  - Dla pogłębienia wiedzy
- Stopnie swobody
  - Dla pogłębienia wiedzy
- ANOVA
  - Statystyka F
  - Dwustronna ANOVA
  - Dla pogłębienia wiedzy
- Test chi-kwadrat
  - Test chi-kwadrat: podejście randomizacyjne
  - Test chi-kwadrat: teoria
  - Dokładny test Fishera
  - Znaczenie testu chi-kwadrat w data science
  - Dla pogłębienia wiedzy
- Algorytm Wielorękiego Bandyty
  - Dla pogłębienia wiedzy
- Moc i rozmiar próby
  - Rozmiar próby
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 4. Regresja i predykcja
- Prosta regresja liniowa
  - Równanie regresji
  - Dopasowanie wartości i rezydua
  - Metoda najmniejszych kwadratów
  - Predykcja a objaśnienie (profilowanie)
  - Dla pogłębienia wiedzy
- Regresja wieloraka
  - Przykład: wartość domów w King County
  - Ocena modelu
  - Kroswalidacja
  - Dobór modelu i regresja krokowa
  - Regresja ważona
  - Dla pogłębienia wiedzy
- Predykcja z wykorzystaniem regresji
  - Niebezpieczeństwa związane z ekstrapolacją
  - Przedziały ufności i predykcji
- Zmienne skategoryzowane w regresji
  - Zmienne fikcyjne
  - Zmienne skategoryzowane na wielu poziomach
  - Uporządkowane zmienne skategoryzowane
- Interpretacja równania regresji
  - Predyktory skorelowane
  - Współliniowość
  - Zmienne zakłócające
  - Interakcje i efekty główne
- Diagnostyka regresji
  - Wartości odstające
  - Obserwacje wpływowe
  - Heteroskedastyczność, anormalność i błędy skorelowane
  - Wykresy częściowych rezyduów i nieliniowość
- Regresja wielomianowa i regresja sklejana
  - Wielomian
  - Funkcja sklejana
  - Uogólnione modele addytywne
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 5. Klasyfikacja
- Naiwny klasyfikator bayesowski
  - Dlaczego klasyfikator bayesowski jest niepraktyczny?
  - Naiwne rozwiązanie
  - Numeryczne zmienne objaśniające
  - Dla pogłębienia wiedzy
- Analiza dyskryminacyjna
  - Macierz kowariancji
  - Liniowy dyskryminator Fishera
  - Prosty przykład
  - Dla pogłębienia wiedzy
- Regresja logistyczna
  - Funkcja odpowiedzi logistycznej i logit
  - Regresja logistyczna i GLM
  - Uogólnione modele liniowe
  - Wartości prognozowane na podstawie regresji logistycznej
  - Interpretacja współczynników i iloraz szans
  - Regresja liniowa i regresja logistyczna: podobieństwa i różnice
    - Dopasowanie modelu
  - Ocena modelu
    - Analiza reszt
  - Dla pogłębienia wiedzy
- Ewaluacja modeli klasyfikacji
  - Macierz błędów
  - Problem mało licznych klas
  - Precyzja, czułość i swoistość
  - Krzywa ROC
  - Pole pod wykresem krzywej ROC
  - Lift
  - Dla pogłębienia wiedzy
- Strategie dla niezbilansowanych danych
  - Undersampling
  - Oversampling i zwiększenie/obniżenie wag
  - Generowanie danych
  - Klasyfikacja oparta na kosztach
  - Badanie prognozy
  - Dla pogłębienia wiedzy
- Podsumowanie
Rozdział 6. Statystyczne uczenie maszynowe
- K-najbliższych sąsiadów
  - Przykład: przewidywanie opóźnienia w spłacie pożyczki
  - Metryki odległości
  - Kodowanie 1 z n
  - Standaryzacja (normalizacja, z-wartość)
  - Dobór K
  - KNN w doborze cech
- Drzewa decyzyjne
  - Prosty przykład
  - Algorytm rekursywnego podziału
  - Pomiar homogeniczności lub zanieczyszczenia
  - Zatrzymanie wzrostu drzewa
    - Kontrolowanie złożoności drzewa w R
    - Kontrolowanie złożoności drzewa w Pythonie
  - Prognoza ciągłych wartości
  - Jak są wykorzystywane drzewa
  - Dla pogłębienia wiedzy
- Bagging i lasy losowe
  - Bagging
  - Las losowy
  - Istotność zmiennej
  - Hiperparametry
- Boosting
  - Algorytm wzmacniania
  - XGBoost
  - Regularyzacja: unikanie nadmiernego dopasowania
  - Hiperparametry i kroswalidacja
- Podsumowanie
Rozdział 7. Uczenie nienadzorowane
- Analiza głównych składowych
  - Prosty przykład
  - Obliczanie głównych składowych
  - Interpretacja głównych składowych
  - Analiza odpowiedniości
  - Dla pogłębienia wiedzy
- Metoda K-średnich (centroidów)
  - Prosty przykład
  - Algorytm K-średnich
  - Interpretacja klastrów
  - Dobór liczby klastrów
- Klasteryzacja hierarchiczna
  - Prosty przykład
  - Dendrogram
  - Algorytm aglomeracyjny
  - Miary podobieństwa
- Klasteryzacja oparta na modelu
  - Wielowymiarowy rozkład normalny
  - Mieszaniny rozkładów normalnych
  - Dobór liczby klastrów
  - Dla pogłębienia wiedzy
- Skalowanie i zmienne skategoryzowane
  - Skalowanie zmiennych
  - Zmienne dominujące
  - Zmienne skategoryzowane i odległość Gowera
  - Problem z klasteryzacją danych mieszanych
- Podsumowanie
Bibliografia
- O autorach
- Kolofon

Titel: Statystyka praktyczna w data science. 50 kluczowych zagadnień w językach R i Python. Wydanie II
Autor: Peter Bruce, Andrew Bruce, Peter Gedeck
Originaler Titel: Practical Statistics for Data Scientists: 50+ Essential Concepts Using R and Python, 2nd Edition
Übersetzung: Krzysztof Sawka, Marta Danch-Wierzchowska
ISBN: 978-83-283-7428-7, 9788328374287
Veröffentlichungsdatum: 2021-06-16
Format: E-book
Artikelkennung: stpra2
Verleger: Helion