Szczegóły ebooka

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych

Daniel Vaughan

Ebook

Uczenie się i praktykowanie danologii nie należy do najłatwiejszych zadań. Edukacja w tej dziedzinie zazwyczaj dotyczy programowania i uczenia maszynowego, a przecież świetny analityk danych musi się znać na wielu innych zagadnieniach. Może się ich nauczyć w pracy, ale w tym celu konieczne jest znalezienie mentora. A to niestety nie zawsze jest możliwe.

Ten podręcznik zaczyna się tam, gdzie większość książek się kończy - od rzeczywistych procesów decyzyjnych opartych na wnioskach wynikających z danych.

Brett Holleman, niezależny danolog

Dzięki tej książce przyswoisz różne techniki, które pomogą Ci stać się bardziej produktywnym analitykiem danych. Najpierw zapoznasz się z tematami związanymi z rozumieniem danych i umiejętnościami miękkimi, które okazują się konieczne w pracy dobrego danologa. Dopiero potem skupisz się na kluczowych aspektach uczenia maszynowego. W ten sposób stopniowo przejdziesz ścieżkę od przeciętnego kandydata do wyjątkowego specjalisty data science. Umiejętności opisane w tym przewodniku przez wiele lat były rozpoznawane, katalogowane, analizowane i stosowane do generowania wartości i szkolenia danologów w różnych firmach i branżach.

Z książki dowiesz się:

  • jak sprawić, by procesy oparte na analizie danych generowały wartość
  • jak zaprojektować przydatne wskaźniki
  • jak zdobywać poparcie interesariuszy
  • jak się upewnić, że algorytm uczenia maszynowego nadaje się do rozwiązania danego zadania
  • jak zapanować nad wyciekami danych

Oto brakujący podręcznik pozwalający odnieść sukces komercyjny dzięki data science!

Adri Purkayastha, dyrektor do spraw zagrożeń związanych z AI, BNP Paribas

Przedmowa

Część I. Techniki analityki danych

Rozdział 1. I co z tego? Generowanie wartości dzięki danologii

  • Czym jest wartość?
  • "Co?", czyli zrozumieć biznes
  • "Co z tego?", czyli istota generowania wartości dzięki danologii
  • "Co teraz?", czyli bądź przebojowy
  • Pomiar wartości
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 2. Projektowanie wskaźników

  • Pożądane właściwości wskaźników
    • Mierzalność
    • Możliwość podejmowania działań
    • Trafność
    • Aktualność
  • Dekompozycja wskaźników
    • Lejek analityczny
    • Dekompozycje przepływów i zapasów
    • Dekompozycje typu P×Q
  • Przykład: inny sposób dekompozycji przychodów
  • Przykład: platformy sprzedażowe
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 3. Dekompozycje wzrostu - zrozumienie przeszkód i sprzyjających czynników

  • Dlaczego dekompozycje wzrostu?
  • Dekompozycja addytywna
    • Przykład
    • Interpretacja i przypadki użycia
  • Dekompozycja multiplikatywna
    • Przykład
    • Interpretacja
  • Dekompozycja zmian wag i wartości
    • Przykład
    • Interpretacja
  • Wyprowadzanie równań matematycznych
    • Dekompozycja addytywna
    • Dekompozycja multiplikatywna
    • Dekompozycja mix-rate
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 4. Projekty 2×2

  • Argumenty za upraszczaniem
  • Czym jest projekt 2×2?
  • Przykład: testowanie modelu i nowej cechy
  • Przykład: zrozumienie zachowań użytkownika
  • Przykład: udzielanie i akceptacja ofert kredytów
  • Przykład: ustalanie priorytetów w procesie pracy
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 5. Tworzenie uzasadnienia biznesowego

  • Wybrane zasady tworzenia uzasadnień biznesowych
  • Przykład: proaktywna strategia zatrzymywania klientów
  • Zapobieganie oszustwom
  • Zakup zewnętrznych zbiorów danych
  • Praca nad projektem z obszaru danologii
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 6. Czym jest wskaźnik przyrostu?

  • Definicja wskaźnika przyrostu
  • Przykład: model klasyfikatora
  • Błędy wynikające z samoselekcji i przeżywalności
  • Inne zastosowania wskaźników przyrostu
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 7. Narracje

  • Co kryje się w narracji? Opowiadanie historii za pomocą danych
    • Jasna i rzeczowa
    • Wiarygodność
    • Zapadająca w pamięć
    • Możliwość podejmowania działań
  • Tworzenie narracji
    • Nauka jako opowiadanie historii
    • "Co?", "co z tego?" i "co teraz?"
  • Ostatnia prosta
    • Streszczenia TL;DR
    • Wskazówki dotyczące pisania zapadających w pamięć streszczeń TL;DR
    • Przykład: pisanie streszczenia TL;DR tego rozdziału
    • Skuteczne krótkie prezentacje
    • Prezentowanie narracji
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 8. Wizualizacje danych - wybór właściwego wykresu do przekazania komunikatu

  • Kilka przydatnych i rzadko używanych wizualizacji danych
    • Wykres słupkowy a wykres liniowy
    • Wykres nachylenia
    • Wykres kaskadowy
    • Funkcje wygładzania dla wykresów punktowych
    • Prezentowanie rozkładów na wykresie
  • Ogólne zalecenia
    • Dobierz odpowiednią wizualizację dla przekazu
    • Mądrze dobieraj kolory
    • Różne wymiary na wykresie
    • Staraj się uzyskać odpowiednio wysoki współczynnik dane/atrament
    • Personalizacja a półautomatyzacja
    • Na samym początku dobierz odpowiedni rozmiar czcionki
    • Interaktywne czy nie?
    • Zachowaj prostotę
    • Zacznij od wyjaśnienia wykresu
  • Najważniejsze wnioski
  • Dalsza lektura

Część II. Uczenie maszynowe

Rozdział 9. Symulacje i bootstrapping

  • Podstawy symulacji
  • Symulacja modelu liniowego i regresji liniowej
  • Czym są wykresy zależności częściowych?
  • Błąd systematyczny z powodu pominięcia zmiennej
  • Symulacja problemu klasyfikacji
    • Modele zmiennych ukrytych
    • Porównanie różnych algorytmów
  • Bootstrapping
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 10. Regresja liniowa - powrót do podstaw

  • Co kryje się za współczynnikiem?
  • Twierdzenie Frischa-Waugha-Lovella
  • Dlaczego twierdzenie FWL jest ważne?
  • Czynniki zakłócające
  • Dodatkowe zmienne
  • Centralna rola wariancji w uczeniu maszynowym
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 11. Wyciekanie danych

  • Czym jest wyciekanie danych?
    • Wynik również jest cechą
    • Funkcja wyniku sama też jest cechą
    • Złe zmienne kontrolne
    • Niewłaściwe oznaczenie znacznika czasu
    • Wiele zbiorów danych z nieprecyzyjnymi agregacjami czasowymi
    • Wyciekanie innych informacji
  • Wykrywanie wyciekania danych
  • Całkowita separacja
  • Metoda okien
    • Wybór długości okien
    • Etap treningu odzwierciedla etap oceny punktowej
    • Wdrażanie metody okien
  • Mam wyciek. Co teraz?
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 12. Stosowanie modeli w środowisku produkcyjnym

  • Co oznacza "gotowość produkcyjna"?
    • Wsadowa ocena punktowa (w trybie offline)
    • Obiekty modeli czasu rzeczywistego
  • Dryf danych i modelu
  • Etapy niezbędne w każdym potoku produkcyjnym
    • Pobieranie i przekształcanie danych
    • Sprawdzanie poprawności danych
    • Etapy treningu i oceny punktowej
    • Sprawdzanie poprawności modelu i ocen punktowych
    • Zapisywanie modelu i ocen punktowych
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 13. Opowiadanie historii w uczeniu maszynowym

  • Holistyczne spojrzenie na opowiadanie historii w uczeniu maszynowym
  • Opowiadanie historii przed opracowaniem modelu i w trakcie tego procesu
    • Tworzenie hipotez
    • Inżynieria cech
  • Opowiadanie historii po opracowaniu modelu: otwieranie czarnej skrzynki
    • Kompromis między interpretowalnością a skutecznością
    • Regresja liniowa: ustalenie punktu odniesienia
    • Znaczenie cech
    • Mapa cieplna
    • Wykresy zależności częściowych
    • Skumulowane efekty lokalne
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 14. Od predykcji do decyzji

  • Analiza procesu podejmowania decyzji
  • Proste reguły decyzyjne oparte na inteligentnym wyznaczaniu wartości progowych
    • Precyzja i czułość
    • Przykład: pozyskiwanie list kontaktów
  • Optymalizacja macierzy błędów
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 15. Zmiany dodatkowe - Święty Graal danologii?

  • Definiowanie zmian dodatkowych
    • Wnioskowanie przyczynowe w celu poprawy predykcji
    • Wnioskowanie przyczynowe jako wyróżnik
    • Usprawnione podejmowanie decyzji
  • Czynniki zakłócające i kolidery
  • Błąd doboru
  • Założenie o braku zmiennych zakłócających
  • Radzenie sobie z błędem doboru - randomizacja
  • Dopasowywanie
  • Uczenie maszynowe i wnioskowanie przyczynowe
    • Kod otwartoźródłowy
    • Podwójne uczenie maszynowe
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 16. Testy A/B

  • Czym są testy A/B?
  • Kryterium decyzyjne
  • Minimalne wykrywalne efekty
    • Ustalanie mocy statystycznej, poziomu istotności i wartości P
    • Szacowanie wariancji wyniku
    • Symulacje
    • Przykład: współczynniki konwersji
    • Określanie wartości MWE
  • Lista hipotez do zbadania
    • Wskaźnik
    • Hipoteza
    • Uszeregowanie
  • Zarządzanie eksperymentami
  • Najważniejsze wnioski
  • Dalsza lektura

Rozdział 17. Modele LLM i praktyka danologii

  • Obecny stan sztucznej inteligencji
  • Czym zajmują się danologowie?
  • Ewolucja opisu stanowiska danologa
    • Studium przypadku: testy A/B
    • Studium przypadku: oczyszczanie danych
    • Studium przypadku: uczenie maszynowe
  • Modele LLM a ta książka
  • Najważniejsze wnioski
  • Dalsza lektura

Skorowidz

  • Tytuł: Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych
  • Autor: Daniel Vaughan
  • Tytuł oryginału: Data Science: The Hard Parts: Techniques for Excelling at Data Science
  • Tłumaczenie: Tomasz Walczak
  • ISBN: 978-83-289-1295-3, 9788328912953
  • Data wydania: 2024-12-03
  • Format: Ebook
  • Identyfikator pozycji: dasctr
  • Wydawca: Helion