Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych - Eлектронна книга - Daniel Vaughan - Cучасна освітня платформа

Категорії

Деталі електронної книги

Увійти, Якщо вас цікавить зміст видання.

Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych

Eлектронна книга

Uczenie się i praktykowanie danologii nie należy do najłatwiejszych zadań. Edukacja w tej dziedzinie zazwyczaj dotyczy programowania i uczenia maszynowego, a przecież świetny analityk danych musi się znać na wielu innych zagadnieniach. Może się ich nauczyć w pracy, ale w tym celu konieczne jest znalezienie mentora. A to niestety nie zawsze jest możliwe.

Ten podręcznik zaczyna się tam, gdzie większość książek się kończy - od rzeczywistych procesów decyzyjnych opartych na wnioskach wynikających z danych.

Brett Holleman, niezależny danolog

Dzięki tej książce przyswoisz różne techniki, które pomogą Ci stać się bardziej produktywnym analitykiem danych. Najpierw zapoznasz się z tematami związanymi z rozumieniem danych i umiejętnościami miękkimi, które okazują się konieczne w pracy dobrego danologa. Dopiero potem skupisz się na kluczowych aspektach uczenia maszynowego. W ten sposób stopniowo przejdziesz ścieżkę od przeciętnego kandydata do wyjątkowego specjalisty data science. Umiejętności opisane w tym przewodniku przez wiele lat były rozpoznawane, katalogowane, analizowane i stosowane do generowania wartości i szkolenia danologów w różnych firmach i branżach.

Z książki dowiesz się:

jak sprawić, by procesy oparte na analizie danych generowały wartość
jak zaprojektować przydatne wskaźniki
jak zdobywać poparcie interesariuszy
jak się upewnić, że algorytm uczenia maszynowego nadaje się do rozwiązania danego zadania
jak zapanować nad wyciekami danych

Oto brakujący podręcznik pozwalający odnieść sukces komercyjny dzięki data science!

Adri Purkayastha, dyrektor do spraw zagrożeń związanych z AI, BNP Paribas

Przedmowa

Część I. Techniki analityki danych

Rozdział 1. I co z tego? Generowanie wartości dzięki danologii

Czym jest wartość?
"Co?", czyli zrozumieć biznes
"Co z tego?", czyli istota generowania wartości dzięki danologii
"Co teraz?", czyli bądź przebojowy
Pomiar wartości
Najważniejsze wnioski
Dalsza lektura

Rozdział 2. Projektowanie wskaźników

Pożądane właściwości wskaźników
- Mierzalność
- Możliwość podejmowania działań
- Trafność
- Aktualność
Dekompozycja wskaźników
- Lejek analityczny
- Dekompozycje przepływów i zapasów
- Dekompozycje typu P×Q
Przykład: inny sposób dekompozycji przychodów
Przykład: platformy sprzedażowe
Najważniejsze wnioski
Dalsza lektura

Rozdział 3. Dekompozycje wzrostu - zrozumienie przeszkód i sprzyjających czynników

Dlaczego dekompozycje wzrostu?
Dekompozycja addytywna
- Przykład
- Interpretacja i przypadki użycia
Dekompozycja multiplikatywna
- Przykład
- Interpretacja
Dekompozycja zmian wag i wartości
- Przykład
- Interpretacja
Wyprowadzanie równań matematycznych
- Dekompozycja addytywna
- Dekompozycja multiplikatywna
- Dekompozycja mix-rate
Najważniejsze wnioski
Dalsza lektura

Rozdział 4. Projekty 2×2

Argumenty za upraszczaniem
Czym jest projekt 2×2?
Przykład: testowanie modelu i nowej cechy
Przykład: zrozumienie zachowań użytkownika
Przykład: udzielanie i akceptacja ofert kredytów
Przykład: ustalanie priorytetów w procesie pracy
Najważniejsze wnioski
Dalsza lektura

Rozdział 5. Tworzenie uzasadnienia biznesowego

Wybrane zasady tworzenia uzasadnień biznesowych
Przykład: proaktywna strategia zatrzymywania klientów
Zapobieganie oszustwom
Zakup zewnętrznych zbiorów danych
Praca nad projektem z obszaru danologii
Najważniejsze wnioski
Dalsza lektura

Rozdział 6. Czym jest wskaźnik przyrostu?

Definicja wskaźnika przyrostu
Przykład: model klasyfikatora
Błędy wynikające z samoselekcji i przeżywalności
Inne zastosowania wskaźników przyrostu
Najważniejsze wnioski
Dalsza lektura

Rozdział 7. Narracje

Co kryje się w narracji? Opowiadanie historii za pomocą danych
- Jasna i rzeczowa
- Wiarygodność
- Zapadająca w pamięć
- Możliwość podejmowania działań
Tworzenie narracji
- Nauka jako opowiadanie historii
- "Co?", "co z tego?" i "co teraz?"
Ostatnia prosta
- Streszczenia TL;DR
- Wskazówki dotyczące pisania zapadających w pamięć streszczeń TL;DR
- Przykład: pisanie streszczenia TL;DR tego rozdziału
- Skuteczne krótkie prezentacje
- Prezentowanie narracji
Najważniejsze wnioski
Dalsza lektura

Rozdział 8. Wizualizacje danych - wybór właściwego wykresu do przekazania komunikatu

Kilka przydatnych i rzadko używanych wizualizacji danych
- Wykres słupkowy a wykres liniowy
- Wykres nachylenia
- Wykres kaskadowy
- Funkcje wygładzania dla wykresów punktowych
- Prezentowanie rozkładów na wykresie
Ogólne zalecenia
- Dobierz odpowiednią wizualizację dla przekazu
- Mądrze dobieraj kolory
- Różne wymiary na wykresie
- Staraj się uzyskać odpowiednio wysoki współczynnik dane/atrament
- Personalizacja a półautomatyzacja
- Na samym początku dobierz odpowiedni rozmiar czcionki
- Interaktywne czy nie?
- Zachowaj prostotę
- Zacznij od wyjaśnienia wykresu
Najważniejsze wnioski
Dalsza lektura

Część II. Uczenie maszynowe

Rozdział 9. Symulacje i bootstrapping

Podstawy symulacji
Symulacja modelu liniowego i regresji liniowej
Czym są wykresy zależności częściowych?
Błąd systematyczny z powodu pominięcia zmiennej
Symulacja problemu klasyfikacji
- Modele zmiennych ukrytych
- Porównanie różnych algorytmów
Bootstrapping
Najważniejsze wnioski
Dalsza lektura

Rozdział 10. Regresja liniowa - powrót do podstaw

Co kryje się za współczynnikiem?
Twierdzenie Frischa-Waugha-Lovella
Dlaczego twierdzenie FWL jest ważne?
Czynniki zakłócające
Dodatkowe zmienne
Centralna rola wariancji w uczeniu maszynowym
Najważniejsze wnioski
Dalsza lektura

Rozdział 11. Wyciekanie danych

Czym jest wyciekanie danych?
- Wynik również jest cechą
- Funkcja wyniku sama też jest cechą
- Złe zmienne kontrolne
- Niewłaściwe oznaczenie znacznika czasu
- Wiele zbiorów danych z nieprecyzyjnymi agregacjami czasowymi
- Wyciekanie innych informacji
Wykrywanie wyciekania danych
Całkowita separacja
Metoda okien
- Wybór długości okien
- Etap treningu odzwierciedla etap oceny punktowej
- Wdrażanie metody okien
Mam wyciek. Co teraz?
Najważniejsze wnioski
Dalsza lektura

Rozdział 12. Stosowanie modeli w środowisku produkcyjnym

Co oznacza "gotowość produkcyjna"?
- Wsadowa ocena punktowa (w trybie offline)
- Obiekty modeli czasu rzeczywistego
Dryf danych i modelu
Etapy niezbędne w każdym potoku produkcyjnym
- Pobieranie i przekształcanie danych
- Sprawdzanie poprawności danych
- Etapy treningu i oceny punktowej
- Sprawdzanie poprawności modelu i ocen punktowych
- Zapisywanie modelu i ocen punktowych
Najważniejsze wnioski
Dalsza lektura

Rozdział 13. Opowiadanie historii w uczeniu maszynowym

Holistyczne spojrzenie na opowiadanie historii w uczeniu maszynowym
Opowiadanie historii przed opracowaniem modelu i w trakcie tego procesu
- Tworzenie hipotez
- Inżynieria cech
Opowiadanie historii po opracowaniu modelu: otwieranie czarnej skrzynki
- Kompromis między interpretowalnością a skutecznością
- Regresja liniowa: ustalenie punktu odniesienia
- Znaczenie cech
- Mapa cieplna
- Wykresy zależności częściowych
- Skumulowane efekty lokalne
Najważniejsze wnioski
Dalsza lektura

Rozdział 14. Od predykcji do decyzji

Analiza procesu podejmowania decyzji
Proste reguły decyzyjne oparte na inteligentnym wyznaczaniu wartości progowych
- Precyzja i czułość
- Przykład: pozyskiwanie list kontaktów
Optymalizacja macierzy błędów
Najważniejsze wnioski
Dalsza lektura

Rozdział 15. Zmiany dodatkowe - Święty Graal danologii?

Definiowanie zmian dodatkowych
- Wnioskowanie przyczynowe w celu poprawy predykcji
- Wnioskowanie przyczynowe jako wyróżnik
- Usprawnione podejmowanie decyzji
Czynniki zakłócające i kolidery
Błąd doboru
Założenie o braku zmiennych zakłócających
Radzenie sobie z błędem doboru - randomizacja
Dopasowywanie
Uczenie maszynowe i wnioskowanie przyczynowe
- Kod otwartoźródłowy
- Podwójne uczenie maszynowe
Najważniejsze wnioski
Dalsza lektura

Rozdział 16. Testy A/B

Czym są testy A/B?
Kryterium decyzyjne
Minimalne wykrywalne efekty
- Ustalanie mocy statystycznej, poziomu istotności i wartości P
- Szacowanie wariancji wyniku
- Symulacje
- Przykład: współczynniki konwersji
- Określanie wartości MWE
Lista hipotez do zbadania
- Wskaźnik
- Hipoteza
- Uszeregowanie
Zarządzanie eksperymentami
Najważniejsze wnioski
Dalsza lektura

Rozdział 17. Modele LLM i praktyka danologii

Obecny stan sztucznej inteligencji
Czym zajmują się danologowie?
Ewolucja opisu stanowiska danologa
- Studium przypadku: testy A/B
- Studium przypadku: oczyszczanie danych
- Studium przypadku: uczenie maszynowe
Modele LLM a ta książka
Najważniejsze wnioski
Dalsza lektura

Skorowidz

Назва: Data science, wyzwania i rozwiązania. Jak zostać ekspertem analizy danych
Автор: Daniel Vaughan
Оригінальна назва: Data Science: The Hard Parts: Techniques for Excelling at Data Science
Переклад: Tomasz Walczak
ISBN: 978-83-289-1295-3, 9788328912953
Дата видання: 2024-12-03
Формат: Eлектронна книга
Ідентифікатор видання: dasctr
Видавець: Helion