Details zum E-Book

Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym

Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym

Alex J. Gutman, Jordan Goldmeier

E-book

Musisz spojrzeć prawdzie w oczy: epoka danych to nie tylko imponujące możliwości, ale również obietnice bez pokrycia. Firmy wdrażają rozwiązania, które mają je wyręczać w podejmowaniu decyzji. Menedżerowie zatrudniają analityków, którzy nimi nie są. Specjaliści w dziedzinie data science są zatrudniani w organizacjach, które nie są na nich gotowe. Dyrektorzy wysłuchują technicznego żargonu i udają, że go rozumieją. Efekt? Pieniądze idą w błoto.

Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć krytycznie o danych i otrzymanych wynikach, będziesz też inteligentnie o tym mówić. Jednym zdaniem: zrozumiesz dane i związane z nimi wyzwania na głębszym, profesjonalnym poziomie.

To książka dla każdego, kto chce przestawić firmę na tory data science.

Eric Weber, kierownik ds. eksperymentów i badań metrycznych, Yelp

Naucz się:

  • myśleć statystycznie i rozumieć rolę zmienności w podejmowaniu decyzji
  • zadawać właściwe pytania na temat statystyk i wyników analiz
  • sensownie korzystać z rozwiązań uczenia maszynowego i sztucznej inteligencji
  • unikać typowych błędów podczas pracy z danymi i ich interpretowania

Data science? Odsiejesz piasek od złota!

O autorach

O redaktorach technicznych

Podziękowania

Przedmowa

Wprowadzenie

CZĘŚĆ I. MYŚL JAK SPEC OD DANYCH

  • ROZDZIAŁ 1. NA CZYM POLEGA PROBLEM?
    • PYTANIA, KTÓRE POWINIEN ZADAWAĆ SPEC OD DANYCH
      • Dlaczego problem jest ważny?
      • Na kogo wpływa ten problem?
      • Co, jeśli nie mamy właściwych danych?
      • Kiedy projekt się zakończy?
      • Co, jeśli nie spodobają nam się rezultaty?
    • DLACZEGO PROJEKTY ZWIĄZANE Z DANYMI KOŃCZĄ SIĘ NIEPOWODZENIEM?
      • Wrażenia klientów
      • Omówienie
    • PRACA NAD PROBLEMAMI, KTÓRE MAJĄ ZNACZENIE
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 2. CZYM SĄ DANE?
    • DANE A INFORMACJE
      • Przykładowy zbiór danych
    • TYPY DANYCH
    • JAK GROMADZI SIĘ DANE I JAKĄ MAJĄ STRUKTURĘ?
      • Dane obserwacyjne i eksperymentalne
      • Dane ustrukturyzowane i nieustrukturyzowane
    • PODSTAWOWE STATYSTYKI ZBIORCZE
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 3. PRZYGOTOWANIE DO MYŚLENIA STATYSTYCZNEGO
    • ZADAWAJ PYTANIA
    • WSZYSTKO JEST ZMIENNE
      • Scenariusz: wrażenia klientów (kontynuacja)
      • Studium przypadku: zachorowalność na raka nerki
    • PRAWDOPODOBIEŃSTWO I STATYSTYKA
      • Prawdopodobieństwo a intuicja
      • Odkrywanie informacji za pomocą statystyki
    • PODSUMOWANIE ROZDZIAŁU

CZĘŚĆ II. MÓW JAK SPEC OD DANYCH

  • ROZDZIAŁ 4. POLEMIZUJ Z DANYMI
    • CO BYŚ ZROBIŁ(A)?
      • Katastrofa spowodowana brakiem danych
    • JAKA JEST HISTORIA POCHODZENIA DANYCH?
      • Kto zebrał dane?
      • Jak zebrano dane?
    • CZY DANE SĄ REPREZENTATYWNE?
      • Czy poprawnie dobrano próbę?
      • Co zrobiono z wartościami odstającymi?
    • JAKICH DANYCH NIE WIDZĘ?
      • Jak rozwiązano problem brakujących wartości?
      • Czy dane mogą zmierzyć to, co ma być mierzone?
    • POLEMIZUJ Z DANYMI KAŻDEJ WIELKOŚCI
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 5. EKSPLORUJ DANE
    • EKSPLORACYJNA ANALIZA DANYCH I TY
    • PRZYJMIJ NASTAWIENIE EKSPLORACYJNE
      • Pytania naprowadzające
      • Scenariusz
    • CZY DANE MOGĄ ODPOWIEDZIEĆ NA PYTANIE?
      • Określ oczekiwania i użyj zdrowego rozsądku
      • Czy wartości mają intuicyjny sens?
      • Uważaj! Wartości odstające i brakujące
    • CZY ODKRYLIŚCIE JAKIEŚ ZWIĄZKI?
      • Korelacja
      • Uważaj! Błędne interpretowanie korelacji
      • Uważaj! Korelacja nie implikuje przyczynowości
    • CZY ZNALEŹLIŚCIE W DANYCH NOWE MOŻLIWOŚCI?
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 6. BADAJ PRAWDOPODOBIEŃSTWA
    • ZGADNIJ ODPOWIEDŹ
    • REGUŁY GRY
      • Notacja
      • Prawdopodobieństwo warunkowe i zdarzenia niezależne
      • Prawdopodobieństwo wielu zdarzeń
    • ĆWICZENIE MYŚLOWE Z ZAKRESU PRAWDOPODOBIEŃSTWA
      • Następne kroki
    • UWAŻAJ Z ZAKŁADANIEM NIEZALEŻNOŚCI
      • Nie popełniaj błędu hazardzisty
    • WSZYSTKIE PRAWDOPODOBIEŃSTWA SĄ WARUNKOWE
      • Nie przestawiaj zależności
      • Twierdzenie Bayesa
    • UPEWNIJ SIĘ, ŻE PRAWDOPODOBIEŃSTWA MAJĄ ZNACZENIE
      • Kalibracja
      • Rzadkie zdarzenia mogą się zdarzać i się zdarzają
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 7. KWESTIONUJ STATYSTYKI
    • KRÓTKIE LEKCJE O WNIOSKOWANIU
      • Zostaw sobie trochę przestrzeni
      • Więcej danych, więcej dowodów
      • Kwestionuj status quo
      • Dowody na twierdzenie przeciwne
      • Równoważenie błędów decyzyjnych
    • PROCES WNIOSKOWANIA STATYSTYCZNEGO
    • PYTANIA, KTÓRE POMOGĄ CI KWESTIONOWAĆ STATYSTYKI
      • Jaki jest kontekst tych statystyk?
      • Jaki jest rozmiar próby?
      • Co testujecie?
      • Jaka jest hipoteza zerowa?
      • Jaki jest poziom istotności?
      • Ile przeprowadzacie testów?
      • Czy mogę zobaczyć przedziały ufności?
      • Czy jest to praktycznie istotne?
      • Czy zakładacie przyczynowość?
    • PODSUMOWANIE ROZDZIAŁU

CZĘŚĆ III. PRZYBORNIK SPECJALISTY DATA SCIENCE

  • ROZDZIAŁ 8. W POSZUKIWANIU UKRYTYCH GRUP
    • UCZENIE NIENADZOROWANE
    • REDUKCJA WYMIAROWOŚCI
      • Tworzenie cech złożonych
    • ANALIZA SKŁADOWYCH GŁÓWNYCH
      • Składowe główne zdolności sportowych
      • Podsumowanie PCA
      • Potencjalne pułapki
    • KLASTERYZACJA
    • KLASTERYZACJA METODĄ K-ŚREDNICH
      • Klasteryzacja sklepów detalicznych
      • Potencjalne pułapki
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 9. MODEL REGRESJI
    • UCZENIE NADZOROWANE
    • JAK DZIAŁA REGRESJA LINIOWA?
      • Regresja metodą najmniejszych kwadratów: nie tylko pomysłowa nazwa
    • REGRESJA LINIOWA: CO CI DAJE?
      • Rozszerzanie modelu na wiele cech
    • REGRESJA LINIOWA: JAKIE POWODUJE NIEPOROZUMIENIA?
      • Pominięte zmienne
      • Współliniowość
      • Przeciek danych
      • Błędy ekstrapolacji
      • Relacje nie zawsze są liniowe
      • Wyjaśniasz czy przewidujesz?
      • Skuteczność regresji
    • INNE MODELE REGRESJI
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 10. MODEL KLASYFIKACJI
    • WPROWADZENIE DO KLASYFIKACJI
      • Czego się nauczysz?
      • Przykładowy problem klasyfikacj
    • REGRESJA LOGISTYCZNA
      • Regresja logistyczna - i co z tego?
    • DRZEWA DECYZYJNE
    • METODY ZESPOŁOWE
      • Lasy losowe
      • Drzewa wzmacniane gradientowo
      • Interpretowalność modeli zespołowych
    • STRZEŻ SIĘ PUŁAPEK
      • Złe podejście do problemu
      • Przeciek danych
      • Brak podziału danych
      • Wybór odpowiedniego progu decyzyjnego
    • BŁĘDNE ROZUMIENIE DOKŁADNOŚCI
      • Macierze błędów
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 11. ANALIZA TEKSTU
    • OCZEKIWANIA WOBEC ANALIZY TEKSTU
    • JAK TEKST STAJE SIĘ LICZBAMI
      • Wielki worek słów
      • N-gramy
      • Osadzenia słów
    • MODELOWANIE TEMATYCZNE
    • KLASYFIKACJA TEKSTU
      • Naiwny klasyfikator byesowski
      • Analiza odczuć
    • KWESTIE PRAKTYCZNE PODCZAS PRACY Z TEKSTEM
      • Giganci technologiczni mają przewagę
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 12. UCZENIE GŁĘBOKIE
    • SIECI NEURONOWE
      • Pod jakimi względami sieci neuronowe przypominają ludzki mózg?
      • Prosta sieć neuronowa
      • Jak uczy się sieć neuronowa?
      • Nieco bardziej złożona sieć neuronowa
    • ZASTOSOWANIA UCZENIA GŁĘBOKIEGO
      • Korzyści z uczenia głębokiego
      • Jak komputery "widzą" obrazy?
      • Konwolucyjne sieci neuronowe
      • Uczenie głębokie w języku i sekwencjach
    • UCZENIE GŁĘBOKIE W PRAKTYCE
      • Czy masz dane?
      • Czy Twoje dane są ustrukturyzowane?
      • Jak będzie wyglądać sieć?
    • SZTUCZNA INTELIGENCJA I TY
      • Giganci technologiczni mają przewagę
      • Etyka w uczeniu głębokim
    • PODSUMOWANIE ROZDZIAŁU

CZĘŚĆ IV. DROGA DO SUKCESU

  • ROZDZIAŁ 13. STRZEŻ SIĘ PUŁAPEK
    • TENDENCYJNOŚĆ I DZIWNE ZJAWISKA W DANYCH
      • Błąd przeżywalności
      • Regresja do średniej
      • Paradoks Simpsona
      • Błąd konfirmacj
      • Błąd utopionych kosztów
      • Dyskryminacja algorytmiczna
      • Nieskategoryzowane przejawy tendencyjności
    • WIELKA LISTA PUŁAPEK
      • Pułapki związane ze statystyką i uczeniem maszynowym
      • Pułapki związane z projektem
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 14. ZNAJ LUDZI I OSOBOWOŚCI
    • SIEDEM SCENARIUSZY FIASKA KOMUNIKACYJNEGO
      • Post mortem
      • Wieczorynka
      • Głuchy telefon
      • W gąszczu szczegółów
      • Konfrontacja z rzeczywistością
      • Wrogie przejęcie
      • Egocentryk
    • OSOBOWOŚCI W ŚWIECIE DANYCH
      • Entuzjasta
      • Cynik
      • Spec od danych
    • PODSUMOWANIE ROZDZIAŁU
  • ROZDZIAŁ 15. CO DALEJ?
  • Titel: Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym
  • Autor: Alex J. Gutman, Jordan Goldmeier
  • Originaler Titel: Becoming a Data Head: How to Think, Speak and Understand Data Science, Statistics and Machine Learning
  • Übersetzung: Grzegorz Werner
  • ISBN: 978-83-289-0216-9, 9788328902169
  • Veröffentlichungsdatum: 2023-10-24
  • Format: E-book
  • Artikelkennung: dascbi
  • Verleger: Helion