Szczegóły ebooka

Poznaj Data Science. Przekształcanie, eksplorowanie, wizualizacja i modelowanie danych w Pythonie

Poznaj Data Science. Przekształcanie, eksplorowanie, wizualizacja i modelowanie danych w Pythonie

Deborah Nolan, Joseph Gonzalez, Sam Lau

Ebook

Jako ambitny Data Scientist, czyli danetyk, rozumiesz, dlaczego organizacje polegają na danych przy podejmowaniu ważnych decyzji - czy chodzi o firmy projektujące witryny internetowe, władze miasta decydujące o sposobie poprawy usług, czy naukowców pracujących nad zatrzymaniem rozprzestrzeniania się choroby. Chcesz nabyć umiejętności wyciągania praktycznych wniosków z nieuporządkowanego mnóstwa danych. Nazywamy to danetycznym cyklem życia: proces zbierania, przekształcania, analizowania danych i wyciągania z nich wniosków.

Poznaj Data Science to pierwsza książka przedstawiająca fundamentalne umiejętności dotyczące zarówno programowania, jak i statystyki, które są potrzebne w całym cyklu życia. Jest skierowana do osób, które chcą zostać danetykami lub z nimi współpracują, a także analityków danych, którzy chcą przekroczyć podział na "techniczne/nietechniczne". Jeśli znasz podstawy programowania w Pythonie, nauczysz się pracować z danymi przy użyciu standardowych w branży narzędzi, takich jak pandas.

- Sprecyzuj pytanie, aby pozwalało na badanie interesującej kwestii przy użyciu danych

- Zgromadź dane, co może obejmować przetwarzanie tekstu, ekstrakcję danych internetowych itp.

- Zyskaj wartościowe spostrzeżenia, dzięki oczyszczaniu, eksplorowaniu i wizualizacji danych

- Poznaj sposoby modelowania służące do opisu danych

- Dokonaj uogólnień wykraczających poza dane

"Żałuję, że nie mieliśmy tej książki, gdy pierwszy raz wymyślaliśmy określenie Data Scientist na nasz zawód. Warto zacząć od niej zajmowanie się analizą/inżynierią danych, sztuczną inteligencją lub uczeniem maszynowym".

-DJ Patil, PhD

pierwszy US Chief Data Scientist

Sam Lau jest asystentem w Halıcıoğlu Data Science Institute na uniwersytecie UC San Diego. Sam ma dziesięć lat doświadczenia w nauczaniu. Ułożył program przedmiotu Data Science i nauczał go na wzorcowych kursach na uniwersytetach UC Berkeley i UC San Diego.

Joey Gonzalez jest adiunktem na wydziale EECS na uniwersytecie UC Berkeley, członkiem grupy badawczej Berkeley AI Research oraz członkiem założycielem organizacji Berkeley RISE Lab. Jest także współzałożycielem firm Turi Inc. i Aqueduct, które tworzą narzędzia dla osób zajmujących się Data Science.

Deborah Nolan jest profesorem emerita statystyki i prodziekanem ds. studentów w College of Computing, Data Science, and Society na uniwersytecie UC Berkeley.

  • Danetyczny cykl życia
    • Etapy cyklu życia
    • Przykłady cyklu życia
    • Podsumowanie
  • Pytania i zakres danych
    • Big Data i nowe możliwości
    • Populacja docelowa, zbiór dostępny i próba
    • Przyrządy i protokoły
    • Mierzenie zjawiska naturalnego
    • Dokładność
    • Podsumowanie
  • Symulacja i projekt danych
    • Model urnowy
    • Przykład: symulowanie obciążenia systematycznego i wariancji sondażu wyborczego
    • Przykład: symulacja randomizowanego badania klinicznego szczepionki
    • Przykład: pomiary jakości powietrza
    • Podsumowanie
  • Modelowanie przy użyciu statystyk podsumowujących
    • Model stałej
    • Minimalizacja straty
    • Podsumowanie
  • Studium przypadku: dlaczego mój autobus zawsze się spóźnia?
    • Pytanie i zakres
    • Przetwarzanie danych
    • Eksplorowanie czasów autobusów
    • Modelowanie czasów oczekiwania
    • Podsumowanie
  • Praca z ramkami danych przy użyciu pandas
    • Operacje na podzbiorach
    • Agregacje
    • Złączenia
    • Przekształcanie
    • Czym różnią się ramki danych od innych reprezentacji danych?
    • Podsumowanie
  • Praca z relacjami przy użyciu SQL
    • Operacje na podzbiorach
    • Agregacje
    • Złączenia
    • Przekształcanie i wyrażenia CTE
    • Podsumowanie
  • Przekształcanie plików
    • Przykładowe źródła danych
    • Formaty plików
    • Kodowanie plików
    • Rozmiar pliku
    • Powłoka i narzędzia wiersza poleceń
    • Kształt i ziarnistość tabeli
    • Podsumowanie
  • Przekształcanie ramek danych
    • Testy jakości
    • Brakujące wartości i rekordy
    • Transformacje i znaczniki czasu
    • Modyfikowanie struktury
    • Przykład: przekształcanie naruszeń bezpieczeństwa restauracji
    • Podsumowanie
  • Eksploracyjna analiza danych
    • Typy cech
    • Czego szukać w rozkładzie
    • Czego szukać w zależności
    • Porównania w sytuacjach wielu zmiennych
    • Wytyczne dotyczące eksploracji
    • Przykład: ceny sprzedaży domów
    • Podsumowanie
  • Wizualizacja danych
    • Wybór skali, aby ujawnić strukturę
    • Wygładzanie i agregowanie danych
    • Ułatwianie znaczących porównań
    • Wykorzystanie projektu danych
    • Dodawanie kontekstu
    • Tworzenie wykresów przy użyciu plotly
    • Inne narzędzia do wizualizacji
    • Podsumowanie
  • Studium przypadku: jak dokładne są pomiary jakości powietrza?
    • Pytanie, projekt i zakres
    • Znajdowanie kolokowanych czujników
    • Przekształcanie i oczyszczanie danych czujnika AQS
    • Przekształcanie danych czujnika PurpleAir
    • Eksplorowanie pomiarów PurpleAir i AQS
    • Tworzenie modelu do korygowania pomiarów PurpleAir
    • Podsumowanie
  • Praca z tekstem
    • Przykłady tekstu i zadań
    • Manipulacja ciągami znaków
    • Wyrażenia regularne
    • Analiza tekstu
    • Podsumowanie
  • Wymiana danych
    • Dane NetCDF
    • Dane JSON
    • HTTP
    • REST
    • XML, HTML i XPath
    • Podsumowanie
  • Modele liniowe
    • Prosty model liniowy
    • Przykład: prosty model liniowy dotyczący jakości powietrza
    • Dopasowywanie prostego modelu liniowego
    • Wielowymiarowy model liniowy
    • Dopasowywanie wielowymiarowego modelu liniowego
    • Przykład: gdzie leży kraina możliwości?
    • Inżynieria cech w przypadku pomiarów liczbowych
    • Inżynieria cech w przypadku pomiarów kategorialnych
    • Podsumowanie
  • Wybór modelu
    • Nadmierne dopasowanie
    • Podział na zbiór uczący i testowy
    • Walidacja krzyżowa
    • Regularyzacja
    • Obciążenie systematyczne i wariancja modelu
    • Podsumowanie
  • Teoria wnioskowania i prognozowania
    • Rozkład: populacja, dane empiryczne, próbkowanie
    • Podstawy testowania hipotez
    • Stosowanie metody bootstrap do wnioskowania
    • Podstawy przedziałów ufności
    • Podstawy przedziałów prognoz
    • Prawdopodobieństwo wnioskowania i prognozowania
    • Podsumowanie
  • Studium przypadku: jak zważyć osła
    • Pytanie i zakres badania dotyczącego osłów
    • Przekształcanie i transformacje
    • Eksploracja
    • Modelowanie ciężaru osła
    • Podsumowanie
  • Klasyfikacja
    • Przykład: drzewa zniszczone przez wiatr
    • Modelowanie i klasyfikacja
    • Modelowanie proporcji (i prawdopodobieństw)
    • Funkcja straty dla modelu logistycznego
    • Od prawdopodobieństw do klasyfikacji
    • Podsumowanie
  • Optymalizacja numeryczna
    • Podstawy metody spadku gradientu
    • Minimalizacja straty Hubera
    • Wypukłe i różniczkowalne funkcje straty
    • Warianty spadku gradientu
    • Podsumowanie
  • Studium przypadku: wykrywanie fałszywych wiadomości
    • Pytanie i zakres
    • Pozyskiwanie i przekształcanie danych
    • Eksploracja danych
    • Modelowanie
    • Podsumowanie
  • Tytuł: Poznaj Data Science. Przekształcanie, eksplorowanie, wizualizacja i modelowanie danych w Pythonie
  • Autor: Deborah Nolan, Joseph Gonzalez, Sam Lau
  • ISBN: 9788375415636, 9788375415636
  • Data wydania: 2024-12-13
  • Format: Ebook
  • Identyfikator pozycji: e_46u9
  • Wydawca: Promise