Poznaj Data Science. Przekształcanie, eksplorowanie, wizualizacja i modelowanie danych w Pythonie - E-book - Deborah Nolan, Joseph Gonzalez, Sam Lau - Moderne lernplattform

Kategorien

Details zum E-Book

Einloggen, wenn Sie am Inhalt des Artikels interessiert sind.

Poznaj Data Science. Przekształcanie, eksplorowanie, wizualizacja i modelowanie danych w Pythonie

E-book

Jako ambitny Data Scientist, czyli danetyk, rozumiesz, dlaczego organizacje polegają na danych przy podejmowaniu ważnych decyzji - czy chodzi o firmy projektujące witryny internetowe, władze miasta decydujące o sposobie poprawy usług, czy naukowców pracujących nad zatrzymaniem rozprzestrzeniania się choroby. Chcesz nabyć umiejętności wyciągania praktycznych wniosków z nieuporządkowanego mnóstwa danych. Nazywamy to danetycznym cyklem życia: proces zbierania, przekształcania, analizowania danych i wyciągania z nich wniosków.

Poznaj Data Science to pierwsza książka przedstawiająca fundamentalne umiejętności dotyczące zarówno programowania, jak i statystyki, które są potrzebne w całym cyklu życia. Jest skierowana do osób, które chcą zostać danetykami lub z nimi współpracują, a także analityków danych, którzy chcą przekroczyć podział na "techniczne/nietechniczne". Jeśli znasz podstawy programowania w Pythonie, nauczysz się pracować z danymi przy użyciu standardowych w branży narzędzi, takich jak pandas.

- Sprecyzuj pytanie, aby pozwalało na badanie interesującej kwestii przy użyciu danych

- Zgromadź dane, co może obejmować przetwarzanie tekstu, ekstrakcję danych internetowych itp.

- Zyskaj wartościowe spostrzeżenia, dzięki oczyszczaniu, eksplorowaniu i wizualizacji danych

- Poznaj sposoby modelowania służące do opisu danych

- Dokonaj uogólnień wykraczających poza dane

"Żałuję, że nie mieliśmy tej książki, gdy pierwszy raz wymyślaliśmy określenie Data Scientist na nasz zawód. Warto zacząć od niej zajmowanie się analizą/inżynierią danych, sztuczną inteligencją lub uczeniem maszynowym".

-DJ Patil, PhD

pierwszy US Chief Data Scientist

Sam Lau jest asystentem w Halıcıoğlu Data Science Institute na uniwersytecie UC San Diego. Sam ma dziesięć lat doświadczenia w nauczaniu. Ułożył program przedmiotu Data Science i nauczał go na wzorcowych kursach na uniwersytetach UC Berkeley i UC San Diego.

Joey Gonzalez jest adiunktem na wydziale EECS na uniwersytecie UC Berkeley, członkiem grupy badawczej Berkeley AI Research oraz członkiem założycielem organizacji Berkeley RISE Lab. Jest także współzałożycielem firm Turi Inc. i Aqueduct, które tworzą narzędzia dla osób zajmujących się Data Science.

Deborah Nolan jest profesorem emerita statystyki i prodziekanem ds. studentów w College of Computing, Data Science, and Society na uniwersytecie UC Berkeley.

Danetyczny cykl życia
- Etapy cyklu życia
- Przykłady cyklu życia
- Podsumowanie
Pytania i zakres danych
- Big Data i nowe możliwości
- Populacja docelowa, zbiór dostępny i próba
- Przyrządy i protokoły
- Mierzenie zjawiska naturalnego
- Dokładność
- Podsumowanie
Symulacja i projekt danych
- Model urnowy
- Przykład: symulowanie obciążenia systematycznego i wariancji sondażu wyborczego
- Przykład: symulacja randomizowanego badania klinicznego szczepionki
- Przykład: pomiary jakości powietrza
- Podsumowanie
Modelowanie przy użyciu statystyk podsumowujących
- Model stałej
- Minimalizacja straty
- Podsumowanie
Studium przypadku: dlaczego mój autobus zawsze się spóźnia?
- Pytanie i zakres
- Przetwarzanie danych
- Eksplorowanie czasów autobusów
- Modelowanie czasów oczekiwania
- Podsumowanie
Praca z ramkami danych przy użyciu pandas
- Operacje na podzbiorach
- Agregacje
- Złączenia
- Przekształcanie
- Czym różnią się ramki danych od innych reprezentacji danych?
- Podsumowanie
Praca z relacjami przy użyciu SQL
- Operacje na podzbiorach
- Agregacje
- Złączenia
- Przekształcanie i wyrażenia CTE
- Podsumowanie
Przekształcanie plików
- Przykładowe źródła danych
- Formaty plików
- Kodowanie plików
- Rozmiar pliku
- Powłoka i narzędzia wiersza poleceń
- Kształt i ziarnistość tabeli
- Podsumowanie
Przekształcanie ramek danych
- Testy jakości
- Brakujące wartości i rekordy
- Transformacje i znaczniki czasu
- Modyfikowanie struktury
- Przykład: przekształcanie naruszeń bezpieczeństwa restauracji
- Podsumowanie
Eksploracyjna analiza danych
- Typy cech
- Czego szukać w rozkładzie
- Czego szukać w zależności
- Porównania w sytuacjach wielu zmiennych
- Wytyczne dotyczące eksploracji
- Przykład: ceny sprzedaży domów
- Podsumowanie
Wizualizacja danych
- Wybór skali, aby ujawnić strukturę
- Wygładzanie i agregowanie danych
- Ułatwianie znaczących porównań
- Wykorzystanie projektu danych
- Dodawanie kontekstu
- Tworzenie wykresów przy użyciu plotly
- Inne narzędzia do wizualizacji
- Podsumowanie
Studium przypadku: jak dokładne są pomiary jakości powietrza?
- Pytanie, projekt i zakres
- Znajdowanie kolokowanych czujników
- Przekształcanie i oczyszczanie danych czujnika AQS
- Przekształcanie danych czujnika PurpleAir
- Eksplorowanie pomiarów PurpleAir i AQS
- Tworzenie modelu do korygowania pomiarów PurpleAir
- Podsumowanie
Praca z tekstem
- Przykłady tekstu i zadań
- Manipulacja ciągami znaków
- Wyrażenia regularne
- Analiza tekstu
- Podsumowanie
Wymiana danych
- Dane NetCDF
- Dane JSON
- HTTP
- REST
- XML, HTML i XPath
- Podsumowanie
Modele liniowe
- Prosty model liniowy
- Przykład: prosty model liniowy dotyczący jakości powietrza
- Dopasowywanie prostego modelu liniowego
- Wielowymiarowy model liniowy
- Dopasowywanie wielowymiarowego modelu liniowego
- Przykład: gdzie leży kraina możliwości?
- Inżynieria cech w przypadku pomiarów liczbowych
- Inżynieria cech w przypadku pomiarów kategorialnych
- Podsumowanie
Wybór modelu
- Nadmierne dopasowanie
- Podział na zbiór uczący i testowy
- Walidacja krzyżowa
- Regularyzacja
- Obciążenie systematyczne i wariancja modelu
- Podsumowanie
Teoria wnioskowania i prognozowania
- Rozkład: populacja, dane empiryczne, próbkowanie
- Podstawy testowania hipotez
- Stosowanie metody bootstrap do wnioskowania
- Podstawy przedziałów ufności
- Podstawy przedziałów prognoz
- Prawdopodobieństwo wnioskowania i prognozowania
- Podsumowanie
Studium przypadku: jak zważyć osła
- Pytanie i zakres badania dotyczącego osłów
- Przekształcanie i transformacje
- Eksploracja
- Modelowanie ciężaru osła
- Podsumowanie
Klasyfikacja
- Przykład: drzewa zniszczone przez wiatr
- Modelowanie i klasyfikacja
- Modelowanie proporcji (i prawdopodobieństw)
- Funkcja straty dla modelu logistycznego
- Od prawdopodobieństw do klasyfikacji
- Podsumowanie
Optymalizacja numeryczna
- Podstawy metody spadku gradientu
- Minimalizacja straty Hubera
- Wypukłe i różniczkowalne funkcje straty
- Warianty spadku gradientu
- Podsumowanie
Studium przypadku: wykrywanie fałszywych wiadomości
- Pytanie i zakres
- Pozyskiwanie i przekształcanie danych
- Eksploracja danych
- Modelowanie
- Podsumowanie

Titel: Poznaj Data Science. Przekształcanie, eksplorowanie, wizualizacja i modelowanie danych w Pythonie
Autor: Deborah Nolan, Joseph Gonzalez, Sam Lau
ISBN: 9788375415636, 9788375415636
Veröffentlichungsdatum: 2024-12-13
Format: E-book
Artikelkennung: e_46u9
Verleger: Promise