E-book details

SQL dla analityków danych. Tworzenie zbiorów danych dla początkujących

SQL dla analityków danych. Tworzenie zbiorów danych dla początkujących

Renée M. P. Teate

Ebook

Język SQL zwykle służy do pracy z bazami danych. Poprawnie napisany kod SQL przetwarza z dużą szybkością potężne zbiory danych, dlatego stanowi wymarzone narzędzie dla analityków danych. Tymczasem wielu z nich zleca wykonywanie raportów z baz czy hurtowni danych innym osobom. Taki sposób pracy jest nieefektywny - o wiele lepszym rozwiązaniem jest opanowanie języka SQL i samodzielne projektowanie oraz wyodrębnianie potrzebnych zbiorów danych.

Ten przystępny przewodnik jest przeznaczony dla analityków danych, którzy chcą dobrze poznać proces tworzenia analitycznego zbioru danych i samodzielnie pisać kod niezbędny do uzyskania zamierzonego wyniku. Przedstawiono w nim składnię języka SQL oraz zasady budowania szybko działających zapytań do dużych zbiorów danych. Dokładnie wyjaśniono reguły stosowania poszczególnych instrukcji SQL, korzystania z funkcji agregujących i okienkowych, a także techniki eksploracyjnej analizy danych oraz tworzenia zbiorów danych na potrzeby raportów analitycznych. Omówiono również trudniejsze zagadnienia, takie jak zaawansowane zapytania SQL czy tworzenie zbiorów danych na potrzeby uczenia maszynowego. W książce znalazły się też fachowe porady na temat wnioskowania na podstawie danych i liczne ćwiczenia ułatwiające naukę.

Najciekawsze zagadnienia:

  • składnia SQL i projektowanie efektywnych zapytań
  • eksploracyjna analiza danych
  • tworzenie zbiorów danych z istniejących baz danych
  • projektowanie zbiorów danych na potrzeby uczenia maszynowego
  • zaawansowane elementy języka SQL
  • tworzenie tabel i widoków do przechowywania wyników zapytań

SQL: tak przygotujesz swój zbiór danych do analizy!

O autorce

O korektorze merytorycznym

Podziękowania

Wprowadzenie

Rozdział 1. Źródła danych

  • Źródła danych
  • Narzędzia do łączenia się ze źródłami danych i edycji zapytań SQL
  • Relacyjne bazy danych
  • Hurtownie danych
  • Pytania dotyczące źródła danych
  • Wprowadzenie do bazy danych Farmer's Market
  • Uwaga dotycząca terminologii stosowanej w uczeniu maszynowym
  • Ćwiczenia

Rozdział 2. Instrukcja SELECT

  • Instrukcja SELECT
  • Podstawowa składnia zapytania SELECT
  • Wybieranie kolumn i ograniczanie liczby zwracanych wierszy
  • Sortowanie wyników za pomocą klauzuli ORDER BY
  • Wprowadzenie do prostych obliczeń inline
  • Więcej przykładów obliczeń typu inline - zaokrąglanie
  • Więcej przykładów obliczeń inline - konkatenacja łańcuchów znaków
  • Ocena wyniku zapytania
  • Podsumowanie instrukcji SELECT
  • Ćwiczenia

Rozdział 3. Klauzula WHERE

  • Klauzula WHERE
  • Filtrowanie wyników z zapytania SELECT
  • Filtrowanie według wielu warunków
  • Wielokolumnowe filtrowanie warunkowe
  • Więcej sposobów filtrowania
    • BETWEEN
    • IN
    • LIKE
    • IS NULL
    • Ostrzeżenie na temat porównań z wartościami NULL
  • Filtrowanie za pomocą podzapytań
  • Ćwiczenia

Rozdział 4. Instrukcja CASE

  • Składnia instrukcji CASE
  • Tworzenie flag binarnych za pomocą CASE
  • Grupowanie wartości ciągłych za pomocą CASE
  • Kodowanie wartości kategorialnych za pomocą CASE
  • Podsumowanie instrukcji CASE
  • Ćwiczenia

Rozdział 5. Złączenia w SQL-u

  • Relacje w bazie danych i złączenia
  • Pułapka często pojawiająca się podczas filtrowania połączonych danych
  • Złączenie więcej niż dwóch tabel
  • Ćwiczenia

Rozdział 6. Agregacja wyników na potrzeby analizy

  • Składnia GROUP BY
  • Statystyki podsumowujące grupy
  • Obliczenia wewnątrz funkcji agregujących
  • Minimum i maksimum
  • COUNT i COUNT DISTINCT
  • Średnia
  • Filtrowanie za pomocą HAVING
  • Instrukcje CASE wewnątrz funkcji agregujących
  • Ćwiczenia

Rozdział 7. Funkcje okienkowe i podzapytania

  • ROW_NUMBER
  • RANK i DENSE_RANK
  • NTILE
  • Agregujące funkcje okienkowe
  • LAG i LEAD
  • Ćwiczenia

Rozdział 8. Funkcje związane z datą i czasem

  • Ustawianie wartości w polu typu datetime
  • EXTRACT i DATE_PART
  • DATE_ADD i DATE_SUB
  • DATEDIFF
  • TIMESTAMPDIFF
  • Funkcje do obsługi dat w obliczeniach na zagregowanych danych i funkcjach okienkowych
  • Ćwiczenia

Rozdział 9. Eksploracyjna analiza danych w języku SQL

  • Eksploracyjna analiza danych z użyciem języka SQL
  • Eksploracja tabeli product
  • Eksploracja potencjalnych wartości w kolumnach
  • Badanie zmian w czasie
  • Eksploracja wielu tabel naraz
  • Stan a sprzedaż
  • Ćwiczenia

Rozdział 10. Tworzenie zbiorów danych na potrzeby raportów analitycznych

  • Wymagania stawiane zbiorom danych do analizy
  • Korzystanie z własnych analitycznych zbiorów danych - wspólne wyrażenia tablicowe i widoki
  • Wykorzystanie SQL-a do tworzenia bardziej zaawansowanych raportów
  • Ćwiczenia

Rozdział 11. Bardziej zaawansowane zapytania

  • Operator UNION
  • Samozłączenie w celu określenia, czy dana wartość ustanowiła rekord
  • Nowi i powracający klienci według tygodni
  • Podsumowanie
  • Ćwiczenia

Rozdział 12. Tworzenie zbiorów danych na potrzeby uczenia maszynowego

  • Zbiory danych dla modeli szeregów czasowych
  • Zbiory danych do klasyfikacji binarnej
    • Tworzenie zbioru danych
    • Poszerzanie zbioru cech
    • Inżynieria cech
  • Kolejne kroki
  • Ćwiczenia

Rozdział 13. Przykłady tworzenia analitycznych zbiorów danych

  • Jakie czynniki wpływają na sprzedaż świeżych produktów?
  • Jak zmienia się sprzedaż w zależności od kodu pocztowego klienta, odległości od targowiska oraz danych demograficznych?
  • Jak rozkład cen produktów wpływa na sprzedaż?

Rozdział 14. Przechowywanie i modyfikowanie danych

  • Przechowywanie zbiorów danych w postaci tabel i widoków
  • Dodawanie kolumny ze znacznikiem czasu
  • Dodawanie wierszy i aktualizowanie wartości w tabelach
  • Korzystanie z SQL-a wewnątrz skryptów
  • Na zakończenie
  • Ćwiczenia

Dodatek A. Odpowiedzi

  • Title: SQL dla analityków danych. Tworzenie zbiorów danych dla początkujących
  • Author: Renée M. P. Teate
  • Original title: SQL for Data Scientists: A Beginner's Guide for Building Datasets for Analysis
  • Translation: Filip Kamiński
  • ISBN: 978-83-283-9745-3, 9788328397453
  • Date of issue: 2023-02-21
  • Format: Ebook
  • Item ID: sqland
  • Publisher: Helion