E-book details

Język R. Kompletny zestaw narzędzi dla analityków danych

Język R. Kompletny zestaw narzędzi dla analityków danych

Hadley Wickham, Garrett Grolemund

Ebook

Analiza danych jest stosunkowo młodą, interdyscyplinarną dziedziną, której celem jest wydobycie i wykorzystanie wiedzy ukrytej w surowych danych pozyskanych z różnych źródeł. Można w ten sposób zrozumieć istotę zjawisk, przewidzieć wystąpienie zdarzeń czy pozyskać informacje niedostępne w inny sposób. W wielu przypadkach wnioski wyciągnięte z analizy danych okazują się bezcenne, co doceniają profesjonaliści z licznych branż. Przygotowanie danych, przeanalizowanie ich i odpowiednie przedstawienie płynącej z nich wiedzy bywa sporym wyzwaniem, jednak dzięki takim narzędziom jak język R i związane z nim pakiety zadanie to staje się znacząco prostsze.

Niniejsza książka jest przystępnie napisanym przewodnikiem po języku R i narzędziach służących do analizy danych. Zawarto tu wyczerpujące wprowadzenie do języka R, programu RStudio i tidyverse. Zaprezentowano zestaw pakietów R, które znacznie poprawiają komfort pracy podczas analizy danych. Wyjaśniono znaczenie poszczególnych etapów analizy danych: ich importowania, oczyszczania, przekształcania, modelowania, wizualizowania, a także skutecznego komunikowania wiedzy płynącej z danych. Mimo że książka dotyczy narzędzi programistycznych, skorzystają z niej nie tylko programiści. Doceni ją każdy, kto chce zyskać solidne podstawy przygotowania i analizy danych.

Najważniejsze zagadnienia:

  • przekształcanie zbiorów danych
  • techniki analizy danych w języku R
  • eksplorowanie danych, formułowanie i testowanie hipotez
  • integracja opisów, kodu i wyników badań w języku R Markdown
  • graficzna prezentacja danych z wykorzystaniem ggplot2

R — wszystko, czego potrzebujesz w profesjonalnej analizie danych!

  • Wstęp
    • Czego się nauczysz
    • Organizacja książki
    • Czego się nie nauczysz
      • Big Data
      • Python, Julia i Friends
      • Dane nietabelaryczne
      • Potwierdzanie hipotez
    • Wymagania wstępne
      • R
      • RStudio
      • Tidyverse
      • Inne pakiety
    • Uruchamianie kodu R
    • Uzyskiwanie pomocy i dodatkowych informacji
    • Podziękowania
    • Konwencje wykorzystywane w tej książce
    • Korzystanie z przykładowego kodu
  • Część I Przegląd
  • Rozdział 1. Wizualizacja danych za pomocą pakietu ggplot2
    • Wstęp
      • Wymagania wstępne
    • Pierwsze kroki
      • Ramka danych mpg
      • Tworzenie wykresu za pomocą ggplot
      • Szablon wykresu
      • Ćwiczenia
    • Mapowanie estetyk
      • Ćwiczenia
    • Typowe problemy
    • Panele
      • Ćwiczenia
    • Obiekty geometryczne
      • Ćwiczenia
    • Przekształcenia statystyczne
      • Ćwiczenia
    • Dostosowanie położenia
      • Ćwiczenia
    • Systemy współrzędnych
      • Ćwiczenia
    • Warstwowa gramatyka graficzna
  • Rozdział 2. Organizacja pracy: podstawy
    • Podstawy kodowania
    • Co się kryje pod nazwą?
    • Wywoływanie funkcji
      • Ćwiczenia
  • Rozdział 3. Przekształcanie danych za pomocą pakietu dplyr
    • Wprowadzenie
      • Wymagania wstępne
      • nycflights13
      • Podstawy dplyr
    • Filtrowanie wierszy za pomocą funkcji filter()
      • Porównania
      • Operatory logiczne
      • Brakujące wartości
      • Ćwiczenia
    • Organizowanie wierszy za pomocą funkcji arrange()
      • Ćwiczenia
    • Wybieranie kolumn za pomocą funkcji select()
      • Ćwiczenia
    • Dodawanie nowych zmiennych za pomocą funkcji mutate()
      • Przydatne funkcje do tworzenia nowych zmiennych
      • Ćwiczenia
    • Zgrupowane wartości sumaryczne za pomocą funkcji summarize()
      • Łączenie kilku operacji w potok
      • Brakujące wartości
      • Liczność
      • Przydatne funkcje sumaryczne
      • Grupowanie według wielu zmiennych
      • Rozgrupowywanie
      • Ćwiczenia
    • Grupowanie wyników mutowania (i filtrowania)
      • Ćwiczenia
  • Rozdział 4. Organizacja pracy: skrypty
    • Uruchamianie kodu
    • Diagnostyka RStudio
      • Ćwiczenia
  • Rozdział 5. Eksploracyjna analiza danych
    • Wstęp
      • Wymagania wstępne
    • Pytania
    • Odchylenie
      • Wizualizacja rozkładów
      • Typowe wartości
      • Wartości nietypowe
      • Ćwiczenia
    • Wartości brakujące
      • Ćwiczenia
    • Kowariancja
      • Zmienna kategorialna i ciągła
      • Ćwiczenia
      • Dwie zmienne kategorialne
      • Ćwiczenia
      • Dwie zmienne ciągłe
      • Ćwiczenia
    • Wzorce i modele
    • Wywołania ggplot2
    • Więcej informacji
  • Rozdział 6. Organizacja pracy: projekty
    • Co jest prawdziwe?
    • Gdzie przebywają nasze analizy?
    • Ścieżki i katalogi
    • Projekty RStudio
    • Podsumowanie
  • Część II Przygotowywanie
  • Rozdział 7. Dane typu tibble z użyciem pakietu tibble
    • Wstęp
      • Wymagania wstępne
    • Tworzenie danych typu tibble
    • Typ tibble w porównaniu z typem data.frame
      • Wyświetlanie
      • Tworzenie podzbiorów
    • Interakcje ze starszym kodem
      • Ćwiczenia
  • Rozdział 8. Importowanie danych za pomocą pakietu readr
    • Wstęp
      • Wymagania wstępne
    • Zaczynamy
      • Porównanie z bazowym R
      • Ćwiczenia
    • Parsowanie wektora
      • Liczby
      • Napisy
      • Czynniki
      • Daty, dane data i czas oraz czas
      • Ćwiczenia
    • Parsowanie pliku
      • Strategia
      • Problemy
      • Inne strategie
    • Zapis do pliku
    • Inne typy danych
  • Rozdział 9. Czyszczenie danych z wykorzystaniem pakietu tidyr
    • Wstęp
      • Wymagania wstępne
    • Czyszczenie danych
      • Ćwiczenia
    • Rozkład i gromadzenie
      • Gromadzenie
      • Rozkładanie
      • Ćwiczenia
    • Rozdzielanie i łączenie
      • Rozdzielanie
      • Łączenie
      • Ćwiczenia
    • Brakujące wartości
      • Ćwiczenia
    • Studium przypadku
      • Ćwiczenia
    • Dane nieoczyszczone
  • Rozdział 10. Dane relacyjne z wykorzystaniem pakietu dplyr
    • Wstęp
      • Wymagania wstępne
    • nycflights13
      • Ćwiczenia
    • Klucze
      • Ćwiczenia
    • Złączenia mutujące
      • Na czym polegają złączenia?
      • Złączenie wewnętrzne
      • Złączenia zewnętrzne
      • Zduplikowane klucze
      • Definiowanie kolumn kluczy
      • Ćwiczenia
      • Inne implementacje
    • Złączenia filtrujące
      • Ćwiczenia
    • Problemy ze złączeniami
    • Operacje na zbiorach
  • Rozdział 11. Przetwarzanie napisów za pomocą pakietu stringr
    • Wstęp
      • Wymagania wstępne
    • Podstawy napisów
      • Długość napisu
      • Łączenie napisów
      • Wyodrębnianie fragmentów napisów
      • Ustawienia regionalne
      • Ćwiczenia
    • Dopasowywanie wzorców do wyrażeń regularnych
      • Podstawowe dopasowanie
      • Ćwiczenia
      • Kotwice
      • Ćwiczenia
      • Klasy znaków i alternatywy
      • Ćwiczenia
      • Powtórzenie
      • Ćwiczenia
    • Grupowanie i odwołania wsteczne
      • Ćwiczenia
    • Narzędzia
      • Wykrywanie dopasowań
      • Ćwiczenia
      • Wyodrębnianie dopasowań
      • Ćwiczenia
      • Dopasowania zgrupowane
      • Ćwiczenia
      • Zastępowanie dopasowań
      • Ćwiczenia
      • Dzielenie
      • Ćwiczenia
      • Znajdowanie dopasowań
    • Inne typy wzorców
      • Ćwiczenia
    • Inne sposoby użycia wyrażeń regularnych
    • Pakiet stringi
      • Ćwiczenia
  • Rozdział 12. Czynniki z użyciem pakietu forcats
    • Wstęp
      • Wymagania wstępne
    • Tworzenie czynników
    • Badania General Social Survey
      • Ćwiczenia
    • Modyfikowanie kolejności czynnika
      • Ćwiczenia
    • Modyfikowanie poziomów czynników
      • Ćwiczenia
  • Rozdział 13. Przetwarzanie daty i czasu za pomocą pakietu lubridate
    • Wstęp
      • Wymagania wstępne
    • Tworzenie daty lub czasu
      • Na podstawie napisów
      • Na podstawie poszczególnych komponentów
      • Na podstawie innych typów
      • Ćwiczenia
    • Komponenty danych typu data i czas
      • Pobieranie komponentów
      • Zaokrąglanie
      • Ustawianie komponentów
      • Ćwiczenia
    • Odcinki czasu
      • Czasy trwania
      • Okresy
      • Interwały
      • Podsumowanie
      • Ćwiczenia
    • Strefy czasowe
  • Część III Program
    • Więcej informacji
  • Rozdział 14. Potoki z wykorzystaniem pakietu magrittr
    • Wstęp
      • Wymagania wstępne
    • Alternatywy potoków
      • Kroki pośrednie
      • Nadpisywanie oryginału
      • Definiowanie funkcji
      • Użycie potoku
    • Kiedy nie należy używać potoków?
    • Inne narzędzia z pakietu magrittr
  • Rozdział 15. Funkcje
    • Wstęp
      • Wymagania wstępne
    • Kiedy powinienem napisać funkcję?
      • Ćwiczenia
    • Funkcje są dla ludzi i komputerów
      • Ćwiczenia
    • Wykonywanie warunkowe
      • Warunki
      • Wiele warunków
      • Styl kodu
      • Ćwiczenia
    • Argumenty funkcji
      • Wybieranie nazw
      • Sprawdzanie wartości
      • Argument ...
      • Leniwe przetwarzanie
      • Ćwiczenie
    • Zwracane wartości
      • Jawne instrukcje zwracania
      • Pisanie funkcji nadających się do potoku
    • Środowisko
  • Rozdział 16. Wektory
    • Wstęp
      • Wymagania wstępne
    • Podstawy wektorów
    • Ważne typy wektorów atomowych
      • Logiczne
      • Liczbowe
      • Napisów
      • Brakujące wartości
      • Ćwiczenia
    • Używanie wektorów atomowych
      • Wymuszanie
      • Funkcje testujące
      • Skalary i reguły dopełniania
      • Nazywanie wektorów
      • Tworzenie podzbiorów
      • Ćwiczenia
    • Wektory rekurencyjne (listy)
      • Wizualizowanie list
      • Tworzenie podzbiorów
      • Listy przypraw
      • Ćwiczenia
      • Atrybuty
    • Wektory rozszerzone
      • Czynniki
      • Daty i dane typu data i czas
      • Tibble
      • Ćwiczenia
  • Rozdział 17. Iteracje za pomocą pakietu purrr
    • Wstęp
      • Wymagania wstępne
    • Pętle for
      • Ćwiczenie
    • Odmiany pętli for
      • Modyfikowanie istniejącego obiektu
      • Wzorce pętli
      • Nieznana długość wektora wyjściowego
      • Nieznana długość sekwencji
      • Ćwiczenia
    • Pętle for kontra programowanie funkcyjne
      • Ćwiczenia
    • Funkcje mapujące
      • Skróty
      • Bazowy R
      • Ćwiczenia
    • Obsługa niepowodzeń
    • Mapowanie na podstawie wielu argumentów
      • Wywoływanie różnych funkcji
    • Funkcja walk
    • Inne wzorce pętli for
      • Funkcje predykatów
      • Funkcje reduce i accumulate
      • Ćwiczenia
  • Część IV Model
    • Generowanie kontra potwierdzanie hipotez
  • Rozdział 18. Podstawy modelowania z wykorzystaniem pakietu modelr
    • Wstęp
      • Wymagania wstępne
    • Prosty model
      • Ćwiczenia
    • Wizualizowanie modeli
      • Przewidywania
      • Resztki
      • Ćwiczenia
    • Formuły i rodziny modeli
      • Zmienne kategorialne
      • Interakcje (ciągłe i kategorialne)
      • Interakcje (dwie zmienne ciągłe)
      • Przekształcenia
      • Ćwiczenia
    • Wartości brakujące
    • Inne rodziny modeli
  • Rozdział 19. Budowanie modelu
    • Wstęp
      • Wymagania wstępne
    • Dlaczego diamenty niskiej jakości są droższe?
      • Cena w zależności od ilości karatów
      • Bardziej skomplikowany model
      • Ćwiczenia
    • Co wpływa na liczbę lotów w ciągu dnia?
      • Dzień tygodnia
      • Sezonowy efekt soboty
      • Zmienne obliczane
      • Czas roku: podejście alternatywne
      • Ćwiczenia
    • Więcej informacji o modelach
  • Rozdział 20. Wiele modeli z użyciem pakietów purrr i broom
    • Wstęp
      • Wymagania wstępne
    • gapminder
      • Dane zagnieżdżone
      • Kolumny w postaci list
      • Usuwanie zagnieżdżenia
      • Jakość modelu
      • Ćwiczenia
    • Kolumny w postaci list
    • Tworzenie kolumn w postaci list
      • Z zagnieżdżaniem
      • Za pomocą funkcji zwektoryzowanych
      • Na podstawie podsumowania wielowartościowego
      • Na podstawie listy nazwanej
      • Ćwiczenia
    • Upraszczanie kolumn w postaci list
      • Przekształcanie listy w wektor
      • Usuwanie zagnieżdżenia
      • Ćwiczenia
    • Czyszczenie danych za pomocą pakietu broom
  • Część V Komunikowanie
  • Rozdział 21. R Markdown
    • Wstęp
      • Wymagania wstępne
    • Podstawy R Markdown
      • Ćwiczenia
    • Formatowanie tekstu za pomocą Markdown
      • Ćwiczenia
    • Fragmenty kodu
      • Nazwa fragmentu
      • Opcje fragmentów
      • Tabela
      • Zapisywanie w pamięci podręcznej
      • Opcje globalne
      • Kod inline
      • Ćwiczenia
    • Rozwiązywanie problemów
    • Nagłówek YAML
      • Parametry
      • Bibliografie i cytaty
    • Więcej informacji
  • Rozdział 22. Grafika dla komunikacji z wykorzystaniem ggplot2
    • Wstęp
      • Wymagania wstępne
    • Etykieta
      • Ćwiczenia
    • Adnotacje
      • Ćwiczenia
    • Skale
      • Znaczniki osi i klucze legendy
      • Układ legendy
      • Zastępowanie skali
      • Ćwiczenia
    • Powiększanie
    • Szablony
    • Zapisywanie wykresów
      • Zmiana rozmiaru rysunków
      • Inne ważne opcje
    • Więcej informacji
  • Rozdział 23. Formaty R Markdown
    • Opcje wyjścia
    • Dokumenty
    • Notatniki
    • Prezentacje
    • Pulpity
    • Interaktywność
      • htmlwidgets
      • Shiny
    • Serwisy WWW
    • Inne formaty
    • Więcej informacji
  • Rozdział 24. Sposób pracy z R Markdown
    • O autorach
    • Kolofon
  • Title: Język R. Kompletny zestaw narzędzi dla analityków danych
  • Author: Hadley Wickham, Garrett Grolemund
  • Original title: R for Data Science: Import, Tidy, Transform, Visualize, and Model Data
  • ISBN: 978-83-283-6107-2, 9788328361072
  • Date of issue: 2017-12-01
  • Format: Ebook
  • Item ID: jezrkv
  • Publisher: Helion