Details zum E-Book

Język R. Kompletny zestaw narzędzi dla analityków danych

Język R. Kompletny zestaw narzędzi dla analityków danych

Hadley Wickham, Garrett Grolemund

E-book

Analiza danych jest stosunkowo młodą, interdyscyplinarną dziedziną, której celem jest wydobycie i wykorzystanie wiedzy ukrytej w surowych danych pozyskanych z różnych źródeł. Można w ten sposób zrozumieć istotę zjawisk, przewidzieć wystąpienie zdarzeń czy pozyskać informacje niedostępne w inny sposób. W wielu przypadkach wnioski wyciągnięte z analizy danych okazują się bezcenne, co doceniają profesjonaliści z licznych branż. Przygotowanie danych, przeanalizowanie ich i odpowiednie przedstawienie płynącej z nich wiedzy bywa sporym wyzwaniem, jednak dzięki takim narzędziom jak język R i związane z nim pakiety zadanie to staje się znacząco prostsze.

Niniejsza książka jest przystępnie napisanym przewodnikiem po języku R i narzędziach służących do analizy danych. Zawarto tu wyczerpujące wprowadzenie do języka R, programu RStudio i tidyverse. Zaprezentowano zestaw pakietów R, które znacznie poprawiają komfort pracy podczas analizy danych. Wyjaśniono znaczenie poszczególnych etapów analizy danych: ich importowania, oczyszczania, przekształcania, modelowania, wizualizowania, a także skutecznego komunikowania wiedzy płynącej z danych. Mimo że książka dotyczy narzędzi programistycznych, skorzystają z niej nie tylko programiści. Doceni ją każdy, kto chce zyskać solidne podstawy przygotowania i analizy danych.

Najważniejsze zagadnienia:

  • przekształcanie zbiorów danych
  • techniki analizy danych w języku R
  • eksplorowanie danych, formułowanie i testowanie hipotez
  • integracja opisów, kodu i wyników badań w języku R Markdown
  • graficzna prezentacja danych z wykorzystaniem ggplot2

R — wszystko, czego potrzebujesz w profesjonalnej analizie danych!

  • Wstęp
    • Czego się nauczysz
    • Organizacja książki
    • Czego się nie nauczysz
      • Big Data
      • Python, Julia i Friends
      • Dane nietabelaryczne
      • Potwierdzanie hipotez
    • Wymagania wstępne
      • R
      • RStudio
      • Tidyverse
      • Inne pakiety
    • Uruchamianie kodu R
    • Uzyskiwanie pomocy i dodatkowych informacji
    • Podziękowania
    • Konwencje wykorzystywane w tej książce
    • Korzystanie z przykładowego kodu
  • Część I Przegląd
  • Rozdział 1. Wizualizacja danych za pomocą pakietu ggplot2
    • Wstęp
      • Wymagania wstępne
    • Pierwsze kroki
      • Ramka danych mpg
      • Tworzenie wykresu za pomocą ggplot
      • Szablon wykresu
      • Ćwiczenia
    • Mapowanie estetyk
      • Ćwiczenia
    • Typowe problemy
    • Panele
      • Ćwiczenia
    • Obiekty geometryczne
      • Ćwiczenia
    • Przekształcenia statystyczne
      • Ćwiczenia
    • Dostosowanie położenia
      • Ćwiczenia
    • Systemy współrzędnych
      • Ćwiczenia
    • Warstwowa gramatyka graficzna
  • Rozdział 2. Organizacja pracy: podstawy
    • Podstawy kodowania
    • Co się kryje pod nazwą?
    • Wywoływanie funkcji
      • Ćwiczenia
  • Rozdział 3. Przekształcanie danych za pomocą pakietu dplyr
    • Wprowadzenie
      • Wymagania wstępne
      • nycflights13
      • Podstawy dplyr
    • Filtrowanie wierszy za pomocą funkcji filter()
      • Porównania
      • Operatory logiczne
      • Brakujące wartości
      • Ćwiczenia
    • Organizowanie wierszy za pomocą funkcji arrange()
      • Ćwiczenia
    • Wybieranie kolumn za pomocą funkcji select()
      • Ćwiczenia
    • Dodawanie nowych zmiennych za pomocą funkcji mutate()
      • Przydatne funkcje do tworzenia nowych zmiennych
      • Ćwiczenia
    • Zgrupowane wartości sumaryczne za pomocą funkcji summarize()
      • Łączenie kilku operacji w potok
      • Brakujące wartości
      • Liczność
      • Przydatne funkcje sumaryczne
      • Grupowanie według wielu zmiennych
      • Rozgrupowywanie
      • Ćwiczenia
    • Grupowanie wyników mutowania (i filtrowania)
      • Ćwiczenia
  • Rozdział 4. Organizacja pracy: skrypty
    • Uruchamianie kodu
    • Diagnostyka RStudio
      • Ćwiczenia
  • Rozdział 5. Eksploracyjna analiza danych
    • Wstęp
      • Wymagania wstępne
    • Pytania
    • Odchylenie
      • Wizualizacja rozkładów
      • Typowe wartości
      • Wartości nietypowe
      • Ćwiczenia
    • Wartości brakujące
      • Ćwiczenia
    • Kowariancja
      • Zmienna kategorialna i ciągła
      • Ćwiczenia
      • Dwie zmienne kategorialne
      • Ćwiczenia
      • Dwie zmienne ciągłe
      • Ćwiczenia
    • Wzorce i modele
    • Wywołania ggplot2
    • Więcej informacji
  • Rozdział 6. Organizacja pracy: projekty
    • Co jest prawdziwe?
    • Gdzie przebywają nasze analizy?
    • Ścieżki i katalogi
    • Projekty RStudio
    • Podsumowanie
  • Część II Przygotowywanie
  • Rozdział 7. Dane typu tibble z użyciem pakietu tibble
    • Wstęp
      • Wymagania wstępne
    • Tworzenie danych typu tibble
    • Typ tibble w porównaniu z typem data.frame
      • Wyświetlanie
      • Tworzenie podzbiorów
    • Interakcje ze starszym kodem
      • Ćwiczenia
  • Rozdział 8. Importowanie danych za pomocą pakietu readr
    • Wstęp
      • Wymagania wstępne
    • Zaczynamy
      • Porównanie z bazowym R
      • Ćwiczenia
    • Parsowanie wektora
      • Liczby
      • Napisy
      • Czynniki
      • Daty, dane data i czas oraz czas
      • Ćwiczenia
    • Parsowanie pliku
      • Strategia
      • Problemy
      • Inne strategie
    • Zapis do pliku
    • Inne typy danych
  • Rozdział 9. Czyszczenie danych z wykorzystaniem pakietu tidyr
    • Wstęp
      • Wymagania wstępne
    • Czyszczenie danych
      • Ćwiczenia
    • Rozkład i gromadzenie
      • Gromadzenie
      • Rozkładanie
      • Ćwiczenia
    • Rozdzielanie i łączenie
      • Rozdzielanie
      • Łączenie
      • Ćwiczenia
    • Brakujące wartości
      • Ćwiczenia
    • Studium przypadku
      • Ćwiczenia
    • Dane nieoczyszczone
  • Rozdział 10. Dane relacyjne z wykorzystaniem pakietu dplyr
    • Wstęp
      • Wymagania wstępne
    • nycflights13
      • Ćwiczenia
    • Klucze
      • Ćwiczenia
    • Złączenia mutujące
      • Na czym polegają złączenia?
      • Złączenie wewnętrzne
      • Złączenia zewnętrzne
      • Zduplikowane klucze
      • Definiowanie kolumn kluczy
      • Ćwiczenia
      • Inne implementacje
    • Złączenia filtrujące
      • Ćwiczenia
    • Problemy ze złączeniami
    • Operacje na zbiorach
  • Rozdział 11. Przetwarzanie napisów za pomocą pakietu stringr
    • Wstęp
      • Wymagania wstępne
    • Podstawy napisów
      • Długość napisu
      • Łączenie napisów
      • Wyodrębnianie fragmentów napisów
      • Ustawienia regionalne
      • Ćwiczenia
    • Dopasowywanie wzorców do wyrażeń regularnych
      • Podstawowe dopasowanie
      • Ćwiczenia
      • Kotwice
      • Ćwiczenia
      • Klasy znaków i alternatywy
      • Ćwiczenia
      • Powtórzenie
      • Ćwiczenia
    • Grupowanie i odwołania wsteczne
      • Ćwiczenia
    • Narzędzia
      • Wykrywanie dopasowań
      • Ćwiczenia
      • Wyodrębnianie dopasowań
      • Ćwiczenia
      • Dopasowania zgrupowane
      • Ćwiczenia
      • Zastępowanie dopasowań
      • Ćwiczenia
      • Dzielenie
      • Ćwiczenia
      • Znajdowanie dopasowań
    • Inne typy wzorców
      • Ćwiczenia
    • Inne sposoby użycia wyrażeń regularnych
    • Pakiet stringi
      • Ćwiczenia
  • Rozdział 12. Czynniki z użyciem pakietu forcats
    • Wstęp
      • Wymagania wstępne
    • Tworzenie czynników
    • Badania General Social Survey
      • Ćwiczenia
    • Modyfikowanie kolejności czynnika
      • Ćwiczenia
    • Modyfikowanie poziomów czynników
      • Ćwiczenia
  • Rozdział 13. Przetwarzanie daty i czasu za pomocą pakietu lubridate
    • Wstęp
      • Wymagania wstępne
    • Tworzenie daty lub czasu
      • Na podstawie napisów
      • Na podstawie poszczególnych komponentów
      • Na podstawie innych typów
      • Ćwiczenia
    • Komponenty danych typu data i czas
      • Pobieranie komponentów
      • Zaokrąglanie
      • Ustawianie komponentów
      • Ćwiczenia
    • Odcinki czasu
      • Czasy trwania
      • Okresy
      • Interwały
      • Podsumowanie
      • Ćwiczenia
    • Strefy czasowe
  • Część III Program
    • Więcej informacji
  • Rozdział 14. Potoki z wykorzystaniem pakietu magrittr
    • Wstęp
      • Wymagania wstępne
    • Alternatywy potoków
      • Kroki pośrednie
      • Nadpisywanie oryginału
      • Definiowanie funkcji
      • Użycie potoku
    • Kiedy nie należy używać potoków?
    • Inne narzędzia z pakietu magrittr
  • Rozdział 15. Funkcje
    • Wstęp
      • Wymagania wstępne
    • Kiedy powinienem napisać funkcję?
      • Ćwiczenia
    • Funkcje są dla ludzi i komputerów
      • Ćwiczenia
    • Wykonywanie warunkowe
      • Warunki
      • Wiele warunków
      • Styl kodu
      • Ćwiczenia
    • Argumenty funkcji
      • Wybieranie nazw
      • Sprawdzanie wartości
      • Argument ...
      • Leniwe przetwarzanie
      • Ćwiczenie
    • Zwracane wartości
      • Jawne instrukcje zwracania
      • Pisanie funkcji nadających się do potoku
    • Środowisko
  • Rozdział 16. Wektory
    • Wstęp
      • Wymagania wstępne
    • Podstawy wektorów
    • Ważne typy wektorów atomowych
      • Logiczne
      • Liczbowe
      • Napisów
      • Brakujące wartości
      • Ćwiczenia
    • Używanie wektorów atomowych
      • Wymuszanie
      • Funkcje testujące
      • Skalary i reguły dopełniania
      • Nazywanie wektorów
      • Tworzenie podzbiorów
      • Ćwiczenia
    • Wektory rekurencyjne (listy)
      • Wizualizowanie list
      • Tworzenie podzbiorów
      • Listy przypraw
      • Ćwiczenia
      • Atrybuty
    • Wektory rozszerzone
      • Czynniki
      • Daty i dane typu data i czas
      • Tibble
      • Ćwiczenia
  • Rozdział 17. Iteracje za pomocą pakietu purrr
    • Wstęp
      • Wymagania wstępne
    • Pętle for
      • Ćwiczenie
    • Odmiany pętli for
      • Modyfikowanie istniejącego obiektu
      • Wzorce pętli
      • Nieznana długość wektora wyjściowego
      • Nieznana długość sekwencji
      • Ćwiczenia
    • Pętle for kontra programowanie funkcyjne
      • Ćwiczenia
    • Funkcje mapujące
      • Skróty
      • Bazowy R
      • Ćwiczenia
    • Obsługa niepowodzeń
    • Mapowanie na podstawie wielu argumentów
      • Wywoływanie różnych funkcji
    • Funkcja walk
    • Inne wzorce pętli for
      • Funkcje predykatów
      • Funkcje reduce i accumulate
      • Ćwiczenia
  • Część IV Model
    • Generowanie kontra potwierdzanie hipotez
  • Rozdział 18. Podstawy modelowania z wykorzystaniem pakietu modelr
    • Wstęp
      • Wymagania wstępne
    • Prosty model
      • Ćwiczenia
    • Wizualizowanie modeli
      • Przewidywania
      • Resztki
      • Ćwiczenia
    • Formuły i rodziny modeli
      • Zmienne kategorialne
      • Interakcje (ciągłe i kategorialne)
      • Interakcje (dwie zmienne ciągłe)
      • Przekształcenia
      • Ćwiczenia
    • Wartości brakujące
    • Inne rodziny modeli
  • Rozdział 19. Budowanie modelu
    • Wstęp
      • Wymagania wstępne
    • Dlaczego diamenty niskiej jakości są droższe?
      • Cena w zależności od ilości karatów
      • Bardziej skomplikowany model
      • Ćwiczenia
    • Co wpływa na liczbę lotów w ciągu dnia?
      • Dzień tygodnia
      • Sezonowy efekt soboty
      • Zmienne obliczane
      • Czas roku: podejście alternatywne
      • Ćwiczenia
    • Więcej informacji o modelach
  • Rozdział 20. Wiele modeli z użyciem pakietów purrr i broom
    • Wstęp
      • Wymagania wstępne
    • gapminder
      • Dane zagnieżdżone
      • Kolumny w postaci list
      • Usuwanie zagnieżdżenia
      • Jakość modelu
      • Ćwiczenia
    • Kolumny w postaci list
    • Tworzenie kolumn w postaci list
      • Z zagnieżdżaniem
      • Za pomocą funkcji zwektoryzowanych
      • Na podstawie podsumowania wielowartościowego
      • Na podstawie listy nazwanej
      • Ćwiczenia
    • Upraszczanie kolumn w postaci list
      • Przekształcanie listy w wektor
      • Usuwanie zagnieżdżenia
      • Ćwiczenia
    • Czyszczenie danych za pomocą pakietu broom
  • Część V Komunikowanie
  • Rozdział 21. R Markdown
    • Wstęp
      • Wymagania wstępne
    • Podstawy R Markdown
      • Ćwiczenia
    • Formatowanie tekstu za pomocą Markdown
      • Ćwiczenia
    • Fragmenty kodu
      • Nazwa fragmentu
      • Opcje fragmentów
      • Tabela
      • Zapisywanie w pamięci podręcznej
      • Opcje globalne
      • Kod inline
      • Ćwiczenia
    • Rozwiązywanie problemów
    • Nagłówek YAML
      • Parametry
      • Bibliografie i cytaty
    • Więcej informacji
  • Rozdział 22. Grafika dla komunikacji z wykorzystaniem ggplot2
    • Wstęp
      • Wymagania wstępne
    • Etykieta
      • Ćwiczenia
    • Adnotacje
      • Ćwiczenia
    • Skale
      • Znaczniki osi i klucze legendy
      • Układ legendy
      • Zastępowanie skali
      • Ćwiczenia
    • Powiększanie
    • Szablony
    • Zapisywanie wykresów
      • Zmiana rozmiaru rysunków
      • Inne ważne opcje
    • Więcej informacji
  • Rozdział 23. Formaty R Markdown
    • Opcje wyjścia
    • Dokumenty
    • Notatniki
    • Prezentacje
    • Pulpity
    • Interaktywność
      • htmlwidgets
      • Shiny
    • Serwisy WWW
    • Inne formaty
    • Więcej informacji
  • Rozdział 24. Sposób pracy z R Markdown
    • O autorach
    • Kolofon
  • Titel: Język R. Kompletny zestaw narzędzi dla analityków danych
  • Autor: Hadley Wickham, Garrett Grolemund
  • Originaler Titel: R for Data Science: Import, Tidy, Transform, Visualize, and Model Data
  • ISBN: 978-83-283-6107-2, 9788328361072
  • Veröffentlichungsdatum: 2017-12-01
  • Format: E-book
  • Artikelkennung: jezrkv
  • Verleger: Helion