Szczegóły ebooka

Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data. Wydanie IV

Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data. Wydanie IV

Brett Lantz

Ebook

Uczenie maszynowe polega na przekształcaniu danych w informacje ułatwiające podejmowanie decyzji. W erze big data umożliwia pracę z ogromnymi strumieniami napływających informacji ― pozwala na ich zrozumienie i efektywne zastosowanie. Ulubionym narzędziem analityków danych jest bezpłatne wieloplatformowe środowisko programowania statystycznego o nazwie R, oferujące potężne, intuicyjne i łatwe do opanowania narzędzia.

To czwarte, zaktualizowane wydanie znakomitego przewodnika poświęconego zastosowaniu uczenia maszynowego do rozwiązywania rzeczywistych problemów w analizie danych. Dzięki książce dowiesz się wszystkiego, co trzeba wiedzieć o wstępnym przetwarzaniu danych, znajdowaniu kluczowych spostrzeżeń, prognozowaniu i wizualizowaniu odkryć. W tym wydaniu dodano kilka nowych rozdziałów dotyczących data science i niektórych trudniejszych zagadnień, takich jak zaawansowane przygotowywanie danych, budowanie lepiej uczących się modeli i praca z big data. Znalazło się tu także omówienie etycznych aspektów uczenia maszynowego i wprowadzenie do uczenia głębokiego. Treść została zaktualizowana do wersji 4.0.0 języka R.

Dzięki tej książce nauczysz się:

  • kompleksowo realizować proces uczenia maszynowego
  • przeprowadzać predykcję za pomocą drzew decyzyjnych, reguł i maszyn wektorów nośnych
  • szacować wartości finansowe przy użyciu regresji
  • modelować złożone procesy z wykorzystaniem sztucznych sieci neuronowych
  • oceniać modele i poprawiać ich trafność
  • łączyć R z bazami danych SQL i nowymi technologiami big data

Naucz się przekształcać surowe dane w wiedzę!

O autorze

O recenzencie

Przedmowa

Rozdział 1. Wprowadzenie do uczenia maszynowego

  • Początki uczenia maszynowego
  • Użycia i nadużycia uczenia maszynowego
    • Sukcesy uczenia maszynowego
    • Ograniczenia uczenia maszynowego
    • Etyka uczenia maszynowego
  • Jak uczą się maszyny?
    • Zachowywanie danych
    • Abstrakcja
    • Generalizacja
    • Ewaluacja
  • Uczenie maszynowe w praktyce
    • Typy danych wejściowych
    • Typy algorytmów uczenia maszynowego
    • Dopasowywanie danych wejściowych do algorytmów
  • Uczenie maszynowe w języku R
    • Instalowanie pakietów R
    • Wczytywanie pakietów R i usuwanie ich z pamięci
    • Instalowanie RStudio
    • Dlaczego R i dlaczego teraz?
  • Podsumowanie

Rozdział 2. Zarządzanie danymi

  • Struktury danych języka R
    • Wektory
    • Czynniki
    • Listy
    • Ramki danych
    • Macierze i tablice
  • Zarządzanie danymi w języku R
    • Wczytywanie, zapisywanie i usuwanie struktur danych R
    • Importowanie i zapisywanie zbiorów danych z plików CSV
    • Importowanie typowych formatów zbiorów danych do RStudio
  • Badanie i rozumienie danych
    • Badanie struktury danych
    • Badanie cech liczbowych
    • Badanie cech kategorycznych
    • Eksplorowanie relacji między cechami
  • Podsumowanie

Rozdział 3. Uczenie leniwe - klasyfikacja metodą najbliższych sąsiadów

  • Klasyfikacja metodą najbliższych sąsiadów
    • Algorytm k-NN
    • Dlaczego algorytm k-NN jest "leniwy"?
  • Przykład - diagnozowanie raka piersi a pomocą algorytmu k-NN
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Podsumowanie

Rozdział 4. Uczenie probabilistyczne - naiwny klasyfikator bayesowski

  • Naiwny klasyfikator bayesowski
    • Podstawowe założenia metod bayesowskich
    • Naiwny klasyfikator bayesowski
  • Przykład - filtrowanie spamu w telefonach komórkowych za pomocą naiwnego klasyfikatora bayesowskiego
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ocena działania modelu
    • Etap 5. Ulepszanie modelu
  • Podsumowanie

Rozdział 5. Dziel i zwyciężaj - klasyfikacja z wykorzystaniem drzew decyzyjnych i reguł

  • Drzewa decyzyjne
    • Dziel i zwyciężaj
    • Algorytm drzewa decyzyjnego C5.0
  • Przykład - identyfikowanie ryzykownych pożyczek za pomocą drzew decyzyjnych C5.0
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ocena działania modelu
    • Etap 5. Poprawianie działania modelu
  • Reguły klasyfikacji
    • Wydzielaj i zwyciężaj
    • Algorytm 1R
    • Algorytm RIPPER
    • Reguły z drzew decyzyjnych
    • Dlaczego drzewa i reguły są "zachłanne"?
  • Przykład - identyfikowanie trujących grzybów za pomocą algorytmu uczącego się reguł
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Podsumowanie

Rozdział 6. Prognozowanie danych liczbowych - metody regresji

  • Regresja
    • Prosta regresja liniowa
    • Metoda zwykłych najmniejszych kwadratów
    • Korelacje
    • Wieloraka regresja liniowa
    • Uogólnione modele liniowe i regresja logistyczna
  • Przykład - przewidywanie kosztów likwidacji szkód z wykorzystaniem regresji liniowej
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
    • Krok dalej - przewidywanie odpływu ubezpieczonych z wykorzystaniem regresji logistycznej
  • Drzewa regresji i drzewa modeli
    • Dodawanie regresji do drzew
  • Przykład - ocenianie jakości win za pomocą drzew regresji i drzew modeli
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Podsumowanie

Rozdział 7. Czarne skrzynki - sieci neuronowe i maszyny wektorów nośnych

  • Sieci neuronowe
    • Od neuronów biologicznych do sztucznych
    • Funkcje aktywacji
    • Topologia sieci
    • Trenowanie sieci neuronowej za pomocą propagacji wstecznej
  • Przykład - modelowanie wytrzymałości betonu za pomocą sieci ANN
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Maszyny wektorów nośnych
    • Klasyfikacja za pomocą hiperpłaszczyzn
    • Używanie funkcji jądrowych w przestrzeniach nieliniowych
  • Przykład - optyczne rozpoznawanie znaków za pomocą modelu SVM
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Podsumowanie

Rozdział 8. Znajdowanie wzorców - analiza koszyka z wykorzystaniem reguł asocjacyjnych

  • Reguły asocjacyjne
    • Algorytm Apriori do nauki reguł asocjacyjnych
    • Mierzenie istotności reguł - wsparcie i ufność
    • Budowanie zbioru reguł z wykorzystaniem zasady Apriori
  • Przykład - identyfikowanie często kupowanych artykułów spożywczych za pomocą reguł asocjacyjnych
    • Etap 1. Gromadzenie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Podsumowanie

Rozdział 9. Znajdowanie grup danych - klasteryzacja metodą k-średnich

  • Klasteryzacja
    • Klasteryzacja jako zadanie uczenia maszynowego
    • Klastry algorytmów klasteryzacji
    • Klasteryzacja metodą k-średnich
  • Znajdowanie segmentów rynkowych wśród nastolatków poprzez klasteryzację metodą k-średnich
    • Etap 1. Zbieranie danych
    • Etap 2. Badanie i przygotowywanie danych
    • Etap 3. Trenowanie modelu na danych
    • Etap 4. Ewaluacja modelu
    • Etap 5. Poprawianie działania modelu
  • Podsumowanie

Rozdział 10. Ewaluacja działania modelu

  • Mierzenie trafności klasyfikacji
    • Rozumienie prognoz klasyfikatora
    • Bliższe spojrzenie na macierze błędów
    • Używanie macierzy błędów do mierzenia trafności
    • Nie tylko dokładność - inne miary trafności
    • Wizualizacja kompromisów za pomocą krzywych ROC
  • Szacowanie przyszłej trafności
    • Metoda wstrzymywania
    • Walidacja krzyżowa
    • Próbkowanie bootstrapowe
  • Podsumowanie

Rozdział 11. Jak odnieść sukces w uczeniu maszynowym?

  • Co decyduje o sukcesie praktyka uczenia maszynowego?
  • Co decyduje o sukcesie modelu uczenia maszynowego?
    • Unikanie oczywistych prognoz
    • Przeprowadzanie uczciwych ewaluacji
    • Uwzględnianie realiów
    • Budowanie zaufania do modelu
  • Więcej "nauki" w "nauce o danych"
    • Notatniki R i znakowanie R
    • Zaawansowane badanie danych
  • Podsumowanie

Rozdział 12. Zaawansowane przygotowywanie danych

  • Inżynieria cech
    • Rola człowieka i maszyny
    • Wpływ big data i uczenia głębokiego
  • Praktyczna inżynieria cech
    • Podpowiedź 1. Znajdź nowe cechy podczas burzy mózgów
    • Podpowiedź 2. Znajdź spostrzeżenia ukryte w tekście
    • Podpowiedź 3. Przekształcaj zakresy liczbowe
    • Podpowiedź 4. Obserwuj zachowanie sąsiadów
    • Podpowiedź 5. Wykorzystaj powiązane wiersze
    • Podpowiedź 6. Dekomponuj szeregi czasowe
    • Podpowiedź 7. Dołącz dane zewnętrzne
  • tidyverse
    • "Schludne" struktury tabelaryczne - obiekty tibble
    • Szybsze odczytywanie plików prostokątnych za pomocą pakietów readr i readxl
    • Przygotowywanie i potokowe przetwarzanie danych za pomocą pakietu dplyr
    • Przekształcanie tekstu za pomocą pakietu stringr
    • Czyszczenie danych za pomocą pakietu lubridate
  • Podsumowanie

Rozdział 13. Trudne dane - za duże, za małe, zbyt złożone

  • Dane wysokowymiarowe
    • Stosowanie selekcji cech
    • Ekstrakcja cech
  • Używanie danych rozrzedzonych
    • Identyfikowanie danych rozrzedzonych
    • Przykład - zmiana odwzorowania rozrzedzonych danych kategorycznych
    • Przykład - dzielenie rozrzedzonych danych liczbowych na przedziały
  • Obsługa brakujących danych
    • Typy brakujących danych
    • Imputacja brakujących wartości
  • Problem niezrównoważonych danych
    • Proste strategie przywracania równowagi danych
    • Generowanie syntetycznego zrównoważonego zbioru danych z wykorzystaniem algorytmu SMOTE
    • Czy zrównoważone zawsze znaczy lepsze?
  • Podsumowanie

Rozdział 14. Budowanie lepiej uczących się modeli

  • Dostrajanie standardowych modeli
    • Określanie zakresu dostrajania hiperparametrów
    • Przykład - automatyczne dostrajanie za pomocą pakietu caret
  • Zwiększanie trafności modeli za pomocą zespołów
    • Uczenie zespołowe
    • Popularne algorytmy zespołowe
  • Spiętrzanie modeli do celów metanauki
    • Spiętrzanie i mieszanie modeli
    • Praktyczne metody mieszania i spiętrzania w języku R
  • Podsumowanie

Rozdział 15. Praca z big data

  • Praktyczne zastosowania uczenia głębokiego
    • Pierwsze kroki w uczeniu głębokim
    • Konwolucyjne sieci neuronowe
  • Uczenie nienadzorowane a big data
    • Reprezentowanie koncepcji wysokowymiarowych jako osadzeń
    • Wizualizacja danych wysokowymiarowych
  • Adaptowanie języka R do obsługi dużych zbiorów danych
    • Odpytywanie baz danych SQL
    • Szybsza praca dzięki przetwarzaniu równoległemu
    • Używanie wyspecjalizowanego sprzętu i algorytmów
  • Podsumowanie
  • Tytuł: Uczenie maszynowe w języku R. Tworzenie i doskonalenie modeli - od przygotowania danych po dostrajanie, ewaluację i pracę z big data. Wydanie IV
  • Autor: Brett Lantz
  • Tytuł oryginału: Machine Learning with R: Learn techniques for building and improving machine learning models, from data preparation to model tuning, evaluation, and working with big data, 4th Edition
  • Tłumaczenie: Grzegorz Werner
  • ISBN: 978-83-289-0900-7, 9788328909007
  • Data wydania: 2024-06-04
  • Format: Ebook
  • Identyfikator pozycji: uczjr4
  • Wydawca: Helion
  • Kategoria wiekowa: 14+