Szczegóły ebooka

Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego

Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego

Chris Fregly, Antje Barth

Ebook

Platforma Amazon Web Services jest uważana za największą i najbardziej dojrzałą chmurę obliczeniową. Zapewnia bogaty zestaw specjalistycznych narzędzi ułatwiających realizację projektów z zakresu inżynierii danych i uczenia maszynowego. W ten sposób inżynierowie danych, architekci i menedżerowie mogą szybko zacząć używać danych do podejmowania kluczowych decyzji biznesowych. Uzyskanie optymalnej efektywności pracy takich projektów wymaga jednak dobrego rozeznania w możliwościach poszczególnych narzędzi, usług i bibliotek.

Dzięki temu praktycznemu przewodnikowi szybko nauczysz się tworzyć i uruchamiać procesy w chmurze, a następnie integrować wyniki z aplikacjami. Zapoznasz się ze scenariuszami stosowania technik sztucznej inteligencji: przetwarzania języka naturalnego, rozpoznawania obrazów, wykrywania oszustw, wyszukiwania kognitywnego czy wykrywania anomalii w czasie rzeczywistym. Ponadto dowiesz się, jak łączyć cykle rozwoju modeli z pobieraniem i analizą danych w powtarzalnych potokach MLOps. W książce znajdziesz też zbiór technik zabezpieczania projektów i procesów z obszaru inżynierii danych, takich jak stosowanie usługi IAM, uwierzytelnianie, autoryzacja, izolacja sieci, szyfrowanie danych w spoczynku czy postkwantowe szyfrowanie sieci dla danych w tranzycie.

Najciekawsze zagadnienia:

  • narzędzia AWS związane ze sztuczną inteligencją i z uczeniem maszynowym
  • kompletny cykl rozwoju modelu przetwarzania języka naturalnego
  • powtarzalne potoki MLOps
  • uczenie maszynowe w czasie rzeczywistym
  • wykrywanie anomalii i analiza strumieni danych
  • zabezpieczanie projektów i procesów z obszaru inżynierii danych

AWS i inżynieria danych: tak zwiększysz wydajność i obniżysz koszty!

Implementowanie solidnego kompletnego procesu uczenia maszynowego to żmudne zadanie, dodatkowo komplikowane przez szeroki zakres dostępnych narzędzi i technologii. Autorzy wykonali świetną robotę, a jej efekty pomogą zarówno nowicjuszom, jak i doświadczonym praktykom realizować to zadanie z wykorzystaniem możliwości, jakie dają usługi AWS

Brent Rabowsky, danolog w firmie Amazon Web Services

Przedmowa

Rozdział 1. Wprowadzenie do danologii na platformie AWS

  • Zalety przetwarzania w chmurze
  • Potoki i procesy w danologii
  • Zalecane praktyki z obszaru MLOps
  • Usługi SI Amazona i zautomatyzowane uczenie maszynowe w narzędziu Amazon SageMaker
  • Pobieranie, eksploracja i przygotowywanie danych na platformie AWS
  • Uczenie i dostrajanie modelu za pomocą narzędzia Amazon SageMaker
  • Instalowanie modeli za pomocą usługi Amazon SageMaker i funkcji AWS Lambda
  • Analizy i uczenie maszynowe dla strumieni danych na platformie AWS
  • Infrastruktura platformy AWS i niestandardowy sprzęt
  • Ograniczanie kosztów za pomocą tagów, budżetów i alertów
  • Podsumowanie

Rozdział 2. Zastosowania danologii

  • Innowacje w każdej branży
  • Spersonalizowane rekomendacje produktów
  • Wykrywanie niestosownych materiałów wideo za pomocą usługi Amazon Rekognition
  • Prognozowanie zapotrzebowania
  • Identyfikowanie fałszywych kont za pomocą usługi Amazon Fraud Detector
  • Używanie usługi Amazon Macie do wykrywania wycieków wrażliwych danych
  • Urządzenia konwersacyjne i asystenci głosowi
  • Analiza tekstu i NLP
  • Wyszukiwanie kognitywne i rozumienie języka naturalnego
  • Inteligentne centra obsługi klienta
  • Przemysłowe usługi SI i konserwacja predykcyjna
  • Automatyzacja domu za pomocą narzędzi AWS IoT i Amazon SageMaker
  • Pobieranie informacji medycznych z dokumentów służby zdrowia
  • Samooptymalizująca i inteligentna infrastruktura chmury
  • Kognitywna i predyktywna analityka biznesowa
  • Edukacja następnego pokolenia programistów SI i UM
  • Zaprogramuj naturalny system operacyjny za pomocą przetwarzania kwantowego
  • Wzrost wydajności i obniżenie kosztów
  • Podsumowanie

Rozdział 3. Zautomatyzowane uczenie maszynowe

  • Zautomatyzowane uczenie maszynowe w usłudze SageMaker Autopilot
  • Śledzenie wyników eksperymentów za pomocą usługi SageMaker Autopilot
  • Uczenie i instalowanie klasyfikatora tekstu za pomocą usługi SageMaker Autopilot
  • Zautomatyzowane uczenie maszynowe w usłudze Amazon Comprehend
  • Podsumowanie

Rozdział 4. Pobieranie danych do chmury

  • Jeziora danych
  • Kierowanie zapytań do jeziora danych w S3 za pomocą usługi Amazon Athena
  • Ciągłe pobieranie nowych danych za pomocą narzędzia AWS Glue Crawler
  • Stosowanie architektury Lake House za pomocą usługi Amazon Redshift Spectrum
  • Wybór między narzędziami Amazon Athena a Amazon Redshift
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 5. Eksplorowanie zbioru danych

  • Narzędzia do eksplorowania danych w AWS
  • Wizualizowanie jeziora danych w środowisku SageMaker Studio
  • Zapytania dotyczące hurtowni danych
  • Tworzenie paneli kontrolnych za pomocą usługi Amazon QuickSight
  • Wykrywanie problemów z jakością danych za pomocą narzędzi Amazon SageMaker i Apache Spark
  • Wykrywanie tendencyjności w zbiorze danych
  • Wykrywanie zmian różnego rodzaju za pomocą usługi SageMaker Clarify
  • Analizowanie danych za pomocą usługi AWS Glue DataBrew
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 6. Przygotowywanie zbioru danych do uczenia modelu

  • Wybieranie i inżynieria cech
  • Skalowanie inżynierii cech za pomocą zadań SageMaker Processing
  • Udostępnianie cech za pomocą repozytorium cech z platformy SageMaker
  • Wczytywanie i przekształcanie danych w usłudze SageMaker Data Wrangler
  • Śledzenie historii artefaktów i eksperymentów na platformie Amazon SageMaker
  • Wczytywanie i przekształcanie danych za pomocą usługi AWS Glue DataBrew
  • Podsumowanie

Rozdział 7. Uczenie pierwszego modelu

  • Infrastruktura platformy SageMaker
  • Instalowanie wyuczonego modelu BERT za pomocą usługi SageMaker JumpStart
  • Tworzenie modelu w platformie SageMaker
  • Krótka historia przetwarzania języka naturalnego
  • Architektura Transformer w algorytmie BERT
  • Uczenie modelu BERT od podstaw
  • Dostrajanie wstępnie wyuczonego modelu BERT
  • Tworzenie skryptu uczenia
  • Uruchamianie skryptu uczenia w usłudze SageMaker Notebook
  • Ocena modeli
  • Debugowanie i profilowanie procesu uczenia modelu w usłudze SageMaker Debugger
  • Interpretowanie i wyjaśnianie predykcji modelu
  • Wykrywanie tendencyjności modelu i wyjaśnianie predykcji
  • Dodatkowe metody uczenia algorytmu BERT
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 8. Uczenie i optymalizowanie modeli na dużą skalę

  • Automatyczne znajdowanie optymalnych hiperparametrów dla modelu
  • Stosowanie ciepłego startu dla dodatkowych zadań dostrajania hiperparametrów na platformie SageMaker
  • Skalowanie poziome uczenia rozproszonego na platformie SageMaker
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 9. Instalowanie modeli w środowisku produkcyjnym

  • Predykcje w czasie rzeczywistym czy w trybie wsadowym?
  • Generowanie predykcji w czasie rzeczywistym za pomocą punktów końcowych platformy SageMaker
  • Automatyczne skalowanie punktów końcowych platformy SageMaker za pomocą usługi Amazon CloudWatch
  • Strategie instalowania nowych i zaktualizowanych modeli
  • Testowanie i porównywanie nowych modeli
  • Monitorowanie pracy modelu i wykrywanie zmian
  • Monitorowanie jakości danych w punktach końcowych platformy SageMaker
  • Monitorowanie jakości modelu w zainstalowanych punktach końcowych platformy SageMaker
  • Monitorowanie zmian tendencyjności w zainstalowanych punktach końcowych platformy SageMaker
  • Monitorowanie zmian wkładu cech w zainstalowanych punktach końcowych platformy SageMaker
  • Wsadowe generowanie predykcji za pomocą usługi przekształcania wsadowego na platformie SageMaker
  • Funkcje AWS Lambda i usługa Amazon API Gateway
  • Optymalizowanie modeli i zarządzanie nimi na obrzeżach sieci
  • Instalowanie modelu opartego na platformie PyTorch za pomocą narzędzia TorchServe
  • Generowanie predykcji przez algorytm BERT oparty na platformie TensorFlow na platformie AWS Deep Java Library
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 10. Potoki i MLOps

  • MLOps
  • Potoki programowe
  • Potoki uczenia maszynowego
  • Koordynowanie potoku za pomocą usługi SageMaker Pipelines
  • Automatyzacja w usłudze SageMaker Pipelines
  • Inne sposoby tworzenia potoków
  • Procesy z udziałem człowieka
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 11. Analizy i uczenie maszynowe dla danych przesyłanych strumieniowo

  • Uczenie w trybach online i offline
  • Aplikacje strumieniowe
  • Zapytania oparte na oknach dotyczące strumieniowanych danych
  • Analiza i uczenie maszynowe na podstawie strumieni na platformie AWS
  • Klasyfikowanie recenzji produktów w czasie rzeczywistym za pomocą narzędzi Amazon Kinesis, AWS Lambda i Amazon SageMaker
  • Implementowanie pobierania strumieniowanych danych za pomocą usługi Kinesis Data Firehose
  • Podsumowywanie recenzji produktów w czasie rzeczywistym na podstawie analizy strumienia
  • Konfigurowanie usługi Amazon Kinesis Data Analytics
  • Aplikacje w usłudze Kinesis Data Analytics
  • Klasyfikowanie recenzji produktów za pomocą narzędzi Apache Kafka, AWS Lambda i Amazon SageMaker
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 12. Bezpieczna danologia na platformie AWS

  • Model podziału odpowiedzialności między platformę AWS i klientów
  • Korzystanie z usługi IAM na platformie AWS
  • Izolacja środowisk obliczeniowych i sieciowych
  • Zabezpieczanie dostępu do danych w S3
  • Szyfrowanie danych w spoczynku
  • Szyfrowanie danych w tranzycie
  • Zabezpieczanie instancji z notatnikami platformy SageMaker
  • Zabezpieczanie środowiska SageMaker Studio
  • Zabezpieczanie zadań i modeli platformy SageMaker
  • Zabezpieczanie usługi AWS Lake Formation
  • Zabezpieczanie danych uwierzytelniających do bazy za pomocą AWS Secrets Manager
  • Nadzór
  • Audytowalność
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie
  • Tytuł: Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego
  • Autor: Chris Fregly, Antje Barth
  • Tytuł oryginału: Data Science on AWS: Implementing End-to-End, Continuous AI and Machine Learning Pipelines
  • Tłumaczenie: Tomasz Walczak
  • ISBN: 978-83-283-9129-1, 9788328391291
  • Data wydania: 2022-08-09
  • Format: Ebook
  • Identyfikator pozycji: indana
  • Wydawca: Helion