Details zum E-Book

Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego

Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego

Chris Fregly, Antje Barth

E-book

Platforma Amazon Web Services jest uważana za największą i najbardziej dojrzałą chmurę obliczeniową. Zapewnia bogaty zestaw specjalistycznych narzędzi ułatwiających realizację projektów z zakresu inżynierii danych i uczenia maszynowego. W ten sposób inżynierowie danych, architekci i menedżerowie mogą szybko zacząć używać danych do podejmowania kluczowych decyzji biznesowych. Uzyskanie optymalnej efektywności pracy takich projektów wymaga jednak dobrego rozeznania w możliwościach poszczególnych narzędzi, usług i bibliotek.

Dzięki temu praktycznemu przewodnikowi szybko nauczysz się tworzyć i uruchamiać procesy w chmurze, a następnie integrować wyniki z aplikacjami. Zapoznasz się ze scenariuszami stosowania technik sztucznej inteligencji: przetwarzania języka naturalnego, rozpoznawania obrazów, wykrywania oszustw, wyszukiwania kognitywnego czy wykrywania anomalii w czasie rzeczywistym. Ponadto dowiesz się, jak łączyć cykle rozwoju modeli z pobieraniem i analizą danych w powtarzalnych potokach MLOps. W książce znajdziesz też zbiór technik zabezpieczania projektów i procesów z obszaru inżynierii danych, takich jak stosowanie usługi IAM, uwierzytelnianie, autoryzacja, izolacja sieci, szyfrowanie danych w spoczynku czy postkwantowe szyfrowanie sieci dla danych w tranzycie.

Najciekawsze zagadnienia:

  • narzędzia AWS związane ze sztuczną inteligencją i z uczeniem maszynowym
  • kompletny cykl rozwoju modelu przetwarzania języka naturalnego
  • powtarzalne potoki MLOps
  • uczenie maszynowe w czasie rzeczywistym
  • wykrywanie anomalii i analiza strumieni danych
  • zabezpieczanie projektów i procesów z obszaru inżynierii danych

AWS i inżynieria danych: tak zwiększysz wydajność i obniżysz koszty!

Implementowanie solidnego kompletnego procesu uczenia maszynowego to żmudne zadanie, dodatkowo komplikowane przez szeroki zakres dostępnych narzędzi i technologii. Autorzy wykonali świetną robotę, a jej efekty pomogą zarówno nowicjuszom, jak i doświadczonym praktykom realizować to zadanie z wykorzystaniem możliwości, jakie dają usługi AWS

Brent Rabowsky, danolog w firmie Amazon Web Services

Przedmowa

Rozdział 1. Wprowadzenie do danologii na platformie AWS

  • Zalety przetwarzania w chmurze
  • Potoki i procesy w danologii
  • Zalecane praktyki z obszaru MLOps
  • Usługi SI Amazona i zautomatyzowane uczenie maszynowe w narzędziu Amazon SageMaker
  • Pobieranie, eksploracja i przygotowywanie danych na platformie AWS
  • Uczenie i dostrajanie modelu za pomocą narzędzia Amazon SageMaker
  • Instalowanie modeli za pomocą usługi Amazon SageMaker i funkcji AWS Lambda
  • Analizy i uczenie maszynowe dla strumieni danych na platformie AWS
  • Infrastruktura platformy AWS i niestandardowy sprzęt
  • Ograniczanie kosztów za pomocą tagów, budżetów i alertów
  • Podsumowanie

Rozdział 2. Zastosowania danologii

  • Innowacje w każdej branży
  • Spersonalizowane rekomendacje produktów
  • Wykrywanie niestosownych materiałów wideo za pomocą usługi Amazon Rekognition
  • Prognozowanie zapotrzebowania
  • Identyfikowanie fałszywych kont za pomocą usługi Amazon Fraud Detector
  • Używanie usługi Amazon Macie do wykrywania wycieków wrażliwych danych
  • Urządzenia konwersacyjne i asystenci głosowi
  • Analiza tekstu i NLP
  • Wyszukiwanie kognitywne i rozumienie języka naturalnego
  • Inteligentne centra obsługi klienta
  • Przemysłowe usługi SI i konserwacja predykcyjna
  • Automatyzacja domu za pomocą narzędzi AWS IoT i Amazon SageMaker
  • Pobieranie informacji medycznych z dokumentów służby zdrowia
  • Samooptymalizująca i inteligentna infrastruktura chmury
  • Kognitywna i predyktywna analityka biznesowa
  • Edukacja następnego pokolenia programistów SI i UM
  • Zaprogramuj naturalny system operacyjny za pomocą przetwarzania kwantowego
  • Wzrost wydajności i obniżenie kosztów
  • Podsumowanie

Rozdział 3. Zautomatyzowane uczenie maszynowe

  • Zautomatyzowane uczenie maszynowe w usłudze SageMaker Autopilot
  • Śledzenie wyników eksperymentów za pomocą usługi SageMaker Autopilot
  • Uczenie i instalowanie klasyfikatora tekstu za pomocą usługi SageMaker Autopilot
  • Zautomatyzowane uczenie maszynowe w usłudze Amazon Comprehend
  • Podsumowanie

Rozdział 4. Pobieranie danych do chmury

  • Jeziora danych
  • Kierowanie zapytań do jeziora danych w S3 za pomocą usługi Amazon Athena
  • Ciągłe pobieranie nowych danych za pomocą narzędzia AWS Glue Crawler
  • Stosowanie architektury Lake House za pomocą usługi Amazon Redshift Spectrum
  • Wybór między narzędziami Amazon Athena a Amazon Redshift
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 5. Eksplorowanie zbioru danych

  • Narzędzia do eksplorowania danych w AWS
  • Wizualizowanie jeziora danych w środowisku SageMaker Studio
  • Zapytania dotyczące hurtowni danych
  • Tworzenie paneli kontrolnych za pomocą usługi Amazon QuickSight
  • Wykrywanie problemów z jakością danych za pomocą narzędzi Amazon SageMaker i Apache Spark
  • Wykrywanie tendencyjności w zbiorze danych
  • Wykrywanie zmian różnego rodzaju za pomocą usługi SageMaker Clarify
  • Analizowanie danych za pomocą usługi AWS Glue DataBrew
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 6. Przygotowywanie zbioru danych do uczenia modelu

  • Wybieranie i inżynieria cech
  • Skalowanie inżynierii cech za pomocą zadań SageMaker Processing
  • Udostępnianie cech za pomocą repozytorium cech z platformy SageMaker
  • Wczytywanie i przekształcanie danych w usłudze SageMaker Data Wrangler
  • Śledzenie historii artefaktów i eksperymentów na platformie Amazon SageMaker
  • Wczytywanie i przekształcanie danych za pomocą usługi AWS Glue DataBrew
  • Podsumowanie

Rozdział 7. Uczenie pierwszego modelu

  • Infrastruktura platformy SageMaker
  • Instalowanie wyuczonego modelu BERT za pomocą usługi SageMaker JumpStart
  • Tworzenie modelu w platformie SageMaker
  • Krótka historia przetwarzania języka naturalnego
  • Architektura Transformer w algorytmie BERT
  • Uczenie modelu BERT od podstaw
  • Dostrajanie wstępnie wyuczonego modelu BERT
  • Tworzenie skryptu uczenia
  • Uruchamianie skryptu uczenia w usłudze SageMaker Notebook
  • Ocena modeli
  • Debugowanie i profilowanie procesu uczenia modelu w usłudze SageMaker Debugger
  • Interpretowanie i wyjaśnianie predykcji modelu
  • Wykrywanie tendencyjności modelu i wyjaśnianie predykcji
  • Dodatkowe metody uczenia algorytmu BERT
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 8. Uczenie i optymalizowanie modeli na dużą skalę

  • Automatyczne znajdowanie optymalnych hiperparametrów dla modelu
  • Stosowanie ciepłego startu dla dodatkowych zadań dostrajania hiperparametrów na platformie SageMaker
  • Skalowanie poziome uczenia rozproszonego na platformie SageMaker
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 9. Instalowanie modeli w środowisku produkcyjnym

  • Predykcje w czasie rzeczywistym czy w trybie wsadowym?
  • Generowanie predykcji w czasie rzeczywistym za pomocą punktów końcowych platformy SageMaker
  • Automatyczne skalowanie punktów końcowych platformy SageMaker za pomocą usługi Amazon CloudWatch
  • Strategie instalowania nowych i zaktualizowanych modeli
  • Testowanie i porównywanie nowych modeli
  • Monitorowanie pracy modelu i wykrywanie zmian
  • Monitorowanie jakości danych w punktach końcowych platformy SageMaker
  • Monitorowanie jakości modelu w zainstalowanych punktach końcowych platformy SageMaker
  • Monitorowanie zmian tendencyjności w zainstalowanych punktach końcowych platformy SageMaker
  • Monitorowanie zmian wkładu cech w zainstalowanych punktach końcowych platformy SageMaker
  • Wsadowe generowanie predykcji za pomocą usługi przekształcania wsadowego na platformie SageMaker
  • Funkcje AWS Lambda i usługa Amazon API Gateway
  • Optymalizowanie modeli i zarządzanie nimi na obrzeżach sieci
  • Instalowanie modelu opartego na platformie PyTorch za pomocą narzędzia TorchServe
  • Generowanie predykcji przez algorytm BERT oparty na platformie TensorFlow na platformie AWS Deep Java Library
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 10. Potoki i MLOps

  • MLOps
  • Potoki programowe
  • Potoki uczenia maszynowego
  • Koordynowanie potoku za pomocą usługi SageMaker Pipelines
  • Automatyzacja w usłudze SageMaker Pipelines
  • Inne sposoby tworzenia potoków
  • Procesy z udziałem człowieka
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 11. Analizy i uczenie maszynowe dla danych przesyłanych strumieniowo

  • Uczenie w trybach online i offline
  • Aplikacje strumieniowe
  • Zapytania oparte na oknach dotyczące strumieniowanych danych
  • Analiza i uczenie maszynowe na podstawie strumieni na platformie AWS
  • Klasyfikowanie recenzji produktów w czasie rzeczywistym za pomocą narzędzi Amazon Kinesis, AWS Lambda i Amazon SageMaker
  • Implementowanie pobierania strumieniowanych danych za pomocą usługi Kinesis Data Firehose
  • Podsumowywanie recenzji produktów w czasie rzeczywistym na podstawie analizy strumienia
  • Konfigurowanie usługi Amazon Kinesis Data Analytics
  • Aplikacje w usłudze Kinesis Data Analytics
  • Klasyfikowanie recenzji produktów za pomocą narzędzi Apache Kafka, AWS Lambda i Amazon SageMaker
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie

Rozdział 12. Bezpieczna danologia na platformie AWS

  • Model podziału odpowiedzialności między platformę AWS i klientów
  • Korzystanie z usługi IAM na platformie AWS
  • Izolacja środowisk obliczeniowych i sieciowych
  • Zabezpieczanie dostępu do danych w S3
  • Szyfrowanie danych w spoczynku
  • Szyfrowanie danych w tranzycie
  • Zabezpieczanie instancji z notatnikami platformy SageMaker
  • Zabezpieczanie środowiska SageMaker Studio
  • Zabezpieczanie zadań i modeli platformy SageMaker
  • Zabezpieczanie usługi AWS Lake Formation
  • Zabezpieczanie danych uwierzytelniających do bazy za pomocą AWS Secrets Manager
  • Nadzór
  • Audytowalność
  • Zmniejszanie kosztów i zwiększanie wydajności
  • Podsumowanie
  • Titel: Inżynieria danych na platformie AWS. Jak tworzyć kompletne potoki uczenia maszynowego
  • Autor: Chris Fregly, Antje Barth
  • Originaler Titel: Data Science on AWS: Implementing End-to-End, Continuous AI and Machine Learning Pipelines
  • Übersetzung: Tomasz Walczak
  • ISBN: 978-83-283-9129-1, 9788328391291
  • Veröffentlichungsdatum: 2022-08-09
  • Format: E-book
  • Artikelkennung: indana
  • Verleger: Helion