Transformery w przetwarzaniu języka naturalnego i widzenia komputerowego. Generatywna AI oraz modele LLM z wykorzystaniem Hugging Face, ChatGPT, GPT-4V i DALL-E 3. Wydanie III - Ebook - Denis Rothman - Nowoczesna platforma edukacyjna

Szczegóły ebooka

Zaloguj się, jeśli jesteś zainteresowany treścią pozycji.

Transformery w przetwarzaniu języka naturalnego i widzenia komputerowego. Generatywna AI oraz modele LLM z wykorzystaniem Hugging Face, ChatGPT, GPT-4V i DALL-E 3. Wydanie III

Denis Rothman

Ebook

Transformery zrewolucjonizowały przetwarzanie języka naturalnego, analizę obrazów i komputerowe widzenie. Oparte na transformerach duże modele generatywne dostępne za pośrednictwem systemu ChatGPT z GPT-4V w zadaniach przetwarzania tekstu i obrazów przewyższają wydajność człowieka. Aby uczestniczyć w tej nowej erze technologicznej, musisz zrozumieć, jak działają transformery.

Tę książkę docenią praktycy: analitycy danych i inżynierowie uczenia maszynowego. Opisano w niej różne architektury transformerów - od pierwszych modeli podstawowych po najnowsze osiągnięcia w generatywnej sztucznej inteligencji. Dzięki lekturze nauczysz się wstępnego szkolenia i dostrajania modeli LLM, a także pracy nad różnymi przypadkami użycia. Poznasz takie problemy jak halucynacje i zagrożenia prywatności, a następnie dowiesz się, jak je łagodzić. W książce pokazano ponadto, jak poprawiać dokładność modeli LLM i uzyskiwać większą kontrolę nad generowanymi przez nie wynikami. Nie zabrakło ciekawych szczegółów dotyczących modeli generatywnych opartych na transformerach, modeli wizyjnych i architektur multimodalnych, jak również opisu najlepszych praktyk.

Najciekawsze tematy:

wstępne szkolenie i dostrajanie modeli LLM
platformy: Hugging Face, OpenAI i Google Vertex AI
tokenizery i najlepsze praktyki wstępnego przetwarzania danych językowych
techniki łagodzenia halucynacji
wizualizacja aktywności modeli transformerów z użyciem systemów BertViz, LIME i SHAP
modele wizyjne i multimodalne oparte na transformerach: CLIP, DALL-E 2, DALL-E 3 i GPT-4V

Sztuczna inteligencja, która widzi i mówi - przekonaj się, jak to działa!

O autorze

O korektorze merytorycznym

Przedmowa

Rozdział 1. Czym są transformery?

Stała złożoność czasowa O(1), która na zawsze zmieniła nasze życie
- Uwaga O(1) pokonuje rekurencyjne metody O(n)
- Magia obliczeniowej złożoności czasowej warstwy uwagi
- Krótka podróż od rekurencji do uwagi
Od jednego tokena do rewolucji w dziedzinie sztucznej inteligencji
- Od jednego tokena do całości
Modele podstawowe
- Od zadań ogólnych do zadań specjalistycznych
Rola specjalistów AI
- Przyszłość specjalistów AI
- Jakich zasobów powinniśmy używać?
- Wytyczne dotyczące podejmowania decyzji
Rozwój łatwych do integracji interfejsów API i asystentów
- Wybieranie gotowych do użycia bibliotek opartych na API
- Wybór platformy chmurowej i modelu transformera
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 2. Wprowadzenie do architektury modelu transformera

Powstanie transformera - uwaga to wszystko, czego potrzebujesz
- Stos kodera
- Stos dekodera
Szkolenie i wydajność
Transformery Hugging Face
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 3. Emergencja a zadania końcowe - niewidoczne głębiny transformerów

Zmiana paradygmatu: czym jest zadanie NLP?
- Wewnątrz głowicy podwarstwy uwagi transformera
- Analiza emergencji z użyciem ChatGPT
Badanie potencjału modelu w zakresie wykonywania zadań końcowych
- Ocena modeli za pomocą wskaźników
- Ocena dokonywana przez człowieka
Uruchamianie zadań końcowych
- CoLA
- SST-2
- MRPC
- WSC
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 4. Postępy w tłumaczeniach z wykorzystaniem Google Trax, Tłumacza Google i Gemini

Definicja tłumaczenia maszynowego
- Transdukcje i tłumaczenia wykonywane przez ludzi
- Transdukcje i tłumaczenia maszynowe
Ocena tłumaczeń maszynowych
- Wstępne przetwarzanie zbioru danych WMT
- Ocena tłumaczeń maszynowych według BLEU
Tłumaczenia z wykorzystaniem Google Trax
- Instalowanie biblioteki Trax
- Tworzenie modelu oryginalnego transformera
- Inicjalizowanie modelu z wykorzystaniem wyuczonych wag
- Tokenizowanie zdania
- Dekodowanie wyjścia z transformera
- Detokenizowanie i wyświetlanie tłumaczenia
Tłumaczenie za pomocą Tłumacza Google
- Tłumaczenie z wykorzystaniem wrappera interfejsu Google Translate Ajax API
Tłumaczenie z wykorzystaniem systemu Gemini
- Potencjał systemu Gemini
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 5. Szczegóły dostrajania z wykorzystaniem modelu BERT

Architektura BERT
- Stos kodera
Dostrajanie modelu BERT
- Określanie celu
- Ograniczenia sprzętowe
- Instalowanie transformerów Hugging Face
- Importowanie modułów
- Określanie CUDA jako urządzenia dla modułu torch
- Ładowanie zestawu danych CoLA
- Tworzenie zdań i list etykiet oraz dodawanie tokenów BERT
- Aktywowanie tokenizera BERT
- Przetwarzanie danych
- Tworzenie masek uwagi
- Dzielenie danych na zbiór szkoleniowy i zbiór walidacyjny
- Konwertowanie danych na tensory torch
- Wybieranie rozmiaru partii i tworzenie iteratora
- Konfigurowanie modelu BERT
- Ładowanie bazowego modelu Hugging Face bert-base-uncased
- Pogrupowane parametry optymalizatora
- Hiperparametry pętli szkoleniowej
- Pętla szkolenia
- Ocena szkolenia
- Prognozowanie i ocena z użyciem wydzielonego zbioru danych
- Ocena modelu z wykorzystaniem współczynnika korelacji Matthewsa
- Ocena za pomocą współczynnika korelacji Matthewsa całego zestawu danych
Budowanie interfejsu Pythona do interakcji z modelem
- Zapisywanie modelu
- Tworzenie interfejsu dla przeszkolonego modelu
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 6. Wstępne szkolenie transformera od podstaw z wykorzystaniem modelu RoBERTa

Szkolenie tokenizera i wstępne szkolenie transformera
Budowanie modelu KantaiBERT od podstaw
- Krok 1. Ładowanie zbioru danych
- Krok 2. Instalowanie transformerów Hugging Face
- Krok 3. Szkolenie tokenizera
- Krok 4. Zapisywanie plików na dysku
- Krok 5. Ładowanie plików tokenizera po przeszkoleniu
- Krok 6. Sprawdzanie ograniczeń zasobów: GPU i CUDA
- Krok 7. Definiowanie konfiguracji modelu
- Krok 8. Ponowne ładowanie tokenizera w module transformers
- Krok 9. Inicjalizowanie modelu od podstaw
- Krok 10. Tworzenie zbioru danych
- Krok 11. Definiowanie mechanizmu zbierania danych
- Krok 12. Inicjalizowanie trenera
- Krok 13. Wstępne szkolenie modelu
- Krok 14. Zapisywanie przeszkolonego modelu (+ tokenizer + konfiguracja) na dysku
- Krok 15. Modelowanie języka za pomocą potoku FillMaskPipeline
Wstępne szkolenie modelu obsługi klienta generatywnej sztucznej inteligencji na danych pochodzących z serwisu X
- Krok 1. Pobieranie zbioru danych
- Krok 2. Instalowanie bibliotek Hugging Face: transformers i datasets
- Krok 3. Ładowanie i filtrowanie danych
- Krok 4. Sprawdzanie ograniczeń zasobów: układ GPU i CUDA
- Krok 5. Definiowanie konfiguracji modelu
- Krok 6. Tworzenie i przetwarzanie zbioru danych
- Krok 7. Inicjalizowanie obiektu trenera
- Krok 8. Wstępne szkolenie modelu
- Krok 9. Zapisywanie modelu
- Krok 10. Interfejs użytkownika do czatu z agentem generatywnej AI
- Dalsze szkolenie wstępne
- Ograniczenia
Następne kroki
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 7. ChatGPT - rewolucja w generatywnej sztucznej inteligencji

Model GPT jako technologia ogólnego przeznaczenia
- Udoskonalenia
- Rozpowszechnianie
- Wszechobecność
Architektura modeli transformerów GPT firmy OpenAI
- Rozwój modeli transformerów o miliardach parametrów
- Coraz większe rozmiary modeli transformerów
- Rozmiar kontekstu i maksymalna długość ścieżki
- Od dostrajania do modeli zero-shot
- Stos warstw dekodera
- Modele GPT
Modele OpenAI w roli asystentów
- ChatGPT udostępnia kod źródłowy
- Asystent tworzenia kodu GitHub Copilot
- Przykłady promptów ogólnego przeznaczenia
- Rozpoczęcie pracy z ChatGPT - GPT-4 w roli asystenta
Rozpoczęcie pracy z API modelu GPT-4
- Uruchomienie pierwszego zadania NLP z użyciem modelu GPT-4
- Uruchamianie wielu zadań NLP
Wykorzystanie techniki RAG z GPT-4
- Instalacja
- Odzyskiwanie informacji z dokumentów
- Zastosowanie techniki RAG
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 8. Dostrajanie modeli GPT OpenAI

Zarządzanie ryzykiem
Dostrajanie modelu GPT do wykonywania (generatywnego) zadania uzupełniania
1. Przygotowywanie zbioru danych
- 1.1. Przygotowywanie danych w formacie JSON
- 1.2. Konwertowanie danych do formatu JSONL
2. Dostrajanie oryginalnego modelu
3. Uruchamianie dostrojonego modelu GPT
4. Zarządzanie zadaniami dostrajania i dostrojonymi modelami
Przed zakończeniem
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 9. Rozbijanie czarnej skrzynki za pomocą narzędzi do interpretacji działania transformerów

Wizualizacja działania transformera z użyciem BertViz
- Uruchamianie BertViz
Interpretacja działania transformerów Hugging Face za pomocą narzędzia SHAP
- Podstawowe informacje o SHAP
- Wyjaśnienie wyników transformerów Hugging Face z użyciem SHAP
Wizualizacja transformera poprzez uczenie słownikowe
- Współczynniki transformera
- Wprowadzenie do LIME
- Interfejs wizualizacji
Inne narzędzia interpretacji mechanizmów AI
- LIT
- Modele LLM OpenAI wyjaśniają działanie neuronów w transformerach
- Ograniczenia i kontrola ze strony człowieka
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 10. Badanie roli tokenizerów w kształtowaniu modeli transformerów

Dopasowywanie zbiorów danych i tokenizerów
- Najlepsze praktyki
- Tokenizacja Word2Vec
Badanie tokenizerów zdań i tokenizerów WordPiece w celu zrozumienia wydajności tokenizerów podwyrazów w kontekście ich wykorzystania przez transformery
- Tokenizery wyrazów i zdań
- Tokenizery oparte na podwyrazach
- Badanie tokenizerów w kodzie
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 11. Wykorzystanie osadzeń LLM jako alternatywy dla precyzyjnego dostrajania

Osadzenia LLM jako alternatywa dla precyzyjnego dostrajania
- Od projektowania promptów do inżynierii promptów
Podstawy osadzania tekstu za pomocą NLTK i Gensim
- Instalowanie bibliotek
- 1. Odczytywanie pliku tekstowego
- 2. Tokenizacja tekstu z użyciem tokenizera Punkt
- 3. Osadzanie tekstu za pomocą Gensim i Word2Vec
- 4. Opis modelu
- 5. Dostęp do słowa i wektora słów
- 6. Analiza przestrzeni wektorowej Gensim
- 7. TensorFlow Projector
Implementacja systemów pytań i odpowiedzi z użyciem technik opartych na osadzeniach
- 1. Instalowanie bibliotek i wybór modeli
- 2. Implementacja modelu osadzeń i modelu GPT
- 3.Przygotowywanie danych do wyszukiwania
- 4. Wyszukiwanie
- 5. Zadawanie pytania
Uczenie transferowe z użyciem osadzeń Ada
- 1. Zbiór danych Amazon Fine Food Reviews
- 2. Obliczanie osadzeń Ada i zapisywanie ich w celu ponownego wykorzystania w przyszłości
- 3. Klasteryzacja
- 4. Próbki tekstu w klastrach i nazwy klastrów
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 12. Oznaczanie ról semantycznych bez analizy składniowej z wykorzystaniem modelu GPT-4 i ChatGPT

Rozpoczynanie pracy z technikami SRL
Wprowadzenie do świata AI bez składni
Definicja SRL
- Wizualizacja SRL
Eksperymenty SRL z ChatGPT z modelem GPT-4
- Prosty przykład
- Trudny przykład
Kwestionowanie zakresu SRL
- Wyzwania związane z analizą orzeczeń
Ponowna definicja SRL
Od technik SRL specyficznych dla zadania do emergencji z wykorzystaniem ChatGPT
- 1. Instalowanie OpenAI
- 2. Tworzenie funkcji dialogu z GPT-4
- 3. Uruchamianie żądań SRL
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 13. Zadania generowania streszczeń z użyciem modeli T5 i ChatGPT

Projektowanie uniwersalnego modelu tekst - tekst
Powstanie modeli transformerów tekst - tekst
Prefiks zamiast formatów specyficznych dla zadań
Model T5
Tworzenie streszczeń tekstu z użyciem modelu T5
- Hugging Face
- Inicjalizowanie modelu transformera T5
- Tworzenie streszczeń dokumentów z użyciem modelu T5
Od transformera tekst - tekst do prognoz nowych słów z użyciem systemu ChatGPT firmy OpenAI
- Porównanie metod tworzenia streszczeń modelu T5 i systemu ChatGPT
- Tworzenie streszczeń z użyciem ChatGPT
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 14. Najnowocześniejsze modele LLM Vertex AI i PaLM 2

Architektura
- Pathways
- PaLM
- PaLM 2
Asystenty AI
- Gemini
- Google Workspace
- Google Colab Copilot
- Interfejs Vertex AI modelu PaLM 2
API PaLM 2 Vertex AI
- Odpowiadanie na pytania
- Zadanie typu pytanie - odpowiedź
- Podsumowanie dialogu
- Analiza tonu
- Zadania wielokrotnego wyboru
- Kod
Dostrajanie
- Utworzenie kontenera
- Dostrajanie modelu
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 15. Pilnowanie gigantów, czyli łagodzenie zagrożeń związanych z użyciem modeli LLM

Powstanie funkcjonalnej sztucznej inteligencji ogólnej (AGI)
Ograniczenia instalacji najnowocześniejszych platform
Auto-BIG-bench
WandB
Kiedy agenty AI zaczną się replikować?
Zarządzanie zagrożeniami
- Halucynacje i zapamiętywanie
- Ryzykowne zachowania emergentne
- Dezinformacja
- Wywieranie wpływu na opinię publiczną
- Treści szkodliwe
- Prywatność
- Cyberbezpieczeństwo
Narzędzia do łagodzenia zagrożeń z RLHF i RAG
- 1. Moderowanie wejścia i wyjścia za pomocą transformerów i bazy reguł
- 2. Budowanie bazy wiedzy dla systemu ChatGPT i modelu GPT-4
- 3. Parsowanie żądań użytkownika i korzystanie z bazy wiedzy
- 4. Generowanie zawartości ChatGPT z funkcją obsługi dialogu
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 16. Nie tylko tekst - transformery wizyjne u progu rewolucyjnej sztucznej inteligencji

Od modeli niezależnych od zadań do multimodalnych transformerów wizyjnych
Transformery wizyjne (ViT)
- Podstawowa architektura ViT
- Transformery wizyjne w kodzie
CLIP
- Podstawowa architektura modelu CLIP
- CLIP w kodzie
DALL-E 2 i DALL-E 3
- Podstawowa architektura DALL-E
- Wprowadzenie w tematykę API modeli DALL-E 2 i DALL-E 3
GPT-4V, DALL-E 3 i rozbieżne skojarzenia semantyczne
- Definicja rozbieżnego skojarzenia semantycznego
- Tworzenie obrazu z użyciem systemu ChatGPT Plus z DALL-E
- Wykorzystanie API modelu GPT-4V i eksperymenty z zadaniami DAT
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 17. Przekraczanie granic między obrazem a tekstem z użyciem modelu Stable Diffusion

Przekraczanie granic generowania obrazu
Część I. Zamiana tekstu na obraz z użyciem modelu Stable Diffusion
- 1. Osadzanie tekstu za pomocą kodera transformera
- 2. Tworzenie losowych obrazów z szumami
- 3. Próbkowanie w dół modelu Stable Diffusion
- 4. Próbkowanie w górę na poziomie dekodera
- 5. Wynikowy obraz
- Uruchamianie implementacji Keras modelu Stable Diffusion
Część II. Zamiana tekstu na obraz za pomocą API Stable Diffusion
- Wykorzystanie modelu Stable Diffusion generatywnej sztucznej inteligencji do wykonania zadania z zakresu skojarzeń rozbieżnych (DAT)
Część III. Zamiana tekstu na wideo
- Zamiana tekstu na wideo z użyciem modeli animacji Stability AI
- Zamiana tekstu na wideo z użyciem odmiany modelu CLIP firmy OpenAI
- Zamiana wideo na tekst z użyciem modelu TimeSformer
- Przygotowywanie klatek wideo
- Wykorzystanie modelu TimeSformer do tworzenia prognoz na podstawie klatek wideo
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 18. AutoTrain na platformie Hugging Face - szkolenie modeli wizyjnych bez kodowania

Cel i zakres tego rozdziału
Pierwsze kroki
Przesyłanie zestawu danych
- Bez kodowania?
Szkolenie modeli za pomocą mechanizmu AutoTrain
Wdrażanie modelu
Uruchamianie modeli w celu wnioskowania
- Pobieranie obrazów walidacyjnych
- Wnioskowanie: klasyfikacja obrazów
- Eksperymenty walidacyjne na przeszkolonych modelach
- Wypróbowywanie skuteczności najlepszego modelu ViT dla korpusu obrazów
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 19. Na drodze do funkcjonalnej ogólnej AI z systemem HuggingGPT i jego odpowiednikami

Definicja systemu F-AGI
Instalowanie i importowanie bibliotek
Zbiór walidacyjny
- Poziom 1 - łatwy obraz
- Poziom 2 - trudny obraz
- Poziom 3 - bardzo trudny obraz
HuggingGPT
- Poziom 1 - łatwy
- Poziom 2 - trudny
- Poziom 3 - bardzo trudny
CustomGPT
- Google Cloud Vision
- Łączenie modeli: Google Cloud Vision z ChatGPT
Łączenie modeli z użyciem systemu Runway Gen-2
- Midjourney: wyobraź sobie okręt płynący w przestrzeni galaktycznej
- Gen-2: niech ten statek pływa po morzu
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Rozdział 20. Nie tylko prompty projektowane przez człowieka - generatywne kreowanie pomysłów

Część I. Definicja generatywnego kreowania pomysłów
- Zautomatyzowana architektura kreowania pomysłów
- Zakres i ograniczenia
Część II. Automatyzacja projektowania promptów na potrzeby generatywnego projektowania obrazów
- Prezentacja HTML systemu opartego na ChatGPT z modelem GPT-4
- Llama 2
- Wykorzystanie modelu Llama 2 z modelem Hugging Face
- Midjourney
- Microsoft Designer
Część III. Zautomatyzowane generatywne kreowanie pomysłów z użyciem modelu Stable Diffusion
- 1. Brak promptu, automatyczne instrukcje dla modelu GPT-4
- 2. Generowanie promptu przez generatywną sztuczną inteligencję z użyciem ChatGPT z modelem GPT-4
- 3. i 4. Generowanie obrazów przez generatywną sztuczną inteligencję z użyciem modelu Stable Diffusion i ich wyświetlanie
Przyszłość należy do Ciebie!
- Przyszłość programistów dzięki technikom VR-AI
Podsumowanie
Pytania
Odnośniki
Lektura uzupełniająca

Dodatek. Odpowiedzi na pytania

Skorowidz

Tytuł: Transformery w przetwarzaniu języka naturalnego i widzenia komputerowego. Generatywna AI oraz modele LLM z wykorzystaniem Hugging Face, ChatGPT, GPT-4V i DALL-E 3. Wydanie III
Autor: Denis Rothman
Tytuł oryginału: Transformers for Natural Language Processing and Computer Vision: Explore Generative AI and Large Language Models with Hugging Face, ChatGPT, GPT-4V, and DALL-E 3, 3rd Edition
Tłumaczenie: Radosław Meryk
ISBN: 978-83-289-2051-4, 9788328920514
Data wydania: 2025-05-20
Format: Ebook
Identyfikator pozycji: trawpr
Wydawca: Helion

Kategorie

Szczegóły ebooka