Категорії
Електронні книги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комп'ютер в офісі
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Мультимедійне навчання
- Нерухомість
- Переконання та НЛП
- Податки
- Соціальна політика
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Звіти, аналізи
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Електронна преса
- Architektura i wnętrza
- Biznes i Ekonomia
- Будинок та сад
- Електронний бізнес
- Фінанси
- Особисті фінанси
- Бізнес
- Фотографія
- Інформатика
- Відділ кадрів та оплата праці
- Комп'ютери, Excel
- Бухгалтерія
- Культура та література
- Наукові та академічні
- Охорона навколишнього середовища
- Впливові
- Освіта
- Податки
- Подорожі
- Психологія
- Релігія
- Сільське господарство
- Ринок книг і преси
- Транспорт та спедиція
- Здоров'я та краса
-
Історія
-
Інформатика
- Офісні застосунки
- Бази даних
- Біоінформатика
- Бізнес ІТ
- CAD/CAM
- Digital Lifestyle
- DTP
- Електроніка
- Цифрова фотографія
- Комп'ютерна графіка
- Ігри
- Хакування
- Hardware
- IT w ekonomii
- Наукові пакети
- Шкільні підручники
- Основи комп'ютера
- Програмування
- Мобільне програмування
- Інтернет-сервери
- Комп'ютерні мережі
- Стартап
- Операційні системи
- Штучний інтелект
- Технологія для дітей
- Вебмайстерність
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Оповідна поезія
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Шкільні підручники
-
Науково-популярна та академічна
- Археологія
- Bibliotekoznawstwo
- Кінознавство / Теорія кіно
- Філологія
- Польська філологія
- Філософія
- Finanse i bankowość
- Географія
- Економіка
- Торгівля. Світова економіка
- Історія та археологія
- Історія мистецтва і архітектури
- Культурологія
- Мовознавство
- літературні студії
- Логістика
- Математика
- Ліки
- Гуманітарні науки
- Педагогіка
- Навчальні засоби
- Науково-популярна
- Інше
- Психологія
- Соціологія
- Театральні студії
- Богослов’я
- Економічні теорії та науки
- Transport i spedycja
- Фізичне виховання
- Zarządzanie i marketing
-
Порадники
-
Ігрові посібники
-
Професійні та спеціальні порадники
-
Юридична
- Безпека життєдіяльності
- Історія
- Дорожній кодекс. Водійські права
- Юридичні науки
- Охорона здоров'я
- Загальне, компендіум
- Академічні підручники
- Інше
- Закон про будівництво і житло
- Цивільне право
- Фінансове право
- Господарське право
- Господарське та комерційне право
- Кримінальний закон
- Кримінальне право. Кримінальні злочини. Кримінологія
- Міжнародне право
- Міжнародне та іноземне право
- Закон про охорону здоров'я
- Закон про освіту
- Податкове право
- Трудове право та законодавство про соціальне забезпечення
- Громадське, конституційне та адміністративне право
- Кодекс про шлюб і сім'ю
- Аграрне право
- Соціальне право, трудове право
- Законодавство Євросоюзу
- Промисловість
- Сільське господарство та захист навколишнього середовища
- Словники та енциклопедії
- Державні закупівлі
- Управління
-
Путівники та подорожі
- Африка
- Альбоми
- Південна Америка
- Центральна та Північна Америка
- Австралія, Нова Зеландія, Океанія
- Австрія
- Азії
- Балкани
- Близький Схід
- Болгарія
- Китай
- Хорватія
- Чеська Республіка
- Данія
- Єгипет
- Естонія
- Європа
- Франція
- Гори
- Греція
- Іспанія
- Нідерланди
- Ісландія
- Литва
- Латвія
- Mapy, Plany miast, Atlasy
- Мініпутівники
- Німеччина
- Норвегія
- Активні подорожі
- Польща
- Португалія
- Інше
- Росія
- Румунія
- Словаччина
- Словенія
- Швейцарія
- Швеція
- Світ
- Туреччина
- Україна
- Угорщина
- Велика Британія
- Італія
-
Психологія
- Філософія життя
- Kompetencje psychospołeczne
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Аудіокниги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Нерухомість
- Переконання та НЛП
- Податки
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Історія
-
Інформатика
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Науково-популярна та академічна
-
Порадники
-
Професійні та спеціальні порадники
-
Юридична
-
Путівники та подорожі
-
Психологія
- Філософія життя
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Відеокурси
-
Бази даних
-
Big Data
-
Biznes, ekonomia i marketing
-
Кібербезпека
-
Data Science
-
DevOps
-
Для дітей
-
Електроніка
-
Графіка / Відео / CAX
-
Ігри
-
Microsoft Office
-
Інструменти розробки
-
Програмування
-
Особистісний розвиток
-
Комп'ютерні мережі
-
Операційні системи
-
Тестування програмного забезпечення
-
Мобільні пристрої
-
UX/UI
-
Веброзробка, Web development
-
Управління
Подкасти
- Електронні книги
- Big data (Великі дані)
- Машинне навчання
- Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II
Деталі електронної книги
Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II
Głębokie uczenie przez wzmacnianie rozwija się bardzo dynamicznie. Dziedzinę tę charakteryzuje niewyczerpany potencjał rozwiązywania trudnych problemów. Zajmuje się tym co najmniej kilka grup badawczych, koncentrujących się na wdrażaniu głębokiego uczenia przez wzmacnianie w różnych branżach. Niestety, opisy najnowszych osiągnięć są trudne do zrozumienia i zbyt abstrakcyjne, aby można było je łatwo zastosować w praktycznych implementacjach, a przecież poprawne działanie aplikacji jest uwarunkowane gruntownym zrozumieniem problemu przez projektanta.
To zaktualizowane i rozszerzone wydanie bestsellerowego przewodnika po najnowszych narzędziach i metodach związanych z uczeniem przez wzmacnianie. Zawiera wprowadzenie do teorii uczenia przez wzmacnianie, a także wyjaśnia praktyczne sposoby kodowania samouczących się agentów w celu rozwiązywania praktycznych zadań. W tym wydaniu dodano sześć nowych rozdziałów poświęconych takim osiągnięciom technologii jak dyskretna optymalizacja, metody wieloagentowe, środowisko Microsoft TextWorld czy zaawansowane techniki eksploracji. Opisano również inne zagadnienia, między innymi głębokie sieci Q, gradienty polityk, sterowanie ciągłe i wysoce skalowalne metody bezgradientowe. Poszczególne kwestie zostały zilustrowane kodem wraz z opisem szczegółów implementacji.
W książce między innymi:
- związki między uczeniem przez wzmacnianie a głębokim uczeniem
- różne metody uczenia przez wzmacnianie, w tym entropia krzyżowa, sieć DQN, a także algorytmy: aktor-krytyk, TRPO, PPO, DDPG, D4PG i inne
- praktyczne zastosowanie dyskretnej optymalizacji w celu rozwiązania problemu kostki Rubika
- trenowanie agentów przy użyciu oprogramowania AlphaGo Zero
- chatboty oparte na sztucznej inteligencji
- zaawansowane techniki eksploracyjne, w tym metody destylacji sieci
Witaj, świecie prawdziwej sztucznej inteligencji!
O autorze
O recenzentach
Wstęp
Rozdział 1. Czym jest uczenie przez wzmacnianie
- Uczenie nadzorowane
- Uczenie nienadzorowane
- Uczenie przez wzmacnianie
- Trudności związane z uczeniem przez wzmacnianie
- Formalne podstawy uczenia przez wzmacnianie
- Nagroda
- Agent
- Środowisko
- Akcje
- Obserwacje
- Teoretyczne podstawy uczenia przez wzmacnianie
- Procesy decyzyjne Markowa
- Polityka
- Podsumowanie
Rozdział 2. Zestaw narzędzi OpenAI Gym
- Anatomia agenta
- Wymagania sprzętowe i programowe
- Interfejs API biblioteki OpenAI Gym
- Przestrzeń akcji
- Przestrzeń obserwacji
- Środowisko
- Tworzenie środowiska
- Sesja CartPole
- Losowy agent dla środowiska CartPole
- Dodatkowa funkcjonalność biblioteki Gym - opakowania i monitory
- Opakowania
- Monitory
- Podsumowanie
Rozdział 3. Uczenie głębokie przy użyciu biblioteki PyTorch
- Tensory
- Tworzenie tensorów
- Tensory skalarne
- Operacje na tensorach
- Tensory GPU
- Gradienty
- Tensory a gradienty
- Bloki konstrukcyjne sieci neuronowych
- Warstwy definiowane przez użytkownika
- Funkcje straty i optymalizatory
- Funkcje straty
- Optymalizatory
- Monitorowanie za pomocą narzędzia TensorBoard
- Podstawy obsługi narzędzia TensorBoard
- Narzędzia do tworzenia wykresów
- Przykład - użycie sieci GAN z obrazami Atari
- Biblioteka PyTorch Ignite
- Zasady działania biblioteki Ignite
- Podsumowanie
Rozdział 4. Metoda entropii krzyżowej
- Taksonomia metod uczenia przez wzmacnianie
- Praktyczne wykorzystanie entropii krzyżowej
- Użycie entropii krzyżowej w środowisku CartPole
- Użycie metody entropii krzyżowej w środowisku FrozenLake
- Teoretyczne podstawy metody entropii krzyżowej
- Podsumowanie
Rozdział 5. Uczenie tabelaryczne i równanie Bellmana
- Wartość, stan i optymalność
- Równanie optymalności Bellmana
- Wartość akcji
- Metoda iteracji wartości
- Wykorzystanie iteracji wartości w praktyce
- Q-uczenie w środowisku FrozenLake
- Podsumowanie
Rozdział 6. Głębokie sieci Q
- Rozwiązywanie realnego problemu z wykorzystaniem metody iteracji wartości
- Q-uczenie tabelaryczne
- Głębokie Q-uczenie
- Interakcja ze środowiskiem
- Optymalizacja za pomocą stochastycznego spadku wzdłuż gradientu (SGD)
- Korelacja pomiędzy krokami
- Własność Markowa
- Ostateczna wersja procedury trenowania dla głębokich sieci Q
- Użycie głębokiej sieci Q w grze Pong
- Opakowania
- Model głębokiej sieci Q
- Trenowanie
- Uruchomienie programu i sprawdzenie jego wydajności
- Użycie modelu
- Rzeczy do przetestowania
- Podsumowanie
Rozdział 7. Biblioteki wyższego poziomu uczenia przez wzmacnianie
- Dlaczego potrzebujemy bibliotek uczenia przez wzmacnianie?
- Biblioteka PTAN
- Selektory akcji
- Agent
- Źródło doświadczeń
- Bufory doświadczeń
- Klasa TargetNet
- Klasy upraszczające współpracę z biblioteką Ignite
- Rozwiązanie problemu środowiska CartPole za pomocą biblioteki PTAN
- Inne biblioteki związane z uczeniem przez wzmacnianie
- Podsumowanie
Rozdział 8. Rozszerzenia sieci DQN
- Podstawowa, głęboka sieć Q
- Wspólna biblioteka
- Implementacja
- Wyniki
- Głęboka sieć Q o n krokach
- Implementacja
- Wyniki
- Podwójna sieć DQN
- Implementacja
- Wyniki
- Sieci zakłócone
- Implementacja
- Wyniki
- Bufor priorytetowy
- Implementacja
- Wyniki
- Rywalizujące sieci DQN
- Implementacja
- Wyniki
- Kategoryczne sieci DQN
- Implementacja
- Wyniki
- Połączenie wszystkich metod
- Wyniki
- Podsumowanie
- Bibliografia
Rozdział 9. Sposoby przyspieszania metod uczenia przez wzmacnianie
- Dlaczego prędkość ma znaczenie?
- Model podstawowy
- Wykres obliczeniowy w bibliotece PyTorch
- Różne środowiska
- Granie i trenowanie w oddzielnych procesach
- Dostrajanie opakowań
- Podsumowanie testów
- Rozwiązanie ekstremalne: CuLE
- Podsumowanie
- Bibliografia
Rozdział 10. Inwestowanie na giełdzie za pomocą metod uczenia przez wzmacnianie
- Handel
- Dane
- Określenie problemu i podjęcie kluczowych decyzji
- Środowisko symulujące giełdę
- Modele
- Kod treningowy
- Wyniki
- Model ze sprzężeniem wyprzedzającym
- Model konwolucyjny
- Rzeczy do przetestowania
- Podsumowanie
Rozdział 11. Alternatywa - gradienty polityki
- Wartości i polityka
- Dlaczego polityka?
- Reprezentacja polityki
- Gradienty polityki
- Metoda REINFORCE
- Przykład środowiska CartPole
- Wyniki
- Porównanie metod opartych na polityce z metodami opartymi na wartościach
- Ograniczenia metody REINFORCE
- Wymagane jest ukończenie epizodu
- Wariancja dużych gradientów
- Eksploracja
- Korelacja danych
- Zastosowanie metody gradientu polityki w środowisku CartPole
- Implementacja
- Wyniki
- Zastosowanie metody gradientu polityki w środowisku Pong
- Implementacja
- Wyniki
- Podsumowanie
Rozdział 12. Metoda aktor-krytyk
- Zmniejszenie poziomu wariancji
- Wariancja w środowisku CartPole
- Aktor-krytyk
- Użycie metody A2C w środowisku Pong
- Wyniki użycia metody A2C w środowisku Pong
- Dostrajanie hiperparametrów
- Podsumowanie
Rozdział 13. Asynchroniczna wersja metody aktor-krytyk
- Korelacja i wydajność próbkowania
- Zrównoleglenie metody A2C
- Przetwarzanie wieloprocesorowe w języku Python
- Algorytm A3C wykorzystujący zrównoleglenie na poziomie danych
- Implementacja
- Wyniki
- Algorytm A3C wykorzystujący zrównoleglenie na poziomie gradientów
- Implementacja
- Wyniki
- Podsumowanie
Rozdział 14. Trenowanie chatbotów z wykorzystaniem uczenia przez wzmacnianie
- Czym są chatboty?
- Trenowanie chatbotów
- Podstawy głębokiego przetwarzania języka naturalnego
- Rekurencyjne sieci neuronowe
- Osadzanie słów
- Architektura koder-dekoder
- Trenowanie modelu koder-dekoder
- Trenowanie z wykorzystaniem logarytmu prawdopodobieństwa
- Algorytm "Bilingual Evaluation Understudy" (BLEU)
- Zastosowanie uczenia przez wzmacnianie w modelu koder-dekoder
- Krytyczna analiza trenowania sekwencji
- Projekt chatbota
- Przykładowa struktura
- Moduły cornell.py i data.py
- Wskaźnik BLEU i moduł utils.py
- Model
- Eksploracja zbioru danych
- Trenowanie - entropia krzyżowa
- Implementacja
- Wyniki
- Trenowanie - metoda SCST
- Implementacja
- Wyniki
- Przetestowanie modeli przy użyciu danych
- Bot dla komunikatora Telegram
- Podsumowanie
Rozdział 15. Środowisko TextWorld
- Fikcja interaktywna
- Środowisko
- Instalacja
- Generowanie gry
- Przestrzenie obserwacji i akcji
- Dodatkowe informacje o grze
- Podstawowa sieć DQN
- Wstępne przetwarzanie obserwacji
- Osadzenia i kodery
- Model DQN i agent
- Kod treningowy
- Wyniki trenowania
- Model generujący polecenia
- Implementacja
- Wyniki uzyskane po wstępnym trenowaniu
- Kod treningowy sieci DQN
- Wyniki uzyskane po trenowaniu sieci DQN
- Podsumowanie
Rozdział 16. Nawigacja w sieci
- Nawigacja w sieci
- Automatyzacja działań w przeglądarce i uczenie przez wzmacnianie
- Test porównawczy MiniWoB
- OpenAI Universe
- Instalacja
- Akcje i obserwacje
- Tworzenie środowiska
- Stabilność systemu MiniWoB
- Proste klikanie
- Akcje związane z siatką
- Przegląd rozwiązania
- Model
- Kod treningowy
- Uruchamianie kontenerów
- Proces trenowania
- Testowanie wyuczonej polityki
- Problemy występujące podczas prostego klikania
- Obserwacje ludzkich działań
- Zapisywanie działań
- Format zapisywanych danych
- Trenowanie z wykorzystaniem obserwacji działań
- Wyniki
- Gra w kółko i krzyżyk
- Dodawanie opisów tekstowych
- Implementacja
- Wyniki
- Rzeczy do przetestowania
- Podsumowanie
Rozdział 17. Ciągła przestrzeń akcji
- Dlaczego jest potrzebna ciągła przestrzeń akcji?
- Przestrzeń akcji
- Środowiska
- Metoda A2C
- Implementacja
- Wyniki
- Użycie modeli i zapisywanie plików wideo
- Deterministyczne gradienty polityki
- Eksploracja
- Implementacja
- Wyniki
- Nagrywanie plików wideo
- Dystrybucyjne gradienty polityki
- Architektura
- Implementacja
- Wyniki
- Nagrania wideo
- Rzeczy do przetestowania
- Podsumowanie
Rozdział 18. Metody uczenia przez wzmacnianie w robotyce
- Roboty i robotyka
- Złożoność robota
- Przegląd sprzętu
- Platforma
- Sensory
- Siłowniki
- Szkielet
- Pierwszy cel trenowania
- Emulator i model
- Plik z definicją modelu
- Klasa robota
- Trenowanie zgodnie z algorytmem DDPG i uzyskane wyniki
- Sterowanie sprzętem
- MicroPython
- Obsługa czujników
- Sterowanie serwomechanizmami
- Przenoszenie modelu do sprzętu
- Połączenie wszystkiego w całość
- Eksperymentowanie z polityką
- Podsumowanie
Rozdział 19. Regiony zaufania - PPO, TRPO, ACKTR i SAC
- Biblioteka Roboschool
- Model bazowy A2C
- Implementacja
- Wyniki
- Nagrywanie plików wideo
- Algorytm PPO
- Implementacja
- Wyniki
- Algorytm TRPO
- Implementacja
- Wyniki
- Algorytm ACKTR
- Implementacja
- Wyniki
- Algorytm SAC
- Implementacja
- Wyniki
- Podsumowanie
Rozdział 20. Optymalizacja typu "czarna skrzynka" w przypadku uczenia przez wzmacnianie
- Metody typu "czarna skrzynka"
- Strategie ewolucyjne
- Testowanie strategii ewolucyjnej w środowisku CartPole
- Testowanie strategii ewolucyjnej w środowisku HalfCheetah
- Algorytmy genetyczne
- Testowanie algorytmu genetycznego w środowisku CartPole
- Dostrajanie algorytmu genetycznego
- Testowanie algorytmu genetycznego w środowisku HalfCheetah
- Podsumowanie
- Bibliografia
Rozdział 21. Zaawansowana eksploracja
- Dlaczego eksploracja jest ważna?
- Co złego jest w metodzie epsilonu zachłannego?
- Alternatywne sposoby eksploracji
- Sieci zakłócone
- Metody oparte na liczebności
- Metody oparte na prognozowaniu
- Eksperymentowanie w środowisku MountainCar
- Metoda DQN z wykorzystaniem strategii epsilonu zachłannego
- Metoda DQN z wykorzystaniem sieci zakłóconych
- Metoda DQN z licznikami stanów
- Optymalizacja bliskiej polityki
- Metoda PPO z wykorzystaniem sieci zakłóconych
- Metoda PPO wykorzystująca eksplorację opartą na liczebności
- Metoda PPO wykorzystująca destylację sieci
- Eksperymentowanie ze środowiskami Atari
- Metoda DQN z wykorzystaniem strategii epsilonu zachłannego
- Klasyczna metoda PPO
- Metoda PPO z wykorzystaniem destylacji sieci
- Metoda PPO z wykorzystaniem sieci zakłóconych
- Podsumowanie
- Bibliografia
Rozdział 22. Alternatywa dla metody bezmodelowej - agent wspomagany wyobraźnią
- Metody oparte na modelu
- Porównanie metody opartej na modelu z metodą bezmodelową
- Niedoskonałości modelu
- Agent wspomagany wyobraźnią
- Model środowiskowy
- Polityka wdrożenia
- Koder wdrożeń
- Wyniki zaprezentowane w artykule
- Użycie modelu I2A w grze Breakout
- Podstawowy agent A2C
- Trenowanie modelu środowiskowego
- Agent wspomagany wyobraźnią
- Wyniki eksperymentów
- Agent podstawowy
- Trenowanie wag modelu środowiskowego
- Trenowanie przy użyciu modelu I2A
- Podsumowanie
- Bibliografia
Rozdział 23. AlphaGo Zero
- Gry planszowe
- Metoda AlphaGo Zero
- Wprowadzenie
- Przeszukiwanie drzewa metodą Monte Carlo (MCTS)
- Granie modelu z samym sobą
- Trenowanie i ocenianie
- Bot dla gry Czwórki
- Model gry
- Implementacja algorytmu przeszukiwania drzewa metodą Monte Carlo (MCTS)
- Model
- Trenowanie
- Testowanie i porównywanie
- Wyniki uzyskane w grze Czwórki
- Podsumowanie
- Bibliografia
Rozdział 24. Użycie metod uczenia przez wzmacnianie w optymalizacji dyskretnej
- Rola uczenia przez wzmacnianie
- Kostka Rubika i optymalizacja kombinatoryczna
- Optymalność i liczba boska
- Sposoby układania kostki
- Reprezentacja danych
- Akcje
- Stany
- Proces trenowania
- Architektura sieci neuronowej
- Trenowanie
- Aplikacja modelowa
- Wyniki
- Analiza kodu
- Środowiska kostki
- Trenowanie
- Proces wyszukiwania
- Wyniki eksperymentu
- Kostka 2×2
- Kostka 3×3
- Dalsze usprawnienia i eksperymenty
- Podsumowanie
Rozdział 25. Metoda wieloagentowa
- Na czym polega działanie metody wieloagentowej?
- Formy komunikacji
- Użycie uczenia przez wzmacnianie
- Środowisko MAgent
- Instalacja
- Przegląd rozwiązania
- Środowisko losowe
- Głęboka sieć Q obsługująca tygrysy
- Trenowanie i wyniki
- Współpraca między tygrysami
- Trenowanie tygrysów i jeleni
- Walka pomiędzy równorzędnymi aktorami
- Podsumowanie
- Назва: Głębokie uczenie przez wzmacnianie. Praca z chatbotami oraz robotyka, optymalizacja dyskretna i automatyzacja sieciowa w praktyce. Wydanie II
- Автор: Maxim Lapan
- Оригінальна назва: Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more, 2nd Edition
- Переклад: Jacek Janusz
- ISBN: 978-83-283-8053-0, 9788328380530
- Дата видання: 2022-07-12
- Формат: Eлектронна книга
- Ідентифікатор видання: glucz2
- Видавець: Helion