-
Biznes i ekonomia
- Bitcoin
- Bizneswoman
- Coaching
- Controlling
- E-biznes
- Ekonomia
- Finanse
- Giełda i inwestycje
- Kompetencje osobiste
- Komputer w biurze
- Komunikacja i negocjacje
- Mała firma
- Marketing
- Motywacja
- Multimedialne szkolenia
- Nieruchomości
- Perswazja i NLP
- Podatki
- Polityka społeczna
- Poradniki
- Prezentacje
- Przywództwo
- Public Relation
- Raporty, analizy
- Sekret
- Social Media
- Sprzedaż
- Start-up
- Twoja kariera
- Zarządzanie
- Zarządzanie projektami
- Zasoby ludzkie (HR)
-
Dla dzieci
-
Dla młodzieży
-
Edukacja
-
Encyklopedie, słowniki
-
E-prasa
-
Historia
-
Informatyka
- Aplikacje biurowe
- Aplikacje biznesowe
- Bazy danych
- Bioinformatyka
- Biznes IT
- CAD/CAM
- Digital Lifestyle
- DTP
- Elektronika
- Fotografia cyfrowa
- Grafika komputerowa
- Gry
- Hacking
- Hardware
- IT w ekonomii
- Pakiety naukowe
- Podręczniki szkolne
- Podstawy komputera
- Programowanie
- Programowanie mobilne
- Serwery internetowe
- Sieci komputerowe
- Start-up
- Systemy operacyjne
- Sztuczna inteligencja
- Technologia dla dzieci
- Webmasterstwo
-
Inne
-
Języki obce
-
Kultura i sztuka
-
Lektury szkolne
-
Literatura
- Antologie
- Ballada
- Dla dorosłych
- Dramat
- Dzienniki, pamiętniki, listy
- Epos, epopeja
- Esej
- Fantastyka i science-fiction
- Felietony
- Fikcja
- Humor, satyra
- Inne
- Klasyczna
- Kryminał
- Literatura faktu
- Literatura piękna
- Mity i legendy
- Nobliści
- Nowele
- Obyczajowa
- Okultyzm i magia
- Opowiadania
- Pamiętniki
- Podróże
- Poemat
- Poezja
- Polityka
- Popularnonaukowa
- Powieść
- Powieść historyczna
- Proza
- Przygodowa
- Publicystyka
- Reportaż
- Romans i literatura obyczajowa
- Sensacja
- Thriller, Horror
- Wywiady i wspomnienia
-
Nauki przyrodnicze
-
Nauki społeczne
-
Podręczniki szkolne
-
Popularnonaukowe i akademickie
- Archeologia
- Bibliotekoznawstwo
- Filmoznawstwo
- Filologia
- Filologia polska
- Filozofia
- Finanse i bankowość
- Geografia
- Gospodarka
- Handel. Gospodarka światowa
- Historia i archeologia
- Historia sztuki i architektury
- Kulturoznawstwo
- Lingwistyka
- Literaturoznawstwo
- Logistyka
- Matematyka
- Medycyna
- Nauki humanistyczne
- Pedagogika
- Pomoce naukowe
- Popularnonaukowa
- Pozostałe
- Psychologia
- Socjologia
- Teatrologia
- Teologia
- Teorie i nauki ekonomiczne
- Transport i spedycja
- Wychowanie fizyczne
- Zarządzanie i marketing
-
Poradniki
-
Poradniki do gier
-
Poradniki zawodowe i specjalistyczne
-
Prawo
- BHP
- Historia
- Kodeks drogowy. Prawo jazdy
- Nauki prawne
- Ochrona zdrowia
- Ogólne, kompendium wiedzy
- Podręczniki akademickie
- Pozostałe
- Prawo budowlane i lokalowe
- Prawo cywilne
- Prawo finansowe
- Prawo gospodarcze
- Prawo gospodarcze i handlowe
- Prawo karne
- Prawo karne. Przestępstwa karne. Kryminologia
- Prawo międzynarodowe
- Prawo międzynarodowe i zagraniczne
- Prawo ochrony zdrowia
- Prawo oświatowe
- Prawo podatkowe
- Prawo pracy i ubezpieczeń społecznych
- Prawo publiczne, konstytucyjne i administracyjne
- Prawo rodzinne i opiekuńcze
- Prawo rolne
- Prawo socjalne, prawo pracy
- Prawo Unii Europejskiej
- Przemysł
- Rolne i ochrona środowiska
- Słowniki i encyklopedie
- Zamówienia publiczne
- Zarządzanie
-
Przewodniki i podróże
- Afryka
- Albumy
- Ameryka Południowa
- Ameryka Środkowa i Północna
- Australia, Nowa Zelandia, Oceania
- Austria
- Azja
- Bałkany
- Bliski Wschód
- Bułgaria
- Chiny
- Chorwacja
- Czechy
- Egipt
- Europa
- Francja
- Góry
- Grecja
- Hiszpania
- Holandia
- Islandia
- Litwa
- Mapy, Plany miast, Atlasy
- Miniprzewodniki
- Niemcy
- Podróże aktywne
- Polska
- Portugalia
- Pozostałe
- Rosja
- Rumunia
- Słowacja
- Słowenia
- Szwecja
- Świat
- Turcja
- Ukraina
- Węgry
- Wielka Brytania
- Włochy
-
Psychologia
- Filozofie życiowe
- Komunikacja międzyludzka
- Mindfulness
- Ogólne
- Perswazja i NLP
- Psychologia akademicka
- Psychologia duszy i umysłu
- Psychologia pracy
- Relacje i związki
- Rodzicielstwo i psychologia dziecka
- Rozwiązywanie problemów
- Rozwój intelektualny
- Sekret
- Seksualność
- Uwodzenie
- Wygląd i wizerunek
- Życiowe filozofie
-
Religia
-
Sport, fitness, diety
-
Technika i mechanika
-
Biznes i ekonomia
- Bitcoin
- Bizneswoman
- Coaching
- E-biznes
- Ekonomia
- Finanse
- Giełda i inwestycje
- Kompetencje osobiste
- Komunikacja i negocjacje
- Mała firma
- Marketing
- Motywacja
- Nieruchomości
- Perswazja i NLP
- Poradniki
- Prezentacje
- Przywództwo
- Public Relation
- Sekret
- Social Media
- Sprzedaż
- Start-up
- Twoja kariera
- Zarządzanie
- Zarządzanie projektami
- Zasoby ludzkie (HR)
-
Dla dzieci
-
Dla młodzieży
-
Edukacja
-
Encyklopedie, słowniki
-
Historia
-
Informatyka
-
Inne
-
Języki obce
-
Kultura i sztuka
-
Lektury szkolne
-
Literatura
- Antologie
- Ballada
- Dla dorosłych
- Dramat
- Dzienniki, pamiętniki, listy
- Epos, epopeja
- Esej
- Fantastyka i science-fiction
- Felietony
- Fikcja
- Humor, satyra
- Inne
- Klasyczna
- Kryminał
- Literatura faktu
- Literatura piękna
- Nobliści
- Nowele
- Obyczajowa
- Opowiadania
- Pamiętniki
- Podróże
- Poezja
- Polityka
- Popularnonaukowa
- Powieść
- Powieść historyczna
- Proza
- Przygodowa
- Publicystyka
- Reportaż
- Romans i literatura obyczajowa
- Sensacja
- Thriller, Horror
- Wywiady i wspomnienia
-
Nauki przyrodnicze
-
Nauki społeczne
-
Popularnonaukowe i akademickie
-
Poradniki
-
Prawo
-
Przewodniki i podróże
-
Psychologia
- Filozofie życiowe
- Komunikacja międzyludzka
- Mindfulness
- Ogólne
- Perswazja i NLP
- Psychologia akademicka
- Psychologia duszy i umysłu
- Psychologia pracy
- Relacje i związki
- Rodzicielstwo i psychologia dziecka
- Rozwiązywanie problemów
- Rozwój intelektualny
- Sekret
- Seksualność
- Uwodzenie
- Wygląd i wizerunek
- Życiowe filozofie
-
Religia
-
Sport, fitness, diety
-
Bazy danych
-
Big Data
-
Biznes i ekonomia
-
Cyberbezpieczeństwo
-
Data Science
-
DevOps
-
Dla dzieci
-
Elektronika
-
Grafika/Wideo/CAX
-
Gry
-
Microsoft Office
-
Narzędzia programistyczne
-
Programowanie
-
Rozwój osobisty
-
Sieci komputerowe
-
Systemy operacyjne
-
Testowanie oprogramowania
-
Urządzenia mobilne
-
UX/UI
-
Web development
Pachyderm is an open source project that enables data scientists to run reproducible data pipelines and scale them to an enterprise level. This book will teach you how to implement Pachyderm to create collaborative data science workflows and reproduce your ML experiments at scale.
You'll begin your journey by exploring the importance of data reproducibility and comparing different data science platforms. Next, you'll explore how Pachyderm fits into the picture and its significance, followed by learning how to install Pachyderm locally on your computer or a cloud platform of your choice. You'll then discover the architectural components and Pachyderm's main pipeline principles and concepts. The book demonstrates how to use Pachyderm components to create your first data pipeline and advances to cover common operations involving data, such as uploading data to and from Pachyderm to create more complex pipelines. Based on what you've learned, you'll develop an end-to-end ML workflow, before trying out the hyperparameter tuning technique and the different supported Pachyderm language clients. Finally, you'll learn how to use a SaaS version of Pachyderm with Pachyderm Notebooks.
By the end of this book, you will learn all aspects of running your data pipelines in Pachyderm and manage them on a day-to-day basis.
- Reproducible Data Science with Pachyderm
- Contributors
- About the author
- About the reviewers
- Preface
- Who this book is for
- What this book covers
- To get the most out of this book
- Download the example code files
- Download the color images
- Conventions used
- Get in touch
- Share Your Thoughts
- Section 1: Introduction to Pachyderm and Reproducible Data Science
- Chapter 1: The Problem of Data Reproducibility
- Why is reproducibility important?
- What is a model?
- The main principles of reproducibility
- The reproducibility crisis in science
- Data fishing
- Better reproducibility in science research guidelines
- Common practices to improve reproducibility
- Demystifying MLOps
- Types of data science platforms
- End-to-end platforms
- Pluggable solutions
- Data ingestion tools
- Data transformation tools
- Model serving tools
- Data monitoring tools
- Putting it all together
- Explaining ethical AI
- Trustworthy AI
- Summary
- Further reading
- Why is reproducibility important?
- Chapter 2: Pachyderm Basics
- Reviewing Pachyderm architecture
- Why cant I use Git for my data pipelines?
- Pachyderm architecture diagram
- Kubernetes
- Helm
- Pachyderm internals
- Other components
- Container runtimes
- Learning about version control primitives
- Repository
- Branch
- Commit
- Discovering pipeline elements
- Types of pipelines
- Datum
- Summary
- Further reading
- Reviewing Pachyderm architecture
- Chapter 3: Pachyderm Pipeline Specification
- Pipeline specification overview
- Understanding inputs
- pfs
- Exploring informational parameters
- name
- description
- metadata
- Exploring transformation
- image
- stdin
- err_cmd
- err_stdin
- env
- secrets
- image_pull_secrets
- accept_return_code
- debug
- user
- working_dir
- dockerfile
- Optimizing your pipeline
- parallelism_spec
- reprocess_spec
- cache_size
- max_queue_size
- chunk_spec
- resource_limits
- resource_requests
- sidecar_resource_limits
- scheduling_spec
- job_timeout
- datum_timeout
- datum_tries
- Exploring service parameters
- enable_stats
- pod_patch
- Exploring output parameters
- Summary
- Further reading
- Section 2:Getting Started with Pachyderm
- Chapter 4: Installing Pachyderm Locally
- Technical requirements
- Installing the required tools
- Installing Homebrew (macOS only)
- Installing Windows Subsystem for Linux (for Windows only)
- Installing the Kubernetes command-line tool
- Installing Helm v3
- Installing minikube
- Installing Docker Desktop
- Installing Docker Desktop for macOS
- Installing the Pachyderm command-line interface
- Enabling autocompletion for Pachyderm
- Enabling Pachyderm autocompletion for bash
- Enabling Pachyderm autocompletion for zsh
- Preparing the Kubernetes environment
- Enabling Kubernetes on Docker Desktop
- Enabling Kubernetes using minikube
- Deploying Pachyderm
- Accessing the Pachyderm Console
- Deleting an existing Pachyderm deployment
- Summary
- Further reading
- Chapter 5: Installing Pachyderm on a Cloud Platform
- Technical requirements
- Installing the required tools
- Installing the AWS Command Line Interface to manage AWS
- Installing the AWS IAM authenticator for Kubernetes
- Installing eksctl to manage Amazon EKS
- Installing the Google Cloud SDK to manage Google Cloud
- Installing the Azure CLI to manage Microsoft Azure
- Deploying Pachyderm on Amazon EKS
- Preparing an Amazon EKS cluster to run Pachyderm
- Creating an S3 object storage bucket
- Deploying the cluster
- Deleting a Pachyderm deployment on Amazon EKS
- Deploying Pachyderm on GKE
- Preparing a GKE cluster to run Pachyderm
- Creating a Google Cloud object storage bucket
- Deploying the cluster
- Deleting a Pachyderm deployment on GKE
- Deploying Pachyderm on Microsoft AKS
- Preparing an AKS cluster to run Pachyderm
- Creating an Azure storage container
- Deploying the cluster
- Deleting a Pachyderm deployment on AKS
- Accessing the Pachyderm console
- Summary
- Further reading
- Chapter 6: Creating Your First Pipeline
- Technical requirements
- Pipeline overview
- Creating a repository
- Creating a pipeline specification
- Viewing the pipeline result
- Adding another pipeline step
- Cleaning up
- Summary
- Further reading
- Chapter 7: Pachyderm Operations
- Technical requirements
- Downloading the source files
- Reviewing the standard Pachyderm workflow
- Executing data operations
- Uploading data to Pachyderm
- About data lineage
- Exploring data lineage
- Mounting a Pachyderm repository to a local filesystem
- Executing pipeline operations
- Updating your pipeline specification
- Updating your code
- Running maintenance operations
- Troubleshooting your pipeline
- Upgrading your Pachyderm cluster
- Cleaning up
- Summary
- Further reading
- Technical requirements
- Chapter 8: Creating an End-to-End Machine Learning Workflow
- Technical requirements
- Adjusting virtual machine parameters
- NLP example overview
- Introduction to NLP
- Learning the NLP phases
- Reviewing the NLP example
- Creating repositories and pipelines
- Creating the data cleaning pipeline
- Creating the POS tagging pipeline
- Creating an NER pipeline
- Retraining an NER model
- Creating the retrain pipeline
- Deploying the retrained pipeline
- Cleaning up
- Summary
- Further reading
- Technical requirements
- Chapter 9: Distributed Hyperparameter Tuning with Pachyderm
- Technical requirements
- Reviewing hyperparameter tuning techniques and strategies
- Grid search
- Random search
- Bayesian optimization
- Regression evaluation metrics
- Creating a hyperparameter tuning pipeline in Pachyderm
- Example overview
- Creating an exploratory analysis pipeline
- Creating a data cleaning pipeline
- Creating a pipeline that removes outliers
- Creating a training pipeline
- Creating an evaluation pipeline
- Cleaning up
- Summary
- Further reading
- Section 3:Pachyderm Clients and Tools
- Chapter 10: Pachyderm Language Clients
- Technical requirements
- Downloading the source files
- Using the Pachyderm Go client
- Installing Go on your computer
- Configuring $GOPATH
- Cloning the Pachyderm source repository
- Connecting to Pachyderm with the Go client
- Creating a repository with the Go client
- Putting data into a Pachyderm repository with the Go client
- Creating pipelines with the Go client
- Cleaning up the cluster with the Go client
- Using the Pachyderm Python client
- Installing the Pachyderm Python client
- Connecting to your Pachyderm cluster with the Python client
- Creating a Pachyderm repository with the Python client
- Putting data into a Pachyderm repository with the Python client
- Creating pipelines with the Pachyderm Python client
- Cleaning up the cluster with the Python client
- Summary
- Further reading
- Technical requirements
- Chapter 11: Using Pachyderm Notebooks
- Technical requirements
- Downloading the source files
- Enabling Pachyderm Notebooks in Pachyderm Hub
- Create a workspace
- Connect to your Pachyderm Hub workspace with pachctl
- Connect to a Pachyderm notebook
- Running basic Pachyderm operations in Pachyderm Notebooks
- Using the integrated terminal
- Using Pachyderm Notebooks
- Creating and running an example pipeline in Pachyderm Notebooks
- Pipeline methodology
- Creating the pipelines
- Summary
- Further reading
- Why subscribe?
- Technical requirements
- Other Books You May Enjoy
- Packt is searching for authors like you
- Share Your Thoughts
- Tytuły: Reproducible Data Science with Pachyderm
- Autor: Svetlana Karslioglu
- Tytuł oryginału: Reproducible Data Science with Pachyderm
- ISBN Ebooka: 9781801079075, 9781801079075
- Data wydania: 2022-03-18
- Identyfikator pozycji: e_2t23
-
Kategorie: