Inne

17
Ebook

Azure Data Engineering Cookbook. Get well versed in various data engineering techniques in Azure using this recipe-based guide - Second Edition

Nagaraj Venkatesan, Ahmad Osama

The famous quote 'Data is the new oil' seems more true every day as the key to most organizations' long-term success lies in extracting insights from raw data. One of the major challenges organizations face in leveraging value out of data is building performant data engineering pipelines for data visualization, ingestion, storage, and processing. This second edition of the immensely successful book by Ahmad Osama brings to you several recent enhancements in Azure data engineering and shares approximately 80 useful recipes covering common scenarios in building data engineering pipelines in Microsoft Azure.You’ll explore recipes from Azure Synapse Analytics workspaces Gen 2 and get to grips with Synapse Spark pools, SQL Serverless pools, Synapse integration pipelines, and Synapse data flows. You’ll also understand Synapse SQL Pool optimization techniques in this second edition. Besides Synapse enhancements, you’ll discover helpful tips on managing Azure SQL Database and learn about security, high availability, and performance monitoring. Finally, the book takes you through overall data engineering pipeline management, focusing on monitoring using Log Analytics and tracking data lineage using Azure Purview.By the end of this book, you’ll be able to build superior data engineering pipelines along with having an invaluable go-to guide.

18
Ebook

Azure Data Factory Cookbook. Build ETL, Hybrid ETL, and ELT pipelines using ADF, Synapse Analytics, Fabric and Databricks - Second Edition

Dmitry Foshin, Tonya Chernyshova, Dmitry Anoshin, Xenia Ireton

This new edition of the Azure Data Factory book, fully updated to reflect ADS V2, will help you get up and running by showing you how to create and execute your first job in ADF. There are updated and new recipes throughout the book based on developments happening in Azure Synapse, Deployment with Azure DevOps, and Azure Purview. The current edition also runs you through Fabric Data Factory, Data Explorer, and some industry-grade best practices with specific chapters on each.You’ll learn how to branch and chain activities, create custom activities, and schedule pipelines, as well as discover the benefits of cloud data warehousing, Azure Synapse Analytics, and Azure Data Lake Gen2 Storage. With practical recipes, you’ll learn how to actively engage with analytical tools from Azure Data Services and leverage your on-premises infrastructure with cloud-native tools to get relevant business insights. You'll familiarize yourself with the common errors that you may encounter while working with ADF and find out the solutions to them. You’ll also understand error messages and resolve problems in connectors and data flows with the debugging capabilities of ADF.By the end of this book, you’ll be able to use ADF with its latest advancements as the main ETL and orchestration tool for your data warehouse projects.

19
Ebook

Azure Machine Learning Engineering. Deploy, fine-tune, and optimize ML models using Microsoft Azure

Sina Fakhraee, Balamurugan Balakreshnan, Megan Masanz

Data scientists working on productionizing machine learning (ML) workloads face a breadth of challenges at every step owing to the countless factors involved in getting ML models deployed and running. This book offers solutions to common issues, detailed explanations of essential concepts, and step-by-step instructions to productionize ML workloads using the Azure Machine Learning service. You’ll see how data scientists and ML engineers working with Microsoft Azure can train and deploy ML models at scale by putting their knowledge to work with this practical guide.Throughout the book, you’ll learn how to train, register, and productionize ML models by making use of the power of the Azure Machine Learning service. You’ll get to grips with scoring models in real time and batch, explaining models to earn business trust, mitigating model bias, and developing solutions using an MLOps framework.By the end of this Azure Machine Learning book, you’ll be ready to build and deploy end-to-end ML solutions into a production system using the Azure Machine Learning service for real-time scenarios.

20
Ebook

Badanie danych. Raport z pierwszej linii działań

Rachel Schutt, Cathy O'Neil

Unikalne wprowadzenie do nauki o danych! W dzisiejszych czasach najcenniejszym dobrem jest informacja. Ogromne ilości danych są przechowywane w przepastnych bazach danych, a kluczem do sukcesu jest ich umiejętna analiza i wyciąganie wniosków. To dynamicznie rozwijająca się dziedzina wiedzy, w której do tej pory brakowało solidnych podręczników, pozwalających na dogłębne poznanie tego obszaru. Na szczęście to się zmieniło! To unikalna książka, w której badacze z największych firm branży IT dzielą się skutecznymi technikami analizy danych. Z kolejnych rozdziałów dowiesz się, czym jest nauka o danych, model danych oraz test A/B. Ponadto zdobędziesz wiedzę na temat wnioskowania statystycznego, algorytmów, języka R oraz wizualizacji danych. Sięgnij po tę książkę, jeżeli chcesz się dowiedzieć, jak wykrywać oszustwa, korzystać z MapReduce oraz badać przyczynowość. To obowiązkowa pozycja na półce czytelników zainteresowanych badaniem danych. Wśród tematów poruszonych w książce odnajdziesz: Wnioskowanie statystyczne, eksploracyjną analizę danych i proces (metodologię) nauki o danych Algorytmy Filtry spamu, naiwny algorytm Bayesa i wstępną obróbkę danych Regresję logistyczną Modelowanie finansowe Mechanizmy rekomendacji i przyczynowość Wizualizowanie danych Sieci społecznościowe i dziennikarstwo danych Inżynierię danych, systemy MapReduce, Pregel i Hadoop Wyciągnij wartościowe wnioski z posiadanych informacji!

21
Ebook

Bayesian Analysis with Python. Click here to enter text

Osvaldo Martin

The purpose of this book is to teach the main concepts of Bayesian data analysis. We will learn how to effectively use PyMC3, a Python library for probabilistic programming, to perform Bayesian parameter estimation, to check models and validate them. This book begins presenting the key concepts of the Bayesian framework and the main advantages of this approach from a practical point of view. Moving on, we will explore the power and flexibility of generalized linear models and how to adapt them to a wide array of problems, including regression and classification. We will also look into mixture models and clustering data, and we will finish with advanced topics like non-parametrics models and Gaussian processes. With the help of Python and PyMC3 you will learn to implement, check and expand Bayesian models to solve data analysis problems.

22
Ebook

Bazy danych. Pierwsze starcie

Adam Pelikant

Zobacz, jakie to proste -- naucz się tworzyć bazy danych! Jak tworzyć formularze i raporty? Jak modyfikować strukturę tabel? Jak stosować mechanizmy wymiany danych? Współczesny świat wymusza na przedsiębiorstwach gromadzenie oraz przetwarzanie ogromnej ilości informacji. To sprawia, że muszą one dysponować wydajnymi i sprawnymi bazami danych. Aby zbudować taki system zarządzania danymi, niezbędne są odpowiednie narzędzia -- jednym z nich jest program MS Access. Ta aplikacja przede wszystkim pozwala na łatwą kontrolę poprawności tworzonych projektów oraz zapewnia integrację narzędzi służących do tworzenia struktury relacyjnej. Dba także o zgodność tych narzędzi ze standardem języka zapytań SQL, wykorzystywanym do tworzenia i modyfikowania baz danych oraz operowania na zgromadzonych w nich informacjach. Książka "Bazy danych. Pierwsze starcie" stanowi doskonałe wprowadzenie w tematykę tworzenia baz danych. Zawiera wszystkie potrzebne informacje, podane w prosty i przejrzysty sposób. Ten podręcznik przyda się zarówno studentom kierunków informatycznych, jak i wszystkim tym, którzy chcą zdobyć wiedzę o nowoczesnych metodach budowania takich baz. Stąd dowiesz się m.in., jak wykorzystywać język zapytań SQL, w jaki sposób tworzyć tabele, formularze i raporty oraz stosować mechanizmy wymiany danych, a także na czym polega filtrowanie i sortowanie w zapytaniach. Zdobędziesz wiedzę i umiejętności wystarczające do samodzielnego zbudowania wydajnej bazy danych i sprawnego nią zarządzania. Projektowanie bazy danych -- narzędzia wizualne Tworzenie formularzy i raportów Strukturalny język zapytań SQL w wersji MS JetSQL Składnia podstawowa Unia -- koniunkcja zbiorów Grupowanie i funkcje agregujące Zastosowanie języka SQL z poziomu formularzy Mechanizmy wymiany danych Obiekty: DAO, RDO, ADO Zastosowanie mechanizmów wymiany danych przy tworzeniu aplikacji Stwórz własną, niezawodną bazę danych!

23
Ebook

Bazy danych. Podstawy projektowania i języka SQL

Krystyna Czapla

Idealna baza danych — szyta na Twoją miarę! Faza projektu, czyli jak opracować tabele i określić zależności między nimi Faza implementacji, czyli jak przejść od projektu do tworzenia fizycznej bazy Faza trzecia, czyli jak czerpać informacje z bazy danych w nowoczesnych aplikacjach Bazy danych są dziś tworzone na potęgę i wykorzystywane niemal na każdym kroku. Od czasu pojawienia się komputerów osobistych, internetu i potężnych serwerów ilość danych wymagających zapisania i przetworzenia wciąż wzrasta, a ich sensowne posegregowanie, zapewnienie integralności, łatwości przeszukiwania i możliwości analizowania to umiejętność na wagę złota. Jeśli chcesz ją zdobyć lub udoskonalić, ta książka na pewno Ci w tym pomoże. Znajdziesz tu klarowne, jasne informacje dotyczące kolejnych etapów projektowania oraz implementacji bazy danych, z podziałem na dwie odrębne metody — modelowanie i normalizację. Poznasz obszerne podstawy języka SQL — pojęcia, typy danych, składnię i całe zestawy poleceń — i na konkretnych przykładach zobaczysz, jak używać tego języka. Zrozumiesz też, do czego służy język zapytań i co można zrobić przy użyciu języka DML. To pozwoli Ci z łatwością wykonać ćwiczenia utrwalające, a gdy skończysz będziesz gotowy zmierzyć się z budową własnej bazy! Modelowanie logiczne Normalizacja danych Język baz danych SQL Język zapytań DQL — polecenie SELECT Język manipulowania danymi — DML Język definiowania danych — DDL Proces logowania do bazy Twoje dane w dobrej bazie to klucz do sukcesu!

24
Ebook

Big Data. Krótkie Wprowadzenie 30

Dawn E. Holmes

KRÓTKIE WPROWADZENIE - książki, które zmieniają sposób myślenia!   Big data pokazuje, jak postęp technologiczny spowodowany rozwojem Internetu i cyfrowego wszechświata wpłynął na radykalną transformację nauki o danych. Czym są duże zbiory danych i jak zmieniają świat? Jaki mają wpływ na nasze codzienne życie, a jaki na świat biznesu? W tej książce czytelnik znajdzie odpowiedzi na te pytania. * Interdyscyplinarna seria KRÓTKIE WPROWADZENIE piórem uznanych ekspertów skupionych wokół Uniwersytetu Oksfordzkiego przybliża aktualną wiedzę na temat współczesnego świata i pomaga go zrozumieć. W atrakcyjny sposób prezentuje najważniejsze zagadnienia XXI w. – od kultury, religii, historii przez nauki przyrodnicze po technikę. To publikacje popularnonaukowe, które w formule przystępnej, dalekiej od akademickiego wykładu, prezentują wybrane kwestie. Książki idealne zarówno jako wprowadzenie do nowych tematów, jak i uzupełnienie wiedzy o tym, co nas pasjonuje. Najnowsze fakty, analizy ekspertów, błyskotliwe interpretacje. Opiekę merytoryczną nad polską edycją serii sprawują naukowcy z Uniwersytetu Łódzkiego: prof. Krystyna Kujawińska Courtney, prof. Ewa Gajewska, prof. Aneta Pawłowska, prof. Jerzy Gajdka, prof. Piotr Stalmaszczyk.

25
Ebook

Building Analytics Teams. Harnessing analytics and artificial intelligence for business improvement

John K. Thompson, Douglas B. Laney

In Building Analytics Teams, John K. Thompson, with his 30+ years of experience and expertise, illustrates the fundamental concepts of building and managing a high-performance analytics team, including what to do, who to hire, projects to undertake, and what to avoid in the journey of building an analytically sound team. The core processes in creating an effective analytics team and the importance of the business decision-making life cycle are explored to help achieve initial and sustainable success.The book demonstrates the various traits of a successful and high-performing analytics team and then delineates the path to achieve this with insights on the mindset, advanced analytics models, and predictions based on data analytics. It also emphasizes the significance of the macro and micro processes required to evolve in response to rapidly changing business needs.The book dives into the methods and practices of managing, developing, and leading an analytics team. Once you've brought the team up to speed, the book explains how to govern executive expectations and select winning projects.By the end of this book, you will have acquired the knowledge to create an effective business analytics team and develop a production environment that delivers ongoing operational improvements for your organization.

26
Ebook

Building ETL Pipelines with Python. Create and deploy enterprise-ready ETL pipelines by employing modern methods

Brij Kishore Pandey, Emily Ro Schoof

Modern extract, transform, and load (ETL) pipelines for data engineering have favored the Python language for its broad range of uses and a large assortment of tools, applications, and open source components. With its simplicity and extensive library support, Python has emerged as the undisputed choice for data processing.In this book, you’ll walk through the end-to-end process of ETL data pipeline development, starting with an introduction to the fundamentals of data pipelines and establishing a Python development environment to create pipelines. Once you've explored the ETL pipeline design principles and ET development process, you'll be equipped to design custom ETL pipelines. Next, you'll get to grips with the steps in the ETL process, which involves extracting valuable data; performing transformations, through cleaning, manipulation, and ensuring data integrity; and ultimately loading the processed data into storage systems. You’ll also review several ETL modules in Python, comparing their pros and cons when building data pipelines and leveraging cloud tools, such as AWS, to create scalable data pipelines. Lastly, you’ll learn about the concept of test-driven development for ETL pipelines to ensure safe deployments.By the end of this book, you’ll have worked on several hands-on examples to create high-performance ETL pipelines to develop robust, scalable, and resilient environments using Python.

27
Ebook

Building Statistical Models in Python. Develop useful models for regression, classification, time series, and survival analysis

Huy Hoang Nguyen, Paul N Adams, Stuart J Miller

The ability to proficiently perform statistical modeling is a fundamental skill for data scientists and essential for businesses reliant on data insights. Building Statistical Models with Python is a comprehensive guide that will empower you to leverage mathematical and statistical principles in data assessment, understanding, and inference generation.This book not only equips you with skills to navigate the complexities of statistical modeling, but also provides practical guidance for immediate implementation through illustrative examples. Through emphasis on application and code examples, you’ll understand the concepts while gaining hands-on experience. With the help of Python and its essential libraries, you’ll explore key statistical models, including hypothesis testing, regression, time series analysis, classification, and more.By the end of this book, you’ll gain fluency in statistical modeling while harnessing the full potential of Python's rich ecosystem for data analysis.

28
Ebook

Codeless Time Series Analysis with KNIME. A practical guide to implementing forecasting models for time series analysis applications

KNIME AG, Corey Weisinger, Maarit Widmann, Daniele Tonini

This book will take you on a practical journey, teaching you how to implement solutions for many use cases involving time series analysis techniques.This learning journey is organized in a crescendo of difficulty, starting from the easiest yet effective techniques applied to weather forecasting, then introducing ARIMA and its variations, moving on to machine learning for audio signal classification, training deep learning architectures to predict glucose levels and electrical energy demand, and ending with an approach to anomaly detection in IoT. There’s no time series analysis book without a solution for stock price predictions and you’ll find this use case at the end of the book, together with a few more demand prediction use cases that rely on the integration of KNIME Analytics Platform and other external tools.By the end of this time series book, you’ll have learned about popular time series analysis techniques and algorithms, KNIME Analytics Platform, its time series extension, and how to apply both to common use cases.

29
Ebook

CompTIA Data+: DAO-001 Certification Guide. Complete coverage of the new CompTIA Data+ (DAO-001) exam to help you pass on the first attempt

Cameron Dodd

The CompTIA Data+ certification exam not only helps validate a skill set required to enter one of the fastest-growing fields in the world, but also is starting to standardize the language and concepts within the field. However, there’s a lot of conflicting information and a lack of existing resources about the topics covered in this exam, and even professionals working in data analytics may need a study guide to help them pass on their first attempt.The CompTIA Data + (DAO-001) Certification Guide will give you a solid understanding of how to prepare, analyze, and report data for better insights.You’ll get an introduction to Data+ certification exam format to begin with, and then quickly dive into preparing data. You'll learn about collecting, cleaning, and processing data along with data wrangling and manipulation. As you progress, you’ll cover data analysis topics such as types of analysis, common techniques, hypothesis techniques, and statistical analysis, before tackling data reporting, common visualizations, and data governance. All the knowledge you've gained throughout the book will be tested with the mock tests that appear in the final chapters.By the end of this book, you’ll be ready to pass the Data+ exam with confidence and take the next step in your career.

30
Ebook

Cracking the Data Engineering Interview. Land your dream job with the help of resume-building tips, over 100 mock questions, and a unique portfolio

Kedeisha Bryan, Taamir Ransome

Preparing for a data engineering interview can often get overwhelming due to the abundance of tools and technologies, leaving you struggling to prioritize which ones to focus on. This hands-on guide provides you with the essential foundational and advanced knowledge needed to simplify your learning journey.The book begins by helping you gain a clear understanding of the nature of data engineering and how it differs from organization to organization. As you progress through the chapters, you’ll receive expert advice, practical tips, and real-world insights on everything from creating a resume and cover letter to networking and negotiating your salary. The chapters also offer refresher training on data engineering essentials, including data modeling, database architecture, ETL processes, data warehousing, cloud computing, big data, and machine learning. As you advance, you’ll gain a holistic view by exploring continuous integration/continuous development (CI/CD), data security, and privacy. Finally, the book will help you practice case studies, mock interviews, as well as behavioral questions.By the end of this book, you will have a clear understanding of what is required to succeed in an interview for a data engineering role.

31
Ebook

Dane grafowe w praktyce. Jak technologie grafowe ułatwiają rozwiązywanie złożonych problemów

Denise Gosnell, Matthias Broecheler

Komputer do pracy potrzebuje liczb i danych. Człowiek chętniej wysnuwa wnioski i wyodrębnia kontekst na podstawie relacji. Te dwa sposoby myślenia są tak odmienne, że komputery do niedawna z trudem wykonywały zadania związane z operowaniem na relacjach. Obecnie może się to zmienić dzięki grafom. Technologie grafowe łączą ludzkie postrzeganie świata i liniową pamięć komputerów. Ich wdrożenie na szerszą skalę będzie stanowić przełom i pozwoli osiągnąć nieznany dziś poziom. Ale najpierw trzeba nauczyć się stosować myślenie grafowe w rozwiązywaniu problemów technicznych. Dzięki tej książce opanujesz podstawy myślenia grafowego. Zapoznasz się z elementarnymi koncepcjami grafowymi: teorią grafów, schematami baz danych, systemami rozproszonymi, a także analizą danych. Dowiesz się również, jak wyglądają typowe wzorce wykorzystania danych grafowych w aplikacjach produkcyjnych. Poznasz sposób, w jaki można te wzorce stosować w praktyce. Pokazano tu, jak używać technik programowania funkcyjnego oraz systemów rozproszonych do tworzenia zapytań i analizowania danych grafowych. Opisano też podstawowe podejścia do proceduralnego przechodzenia przez dane grafowe i ich wykorzystanie za pomocą narzędzi grafowych. W książce: nowy paradygmat rozwiązywania problemów: dane grafowe wzorce wykorzystania danych grafowych przykładowa architektura aplikacji w technologiach relacyjnych i grafowych technologie grafowe a przewidywanie preferencji i zaufania użytkowników filtrowanie kolaboratywne i jego zastosowanie Grafy: przełomowa koncepcja w analizie danych!

32
Ebook

Data Cleaning and Exploration with Machine Learning. Get to grips with machine learning techniques to achieve sparkling-clean data quickly

Michael Walker

Many individuals who know how to run machine learning algorithms do not have a good sense of the statistical assumptions they make and how to match the properties of the data to the algorithm for the best results.As you start with this book, models are carefully chosen to help you grasp the underlying data, including in-feature importance and correlation, and the distribution of features and targets. The first two parts of the book introduce you to techniques for preparing data for ML algorithms, without being bashful about using some ML techniques for data cleaning, including anomaly detection and feature selection. The book then helps you apply that knowledge to a wide variety of ML tasks. You’ll gain an understanding of popular supervised and unsupervised algorithms, how to prepare data for them, and how to evaluate them. Next, you’ll build models and understand the relationships in your data, as well as perform cleaning and exploration tasks with that data. You’ll make quick progress in studying the distribution of variables, identifying anomalies, and examining bivariate relationships, as you focus more on the accuracy of predictions in this book.By the end of this book, you’ll be able to deal with complex data problems using unsupervised ML algorithms like principal component analysis and k-means clustering.