Analiza danych

Analiza danych jest ekscytującą dyscypliną, która umożliwia zrozumienie pewnych zjawisk, uzyskanie wglądu i wiedzy na podstawie surowych danych. Pojęcie to oznacza dokładnie przetwarzanie danych za pomocą technik matematycznych i statystycznych w celu uzyskania cennych wniosków, podjęcia ważnych decyzji i opracowania przydatnych produktów. Termin ten wywodzi się od angielskiego data science, często traktowanego jako synonim takich terminów, jak analityka biznesowa, badania operacyjne, business intelligence, wywiad konkurencyjny, analiza i modelowanie danych, a także pozyskiwanie wiedzy. Dzięki takim technologiom, jak języki Python czy R, platformy Hadoop i Spark masz szansę wyciągnąć maksimum wniosków, dostrzec szanse na rozwój swojej organizacji albo przewidzieć i zapobiec zagrożeniom.

529
Ładowanie...
EBOOK

Nowoczesne architektury danych. Przewodnik po hurtowni danych, siatce danych oraz Data Fabric i Data Lakehouse

James Serra

Architektury data fabric i data lakehouse, a także siatka danych pojawiły się niedawno jako alternatywy hurtowni danych. Te nowe architektury mają swoje mocne strony, ale podczas projektowania rzeczywistych rozwiązań musisz pamiętać o odróżnianiu faktów od przesadnych pochwał i niejasności. Nie zawsze jest to proste i oczywiste zadanie. Niezwykłość tej książki polega na przekształcaniu złożonych zagadnień technicznych w jasne i zrozumiałe objaśnienia. Annie Xu, starszy inżynier danych, Google Dzięki temu praktycznemu przewodnikowi profesjonaliści zajmujący się danymi dobrze zrozumieją wady i zalety poszczególnych rozwiązań. Omówiono tu typowe zagadnienia dotyczące architektur danych, w tym ich rozwój i możliwości. Żadna architektura nie jest na tyle uniwersalna, by być odpowiednia w każdej sytuacji, dlatego w książce znajdziesz rzetelne porównanie cech poszczególnych architektur. Dowiesz się, jakie kompromisy towarzyszą każdej z nich, niezależnie od popularności. W ten sposób o wiele łatwiej przyjdzie Ci wybór rozwiązania, które najlepiej odpowiada Twoim potrzebom. Najciekawsze zagadnienia: praktyczne działanie architektur danych, ich mocne i słabe strony wybór najlepszej architektury pod kątem konkretnego zastosowania różnice między hurtowniami i "jeziorami" danych wspólne koncepcje architektur danych i ich historyczny rozwój sesje projektowania architektury, organizacja zespołów i najważniejsze uwarunkowania Połóż tę książkę na biurku. Będziesz często po nią sięgać! Sawyer Nyquist, autor, właściciel The Data Shop

530
Ładowanie...
EBOOK

Numerical Computing with Python. Harness the power of Python to analyze and find hidden patterns in the data

Pratap Dangeti, Allen Yu, Claire Chung, Aldrin...

Data mining, or parsing the data to extract useful insights, is a niche skill that can transform your career as a data scientist Python is a flexible programming language that is equipped with a strong suite of libraries and toolkits, and gives you the perfect platform to sift through your data and mine the insights you seek. This Learning Path is designed to familiarize you with the Python libraries and the underlying statistics that you need to get comfortable with data mining.You will learn how to use Pandas, Python's popular library to analyze different kinds of data, and leverage the power of Matplotlib to generate appealing and impressive visualizations for the insights you have derived. You will also explore different machine learning techniques and statistics that enable you to build powerful predictive models.By the end of this Learning Path, you will have the perfect foundation to take your data mining skills to the next level and set yourself on the path to become a sought-after data science professional.This Learning Path includes content from the following Packt products:• Statistics for Machine Learning by Pratap Dangeti• Matplotlib 2.x By Example by Allen Yu, Claire Chung, Aldrin Yim• Pandas Cookbook by Theodore Petrou

532
Ładowanie...
EBOOK

Odsłaniamy SQL Server 2019: Klastry Big Data i uczenie maszynowe

Bob Ward

Nabierz prędkości dzięki przełomowym zmianom w SQL Server 2019. Nie jest to już jedynie silnik bazodanowy, ale nowatorskie narzędzie wyposażone we wsparcie dla uczenia maszynowego, analiz Big Data, możliwość działania w systemie Linux, kontenery, Kubernetes, Javę czy wirtualizację danych w Azure. Ta książka nie zajmuje się tradycyjną administracją bazami danych w środowisku SQL Server. Koncentruje się na tym wszystkim, co nowe w jednej z najskuteczniej modernizowanych platform danych w branży. To książka dla profesjonalistów danych, którzy znają już podstawy SQL Server i chcą się rozwijać, rozbudowując umiejętności w najgorętszych obszarach nowych technologii. Zagłębimy się w szczegóły kluczowych nowych możliwości SQL Server 2019 przy użyciu podejścia „nauka przez przykład”. Zajmiemy się zagadnieniami Intelligent Performance, zabezpieczeń, dostępności i funkcjonalności oczekiwanych przez współczesnych programistów. Omówimy usprawnienia w SQL Server 2019 dla systemu Linux oraz wykorzystanie kontenerów i klastrów Kubernetes. Pokażemy, jak zwirtualizować dostęp do danych przy użyciu Polybase dla Oracle, MongoDB, Hadoop i Azure, co pozwala zredukować potrzebę stosowania kosztownych aplikacji ETL. Nauczymy się również, jak budować wszechstronne rozwiązania Big Data Clusters, sztandarowej funkcjonalności wydania 2019, zapewniającej dostęp do środowisk Spark, SQL Server HDFS i dowiemy się, jak wbudować inteligencję w nasze własne dane i wdrażać kompletne aplikacje uczenia maszynowego. Dowiedz się, jak: • Implementować Big Data Clusters przy użyciu SQL Server, Spark i HDFS • Tworzyć węzły danych z połączeniami do Oracle, Azure, Hadoop i innych źródeł • Łączyć SQL i Spark w celu zbudowania platformy uczenia maszynowego dla aplikacji AI • Zwiększyć wydajność bez zmieniania aplikacji przy użyciu Intelligent Performance • Podnieść zabezpieczenia SQL Server dzięki mechanizmom Secure Enclaves i Data Classification • Zmaksymalizować czas działania bazy danych poprzez indeksowanie online i Accelerated Database Recovery • Budować nowoczesne aplikacje przy użyciu narzędzi Graph, ML Services i T-SQL Extensibility dla języka Java • Zwiększyć możliwości wdrażania SQL Server w systemie Linux • Uruchamiać SQL Server w kontenerach i Kubernetes • Korzystać z najnowszych narzędzi i metod migracji bazy danych do SQL Server 2019 • Zastosować wiedzę na temat SQL Server 2019 w środowisku Azure

533
Ładowanie...
EBOOK

OpenGL Data Visualization Cookbook. Over 35 hands-on recipes to create impressive, stunning visuals for a wide range of real-time, interactive applications using OpenGL

William Lo, Raymond Chun Hing Lo

OpenGL is a great multi-platform, cross-language, and hardware-accelerated graphics interface for visualizing large 2D and 3D datasets. Data visualization has become increasingly challenging using conventional approaches as datasets become larger and larger, especially with the Big Data evolution. From a mobile device to a sophisticated high-performance computing cluster, OpenGL libraries provide developers with an easy-to-use interface to create stunning visuals in 3D in real time for a wide range of interactive applications.This book provides a series of easy-to-follow, hands-on tutorials to create appealing OpenGL-based visualization tools with minimal development time. We will first illustrate how to quickly set up the development environment in Windows, Mac OS X, and Linux. Next, we will demonstrate how to visualize data for a wide range of applications using OpenGL, starting from simple 2D datasets to increasingly complex 3D datasets with more advanced techniques. Each chapter addresses different visualization problems encountered in real life and introduces the relevant OpenGL features and libraries in a modular fashion.By the end of this book, you will be equipped with the essential skills to develop a wide range of impressive OpenGL-based applications for your unique data visualization needs, on platforms ranging from conventional computers to the latest mobile/wearable devices.

534
Ładowanie...
EBOOK

OpenStack Sahara Essentials. Integrate, deploy, rapidly configure, and successfully manage your own big data-intensive clusters in the cloud using OpenStack Sahara

Omar Khedher

The Sahara project is a module that aims to simplify the building of data processing capabilities on OpenStack.The goal of this book is to provide a focused, fast paced guide to installing, configuring, and getting started with integrating Hadoop with OpenStack, using Sahara.The book should explain to users how to deploy their data-intensive Hadoop and Spark clusters on top of OpenStack. It will also cover how to use the Sahara REST API, how to develop applications for Elastic Data Processing on Openstack, and setting up hadoop or spark clusters on Openstack.

535
Ładowanie...
EBOOK

Optimizing Databricks Workloads. Harness the power of Apache Spark in Azure and maximize the performance of modern big data workloads

Anirudh Kala, Anshul Bhatnagar, Sarthak Sarbahi

Databricks is an industry-leading, cloud-based platform for data analytics, data science, and data engineering supporting thousands of organizations across the world in their data journey. It is a fast, easy, and collaborative Apache Spark-based big data analytics platform for data science and data engineering in the cloud.In Optimizing Databricks Workloads, you will get started with a brief introduction to Azure Databricks and quickly begin to understand the important optimization techniques. The book covers how to select the optimal Spark cluster configuration for running big data processing and workloads in Databricks, some very useful optimization techniques for Spark DataFrames, best practices for optimizing Delta Lake, and techniques to optimize Spark jobs through Spark core. It contains an opportunity to learn about some of the real-world scenarios where optimizing workloads in Databricks has helped organizations increase performance and save costs across various domains.By the end of this book, you will be prepared with the necessary toolkit to speed up your Spark jobs and process your data more efficiently.