Wydawca: 16
Apache Spark for Data Science Cookbook. Solve real-world analytical problems
Padma Priya Chitturi
Spark has emerged as the most promising big data analytics engine for data science professionals. The true power and value of Apache Spark lies in its ability to execute data science tasks with speed and accuracy. Spark’s selling point is that it combines ETL, batch analytics, real-time stream analysis, machine learning, graph processing, and visualizations. It lets you tackle the complexities that come with raw unstructured data sets with ease. This guide will get you comfortable and confident performing data science tasks with Spark. You will learn about implementations including distributed deep learning, numerical computing, and scalable machine learning. You will be shown effective solutions to problematic concepts in data science using Spark’s data science libraries such as MLLib, Pandas, NumPy, SciPy, and more. These simple and efficient recipes will show you how to implement algorithms and optimize your work.
Deepak Gowda
In the world of big data, efficiently processing and analyzing massive datasets for machine learning can be a daunting task. Written by Deepak Gowda, a data scientist with over a decade of experience and 30+ patents, this book provides a hands-on guide to mastering Spark’s capabilities for efficient data processing, model building, and optimization. With Deepak’s expertise across industries such as supply chain, cybersecurity, and data center infrastructure, he makes complex concepts easy to follow through detailed recipes.This book takes you through core machine learning concepts, highlighting the advantages of Spark for big data analytics. It covers practical data preprocessing techniques, including feature extraction and transformation, supervised learning methods with detailed chapters on regression and classification, and unsupervised learning through clustering and recommendation systems. You’ll also learn to identify frequent patterns in data and discover effective strategies to deploy and optimize your machine learning models. Each chapter features practical coding examples and real-world applications to equip you with the knowledge and skills needed to tackle complex machine learning tasks.By the end of this book, you’ll be ready to handle big data and create advanced machine learning models with Apache Spark.
Rindra Ramamonjison, Rindra Ramamonjison
Apache Spark. Kurs video. Przetwarzanie złożonych zbiorów danych
Marek Czuma
Obierz kurs na złożone zbiory danych Apache Spark to narzędzie do przetwarzania danych w trybie rozproszonym, które umożliwia budowanie zaawansowanych systemów operacji na złożonych zbiorach danych. Przetwarzanie rozproszone poprzez wykorzystanie wielu maszyn jednocześnie znacząco przyspiesza operacje na dużych ilościach danych. Spark jest niezwykle popularny, stosowany w licznych projektach, a jego rynkowy udział stale rośnie. Można go używać zarówno na platformach chmurowych, jak i on-premise. W czasach, gdy Apache Spark debiutował, dominowała technologia MapReduce, która szybko została zastąpiona przez Sparka z powodu jego wielokrotnie lepszej wydajności. Dzięki przetwarzaniu danych w pamięci może on być nawet 100 razy szybszy! Do dużych firm korzystających z tego narzędzia należą: eBay, który używa go do targetowanych ofert, i Netflix, przetwarzający w trybie strumieniowym ponad 450 miliardów zdarzeń dziennie. Spark jest narzędziem niezastąpionym w świecie big data – obsługuje różne rodzaje przetwarzania danych, w tym przetwarzanie wsadowe, strumieniowe, interaktywne zapytania i uczenie maszynowe. Oferuje API dla języków takich jak Python, Scala, Java i R. Dodatkowo ma bogaty ekosystem narzędzi i bibliotek, między innymi Spark SQL, rozszerzających jego funkcjonalność i umożliwiających szerokie zastosowanie w różnorodnych projektach. To wszechstronne narzędzie rewolucjonizuje sposób, w jaki przetwarzamy i analizujemy dane w dzisiejszym świecie. Zdobądź praktyczne umiejętności i dowiedz się, jak korzystać z Apache Spark w branży big data. W trakcie kursu: Nauczysz się podstawowej obsługi Apache Spark Dowiesz się, jak działa architektura Sparka Zrozumiesz, jak zbudować logiczną strukturę joba (aplikacji) sparkowego Poznasz struktury danych obecne w Sparku Odkryjesz wiele funkcji przydatnych przy operacjach na danych Nauczysz się budować własne funkcje do operacji na danych (UDF) Dowiesz się, jak łączyć zbiory danych Opanujesz oczyszczanie surowych danych przy użyciu Sparka Nauczysz się pracy na rzeczywistych zbiorach danych W trakcie szkolenia Apache Spark. Kurs video. Przetwarzanie złożonych zbiorów danych nauczysz się budowy Apache Spark, poznając jego architekturę i zasady działania na wielu maszynach. Zdobędziesz ogólne rozeznanie w strukturach Apache Spark, a także zrozumiesz, jak działają akcje i transformacje. Będziesz pracować ze strukturami danych, jak RDD i dataframe – łączyć je za pomocą Unions i Joins, wykonywać agregacje i korzystać z pakietu functions. Odkryjesz, jak pracować z plikami w Sparku, a także przeprowadzisz praktyczne ćwiczenia na danych z Netflixa i pizzerii w USA. Dowiesz się, jak tworzyć własną logikę w Sparku, w tym jak definiować i stosować funkcje UDF i transform. Na koniec opanujesz dobre praktyki wydajnościowe i zrealizujesz mikroprojekt, obejmujący przegląd i czyszczenie danych, budowę wyszukiwarki i generatora statystyk. Kurs ukończysz na poziomie podstawowym. Zdobyte umiejętności pozwolą Ci pewnie poruszać się w środowisku Sparka, jak również – z pomocą doświadczonego zespołu – wziąć udział w pierwszym komercyjnym projekcie Sparkowym. Oddaję w Twoje ręce kurs, który jest syntezą wielu lat mojej pracy z Apache Spark. Choć uwielbiam tę technologię, popełniłem przy niej więcej błędów, niż jest to przyzwoite. Tym kursem oszczędzę Ci znakomitej większości z nich! Mam głęboką nadzieję, że poza solidną zawartością merytoryczną, będziesz się po prostu świetnie bawić. Wierzę, że nie tylko dasz radę przejść go wzorowo, ale też że uruchomisz ogromne pokłady swojej kreatywności. Twoje możliwości są znacznie wyżej, niż sądzisz! Wierzę w Ciebie, więc laptop na biurko, kawa w dłoń i lecimy eksplorować fascynujący świat danych!
Alex Liu
There's a reason why Apache Spark has become one of the most popular tools in Machine Learning – its ability to handle huge datasets at an impressive speed means you can be much more responsive to the data at your disposal. This book shows you Spark at its very best, demonstrating how to connect it with R and unlock maximum value not only from the tool but also from your data.Packed with a range of project blueprints that demonstrate some of the most interesting challenges that Spark can help you tackle, you'll find out how to use Spark notebooks and access, clean, and join different datasets before putting your knowledge into practice with some real-world projects, in which you will see how Spark Machine Learning can help you with everything from fraud detection to analyzing customer attrition. You'll also find out how to build a recommendation engine using Spark's parallel computing powers.
Shrey Mehrotra, Akash Grade
Apache Spark is a ?exible framework that allows processing of batch and real-time data. Its unified engine has made it quite popular for big data use cases. This book will help you to get started with Apache Spark 2.0 and write big data applications for a variety of use cases.It will also introduce you to Apache Spark – one of the most popular Big Data processing frameworks. Although this book is intended to help you get started with Apache Spark, but it also focuses on explaining the core concepts. This practical guide provides a quick start to the Spark 2.0 architecture and its components. It teaches you how to set up Spark on your local machine. As we move ahead, you will be introduced to resilient distributed datasets (RDDs) and DataFrame APIs, and their corresponding transformations and actions. Then, we move on to the life cycle of a Spark application and learn about the techniques used to debug slow-running applications. You will also go through Spark’s built-in modules for SQL, streaming, machine learning, and graph analysis.Finally, the book will lay out the best practices and optimization techniques that are key for writing efficient Spark applications. By the end of this book, you will have a sound fundamental understanding of the Apache Spark framework and you will be able to write and optimize Spark applications.
Shashank Shekhar
Apache Superset is a modern, open source, enterprise-ready business intelligence (BI) web application. With the help of this book, you will see how Superset integrates with popular databases like Postgres, Google BigQuery, Snowflake, and MySQL. You will learn to create real time data visualizations and dashboards on modern web browsers for your organization using Superset.First, we look at the fundamentals of Superset, and then get it up and running. You'll go through the requisite installation, configuration, and deployment. Then, we will discuss different columnar data types, analytics, and the visualizations available. You'll also see the security tools available to the administrator to keep your data safe.You will learn how to visualize relationships as graphs instead of coordinates on plain orthogonal axes. This will help you when you upload your own entity relationship dataset and analyze the dataset in new, different ways. You will also see how to analyze geographical regions by working with location data.Finally, we cover a set of tutorials on dashboard designs frequently used by analysts, business intelligence professionals, and developers.
Tanuj Khare
Apache Tomcat (or simply Tomcat) is an open source servlet container developed by the Apache Software Foundation (ASF). The latest major stable release, Apache Tomcat version 7 implements the Servlet 3 and JavaServer Pages 2 specifications from the Java Community Process, and includes many additional features that make it a useful platform for developing and deploying web applications and web services.Apache Tomcat 7 Essentials follows a practical approach to teach installing, configuring, and maintaining Tomcat. It helps you to understand the middle architecture for hosting multiple websites and also provides the confidence to implement middleware support. It imparts to you the capacity to resolve migration issues and also provides regular maintenance solutions. This is the first and only book to cover upgrading to Tomcat 7 from previous versions.The journey of the reader starts at the beginner level and ends at the expert level. The content is designed in such a way that it balances the theory and practical approach for understanding concepts related to handling middle ware and web issues.In this book, you will go through a three-phase life cycle. The first cycle consists of installation, configuration of Tomcat 7 on different OS, and other configurations related to JDBC, port, deployment etc. The second phase deals with the building of enterprise application setup and high availability architecture (clustering load balancing). The third and critical phase will teach you to handle critical issues, performance tuning, and best practices for various environment stacks like dev/QA/stage/production.This book gives you a wider vision of using Tomcat 7 in web technologies and the skill to optimize their performance using Apache Tomcat 7.