Бази даних

25
Eлектронна книга
26
Eлектронна книга

Analityk danych. Przewodnik po data science, statystyce i uczeniu maszynowym

Alex J. Gutman, Jordan Goldmeier

Musisz spojrzeć prawdzie w oczy: epoka danych to nie tylko imponujące możliwości, ale również obietnice bez pokrycia. Firmy wdrażają rozwiązania, które mają je wyręczać w podejmowaniu decyzji. Menedżerowie zatrudniają analityków, którzy nimi nie są. Specjaliści w dziedzinie data science są zatrudniani w organizacjach, które nie są na nich gotowe. Dyrektorzy wysłuchują technicznego żargonu i udają, że go rozumieją. Efekt? Pieniądze idą w błoto. Oto praktyczny przewodnik po nauce o danych w miejscu pracy. Dowiesz się stąd wszystkiego, co ważne na początku Twojej drogi jako danologa: od osobowości, z którymi przyjdzie Ci pracować, przez detale analizy danych, po matematykę stojącą za algorytmami i uczeniem maszynowym. Nauczysz się myśleć krytycznie o danych i otrzymanych wynikach, będziesz też inteligentnie o tym mówić. Jednym zdaniem: zrozumiesz dane i związane z nimi wyzwania na głębszym, profesjonalnym poziomie. To książka dla każdego, kto chce przestawić firmę na tory data science. Eric Weber, kierownik ds. eksperymentów i badań metrycznych, Yelp Naucz się: myśleć statystycznie i rozumieć rolę zmienności w podejmowaniu decyzji zadawać właściwe pytania na temat statystyk i wyników analiz sensownie korzystać z rozwiązań uczenia maszynowego i sztucznej inteligencji unikać typowych błędów podczas pracy z danymi i ich interpretowania Data science? Odsiejesz piasek od złota!

27
Eлектронна книга

Analiza danych z wykorzystaniem SQL-a. Zaawansowane techniki przekształcania danych we wnioski

Cathy Tanimura

Język SQL został stworzony jako narzędzie do przetwarzania danych. Mimo że zwykle jest używany do pracy z bazami danych, jego możliwości są o wiele większe. Poprawny kod SQL ułatwia przetwarzanie potężnych zbiorów danych z dużą szybkością. Szczególnie obiecującą perspektywą jest zastosowanie języka SQL na wielkich zbiorach danych przechowywanych w chmurze. Dzięki nieco bardziej złożonym konstrukcjom SQL analityk danych może z dużą efektywnością wydobywać z nich wiedzę. Ta praktyczna książka jest przeznaczona dla analityków danych i danologów, którzy chcą używać SQL-a do eksploracji dużych zbiorów danych. Pokazuje zarówno popularne, jak i nieco mniej znane techniki budowania zapytań SQL, dzięki czemu możliwe staje się rozwiązywanie nawet bardzo zawiłych problemów i optymalne wykorzystanie właściwości tego języka w pracy na danych. W nowy, innowacyjny sposób przedstawiono tu takie pojęcia jak złączenia, funkcje okna, podzapytania i wyrażenia regularne. Zademonstrowano, jak łączyć różne techniki, aby szybciej osiągać cele za pomocą łatwego do zrozumienia, czytelnego kodu. Opisywany materiał został zilustrowany licznymi przykładami zapytań SQL, dzięki czemu można płynnie przejść do rozwiązywania konkretnych problemów z zakresu przetwarzania, analizy i eksploracji danych. Najciekawsze zagadnienia: przygotowywanie danych do analizy analizy szeregów czasowych z wykorzystaniem SQL analizy kohortowe do badania zachodzących zmian analiza tekstu za pomocą zaawansowanych funkcji i operatorów SQL wykrywanie odstających wartości analizy eksperymentów (testy A/B) SQL: tak wyciągniesz z danych rzetelne wnioski!

28
Eлектронна книга

Anonimizacja i maskowanie danych wrażliwych w przedsiębiorstwach

Dariusz Nabywaniec

Zostań ekspertem od anonimizacji wrażliwych danych! Czym są dane poufne? Jak je zabezpieczyć przed wyciekiem? Jak maskować dane i pozostać anonimowym w sieci? Współczesny świat produkuje ogromne ilości danych, z których duża część to dane wrażliwe. Wyciek takich danych poza przechowujące je przedsiębiorstwo czy instytucję może nie tylko narażać na szwank reputację organizacji, lecz również nieść za sobą ryzyko konkretnych strat finansowych i poważne konsekwencje o charakterze prawnym. Aby nie dopuścić do tego rodzaju sytuacji, firmy na całym świecie odpowiednio się zabezpieczają, a składową tych działań jest anonimizacja danych, czyli takie ich przetwarzanie, dzięki któremu staną się bezwartościowe, gdy wpadną w niepowołane ręce. Anonimizacja i maskowanie danych wrażliwych w przedsiębiorstwach to książka, z której się dowiesz, jakie zagrożenia wiążą się z przechowywaniem poufnych danych, a także poznasz sposoby pozwalające Ci ograniczyć wynikające z tego ryzyko. Na podstawie własnego doświadczenia i na praktycznych przykładach autor prezentuje w publikacji najlepsze praktyki anonimizacji i maskowania danych, wykorzystywane w tym celu narzędzia i techniki oraz pułapki czyhające na firmy, które nie stosują właściwych zabezpieczeń. To obowiązkowa lektura dla wszystkich osób odpowiedzialnych za bezpieczeństwo i zachowanie prywatności danych, administratorów baz danych, architektów oprogramowania, analityków danych i dyrektorów technicznych przedsiębiorstw z branży IT, a tak naprawdę dla każdego, kto zawodowo ma do czynienia z systemami informatycznymi przechowującymi i przetwarzającymi wrażliwe informacje. Przeczytaj, zanim będzie za późno! Wyszukiwanie i rozpoznawanie danych wrażliwych Analiza ryzyka i sposoby zabezpieczania danych Role i obowiązki osób odpowiedzialnych za prywatność danych Narzędzia i metody stosowane w anonimizacji danych Techniki maskowania i szyfrowania danych Zabezpiecz się zawczasu - anonimizuj swoje poufne dane!

29
Eлектронна книга

Apache Cassandra Essentials. Create your own massively scalable Cassandra database with highly responsive database queries

Nitin Padalia

Apache Cassandra Essentials takes you step-by-step from from the basics of installation to advanced installation options and database design techniques. It gives you all the information you need to effectively design a well distributed and high performance database. You’ll get to know about the steps that are performed by a Cassandra node when you execute a read/write query, which is essential to properly maintain of a Cassandra cluster and to debug any issues. Next, you’ll discover how to integrate a Cassandra driver in your applications and perform read/write operations. Finally, you’ll learn about the various tools provided by Cassandra for serviceability aspects such as logging, metrics, backup, and recovery.

30
Eлектронна книга

Apache Flume: Distributed Log Collection for Hadoop. If your role includes moving datasets into Hadoop, this book will help you do it more efficiently using Apache Flume. From installation to customization, it's a complete step-by-step guide on making the service work for you

Steve Hoffman, Steven Hoffman, Kevin A. McGrail

Apache Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. Its main goal is to deliver data from applications to Apache Hadoop's HDFS. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with many failover and recovery mechanisms.Apache Flume: Distributed Log Collection for Hadoop covers problems with HDFS and streaming data/logs, and how Flume can resolve these problems. This book explains the generalized architecture of Flume, which includes moving data to/from databases, NO-SQL-ish data stores, as well as optimizing performance. This book includes real-world scenarios on Flume implementation.Apache Flume: Distributed Log Collection for Hadoop starts with an architectural overview of Flume and then discusses each component in detail. It guides you through the complete installation process and compilation of Flume.It will give you a heads-up on how to use channels and channel selectors. For each architectural component (Sources, Channels, Sinks, Channel Processors, Sink Groups, and so on) the various implementations will be covered in detail along with configuration options. You can use it to customize Flume to your specific needs. There are pointers given on writing custom implementations as well that would help you learn and implement them.By the end, you should be able to construct a series of Flume agents to transport your streaming data and logs from your systems into Hadoop in near real time.

31
Eлектронна книга

Apache Hadoop 3 Quick Start Guide. Learn about big data processing and analytics

Hrishikesh Vijay Karambelkar

Apache Hadoop is a widely used distributed data platform. It enables large datasets to be efficiently processed instead of using one large computer to store and process the data. This book will get you started with the Hadoop ecosystem, and introduce you to the main technical topics, including MapReduce, YARN, and HDFS.The book begins with an overview of big data and Apache Hadoop. Then, you will set up a pseudo Hadoop development environment and a multi-node enterprise Hadoop cluster. You will see how the parallel programming paradigm, such as MapReduce, can solve many complex data processing problems.The book also covers the important aspects of the big data software development lifecycle, including quality assurance and control, performance, administration, and monitoring. You will then learn about the Hadoop ecosystem, and tools such as Kafka, Sqoop, Flume, Pig, Hive, and HBase. Finally, you will look at advanced topics, including real time streaming using Apache Storm, and data analytics using Apache Spark. By the end of the book, you will be well versed with different configurations of the Hadoop 3 cluster.

32
Eлектронна книга

Apache Hive Cookbook

Hanish Bansal, Shrey Mehrotra, Saurabh Chauhan

Hive was developed by Facebook and later open sourced in Apache community. Hive provides SQL like interface to run queries on Big Data frameworks. Hive provides SQL like syntax also called as HiveQL that includes all SQL capabilities like analytical functions which are the need of the hour in today’s Big Data world.This book provides you easy installation steps with different types of metastores supported by Hive. This book has simple and easy to learn recipes for configuring Hive clients and services. You would also learn different Hive optimizations including Partitions and Bucketing. The book also covers the source code explanation of latest Hive version.Hive Query Language is being used by other frameworks including spark. Towards the end you will cover integration of Hive with these frameworks.