Big data
Bahaaldine Azarmi, Jeff Vestal, Shay Banon
While natural language processing (NLP) is largely used in search use cases, this book aims to inspire you to start using vectors to overcome equally important domain challenges like observability and cybersecurity. The chapters focus mainly on integrating vector search with Elastic to enhance not only their search but also observability and cybersecurity capabilities.The book, which also features a foreword written by the founder of Elastic, begins by teaching you about NLP and the functionality of Elastic in NLP processes. Here you’ll delve into resource requirements and find out how vectors are stored in the dense-vector type along with specific page cache requirements for fast response times. As you advance, you’ll discover various tuning techniques and strategies to improve machine learning model deployment, including node scaling, configuration tuning, and load testing with Rally and Python. You’ll also cover techniques for vector search with images, fine-tuning models for improved performance, and the use of clip models for image similarity search in Elasticsearch. Finally, you’ll explore retrieval-augmented generation (RAG) and learn to integrate ChatGPT with Elasticsearch to leverage vectorized data, ELSER's capabilities, and RRF's refined search mechanism.By the end of this NLP book, you’ll have all the necessary skills needed to implement and optimize vector search in your projects with Elastic.
Dr Ranjana Rajnish; Dr Meenakshi Srivastava
Danologia to najszybciej rozwijająca się dziedzina na świecie. Przewiduje się, że do roku 2026 stworzy 11,5 mln nowych miejsc pracy, tak więc osoby poszukujące pracy i posiadające ten zestaw umiejętności mają tu wiele możliwości. Jednym z najbardziej pożądanych obszarów w dziedzinie danologii jest wydobywanie informacji ze stron internetowych. Jeśli jesteś początkującym danologiem, który chce się nauczyć różnych technik eksplorowania stron sieci Web, ta książka jest właśnie dla Ciebie. Na początku tej książki omawiane są kluczowe koncepcje związane z eksploracją danych w sieci Web i jej taksonomią. Następnie omawiane są podstawy dotyczące procesu ekstrakcji danych ze stron, jego zastosowania i komponenty, a także inne tematy, jak choćby aspekty prawne związane z procesem ekstrakcji, wyodrębnianiem i wstępnym przetwarzaniem danych, ekstrakcją danych z dynamicznych stron internetowych czy zabezpieczeniem CAPTCHA. Przedstawia również koncepcję eksploracji opinii oraz struktury stron internetowych. Ponadto omawia ona eksplorację grafów, wyodrębnianie informacji ze stron internetowych, wyszukiwanie na stronach i hiperłącza, wyszukiwanie algorytmem Hyperlink Induced Topic Search (HITS) oraz algorytmy partycjonowania, które używane są przy eksploracji danych w sieci Web. Na końcu książki prezentowane są różne techniki eksploracji ułatwiające odkrywanie interesujących wzorców użycia z danych na stronach internetowych. Kluczowe elementy Pełny przegląd podstawowych i zaawansowanych koncepcji dotyczących eksploracji danych w sieci Web. Pracuj z łatwymi w użyciu bibliotekami open source języka Python do eksplorowania danych. Zapoznaj się z różnymi korzystnymi obszarami i zastosowaniami dla eksploracji danych w sieci Web. CZEGO SIĘ NAUCZYSZ? Dokonywać ekstrakcji danych z dowolnej witryny internetowej z użyciem języka Python. Zapoznasz się z koncepcjami dotyczącymi eksploracji opinii i analizy nastrojów. Użyjesz eksploracji struktury do odkrywania informacji o strukturze danej strony. Nauczysz się zbierać i analizować dane z mediów społecznościowych z użyciem języka Python. Użyjesz eksploracji korzystania ze strony do przewidywania zachowań internautów podczas przeglądania stron. Dla kogo jest ta książka Ta książka jest przeznaczona dla każdego, kto chce się nauczyć eksplorować dane na stronach sieci Web. Będzie najbardziej pomocna dla początkujących danologów, inżynierów danych i analityków danych, którzy chcą opanować techniki eksplorowania danych na stronach internetowych.
Charbel Nemnom, Patrick Lownds, Leandro Carvalho
Hyper-V 2016 is full of new features and updates. The second of our best-selling Hyper-V books, the Windows Server 2016 Hyper-V Cookbook has it all covered. Brimming with expert solutions and techniques, you?ll have everything you need to master virtualization and Hyper-V Manager. This Hyper-V book is designed to help advanced-level administrators benefit fully from the new Windows Server. With over 80 hands-on recipes, the Hyper-V Cookbook gives you tips, tricks and best practices to deploy, maintain and upgrade your virtual machines.
Wizualizacja danych. Pulpity nawigacyjne i raporty w Excelu
Dick Kusleika
Dziś nawet małe firmy mają niespotykany wcześniej dostęp do dużych ilości danych. Osoby zarządzające przedsiębiorstwem mogą z nich korzystać przy podejmowaniu decyzji biznesowych, w tym celu jednak konieczne jest przetworzenie surowych danych. Tym właśnie zajmuje się analityka biznesowa, a jednym z najpopularniejszych programów stosowanych w tej dziedzinie jest MS Excel. Od jakiegoś czasu oprogramowanie to zawiera wyspecjalizowane funkcje i narzędzia, dzięki którym analizę i wizualizację danych można wykonać bez potrzeby sięgania po inne aplikacje. Lektura tej książki nauczy Cię myśleć o danych inaczej niż dotychczas. Przekonasz się, że to nie tylko wypełnione kolumny i wiersze. Nie poprzestaniesz na prostej pracy z danymi, a nauczysz się je układać w historie obfitujące w cenne wnioski. Dowiesz się, jak sobie radzić z wartościami, które wyraźnie odstają od innych, i nauczysz się odpowiedniego grupowania danych. Zobaczysz, że można je pokazywać ― nawet jeśli są to ogromne ilości ― bez zasypywania i dezorientowania odbiorców. W końcu odkryjesz, jak przejść od arkusza z nieprzetworzonymi danymi i wykresami do pełnych wartościowych informacji raportów i paneli nawigacyjnych. W ten sposób, dzięki wizualizacji danych biznesowych, łatwiej Ci będzie przekonać swoich partnerów do własnych pomysłów. Dzięki książce poznasz sposoby: analizowania bardzo dużych ilości danych prezentowania danych z kilku perspektyw efektywnego rozdzielania danych na różne widoki automatyzowania procesów przygotowywania raportów i przeprowadzania analiz tworzenia atrakcyjnych paneli nawigacyjnych przygotowania analiz typu „co, jeśli” MS Excel: najbardziej przydatne wnioski wyciągniesz ze swoich danych!
Aleksander Molak
W uczeniu maszynowym odkrywanie związków przyczynowych daje możliwości, jakich nie można uzyskać tradycyjnymi technikami statystycznymi. Najnowsze trendy w programowaniu pokazują, że przyczynowość staje się kluczowym zagadnieniem dla generatywnej sztucznej inteligencji. Niezbędna okazuje się więc znajomość grafów przyczynowych i zapytań konfrontacyjnych. Dzięki tej książce łatwo przyswoisz teoretyczne podstawy i zaczniesz je płynnie wdrażać w rzeczywistych scenariuszach. Dowiesz się, w jaki sposób myślenie przyczynowe ułatwia rozwiązywanie problemów, i poznasz pojęcia Pearla, takie jak strukturalny model przyczynowy, interwencje, kontrfakty itp. Każde zagadnienie zostało dokładnie wyjaśnione i opatrzone zbiorem praktycznych ćwiczeń z kodem w Pythonie. Nauczysz się także implementować poszczególne modele i zrozumiesz, czym się kierować przy wyborze technik i algorytmów do rozwiązywania konkretnych scenariuszy przyczynowych. To przewodnik, który docenią szczególnie inżynierowie uczenia maszynowego i analitycy danych. W książce: wnioskowanie związków przyczynowych budowa i działanie strukturalnych modeli przyczynowych czteroetapowy proces wnioskowania związków przyczynowych w Pythonie techniki modelowania efektu interwencji nowoczesne metody odkrywania związków przyczynowych za pomocą Pythona korzystanie z wnioskowania związków przyczynowych Przyczyna i skutek, nic więcej. Pomyłki jako takie nie istnieją... Jose Antonio Cotrina, hiszpański pisarz science fiction
Wnioskowanie przyczynowe w Pythonie. Praktyczne wykorzystanie w branży technologicznej
Matheus Facure
Wnioskowanie przyczynowe przydaje się w sytuacji, gdy trzeba określić wpływ decyzji biznesowej na konkretny wynik, na przykład wielkość sprzedaży. Działania te są dobrze znane nauce, ale dopiero od niedawna świat poznaje korzyści z ich zastosowania w branży technologicznej. Przyczyniły się do tego postępy w uczeniu maszynowym, automatyzacji procesów i danologii. Teraz, aby uzyskać wymierne korzyści, wystarczy kilka wierszy kodu w Pythonie. Poznaj narzędzia najbardziej znanych analityków danych korzystających z Pythona! prof. Nick Huntington-Klein, autor The Effect: An Introduction to Research Design and Causality Tę książkę docenią w szczególności analitycy danych. Wyjaśniono w niej potencjał wnioskowania przyczynowego w zakresie szacowania wpływu i efektów w biznesie. Opisano klasyczne metody wnioskowania przyczynowego, w tym testy A/B, regresja liniowa, wskaźnik skłonności, metoda syntetycznej kontroli i metoda różnicy w różnicach, przy czym skoncentrowano się przede wszystkim na praktycznym aspekcie tych technik. Znalazło się tu również omówienie nowoczesnych rozwiązań, takich jak wykorzystanie uczenia maszynowego do szacowania heterogenicznych efektów. Każda metoda została zilustrowana opisem zastosowania w branży technologicznej. W książce między innymi: podstawy wnioskowania przyczynowego problemy biznesowe jako zagadnienia z obszaru wnioskowania przyczynowego eksperymenty geograficzne i eksperymenty z przełączaniem oddziaływania badanie błędu systematycznego modele graficzne i wizualizacja związków przyczynowych Najlepsza książka poświęcona najnowocześniejszym metodom, działaniu na rzeczywistych danych i rozwiązywaniu praktycznych problemów! Sean J. Taylor, główny badacz w Motif Analytics
Wnioskowanie przyczynowe w Pythonie. Praktyczne wykorzystanie w branży technologicznej
Matheus Facure
Wnioskowanie przyczynowe przydaje się w sytuacji, gdy trzeba określić wpływ decyzji biznesowej na konkretny wynik, na przykład wielkość sprzedaży. Działania te są dobrze znane nauce, ale dopiero od niedawna świat poznaje korzyści z ich zastosowania w branży technologicznej. Przyczyniły się do tego postępy w uczeniu maszynowym, automatyzacji procesów i danologii. Teraz, aby uzyskać wymierne korzyści, wystarczy kilka wierszy kodu w Pythonie. Poznaj narzędzia najbardziej znanych analityków danych korzystających z Pythona! prof. Nick Huntington-Klein, autor The Effect: An Introduction to Research Design and Causality Tę książkę docenią w szczególności analitycy danych. Wyjaśniono w niej potencjał wnioskowania przyczynowego w zakresie szacowania wpływu i efektów w biznesie. Opisano klasyczne metody wnioskowania przyczynowego, w tym testy A/B, regresja liniowa, wskaźnik skłonności, metoda syntetycznej kontroli i metoda różnicy w różnicach, przy czym skoncentrowano się przede wszystkim na praktycznym aspekcie tych technik. Znalazło się tu również omówienie nowoczesnych rozwiązań, takich jak wykorzystanie uczenia maszynowego do szacowania heterogenicznych efektów. Każda metoda została zilustrowana opisem zastosowania w branży technologicznej. W książce między innymi: podstawy wnioskowania przyczynowego problemy biznesowe jako zagadnienia z obszaru wnioskowania przyczynowego eksperymenty geograficzne i eksperymenty z przełączaniem oddziaływania badanie błędu systematycznego modele graficzne i wizualizacja związków przyczynowych Najlepsza książka poświęcona najnowocześniejszym metodom, działaniu na rzeczywistych danych i rozwiązywaniu praktycznych problemów! Sean J. Taylor, główny badacz w Motif Analytics
Wprowadzenie do systemów baz danych. Wydanie VII
Ramez Elmasri, Shamkant B. Navathe
Mijają lata, a bazy danych wciąż stanowią serce większości systemów informatycznych. Rozwój technologii sprawia jednak, że zaprojektowanie systemu baz danych, jego wdrożenie i administrowanie nim wymaga biegłości w wielu dziedzinach. Niezbędne są solidne podstawy modelowania i projektowania baz danych, umiejętność posłużenia się językami i modelami udostępnianymi przez systemy zarządzania bazami danych, a także znajomość technik implementacji samych systemów. Od profesjonalisty wymaga się także wiedzy o najnowszych technologiach, takich jak NoSQL i oczywiście big data. Ważnym uzupełnieniem tego szerokiego wachlarza jest też znajomość technologii powiązanych z systemami bazodanowymi. Ta książka jest siódmym, zaktualizowanym wydaniem klasycznego podręcznika do nauki baz danych. Jest to szczegółowa prezentacja najważniejszych aspektów systemów i aplikacji bazodanowych oraz powiązanych technologii. To znakomity podręcznik dla studentów i świetne kompendium dla praktyków. Sporo miejsca poświęcono w nim systemom rozproszonym oraz technologiom opartym na systemie Hadoop i modelu MapReduce. Nie zabrakło opisu takich zagadnień, jak model IR, wyszukiwanie z użyciem słów kluczowych, porównanie baz danych z modelem IR, modele wyszukiwania, ocena wyszukiwania i algorytmy rankingowe. Wykładowcom przyda się szereg ułatwiających pracę dydaktyczną diagramów, prezentacji i rysunków. W książce między innymi: wprowadzenie do modeli, systemów i języków z obszaru baz danych; model związków encji i programowanie baz danych; bazy relacyjne, obiektowo-relacyjne, obiektowe i XML w bazach danych; algorytmy przetwarzania zapytań i techniki optymalizacji; bezpieczeństwo baz danych. Baza danych? Stosuj tylko najskuteczniejsze rozwiązania!
Wprowadzenie do uczenia maszynowego według Esposito
Dino Esposito, Francesco Esposito
Opanuj koncepcje uczenia maszynowego i rozwiązuj rzeczywiste problemy Uczenie maszynowe stwarza niesamowite możliwości, a książka Wprowadzenie do uczenia maszynowego zawiera praktyczną wiedzę o ich wykorzystaniu. Dino i Francesco Esposito zaczynają od krótkiego omówienia podstawowych zagadnień sztucznej inteligencji oraz zasad każdego projektu uczenia maszynowego. Następ-nie wprowadzają do potężnej biblioteki ML.NET opracowanej przez firmę Microsoft. Omawiają między innymi przetwarzanie danych, uczenie i weryfikację. Prezentują rodziny algorytmów, które można uczyć w celu rozwią-zywania rzeczywistych problemów, a także techniki uczenia głębokiego wykorzystujące sieci neuronowe. Na koniec autorzy omawiają wartościowe usługi czasu wykonywania, dostępne za pośrednictwem chmury obli-czeniowej Azure, a także rozważają długoterminowe perspektywy biznesowe związane z uczeniem maszyno-wym. Dino Esposito, 14-krotnie wyróżniony tytułem Microsoft MVP, oraz Francesco Esposito ułatwią nam: Zgłębianie poznanych zasad uczenia się ludzi oraz budowy inteligentnego oprogramowania Odkrycie problemów, które można rozwiązać z wykorzystaniem uczenia maszynowego Zrozumienie potoku uczenia maszynowego, czyli kroków prowadzących do uzyskania gotowego modelu Użycie AutoML w celu automatycznego wybrania najlepszego potoku dla dowolnego problemu i zbioru danych Opanowanie biblioteki ML.NET, zaimplementowanie jej potoku oraz wykorzystanie zadań i algorytmów Zgłębianie matematycznych podstaw uczenia maszynowego Prognozowanie, ulepszanie sposobów podejmowania decyzji i stosowanie metod probabilistycznych Grupowanie danych poprzez klasyfikację i klasteryzację Poznanie podstaw uczenia głębokiego, włącznie z projektowaniem sieci neuronowych Wykorzystanie usług w chmurze AI w celu szybszego tworzenia lepszych rzeczywistych rozwiązań O książce Dla profesjonalistów zamierzających tworzyć aplikacje wykorzystujące uczenie maszynowe: zarówno dla programistów chcących zdobyć umiejętności z zakresu analizy danych, jak i dla analityków danych, którzy chcą zdobyć odpowiednie umiejętności programistyczne Zawiera przykładowe scenariusze kodu uczenia maszynowego wykorzystujące bibliotekę ML.NET O autorach Dino Esposito, 14-krotnie wyróżniony tytułem Microsoft MVP, jest autorem ponad 20 książek, włącznie z best-sellerem wydawnictwa Microsoft Press, zatytułowanym Microsoft .NET: Architecting Applications for the Enter-prise. Od 22 lat jest autorem kolumny Cutting Edge, a także prowadzi regularne wykłady w firmie Microsoft i na niezależnych wydarzeniach branżowych na całym świecie. Od ponad 25 lat jest programistą, a obecnie kon-centruje się na sztucznej inteligencji w kontekście inteligentnych rozwiązań dla miast i energetyki, pracując na stanowisku stratega do spraw korporacyjnych rozwiązań cyfrowych w BaxEnergy. Francesco Esposito jest 21-letnim programistą zawieszonym między zagadnieniami zaawansowanej matema-tyki i tajnikami nauk o danych. Interesuje się przede wszystkim hydrologią i służbą zdrowia. Francesco założył Youbiquitous, firmę zajmującą się oprogramowaniem i sztuczną inteligencją, a także prowadzi małą firmę in-westycyjną. Cały przykładowy kod, włącznie z kompletnymi aplikacjami, jest dostępny pod adresem MicrosoftPressStore.com/IntroMachineLearning/downloads Obraz na okładce autorstwa Andreya Pronin/aAlamy Stock Vector
Valliappa Lakshmanan, Sara Robinson, Michael Munn
Rozwiązania typowych problemów dotyczących przygotowania danych, konstruowania modeli i MLOps Wzorce projektowe opisane w tej książce obejmują najlepsze praktyki i rozwiązania powtarzalnych problemów w uczeniu maszynowym. Autorzy, troje inżynierów z firmy Google, skatalogowali sprawdzone metody, aby pomóc badaczom danych sprostać typowym problemom występującym w całym procesie uczenia maszynowego. Te wzorce projektowe kodyfikują doświadczenie setek ekspertów w prostych, przystępnych radach. W tej książce znajdziesz szczegółowe wyjaśnienia 30 wzorców reprezentacji danych i problemów, operacjonalizacji, powtarzalności, odtwarzalności, elastyczności, objaśnialności i bezstronności. Każdy wzorzec obejmuje opis problemu, różnorodne potencjalne rozwiązania oraz rekomendacje dotyczące wyboru najlepszej techniki w danej sytuacji. Nauczysz się: • Rozpoznawać i minimalizować typowe problemy występujące podczas uczenia, oceniania oraz wdrażania modeli uczenia maszynowego • Przedstawiać dane dla różnych typów modeli uczenia maszynowego, w postaci reprezentacji wektorowych, krzyżowania cech i nie tylko • Wybierać prawidłowy typ modelu dla konkretnych problemów • Konstruować wydajną pętlę uczenia z zastosowaniem punktów kontrolnych, strategii rozkładu i strojenia hiperparametrów • Wdrażać skalowalne systemy uczenia maszynowego, które można uczyć ponownie i aktualizować, aby odzwierciedlać nowe dane • Interpretować predykcje modeli dla interesariuszy i zapewniać, że modele traktują użytkowników bezstronnie • Zwiększać dokładność, odtwarzalność i elastyczność „Dzięki wspaniałym, różnorodnym przykładom ta książka jest obowiązkową lekturą dla badaczy danych i inżynierów uczenia maszynowego dążących do zrozumienia sprawdzonych rozwiązań złożonych problemów uczenia maszynowego.” —David Kanter Dyrektor wykonawczy, ML Commons „Jeśli chcesz oszczędzić sobie siniaków na drodze do konstruowania rozwiązań uczenia maszynowego, Lak, Sara i Michael to osoby, na które możesz liczyć.” —Will Grannis Dyrektor zarządzający, Cloud CTO Office, Google Valliappa (Lak) Lakshmanan jest globalnym kierownikiem działu analizy danych i rozwiązań sztucznej inteligencji w Google Cloud. Sara Robinson jest rzeczniczką deweloperów w zespole Google Cloud, skupiającą się na uczeniu maszynowym. Michael Munn jest inżynierem rozwiązań uczenia maszynowego w Google, gdzie pomaga klientom projektować, implementować i wdrażać modele uczenia maszynowego.
Partha Pritam Deka, Joyce Weiner, Prof. Roberto...
XGBoost offers a powerful solution for regression and time series analysis, enabling you to build accurate and efficient predictive models. In this book, the authors draw on their combined experience of 40+ years in the semiconductor industry to help you harness the full potential of XGBoost, from understanding its core concepts to implementing real-world applications.As you progress, you'll get to grips with the XGBoost algorithm, including its mathematical underpinnings and its advantages over other ensemble methods. You'll learn when to choose XGBoost over other predictive modeling techniques, and get hands-on guidance on implementing XGBoost using both the Python API and scikit-learn API. You'll also get to grips with essential techniques for time series data, including feature engineering, handling lag features, encoding techniques, and evaluating model performance. A unique aspect of this book is the chapter on model interpretability, where you'll use tools such as SHAP, LIME, ELI5, and Partial Dependence Plots (PDP) to understand your XGBoost models. Throughout the book, you’ll work through several hands-on exercises and real-world datasets.By the end of this book, you'll not only be building accurate models but will also be able to deploy and maintain them effectively, ensuring your solutions deliver real-world impact.
XML Basics. A Comprehensive Guide to Understanding and Implementing XML
Mercury Learning and Information, S. Banzal
This book focuses on essential XML standards relevant to almost all developers. It investigates XML technologies applicable across a wide range of applications, rather than those limited to specific domains. While XML is a markup language, it is widely used by programmers. The book also covers supporting technologies layered on top of XML, such as XLinks, XSLT, Namespaces, Schemas, XHTML, RDDL, XPointers, XPath, SAX, and DOM.The journey begins with understanding XML and its syntax. It then explores Document Type Definitions (DTDs), Namespaces, and XHTML. Following this, the book delves into CSS Style Sheets, XML Schema Basics, XSL and XSLT, SOAP, DOM Programming Interface, SAX, XPath, XLink, XQuery, XPointer, XForms, XSL-FO, and using XML with Databases. The final chapters cover Web Services, providing a comprehensive understanding of how XML integrates into various applications.Mastering these standards and technologies is crucial for developers working with XML. This book transitions readers from basic XML syntax to advanced applications, blending theoretical concepts with practical examples. It is an essential resource for developers looking to leverage XML in their projects.
Your Excel Survival Kit. A Guide to Surviving and Thriving in an Excel World
MrExcel's Holy Macro! Books, Anne Walsh
This book starts off with the basics of data entry, formulas, and charts, it provides practical tips to simplify workflows and create clear visuals. Progress to advanced techniques like data cleaning, handling missing entries, and using logical functions, including modern dynamic arrays.Learn to summarize and visualize data with pivot tables, troubleshoot common issues, and customize layouts. Explore VLOOKUP, XLOOKUP, and methods for tackling common challenges. Advanced chapters introduce Power Query for data merging, automation, and quick insights, while Power Pivot enables combining multiple datasets for detailed reports.Finally, unlock Power BI to create professional-grade dashboards and visualizations. Designed for beginners and advanced users alike, this book equips you with the skills to streamline processes, analyze data effectively, and make informed decisions.
Akash Tandon, Sandy Ryza, Uri Laserson, Sean...
Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych. Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy. Dzięki książce poznasz: model programowania w ekosystemie Spark podstawowe metody stosowane w nauce o danych pełne implementacje analiz dużych publicznych zbiorów danych konkretne przypadki użycia narzędzi uczenia maszynowego kod, który łatwo dostosujesz do swoich potrzeb PySpark: systemowa odpowiedź na problemy inżyniera danych!
Lior Gazit, Meysam Ghaffari
Uczenie maszynowe i duże modele językowe rewolucjonizują biznes i nasze codzienne życie. Potencjał tych innowacji jest trudny do oszacowania: modele LLM stały się wiodącym trendem w tworzeniu aplikacji i analizie danych. Integrowanie zaawansowanych modeli z systemami produkcyjnymi bywa jednak często wymagającym, a nawet niewdzięcznym zadaniem. Na szczęście dzięki tej książce poradzisz sobie z takimi wyzwaniami! Najpierw zapoznasz się z matematycznymi podstawami algorytmów ML i NLP. Zaznajomisz się również z ogólnymi technikami uczenia maszynowego i dowiesz się, w jakim stopniu dotyczą one dużych modeli językowych. Kolejnym zagadnieniem będzie przetwarzanie danych tekstowych, w tym metody przygotowywania tekstu do analizy, po czym przyswoisz zasady klasyfikowania tekstu. Ponadto poznasz zaawansowane aspekty teorii, projektowania i stosowania LLM, wreszcie ― przyszłe trendy w NLP. Aby zdobyć praktyczne umiejętności, będziesz ćwiczyć na przykładach rzeczywistych zagadnień biznesowych i rozwiązań NLP. W książce: podstawy matematyczne uczenia maszynowego i NLP zaawansowane techniki przetwarzania wstępnego i analizy danych tekstowych projektowanie systemów ML i NLP w Pythonie przetwarzanie tekstu z użyciem metod uczenia głębokiego modele LLM i ich implementacja w różnych aplikacjach AI trendy w NLP i potencjał tej technologii Odkryj przyszłe trendy w NLP widziane oczami ekspertów!
Zaawansowane uczenie maszynowe z językiem Python
John Hearty
Uczenie maszynowe przyczyniło się do powstania wielu innowacyjnych technologii. Pojazdy autonomiczne, mechanizmy rozpoznawania obrazów, badania genetyczne, a także dynamiczne dostosowywanie prezentowanych treści do preferencji odbiorcy to tylko niektóre przykłady. Możliwości związane z rozwojem tych technik sprawiają, że analityka danych i zaawansowane uczenie maszynowe stają się wyjątkowo cenną wiedzą. Dotyczy to szczególnie nowatorskich technik analizy danych, takich jak głębokie uczenie, algorytmy częściowo nadzorowane i metody zespołowe. Niniejsza książka jest przystępnie napisanym podręcznikiem, dzięki któremu poznasz niektóre zaawansowane techniki uczenia maszynowego. Szczególną uwagę poświęcono tu algorytmom uczenia maszynowego: zostały dokładnie wyjaśnione, opisano ich zastosowanie oraz topologię, metody uczenia i miary wydajności. Każdy rozdział uzupełniono o wykaz źródeł, pomocny w dalszym zgłębianiu tematu. Dodatkowo przedstawiono wiele cennych wskazówek dotyczących specyfiki pracy analityka danych. Do prezentacji przykładów wybrano język Python z uwagi na jego wszechstronność, elastyczność, prostotę oraz możliwość stosowania do specjalistycznych zadań. Najważniejsze zagadnienia przedstawione w książce: identyfikacja struktur i wzorców w zbiorach danych stosowanie sieci neuronowych praca z językiem naturalnym modele zespołowe i poprawa ich elastyczności narzędzia uczenia maszynowego w Pythonie Zaawansowane uczenie maszynowe — poznaj algorytmy przyszłości! John Hearty — jest autorytetem w dziedzinie analityki danych i inżynierii infrastruktury. Przez pewien czas zajmował się modelowaniem zachowań gracza i infrastrukturą dużych zbiorów danych w Microsofcie. Ważniejszymi jego projektami były modelowanie umiejętności gracza w grach asymetrycznych i modele segmentacji graczy mające na celu zindywidualizowanie rozgrywki. Obecnie Hearty jest niezależnym ekspertem, szczególnie cenionym przez zespoły zajmujące się eksploracją danych. W wolnym czasie tworzy modele uczenia maszynowego w Pythonie.
Zapytania w języku T-SQL w Microsoft SQL Server 2014 i SQL Server 2012
Itzik Ben-Gan, Adam Machanic, Dejan Sarka, Kevin...
Poznaj tajniki T-SQL, aby poradzić sobie z najtrudniejszymi zapytaniami i problemami dostrajania wydajności. Wyciśnij maksymalną wydajność i efektywność z każdego tworzonego zapytania T-SQL. Czterech wiodących ekspertów prezentuje pogłębiony przegląd wewnętrznej architektury T SQL i zaawansowane, praktyczne techniki optymalizowania reaktywności i zużycia zasobów. Dzięki właściwemu rozumieniu języka i jego podstaw autorzy przedstawiają unikatowe rozwiązania, tworzone i dostrajane przez lata. Cały kod i prezentowane techniki zostały w pełni zaktualizowane, aby odzwierciedlić nowe usprawnienia T-SQL dostępne w Microsoft SQL Server 2014 i SQL Server 2012. Twórz szybszy i wydajniejszy kod T-SQL: - Przejdź od programowania proceduralnego do języka zbiorów i logiki - Doskonal wydajną metodologię dostrajania zapytań - Oceniaj złożoność algorytmiczną, by móc przewidzieć wydajność rozwiązania - Porównaj techniki agregowania danych, łącznie z nową koncepcją grupowania zbiorów - Wydajnie realizuj analizy danych - Wydobądź wszystko z zoptymalizowanych narzędzi masowego importowania danych - Uniknij pułapek prowadzących do wadliwego, wolno wykonywanego kodu - Twórz zoptymalizowane zapytania statystyczne bez dodatkowego oprogramowania - Użyj obiektów programowalnych do przyśpieszenia zapytań - Wykorzystaj ulepszenia wydajności w zapytaniach OLTP - Opanuj użyteczne i eleganckie podejście do manipulowania grafami Przykłady kodu dostępne są do pobrania pod adresem tsql.solidq.com/books/tq3 O tej książce - Dla doświadczonych praktyków T-SQL - Obejmuje zaktualizowaną tematykę książek Microsoft SQL Server 2008 od środka: Zapytania w języku T-SQL oraz Programowanie w języku T-SQL - Wyjaśnia wiele zagadnień egzaminacyjnych dla certyfikacji MCSE 70-464 oraz MCSA/MCSE 70-461 O autorach Itzik Ben-Gan, SQL Server MVP od roku 1999, współtwórca SolidQ oraz cyków szkoleniowych Advanced T-SQL Querying, Programming and Tuning oraz T-SQL Fundamentals courses. Prowadzi wiele szkoleń na temat T-SQL i wykładów na konferencjach TechEd, SQLPASS i SQL Server Connections. Dejan Sarka, MCT, SQL Server MVP, jest konsultantem w dziedzinie baz danych/BI, szkoleniowcem i programistą specjalizującym się w modelowaniu, drążeniu danych i zapewnianiu jakości. Jest autorem lub współautorem 11 książek i założycielem Slovenian SQL Server and .NET Users Group. Adam Machanic, SQL Server MVP, jest programistą, autorem i wykładowcą skupiającym się na wydajności i projektowaniu wielkoskalowych hurtowni danych. Jest twórcą nagrodzonej procedury składowanej sp_WhoIsActive. Kevin Farlee, Storage Engine Program Manager w zespole SQL Server, ma ponad 25 lat doświadczenia w dziedzinie baz danych i magazynowania informacji.
Piethein Strengholt
Datafikacja trwa ― i zmienia nasze życie z zawrotną prędkością. Danych jest coraz więcej i są coraz bardziej złożone, a poza kwestiami technicznymi trzeba rozstrzygać mnóstwo dylematów etycznych lub prawnych związanych z prywatnością i bezpieczeństwem. Bez wątpienia w zarządzaniu danymi potrzeba nowej, wyrazistej wizji. Ta książka zapewnia bardzo szczegółowe i solidne podstawy z zakresu zarządzania danymi obecnie i w przyszłości! Joe Reis, współautor książki Inżynieria danych w praktyce. Kluczowe koncepcje i najlepsze technologie W książce w praktyczny sposób ujęto wiele złożonych zagadnień, różnych technologii, metod biznesowych, struktur i wzorców architektury. Przeanalizowano abstrakcyjny poziom strategii danych, kwestie zarządcze i architekturę danych, a następnie wyjaśniono, czym są domeny danych i strefy docelowe. Zaprezentowano kwestie zarządzania systemami źródłowymi, aplikacji, opisano też praktyczne szczegóły z zakresu zarządzania danymi. Nie zabrakło wartościowych informacji o aspektach istotnych dla konsumentów danych. Autor nie skupia się wyłącznie na teorii. Cennym atutem książki są jasne wskazówki, w jaki sposób zastosować omawianą wiedzę w praktyce. Zagadnienia: trendy w zarządzaniu danymi a aktualne wymagania nowe technologie projektowe, w tym siatka danych i data fabric strefy docelowe danych w chmurze, DDD, projektowanie produktów z danymi bezpieczeństwo danych zarządzanie samoobsługowymi platformami danych rola metadanych Ta książka mówi o skalowaniu i pozostaniu konkurencyjnym. Nie ma na rynku drugiej takiej pozycji! Ole Olesen-Bagneux, autor książki The Enterprise Data Catalog
Zaufanie do systemów sztucznej inteligencji
Marek Jakubiak, Paweł Stacewicz
W prezentowanym wyborze tekstów zagadnienie zaufania podjęto w sposób możliwie aktualny i wszechstronny. Odnosi się to zarówno do kwestii ogólnych, wręcz filozoficznych, związanych z narzuceniem na sposób działania maszyn pewnych norm, które od wieków postulują etycy (np. Arystoteles); jak również do kwestii bardzo szczegółowych, osadzonych w kontekście bieżących zastosowań. W obszarze zastosowań uwypuklono kwestie tak różnorodne, jak zaufanie do systemów SI wspomagających edukację, projektowanie bezpiecznych miast przyszłości (tzw. smart cities) czy zaufanie do programów i systemów usprawniających funkcjonowanie różnego rodzaju organizacji. Spośród wielu czynników wzmacniających zaufanie do sztucznej inteligencji szczególny nacisk położono na dwa - skuteczność systemu połączoną z bezpieczeństwem użytkowników oraz jego poznawczą przejrzystość połączoną z umiejętnością zrozumiałego dla człowieka wyjaśniania podejmowanych przez system decyzji. Konkluzje autorów nie są jednolite. Niektórzy są optymistami, przekonując, że nawet najbardziej rozwinięta sztuczna inteligencja pozostanie czymś na kształt kontrolowanej przez człowieka "mechanicznej lalki". Inni są bardziej sceptyczni, licząc się z możliwością zaistnienia systemów sztucznych, które przypominają bardziej "mroczne widmo" - czyli skrajnie niebezpieczny dla człowieka artefakt, zdolny do przejęcia nad nim fizycznej i psychicznej kontroli.
Zrozumieć BPMN. Modelowanie procesów biznesowych
Szymon Drejewicz
Poznaj BPMN. Zobacz na przykładach, jak modelować w procesach biznesowych: Aktywności Zdarzenia Przepływy Bramki Obiekty Uczestników Podprocesy, transakcje i kompensacje Kolaboracje Choreografie Konwersacje Pełne zrozumienie w biznesie BPMN to standard opracowany przez organizację Object Management Group (OMG). Jego pełna nazwa brzmi "Business Process Model and Notation". Podstawowym celem standardu jest dostarczenie takiej notacji do opisywania procesów biznesowych, która będzie czytelna i zrozumiała tak dla biznesowych "użytkowników", którzy procesy monitorują i zarządzają nimi, jak i dla analityków przeprowadzających biznesową analizę oraz programistów odpowiedzialnych za techniczną implementację procesów. BPMN powstał z bezsilności — z braku języka wspólnego dla analityków biznesowych, "zwykłych" uczestników biznesu i programistów. O ile bowiem informatycy mieli swój standard opisywania procesów biznesowych, o tyle ludzie w firmie, którzy mieli korzystać z ich pracy, często nie byli w stanie użyć przygotowanych dla nich modeli analitycznych. Standard BPMN przyjęto w roku 2004. Od tego momentu przestało być istotne, za pomocą jakiego narzędzia tworzone są modele procesów. W centrum uwagi znalazło się tworzenie opisu zrozumiałego dla wszystkich uczestników. Ułatwia on pracę nad procesami zachodzącymi wewnątrz firmy, otwiera także szerzej możliwości współdziałania między podmiotami obecnymi na rynku. Szymon Drejewicz. Starszy specjalista ds. jakości oprogramowania w polskim centrum Samsung Research & Development oraz asystent na Wydziale Elektrycznym Politechniki Warszawskiej. Wcześniej jako starszy konsultant i trener w firmie Infovide-Matrix SA uczestniczył w projektach BPM dla największych firm w Polsce. Specjalista od projektowania systemów oprogramowania, analizy procesów biznesowych i modelowania. Przeprowadził ponad 70 szkoleń z zakresu zarządzania procesami biznesowymi (BPMN), modelowania systemów oprogramowania w języku UML i inżynierii oprogramowania.
Zrozumieć BPMN. Modelowanie procesów biznesowych. Wydanie 2 rozszerzone
Szymon Drejewicz
Zrozumieć, by zwyciężyć Standard lub notacja BPMN (od ang. Business Process Model and Notation) jest obecnie najpopularniejszym narzędziem do specyfikowania procesów biznesowych. Na podstawie obserwacji trendów w systemach tej klasy można przypuszczać, że wkrótce całkowicie zdominuje on rynek i ostatecznie wyprze inne standardy. Sukces BPMN wynika z tego, że z jednej strony umożliwia on opisanie i rozrysowanie procesów w sposób zrozumiały dla zwykłych śmiertelników, a z drugiej pozwala na bardzo dokładne zgłębienie ich na poziomie technicznym. Te dwie cechy czynią go potężnym narzędziem rozwiązującym problem, przed jakim staje dziś wiele firm i organizacji: jak zmaksymalizować efektywność wykorzystania potencjału systemów informatycznych, zasobów finansowych i ludzi? Powiązanie tych wszystkich elementów w jedną notację lub standard stanowi punkt wyjścia do zyskania trwałej przewagi konkurencyjnej na rynku. BPMN pozwala na ciągłe analizowanie, monitorowanie i optymalizowanie procesów biznesowych. Jest narzędziem bardzo skutecznym, prawdziwym „świętym Graalem” współczesnego biznesu. Jednak nie jest on niestety tak przyjazny, jak mógłby oczekiwać początkujący użytkownik. Jego oryginalną specyfikację opracowało i udostępnia konsorcjum Object Management Group, a wiele osób twierdzi, że ta instrukcja jest mało zrozumiała. Niniejsza książka adresowana jest do wszystkich, którzy chcą lub muszą szybko poznać i zrozumieć standard BPMN bez konieczności zagłębiania się w gąszcz specyfikacji OMG. Przyda się z pewnością także analitykom biznesowym i systemowym, którzy chcą poszerzyć swoją wiedzę. Powinni zapoznać się z nią również studenci kierunków zarządczych i technicznych, ponieważ ich zawodowa przyszłość będzie nierozerwalnie związana z pracą z notacjami typu BPMN lub ich ewentualnymi następcami. Szymon Drejewicz - doświadczony analityk i specjalista w dziedzinach zarządzania projektami i procesami biznesowymi oraz inżynierii oprogramowania. Zdobywał doświadczenie jako trener, konsultant i wdrożeniowiec BPM dla największych firm w Polsce. Obecnie doradza klientom i pomaga rozwiązywać problemy związane z optymalizacją procesów biznesowych, zarządzaniem zasobami ludzkimi oraz analizą danych z wykorzystaniem takich technik jak process mining, czy uczenie maszynowe.
Zwinna analiza danych. Apache Hadoop dla każdego
Russell Jurney
Duże zbiory danych dla każdego! W dobie Big Data klasyczne podejście do analizy danych nie przynosi już pożądanych wyników. Skuteczna analiza gigantycznych zbiorów informacji, wyciąganie interesujących wniosków i prezentowanie ich w przejrzystej formie użytkownikowi wymagają mnóstwa czasu i środków. Zastanawiasz się, jak podejść do tego problemu, by zminimalizować ryzyko niepowodzenia? Na to i wiele innych pytań odpowiada ta fantastyczna książka. Dzięki niej dowiesz się, jak zaprząc platformę Hadoop do własnych celów. Skorzystasz z prostych narzędzi, takich jak język Python, biblioteka D3.js oraz Apache Pig, i zastosujesz zwinne podejście do problemu, by osiągnąć zaskakujące efekty. Ponadto przekonasz się, jak łatwo można publikować dane w MongoDB, stosować wyszukiwarkę ElasticSearch oraz wykorzystać potencjał chmur obliczeniowych. Nauczysz się także wizualizować dane na wykresach, prognozować oraz podejmować właściwe działania. Książka ta jest doskonałą lekturą dla wszystkich osób stojących przed problemem skutecznej pracy z ogromnymi zbiorami danych. Dzięki tej książce: poznasz najlepsze narzędzia do przetwarzania zbiorów danych wykorzystasz możliwości języka Python sprawdzisz możliwości chmur obliczeniowych błyskawicznie wyszukasz dane za pomocą ElasticSearch zwizualizujesz dane z użyciem D3.js Zwinnie rozwiąż problemy z dużymi zbiorami danych! „Przy tak dużej popularności zagadnień Big Data i Data Science, lektura praktycznego instruktażu budowy aplikacji analitycznych jest mocno odświeżająca. Russel Jurney wprowadza nas, małymi porcjami implementacji, w swoją filozofię zwinności w dziedzinie analizy i aplikacyjnego wykorzystywania danych.” Mat Kelcey, matpalm.com
Zwinna analiza danych. Apache Hadoop dla każdego
Russell Jurney
Duże zbiory danych dla każdego! W dobie Big Data klasyczne podejście do analizy danych nie przynosi już pożądanych wyników. Skuteczna analiza gigantycznych zbiorów informacji, wyciąganie interesujących wniosków i prezentowanie ich w przejrzystej formie użytkownikowi wymagają mnóstwa czasu i środków. Zastanawiasz się, jak podejść do tego problemu, by zminimalizować ryzyko niepowodzenia? Na to i wiele innych pytań odpowiada ta fantastyczna książka. Dzięki niej dowiesz się, jak zaprząc platformę Hadoop do własnych celów. Skorzystasz z prostych narzędzi, takich jak język Python, biblioteka D3.js oraz Apache Pig, i zastosujesz zwinne podejście do problemu, by osiągnąć zaskakujące efekty. Ponadto przekonasz się, jak łatwo można publikować dane w MongoDB, stosować wyszukiwarkę ElasticSearch oraz wykorzystać potencjał chmur obliczeniowych. Nauczysz się także wizualizować dane na wykresach, prognozować oraz podejmować właściwe działania. Książka ta jest doskonałą lekturą dla wszystkich osób stojących przed problemem skutecznej pracy z ogromnymi zbiorami danych. Dzięki tej książce: poznasz najlepsze narzędzia do przetwarzania zbiorów danych wykorzystasz możliwości języka Python sprawdzisz możliwości chmur obliczeniowych błyskawicznie wyszukasz dane za pomocą ElasticSearch zwizualizujesz dane z użyciem D3.js Zwinnie rozwiąż problemy z dużymi zbiorami danych! „Przy tak dużej popularności zagadnień Big Data i Data Science, lektura praktycznego instruktażu budowy aplikacji analitycznych jest mocno odświeżająca. Russel Jurney wprowadza nas, małymi porcjami implementacji, w swoją filozofię zwinności w dziedzinie analizy i aplikacyjnego wykorzystywania danych.” Mat Kelcey, matpalm.com