Datenanalyse

649
E-book

Vector Search for Practitioners with Elastic. A toolkit for building NLP solutions for search, observability, and security using vector search

Bahaaldine Azarmi, Jeff Vestal, Shay Banon

While natural language processing (NLP) is largely used in search use cases, this book aims to inspire you to start using vectors to overcome equally important domain challenges like observability and cybersecurity. The chapters focus mainly on integrating vector search with Elastic to enhance not only their search but also observability and cybersecurity capabilities.The book, which also features a foreword written by the founder of Elastic, begins by teaching you about NLP and the functionality of Elastic in NLP processes. Here you’ll delve into resource requirements and find out how vectors are stored in the dense-vector type along with specific page cache requirements for fast response times. As you advance, you’ll discover various tuning techniques and strategies to improve machine learning model deployment, including node scaling, configuration tuning, and load testing with Rally and Python. You’ll also cover techniques for vector search with images, fine-tuning models for improved performance, and the use of clip models for image similarity search in Elasticsearch. Finally, you’ll explore retrieval-augmented generation (RAG) and learn to integrate ChatGPT with Elasticsearch to leverage vectorized data, ELSER's capabilities, and RRF's refined search mechanism.By the end of this NLP book, you’ll have all the necessary skills needed to implement and optimize vector search in your projects with Elastic.

650
E-book

Web Data Mining z użyciem języka Python. Odkrywaj i wyodrębniaj informacje ze stron internetowych za pomocą języka Python

Dr Ranjana Rajnish; Dr Meenakshi Srivastava

Danologia to najszybciej rozwijająca się dziedzina na świecie. Przewiduje się, że do roku 2026 stworzy 11,5 mln nowych miejsc pracy, tak więc osoby poszukujące pracy i posiadające ten zestaw umiejętności mają tu wiele możliwości. Jednym z najbardziej pożądanych obszarów w dziedzinie danologii jest wydobywanie informacji ze stron internetowych. Jeśli jesteś początkującym danologiem, który chce się nauczyć różnych technik eksplorowania stron sieci Web, ta książka jest właśnie dla Ciebie. Na początku tej książki omawiane są kluczowe koncepcje związane z eksploracją danych w sieci Web i jej taksonomią. Następnie omawiane są podstawy dotyczące procesu ekstrakcji danych ze stron, jego zastosowania i komponenty, a także inne tematy, jak choćby aspekty prawne związane z procesem ekstrakcji, wyodrębnianiem i wstępnym przetwarzaniem danych, ekstrakcją danych z dynamicznych stron internetowych czy zabezpieczeniem CAPTCHA. Przedstawia również koncepcję eksploracji opinii oraz struktury stron internetowych. Ponadto omawia ona eksplorację grafów, wyodrębnianie informacji ze stron internetowych, wyszukiwanie na stronach i hiperłącza, wyszukiwanie algorytmem Hyperlink Induced Topic Search (HITS) oraz algorytmy partycjonowania, które używane są przy eksploracji danych w sieci Web. Na końcu książki prezentowane są różne techniki eksploracji ułatwiające odkrywanie interesujących wzorców użycia z danych na stronach internetowych. Kluczowe elementy Pełny przegląd podstawowych i zaawansowanych koncepcji dotyczących eksploracji danych w sieci Web. Pracuj z łatwymi w użyciu bibliotekami open source języka Python do eksplorowania danych. Zapoznaj się z różnymi korzystnymi obszarami i zastosowaniami dla eksploracji danych w sieci Web. CZEGO SIĘ NAUCZYSZ? Dokonywać ekstrakcji danych z dowolnej witryny internetowej z użyciem języka Python. Zapoznasz się z koncepcjami dotyczącymi eksploracji opinii i analizy nastrojów. Użyjesz eksploracji struktury do odkrywania informacji o strukturze danej strony. Nauczysz się zbierać i analizować dane z mediów społecznościowych z użyciem języka Python. Użyjesz eksploracji korzystania ze strony do przewidywania zachowań internautów podczas przeglądania stron. Dla kogo jest ta książka Ta książka jest przeznaczona dla każdego, kto chce się nauczyć eksplorować dane na stronach sieci Web. Będzie najbardziej pomocna dla początkujących danologów, inżynierów danych i analityków danych, którzy chcą opanować techniki eksplorowania danych na stronach internetowych.

651
E-book

Wizualizacja danych. Pulpity nawigacyjne i raporty w Excelu

Dick Kusleika

Dziś nawet małe firmy mają niespotykany wcześniej dostęp do dużych ilości danych. Osoby zarządzające przedsiębiorstwem mogą z nich korzystać przy podejmowaniu decyzji biznesowych, w tym celu jednak konieczne jest przetworzenie surowych danych. Tym właśnie zajmuje się analityka biznesowa, a jednym z najpopularniejszych programów stosowanych w tej dziedzinie jest MS Excel. Od jakiegoś czasu oprogramowanie to zawiera wyspecjalizowane funkcje i narzędzia, dzięki którym analizę i wizualizację danych można wykonać bez potrzeby sięgania po inne aplikacje. Lektura tej książki nauczy Cię myśleć o danych inaczej niż dotychczas. Przekonasz się, że to nie tylko wypełnione kolumny i wiersze. Nie poprzestaniesz na prostej pracy z danymi, a nauczysz się je układać w historie obfitujące w cenne wnioski. Dowiesz się, jak sobie radzić z wartościami, które wyraźnie odstają od innych, i nauczysz się odpowiedniego grupowania danych. Zobaczysz, że można je pokazywać ― nawet jeśli są to ogromne ilości ― bez zasypywania i dezorientowania odbiorców. W końcu odkryjesz, jak przejść od arkusza z nieprzetworzonymi danymi i wykresami do pełnych wartościowych informacji raportów i paneli nawigacyjnych. W ten sposób, dzięki wizualizacji danych biznesowych, łatwiej Ci będzie przekonać swoich partnerów do własnych pomysłów. Dzięki książce poznasz sposoby: analizowania bardzo dużych ilości danych  prezentowania danych z kilku perspektyw efektywnego rozdzielania danych na różne widoki  automatyzowania procesów przygotowywania raportów i przeprowadzania analiz tworzenia atrakcyjnych paneli nawigacyjnych przygotowania analiz typu „co, jeśli” MS Excel: najbardziej przydatne wnioski wyciągniesz ze swoich danych!

652
E-book

Wprowadzenie do systemów baz danych. Wydanie VII

Ramez Elmasri, Shamkant B. Navathe

Mijają lata, a bazy danych wciąż stanowią serce większości systemów informatycznych. Rozwój technologii sprawia jednak, że zaprojektowanie systemu baz danych, jego wdrożenie i administrowanie nim wymaga biegłości w wielu dziedzinach. Niezbędne są solidne podstawy modelowania i projektowania baz danych, umiejętność posłużenia się językami i modelami udostępnianymi przez systemy zarządzania bazami danych, a także znajomość technik implementacji samych systemów. Od profesjonalisty wymaga się także wiedzy o najnowszych technologiach, takich jak NoSQL i oczywiście big data. Ważnym uzupełnieniem tego szerokiego wachlarza jest też znajomość technologii powiązanych z systemami bazodanowymi. Ta książka jest siódmym, zaktualizowanym wydaniem klasycznego podręcznika do nauki baz danych. Jest to szczegółowa prezentacja najważniejszych aspektów systemów i aplikacji bazodanowych oraz powiązanych technologii. To znakomity podręcznik dla studentów i świetne kompendium dla praktyków. Sporo miejsca poświęcono w nim systemom rozproszonym oraz technologiom opartym na systemie Hadoop i modelu MapReduce. Nie zabrakło opisu takich zagadnień, jak model IR, wyszukiwanie z użyciem słów kluczowych, porównanie baz danych z modelem IR, modele wyszukiwania, ocena wyszukiwania i algorytmy rankingowe. Wykładowcom przyda się szereg ułatwiających pracę dydaktyczną diagramów, prezentacji i rysunków. W książce między innymi: wprowadzenie do modeli, systemów i języków z obszaru baz danych; model związków encji i programowanie baz danych; bazy relacyjne, obiektowo-relacyjne, obiektowe i XML w bazach danych; algorytmy przetwarzania zapytań i techniki optymalizacji; bezpieczeństwo baz danych. Baza danych? Stosuj tylko najskuteczniejsze rozwiązania!

653
E-book

Zaawansowana analiza danych w PySpark. Metody przetwarzania informacji na szeroką skalę z wykorzystaniem Pythona i systemu Spark

Akash Tandon, Sandy Ryza, Uri Laserson, Sean Owen, ...

Potrzeby w zakresie analizy dużych zbiorów danych i wyciągania z nich użytecznych informacji stale rosną. Spośród dostępnych narzędzi przeznaczonych do tych zastosowań szczególnie przydatny jest PySpark - interfejs API systemu Spark dla języka Python. Apache Spark świetnie się nadaje do analizy dużych zbiorów danych, a PySpark skutecznie ułatwia integrację Sparka ze specjalistycznymi narzędziami PyData. By jednak można było w pełni skorzystać z tych możliwości, konieczne jest zrozumienie interakcji między algorytmami, zbiorami danych i wzorcami używanymi w analizie danych. Oto praktyczny przewodnik po wersji 3.0 systemu Spark, metodach statystycznych i rzeczywistych zbiorach danych. Omówiono w nim zasady rozwiązywania problemów analitycznych za pomocą interfejsu PySpark, z wykorzystaniem dobrych praktyk programowania w systemie Spark. Po lekturze można bezproblemowo zagłębić się we wzorce analityczne oparte na popularnych technikach przetwarzania danych, takich jak klasyfikacja, grupowanie, filtrowanie i wykrywanie anomalii, stosowane w genomice, bezpieczeństwie systemów IT i finansach. Dodatkowym plusem są opisy wykorzystania przetwarzania obrazów i języka naturalnego. Zaletą jest też szereg rzeczywistych przykładów dużych zbiorów danych i ich zaawansowanej analizy. Dzięki książce poznasz: model programowania w ekosystemie Spark podstawowe metody stosowane w nauce o danych pełne implementacje analiz dużych publicznych zbiorów danych konkretne przypadki użycia narzędzi uczenia maszynowego kod, który łatwo dostosujesz do swoich potrzeb PySpark: systemowa odpowiedź na problemy inżyniera danych!

654
E-book

Zapytania w języku T-SQL w Microsoft SQL Server 2014 i SQL Server 2012

Itzik Ben-Gan, Adam Machanic, Dejan Sarka, Kevin Farlee

Poznaj tajniki T-SQL, aby poradzić sobie z najtrudniejszymi zapytaniami i problemami dostrajania wydajności. Wyciśnij maksymalną wydajność i efektywność z każdego tworzonego zapytania T-SQL. Czterech wiodących ekspertów prezentuje pogłębiony przegląd wewnętrznej architektury T SQL i zaawansowane, praktyczne techniki optymalizowania reaktywności i zużycia zasobów. Dzięki właściwemu rozumieniu języka i jego podstaw autorzy przedstawiają unikatowe rozwiązania, tworzone i dostrajane przez lata. Cały kod i prezentowane techniki zostały w pełni zaktualizowane, aby odzwierciedlić nowe usprawnienia T-SQL dostępne w Microsoft SQL Server 2014 i SQL Server 2012. Twórz szybszy i wydajniejszy kod T-SQL: - Przejdź od programowania proceduralnego do języka zbiorów i logiki - Doskonal wydajną metodologię dostrajania zapytań - Oceniaj złożoność algorytmiczną, by móc przewidzieć wydajność rozwiązania - Porównaj techniki agregowania danych, łącznie z nową koncepcją grupowania zbiorów - Wydajnie realizuj analizy danych - Wydobądź wszystko z zoptymalizowanych narzędzi masowego importowania danych - Uniknij pułapek prowadzących do wadliwego, wolno wykonywanego kodu - Twórz zoptymalizowane zapytania statystyczne bez dodatkowego oprogramowania - Użyj obiektów programowalnych do przyśpieszenia zapytań - Wykorzystaj ulepszenia wydajności w zapytaniach OLTP - Opanuj użyteczne i eleganckie podejście do manipulowania grafami Przykłady kodu dostępne są do pobrania pod adresem tsql.solidq.com/books/tq3 O tej książce - Dla doświadczonych praktyków T-SQL - Obejmuje zaktualizowaną tematykę książek Microsoft SQL Server 2008 od środka: Zapytania w języku T-SQL oraz Programowanie w języku T-SQL - Wyjaśnia wiele zagadnień egzaminacyjnych dla certyfikacji MCSE 70-464 oraz MCSA/MCSE 70-461 O autorach Itzik Ben-Gan, SQL Server MVP od roku 1999, współtwórca SolidQ oraz cyków szkoleniowych Advanced T-SQL Querying, Programming and Tuning oraz T-SQL Fundamentals courses. Prowadzi wiele szkoleń na temat T-SQL i wykładów na konferencjach TechEd, SQLPASS i SQL Server Connections. Dejan Sarka, MCT, SQL Server MVP, jest konsultantem w dziedzinie baz danych/BI, szkoleniowcem i programistą specjalizującym się w modelowaniu, drążeniu danych i zapewnianiu jakości. Jest autorem lub współautorem 11 książek i założycielem Slovenian SQL Server and .NET Users Group. Adam Machanic, SQL Server MVP, jest programistą, autorem i wykładowcą skupiającym się na wydajności i projektowaniu wielkoskalowych hurtowni danych. Jest twórcą nagrodzonej procedury składowanej sp_WhoIsActive. Kevin Farlee, Storage Engine Program Manager w zespole SQL Server, ma ponad 25 lat doświadczenia w dziedzinie baz danych i magazynowania informacji.

655
E-book

Zarządzanie danymi w zbiorach o dużej skali. Nowoczesna architektura z siatką danych i technologią Data Fabric. Wydanie II

Piethein Strengholt

Datafikacja trwa ― i zmienia nasze życie z zawrotną prędkością. Danych jest coraz więcej i są coraz bardziej złożone, a poza kwestiami technicznymi trzeba rozstrzygać mnóstwo dylematów etycznych lub prawnych związanych z prywatnością i bezpieczeństwem. Bez wątpienia w zarządzaniu danymi potrzeba nowej, wyrazistej wizji. Ta książka zapewnia bardzo szczegółowe i solidne podstawy z zakresu zarządzania danymi obecnie i w przyszłości! Joe Reis, współautor książki Inżynieria danych w praktyce. Kluczowe koncepcje i najlepsze technologie W książce w praktyczny sposób ujęto wiele złożonych zagadnień, różnych technologii, metod biznesowych, struktur i wzorców architektury. Przeanalizowano abstrakcyjny poziom strategii danych, kwestie zarządcze i architekturę danych, a następnie wyjaśniono, czym są domeny danych i strefy docelowe. Zaprezentowano kwestie zarządzania systemami źródłowymi, aplikacji, opisano też praktyczne szczegóły z zakresu zarządzania danymi. Nie zabrakło wartościowych informacji o aspektach istotnych dla konsumentów danych. Autor nie skupia się wyłącznie na teorii. Cennym atutem książki są jasne wskazówki, w jaki sposób zastosować omawianą wiedzę w praktyce. Zagadnienia: trendy w zarządzaniu danymi a aktualne wymagania nowe technologie projektowe, w tym siatka danych i data fabric strefy docelowe danych w chmurze, DDD, projektowanie produktów z danymi bezpieczeństwo danych zarządzanie samoobsługowymi platformami danych rola metadanych Ta książka mówi o skalowaniu i pozostaniu konkurencyjnym. Nie ma na rynku drugiej takiej pozycji! Ole Olesen-Bagneux, autor książki The Enterprise Data Catalog

656
E-book

Zrozumieć BPMN. Modelowanie procesów biznesowych

Szymon Drejewicz

Poznaj BPMN. Zobacz na przykładach, jak modelować w procesach biznesowych: Aktywności Zdarzenia Przepływy Bramki Obiekty Uczestników Podprocesy, transakcje i kompensacje Kolaboracje Choreografie Konwersacje Pełne zrozumienie w biznesie BPMN to standard opracowany przez organizację Object Management Group (OMG). Jego pełna nazwa brzmi "Business Process Model and Notation". Podstawowym celem standardu jest dostarczenie takiej notacji do opisywania procesów biznesowych, która będzie czytelna i zrozumiała tak dla biznesowych "użytkowników", którzy procesy monitorują i zarządzają nimi, jak i dla analityków przeprowadzających biznesową analizę oraz programistów odpowiedzialnych za techniczną implementację procesów. BPMN powstał z bezsilności — z braku języka wspólnego dla analityków biznesowych, "zwykłych" uczestników biznesu i programistów. O ile bowiem informatycy mieli swój standard opisywania procesów biznesowych, o tyle ludzie w firmie, którzy mieli korzystać z ich pracy, często nie byli w stanie użyć przygotowanych dla nich modeli analitycznych. Standard BPMN przyjęto w roku 2004. Od tego momentu przestało być istotne, za pomocą jakiego narzędzia tworzone są modele procesów. W centrum uwagi znalazło się tworzenie opisu zrozumiałego dla wszystkich uczestników. Ułatwia on pracę nad procesami zachodzącymi wewnątrz firmy, otwiera także szerzej możliwości współdziałania między podmiotami obecnymi na rynku. Szymon Drejewicz. Starszy specjalista ds. jakości oprogramowania w polskim centrum Samsung Research & Development oraz asystent na Wydziale Elektrycznym Politechniki Warszawskiej. Wcześniej jako starszy konsultant i trener w firmie Infovide-Matrix SA uczestniczył w projektach BPM dla największych firm w Polsce. Specjalista od projektowania systemów oprogramowania, analizy procesów biznesowych i modelowania. Przeprowadził ponad 70 szkoleń z zakresu zarządzania procesami biznesowymi (BPMN), modelowania systemów oprogramowania w języku UML i inżynierii oprogramowania.