E-book details

Microsoft SQL Server. Modelowanie i eksploracja danych

Microsoft SQL Server. Modelowanie i eksploracja danych

Danuta Mendrala, Marcin Szeliga

Ebook
  • Odkryj najlepsze narzędzia do eksploracji danych
  • Naucz się przygotowywać dane i poprawiać ich jakość
  • Dowiedz się, jak prowadzić zaawansowane analizy danych

Poznaj sprawdzone techniki profesjonalnej eksploracji danych!

Eksploracja danych jest najmłodszą i najszybciej rozwijającą się dziedziną informatyki. Łączy zaawansowane algorytmy analizowania danych i znajdowania ukrytych w nich wzorców z klasycznymi technikami statystycznymi, rachunkiem prawdopodobieństwa i technologiami bazodanowymi. Dziedzina ta zyskuje na znaczeniu wraz z lawinowo rosnącą ilością informacji cyfrowych, które każdego dnia na całym świecie są wytwarzane, zapisywane i przeszukiwane przez stale zwiększającą się grupę użytkowników technologii informatycznych. Trzydzieści lat temu świat zrewolucjonizowały komputery PC, a dziś w ogarnięciu tego chaosu pomóc mogą jedynie najskuteczniejsze narzędzia do modelowania i eksploracji danych.

"Microsoft SQL Server. Modelowanie i eksploracja danych" to książka, z której analitycy, informatycy i biznesmeni dowiedzą się, jak tworzyć właściwe modele, odpowiednio przygotowywać dane i prawidłowo je eksplorować, a także jak należycie analizować i oceniać otrzymane wyniki przy użyciu narzędzi oferowanych przez oprogramowanie Microsoft SQL Server. Publikacja przybliża zagadnienia związane z poszczególnymi etapami procesu modelowania i eksploracji, prezentując przy tym zastosowanie różnych metod i technik analizy do rozwiązywania praktycznych problemów naukowych i biznesowych.

  • Podstawowe techniki i narzędzia wykorzystywane w eksploracji danych
  • Instalacja i konfiguracja niezbędnego oprogramowania
  • Analiza biznesowa projektu eksploracji danych
  • Ocena, przygotowywanie i poprawianie jakości danych
  • Przegląd technik eksploracji danych
  • Wykorzystywanie serwera SQL w procesie eksploracji danych
  • Składnia i zastosowanie języka DMX
  • Łatwe w użyciu narzędzia pakietu Office i zaawansowane narzędzia eksploracji danych serwera SQL firmy Microsoft
  • Zasada działania zaawansowanych algorytmów eksploracji danych
  • Ocena i poprawianie modeli eksploracyjnych
  • Programowanie predykcyjne

Naucz się wykorzystywać zaawansowane narzędzia do inteligentnej zamiany dużych zbiorów danych w przydatne informacje!

Wstęp (9)

  • Proces eksploracji danych (10)
  • Instalacja i konfiguracja narzędzi (12)
    • Serwer SQL (12)
    • Arkusz kalkulacyjny Excel (15)
    • Dodatek Data Mining do pakietu Office (15)
    • Przykłady (16)
  • Konwencje i oznaczenia (20)

Część I: Modelowanie (23)

Rozdział 1. Eksploracja danych jako technika wspomagania decyzji (25)

  • Modelowanie świata (25)
    • Obiekty, zdarzenia i reguły (26)
    • Dane (27)
    • Informacje (27)
    • Wiedza (29)
    • Decyzje (31)
  • Eksploracja danych (32)
    • Hipotezy (32)
    • Kłopoty ze sformułowaniem problemu (33)

Rozdział 2. Analiza biznesowa (35)

  • Cele modelowania i eksploracji danych (35)
    • Opisywanie danych czy wspieranie decyzji? (36)
    • Decydenci (38)
  • Zakres projektu eksploracji danych (39)
    • Dane źródłowe (40)
    • Kontekst (40)
  • Sprecyzowanie spodziewanych wyników (42)
    • Modele deskrypcyjne (43)
    • Modele predykcyjne (43)
  • Prawdopodobieństwo sukcesu projektu eksploracji danych (44)
  • Ocena ryzyka (45)

Rozdział 3. Ocena danych (49)

  • Dane źródłowe (49)
    • Błędy pomiaru (50)
  • Przypadki, czyli to, co badamy (51)
  • Profilowanie danych za pomocą usługi SQL Server Integration Services (54)
  • Atrybuty i ich stany (57)
    • Atrybuty jednowartościowe i wielowartościowe (57)
    • Atrybuty monotoniczne (59)
    • Rozkład wartości (59)
  • Integralność danych (62)
    • Duplikaty (62)
    • Zakres wartości (63)
    • Zgodność ze wzorcem (63)
  • Próbkowanie i reprezentatywność danych (64)
    • Próbkowanie danych (64)
    • Zbieżność do rzeczywistego rozkładu (65)
    • Odchylenie standardowe (67)
    • Zmienność atrybutów tekstowych (68)
  • Brakujące dane (69)
    • Model brakujących danych (70)
  • Zależności pomiędzy atrybutami (73)
    • Niezależne atrybuty (74)
    • Nadmiarowe atrybuty (75)
    • Anachronizmy (76)
  • Mierzenie informacji (76)
    • Bity (77)
    • Zaskoczenie (77)
    • Kontekst (78)

Rozdział 4. Przygotowanie danych (79)

  • Przestrzeń stanów (79)
  • Atrybuty dyskretne (81)
    • Grupowanie (81)
    • Numerowanie stanów (84)
    • Atrybuty porządkowe (85)
    • Atrybuty okresowe (86)
  • Atrybuty ciągłe (86)
    • Wartości skrajne (87)
    • Normalizacja zakresu (87)
    • Dyskretyzacja (90)
  • Serie danych (92)
    • Trend (96)
    • Okresowość i sezonowość (96)
    • Szum (97)

Rozdział 5. Poprawa jakości danych (99)

  • Uzupełnienie wartości (99)
  • Wzbogacenie danych (103)
  • Redukcja wymiarów (105)
    • Korelacje (106)
  • Dane dla modeli deskrypcyjnych (108)
  • Dane dla modeli predykcyjnych (109)
    • Zmiana proporcji (109)
  • Dane na potrzeby analizy wariantowej (111)
    • Analiza wariantowa (111)
  • Wydzielenie danych testowych (113)

Część II: Eksploracja (117)

Rozdział 6. Techniki eksploracji danych (119)

  • Zastosowania (119)
  • Dodatek Data Mining do pakietu Office (121)
    • Ocena i przygotowanie danych źródłowych (121)
  • Techniki eksploracji danych (126)
    • Klasyfikacja (126)
    • Szacowanie (136)
    • Asocjacja (141)
    • Grupowanie (145)
    • Analiza sekwencyjna (151)
    • Analiza wariantowa (152)
    • Prognozowanie (156)

Rozdział 7. Serwer SQL jako platforma eksploracji danych (161)

  • Excel jako klient SQL Server Analysis Services (162)
    • Narzędzia eksploracji zewnętrznych danych (162)
    • Praca z modelami eksploracji danych (184)
    • Formuły arkusza Excel (191)
  • Projekty eksploracji danych (192)
    • Business Intelligence Development Studio (192)
    • Źródła danych (195)
    • Widoki danych źródłowych (196)
    • Struktury eksploracji danych (199)
    • Modele eksploracji danych (206)
    • Zapytania predykcyjne (210)
    • Zagnieżdżanie przypadków (213)
  • Zarządzanie serwerem SSAS i modelami eksploracji danych poprzez SQL Server Management Studio (216)
  • Usługi eksploracji danych serwera SQL (218)
    • Architektura (219)
    • Bezpieczeństwo (221)
    • Integracja z pozostałymi usługami Business Intelligence (223)

Rozdział 8. DMX (227)

  • Terminologia (227)
    • Atrybut (227)
    • Wartość i stan (229)
    • Przypadek (229)
    • Klucze (230)
    • Struktury eksploracji danych (231)
    • Modele eksploracji danych (232)
  • Składnia języka DMX (232)
    • Tworzenie struktur eksploracji danych (233)
    • Tworzenie modeli eksploracji danych (235)
    • Przetwarzanie struktur i modeli eksploracji danych (239)
    • Odczytywanie zawartości struktur i modeli eksploracji danych (243)
    • Zapytania predykcyjne (245)
    • Funkcje predykcyjne (251)

Rozdział 9. Naiwny klasyfikator Bayesa firmy Microsoft (253)

  • Omówienie (253)
    • Ograniczenia (255)
    • Parametry (256)
  • Zastosowania naiwnego klasyfikatora Bayesa (258)
    • Badanie zależności pomiędzy atrybutami (258)
    • Klasyfikacja dokumentów (260)

Rozdział 10. Drzewa decyzyjne firmy Microsoft i algorytm regresji liniowej firmy Microsoft (267)

  • Omówienie (268)
    • Ograniczenia (272)
    • Parametry (273)
  • Zastosowania drzew decyzyjnych (275)
    • Klasyfikacja klientów (275)
    • Szacowanie potencjalnych zysków (277)
    • Asocjacja klientów i wypożyczanych przez nich filmów (279)

Rozdział 11. Szeregi czasowe firmy Microsoft (281)

  • Omówienie (281)
    • Ograniczenia (285)
    • Parametry (286)
  • Zastosowania szeregów czasowych firmy Microsoft (288)
    • Prognozowanie sprzedaży (289)
    • Prognozowanie sprzedaży na podstawie przeplatanych serii danych (291)
    • Prognozowanie sprzedaży na podstawie danych odczytanych z kostki wielowymiarowej (292)
    • Prognozowanie sprzedaży na podstawie krótkich serii danych (293)
    • Analiza wariantowa (295)

Rozdział 12. Algorytm klastrowania firmy Microsoft (297)

  • Omówienie (297)
    • Ograniczenia (302)
    • Parametry (303)
  • Zastosowania algorytmu klastrowania (305)
    • Analiza skupień komórek (305)
    • Klasyfikacja komórek (309)
    • Przygotowanie danych do dalszej eksploracji (312)
    • Wykrywanie anomalii (314)

Rozdział 13. Algorytm klastrowania sekwencyjnego firmy Microsoft (319)

  • Omówienie (320)
    • Ograniczenia (323)
    • Parametry (323)
  • Zastosowania algorytmu klastrowania sekwencyjnego (324)
    • Analiza sekwencji odwiedzanych stron WWW (324)
    • Klasyfikacja klientów na podstawie kolejności kupowanych przez nich towarów (327)
    • Przewidywanie kolejnych zdarzeń (329)
    • Wykrywanie nietypowych sekwencji zdarzeń (332)

Rozdział 14. Algorytm odkrywania reguł asocjacyjnych firmy Microsoft (335)

  • Omówienie (336)
    • Ograniczenia (340)
    • Parametry (341)
  • Zastosowania reguł asocjacyjnych (341)
    • Badanie zależności pomiędzy wartościami atrybutów (342)
    • Analiza koszykowa (343)
    • Analiza typu cross-selling (347)

Rozdział 15. Sieci neuronowe firmy Microsoft i algorytm regresji logistycznej firmy Microsoft (351)

  • Omówienie (352)
    • Ograniczenia (358)
    • Parametry (360)
  • Zastosowania sieci neuronowych i regresji logistycznej (361)
    • Szacowanie potencjalnych zysków (362)
    • Klasyfikacja dokumentów (366)

Rozdział 16. Ocena i poprawa modeli (369)

  • Powrót do średniej (369)
  • Kryteria porównawcze (371)
    • Łatwość interpretacji (373)
    • Dokładność predykcji (374)
    • Wiarygodność predykcji (374)
    • Wydajność i skalowalność (375)
    • Przydatność (375)
  • Metody oceniania modeli eksploracji danych (376)
    • Wykresy podniesienia i zysku (376)
    • Macierz klasyfikacji (384)
    • Ocena dokładności modeli algorytmu szeregów czasowych firmy Microsoft (386)
    • Walidacja krzyżowa (387)
    • Odchylenie wewnątrz- i międzyklastrowe (390)
  • Problemy (391)
    • Niewłaściwie postawione zadania (391)
    • Niewłaściwe dane źródłowe (392)
    • Nieprzygotowane dane źródłowe (393)
    • Niewłaściwe lub źle sparametryzowane algorytmy eksploracji danych (394)

Rozdział 17. Programowanie predykcyjne (397)

  • Narzędzia programistyczne (397)
  • Wizualizatory modeli eksploracji danych (398)
  • Raporty usługi SSRS (399)
  • Inteligentne aplikacje (401)
    • Kontrola poprawności danych (401)
    • Uzupełnianie brakujących danych (404)
    • Adaptacyjny interfejs (406)

Skorowidz (415)

  • Title: Microsoft SQL Server. Modelowanie i eksploracja danych
  • Author: Danuta Mendrala, Marcin Szeliga
  • ISBN: 978-83-246-4956-3, 9788324649563
  • Date of issue: 2012-04-11
  • Format: Ebook
  • Item ID: sqlsme
  • Publisher: Helion