Szczegóły ebooka

Dodaj mocy Power BI! Jak za pomocą kodu w Pythonie i R pobierać, przekształcać i wizualizować dane

Dodaj mocy Power BI! Jak za pomocą kodu w Pythonie i R pobierać, przekształcać i wizualizować dane

Luca Zavarella, Francesca Lazzeri

Ebook

Ważnym zadaniem inżynierów danych jest kreowanie modeli uczenia maszynowego. Używa się do tego narzędzi do analizy biznesowej, takich jak Power BI. Możliwości Power BI są imponujące, a można je dodatkowo rozbudować. Jedną z ciekawszych metod wzbogacania modelu danych i wizualizacji Power BI jest zastosowanie złożonych algorytmów zaimplementowanych w językach Python i R. W ten sposób można nie tylko tworzyć interesujące wizualizacje danych, ale także pozyskiwać dzięki nim kluczowe dla biznesu informacje.

Dzięki tej książce dowiesz się, jak to zrobić. Zaczniesz od przygotowania środowiska Power BI do używania skryptów w Pythonie i R. Następnie będziesz importować dane z nieobsługiwanych obiektów i przekształcać je za pomocą wyrażeń regularnych i złożonych algorytmów. Nauczysz się wywoływać zewnętrzne interfejsy API i korzystać z zaawansowanych technik w celu przeprowadzenia dogłębnych analiz i wyodrębnienia cennych informacji za pomocą narzędzi statystyki i uczenia maszynowego, a także poprzez zastosowanie optymalizacji liniowej i innych algorytmów. Zapoznasz się również z głównymi cechami statystycznymi zestawów danych i z metodami tworzenia różnych wykresów ułatwiających zrozumienie relacji między zmiennymi.

Najciekawsze zagadnienia:

  • złożone przekształcanie danych w Power BI za pomocą skryptów Pythona i R
  • anonimizacja i pseudonimizacja danych
  • praca z dużymi zestawami danych
  • wartości odstające i brakujące dla danych wielowymiarowych i szeregów czasowych
  • tworzenie złożonych wizualizacji danych

Wyzwól potężną moc Power BI!

Przedmowa

O autorze

O recenzentach

Wstęp

Część I. Najlepsze praktyki korzystania z języków R i Python w usłudze Power BI

Rozdział 1. Gdzie i jak używać w usłudze Power BI skryptów języka R i Python?

  • Wymagania techniczne
  • Wstrzykiwanie skryptów języka R lub Python do usługi Power BI
    • Ładowanie danych
    • Przekształcanie danych
    • Wizualizacja danych
  • Korzystanie z języków R i Python do interakcji z danymi
  • Ograniczenia stosowania języków R i Python dla różnych produktów usługi Power BI
  • Podsumowanie

Rozdział 2. Konfigurowanie języka R na potrzeby usługi Power BI

  • Wymagania techniczne
  • Dostępne silniki języka R
    • Dystrybucja CRAN R
    • Dystrybucja Microsoft R Open i MRAN
    • Klient Microsoft R
    • Stopniowe wycofywanie dystrybucji Microsoft R Open
  • Wybór silnika języka R do zainstalowania
    • Silniki języka R używane w usłudze Power BI
    • Instalowanie sugerowanych silników języka R
  • Instalowanie środowiska IDE w celu programowania w języku R
    • Instalacja programu RStudio
  • Konfigurowanie programu Power BI Desktop do pracy z językiem R
  • Konfigurowanie usługi Power BI do pracy z językiem R
    • Instalowanie lokalnej bramy danych w trybie osobistym
    • Udostępnianie raportów używających skryptów języka R w usłudze Power BI
  • Ograniczenia wizualizacji języka R
  • Podsumowanie

Rozdział 3. Konfigurowanie języka Python na potrzeby usługi Power BI

  • Wymagania techniczne
  • Dostępne silniki Pythona
  • Wybór silnika języka Python do zainstalowania
    • Silniki języka Python wykorzystywane w usłudze Power BI
    • Instalowanie sugerowanych silników języka Python
  • Instalowanie środowiska IDE na potrzeby programowania w języku Python
    • Konfigurowanie obsługi Pythona w środowisku programu RStudio
    • Konfigurowanie języka Python w środowisku programu Visual Studio Code
  • Konfigurowanie programu Power BI Desktop do pracy z językiem Python
  • Konfigurowanie usługi Power BI do pracy z językiem R
    • Udostępnianie raportów używających skryptów języka Python w usłudze Power BI
  • Ograniczenia wizualizacji w Pythonie
  • Podsumowanie

Część II. Pozyskiwanie i przekształcanie danych za pomocą języków R i Python w usłudze Power BI

Rozdział 4. Importowanie nieobsługiwanych obiektów danych

  • Wymagania techniczne
  • Importowanie plików RDS w języku R
    • Krótkie wprowadzenie do Tidyverse
    • Tworzenie zserializowanych obiektów w języku R
    • Korzystanie z plików RDS w usłudze Power BI
  • Importowanie plików PKL w Pythonie
    • Krótkie wprowadzenie do PyData
    • Tworzenie zserializowanego obiektu Pythona
    • Korzystanie z pliku PKL w usłudze Power BI
  • Podsumowanie
  • Bibliografia

Rozdział 5. Korzystanie z wyrażeń regularnych w usłudze Power BI

  • Wymagania techniczne
  • Krótkie wprowadzenie do regeksów
    • Podstawowe informacje o regeksach
    • Sprawdzanie poprawności adresów e-mail
    • Sprawdzanie poprawności dat
  • Sprawdzanie poprawności danych przy użyciu regeksów w usłudze Power BI
    • Korzystanie z regeksów w usłudze Power BI do sprawdzania poprawności adresów e-mail z wykorzystaniem języka Python
    • Korzystanie z regeksów w usłudze Power BI do sprawdzania poprawności adresów e-mail za pomocą języka R
    • Korzystanie z regeksów w usłudze Power BI do sprawdzania poprawności dat za pomocą języka Python
    • Korzystanie z regeksów w usłudze Power BI do sprawdzania poprawności dat za pomocą języka R
  • Ładowanie do usługi Power BI złożonych plików logów z wykorzystaniem regeksów
    • Logi dostępu do serwera Apache
    • Importowanie logów dostępu serwera Apache w usłudze Power BI za pomocą języka Python
    • Importowanie logów dostępu serwera Apache w usłudze Power BI za pomocą języka R
  • Wyodrębnianie wartości z tekstu w usłudze Power BI przy użyciu regeksów
    • Jeden regex do zarządzania wszystkimi danymi
    • Używanie regeksów w usłudze Power BI do wyodrębniania wartości z wykorzystaniem języka Python
    • Korzystanie z regeksów w usłudze Power BI do wyodrębniania wartości za pomocą języka R
  • Podsumowanie
  • Bibliografia

Rozdział 6. Anonimizacja i pseudonimizacja danych w usłudze Power BI

  • Wymagania techniczne
  • Deidentyfikacja danych
    • Techniki deidentyfikacji
    • Istota pseudonimizacji
    • Czym jest anonimizacja?
  • Anonimizacja danych w usłudze Power BI
    • Anonimizacja danych za pomocą języka Python
    • Anonimizacja danych za pomocą języka R
  • Pseudonimizacja danych w usłudze Power BI
    • Pseudonimizacja danych za pomocą języka Python
    • Pseudonimizacja danych w języku R
  • Podsumowanie
  • Bibliografia

Rozdział 7. Zapisywanie danych z usługi Power BI do źródeł zewnętrznych

  • Wymagania techniczne
  • Zapis danych do plików CSV
    • Zapis do plików CSV w języku Python
    • Zapis informacji do plików CSV za pomocą języka R
  • Zapisywanie informacji do plików programu Excel
    • Zapisywanie informacji do plików Excela za pomocą języka Python
    • Zapis do plików Excela za pomocą języka R
  • Zapis danych do serwera Azure SQL Server
    • Instalacja programu SQL Server Express
    • Tworzenie bazy danych w usłudze Azure SQL Database
    • Zapis danych do serwera Azure SQL Server za pomocą języka Python
    • Zapis danych na serwerze Azure SQL za pomocą języka R
  • Podsumowanie
  • Bibliografia

Rozdział 8. Ładowanie do usługi Power BI zbiorów danych przekraczających dostępną pamięć RAM

  • Wymagania techniczne
  • Typowy scenariusz analityczny obejmujący wykorzystanie obszernego zestawu danych
  • Importowanie dużych zestawów danych w języku Python
    • Instalowanie Dask na laptopie
    • Tworzenie obiektów DataFrame pakietu Dask
    • Wyodrębnianie informacji z obiektu DataFrame pakietu Dask
    • Importowanie dużego zestawu danych w usłudze Power BI z wykorzystaniem języka Python
  • Importowanie dużych zestawów danych za pomocą języka R
    • Instalowanie pakietu disk.frame na laptopie
    • Tworzenie egzemplarza obiektu disk.frame
    • Wyodrębnianie informacji z obiektu disk.frame
    • Importowanie dużego zestawu danych w usłudze Power BI za pomocą języka R
  • Podsumowanie
  • Bibliografia

Część III. Wzbogacanie danych w usłudze Power BI za pomocą języków R i Python

Rozdział 9. Wywoływanie zewnętrznych interfejsów API w celu wzbogacania danych

  • Wymagania techniczne
  • Czym jest usługa sieciowa?
  • Rejestrowanie się w usłudze Bing Maps Web Services
  • Geokodowanie adresów z wykorzystaniem języka Python
    • Korzystanie z jawnego żądania GET
    • Korzystanie ze współbieżnych żądań GET
    • Korzystanie z biblioteki Geocoder w trybie programowania współbieżnego
  • Geokodowanie adresów za pomocą języka R
    • Korzystanie z jawnych żądań GET
    • Korzystanie ze współbieżnych żądań GET
    • Korzystanie z pakietu tidygeocoder do współbieżnego wykonywania kodu
  • Korzystanie z usług sieciowych z poziomu usługi Power BI
    • Geokodowanie adresów w usłudze Power BI za pomocą języka Python
    • Geokodowanie adresów w usłudze Power BI za pomocą języka R
  • Podsumowanie
  • Bibliografia

Rozdział 10. Obliczanie kolumn przy użyciu złożonych algorytmów

  • Wymagania techniczne
  • Obliczanie odległości między dwiema lokalizacjami geograficznymi
    • Trygonometria sferyczna
    • Twierdzenie cosinusów
    • Wzór Haversinesa
    • Wzór Vincenty'ego
    • Jakiego wzoru odległości używać i kiedy?
  • Implementacja algorytmów wyznaczania odległości w Pythonie
    • Obliczanie odległości w języku Python
    • Obliczanie odległości w usłudze Power BI za pomocą języka Python
  • Implementacja algorytmów wyznaczania odległości w języku R
    • Obliczanie odległości za pomocą języka R
    • Obliczanie odległości w usłudze Power BI za pomocą języka R
  • Podstawy programowania liniowego
    • Równania i nierówności liniowe
    • Formułowanie problemu optymalizacji liniowej
  • Definicja problemu LP do rozwiązania
    • Formułowanie problemu LP
  • Rozwiązywanie problemów optymalizacji w języku Python
    • Rozwiązywanie problemu LP za pomocą języka Python
    • Rozwiązywanie problemu programowania liniowego za pomocą języka Python w usłudze Power BI
  • Rozwiązywanie problemów programowania liniowego za pomocą języka R
    • Rozwiązywanie problemu LP w języku R
    • Rozwiązywanie problemu programowania liniowego za pomocą języka R w usłudze Power BI
  • Podsumowanie
  • Bibliografia

Rozdział 11. Dodawanie statystyk: powiązania

  • Wymagania techniczne
  • Badanie powiązań między zmiennymi
  • Korelacja między zmiennymi liczbowymi
    • Współczynnik korelacji Karla Pearsona
    • Współczynnik korelacji Charlesa Spearmana
    • Współczynnik korelacji Maurice'a Kendalla
    • Opis przypadku
    • Implementacja obliczeń współczynników korelacji w Pythonie
    • Implementacja obliczeń współczynników korelacji w języku R
    • Implementacja obliczania współczynników korelacji w usłudze Power BI za pomocą języków Python i R
  • Korelacje między zmiennymi kategorycznymi a liczbowymi
    • Związek między dwiema zmiennymi kategorycznymi
    • Związki pomiędzy zmiennymi liczbowymi a kategorycznymi
    • Implementacja obliczania współczynników korelacji w Pythonie
    • Implementacja obliczania współczynników korelacji w języku R
    • Implementacja obliczania współczynników korelacji w usłudze Power BI za pomocą języków R i Python
  • Podsumowanie
  • Bibliografia

Rozdział 12. Dodawanie statystyk: wartości odstające i wartości brakujące

  • Wymagania techniczne
  • Czym są wartości odstające i jak sobie z nimi radzić?
    • Przyczyny istnienia wartości odstających
    • Obsługa wartości odstających
  • Identyfikacja wartości odstających
    • Jednowymiarowe wartości odstające
    • Wielowymiarowe wartości odstające
  • Implementacja algorytmów wykrywania wartości odstających
    • Implementacja wykrywania wartości odstających w Pythonie
    • Implementacja wykrywania wartości odstających w języku R
    • Implementacja wykrywania wartości odstających w usłudze Power BI
  • Czym są wartości brakujące i jak sobie z nimi radzić?
    • Przyczyny brakujących wartości
    • Obsługa wartości brakujących
  • Diagnozowanie brakujących wartości z wykorzystaniem języków R i Python
  • Implementacja algorytmów imputacji brakujących wartości
    • Usuwanie brakujących wartości
    • Imputacja danych tabelarycznych
    • Imputacja danych szeregów czasowych
    • Imputacja brakujących wartości w usłudze Power BI
  • Podsumowanie
  • Bibliografia

Rozdział 13. Korzystanie z uczenia maszynowego bez licencji Premium lub Embedded

  • Wymagania techniczne
  • Interakcje z mechanizmami uczenia maszynowego w usłudze Power BI z wykorzystaniem przepływów danych
  • Korzystanie z rozwiązań AutoML
    • PyCaret
    • Azure AutoML
    • RemixAutoML dla języka R
  • Osadzanie kodu szkoleniowego w dodatku Power Query
    • Szkolenie i korzystanie z modeli ML z wykorzystaniem biblioteki PyCaret
    • Korzystanie z biblioteki PyCaret w usłudze Power BI
  • Korzystanie z przeszkolonych modeli w dodatku Power Query
    • Ocena obserwacji w dodatku Power Query przy użyciu przeszkolonego modelu PyCaret
  • Korzystanie z przeszkolonych modeli w wizualizacjach utworzonych za pomocą skryptów
    • Ocenianie obserwacji w skrypcie wizualizacji z wykorzystaniem przeszkolonego modelu PyCaret
  • Wywoływanie usług sieciowych w dodatku Power Query
    • Korzystanie z usług Cognitive Services w dodatku Power Query
  • Podsumowanie
  • Bibliografia

Część IV. Wizualizacja danych za pomocą języka R w usłudze Power BI

Rozdział 14. Eksploracyjna analiza danych

  • Wymagania techniczne
  • Jaki jest cel EDA?
    • Zrozumienie sensu danych
    • Oczyszczanie danych
    • Odkrywanie powiązań między zmiennymi
  • Analiza EDA z wykorzystaniem języków R i Python
  • Analiza EDA w usłudze Power BI
    • Strona podsumowania zestawu danych
    • Eksploracja brakujących wartości
    • Eksploracja jednowymiarowa
    • Eksploracja wielowymiarowa
    • Powiązania zmiennych
  • Podsumowanie
  • Bibliografia

Rozdział 15. Zaawansowane wizualizacje

  • Wymagania techniczne
  • Tworzenie wykresu kołowego
  • Implementacja kołowego wykresu słupkowego w języku R
  • Implementacja kołowego wykresu słupkowego w usłudze Power BI
  • Podsumowanie
  • Bibliografia

Rozdział 16. Interaktywne niestandardowe wizualizacje języka R

  • Wymagania techniczne
  • Zalety stosowania interaktywnych niestandardowych wizualizacji w języku R
  • Dodawanie elementów interaktywnych za pomocą biblioteki Plotly
  • Wykorzystanie elementów interaktywnych za pośrednictwem widżetów HTML
  • Tworzenie niestandardowych wizualizacji w usłudze Power BI
    • Instalowanie pakietu pbiviz
    • Tworzenie pierwszej niestandardowej wizualizacji R HTML
  • Importowanie pakietu niestandardowej wizualizacji do usługi Power BI
  • Podsumowanie
  • Bibliografia

Skorowidz

  • Tytuł: Dodaj mocy Power BI! Jak za pomocą kodu w Pythonie i R pobierać, przekształcać i wizualizować dane
  • Autor: Luca Zavarella, Francesca Lazzeri
  • Tytuł oryginału: Extending Power BI with Python and R: Ingest, transform, enrich, and visualize data using the power of analytical languages
  • Tłumaczenie: Radosław Meryk
  • ISBN: 978-83-283-9454-4, 9788328394544
  • Data wydania: 2022-12-02
  • Format: Ebook
  • Identyfikator pozycji: rozmoz
  • Wydawca: Helion