Szczegóły ebooka

Analiza danych z Banku Danych Lokalnych z wykorzystaniem programu R

Analiza danych z Banku Danych Lokalnych z wykorzystaniem programu R

Andrzej Bąk, Grażyna Dehnel, Andrzej Dudek, Eugeniusz Gatnar, Krzysztof Kania, Marek Walesiak, Łukasz Wawrowski, Artur Zaborski

Ebook

Monografia skierowana jest do użytkowników Banku Danych Lokalnych oraz osób, które we własnym zakresie chcą się z nim zapoznać. Bank Danych Lokalnych (BDL) udostępniany przez GUS od 1995 r. jest największą w Polsce bazą danych oferującą potencjalnym użytkownikom ponad 97 tys. zmiennych statystycznych pogrupowanych tematycznie. BDL to znane i cenione źródło danych statystycznych dla badaczy stosujących metody wielowymiarowej analizy statystycznej. Książka jest pierwszą pozycją naukową prezentującą automatyczne wykorzystanie danych z Banku Danych Lokalnych w analizach statystycznych wykorzystujących metody wielowymiarowe. Wiedza zawarta w monografii pozwoli użytkownikom metod statystycznej analizy wielowymiarowej na szybkie i przyjazne przeprowadzanie analiz dla danych statystycznych pozyskanych z BDL. Ponadto czytelnik otrzyma aktualną wiedzę z zakresu statystycznej analizy wielowymiarowej oraz wszystkie skrypty programu R. W monografii zaprezentowano nowy sposób automatycznego pozyskiwania danych z Banku Danych Lokalnych z wykorzystaniem pakietu bdl oraz interfejsu API (Application Programming Interface) oraz wykorzystanie tak pozyskanych danych w zastosowaniu dla wybranych metod statystycznej analizy wielowymiarowej. Autorzy mają nadzieję, że monografia okaże się przydatna dla badaczy i praktyków, którzy zajmują się problematyką analizy danych, klasyfikacji, dyskryminacji, modelowania, wizualizacji, itp. Zainteresuje więc z pewnością ekonomistów, psychologów, socjologów, biologów, botaników, archeologów, lekarzy i innych.

Wstęp 8
1.Charakterystyka programu i języka R oraz środowiska RStudio 11
1.1. Uwagi wstępne 11
1.2. Podstawy pracy w środowisku R 12
1.2.1. Tryby pracy w środowisku R 12
1.2.2. Pakiety 16
1.2.3. System pomocy 19
1.3. Środowisko RStudio 22
1.4. Podstawy języka R 24
1.4.1. Literały 24
1.4.2. Komentarz 25
1.4.3. Nazwy obiektów 25
1.4.4. Operator podstawienia 25
1.4.5. Atrybuty 26
1.4.6. Typy obiektów 27
1.4.7. Konwersja typów 38
1.4.8. Operatory 39
1.4.9. Funkcje w pakietach 45
1.4.10. Operacje na tablicach i tabelach danych dwu- lub więcej wymiarowych
z wykorzystaniem indeksów 48
1.4.11. Operacje na strukturach danych z wykorzystaniem pakietu dplyr 53
1.5. Import/eksport danych 63
1.5.1. Bazy danych 63
1.5.2. MS Excel/csv 64
1.5.3. Format JSON 67
1.5.4. Format Rdata/rda 69
1.5.5. Repozytoria internetowe 71
1.5.6. Graficzny import danych w RStudio 72
1.6. Złożone konstrukcje programistyczne 74
1.6.1. Instrukcja warunkowa 74
1.6.2. Pętla for 74
1.6.3. Pętla z wyszukaniem danych spełniających określony warunek 75
1.6.4. Pętla z agregacją danych 76
1.6.5. Pętla while 77
1.7. Inne przydatne funkcje 77
1.8. Tworzenie własnych funkcji 79
Literatura 80
2. API dla BDL i pakiet bdl w R 81
2.1. Dlaczego warto używać API BDL w R? 81
2.2. Instalacja i ustawienia pakietu 81
2.3. Szukanie identyfikatorów jednostek terytorialnych 82
2.4. Szukanie identyfikatorów zmiennych (cech) 85
2.5. Pobieranie danych dla pojedynczej jednostki i wielu zmiennych 87
2.6. Pobieranie danych dla pojedynczej zmiennej i wielu jednostek 90
2.7. Dodatkowe narzędzia 92
2.8. Pozostałe funkcje 93
Literatura 93
3. Graficzna prezentacja danych 94
3.1. Wprowadzenie 94
3.2. Podstawy wizualizacji danych – formatowanie wykresów 95
3.2.1. Dobór kolorów 98
3.2.2. Tytuł, podtytuł, osie i opisy osi wykresu100
3.3. Formaty plików graficznych w R 101
3.4. Wykresy podstawowe z wykorzystaniem programu R dla danych z BDL 101
3.4.1. Wykres słupkowy/kolumnowy 101
3.4.2. Wykres kołowy 2D i 3D 103
3.4.3. Wykresy liniowy i warstwowy105
3.4.4. Wykres radarowy 106
3.4.5. Wykres pudełkowy (boxplot) 108
3.5. Wykresy zaawansowane z wykorzystaniem programu R dla danych z BDL110
3.5.1. Histogram 111
3.5.2. Funkcja gęstości 112
3.5.3. Wykresy rozrzutu danych metrycznych (scatter plot) 114
3.5.4. Macierz wykresów rozrzutu115
3.5.5. Wykresy rozrzutu trzech zmiennych metrycznych (bubble plot) 116
3.5.6. Warunkowe wykresy rozrzutu (trellis plot) 117
3.5.7. Wykres piramidowy 119
3.5.8. Wizualizacja danych w 3D 121
Literatura 122
4. Wizualizacja danych na mapach 123
4.1. Formaty w GIS 123
4.2. Wczytywanie map oraz rysowanie mapy i wycinka mapy 124
4.3. Wyznaczanie współrzędnych geograficznych 126
4.4. Wprowadzanie danych, rysowanie map – warstwy kolorystyczne dla regionów, przedziały
klasowe, nanoszenie etykiet i legendy 127
4.5. Mapy wielowarstwowe 131
Literatura136
5. Testy statystyczne137
5.1. Podstawy testowania hipotez137
5.2. Testy dla zmiennych mierzonych na skali nominalnej 141
5.3. Testowanie normalności142
5.4. Testowanie wariancji 143
5.5. Testowanie wartości przeciętnej 144
5.6. Zastosowania z wykorzystaniem programu R dla danych z BDL 146
Literatura 163
6. Imputacja brakujących danych 164
6.1. Zagadnienie brakujących danych 164
6.2. Podejścia stosowane w sytuacji brakujących danych165
6.3. Metody imputacji brakujących danych 165
6.4. Imputacja brakujących danych z wykorzystaniem wybranych pakietów programu R 166
6.5. Zastosowania z wykorzystaniem programu R dla danych z BDL167
Literatura 183
7. Porządkowanie liniowe 184
7.1. Istota i założenia porządkowania liniowego 184
7.2. Klasyczne i nieklasyczne procedury porządkowania liniowego 185
7.3. Miary agregatowe w porządkowaniu liniowym 186
7.4. Zastosowania z wykorzystaniem programu R dla danych z BDL 188
Literatura 200
8. Drzewa klasyfikacyjne i regresyjne 203
8.1. Metoda rekurencyjnego podziału 203
8.2. Funkcja kryterium podziału 205
8.3. Optymalna wielkość modelu 207
8.4. Zastosowania z wykorzystaniem programu R dla danych z BDL 209
Literatura 218
9. Skalowanie wielowymiarowe 219
9.1. Idea skalowania wielowymiarowego 219
9.2. Procedury skalowania wielowymiarowego 221
9.3. Modele różnic indywidualnych 223
9.4. Analiza unfolding 224
9.5. Zastosowania z wykorzystaniem programu R dla danych z BDL 225
Literatura 235
10. Analiza skupień 237
10.1. Podstawowe problemy zagadnienia klasyfikacji 237
10.2. Etapy występujące w typowej analizie skupień 238
10.3. Podstawowe pakiety i funkcje programu R 252
10.4. Zastosowania z wykorzystaniem programu R dla danych z BDL 252
Literatura 259
11. Analiza danych panelowych 263
11.1. Wprowadzenie do modelowania danych panelowych 263
11.2. Model bez efektów indywidualnych i czasowych 265
11.3. Model z efektami stałymi 266
11.4. Model z efektami losowymi 268
11.5. Podstawowe testy stosowane w modelach panelowych 268
11.6. Zastosowania z wykorzystaniem programu R dla danych z BDL 269
Literatura 280
12. Statystyka małych obszarów 282
12.1. Podstawy statystyki małych obszarów 282
12.2. Ocena jakości szacunku 284
12.3. Estymacja syntetyczna 285
12.4. Estymacja złożona 286
12.5. Podejście modelowe 287
12.6. Zastosowanie z wykorzystaniem programu R dla danych z BDL 288
Literatura 301
Aneks. Podstawy pakietu ggplot2 304
Spis rysunków 312
Spis tabel 315

  • Tytuł: Analiza danych z Banku Danych Lokalnych z wykorzystaniem programu R
  • Autor: Andrzej Bąk, Grażyna Dehnel, Andrzej Dudek, Eugeniusz Gatnar, Krzysztof Kania, Marek Walesiak, Łukasz Wawrowski, Artur Zaborski
  • ISBN: 978-83-67899-45-1, 9788367899451
  • Data wydania: 2024-12-10
  • Format: Ebook
  • Identyfikator pozycji: e_46in
  • Wydawca: Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu