Категорії
Електронні книги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комп'ютер в офісі
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Мультимедійне навчання
- Нерухомість
- Переконання та НЛП
- Податки
- Соціальна політика
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Звіти, аналізи
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Електронна преса
- Architektura i wnętrza
- Biznes i Ekonomia
- Будинок та сад
- Електронний бізнес
- Фінанси
- Особисті фінанси
- Бізнес
- Фотографія
- Інформатика
- Відділ кадрів та оплата праці
- Комп'ютери, Excel
- Бухгалтерія
- Культура та література
- Наукові та академічні
- Охорона навколишнього середовища
- Впливові
- Освіта
- Податки
- Подорожі
- Психологія
- Релігія
- Сільське господарство
- Ринок книг і преси
- Транспорт та спедиція
- Здоров'я та краса
-
Історія
-
Інформатика
- Офісні застосунки
- Бази даних
- Біоінформатика
- Бізнес ІТ
- CAD/CAM
- Digital Lifestyle
- DTP
- Електроніка
- Цифрова фотографія
- Комп'ютерна графіка
- Ігри
- Хакування
- Hardware
- IT w ekonomii
- Наукові пакети
- Шкільні підручники
- Основи комп'ютера
- Програмування
- Мобільне програмування
- Інтернет-сервери
- Комп'ютерні мережі
- Стартап
- Операційні системи
- Штучний інтелект
- Технологія для дітей
- Вебмайстерність
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Оповідна поезія
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Шкільні підручники
-
Науково-популярна та академічна
- Археологія
- Bibliotekoznawstwo
- Кінознавство / Теорія кіно
- Філологія
- Польська філологія
- Філософія
- Finanse i bankowość
- Географія
- Економіка
- Торгівля. Світова економіка
- Історія та археологія
- Історія мистецтва і архітектури
- Культурологія
- Мовознавство
- літературні студії
- Логістика
- Математика
- Ліки
- Гуманітарні науки
- Педагогіка
- Навчальні засоби
- Науково-популярна
- Інше
- Психологія
- Соціологія
- Театральні студії
- Богослов’я
- Економічні теорії та науки
- Transport i spedycja
- Фізичне виховання
- Zarządzanie i marketing
-
Порадники
-
Ігрові посібники
-
Професійні та спеціальні порадники
-
Юридична
- Безпека життєдіяльності
- Історія
- Дорожній кодекс. Водійські права
- Юридичні науки
- Охорона здоров'я
- Загальне, компендіум
- Академічні підручники
- Інше
- Закон про будівництво і житло
- Цивільне право
- Фінансове право
- Господарське право
- Господарське та комерційне право
- Кримінальний закон
- Кримінальне право. Кримінальні злочини. Кримінологія
- Міжнародне право
- Міжнародне та іноземне право
- Закон про охорону здоров'я
- Закон про освіту
- Податкове право
- Трудове право та законодавство про соціальне забезпечення
- Громадське, конституційне та адміністративне право
- Кодекс про шлюб і сім'ю
- Аграрне право
- Соціальне право, трудове право
- Законодавство Євросоюзу
- Промисловість
- Сільське господарство та захист навколишнього середовища
- Словники та енциклопедії
- Державні закупівлі
- Управління
-
Путівники та подорожі
- Африка
- Альбоми
- Південна Америка
- Центральна та Північна Америка
- Австралія, Нова Зеландія, Океанія
- Австрія
- Азії
- Балкани
- Близький Схід
- Болгарія
- Китай
- Хорватія
- Чеська Республіка
- Данія
- Єгипет
- Естонія
- Європа
- Франція
- Гори
- Греція
- Іспанія
- Нідерланди
- Ісландія
- Литва
- Латвія
- Mapy, Plany miast, Atlasy
- Мініпутівники
- Німеччина
- Норвегія
- Активні подорожі
- Польща
- Португалія
- Інше
- Росія
- Румунія
- Словаччина
- Словенія
- Швейцарія
- Швеція
- Світ
- Туреччина
- Україна
- Угорщина
- Велика Британія
- Італія
-
Психологія
- Філософія життя
- Kompetencje psychospołeczne
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Аудіокниги
-
Бізнес та економіка
- Біткойн
- Ділова жінка
- Коучинг
- Контроль
- Електронний бізнес
- Економіка
- Фінанси
- Фондова біржа та інвестиції
- Особисті компетенції
- Комунікація та переговори
- Малий бізнес
- Маркетинг
- Мотивація
- Нерухомість
- Переконання та НЛП
- Податки
- Порадники
- Презентації
- Лідерство
- Зв'язки з громадськістю
- Секрет
- Соціальні засоби комунікації
- Продаж
- Стартап
- Ваша кар'єра
- Управління
- Управління проектами
- Людські ресурси (HR)
-
Для дітей
-
Для молоді
-
Освіта
-
Енциклопедії, словники
-
Історія
-
Інформатика
-
Інше
-
Іноземні мови
-
Культура та мистецтво
-
Шкільні читанки
-
Література
- Антології
- Балада
- Біографії та автобіографії
- Для дорослих
- Драми
- Журнали, щоденники, листи
- Епос, епопея
- Нарис
- Наукова фантастика та фантастика
- Фельєтони
- Художня література
- Гумор, сатира
- Інше
- Класичний
- Кримінальний роман
- Нехудожня література
- Художня література
- Mity i legendy
- Лауреати Нобелівської премії
- Новели
- Побутовий роман
- Okultyzm i magia
- Оповідання
- Спогади
- Подорожі
- Поезія
- Політика
- Науково-популярна
- Роман
- Історичний роман
- Проза
- Пригодницька
- Журналістика
- Роман-репортаж
- Romans i literatura obyczajowa
- Сенсація
- Трилер, жах
- Інтерв'ю та спогади
-
Природничі науки
-
Соціальні науки
-
Науково-популярна та академічна
-
Порадники
-
Професійні та спеціальні порадники
-
Юридична
-
Путівники та подорожі
-
Психологія
- Філософія життя
- Міжособистісне спілкування
- Mindfulness
- Загальне
- Переконання та НЛП
- Академічна психологія
- Психологія душі та розуму
- Психологія праці
- Relacje i związki
- Батьківство та дитяча психологія
- Вирішення проблем
- Інтелектуальний розвиток
- Секрет
- Сексуальність
- Спокушання
- Зовнішній вигляд та імідж
- Філософія життя
-
Релігія
-
Спорт, фітнес, дієти
-
Техніка і механіка
Відеокурси
-
Бази даних
-
Big Data
-
Biznes, ekonomia i marketing
-
Кібербезпека
-
Data Science
-
DevOps
-
Для дітей
-
Електроніка
-
Графіка / Відео / CAX
-
Ігри
-
Microsoft Office
-
Інструменти розробки
-
Програмування
-
Особистісний розвиток
-
Комп'ютерні мережі
-
Операційні системи
-
Тестування програмного забезпечення
-
Мобільні пристрої
-
UX/UI
-
Веброзробка, Web development
-
Управління
Подкасти
- Електронні книги
- Програмування
- Python
- Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych
Деталі електронної книги
Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych
Przetwarzanie dużych ilości danych daje wiedzę, która leży u podstaw istotnych decyzji podejmowanych przez organizację. Pozwala to na uzyskiwanie znakomitych efektów: techniki wydobywania wiedzy z danych stają się coraz bardziej wyrafinowane. Podstawowym warunkiem sukcesu jest uzyskanie odpowiedniej jakości danych. Wykorzystanie niespójnych i niepełnych informacji prowadzi do podejmowania błędnych decyzji. Konsekwencją mogą być straty finansowe, stwarzanie konkretnych zagrożeń czy uszczerbek na wizerunku. A zatem oczyszczanie jest wyjątkowo ważną częścią analizy danych.
Ta książka jest praktycznym zbiorem gotowych do użycia receptur, podanych tak, aby maksymalnie ułatwić proces przygotowania danych do analizy. Omówiono tu takie kwestie dotyczące danych jak importowanie, ocena ich jakości, uzupełnianie braków, porządkowanie i agregacja, a także przekształcanie. Poza zwięzłym omówieniem tych zadań zaprezentowano najskuteczniejsze techniki ich wykonywania za pomocą różnych narzędzi: Pandas, NumPy, Matplotlib czy SciPy. W ramach każdej receptury wyjaśniono skutki podjętych działań. Cennym uzupełnieniem jest zestaw funkcji i klas zdefiniowanych przez użytkownika, które służą do automatyzacji oczyszczania danych. Umożliwiają one też dostrojenie procesu do konkretnych potrzeb.
W książce znajdziesz receptury, dzięki którym:
- wczytasz i przeanalizujesz dane z różnych źródeł
- uporządkujesz dane, poprawisz ich błędy i uzupełnisz braki
- efektywnie skorzystasz z bibliotek Pythona
- zastosujesz wizualizacje do analizy danych
- napiszesz własne funkcje i klasy do automatyzacji procesu oczyszczania danych
Prawdziwą wartość mają tylko oczyszczone i spójne dane!
O autorze 11
O recenzentach 12
Wprowadzenie 13
Rozdział 1. Oczyszczanie danych podczas importowania danych tabelarycznych do pandas 17
- Wymagania techniczne 18
- Importowanie danych z plików CSV 18
- Przygotuj się 18
- Jak to zrobić... 19
- Jak to działa... 21
- Zobacz również... 22
- Co dalej? 23
- Importowanie plików z Excela 23
- Przygotuj się 24
- Jak to zrobić... 24
- Jak to działa... 28
- Zobacz również... 29
- Co dalej? 29
- Importowanie danych z baz SQL 30
- Przygotuj się 30
- Jak to zrobić... 31
- Jak to działa... 34
- Zobacz również... 36
- Co dalej? 36
- Importowanie danych z SPSS, Stata i SAS 36
- Przygotuj się 37
- Jak to zrobić... 37
- Jak to działa... 42
- Zobacz również... 43
- Co dalej? 43
- Importowanie danych z R 43
- Przygotuj się 44
- Jak to zrobić... 44
- Jak to działa... 46
- Zobacz również... 47
- Co dalej? 47
- Przechowywanie danych tablicowych 48
- Przygotuj się 49
- Jak to zrobić... 49
- Jak to działa... 51
- Zobacz również 51
Rozdział 2. Oczyszczanie danych podczas importowania HTML-a i JSON-a do pandas 53
- Wymagania techniczne 54
- Importowanie danych z prostego pliku JSON 54
- Przygotuj się 54
- Jak to zrobić... 55
- Jak to działa... 58
- Zobacz również... 59
- Importowanie bardziej złożonego JSON-a za pomocą API 60
- Przygotuj się 60
- Jak to zrobić... 61
- Jak to działa... 63
- Zobacz również... 64
- Co dalej? 64
- Importowanie danych ze stron internetowych 65
- Przygotuj się 65
- Jak to zrobić... 66
- Jak to działa... 68
- Zobacz również... 69
- Przechowywanie danych w formacie JSON 69
- Przygotuj się 70
- Jak to zrobić... 71
- Jak to działa... 72
- Zobacz również... 73
Rozdział 3. Przeprowadzanie pomiarów danych 75
- Wymagania techniczne 76
- Pierwsze spojrzenie na dane 76
- Przygotuj się... 77
- Jak to zrobić... 77
- Jak to działa... 79
- Zobacz również... 80
- Co dalej? 81
- Wybór i organizacja kolumn 81
- Przygotuj się... 81
- Jak to zrobić... 81
- Jak to działa... 85
- Zobacz również... 86
- Co dalej? 87
- Selekcja wierszy 87
- Przygotuj się... 87
- Jak to zrobić... 87
- Jak to działa... 94
- Zobacz również... 95
- Co dalej? 95
- Obliczanie częstości zmiennych kategorialnych 95
- Przygotuj się... 95
- Jak to zrobić... 95
- Jak to działa... 98
- Zobacz również... 99
- Generowanie statystyk podsumowujących zmienne ciągłe 99
- Przygotuj się... 100
- Jak to zrobić... 100
- Jak to działa... 102
- Co dalej? 103
Rozdział 4. Identyfikacja brakujących i odstających wartości w podzbiorach danych 105
- Wymagania techniczne 106
- Wykrywanie brakujących wartości 106
- Przygotuj się 106
- Jak to zrobić... 107
- Jak to działa... 109
- Co dalej? 110
- Identyfikowanie wartości odstających w pojedynczych zmiennych 110
- Przygotuj się 110
- Jak to zrobić... 111
- Jak to działa... 117
- Zobacz również... 117
- Co dalej? 118
- Identyfikacja wartości odstających i nieoczekiwanych w relacjach pomiędzy dwiema zmiennymi 118
- Przygotuj się 119
- Jak to zrobić... 119
- Jak to działa... 124
- Zobacz również... 125
- Co dalej? 126
- Wykorzystanie podzbiorów do badania logicznych niespójności w relacjach pomiędzy zmiennymi 126
- Przygotuj się 126
- Jak to zrobić... 127
- Jak to działa... 132
- Co dalej? 132
- Wykorzystanie regresji liniowej do identyfikacji punktów danych o znaczącym wpływie 132
- Przygotuj się 133
- Jak to zrobić... 133
- Jak to działa... 135
- Zobacz również... 136
- Znajdowanie wartości odstających za pomocą algorytmu k-najbliższych sąsiadów 136
- Przygotuj się 136
- Jak to zrobić... 137
- Jak to działa... 138
- Zobacz również... 139
- Co dalej? 139
- Wykorzystanie Isolation Forest do znajdowania anomalii 139
- Przygotuj się 140
- Jak to zrobić... 140
- Jak to działa... 143
- Zobacz również... 143
- Co dalej? 143
Rozdział 5. Wykorzystanie wizualizacji do identyfikacji nieoczekiwanych wartości 145
- Wymagania techniczne 146
- Badanie rozkładu zmiennych ciągłych za pomocą histogramów 146
- Przygotuj się 147
- Jak to zrobić... 147
- Jak to działa... 152
- Zobacz również... 153
- Identyfikacja wartości odstających w zmiennych ciągłych za pomocą wykresów pudełkowych 154
- Przygotuj się 154
- Jak to zrobić... 154
- Jak to działa... 158
- Zobacz również... 159
- Co dalej? 159
- Wykorzystanie grup wykresów pudełkowych do identyfikacji wartości nieoczekiwanych w określonej grupie 160
- Przygotuj się 160
- Jak to zrobić... 160
- Jak to działa... 164
- Zobacz również... 165
- Co dalej? 166
- Analiza wartości odstających i kształtu rozkładu za pomocą wykresów skrzypcowych 166
- Przygotuj się 166
- Jak to zrobić... 166
- Jak to działa... 170
- Zobacz również... 171
- Co dalej? 172
- Wykorzystanie wykresów punktowych do przedstawienia relacji dwuwymiarowych 172
- Przygotuj się 172
- Jak to zrobić... 173
- Jak to działa... 178
- Zobacz również... 179
- Co dalej? 179
- Wykorzystanie wykresów liniowych do analizy trendów zmiennych ciągłych 179
- Przygotuj się 179
- Jak to zrobić... 180
- Jak to działa... 184
- Zobacz również... 184
- Co dalej? 185
- Generowanie mapy ciepła na podstawie macierzy korelacji 185
- Przygotuj się 185
- Jak to zrobić... 185
- Jak to działa... 187
- Zobacz również... 188
- Co dalej? 188
Rozdział 6. Oczyszczanie i eksploracja danych za pomocą operacji na obiektach typu Series 189
- Wymagania techniczne 190
- Pobieranie wartości z obiektów typu Series w pandas 190
- Przygotuj się 191
- Jak to zrobić... 191
- Jak to działa... 194
- Statystyki podsumowujące obiektów typu Series 194
- Przygotuj się 195
- Jak to zrobić... 195
- Jak to działa... 197
- Zobacz również... 198
- Co dalej? 198
- Zmiana wartości w obiektach typu Series 198
- Przygotuj się 198
- Jak to zrobić... 199
- Jak to działa... 201
- Zobacz również... 201
- Co dalej? 202
- Warunkowa zmiana wartości w obiektach typu Series 202
- Przygotuj się 202
- Jak to zrobić... 203
- Jak to działa... 206
- Zobacz również... 207
- Co dalej? 208
- Ocena zawartości i oczyszczanie serii łańcuchów znaków 208
- Przygotuj się 208
- Jak to zrobić... 208
- Jak to działa... 212
- Zobacz również... 212
- Praca z datami 212
- Przygotuj się 212
- Jak to zrobić... 213
- Jak to działa... 216
- Co dalej? 217
- Identyfikowanie i usuwanie braków w danych 217
- Przygotuj się 218
- Jak to zrobić... 218
- Jak to działa... 221
- Zobacz również... 221
- Co dalej? 221
- Imputacja brakujących wartości za pomocą metody k-najbliższych sąsiadów 222
- Przygotuj się 222
- Jak to zrobić... 222
- Jak to działa... 223
- Zobacz również... 223
- Co dalej? 224
Rozdział 7. Porządkowanie danych podczas agregacji 225
- Wymagania techniczne 226
- Iteracje z użyciem itertuples (antywzorzec) 226
- Przygotuj się 227
- Jak to zrobić... 227
- Jak to działa... 229
- Zobacz również... 230
- Obliczanie statystyk podsumowujących poszczególne grupy za pomocą tablic NumPy 231
- Przygotuj się 231
- Jak to zrobić... 231
- Jak to działa... 233
- Zobacz również... 233
- Co dalej? 233
- Grupowanie danych za pomocą groupby 234
- Przygotuj się 234
- Jak to zrobić... 234
- Jak to działa... 236
- Zobacz również... 236
- Korzystanie z bardziej skomplikowanych funkcji agregujących i groupby 237
- Przygotuj się 237
- Jak to zrobić... 237
- Jak to działa... 240
- Zobacz również... 241
- Co dalej? 242
- groupby i funkcje zdefiniowane przez użytkownika 242
- Przygotuj się 242
- Jak to zrobić... 242
- Jak to działa... 245
- Zobacz również... 245
- Co dalej? 246
- Wykorzystanie groupby do zmiany jednostki analizy w ramce 246
- Przygotuj się 246
- Jak to zrobić... 246
- Jak to działa... 247
Rozdział 8. Rozwiązywanie problemów z danymi podczas łączenia ramek danych 249
- Wymagania techniczne 250
- Łączenie ramek danych w pionie 250
- Przygotuj się 251
- Jak to zrobić... 251
- Jak to działa... 253
- Co dalej? 254
- Wykonywanie połączeń jeden-do-jednego 254
- Przygotuj się 256
- Jak to zrobić... 256
- Jak to działa... 259
- Zobacz również... 260
- Scalenia w wielu kolumnach 260
- Przygotuj się 260
- Jak to zrobić... 261
- Jak to działa... 262
- Zobacz również... 263
- Wykonywanie połączeń jeden-do-wielu 263
- Przygotuj się 264
- Jak to zrobić... 264
- Jak to działa... 267
- Zobacz również... 267
- Co dalej? 268
- Wykonywanie połączeń wiele-do-wielu 268
- Przygotuj się 268
- Jak to zrobić... 269
- Jak to działa... 271
- Zobacz również... 272
- Opracowanie procedury scalania 273
- Przygotuj się 273
- Jak to zrobić... 273
- Jak to działa... 274
- Co dalej? 275
Rozdział 9. Porządkowanie i przekształcanie danych 277
- Wymagania techniczne 278
- Usuwanie zduplikowanych wierszy 278
- Przygotuj się... 278
- Jak to zrobić... 279
- Jak to działa... 281
- Zobacz również... 281
- Co dalej? 281
- Naprawianie relacji wiele-do-wielu 281
- Przygotuj się... 282
- Jak to zrobić... 282
- Jak to działa... 285
- Zobacz również... 286
- Co dalej? 287
- Wykorzystanie stack i melt do zmiany kształtu danych z szerokiego na długi 287
- Przygotuj się... 288
- Jak to zrobić... 288
- Jak to działa... 291
- Obracanie wielu grup kolumn 291
- Przygotuj się... 291
- Jak to zrobić... 292
- Jak to działa... 293
- Zobacz również... 293
- Wykorzystanie unstack i pivot do zmiany kształtu danych z długich na szerokie 294
- Przygotuj się... 294
- Jak to zrobić... 294
- Jak to działa... 296
Rozdział 10. Zdefiniowane przez użytkownika funkcje i klasy do automatyzacji procesu oczyszczania danych 297
- Wymagania techniczne 298
- Funkcje ułatwiające pierwsze spojrzenie na dane 298
- Przygotuj się... 298
- Jak to zrobić... 299
- Jak to działa... 302
- Zobacz również... 302
- Funkcje do wyświetlania statystyk podsumowujących i częstości 302
- Przygotuj się 303
- Jak to zrobić... 303
- Jak to działa... 307
- Zobacz również... 307
- Co dalej? 307
- Funkcje do identyfikowania wartości odstających i nieoczekiwanych 308
- Przygotuj się 308
- Jak to zrobić... 308
- Jak to działa... 312
- Zobacz również... 313
- Co dalej? 313
- Funkcje do agregacji lub łączenia danych 313
- Przygotuj się 314
- Jak to zrobić... 314
- Jak to działa... 318
- Zobacz również... 318
- Co dalej? 318
- Klasy zawierające logikę do aktualizowania wartości serii 319
- Przygotuj się 319
- Jak to zrobić... 319
- Jak to działa... 322
- Zobacz również... 323
- Co dalej? 323
- Klasy obsługujące inne niż tabelaryczne struktury danych 324
- Przygotuj się 324
- Jak to zrobić... 325
- Jak to działa... 328
- Zobacz również... 328
- Назва: Czyszczenie danych w Pythonie. Receptury. Nowoczesne techniki i narzędzia Pythona do wykrywania i eliminacji zanieczyszczeń oraz wydobywania kluczowych cech z danych
- Автор: Michael Walker
- Оригінальна назва: Python Data Cleaning Cookbook: Modern techniques and Python tools to detect and remove dirty data and extract key insights
- Переклад: Filip Kamiński
- ISBN: 978-83-283-8030-1, 9788328380301
- Дата видання: 2021-10-26
- Формат: Eлектронна книга
- Ідентифікатор видання: czydap
- Видавець: Helion