Author: Marek Czuma
1
Videocourse

Apache Spark. Kurs video. Przetwarzanie złożonych zbiorów danych

Marek Czuma

Obierz kurs na złożone zbiory danych Apache Spark to narzędzie do przetwarzania danych w trybie rozproszonym, które umożliwia budowanie zaawansowanych systemów operacji na złożonych zbiorach danych. Przetwarzanie rozproszone poprzez wykorzystanie wielu maszyn jednocześnie znacząco przyspiesza operacje na dużych ilościach danych. Spark jest niezwykle popularny, stosowany w licznych projektach, a jego rynkowy udział stale rośnie. Można go używać zarówno na platformach chmurowych, jak i on-premise. W czasach, gdy Apache Spark debiutował, dominowała technologia MapReduce, która szybko została zastąpiona przez Sparka z powodu jego wielokrotnie lepszej wydajności. Dzięki przetwarzaniu danych w pamięci może on być nawet 100 razy szybszy! Do dużych firm korzystających z tego narzędzia należą: eBay, który używa go do targetowanych ofert, i Netflix, przetwarzający w trybie strumieniowym ponad 450 miliardów zdarzeń dziennie. Spark jest narzędziem niezastąpionym w świecie big data – obsługuje różne rodzaje przetwarzania danych, w tym przetwarzanie wsadowe, strumieniowe, interaktywne zapytania i uczenie maszynowe. Oferuje API dla języków takich jak Python, Scala, Java i R. Dodatkowo ma bogaty ekosystem narzędzi i bibliotek, między innymi Spark SQL, rozszerzających jego funkcjonalność i umożliwiających szerokie zastosowanie w różnorodnych projektach. To wszechstronne narzędzie rewolucjonizuje sposób, w jaki przetwarzamy i analizujemy dane w dzisiejszym świecie. Zdobądź praktyczne umiejętności i dowiedz się, jak korzystać z Apache Spark w branży big data. W trakcie kursu: Nauczysz się podstawowej obsługi Apache Spark Dowiesz się, jak działa architektura Sparka Zrozumiesz, jak zbudować logiczną strukturę joba (aplikacji) sparkowego Poznasz struktury danych obecne w Sparku Odkryjesz wiele funkcji przydatnych przy operacjach na danych Nauczysz się budować własne funkcje do operacji na danych (UDF) Dowiesz się, jak łączyć zbiory danych Opanujesz oczyszczanie surowych danych przy użyciu Sparka Nauczysz się pracy na rzeczywistych zbiorach danych W trakcie szkolenia Apache Spark. Kurs video. Przetwarzanie złożonych zbiorów danych nauczysz się budowy Apache Spark, poznając jego architekturę i zasady działania na wielu maszynach. Zdobędziesz ogólne rozeznanie w strukturach Apache Spark, a także zrozumiesz, jak działają akcje i transformacje. Będziesz pracować ze strukturami danych, jak RDD i dataframe – łączyć je za pomocą Unions i Joins, wykonywać agregacje i korzystać z pakietu functions. Odkryjesz, jak pracować z plikami w Sparku, a także przeprowadzisz praktyczne ćwiczenia na danych z Netflixa i pizzerii w USA. Dowiesz się, jak tworzyć własną logikę w Sparku, w tym jak definiować i stosować funkcje UDF i transform. Na koniec opanujesz dobre praktyki wydajnościowe i zrealizujesz mikroprojekt, obejmujący przegląd i czyszczenie danych, budowę wyszukiwarki i generatora statystyk. Kurs ukończysz na poziomie podstawowym. Zdobyte umiejętności pozwolą Ci pewnie poruszać się w środowisku Sparka, jak również – z pomocą doświadczonego zespołu – wziąć udział w pierwszym komercyjnym projekcie Sparkowym. Oddaję w Twoje ręce kurs, który jest syntezą wielu lat mojej pracy z Apache Spark. Choć uwielbiam tę technologię, popełniłem przy niej więcej błędów, niż jest to przyzwoite. Tym kursem oszczędzę Ci znakomitej większości z nich! Mam głęboką nadzieję, że poza solidną zawartością merytoryczną, będziesz się po prostu świetnie bawić. Wierzę, że nie tylko dasz radę przejść go wzorowo, ale też że uruchomisz ogromne pokłady swojej kreatywności. Twoje możliwości są znacznie wyżej, niż sądzisz! Wierzę w Ciebie, więc laptop na biurko, kawa w dłoń i lecimy eksplorować fascynujący świat danych!