Apache Spark jest oprogramowaniem open source, dedykowanym do klastrowego przetwarzania informacji dostarczanych w przeróżnych formatach. Pozwala na uzyskanie nieprzeciętnej produktywności, także pracę w trybie wsadowym i strumieniowym. Framework ten jest także nieprzeciętnie przygotowany do uruchamiania złożonych aplikacji, włączając w to algorytmy uczenia maszynowego czy analizy predykcyjnej. To wszystko powoduje, że Apache Spark stanowi perfekcyjny wybór dla programistów zajmujących się big data i eksploracją i analizą danych.
To książka przeznaczona dla inżynierów danych i programistów, którzy chcą przy pomocy Sparka przeprowadzać nieprzystępne analizy informacji i korzystać z algorytmów uczenia maszynowego, nawet jeśli te dane pochodzą z zróżnicowanych źródeł. Wyjaśniono tu, jak dzięki Apache Spark można odczytywać i ujednolicać obszerne zbiory informacji, by powstawały bezawaryjne jeziora informacji, w jaki sposób wykonuje się interaktywne zapytania SQL i jak formuje się potoki przy użyciu MLlib i wdraża modele za pomocą biblioteki MLflow. Omówiono w dodatku współdziałanie aplikacji Sparka z jego rozproszonymi komponentami i tryby jej wdrażania w poszczególnych środowiskach.
W książce:
- API strukturalne dla Pythona, SQL, zjednoczy i Javy
- operacje Sparka i silnika SQL
- konfiguracje Sparka i interfejs Spark UI
- nawiązywanie połączeń ze źródłami informacji: JSON, Parquet, CSV, Avro, ORC, Hive, S3 i Kafka
- operacje analityczne na danych wsadowych i strumieniowanych
- niezawodne potoki danych i potoki uczenia maszynowego
Spark: twórz skalowalne i bezusterkowe aplikacje big data!