Przetwarzanie sporych ilości danych daje wiedzę, która leży u podstaw istotnych decyzji podejmowanych poprzez organizację. Pozwala to na uzyskiwanie rewelacyjnych efektów: techniki wyciągania wiedzy z informacji stają się coraz bardziej wyrafinowane. Podstawowym warunkiem sukcesu jest uzyskanie trafnej jakości danych. Wykorzystanie niespójnych i niepełnych informacji prowadzi do podejmowania błędnych decyzji. Skutkiem mogą być straty finansowe, stwarzanie konkretnych zagrożeń czy uszczerbek na wizerunku. A zatem oczyszczanie jest wyjątkowo ważną częścią analizy danych.
Ta książka jest funkcjonalnym zbiorem gotowych do użycia receptur, podanych tak, żeby maksymalnie ułatwić proces przygotowania danych do analizy. Omówiono tu takie kwestie dotyczące danych jak importowanie, ocena ich jakości, kompletowanie braków, porządkowanie i agregacja, a także przekształcanie. Poza zwięzłym omówieniem tych zadań zaprezentowano najskuteczniejsze techniki ich wykonywania przy pomocy rozmaitych narzędzi: Pandas, NumPy, Matplotlib czy SciPy. W ramach każdej receptury wyjaśniono skutki podjętych działań. Cennym uzupełnieniem jest komplet funkcji i klas zdefiniowanych przez użytkownika, które służą do automatyzacji oczyszczania danych. Zezwalają na one również dostrojenie cyklu do solidnych potrzeb.