Przetwarzanie wielkich ilości informacji daje wiedzę, która leży u podstaw istotnych decyzji podejmowanych poprzez organizację. Pozwala to na uzyskiwanie doskonałych efektów: techniki wydobywania wiedzy z informacji stają się coraz bardziej wyrafinowane. Podstawowym warunkiem sukcesu jest uzyskanie optymalnej jakości danych. Zastosowanie niespójnych i niepełnych danych prowadzi do podejmowania błędnych decyzji. Konsekwencją mogą być straty finansowe, stwarzanie solidnych zagrożeń czy uszczerbek na wizerunku. A zatem oczyszczanie jest wyjątkowo ważną częścią analizy danych.
Ta książka jest ergonomicznym zbiorem gotowych do zastosowania receptur, przekazanych tak, by maksymalnie ułatwić proces przygotowania informacji do analizy. Omówiono tu takie kwestie dotyczące danych jak importowanie, ocena ich jakości, dopełnianie braków, porządkowanie i agregacja oraz przekształcanie. Poza zwięzłym omówieniem tych zadań zaprezentowano najskuteczniejsze techniki ich wykonywania za pomocą najróżniejszych narzędzi: Pandas, NumPy, Matplotlib czy SciPy. W ramach każdej receptury wyjaśniono skutki podjętych działań. Cennym uzupełnieniem jest zestaw funkcji i klas zdefiniowanych przez użytkownika, które służą do automatyzacji oczyszczania danych. Zezwalają na one również dostrojenie cyklu do potężnych potrzeb.
W książce wyszukasz receptury, dzięki którym:
- wczytasz i przeanalizujesz dane z rozmaitych źródeł
- uporządkujesz informacje, poprawisz ich błędy i uzupełnisz braki
- efektywnie skorzystasz z bibliotek Pythona
- zastosujesz wizualizacje do analizy informacji
- napiszesz własne funkcje i klasy do automatyzacji procesu oczyszczania informacji