Description
Les data scientists sont souvent amenés à travailler avec des données non standardisées (avec erreurs de frappes, abréviations, duplications, valeurs manquantes...).
Le traitement ou nettoyage des données prend un temps considérable sans fournir la garantie d'un bon résultat final.
dirty-cat est une librairie open source en Python qui permet de faciliter le traitement des données sales dans le but de faire de l'apprentissage statistique.
Le point de départ est souvent une collection de tables provenant de sources différentes. Il faut par la suite:
- joindre ces tables sur des catégories imprécises (par exemple 'Bordeaux, FR' et 'Bordeaux');
- dédupliquer les valeurs d'une catégorie;
- faire de l'encodage de ces catégories sachant que leur cardinalité peut être grande due à la présence de valeurs inexactes.
Dans cette présentation, je vais vous montrer les méthodes et fonctions de dirty-cat et comment elles nous permettent d'obtenir de meilleurs résultats tout en diminuant le travail nécessaire à la préparation des données.
Pour quelques exemples d'utilisation de dirty-cat voir: