Formation Data Science : boite à outils du data scientist

Objectifs : 

À l’issue de la formation, les participants seront capables de :

    • Maîtriser les outils essentiels du Data Scientist

    • Comprendre et appliquer les processus standards d’un projet data

    • Mettre en place un environnement de travail professionnel

    • Structurer un projet data de manière reproductible

    • Appliquer les bonnes pratiques de développement, de collaboration et de documentation

    • Communiquer efficacement les résultats aux parties prenantes

Format : présentiel ou à distance

Durée : 2 jours

Prix : 1 550 € HT

Programme

  • Rôle du Data Scientist dans l’entreprise

  • Différences Data Analyst / Data Engineer / Data Scientist

  • Cycle de vie d’un projet data (CRISP-DM, Agile Data)

  • Bonnes pratiques organisationnelles

  • Interaction avec les équipes métiers et IT

Cas pratique

Analyse d’un cas projet et identification des étapes

  • Python et écosystème data

  • Jupyter Notebook vs IDE

  • Gestion des environnements (venv, conda)

  • Gestion des dépendances (requirements)

  • Structuration d’un projet data

Cas pratique 

Création d’un environnement et d’une arborescence projet

  • Panorama des outils de nettoyage
  • pandas 

  • Nettoyage des données

  • Gestion des valeurs manquantes

  • Détection d’anomalies

  • Bonnes pratiques de qualité et traçabilité des données

Cas pratique

Nettoyage et audit qualité d’un dataset réel

  • Panorama des outils

  • Choix des bons indicateurs

  • Visualisations pertinentes pour l’analyse

  • Storytelling avec les données

  • Erreurs fréquentes en dataviz

Cas pratique 

Etude explorative de données complète avec restitution synthétique

  • Feature engineering

  • Encodage et normalisation

  • Pipelines scikit-learn

  • Séparation train/test

  • Reproductibilité des expériences

Cas pratique 

Création d’un pipeline de préparation des données

  • Panorama des algorithmes utilisés en pratique

  • Utilisation standard de scikit-learn

  • Entraînement, prédiction et évaluation

  • Interprétabilité des modèles

  • Sélection du bon modèle

Cas pratique

Benchmark rapide de plusieurs modèles

  • Panorama des outils
  • Git pour les projets data

  • Bonnes pratiques de code (PEP8, modularité)

  • Documentation des notebooks et scripts

  • Gestion des versions de données

  • Travail en équipe data

Cas pratique

Versioning et documentation d’un projet data

  • Passage du notebook au script

  • Sauvegarde et chargement de modèles

  • Introduction aux API de prédiction

  • Surveillance des modèles

  • Notions de MLOps

 

Livrables et documentations fournis :

  • Support de formation

  • Attestation de formation
  • Arborescence type de projet data

  • Notebooks et scripts professionnels

  • Pipelines réutilisables

  • Fiches bonnes pratiques

  • Checklist projet Data Science