Formation : Langage R avancé pour la Data Science

Objectifs : 

À l’issue de cette formation, les participants seront capables de :

  • Manipuler efficacement des données volumineuses et hétérogènes.
  • Optimiser les traitements grâce à la vectorisation, data.table et aux bonnes pratiques data science.
  • Construire des pipelines propres et reproductibles de préparation des données.
  • Comprendre les modèles statistiques fondamentaux utilisés en data science.
  • Mettre en œuvre des modèles supervisés et non supervisés (régression, classification, clustering).
  • Évaluer les performances des modèles avec des métriques adaptées.
  • Concevoir des fonctions robustes et réutilisables.
  • Construire des workflows automatisés (purrr, scripts modulaires).
  • Structurer un projet complet de data science en R.
    • Créer des visualisations avancées avec ggplot2.
    • Construire des rapports automatisés et reproductibles (R Markdown).
    • Préparer des dashboards data science.
  • Data analysts souhaitant évoluer vers des pratiques data science.

  • Data scientists juniors ou confirmés cherchant à renforcer leur maîtrise de R.

  • Ingénieurs, statisticiens et chercheurs manipulant des données complexes.

  • Profils techniques ou métiers travaillant avec des modèles, des datasets importants ou des pipelines analytiques.

 

  • Maîtriser les bases du langage R (tidyverse, data frames, scripts).

  • Avoir une bonne connaissance des statistiques descriptives et quelques tests simples.

  • Avoir déjà manipulé des données en R.

 

 

Format : présentiel ou à distance

Durée : 3 jours

Prix : 1 950 € HT

Programme

 

  • Vectorisation, performance, benchmarks.

  • Gestion efficace de la mémoire.

  • Structures de données adaptées (tibble, matrix, dt).

 

  • Manipulations complexes :

    • jointures multi-tables

    • nested data

    • opérations groupées avancées

    • transformations conditionnelles

  • across() pour automatiser les transformations.

Atelier pratique :

Nettoyer un dataset multi-sources à forte granularité.

  • Reshape complexe avec pivot longer/wider.

  • nest() / unnest() pour analyses par groupes.

  • Tidying de données mal structurées.

Atelier pratique :

Construire une table exploitable pour la modélisation.

  • Syntaxe rapide et puissante.

  • Agrégations massives.

  • Joins ultra rapides.

  • Bonnes pratiques pour grands volumes.

Atelier pratique :

Pipeline de transformation haute performance.

  • Fonctions avancées : pipes internes, dots, arguments dynamiques.

  • purrr : automatiser des workflows complets.

  • List-columns & iteration fonctionnelle (cas réels).

  • Structuration de projets data : architecture, scripts, modularité.

Atelier pratique :

Créer une pipeline automatisée appliquant un modèle à plusieurs sous-populations.

  • Régression linéaire multiple et diagnostics.

  • GLM (logistique, Poisson) pour classification & prévisions.

  • Sélection de variables : AIC/BIC, LASSO (via glmnet).

  • Métriques de performance : RMSE, MAE, accuracy, AUC, ROC.

Atelier pratique :

Construire, évaluer et comparer des modèles statistiques appliqués à un cas réel.

  • k-means, hierarchical clustering.

  • PCA & réduction de dimension (avec factoextra / stats).

  • Exploration visuelle des clusters.

Atelier pratique :

Création et visualisation de segments de clients.

  • Thèmes personnalisés pour la data science.

  • Graphiques multivariés, facettes, ridgelines.

  • Visualisations orientées modèle (effets, résidus).

  • Combiner plusieurs graphiques (patchwork / cowplot).

Atelier pratique :

Créer un mini-dashboard statique de visualisation.

  • R Markdown :

    • documents paramétrés

    • rapports dynamiques

    • intégration de modèles & graphiques

  • Tables professionnelles : gt, flextable.

  • Export automatisé vers HTML / PDF / Word.

Atelier pratique :

Construire un rapport automatisé de data science.

Sur un dataset complet (e-commerce, grande distribution / retail, santé, finance ou autre), les participants doivent :

  1. Nettoyer et structurer les données (wrangling).

  2. Construire et comparer plusieurs modèles (classification & régression).

  3. Sélectionner les meilleurs modèles via des métriques.

  4. Générer des visualisations avancées.

  5. Produire un rapport automatique clé en main.

Livrables et documentations fournis :

  • Jeux de données et notebooks R.

  • Scripts modèles (wrangling, modélisation, pipeline complet).

  • Templates R Markdown Data Science.

  • Ressources tidyverse, data.table, ML en R.

  • Attestation de formation.