Formation : Langage R avancé pour la Data Science
Objectifs :
À l’issue de cette formation, les participants seront capables de :
- Manipuler efficacement des données volumineuses et hétérogènes.
- Optimiser les traitements grâce à la vectorisation, data.table et aux bonnes pratiques data science.
- Construire des pipelines propres et reproductibles de préparation des données.
- Comprendre les modèles statistiques fondamentaux utilisés en data science.
- Mettre en œuvre des modèles supervisés et non supervisés (régression, classification, clustering).
- Évaluer les performances des modèles avec des métriques adaptées.
- Concevoir des fonctions robustes et réutilisables.
- Construire des workflows automatisés (purrr, scripts modulaires).
- Structurer un projet complet de data science en R.
- Créer des visualisations avancées avec ggplot2.
- Construire des rapports automatisés et reproductibles (R Markdown).
- Préparer des dashboards data science.
Data analysts souhaitant évoluer vers des pratiques data science.
Data scientists juniors ou confirmés cherchant à renforcer leur maîtrise de R.
Ingénieurs, statisticiens et chercheurs manipulant des données complexes.
Profils techniques ou métiers travaillant avec des modèles, des datasets importants ou des pipelines analytiques.
Maîtriser les bases du langage R (tidyverse, data frames, scripts).
Avoir une bonne connaissance des statistiques descriptives et quelques tests simples.
Avoir déjà manipulé des données en R.
Format : présentiel ou à distance
Durée : 3 jours
Prix : 1 950 € HT
Programme
Vectorisation, performance, benchmarks.
Gestion efficace de la mémoire.
Structures de données adaptées (tibble, matrix, dt).
Manipulations complexes :
jointures multi-tables
nested data
opérations groupées avancées
transformations conditionnelles
across()pour automatiser les transformations.
Atelier pratique :
Nettoyer un dataset multi-sources à forte granularité.
Reshape complexe avec pivot longer/wider.
nest() / unnest() pour analyses par groupes.
Tidying de données mal structurées.
Atelier pratique :
Construire une table exploitable pour la modélisation.
Syntaxe rapide et puissante.
Agrégations massives.
Joins ultra rapides.
Bonnes pratiques pour grands volumes.
Atelier pratique :
Pipeline de transformation haute performance.
Fonctions avancées : pipes internes, dots, arguments dynamiques.
purrr : automatiser des workflows complets.
List-columns & iteration fonctionnelle (cas réels).
Structuration de projets data : architecture, scripts, modularité.
Atelier pratique :
Créer une pipeline automatisée appliquant un modèle à plusieurs sous-populations.
Régression linéaire multiple et diagnostics.
GLM (logistique, Poisson) pour classification & prévisions.
Sélection de variables : AIC/BIC, LASSO (via glmnet).
Métriques de performance : RMSE, MAE, accuracy, AUC, ROC.
Atelier pratique :
Construire, évaluer et comparer des modèles statistiques appliqués à un cas réel.
k-means, hierarchical clustering.
PCA & réduction de dimension (avec factoextra / stats).
Exploration visuelle des clusters.
Atelier pratique :
Création et visualisation de segments de clients.
Thèmes personnalisés pour la data science.
Graphiques multivariés, facettes, ridgelines.
Visualisations orientées modèle (effets, résidus).
Combiner plusieurs graphiques (patchwork / cowplot).
Atelier pratique :
Créer un mini-dashboard statique de visualisation.
R Markdown :
documents paramétrés
rapports dynamiques
intégration de modèles & graphiques
Tables professionnelles : gt, flextable.
Export automatisé vers HTML / PDF / Word.
Atelier pratique :
Construire un rapport automatisé de data science.
Sur un dataset complet (e-commerce, grande distribution / retail, santé, finance ou autre), les participants doivent :
Nettoyer et structurer les données (wrangling).
Construire et comparer plusieurs modèles (classification & régression).
Sélectionner les meilleurs modèles via des métriques.
Générer des visualisations avancées.
Produire un rapport automatique clé en main.
Livrables et documentations fournis :
Jeux de données et notebooks R.
Scripts modèles (wrangling, modélisation, pipeline complet).
Templates R Markdown Data Science.
Ressources tidyverse, data.table, ML en R.
Attestation de formation.
