Formation : R avancé, Manipulations de données et Analyses statistiques
Objectifs :
À l’issue de la formation, les participants seront capables de :
- Maîtriser le tidyverse de manière approfondie (dplyr, tidyr).
- Gérer des jeux de données complexes (jointures, reshaping, imputation, pipelines).
- Optimiser la performance des scripts (vectorisation, data.table, bonnes pratiques).
- Écrire des fonctions efficaces et réutilisables.
- Comprendre les environnements, closures, purrr et la programmation fonctionnelle.
- Structurer un projet complet en R et produire un code reproductible.
- Réaliser des analyses inférentielles avancées (tests, régressions multivariées).
- Évaluer et interpréter des modèles statistiques.
- Produire des graphiques avancés avec ggplot2.
- Générer des rapports dynamiques avec R Markdown.
- Automatiser des analyses répétitives.
- Analystes de données / Data analysts.
- Chargés d’études statistiques.
- Ingénieurs / Data scientists débutants.
- Chercheurs, doctorants, universitaires.
- Toute personne utilisant déjà R et souhaitant monter en expertise.
- Avoir une bonne maîtrise des bases de R (importer des données, manipulations simples, data frames, graphiques simples).
- Connaître les commandes de base du tidyverse.
- Savoir réaliser des analyses statistiques simples (moyennes, tests, régressions linéaires simples).
Format : présentiel ou à distance
Durée : 3 jours
Prix : 1 650 € HT
Programme
Les bonnes pratiques d’organisation de projets.
Notions clés : pipes (
|>et%>%), tidyverse, tibble.Astuces d’efficacité et de vectorisation.
Jointures complexes (left_join, right_join, full_join, semi-join…).
Manipulations multi-tables.
across()et programmation sur colonnes.Gestion des données manquantes.
Manipulations groupées complexes (nested data, group_modify).
Atelier pratique :
Traitement d’un jeu de données multi-sources + nettoyage complet.
Pivot longer / pivot wider (cas complexes).
Tables imbriquées (nest / unnest).
Reshaping pour analyses multivariées.
Gestion des formats irréguliers.
Atelier pratique :
Refonte de tables pour analyses statistiques.
Syntaxe de base.
Fusion rapide de tables (joins).
Pourquoi et quand l’utiliser.
Atelier pratique :
Accélérer des manipulations de données lourdes.
Fonctions avancées (arguments, return, dots).
Gestion des environnements et closures.
Purrr : map(), map_df(), imap(), walk().
Automatisation d’analyses répétitives.
Atelier pratique :
Construire une pipeline complète automatisée.
Régression linéaire multiple : interprétation, diagnostics, colinéarité.
Modèles généralisés (GLM) : logit, Poisson, binomial.
Sélection de modèles (AIC, BIC, stepwise).
ANOVA et ANCOVA avancées.
Tests statistiques multiples (false discovery rate).
Atelier pratique :
Construire, comparer et interpréter trois modèles statistiques.
tidy(), glance(), augment().
Intégration dans un pipeline d’analyse.
Création de résumés statistiques propres et présentables.
Atelier pratique :
Résumer automatiquement plusieurs modèles et les comparer.
Grammaire graphique avancée.
Facettes, thèmes personnalisés, annotations.
Graphiques complexes :
heatmaps
boxplots groupés
ridgelines
network plots (selon niveaux)
Gestion des couleurs, palettes, scales.
Atelier pratique :
Réalisation d’un tableau de bord graphique avec ggplot2.
Structure d’un document Rmd.
Générer automatiquement :
rapports PDF, HTML
tableaux dynamiques
graphiques intégrés
Paramétrage de documents (YAML header).
Automatisation d’un rapport périodique.
Atelier pratique :
Produire un rapport complet intégrant analyses + graphiques.
Sur un jeu de données fourni, les participants devront :
Nettoyer et transformer les données.
Construire plusieurs modèles statistiques pertinents.
Réaliser des visualisations avancées.
Produire un rapport automatisé R Markdown.
Livrables et documentations fournis :
- Jeux de données
- Scripts R modèles
- Documentations tidyverse, data.table et ggplot2
- Rapport R Markdown d’exemple
- Support de formation
- Attestation de formation
