Formation : R avancé, Manipulations de données et Analyses statistiques

Objectifs : 

À l’issue de la formation, les participants seront capables de :

  • Maîtriser le tidyverse de manière approfondie (dplyr, tidyr).
  • Gérer des jeux de données complexes (jointures, reshaping, imputation, pipelines).
  • Optimiser la performance des scripts (vectorisation, data.table, bonnes pratiques).
  • Écrire des fonctions efficaces et réutilisables.
  • Comprendre les environnements, closures, purrr et la programmation fonctionnelle.
  • Structurer un projet complet en R et produire un code reproductible.
  • Réaliser des analyses inférentielles avancées (tests, régressions multivariées).
  • Évaluer et interpréter des modèles statistiques.
  • Produire des graphiques avancés avec ggplot2.
  • Générer des rapports dynamiques avec R Markdown.
  • Automatiser des analyses répétitives.

Format : présentiel ou à distance

Durée : 3 jours

Prix : 1 650 € HT

Programme

 

  • Les bonnes pratiques d’organisation de projets.

  • Notions clés : pipes (|> et %>%), tidyverse, tibble.

  • Astuces d’efficacité et de vectorisation.

 

 

  • Jointures complexes (left_join, right_join, full_join, semi-join…).

  • Manipulations multi-tables.

  • across() et programmation sur colonnes.

  • Gestion des données manquantes.

  • Manipulations groupées complexes (nested data, group_modify).

Atelier pratique :

Traitement d’un jeu de données multi-sources + nettoyage complet.

 

  • Pivot longer / pivot wider (cas complexes).

  • Tables imbriquées (nest / unnest).

  • Reshaping pour analyses multivariées.

  • Gestion des formats irréguliers.

Atelier pratique :

Refonte de tables pour analyses statistiques.

  • Syntaxe de base.

  • Fusion rapide de tables (joins).

  • Pourquoi et quand l’utiliser.

Atelier pratique :

Accélérer des manipulations de données lourdes.

  • Fonctions avancées (arguments, return, dots).

  • Gestion des environnements et closures.

  • Purrr : map(), map_df(), imap(), walk().

  • Automatisation d’analyses répétitives.

Atelier pratique :

Construire une pipeline complète automatisée.

  • Régression linéaire multiple : interprétation, diagnostics, colinéarité.

  • Modèles généralisés (GLM) : logit, Poisson, binomial.

  • Sélection de modèles (AIC, BIC, stepwise).

  • ANOVA et ANCOVA avancées.

  • Tests statistiques multiples (false discovery rate).

Atelier pratique :

Construire, comparer et interpréter trois modèles statistiques.

  • tidy(), glance(), augment().

  • Intégration dans un pipeline d’analyse.

  • Création de résumés statistiques propres et présentables.

Atelier pratique :

Résumer automatiquement plusieurs modèles et les comparer.

  • Grammaire graphique avancée.

  • Facettes, thèmes personnalisés, annotations.

  • Graphiques complexes :

    • heatmaps

    • boxplots groupés

    • ridgelines

    • network plots (selon niveaux)

  • Gestion des couleurs, palettes, scales.

Atelier pratique :

Réalisation d’un tableau de bord graphique avec ggplot2.

  • Structure d’un document Rmd.

  • Générer automatiquement :

    • rapports PDF, HTML

    • tableaux dynamiques

    • graphiques intégrés

  • Paramétrage de documents (YAML header).

  • Automatisation d’un rapport périodique.

Atelier pratique :

Produire un rapport complet intégrant analyses + graphiques.

Sur un jeu de données fourni, les participants devront :

  1. Nettoyer et transformer les données.

  2. Construire plusieurs modèles statistiques pertinents.

  3. Réaliser des visualisations avancées.

  4. Produire un rapport automatisé R Markdown.

Livrables et documentations fournis :

  • Jeux de données
  • Scripts R modèles
  • Documentations tidyverse, data.table et ggplot2
  • Rapport R Markdown d’exemple
  • Support de formation
  • Attestation de formation