Skip to main content

Formation EPICLIN 2021 - Introduction à Python pour l’analyse de données de santé

En complément du Congrès, le programme d'EPICLIN comporte des formations pré-conférence organisées selon un mode hybride, permettant d’y participer en présentiel ou en distanciel. Les formations et le matériel pédagogique seront données en français.

Organisation : Format hybride (présentiel et distanciel).

Date : 8 juin 2021, de 14h00 à 17h30.

Public visé : Épidémiologistes, statisticiens professionnels de santé des unités de recherche clinique et de bio-statistiques ainsi que toutes les personnes engagées dans la recherche biomédicale académique intéressées par le développement informatique et l’intelligence artificielle.

Prérequis : Connaissance théorique générale des algorithmes de Machine Learning et des traitements des données. Une connaissance de base de la programmation est souhaitable mais n’est pas indispensable.

Prérequis techniques : Ordinateur personnel connecté à internet et installation préalable d’ANACONDA (Attention : il est indispensable que l’installation soit faite avant la séance). Suivre le lien suivant pour télécharger ANACONDA : https://www.anaconda.com/products/individual.

Contexte : Les techniques d'apprentissage automatique sont de plus en plus utilisées pour obtenir des informations sur de grands ensembles de données. Néanmoins, l'utilisation de ces techniques peut s'avérer compliquée, car elle nécessite non seulement des compétences en programmation, mais également des algorithmes complexes. Cependant, le langage de programmation Python est devenu de plus en plus populaire compte tenu de sa stabilité, de sa facilité de développement et du nombre de bibliothèques dédiées à l'apprentissage automatique et à l'analyse de données telle que Scikit-learn qui propose divers algorithmes de classification, de régression et de clustering (support vector machines, random forest, et k-means, entre autres).

Dans cette formation, nous présentons brièvement les principales bibliothèques python pertinentes pour l'analyse de données et nous montrons comment les utiliser avec un jeu de données médicales.

Objectifs pédagogiques :

Se familiariser avec le pipeline de travail de Python pour l'analyse des données médicales :

  1. Apprendre comment effectuer la préparation et le prétraitement des données avec la bibliothèque Python Pandas : Nettoyage des données, sélections des variables, et conversion de variables catégorielles.
  2. Faire une analyse exploratoire des ensembles de données à l'aide des bibliothèques Python Matplotlib et Seaborn.
  3. Réalisation d'une analyse de données basée sur l'apprentissage automatique avec la bibliothèque Scikit Learn.

Structuration de la formation : Cette formation associe aux éléments théoriques de base, la mise en application pratique. Nous montrons des exemples d’analyse en Machine Learning end to end en utilisant un jeu de données réel. La formation sera participative et interactive.

Matériel pédagogique mis à disposition à l’issue de la formation : Jupyter notebook avec le code en Python ainsi que le jeu des données serait fourni comme support pour la séance.

Intervenants : Raquel Urena (MCU, Sesstim Université Aix-Marseille), Jean-Charles Dufour (MCU-PH, Sesstim Université Aix-Marseille).

Nombre maximal de participants : 20.