SYNOPSIS

Sujet récurrent et en plein essor depuis ces dernières années, la Data Science, ou science des données, recouvre des domaines à l’interface entre les statistiques, le machine learning, l’informatique et le domaine métier. De par sa définition, cette nouvelle discipline est extrêmement demandeuse en ce qu’on pourrait dénommer calcul scientifique.
Cette formation sera consacrée à l’étude des possibilités offertes par le langage Python pour développer ce type de calcul. Avec la variété de l’écosystème Python, ses nombreuses bibliothèques tiers ainsi que sa bibliothèque standard très étendue, ce langage permet d’entreprendre un vaste champ d’analyses.
Cette formation, qui laisse une large place aux manipulations sur machine, permettra aux stagiaires de se familiariser avec les principales bibliothèques Python liées au calcul scientifique.

OBJECTIFS

Grâce à cette formation, vous pourrez acquérir les compétences suivantes :

  • connaître l’écosystème Python pour le calcul scientifique
  • en maîtriser les principales bibliothèques (numpy, pandas, matplotlib)
  • manipuler des jeux de données

PROGRAMME

Ce programme est donné à titre indicatif. Il peut être adapté selon les besoins.

  • Configuration de son espace de travail
    • Installation de Python, de l’interpréteur ipython et de jupyter-notebook
    • Installation des bibliothèques du calcul numérique
      • numpy
      • scipy
      • pandas
      • matplotlib
    • Configuration d’un environnement de travail
  • Rappel des bases en Python
    • Types de données
    • Structures de contrôle (if, for…)
    • Fonctions
    • Classes
  • Manipulation de vecteurs et matrices avec numpy
    • Types de données
    • Calculs matriciels
    • Indexation, sélection, insertion, suppression d’éléments
    • Aller plus loin avec scipy
  •  Manipulation de tableaux de données avec pandas
    • Types de données
    • Lire, écrire des jeux de données au format CSV
    • Sélectionner, ajouter, appliquer un traitement sur des enregistrements
    • Gestion des données manquantes
    • Agrégations
    • Manipulation de séries temporelles
  •  Visualisation de données avec matplotlib, seaborn et folium
    • Construire un graphique basique (nuage de points)
    • Construire d’autres types de graphiques (courbes, boxplots, barplots, histogrammes, …)
    • Customiser ses graphiques
    • Aller plus loin avec seaborn
    • Visualiser des cartes avec folium
  • Application : analyse d’un jeu de données géospatiales
    • Lecture/écriture de/vers le format CSV
    • Statistiques élémentaires et compréhension des variables en présence
    • Manipulation des données et utilisation de la bibliothèque scikit-learn pour la conception d’algorithmes de machine learning
    • Visualisation des données

DURÉE

3 jours

PRÉ-REQUIS

base en algèbre et calcul numérique

notions en Linux conseillée

expérience passée dans un autre environnement de calcul (R, Matlab, Octave) est un plus

Les prochaines sessions inter-entreprise auront lieu aux dates suivantes (Lyon ou Paris):

.

N’hésitez pas à nous contacter pour des formations intra-entreprise, pour avoir le choix dans les dates et permettre un contenu adapté à vos besoins.

Vous souhaitez participer à cette formation ?

Merci de nous donner les détails ci-dessous si vous le pouvez:

* Sur la formation

Veuillez nous indiquer le lieu de la formation , le nombre de personnes concernées, le niveau initial des participants, les contraintes de calendrier, les attentes particulières.

* Vos coordonnées

Organisation, Adresse, Personne contact, Email, TVA intracommunautaire.

Nous vous répondrons dans les meilleurs délais.