SYNOPSIS

Sujet récurrent et en plein essor depuis ces dernières années, la Data Science, ou science des données, recouvre des domaines à l’interface entre les statistiques, le machine learning, l’informatique et le domaine métier. Les méthodes du Machine Learning, ou apprentissage automatique, se caractérisent par l’utilisation d’algorithmes permettant la résolution de problèmes mathématiques à partir des données.

Cette formation donnera un aperçu de la variété des méthodes d’apprentissage automatique, pour la résolution de problèmes supervisés (les valeurs des variables expliquées sont connues, les résultats du modèle peuvent y être confrontés) ou non-supervisés (on ne connaît pas a priori la valeur des variables explicatives).

La formation est conçue autour de l’utilisation du langage Python, et donnera l’occasion d’acquérir les bases de l’utilisation des bibliothèques associés (pandasscikit-learn).

OBJECTIFS

Grâce à cette formation, vous pourrez acquérir les compétences suivantes :

  • Savoir utiliser Python pour développer un projet d’analyse de données
  • Connaître les grands problèmes du machine learning et les modèles principaux pour chacun d’entre eux. Quel modèle pour quel contexte et quel jeu de données.
  • Maîtriser les fondamentaux des bibliothèques pandas pour l’analyse de données et scikit-learn pour l’implémentation des méthodes de Machine Learning

PROGRAMME

Ce programme est donné à titre indicatif. Il peut être adapté selon les besoins.

  • Un peu de théorie
    • Les types de variables statistiques
    • Notions de base en statistique (moyennes, écart-types, corrélations)
    • Les lois de probabilité usuelles (normale, uniforme, Poisson, exponentielle…)
    • Rappel des bases du calcul matriciel
  • Configuration de son espace de travail
    • Installation de Python, de l’interpréteur ipython et de jupyter-notebook
    • Présentation des gestionnaires de paquets (pip, conda…) et installation des bibliothèques dédiées à l’analyse de données (numpy, pandas, matplotlib, seaborn)
    • Premier programme et test de la configuration machine
  • Utilisation des bibliothèques de Data Science
    • construire un pipeline d’analyse de données avec Luigi
    • le calcul scientifique avec numpy
    • manipulation des jeux de données avec pandas
    • visualisation avec matplotlib et seaborn
  • Méthodes d’apprentissage automatique avec scikit-learn
    • Régression (régressions linéaire, polynomiale, gaussienne, XGBoost…)
    • Classification (régression logistique, SVM, arbres de décision
    • Clustering (K-means, DBScan, clustering hiérarchique…)
    • Réduction de dimension (Analyse en Composantes Principales, …)
  • Analyse de jeux de données réelles
    • Lecture/écriture de/vers le format CSV
    • Statistiques élémentaires et compréhension des variables en présence
    • Manipulation des données avec pandas
    • Apprentissage automatique avec scikit-learn
    • Visualisation des données

DURÉE

3 jours

PRÉ-REQUIS

Bon niveau en SQL

Les prochaines sessions inter-entreprise auront lieu aux dates suivantes (Lyon ou Paris):

.

N’hésitez pas à nous contacter pour des formations intra-entreprise, pour avoir le choix dans les dates et permettre un contenu adapté à vos besoins.

Vous souhaitez participer à cette formation ?

Merci de nous donner les détails ci-dessous si vous le pouvez:

* Sur la formation

Veuillez nous indiquer le lieu de la formation , le nombre de personnes concernées, le niveau initial des participants, les contraintes de calendrier, les attentes particulières.

* Vos coordonnées

Organisation, Adresse, Personne contact, Email, TVA intracommunautaire.

Nous vous répondrons dans les meilleurs délais.

DS1 : INTRODUCTION À LA DATA SCIENCE and DS2: PYTHON POUR LE CALCUL SCIENTIFIQUE

The next courses (Lyon or Paris):

.

Contact us for on-site trainings (dates are flexible to your needs).

You want to participate in this training ?

Please give us the details below if you can:

* Training

Place of training, Number of people involved, Initial level of participants, Time constraints, Specific expectations

* Contact details

Organization, Address, Contact, Email, Intracommunity VAT