Objectifs

  • Comprendre le Machine Learning
  • Catégoriser les différentes approches : clustering, classification, régression…
  • Choisir, structurer et adapter les données pertinentes pour des résultats pertinents
  • Apprendre le langage python et ses librairies scientifiques (scikit-learn, pandas)
  • Mettre en œuvre des cas concrets (prédiction, clustering)
  • Mesurer la pertinence des modèles mis en œuvre
  • Traiter des gros volumes de données en parallélisant les traitements : Spark et Dask
  • Déployer un modèle en production
  • Introduction au Deep Learning

Certification & CPF

Cette formation fait parti de la certification Bigdata & Datascience, elle est en cours d’agrément pour être éligible au CPF

La formation Bigdata et Hadoop fait aussi partie du cadre de cette certification.

Audience

Architecte, chef de projet, développeur, dataminer

Prérequis

La connaissance d’un langage de programmation structuré est nécessaire.

Méthode pédagogique

70% de travaux pratiques

Programme

Les bases du machine learning
  • Quelques exemples en guise d’introduction
  • Généraliser : un principe fondateur du Machine Learning pour permettre la prédiction et la segmentation
  • Algorithmes supervisés et non supervisés
  • Appropriation du vocabulaire du Datascientist
Premiers pas
  • Collecter et préparer les données
  • Analyser, comprendre, nettoyer puis structurer les données : feature engineering
  • Apprentissage et création d’un modèle
  • Evaluation du modèle
  • Amélioration du modèle
Le langage python
  • Syntaxe
  • Jupyter notebook
  • Les librairies du Datascientist : Pandas, scikit-learn
  • Traitements statistiques pour analyser et comprendre les données
  • Matplotlib et Seaborn : des librairies de datavisualisation pour Python
Choisir les algorithmes de machine learning
  • Comprendre les enjeux
  • Tour d’horizon des principaux algorithmes
  • Classification : k-Nearest Neighbors (k-NN), Arbre de décision, Random Forest, XGBoost
  • Régression : SVM, Ridge Regression
  • Clustering : K-Means, DBScan
  • Scoring
Concepts avancés
  • Pipeline
  • Validation croisée
  • Ensemble Machine Learning : cumulez les algorithmes pour une meilleure précision
Traiter les données en parallèle
  • Pourquoi paralléliser ?
  • Adapter les algorithmes
  • Une complexité complémentaire
  • Les frameworks de distribution à disposition : Spark et Dask
Déployer en production
  • Intégrer un pipeline à une chaine de déploiement automatisée (continuous delivery)
  • Packager un modèle : Predicive Model Markup Language
  • Créer un endpoint REST avec python flask
  • Déployer dans le cloud
Le Deep Learning
  • Présentation générale : les réseaux de neurones
  • Comprendre par l’exemple : Pytorch & Keras