Plus vous disposez de données, plus vous êtes en mesure d’en tirer des informations fiables. Ces dernières permettent d’anticiper les comportements des actifs ou des usagers/clients et d’obtenir un avantage concurrentiel.
Segment 1 – Qu'est-ce que Python, Jupyter Notebook et Anaconda
Dans ce module le participant se familiarisera avec l’environnement Python
- Qu’est-ce que Jupyter Notebook
- Quelles sont les bases de la programmation avec Python :
- Quelles sont les variables en science des données
- Quels traitement des données peut-on opérer : Indexation, extraction, remplacement, modification, ajout, conversion, nettoyage, test d’appartenance, tri, les structures (les ensembles, les dictionnaires, etc.), les opérateurs mathématiques, les opérateurs de comparaisons, les opérateurs logiques, etc. - Comment utiliser le debugger
- Quelles sont les règles d’utilisation des conditions if, if-else et if-elif pour le contrôle de flux
- Quand utiliser les boucles while et for
- Comment créer vos propres fonctions (la syntaxe def, les inputs ou les paramètres, le corps de la fonction et les outputs : return)
- Quand et comment utiliser les fonctions lambda
- Comment charger ou installer des bibliothèques et des modules ou les packages de python
Segment 2 : Quelles sont les bibliothèques essentielles à la science des données
Dans ce module le participant se familiarisera avec les différentes bibliothèques propres à la science des données, et leur utilisation respective.
Processus ETL (extract/transform/load)
Comment mener un processus qui permettra d’extraire, de transformer et de charger les données, à partir d’une source de données brutes, pour les besoins opérationnels.
- Profiter de la bibliothèque Pandas (Panel Data ou Python Data Analysis) :
- Comment extraire les données de diverses sources (Excel, CSV, HTML, JSON, etc.) et les manipuler (nettoyer, filtrer et transformer)
- Comment repérer, supprimer et remplacer les données manquantes
- Comment traiter les doublons
- Gérer les agrégations des données (groupby) - Utiliser la bibliothèque Numpy pour créer ou générer des données (les simulations). Introduction à la simulation Monte-Carlo.
La modélisation
Comment modéliser les données pour conceptualiser les relations entre différents types d’informations, avec la bibliothèque Pandas :
- Comment combiner les tables de données (ajouter et fusionner les tables)
- Comment transformer les données et comment créer des tables de données
- Comment assurer l’optimisation et la prévision des données avec les bibliothèques Statsmodels.api et Scpipy.stats.
La visualisation
Une fois les données extraites et modélisées il reste à voir comment les visualiser sous une forme graphique (diagramme, graphe, carte, animation...), plus facilement interprétable et exploitables.
- Comment mettre à profit les bibliothèques Matplotlib et Seaborn pour :
- Visualiser, combiner et personnaliser les données : graphiques linéaires, nuage de points, boites à moustaches, violon, boxplot, carte de chaleur, etc.
- Sauvegarder un ou plusieurs graphiques (pdf, jpeg, etc.)
Si vous avez des questions sur les modalités d'inscription, d'annulation, les horaires, la langue d'enseignement, etc. vous trouverez des réponses dans notre FAQ.