Programmer en Python pour la Data Science, le Machine Learning, la DataViz et l’Intelligence Artificielle
Ce cours a pour objectif de vous initier à la programmation en Python en lien avec les concepts essentiels du Big Data (Data Science, Machine Learning, IA, etc.). Il ne requiert aucun prérequis et vous permet d’atteindre un niveau solide en seulement 4 heures de formation.
Acquérir des bases solides
Plus besoin de partir à la chasse aux informations sur Google, l’essentiel de votre apprentissage est concentré dans ce cours.
Gagner du temps
Ce cours est conçu pour vous familiariser avec la Data Science et Python de manière rapide et efficace. Vous pourrez ainsi atteindre un niveau solide en seulement 4 heures de cours.
Une formation qui va à votre rythme
Les concepts sont présentés progressivement, à travers des exemples concrets issus de projets d’entreprises et d’universités, vous permettant d’appliquer ce que vous avez appris.
Cours récent et régulièrement mis à jour
Mis à jour en 2024, ce cours est en adéquation avec les compétences actuellement recherchées par les entreprises.
Éviter les pièges de débutants
Ce cours détaille les bonnes pratiques d’un Data Scientist expérimenté pour rédiger un code de qualité professionnelle.
Préparation réussie pour vos examens, certifications et tests techniques sur Python
Les exercices inclus dans ce cours constituent un excellent moyen de préparation pour vos examens, certifications et tests techniques en entreprise.
Travailler pour les plus grandes entreprises
Des entreprises prestigieuses telles qu’Intel, Google, Netflix, Spotify, Meta, mais aussi Renault, la SNCF, Orange, Total, Capgemini, sont actuellement à la recherche de Data Scientists expérimentés maîtrisant Python.
Se former à des métiers actuellement recherchés
En 2024, la demande en Data Scientists, Data Engineers et autres professions liées au Big Data est élevée. C’est donc le moment idéal pour se former à ces métiers en forte demande.
Obtenir un certificat de fin de formation
Un certificat attestant que vous avez suivi et complété le cours vous sera remis à l’issue de la formation.
Bonjour à toutes et à tous, bienvenue dans ce cours consacré à l’apprentissage de la Data Science et du Machine Learning sur Python. Cette formation est destinée à un apprentissage éclair de Python pour que dès la fin de ce cours, vous puissiez être opérationnel sur Python et réaliser vos propres projets d'analyse de données de façon indépendante.
Ce cours sera dédié à un apprentissage de Python par la pratique, c’est-à-dire qu’on fera ensemble tout un projet de data science de A à Z pour que vous puissiez au mieux assimiler l'analyse de données sur Python sans aucun prérequis.
Parce-que oui, pour suivre ce cours, vous n’aurez pas du tout besoin d’avoir de connaissances préalables en programmation sur Python ou même en informatique général. Nous allons tout voir ensemble de A à Z, c’est-à-dire de l’installation de Python sur votre ordinateur, jusqu’à à l’écriture de nos premiers algorithmes de data science. Vous pourrez donc suivre la formation pas à pas, tranquillement depuis chez vous. On avancera ensemble progressivement.
Pour vous parler un peu de moi, j’ai moi-même été étudiant en data science, j’ai une très grande expérience sur Python et aujourd’hui il s’agit de l’un des langages de programmation que je maîtrise le mieux.
Dans cette formation, je vais synthétiser un maximum mes connaissances pour que vous puissiez devenir expérimenté avec ce langage de programmation avec un projet réel. Le projet que nous allons faire ensemble est en effet un projet qu’on pourrait parfaitement avoir en entreprise ou même pendant ses études universitaires. Vous verrez qu’à la fin de cette formation, vous pourrez reprendre les programmes que nous aurons écrit et les analyses que nous aurons faites pour les refaire dans d’autres projets.
On se concentrera donc beaucoup sur la pratique, et on assimilera la théorie au fur et à mesure qu’on avancera ensemble. De cette façon, on travaillera vous et moi, la main à la pâte, ce qui représente selon moi, la meilleure façon d'apprendre.
Nous allons voir comment télécharger Anaconda. Il s’agit d’une distribution du langage Python qui va nous permettre d’avoir Python directement sur notre ordinateur. Anaconda a l'avantage d’installer en même temps que Python un grand nombre de librairies qui vont venir compléter le langage de programmation.
De plus, nous allons voir comment utiliser Spyder et Jupyter Notebook.
Lien pour télécharger Anaconda sur son ordinateur.
Nous allons découvrir dans cette vidéo les différentes fenêtres de Spyder.
Spyder est un environnement très simple à prendre en main et qui se rapproche des environnements qui existent déjà (notamment RStudio pour le langage de programmation R).
Parlons un peu du projet que l’on va réaliser tout au long de cette formation et qui va nous permettre d’apprendre la Data Science avec Python.
Le thème du projet va être axé sur la médecine, et plus particulièrement sur les maladies cardiovasculaires. On va en effet utiliser les données d’une clinique médicale de cardiologie.
Bien entendu, vous n’aurez absolument pas besoin d’avoir de connaissances en maladies cardiovasculaires ou en médecine générale. On s’occupera simplement d’analyser les données de manière large, et de sorte à ce qu’on puisse ensuite être capable de reproduire les mêmes analyses dans un autre domaine comme l’industrie, l’assurance, ou encore la finance.
Dans ce projet, on va se concentrer sur l’analyse de données médicales, mais vous pourrez bien entendu reproduire ces analyses dans n’importe quel autre domaine.
Le but final de ce projet va être de prédire des maladies cardiovasculaires chez des patients. C’est-à-dire qu’avec un certain nombre de données comme l’âge, le sexe ou encore le taux de cholestérol, on va essayer de prédire si tel ou tel patient risque d’avoir une maladie cardiovasculaire. Ce sont des projets qui se font réellement dans les hôpitaux. La prédiction des maladies cardiovasculaires est en effet considérée comme un sujet crucial pour les analystes de données dans le domaine médical, parce-que les données disponibles peuvent aider à prendre des décisions sur tel ou tel traitement pour éviter une maladie.
Importation des données depuis le répertoire UCI Machine Learning sur Python depuis un fichier .csv.
Importation des données depuis le répertoire UCI Machine Learning sur Python directement à partir du site, sans avoir besoin de télécharger les données préalablement.
Pour vous faciliter la tâche, voici le code pour importer directement les données. Vous pouvez copier-coller la ligne de code sur votre éditeur de code.
Renommer le nom des colonnes d'un tableau de données sur Python avec la librairie Pandas.
Vérification de la présence de valeurs manquantes dans le jeu de données, et traitement de celles-ci.
Il est indispensable de traiter les valeurs manquantes avant de procéder aux analyses statistiques.
Il existe de nombreux types de variables sur Python : str, int, float, bool et bien d'autres. Nous allons voir dans cette session comment recoder correctement les variables.
Est-ce que le cours vous plaît ? Si c'est le cas, n'hésitez pas à lui attribuer une note.
Télécharger le code Python du projet à ce stade de la formation.
Le fichier est au format .py, il peut ainsi être exécuté directement en l'ouvrant sur votre éditeur de code.
Calcul des effectifs, des fréquences et des pourcentages sur Python. Ce sont les principaux indicateurs statistiques que l'on calcule pour les variables qualitatives.
Automatisation du calcul des effectifs, des fréquences et des pourcentages sous forme de tableaux statistiques.
Calcul de la moyenne, de la médiane, du minimum, du maximum, des quartiles et de l'écart-type d'une série de données. Les statistiques indispensables pour les variables quantitatives.
Télécharger le code Python du projet à ce stade de la formation.
Le fichier est au format .py, il peut ainsi être exécuté directement en l'ouvrant sur votre éditeur de code.
Le diagramme à barres est le graphique idéal pour représenter une variable qualitative. Nous allons voir dans cette session comment en créer une à l'aide des librairies Matplotlib et Seaborn.
Automatiser la création des diagrammes à barres à l'aide d'une fonction.
L'histogramme est le graphique idéal pour représenter une variable quantitative. Nous allons voir dans cette session comment en créer une à l'aide des librairies Matplotlib et Seaborn.
Croiser deux variables pour voir si celles-ci sont liées est une tâche courante des Data Scientist et des statisticiens. Nous allons voir dans cette vidéo comment croiser deux variables qualitatives.
Après avoir vu comment croiser deux variables qualitatives, nous allons voir dans cette session comment croiser deux variables quantitatives.
Télécharger le code Python du projet à ce stade de la formation.
Le fichier est au format .py, il peut ainsi être exécuté directement en l'ouvrant sur votre éditeur de code.
Un test statistique, aussi appelé test d’hypothèses, est une procédure permettant de confronter deux hypothèses statistiques au sein d’une étude, et de déterminer l’hypothèse la plus probable et la moins probable.
Croiser deux variables qualitatives pour avoir une idée de leur liaison avec Python. On verra notamment si les hommes sont plus susceptibles de développer une maladie cardiaque que les femmes à l'aide de nos analyses avec le langage de programmation.
Pour tester les variables quantitatives, nous allons d'abord calculer des moyennes conditionnelles pour vérifier l'existence d'une potentielle association entre les variables quantitatives.
Tout va bien ?
Le test du Khi-Deux d'indépendance va nous permettre de déterminer si deux variables qualitatives sont liées. Autrement dit, le test nous permettra d'affirmer si une variable qualitative a une influence significative sur une autre variable qualitative.
Pour appliquer le test, nous allons utiliser la fonction chi2_contingency de la librairie SciPy.
Le test de Shapiro-Wilk nous permet de déterminer si une variable suit une distribution normale. Il s'agit d'une étape indispensable avant de tester l'indépendance d'une variable quantitative. Nous expliquerons dans cette vidéo qu'est-ce qu'une distribution normale, puis comment appliquer le test de Shapiro-Wilk sur Python à l'aide de la fonction shapiro de la librairie SciPy.
Le test de Mann-Whitney nous permet de déterminer si une variable catégorielle et une variable quantitative sont liées dans le cas où les deux variables ne suivent pas une distribution normale. Nous allons voir comment appliquer ce test sur Python en utilisant la fonction mannwhitneyu de la librairie SciPy.
Le test de Student nous permet de déterminer si deux variables quantitatives sont liées dans le cas où les deux variables suivent une distribution normale. Nous allons voir comment appliquer ce test en utilisant la fonction ttest_ind de la librairie SciPy.
Télécharger le code Python du projet à ce stade de la formation.
Le fichier est au format .py, il peut ainsi être exécuté directement en l'ouvrant sur votre éditeur de code.
Introduction à la mise en place d'un algorithme de Machine Learning pour réaliser des prédictions : la régression logistique.
Transformation des variables qualitatives/catégorielles en variables binaires.
Un modèle peut être efficace sur les données qui ont servi à le construire, mais il peut à l’inverse, s’avérer inefficace sur des données nouvelles.
Par conséquent, nous allons procéder à une étape de prétraitement qui consiste à diviser le jeu de données en deux pour entraîner puis tester notre modèle. Le jeu de données d’entraînement (train) va nous permettre de préparer notre modèle de régression logistique afin de prédire correctement les valeurs prises par la variable cible target. Le jeu de données de test (test) va quant à lui nous permettre de tester notre modèle de Machine Learning pour déterminer si celui-ci est suffisamment pertinent pour prédire les valeurs de la variable d’intérêt.
Création du modèle de Machine Learning en utilisant la fonction LogisticRegression de la librairie Scikit-Learn.
Réalisation de prédictions en utilisant l'algorithme de Machine Learning.
La matrice de confusion est une excellente méthode pour mesurer les performances d’un modèle. Cette matrice permet de mesurer à quelle fréquence les prédictions d’un modèle sont exactes par rapport à la réalité. Les prédictions correctes et incorrectes sont plus facilement apparentes et sont réparties par classes.
La courbe ROC est un outil d’évaluation de modèles comparant le taux de vrais positifs avec le taux de faux positifs. Il s’agit d’un bon moyen visuel de mesurer la performance d’un modèle. Plus l’aire sous la courbe se rapproche de 1, plus cela indique que le modèle est précis. A l’inverse, plus l’aire se rapproche de la diagonale à 45 degrés, moins le modèle est précis.
Nous allons donc appliquer cette courbe aux résultats de notre algorithme de Machine Learning afin d'analyser les performances de celui-ci.
Télécharger le code Python du projet à ce stade de la formation.
Le fichier est au format .py, il peut ainsi être exécuté directement en l'ouvrant sur votre éditeur de code.