Apprendre à programmer avec R en partant de zéro !
Que vous soyez étudiant désirant apprendre le langage de programmation R à travers RStudio, ou professionnel aspirant à renforcer vos compétences en R pour l’analyse de données, la Data Science, le Machine Learning, le Deep Learning ou encore la Data Visualization, ce cours vous propulsera vers vos objectifs.
Cours adapté à tous
Ce cours n’exige aucun prérequis. Nous explorerons ensemble les concepts fondamentaux, de A à Z, avec une série d’exemples pratiques.
Apprendre rapidement et gagner du temps
Conçu pour maximiser l’efficacité de votre apprentissage, ce cours vous permet d’apprendre la programmation avec R rapidement, vous faisant ainsi gagner du temps. Vous développerez des compétences robustes en seulement 5 heures de formation.
Un cours qui suit votre rythme
Les concepts sont abordés progressivement, à l’aide d’exemples pratiques tirés de projets typiques d’entreprises et d’universités, vous permettant de mettre en pratique vos nouvelles connaissances.
Construire des bases solides
Plus besoin de partir à la chasse aux informations sur Google, l’essentiel de votre apprentissage se trouve dans ce cours.
Éviter les pièges de débutants
Le cours met en lumière les meilleures pratiques d’un développeur R expérimenté pour vous permettre de produire un code de qualité professionnelle.
Cours récent et régulièrement mis à jour
Ce cours, mis à jour en 2024, est en phase avec les compétences actuellement recherchées par les entreprises.
Réussir ses examens, tests techniques et certifications
Le contenu du cours est structuré de manière à vous préparer efficacement pour vos divers examens universitaires sur R, vos certifications, ainsi que les tests techniques nécessaires pour intégrer une entreprise.
Pouvoir travailler pour les plus grandes entreprises
Grâce à ses performances et à ses fonctionnalités, le langage de programmation R a gagné la confiance de nombreuses multinationales à travers le monde, telles que Facebook, Google, Uber, Airbnb, IBM, McKinsey ainsi que Renault, la SNCF, Orange, Total et bien d’autres.
Se former à des métiers actuellement recherchés
En 2024, la demande en Data Scientists, Data Engineers et autres professions liées au Big Data est élevée. C’est donc le moment idéal pour se former à ces métiers en forte demande en apprenant à programmer en R.
Obtenir un certificat de fin de formation
Un certificat attestant que vous avez suivi et complété le cours vous sera remis à l’issue de la formation.
Bonjour à toutes et à tous, bienvenue dans ce cours consacré à l’apprentissage du langage de programmation statistique R, de la Data Science et du Machine Learning. Cette formation est destinée à un apprentissage éclair de R pour que dès la fin de ce cours, vous puissiez être opérationnel sur R et réaliser vos propres projets. Cette formation sera destinée à un apprentissage de R par la pratique, c’est-à-dire qu’on fera ensemble un projet d’analyse de données, de data science, de machine learning, de création de graphiques, de tests statistiques et bien d’autres notions pour que vous puissiez au mieux assimiler R.
Je vous rassure, vous n’aurez pas du tout besoin d’avoir de connaissances préalables en programmation sur R ou même en informatique général. Nous allons tout voir ensemble de A à Z, c’est-à-dire de l’installation de R et RStudio sur votre ordinateur, jusqu’à à l’écriture de nos premiers algorithmes de data science. Vous pourrez donc suivre la formation pas à pas, tranquillement depuis chez vous, on avancera progressivement, et on avancera surtout ensemble.
Pour vous parler un peu de moi, j’ai moi-même été étudiant en data science, j’ai une très grande expérience sur R et aujourd’hui il s’agit de l’un des langages de programmation que je maîtrise le mieux.
Dans cette formation, je vais synthétiser un maximum mes connaissances pour que vous puissiez devenir expérimenté avec ce langage de programmation avec un projet réel. Parce-que le projet que nous allons faire ensemble est en effet un projet qu’on pourrait parfaitement avoir en entreprise ou même pendant ses études universitaires. Vous verrez qu’à la fin de cette formation, vous pourrez reprendre les programmes que nous aurons écrit et les analyses que nous aurons fait pour les refaire dans d’autres projets.
On se concentrera donc beaucoup sur la pratique et on assimilera la théorie au fur et à mesure qu’on avance ensemble. De cette façon, on travaillera vous et moi, la main à la pâte. A la fin de cette formation, on aura réalisé tout un projet réel sur R, et vous pourrez ensuite réutiliser les connaissances que vous aurez accumuler dans de nombreux domaines.
Nous allons voir dans cette vidéo comment installer le langage de programmation R, puis l'environnement de développement RStudio sur son ordinateur.
Compatible avec Windows, Mac et Linux.
Télécharger R et RStudio.
C'est fait ! Nous avons installé R et RStudio sur notre ordinateur. Nous allons dans cette vidéo découvrir l'environnement de développement de RStudio (éditeur de code, console, explorateur de variables, librairies etc...).
Parlons un peu du projet que l’on va réaliser tout au long de cette formation et qui va nous permettre d’apprendre le langage de programmation R, de voir comment faire de la Data Science et du Machine Learning.
Le thème du projet va être axé sur la médecine, et plus particulièrement les maladies cardiovasculaires. On va en effet utiliser les données d’une clinique médicale de cardiologie où l’on va pouvoir réaliser de la data science avec R.
Bien entendu, vous n’aurez absolument pas besoin d’avoir de connaissances en maladies cardiovasculaires, ni quoi que ce soit. On s’occupera simplement d’analyser les données de manière large, et de sorte à ce qu’on puisse ensuite être capable de reproduire les mêmes analyses dans un autre domaine comme l’industrie, l’assurance, ou encore la finance. C’est ça l’avantage de la Data Science, c’est applicable dans de très nombreux domaines.
Dans ce projet, on va se concentrer sur l’analyse de données médicales, mais vous pourrez bien entendu reproduire ces analyses dans n’importe quel autre domaine.
Le but final de ce projet va être de prédire des maladies cardiovasculaires chez des patients. C’est-à-dire qu’avec un certain nombre de données comme l’âge, le sexe ou encore le taux de cholestérol, on va essayer de prédire si tel ou tel patient risque d’avoir une maladie cardiovasculaire. Ce sont des choses qui se font réellement dans les hôpitaux, la prédiction des maladies cardiovasculaires est considérée comme un sujet crucial pour les analystes de données dans le domaine médical, parce-que les données disponibles peuvent aider à prendre des décisions sur tel ou tel traitement pour éviter une maladie.
Nous allons voir dans cette session comment importer des données sur R depuis un fichier .csv avec la fonction read.csv. Toutefois, nous verrons une seconde méthode qui nous permet d'importer des données depuis un site internet avec un URL. Dans ce cas présent, nous allons importer des données depuis le répertoire UCI Machine Learning.
Pour vous faciliter la tâche, voici le code pour importer directement les données. Vous pouvez copier-coller la ligne de code sur RStudio.
Dans cette vidéo, nous allons voir comment renommer le nom des colonnes d'un tableau de données sur R avec la fonction colnames. C'est une étape très importante parce qu'on réalisera de nombreuses opérations sur ces colonnes.
En Data Science, il nous arrive tout le temps de vouloir modifier le contenu d'une cellule d'un tableau de données. Nous allons donc voir dans cette session comment réaliser cela.
Est-ce que le cours vous plaît ?
Nous allons voir dans cette session comment traiter les valeurs manquantes sur R. Il s'agit d'une étape indispensable dans tout projet de Data Science ou de Machine Learning.
Il existe de nombreux types de variables : integer (nombre entier), float (nombre réel), factor (variable catégorielle) et bien d'autres. Nous allons voir dans cette session comment recoder correctement les variables.
Pour plus de clarté, nous allons voir comment modifier les modalités d'une variable qualitative sur R. Cette étape nous permettra d'apporter beaucoup plus de lisibilité à nos analyses.
Avant de passer à la suite du cours, nous allons vérifier une dernière fois la présence de valeurs manquantes qui pourraient nous déranger plus tard.
Télécharger le code R du projet à ce stade de la formation.
La première vidéo de cette section portera sur le calcul d'effectifs, de fréquences et de pourcentages. Il s'agit des indicateurs statistiques que l'on calcule en priorité pour les variables qualitatives.
R propose des fonctions très pratiques pour calculer un certain nombre d'indicateurs statistiques. Dans cette vidéo, nous allons découvrir la fonction summary qui nous permet d'obtenir la moyenne, la médiane, les quartiles, le minimum et le maximum d'une série statistique.
Dans cette vidéo, on va compléter les indicateurs statistiques qu'on a calculé précédemment (moyenne, médiane, quartiles, minimum et maximum) avec le calcul de la variance et de l'écart-type. Nous ferons ça à l'aide des fonctions var et sd.
Télécharger le code R du projet à ce stade de la formation.
Introduction à la visualisation avancée des données.
Les diagrammes à barres sont les premiers graphiques auxquels on pense quand on veut représenter des variables qualitatives. Nous allons voir dans cette vidéo comment réaliser des diagrammes à barres à l'aide de la fonction plot.
Suite de la dernière vidéo sur la création de diagrammes à barres sur R.
Nous allons voir dans cette vidéo comment faire un diagramme circulaire (ou camembert dans le langage courant) sur R.
Pour représenter les variables quantitatives, les boîtes à moustaches sont des incontournables. Nous allons voir dans cette vidéo comment réaliser des boîtes à moustaches, et comment les interpréter.
Après les boîtes à moustaches, ce sont les histogrammes que l'on utilise beaucoup pour représenter visuellement les distributions quantitatives. Nous allons donc voir dans cette vidéo comment réaliser de beaux histogrammes lisibles.
Croiser deux variables pour voir si celles-ci sont liées est une problématique fondamentale des Data Scientist et des statisticiens. Nous allons voir dans cette vidéo comment croiser deux variables qualitatives, puis nous verrons dans la prochaine vidéo comment croiser deux variables quantitatives.
Après avoir vu comment croiser deux variables qualitatives, nous allons voir dans cette vidéo comment croiser deux variables quantitatives.
Télécharger le code R du projet à ce stade de la formation.
Bonjour à toutes et à tous, bienvenue dans cette courte vidéo introductive consacrée aux tests statistiques. Alors, je tenais à faire cette petite vidéo avant de passer sur R pour vous expliquer le principe des tests statistiques, et leur utilité qui est absolument fondamentale, et qui mérite une vidéo dédiée à ça.
Alors qu’est-ce qu’un test statistique, aussi appelé test d’hypothèses, il s’agit d’une procédure permettant de confronter deux hypothèses statistiques au sein d’une étude, et de déterminer l’hypothèse la plus probable et la moins probable.
J’vous donne un exemple dont on a parlé précédemment, on a dans le jeu de données qu’on utilise, une variable age qui indique l’âge des patients et une variable target qui indique si le patient en question est malade d’un trouble cardiovasculaire.
On s’est demandé si l’âge a un impact sur le risque d’avoir une maladie cardiovasculaire, c’est-à-dire qu’on a essayé de savoir si plus un patient est vieux, plus il a de chances d’avoir une maladie cardiaque.
Pour répondre à cette question, on avait fait une boîte à moustaches qui démontrait qu’effectivement, les patients qui ont eu une maladie cardiovasculaire ont tendances à être plus âgés que les patients qui ne sont pas malades, donc les patients qui sont sains, qui n’ont rien.
A partir de là, on pouvait s’arrêter ici et affirmer que, effectivement l’âge a un impact sur le risque d’avoir une maladie cardiovasculaire puisque c’était ce que le graphique semblait démontrer. Cependant, ce n’est pas aussi simple que cela. Tout simplement parce-que dans le jeu de données, on a un peu moins de 300 patients, donc ce n’est pas beaucoup.
Et comme on n’a pas beaucoup de patients, on est plus susceptibles de faire des erreurs d’interprétations étant donné qu’on n’a pas assez d’éléments de comparaison.
Je m’explique, il est tout à fait possible de se dire qu’on n’a pas eu de chance et que, dans le jeu de données, la plupart des patients qui sont âgés ont une maladie cardiaque, sans pour autant affirmer que c’est à cause de l’âge qu’ils ont eu cette maladie. C’est peut-être jusque parce-que quand on a constitué l’échantillon, donc les 300 patients, parmi les personnes âgées, on a pris que des personnes qui étaient malades alors qu’en réalité, il y en avait beaucoup d’autres qui n’étaient pas malades et qui étaient tout autant âgé.
C’est pour ça qu’on dit que l’échantillonnage est très important. Imaginez qu’on vous demande de faire un sondage sur le salaire moyen des personnes âgées dans un pays, et que pour répondre à cette question, vous allez uniquement dans la ville la plus riche du pays pour y interroger des personnes âgées. Votre étude ne sera en réalité pas représentative de tout le pays puisque vous avez uniquement interrogé des personnes potentiellement riches. Et donc qui ne représenteraient pas le salaire moyen des personnes âgées dans tout le pays.
C’est à ça que servent les tests statistiques, à comparer deux hypothèses pour déterminer laquelle est la vraie indépendamment de l’échantillonnage de l’étude
Pour en revenir à l’âge et au risque d’avoir une maladie cardiovasculaire, on va pouvoir faire des tests statistiques pour voir si ces deux variables sont effectivement liées ou pas, sans être affecté par l’échantillonnage de l’étude.
Dans ce cas précis, on aura alors deux hypothèses.
La première hypothèse qu’on nomme l’hypothèse nulle sera :
L’âge n’a pas d’influence significative sur le risque d’avoir une maladie cardiovasculaire
On confrontera du coup cette hypothèse avec ce que l’on appelle l’hypothèse alternative qui sera :
L’âge a une influence significative sur le risque d’avoir une maladie cardiovasculaire.
Dans le langage scientifique pour aller plus vite, on nomme la première hypothèse H0 et la seconde hypothèse H1, c’est également la notation que nous utiliserons pour aller plus vite.
On réalisera alors une procédure sur R entre la variable age et la variable target et cette procédure nous donnera un résultat qu’on nomme, encore une fois dans le langage scientifique, la p-value. Il s’agit d’une valeur qui prend la forme d’une fréquence. Et on dit que si c’est fréquence est inférieure à 0,05 (ou 5% si on parle en pourcentage), alors on privilégie l’hypothèse H1 et on rejette l’hypothèse H0.
Dans cette partie du cours, nous allons donc comparer toutes nos variables, unes par unes, avec la variable target. Et ce afin de déterminer, lesquelles influencent le risque d’avoir une maladie cardiovasculaire. Est-ce que c’est le sexe, le cholestérol, la tension artérielle etc…
Il faut savoir qu’il y a de très nombreux tests statistiques qui permettent de déterminer de nombreuses choses, dans cette partie du cours, nous allons voir les plus connus et les plus utilisés. Il faut aussi savoir qu’en fonction de si la variable est de type quantitatif ou de type qualitatif, on utilisera un test différent.
Dans tous les cas, nous verrons tout ça ensemble. Vous allez voir qu’il n’y a rien de sorcier.
Dans cette vidéo, nous allons croiser deux variables qualitatives pour avoir une idée de leur association en calculant des pourcentages avec R. On verra notamment si les hommes sont plus susceptibles de développer une maladie cardiaque que les femmes à l'aide de nos analyses avec le langage de programmation.
Est-ce que le cours vous plaît ?
Le test du Khi-Deux d'indépendance va nous permettre de déterminer si deux variables qualitatives sont liées. Autrement dit, le test nous permettra d'affirmer si une variable qualitative a une influence significative sur une autre variable qualitative.
Pour tester les variables quantitatives, nous allons d'abord calculer un certain nombre de moyennes conditionnelles pour vérifier l'existence d'une potentielle association entre deux variables quantitatives.
Le test de Shapiro-Wilk nous permet de déterminer si une variable suit une distribution normale. Il s'agit d'une étape indispensable avant de tester l'indépendance entre deux variables quantitatives. Nous expliquerons dans cette vidéo qu'est-ce qu'une distribution normale, puis comment appliquer le test de Shapiro-Wilk sur R.
Le test de Mann-Whitney nous permet de déterminer si deux variables quantitatives sont liées dans le cas où les deux variables ne suivent pas une distribution normale. Nous allons voir comment appliquer ce test sur RStudio et comment l'interpréter.
Le test de Student nous permet de déterminer si deux variables quantitatives sont liées dans le cas où les deux variables suivent une distribution normale. Nous allons voir comment appliquer ce test sur RStudio et comment l'interpréter.
Télécharger le code R du projet à ce stade de la formation.
Bonjour à toutes et à tous, bienvenue dans cette dernière partie de la formation sur R. Cette partie va se concentrer essentiellement sur la Data Science et le Machine Learning, et plus particulièrement sur la création d’un modèle de régression logistique. Il s'agit d'un algorithme de Machine Learning très utilisé en Data Science.
Cet algorithme nous permettra ensuite de réaliser des prédictions très précises sur le jeu de données.
Dans cette vidéo, nous allons procéder à une étape de prétraitement qui consiste à diviser le jeu de données en deux pour entraîner puis tester notre modèle. Le jeu de données d’entraînement (train) va nous permettre de préparer notre modèle de régression logistique afin de prédire correctement les valeurs prises par la variable cible target. Le jeu de données de test (test) va quant à lui nous permettre de tester notre modèle de Machine Learning pour déterminer si celui-ci est suffisamment pertinent pour prédire les valeurs de la variable d’intérêt. Il est indispensable de tester notre modèle sur des données différentes de celles qui ont été utilisées pour le construire pour s’assurer de la pertinence de celui-ci. En effet, un modèle peut être efficace sur les données qui ont servi à le construire, mais il peut à l’inverse, s’avérer inefficace sur des données "nouvelles". C’est pourquoi il est important de séparer le jeu de données en deux pour entraîner puis tester le modèle. Nous allons ici utiliser la librairie caTools de R.
Les jeux de données étant prêts, nous pouvons commencer à créer le modèle de régression logistique. Nous utiliserons la fonction glm de R. Il s’agit d’une fonction nous permettant d’implémenter un modèle de régression logistique sur nos données en précisant les variables explicatives, ainsi que la variable d’intérêt.
A partir des résultats de notre modèle de Machine Learning, nous allons reparamétrer notre modèle pour ne conserver que les variables les plus significatives, à savoir les variables qui ont une p-value inférieure à 5%. En effet, le modèle généré comporte certaines variables qui n’influencent pas significativement la variable cible. Nous allons donc les enlever progressivement du modèle afin d'optimiser ce dernier.
Nous allons désormais réaliser des prédictions à l’aide du modèle de Machine Learning que nous avons préparé à l'aide de la fonction predict sur R. Pour ce faire, nous allons utiliser le jeu de données de test où nous pourrons voir si le modèle est efficace, et pertinent.
La matrice de confusion est une excellente méthode pour mesurer les performances d’un modèle. Cette matrice permet de mesurer à quelle fréquence les prédictions d’un modèle sont exactes par rapport à la réalité. Les prédictions correctes et incorrectes seront plus facilement apparentes et seront réparties par classes.
Nous allons donc appliquer cette matrice de confusion à notre modèle afin de tester les prédictions de ce dernier.
On utilisera ainsi la fonction confusionMatrix de la librairie caret.
Pour conclure notre modèle de régression logistique, nous pouvons faire une comparaison des données réelles de notre jeu de données de test avec les valeurs de notre prédiction.
Maintenant que notre modèle de régression logistique a été créé, il serait intéressant de réaliser des tests pour mesurer sa qualité, notamment l’ajustement de notre modèle aux données. Le test de Hosmer et Lemeshow permet de mesurer l’adéquation du modèle de régression logistique avec les données.
Nous allons donc appliquer le test sur R à l’aide de la fonction performance_hosmer issue de la librairie performance.
La courbe ROC est un outil d’évaluation de modèles comparant le taux de vrais positifs avec le taux de faux positifs. Il s’agit d’un bon moyen visuel de mesurer la performance d’un modèle. Plus l’aire de la courbe se rapproche de 1, plus cela indique que le modèle est précis. A l’inverse, plus l’aire se rapproche de la diagonale à 45 degrés, moins le modèle est précis.
Télécharger le code R final de la formation.