Ouvrez vos premières données dans RStudio
Vous savez manipuler RStudio et Quarto. Vous avez donc les bases pour commencer la manipulation des données.
RStudio est l’environnement qui va vous permettre d’analyser vos données. Vous allez maintenant apprendre à charger des données dans RStudio, les modifier puis les ressortir de RStudio.
D’accord mais réellement c’est quoi, des données ?
Bonne question ! Les données sont des informations contenues dans un support. 😶
Bon, quand on a dit ça on a tout et rien dit, alors on va repartir un peu en arrière. Les premières données utilisées lors de l’apparition de l’agriculture et de l'élevage sont des données de comptage. Afin de suivre l’évolution des troupeaux sans l’existence des nombres, les bergers faisaient un nœud pour chaque tête de bétail. Lorsqu’une bête mourait, un nœud était défait, lorsqu’il y avait une naissance, un nouveau nœud était fait. Avec la sédentarisation des populations, le système se développe et permet de suivre les différents stocks de nourriture, mais aussi les familles.
Les tableaux voient le jour avec l’apparition de l’écriture (- 40 000 av. J.-C.) et encore aujourd’hui c’est la forme la plus commune des données. Beaucoup de personnes s’arrêtent à ce type de données mais c’est nier leur grande variabilité !
Dans cette seconde partie vous allez apprendre à maîtriser le cycle de vie des données :
Importer des données dans RStudio en utilisant l’indexation.
Manipuler en fonction du type de données.
Exporter sous différents formats.
Maîtrisez l’indexation
Pour pouvoir les importer dans votre environnement vous allez lier vos données à un nom. Il existe quelques bonnes pratiques pour bien choisir le nom et éviter les donnees
, donnees_bis
, donneesModifie
, Donnees2Alain
...
Conseil n° 6 pour éviter les erreurs : Utiliser l’autocomplétion pour éviter les fautes de frappe.
Lorsqu’on écrit du code dans RStudio, l’autocomplétion propose la fin d’un mot, d’une fonction, d’un package à partir des premières lettres tapées. L’avantage est de voir dans la fenêtre la définition de l’objet ou un aperçu.
Identifiez les différents formats des données
Vous allez manipuler des données sous forme de tableau mais aussi web-scraper un texte (c’est-à-dire récupérer un texte sur internet) et travailler avec des images.
Vous allez aussi apprendre à passer d’un format à l’autre. N’imaginez pas recoder Midjourney, mais vous allez pouvoir transformer un tableau en graphique et tirer des informations d’une image sous la forme d’un texte.
Prêt à vous lancer sur vos premières données ?
Importez un fichier CSV dans RStudio
Dans cette seconde partie du cours, vous allez apprendre à ouvrir un fichier CSV consacré aux questions de mixité dans le groupe EDF, présent sur le site open data du gouvernement.
Le format CSV est un format de fichier texte où les données sous formes de tables sont séparées par des virgules. C’est le format de table par excellence à privilégier car nativement pris en compte par R, sans limite de lignes, contrairement à Excel, et respectant les principes FAIR.
Conseil n° 7 pour éviter les erreurs : Lisez la page d’aide avant d’utiliser une fonction pour la première fois grâce à la fonction
help()
ou l’onglet Help.Les pages d’aide sont globalement toutes constituées de la même manière avec le nom de la fonction en haut à gauche et le nom du package la contenant à côté entre crochets (dans la vidéo tutoriel : la page d’aide de la fonction
read.csv
du package{utils}
), sa description courte et ses utilisations. Ensuite viennent les définitions des arguments et enfin des exemples d’utilisation.See AlsoTrump Isn’t the Only One H.R. McMaster Takes to Task in His New BookR pour les débutants.Introduction au langage R et à RStudioTutorial: Getting Started with R and RStudio – DataquestVous pouvez aussi utiliser des vignettes avec la fonction
vignette()
. Les vignettes sont des pages d’aide plus documentées, développées ces dernières années sur des sujets et non une seule fonction, mais pas encore généralisées à l’ensemble des packages.
D’accord, j’ai compris comment importer les données sous format CSV, mais les miennes sont sous un format XLSX, il faut que je les enregistre sous le format CSV ?
Eh bien, cela dépend :
Vos données sont issues d’un workflow où d’autres personnes et vous ne pouvez pas changer le format. → Importez vos données Excel grâce aux packages adaptés.
Le format de vos données peut facilement être modifié en CSV → Prenez dès maintenant la bonne habitude de les garder sous format CSV.
Importez un fichier Excel dans RStudio
Après avoir vu comment exploiter des données sous format CSV, vous allez pouvoir importer des données sous format propriétaire.
Pourquoi est-ce si différent d'apprendre à exploiter un fichier Excel ?
Excel est un logiciel privé très utilisé dans le traitement et l’analyse des données mais comme tout format propriétaire, il n’est pas importé facilement dans un logiciel open-source comme R. Il faut donc utiliser des packages spécifiques pour importer et exporter sous ce format. Le package présenté est {readxl}
.
Bravo, vous avez importé des tables de données dans R !
Conseil n° 8 pour éviter les erreurs : Il faut lire les messages affichés dans la console.
Lorsque le code est envoyé dans la Console, des messages peuvent s’afficher. Il en existe trois sortes:
Message d’information
message()
. Très important à lire et à garder en mémoire, il peut aider à comprendre ce qui se passe dans l’environnement, ou certaines spécificités. Il ne bloque pas le code.Message d’attention
warning()
. Ce message informe qu’une action a été réalisée. Ce type de message n’arrête pas le code mais il est très important de le lire.Message d'erreur
error()
. Le code est arrêté et le message vous explique où et pourquoi. Plus ou moins compréhensibles en fonction des personnes qui ont développé les fonctions, ces messages sont le premier pas pour débugger.Dans la vidéo tutoriel ci-dessus, vous avez un message d’erreur qui vous informe qu’il ne trouve pas la fonction
read.excel()
. En effet, pour utiliser une fonction il faut que le package soit actif dans l’environnement, et donc il faut utiliser la fonctionlibrary()
pour ouvrir le package nécessaire.
Importez des données sous format non classique
Nous l’avons vu ensemble, les données ne se limitent pas aux tableaux. Il n’est malheureusem*nt pas possible de faire un tour d’horizon exhaustif des différents formats qui existent, mais nous allons voir comment web-scraper, c’est-à-dire comment récupérer des informations sur des pages web et charger des images.
Utilisez le web-scraping
Le web-scraping consiste à aller chercher les informations contenues dans une page web pour les utiliser. Beaucoup d’outils comme ChatGPT ont été entraînés sur des données web-scrapées.
Le web-scraping est donc très intéressant pour entraîner des modèles de génération de textes, mais pas que !
Il peut vous permettre de récupérer des informations disponibles sur un site internet. Imaginons : vous travaillez sur les stéréotypes de genre et vous souhaitez récupérer les résultats des deux études menées en 2022 par Ipsos et ARESVI pour connaître le poids des normes sur les garçons en France. Cela tombe bien, les informations principales sont disponibles sur le site de la Fondation Kering sous forme de texte !
R va vous aider à récupérer les informations.
Pour cela vous allez avoir besoin du package {rvest}
qu’il vous faut installer puis importer :
install.packages("rvest")library(rvest)
Il ne vous reste plus qu’à récupérer le texte de la page D’égal à égale. Comme précédemment, vous allez utiliser une fonction read
, ici read_html()
pour lire la page.
Au secours, c’est incompréhensible pour moi la lecture d’une page web !
Pas de panique, nous allons procéder par étapes, surtout si vous ne connaissez pas le langage HTML.
Inspectez la page web sélectionnée pour comprendre dans quelle partie de la page se trouve l’information qui vous intéresse. Pour cela, faites un clic droit puis Inspectez. Vous allez vous rendre compte que la partie utile du texte est un objet
ul
, c’est-à-dire une liste non ordonnée souvent appelée liste à puces.Dans R, vous isolez donc les éléments
ul
grâce à la fonctionhtml_elements()
.Une fois les éléments d’intérêt isolés, vous récupérez le texte associé grâce à la fonction
html_text()
.Isolez l'élément qui vous intéresse dans la liste en ne sélectionnant que celui-ci.
stereotype_genre <- read_html("https://www.keringfoundation.org/fr/articles/d'egal-a-egale/") |>html_elements("ul") |>html_text()stereotype_genre_chiffres_cles <- stereotype_genre[2]
Le nettoyage du texte se fait dans le prochain chapitre !
Importez une image
Pour respecter certaines normes d’entreprise, il est nécessaire d’insérer le logo de l’entreprise sur chaque graphique ou rapport. Il est donc important de savoir importer une image dans R. Le package {magick}
est là pour vous !
Installez et chargez le package
{magick}
.Importez le logo d’OpenClassrooms disponible dans le sous-dossier
img
ou n’importe quelle autre image grâce à la fonctionimage_read()
.Et voilà !
install.packages("magick")library(magick)logo_oc <- image_read("img/logo_oc.jpeg")logo_oc
À vous de jouer !
Maintenant que vous avez vu comment importer des données dans R, il ne vous reste plus qu’à le faire vous-même !
Voici les grandes étapes à suivre pour cette activité :
Importez une table sous format CSV :
Téléchargez la table sur votre ordinateur et enregistrez-la dans le sous-dossier
data_raw
de votre projet.Utilisez la fonction
read.csv2("data_raw/mixite-dans-le-groupe-edf.csv")
pour l’importer dans R(ou
read.csv("data_raw/mixite-dans-le-groupe-edf.csv", sep = ";")
).
Importez deux tableaux sous format Excel :
Téléchargez le classeur Excel des données de salaire par genre et enregistrez-le dans le sous-dossier
data_raw
de votre projet.Chargez le package
{readxl}
.Importez uniquement les données d'intérêt pour les femmes et les hommes en renommant les colonnes grâce à la fonction
read_excel()
du packagereadxl
.
Importez du texte depuis une page web :
Inspectez la page web.
Chargez le package
{rvest}
.Isolez les éléments d’intérêt grâce à la fonction
html_elements()
.Récupérez le texte associé grâce à la fonction
html_text()
.Ne gardez que l’élément qui vous intéresse.
Importez une image :
Enregistrez l’image choisie dans le sous-dossier
img
.Chargez le packager
{magick}
.Importez l’image dans R grâce à la fonction
image_read()
.
En résumé
Un objet doit être assigné à un nom pour être importé dans l'environnement de R.
Beaucoup d’objets peuvent être importés, généralement avec des fonctions contenant le mot
read
et le format de l’objet.La plupart des formats nécessitent l’utilisation d’un package spécifique.
Pour utiliser une fonction contenue dans un package, il faut que celui-ci soit installé sur l’ordinateur et chargé dans l’environnement.
Avant d’utiliser une fonction pour la première fois, il est recommandé de lire la page d’aide associée.
Félicitations, vous avez plusieurs objets chargés dans votre environnement R. Il ne vous reste plus qu’à les modifier !