Importez vos données dans R (2024)

Ouvrez vos premières données dans RStudio

Vous savez manipuler RStudio et Quarto. Vous avez donc les bases pour commencer la manipulation des données.

RStudio est l’environnement qui va vous permettre d’analyser vos données. Vous allez maintenant apprendre à charger des données dans RStudio, les modifier puis les ressortir de RStudio.

D’accord mais réellement c’est quoi, des données ?

Bonne question ! Les données sont des informations contenues dans un support. 😶

Bon, quand on a dit ça on a tout et rien dit, alors on va repartir un peu en arrière. Les premières données utilisées lors de l’apparition de l’agriculture et de l'élevage sont des données de comptage. Afin de suivre l’évolution des troupeaux sans l’existence des nombres, les bergers faisaient un nœud pour chaque tête de bétail. Lorsqu’une bête mourait, un nœud était défait, lorsqu’il y avait une naissance, un nouveau nœud était fait. Avec la sédentarisation des populations, le système se développe et permet de suivre les différents stocks de nourriture, mais aussi les familles.

Les tableaux voient le jour avec l’apparition de l’écriture (- 40 000 av. J.-C.) et encore aujourd’hui c’est la forme la plus commune des données. Beaucoup de personnes s’arrêtent à ce type de données mais c’est nier leur grande variabilité !

Dans cette seconde partie vous allez apprendre à maîtriser le cycle de vie des données :

  • Importer des données dans RStudio en utilisant l’indexation.

  • Manipuler en fonction du type de données.

  • Exporter sous différents formats.

Maîtrisez l’indexation

Pour pouvoir les importer dans votre environnement vous allez lier vos données à un nom. Il existe quelques bonnes pratiques pour bien choisir le nom et éviter les donnees , donnees_bis , donneesModifie , Donnees2Alain ...

Conseil n° 6 pour éviter les erreurs : Utiliser l’autocomplétion pour éviter les fautes de frappe.

Lorsqu’on écrit du code dans RStudio, l’autocomplétion propose la fin d’un mot, d’une fonction, d’un package à partir des premières lettres tapées. L’avantage est de voir dans la fenêtre la définition de l’objet ou un aperçu.

Identifiez les différents formats des données

Vous allez manipuler des données sous forme de tableau mais aussi web-scraper un texte (c’est-à-dire récupérer un texte sur internet) et travailler avec des images.

Vous allez aussi apprendre à passer d’un format à l’autre. N’imaginez pas recoder Midjourney, mais vous allez pouvoir transformer un tableau en graphique et tirer des informations d’une image sous la forme d’un texte.

Prêt à vous lancer sur vos premières données ?

Importez un fichier CSV dans RStudio

Dans cette seconde partie du cours, vous allez apprendre à ouvrir un fichier CSV consacré aux questions de mixité dans le groupe EDF, présent sur le site open data du gouvernement.

Le format CSV est un format de fichier texte où les données sous formes de tables sont séparées par des virgules. C’est le format de table par excellence à privilégier car nativement pris en compte par R, sans limite de lignes, contrairement à Excel, et respectant les principes FAIR.

Conseil n° 7 pour éviter les erreurs : Lisez la page d’aide avant d’utiliser une fonction pour la première fois grâce à la fonctionhelp() ou l’onglet Help.

Les pages d’aide sont globalement toutes constituées de la même manière avec le nom de la fonction en haut à gauche et le nom du package la contenant à côté entre crochets (dans la vidéo tutoriel : la page d’aide de la fonction read.csv du package {utils} ), sa description courte et ses utilisations. Ensuite viennent les définitions des arguments et enfin des exemples d’utilisation.

Vous pouvez aussi utiliser des vignettes avec la fonctionvignette() . Les vignettes sont des pages d’aide plus documentées, développées ces dernières années sur des sujets et non une seule fonction, mais pas encore généralisées à l’ensemble des packages.

D’accord, j’ai compris comment importer les données sous format CSV, mais les miennes sont sous un format XLSX, il faut que je les enregistre sous le format CSV ?

Eh bien, cela dépend :

  • Vos données sont issues d’un workflow où d’autres personnes et vous ne pouvez pas changer le format. → Importez vos données Excel grâce aux packages adaptés.

  • Le format de vos données peut facilement être modifié en CSV → Prenez dès maintenant la bonne habitude de les garder sous format CSV.

Importez un fichier Excel dans RStudio

Après avoir vu comment exploiter des données sous format CSV, vous allez pouvoir importer des données sous format propriétaire.

Pourquoi est-ce si différent d'apprendre à exploiter un fichier Excel ?

Excel est un logiciel privé très utilisé dans le traitement et l’analyse des données mais comme tout format propriétaire, il n’est pas importé facilement dans un logiciel open-source comme R. Il faut donc utiliser des packages spécifiques pour importer et exporter sous ce format. Le package présenté est {readxl}.

Bravo, vous avez importé des tables de données dans R !

Conseil n° 8 pour éviter les erreurs : Il faut lire les messages affichés dans la console.

Lorsque le code est envoyé dans la Console, des messages peuvent s’afficher. Il en existe trois sortes:

  1. Message d’informationmessage(). Très important à lire et à garder en mémoire, il peut aider à comprendre ce qui se passe dans l’environnement, ou certaines spécificités. Il ne bloque pas le code.

  2. Message d’attentionwarning() . Ce message informe qu’une action a été réalisée. Ce type de message n’arrête pas le code mais il est très important de le lire.

  3. Message d'erreurerror() . Le code est arrêté et le message vous explique où et pourquoi. Plus ou moins compréhensibles en fonction des personnes qui ont développé les fonctions, ces messages sont le premier pas pour débugger.

Dans la vidéo tutoriel ci-dessus, vous avez un message d’erreur qui vous informe qu’il ne trouve pas la fonction read.excel() . En effet, pour utiliser une fonction il faut que le package soit actif dans l’environnement, et donc il faut utiliser la fonction library() pour ouvrir le package nécessaire.

Importez des données sous format non classique

Nous l’avons vu ensemble, les données ne se limitent pas aux tableaux. Il n’est malheureusem*nt pas possible de faire un tour d’horizon exhaustif des différents formats qui existent, mais nous allons voir comment web-scraper, c’est-à-dire comment récupérer des informations sur des pages web et charger des images.

Utilisez le web-scraping

Le web-scraping consiste à aller chercher les informations contenues dans une page web pour les utiliser. Beaucoup d’outils comme ChatGPT ont été entraînés sur des données web-scrapées.

Le web-scraping est donc très intéressant pour entraîner des modèles de génération de textes, mais pas que !

Il peut vous permettre de récupérer des informations disponibles sur un site internet. Imaginons : vous travaillez sur les stéréotypes de genre et vous souhaitez récupérer les résultats des deux études menées en 2022 par Ipsos et ARESVI pour connaître le poids des normes sur les garçons en France. Cela tombe bien, les informations principales sont disponibles sur le site de la Fondation Kering sous forme de texte !

R va vous aider à récupérer les informations.

Pour cela vous allez avoir besoin du package {rvest}qu’il vous faut installer puis importer :

install.packages("rvest")library(rvest)

Il ne vous reste plus qu’à récupérer le texte de la page D’égal à égale. Comme précédemment, vous allez utiliser une fonction read , ici read_html() pour lire la page.

Au secours, c’est incompréhensible pour moi la lecture d’une page web !

Pas de panique, nous allons procéder par étapes, surtout si vous ne connaissez pas le langage HTML.

  1. Inspectez la page web sélectionnée pour comprendre dans quelle partie de la page se trouve l’information qui vous intéresse. Pour cela, faites un clic droit puis Inspectez. Vous allez vous rendre compte que la partie utile du texte est un objet ul , c’est-à-dire une liste non ordonnée souvent appelée liste à puces.

  2. Dans R, vous isolez donc les éléments ul grâce à la fonction html_elements() .

  3. Une fois les éléments d’intérêt isolés, vous récupérez le texte associé grâce à la fonction html_text() .

  4. Isolez l'élément qui vous intéresse dans la liste en ne sélectionnant que celui-ci.

stereotype_genre <- read_html("https://www.keringfoundation.org/fr/articles/d'egal-a-egale/") |>html_elements("ul") |>html_text()stereotype_genre_chiffres_cles <- stereotype_genre[2]

Le nettoyage du texte se fait dans le prochain chapitre !

Importez une image

Pour respecter certaines normes d’entreprise, il est nécessaire d’insérer le logo de l’entreprise sur chaque graphique ou rapport. Il est donc important de savoir importer une image dans R. Le package {magick} est là pour vous !

  1. Installez et chargez le package {magick} .

  2. Importez le logo d’OpenClassrooms disponible dans le sous-dossier img ou n’importe quelle autre image grâce à la fonction image_read() .

  3. Et voilà !

install.packages("magick")library(magick)logo_oc <- image_read("img/logo_oc.jpeg")logo_oc

À vous de jouer !

Importez vos données dans R (1)

Maintenant que vous avez vu comment importer des données dans R, il ne vous reste plus qu’à le faire vous-même !

Voici les grandes étapes à suivre pour cette activité :

  1. Importez une table sous format CSV :

    1. Téléchargez la table sur votre ordinateur et enregistrez-la dans le sous-dossier data_raw de votre projet.

    2. Utilisez la fonction read.csv2("data_raw/mixite-dans-le-groupe-edf.csv") pour l’importer dans R

      (ou read.csv("data_raw/mixite-dans-le-groupe-edf.csv", sep = ";") ).

  2. Importez deux tableaux sous format Excel :

    1. Téléchargez le classeur Excel des données de salaire par genre et enregistrez-le dans le sous-dossier data_raw de votre projet.

    2. Chargez le package {readxl} .

    3. Importez uniquement les données d'intérêt pour les femmes et les hommes en renommant les colonnes grâce à la fonction read_excel() du package readxl .

  3. Importez du texte depuis une page web :

    1. Inspectez la page web.

    2. Chargez le package {rvest} .

    3. Isolez les éléments d’intérêt grâce à la fonction html_elements() .

    4. Récupérez le texte associé grâce à la fonction html_text() .

    5. Ne gardez que l’élément qui vous intéresse.

  4. Importez une image :

    1. Enregistrez l’image choisie dans le sous-dossier img .

    2. Chargez le packager {magick} .

    3. Importez l’image dans R grâce à la fonction image_read() .

En résumé

  • Un objet doit être assigné à un nom pour être importé dans l'environnement de R.

  • Beaucoup d’objets peuvent être importés, généralement avec des fonctions contenant le motread et le format de l’objet.

  • La plupart des formats nécessitent l’utilisation d’un package spécifique.

  • Pour utiliser une fonction contenue dans un package, il faut que celui-ci soit installé sur l’ordinateur et chargé dans l’environnement.

  • Avant d’utiliser une fonction pour la première fois, il est recommandé de lire la page d’aide associée.

Félicitations, vous avez plusieurs objets chargés dans votre environnement R. Il ne vous reste plus qu’à les modifier !

Importez vos données dans R (2024)
Top Articles
How Bad Is It Really to Take Pepto-Bismol Every Day? | Livestrong.com
Firstleaf Review - Tasting Wine
No Hard Feelings (2023) Tickets & Showtimes
Fat Hog Prices Today
Polyhaven Hdri
Ub Civil Engineering Flowsheet
Chuckwagon racing 101: why it's OK to ask what a wheeler is | CBC News
Evita Role Wsj Crossword Clue
Vardis Olive Garden (Georgioupolis, Kreta) ✈️ inkl. Flug buchen
‘Accused: Guilty Or Innocent?’: A&E Delivering Up-Close Look At Lives Of Those Accused Of Brutal Crimes
Cooktopcove Com
Jackson Stevens Global
Money blog: Domino's withdraws popular dips; 'we got our dream £30k kitchen for £1,000'
Red Devil 9664D Snowblower Manual
Bing Chilling Words Romanized
Craigslist Pet Phoenix
Quadcitiesdaily
Beverage Lyons Funeral Home Obituaries
Iu Spring Break 2024
Aerocareusa Hmebillpay Com
Imouto Wa Gal Kawaii - Episode 2
What Are The Symptoms Of A Bad Solenoid Pack E4od?
Wsbtv Fish And Game Report
Greensboro sit-in (1960) | History, Summary, Impact, & Facts
Intel K vs KF vs F CPUs: What's the Difference?
Craigslist Northern Minnesota
Encore Atlanta Cheer Competition
Vadoc Gtlvisitme App
Calvin Coolidge: Life in Brief | Miller Center
Ringcentral Background
Ucm Black Board
Grand Teton Pellet Stove Control Board
Urban Blight Crossword Clue
Nail Salon Open On Monday Near Me
Deleted app while troubleshooting recent outage, can I get my devices back?
Are you ready for some football? Zag Alum Justin Lange Forges Career in NFL
Chuze Fitness La Verne Reviews
Philadelphia Inquirer Obituaries This Week
WorldAccount | Data Protection
Fetus Munchers 1 & 2
Vons Credit Union Routing Number
At Home Hourly Pay
814-747-6702
National Weather Service Richmond Va
Greg Steube Height
Victoria Vesce Playboy
Willkommen an der Uni Würzburg | WueStart
Conan Exiles Colored Crystal
Used Sawmill For Sale - Craigslist Near Tennessee
Madden 23 Can't Hire Offensive Coordinator
antelope valley for sale "lancaster ca" - craigslist
Laurel Hubbard’s Olympic dream dies under the world’s gaze
Latest Posts
Article information

Author: Greg O'Connell

Last Updated:

Views: 5569

Rating: 4.1 / 5 (42 voted)

Reviews: 89% of readers found this page helpful

Author information

Name: Greg O'Connell

Birthday: 1992-01-10

Address: Suite 517 2436 Jefferey Pass, Shanitaside, UT 27519

Phone: +2614651609714

Job: Education Developer

Hobby: Cooking, Gambling, Pottery, Shooting, Baseball, Singing, Snowboarding

Introduction: My name is Greg O'Connell, I am a delightful, colorful, talented, kind, lively, modern, tender person who loves writing and wants to share my knowledge and understanding with you.