Importez vos données dans R (2024)

Ouvrez vos premières données dans RStudio

Vous savez manipuler RStudio et Quarto. Vous avez donc les bases pour commencer la manipulation des données.

RStudio est l’environnement qui va vous permettre d’analyser vos données. Vous allez maintenant apprendre à charger des données dans RStudio, les modifier puis les ressortir de RStudio.

D’accord mais réellement c’est quoi, des données ?

Bonne question ! Les données sont des informations contenues dans un support. 😶

Bon, quand on a dit ça on a tout et rien dit, alors on va repartir un peu en arrière. Les premières données utilisées lors de l’apparition de l’agriculture et de l'élevage sont des données de comptage. Afin de suivre l’évolution des troupeaux sans l’existence des nombres, les bergers faisaient un nœud pour chaque tête de bétail. Lorsqu’une bête mourait, un nœud était défait, lorsqu’il y avait une naissance, un nouveau nœud était fait. Avec la sédentarisation des populations, le système se développe et permet de suivre les différents stocks de nourriture, mais aussi les familles.

Les tableaux voient le jour avec l’apparition de l’écriture (- 40 000 av. J.-C.) et encore aujourd’hui c’est la forme la plus commune des données. Beaucoup de personnes s’arrêtent à ce type de données mais c’est nier leur grande variabilité !

Dans cette seconde partie vous allez apprendre à maîtriser le cycle de vie des données :

  • Importer des données dans RStudio en utilisant l’indexation.

  • Manipuler en fonction du type de données.

  • Exporter sous différents formats.

Maîtrisez l’indexation

Pour pouvoir les importer dans votre environnement vous allez lier vos données à un nom. Il existe quelques bonnes pratiques pour bien choisir le nom et éviter les donnees , donnees_bis , donneesModifie , Donnees2Alain ...

Conseil n° 6 pour éviter les erreurs : Utiliser l’autocomplétion pour éviter les fautes de frappe.

Lorsqu’on écrit du code dans RStudio, l’autocomplétion propose la fin d’un mot, d’une fonction, d’un package à partir des premières lettres tapées. L’avantage est de voir dans la fenêtre la définition de l’objet ou un aperçu.

Identifiez les différents formats des données

Vous allez manipuler des données sous forme de tableau mais aussi web-scraper un texte (c’est-à-dire récupérer un texte sur internet) et travailler avec des images.

Vous allez aussi apprendre à passer d’un format à l’autre. N’imaginez pas recoder Midjourney, mais vous allez pouvoir transformer un tableau en graphique et tirer des informations d’une image sous la forme d’un texte.

Prêt à vous lancer sur vos premières données ?

Importez un fichier CSV dans RStudio

Dans cette seconde partie du cours, vous allez apprendre à ouvrir un fichier CSV consacré aux questions de mixité dans le groupe EDF, présent sur le site open data du gouvernement.

Le format CSV est un format de fichier texte où les données sous formes de tables sont séparées par des virgules. C’est le format de table par excellence à privilégier car nativement pris en compte par R, sans limite de lignes, contrairement à Excel, et respectant les principes FAIR.

Conseil n° 7 pour éviter les erreurs : Lisez la page d’aide avant d’utiliser une fonction pour la première fois grâce à la fonctionhelp() ou l’onglet Help.

Les pages d’aide sont globalement toutes constituées de la même manière avec le nom de la fonction en haut à gauche et le nom du package la contenant à côté entre crochets (dans la vidéo tutoriel : la page d’aide de la fonction read.csv du package {utils} ), sa description courte et ses utilisations. Ensuite viennent les définitions des arguments et enfin des exemples d’utilisation.

Vous pouvez aussi utiliser des vignettes avec la fonctionvignette() . Les vignettes sont des pages d’aide plus documentées, développées ces dernières années sur des sujets et non une seule fonction, mais pas encore généralisées à l’ensemble des packages.

D’accord, j’ai compris comment importer les données sous format CSV, mais les miennes sont sous un format XLSX, il faut que je les enregistre sous le format CSV ?

Eh bien, cela dépend :

  • Vos données sont issues d’un workflow où d’autres personnes et vous ne pouvez pas changer le format. → Importez vos données Excel grâce aux packages adaptés.

  • Le format de vos données peut facilement être modifié en CSV → Prenez dès maintenant la bonne habitude de les garder sous format CSV.

Importez un fichier Excel dans RStudio

Après avoir vu comment exploiter des données sous format CSV, vous allez pouvoir importer des données sous format propriétaire.

Pourquoi est-ce si différent d'apprendre à exploiter un fichier Excel ?

Excel est un logiciel privé très utilisé dans le traitement et l’analyse des données mais comme tout format propriétaire, il n’est pas importé facilement dans un logiciel open-source comme R. Il faut donc utiliser des packages spécifiques pour importer et exporter sous ce format. Le package présenté est {readxl}.

Bravo, vous avez importé des tables de données dans R !

Conseil n° 8 pour éviter les erreurs : Il faut lire les messages affichés dans la console.

Lorsque le code est envoyé dans la Console, des messages peuvent s’afficher. Il en existe trois sortes:

  1. Message d’informationmessage(). Très important à lire et à garder en mémoire, il peut aider à comprendre ce qui se passe dans l’environnement, ou certaines spécificités. Il ne bloque pas le code.

  2. Message d’attentionwarning() . Ce message informe qu’une action a été réalisée. Ce type de message n’arrête pas le code mais il est très important de le lire.

  3. Message d'erreurerror() . Le code est arrêté et le message vous explique où et pourquoi. Plus ou moins compréhensibles en fonction des personnes qui ont développé les fonctions, ces messages sont le premier pas pour débugger.

Dans la vidéo tutoriel ci-dessus, vous avez un message d’erreur qui vous informe qu’il ne trouve pas la fonction read.excel() . En effet, pour utiliser une fonction il faut que le package soit actif dans l’environnement, et donc il faut utiliser la fonction library() pour ouvrir le package nécessaire.

Importez des données sous format non classique

Nous l’avons vu ensemble, les données ne se limitent pas aux tableaux. Il n’est malheureusem*nt pas possible de faire un tour d’horizon exhaustif des différents formats qui existent, mais nous allons voir comment web-scraper, c’est-à-dire comment récupérer des informations sur des pages web et charger des images.

Utilisez le web-scraping

Le web-scraping consiste à aller chercher les informations contenues dans une page web pour les utiliser. Beaucoup d’outils comme ChatGPT ont été entraînés sur des données web-scrapées.

Le web-scraping est donc très intéressant pour entraîner des modèles de génération de textes, mais pas que !

Il peut vous permettre de récupérer des informations disponibles sur un site internet. Imaginons : vous travaillez sur les stéréotypes de genre et vous souhaitez récupérer les résultats des deux études menées en 2022 par Ipsos et ARESVI pour connaître le poids des normes sur les garçons en France. Cela tombe bien, les informations principales sont disponibles sur le site de la Fondation Kering sous forme de texte !

R va vous aider à récupérer les informations.

Pour cela vous allez avoir besoin du package {rvest}qu’il vous faut installer puis importer :

install.packages("rvest")library(rvest)

Il ne vous reste plus qu’à récupérer le texte de la page D’égal à égale. Comme précédemment, vous allez utiliser une fonction read , ici read_html() pour lire la page.

Au secours, c’est incompréhensible pour moi la lecture d’une page web !

Pas de panique, nous allons procéder par étapes, surtout si vous ne connaissez pas le langage HTML.

  1. Inspectez la page web sélectionnée pour comprendre dans quelle partie de la page se trouve l’information qui vous intéresse. Pour cela, faites un clic droit puis Inspectez. Vous allez vous rendre compte que la partie utile du texte est un objet ul , c’est-à-dire une liste non ordonnée souvent appelée liste à puces.

  2. Dans R, vous isolez donc les éléments ul grâce à la fonction html_elements() .

  3. Une fois les éléments d’intérêt isolés, vous récupérez le texte associé grâce à la fonction html_text() .

  4. Isolez l'élément qui vous intéresse dans la liste en ne sélectionnant que celui-ci.

stereotype_genre <- read_html("https://www.keringfoundation.org/fr/articles/d'egal-a-egale/") |>html_elements("ul") |>html_text()stereotype_genre_chiffres_cles <- stereotype_genre[2]

Le nettoyage du texte se fait dans le prochain chapitre !

Importez une image

Pour respecter certaines normes d’entreprise, il est nécessaire d’insérer le logo de l’entreprise sur chaque graphique ou rapport. Il est donc important de savoir importer une image dans R. Le package {magick} est là pour vous !

  1. Installez et chargez le package {magick} .

  2. Importez le logo d’OpenClassrooms disponible dans le sous-dossier img ou n’importe quelle autre image grâce à la fonction image_read() .

  3. Et voilà !

install.packages("magick")library(magick)logo_oc <- image_read("img/logo_oc.jpeg")logo_oc

À vous de jouer !

Importez vos données dans R (1)

Maintenant que vous avez vu comment importer des données dans R, il ne vous reste plus qu’à le faire vous-même !

Voici les grandes étapes à suivre pour cette activité :

  1. Importez une table sous format CSV :

    1. Téléchargez la table sur votre ordinateur et enregistrez-la dans le sous-dossier data_raw de votre projet.

    2. Utilisez la fonction read.csv2("data_raw/mixite-dans-le-groupe-edf.csv") pour l’importer dans R

      (ou read.csv("data_raw/mixite-dans-le-groupe-edf.csv", sep = ";") ).

  2. Importez deux tableaux sous format Excel :

    1. Téléchargez le classeur Excel des données de salaire par genre et enregistrez-le dans le sous-dossier data_raw de votre projet.

    2. Chargez le package {readxl} .

    3. Importez uniquement les données d'intérêt pour les femmes et les hommes en renommant les colonnes grâce à la fonction read_excel() du package readxl .

  3. Importez du texte depuis une page web :

    1. Inspectez la page web.

    2. Chargez le package {rvest} .

    3. Isolez les éléments d’intérêt grâce à la fonction html_elements() .

    4. Récupérez le texte associé grâce à la fonction html_text() .

    5. Ne gardez que l’élément qui vous intéresse.

  4. Importez une image :

    1. Enregistrez l’image choisie dans le sous-dossier img .

    2. Chargez le packager {magick} .

    3. Importez l’image dans R grâce à la fonction image_read() .

En résumé

  • Un objet doit être assigné à un nom pour être importé dans l'environnement de R.

  • Beaucoup d’objets peuvent être importés, généralement avec des fonctions contenant le motread et le format de l’objet.

  • La plupart des formats nécessitent l’utilisation d’un package spécifique.

  • Pour utiliser une fonction contenue dans un package, il faut que celui-ci soit installé sur l’ordinateur et chargé dans l’environnement.

  • Avant d’utiliser une fonction pour la première fois, il est recommandé de lire la page d’aide associée.

Félicitations, vous avez plusieurs objets chargés dans votre environnement R. Il ne vous reste plus qu’à les modifier !

Importez vos données dans R (2024)
Top Articles
Rosemary Bread {Macaroni Grill Copycat Recipe} - Cooking Classy
Yotam Ottolenghi’s recipe for New Year celebration tah chin | Food
Zuercher Portal Inmates Clinton Iowa
Meet Scores Online 2022
Dirty South Swag Review | BatDigest.com
Clothes Mentor Overland Park Photos
Cbs Week 10 Trade Value Chart
Ups Drop Off Newton Ks
Wow Rock Wall Locked
24 Hour Bookings Savannah
Craigslist Cars For Sale San Francisco
Wieting Funeral Home
Valeriewhitebby Footjob
Craigslist Tuscarawas Pets
Bullocks Grocery Weekly Ad
Childersburg Busted Mugshots
Zipcar Miami Airport
Craigslist Chester Sc
Ixl Spring Branch
Publix Store 1304
Covenant Funeral Service Stafford Obituaries
What tools do you recommend for emceeing?
Auto-Mataru
Erj Phone Number
The Star Beacon Obituaries
Myhr.bannerhealth.com
Tamiblasters.in
2011 Traverse Belt Diagram
Metro By T Mobile Sign In
Deerc De22 Drone Manual Pdf
Myrtle Beach, South Carolina: Abwechslungsreicher Freizeitspaß unter der Südstaaten-Sonne
Palm Coast Permits Online
Does Walmart have Affirm program? - Cooking Brush
Oklahoma Scratch Off Remaining Prizes
Hmnu Stocktwits
Wayne Carini How Tall
Shiawassee County 911 Active Events
Abingdon Avon Skyward
Kcu Sdn
Craigs List New Haven Ct
Business Banking Online | Huntington
Phrj Incarcerations
Joftens Notes Skyrim
ExtraCare Rewards at the Pharmacy – Target | CVS
Welcome to Predator Masters -- Hunting the Hunters
Math Nation Algebra 2 Practice Book Answer Key
Dollar General Penny List July 18 2023
Busted Newspaper Zapata Tx
World of Warcraft Battle for Azeroth: La Última Expansión de la Saga - EjemplosWeb
How Long Ago Was February 28 2023
O2 Fitness West Ashley Photos
Latest Posts
Article information

Author: Greg O'Connell

Last Updated:

Views: 5569

Rating: 4.1 / 5 (42 voted)

Reviews: 89% of readers found this page helpful

Author information

Name: Greg O'Connell

Birthday: 1992-01-10

Address: Suite 517 2436 Jefferey Pass, Shanitaside, UT 27519

Phone: +2614651609714

Job: Education Developer

Hobby: Cooking, Gambling, Pottery, Shooting, Baseball, Singing, Snowboarding

Introduction: My name is Greg O'Connell, I am a delightful, colorful, talented, kind, lively, modern, tender person who loves writing and wants to share my knowledge and understanding with you.