R et RStudio

Last updated on 2025-05-05 | Edit this page

Estimated time: 30 minutes

Overview

Questions

  • Que sont R et RStudio ?

Objectives

  • Décrire le principe des scripts RStudio, de la console, de l’environnement et des panneaux de visualisation.
  • Organiser les fichiers et les répertoires d’une même série d’analyses en projet R et comprendre le but du répertoire de travail.
  • Utiliser l’interface d’aide intégrée de RStudio pour rechercher des informations sur les fonctions R.
  • Montrer comment fournir suffisamment d’informations pour faciliter le dépannage par la communauté des utilisateurs R.

Cet épisode est basé sur la leçon Data Analysis and Visualisation in R for Ecologists de Data Carpentries.

Qu’est-ce que R ? Qu’est-ce que RStudio ?


Le terme R est utilisé pour désigner le langage de programmation, l’environnement de calcul statistique et le logiciel qui interprète les scripts écrits à l’aide de celui-ci.

RStudio est fréquemment utilisé pour écrire des scripts R et pour interagir avec le logiciel R 1. R doit être préalablement installé sur votre ordinateur pour que RStudio puisse fonctionner correctement.

La RStudio IDE Cheat Sheet fournit davantage d’informations que ce qui sera couvert dans cet épisode et peut être utile pour apprendre les raccourcis clavier et découvrir de nouvelles fonctionnalités.

Pourquoi apprendre R ?


R utilise peu de “clic-bouton”, ce qui est une bonne chose

La courbe d’apprentissage en R est probablement plus complexe qu’avec un autre logiciel. Par contre, les résultats des analyses effectuées ne découleront pas d’une succession de commandes en clic-bouton (que l’on risque d’oublier) mais d’une série de commandes écrites. L’énorme avantage est que si vous souhaitez refaire votre analyse parce que vous avez par exemple collecté davantage de données, vous n’aurez pas besoin de vous rappeler sur quel bouton vous avez cliqué, ni dans quel ordre, pour obtenir vos résultats ; il vous suffira de re-exécuter votre script.

Travailler avec des scripts clarifie les étapes utilisées dans vos analyses, et le code que vous écrivez peut être relu par quelqu’un d’autre qui pourrait le commenter et repérer les erreurs.

Travailler avec des scripts vous force à bien comprendre ce que vous faites. Vous aurez ainsi une meilleure compréhension des méthodes que vous utilisez.

Le code R est idéal pour la reproductibilité

La reproductibilité signifie que quelqu’un d’autre (ou vous-même!) peut obtenir les mêmes résultats à partir du même jeu de données en utilisant le même code.

R s’intègre à d’autres outils pour générer des manuscrits ou des rapports à partir de votre code. Si vous collectez davantage de données ou si vous corrigez une erreur dans votre jeu de données, les chiffres et les tests statistiques de votre rapport sont mis à jour automatiquement.

De plus en plus de revues scientifiques et d’agences de financement exigent que les analyses soient reproductibles. Savoir utiliser R sera donc un avantage.

R est interdisciplinaire et extensible

Plus de 10 000 packages 2 (paquets) peuvent être installés pour étendre les capacités de R. Les approches statistiques de nombreuses disciplines scientifiques peuvent donc être combinées, ce qui permet d’optimiser le cadre analytique nécessaire à l’analyse de vos données. Par exemple, R propose des packages pour l’analyse d’images, de données géographiques, de séries chronologiques, pour l’analyse de génétique de population et bien plus encore.

Exponential increase of the number of packages available on [CRAN](https://cran.r-project.org/), the Comprehensive R Archive Network. From the R Journal, Volume 10/2, December 2018.
Exponential increase of the number of packages available on CRAN, the Comprehensive R Archive Network. From the R Journal, Volume 10/2, December 2018.

R fonctionne quel que soit la forme et la taille des données

R fonctionne aussi bien sur des petits que sur des gros jeux de données (pouvant contenir des millions de lignes).

R est conçu pour l’analyse des données. Ce langage utilise des structures de données particulières ainsi que certains types de données qui facilitent la gestion des données, comme les données manquantes ou les variables catégorielles .

R peut se connecter à des feuilles de calcul, à des bases de données et à de nombreux autres formats de données, sur votre ordinateur ou sur le Web.

R génère des graphiques de haute qualité

Les fonctionnalités graphiques de R sont étendues. Elles permettent d’ajuster n’importe quel aspect d’une figure pour transmettre efficacement le message des données.

La communauté R est grande et accueillante

Des milliers de personnes utilisent R quotidiennement. Beaucoup d’entre elles sont prêtes à vous aider via des listes de diffusion et des sites Web tels que Stack Overflow, ou sur le . Ces larges communautés d’utilisateurs recouvrent des domaines spécialisés tels que la bioinformatique. Un des sous-ensembles de la communauté R est Bioconductor, un projet scientifique pour l’analyse et la compréhension de données biologiques . Cet atelier a d’ailleurs été développé par des membres de la communauté Bioconductor ; pour plus d’informations, veuillez consulter l’atelier complémentaire “The Bioconductor Project”.

R est non seulement gratuit, mais également open source et multiplateforme

N’importe qui peut inspecter le code source pour voir comment R fonctionne. Grâce à cette transparence, il y a moins de risques d’erreurs, et si vous (ou quelqu’un d’autre) en trouvez, vous pouvez signaler et corriger des bugs.

RStudio


Commençons par découvrir RStudio, qui est un environnement de développement intégré (IDE) permettant de travailler avec R.

Le produit open source RStudio IDE est gratuit sous la license . L’IDE RStudio est également disponible avec une licence commerciale et une assistance prioritaire par courrier électronique de Posit, Inc.

Nous utiliserons l’IDE RStudio pour écrire du code, parcourir les fichiers sur notre ordinateur, inspecter les variables que nous allons créer et visualiser les graphiques que nous allons générer. RStudio peut également être utilisé pour d’autres choses (par exemple, le contrôle de version, le développement de packages, l’écriture d’applications Shiny) que nous n’aurons pas l’occasion d’aborder pendant cet atelier.

RStudio interface screenshot. Clockwise from top left: Source, Environment/History, Files/Plots/Packages/Help/Viewer, Console.
RStudio interface screenshot. Clockwise from top left: Source, Environment/History, Files/Plots/Packages/Help/Viewer, Console.

La fenêtre RStudio est divisée en 4 “Volets” :

  • la Source de vos scripts et documents (en haut à gauche, dans la mise en page par défaut )
  • votre Environnement/Historique (en haut à droite),
  • vos Fichiers/Graphiques/Packages/Aide/Visionneuse (en bas à droite), et
  • la R Console (en bas à gauche).

L’emplacement de ces volets et leur contenu peuvent être personnalisés (voir le menu , Outils -> Options globales -> Disposition des volets).

L’un des avantages de l’utilisation de RStudio est que toutes les informations dont vous avez besoin pour écrire du code sont disponibles dans la même fenêtre. De plus, avec de nombreux raccourcis, avec les couleurs associées aux différents types de variables, et grâce à la complétion automatique RStudio facilite l’écriture de code et le rend moins sujet aux erreurs.

Mise en place


Il est recommandé de conserver l’ensemble des données, d’analyses et de textes relatifs à un même projet dans un seul et même dossier, appelé répertoire de travail. Tous les scripts de ce dossier peuvent alors utiliser des chemins relatifs qui indiquent où se trouvent les différents fichiers dans le projet (par opposition aux chemins absolus, qui pointent vers l’endroit où se trouvent les fichiers sur un ordinateur spécifique). Travailler de cette façon permet de pouvoir facilement déplacer le projet sur votre ordinateur ou de le partager avec d’autres, sans vous soucier de savoir si les scripts sous-jacents fonctionneront toujours.

RStudio fournit un ensemble d’outils via son interface “Projets”, qui non seulement crée un répertoire de travail pour vous, mais mémorise également son emplacement (vous permettant d’y accéder rapidement). Ceci permet aussi d’éventuellement conserver les paramètres personnalisés et les fichiers ouverts pour faciliter la reprise du travail après une pause. Suivez les étapes de création d’un “Projet R” pour ce tutoriel ci-dessous.

  1. Démarrez RStudio.
  2. Dans le menu « Fichier », cliquez sur « Nouveau projet ». Choisissez Nouveau répertoire, puis Nouveau projet.
  3. Entrez un nom pour ce nouveau dossier (ou “répertoire”) et choisissez un emplacement pratique pour celui-ci. Ce sera votre répertoire de travail pour cette session (ou tout le cours) (par exemple, bioc-intro).
  4. Cliquez sur « Créer un projet ».
  5. (Facultatif) Définissez les préférences sur « Jamais » pour enregistrer l’espace de travail dans RStudio.

Les préférences par défaut de RStudio fonctionnent généralement bien, mais il vaut mieux éviter d’enregistrer l’espace de travail dans .RData, surtout si vous travaillez avec des jeux de données volumineux. Pour désactiver cela, allez dans Outils –> « Options globales » et sélectionnez l’option « Jamais » pour « Enregistrer l’espace de travail dans .RData » à la sortie.

Set 'Save workspace to .RData on exit' to 'Never'
Set ‘Save workspace to .RData on exit’ to ‘Never’

Pour éviter les problèmes d’encodage des caractères entre Windows et d’autres systèmes d’exploitation, nous allons utiliser UTF-8 par défaut :

Set the default text encoding to UTF-8 to save us headache in the coming future. (Figure from the link above).
Set the default text encoding to UTF-8 to save us headache in the coming future. (Figure from the link above).

Organiser votre répertoire de travail

L’utilisation d’une structure de dossiers cohérente pour vos différents projets vous aidera à être organisés et facilitera également la recherche/le classement des éléments à l’avenir. Ce peut être particulièrement utile lorsque vous avez plusieurs projets. En général, vous pouvez créer des répertoires (dossiers) pour les scripts, données et documents.

  • data/ Utilisez ce dossier pour stocker vos données brutes et les données intermédiaires que vous pourriez avoir besoin de créer lors d’une analyse particulière. Par souci de transparence et pour pouvoir retracer l’origine et la provenance des données, vous devez toujours conserver une copie (accessible) des données brutes et effectuer le nettoyage et le prétraitement de vos données autant que possible par programmation (c’est-à-dire avec scripts, plutôt que manuellement) . Séparer les données brutes des données traitées est également une bonne idée. Par exemple, vous pourriez vouloir conserver les fichiers data/raw/tree_survey.plot1.txt et ...plot2.txt dans un dossier séparé d’un fichier data/processed/tree.survey.csv qui est, lui, un fichier processé qui a été généré par le script scripts/01.preprocess.tree_survey.R.
  • documents/ serait typiquement l’endroit où conserver les plans, les brouillons, ou d’autre types de textes.
  • scripts/ (ou src) serait l’emplacement où sauvegarder les scripts correspondant différentes analyses ou visualisations, et potentiellement un dossier séparé pour vos fonctions (nous y reviendrons plus tard).

Ces dossiers devraient être la structure de base de votre répertoire de travail, auquel vous souhaiterez peut-être ajouter des répertoires ou sous-répertoires supplémentaires en fonction des besoins de votre projet. .

Example of a working directory structure.
Example of a working directory structure.

Pour ce cours, nous aurons besoin d’un dossier data/ pour stocker nos données brutes, nous utiliserons un dossier data_output/ lorsque nous exporterons des données sous forme de fichiers CSV et nous créerons un dossier fig_output/ pour y mettre les figures que nous allons enregistrer.

Défi : créer la structure de répertoires de votre projet

Sous l’onglet “Fichiers” à droite de l’écran, cliquez sur “Nouveau dossier” et créez un dossier nommé “data” dans votre répertoire de travail nouvellement créé (par exemple, “~/bioc-intro/data”). Vous pouvez également taper dir.create("data") sur votre console R. Répétez ces opérations pour créer un dossier data_output/ et un fig_output.

Nous allons conserver le script à la racine de notre répertoire de travail car nous n’allons utiliser qu’un seul fichier et cela facilitera les choses.

Votre répertoire de travail devrait maintenant ressembler à ceci :

How it should look like at the beginning of this lesson
How it should look like at the beginning of this lesson

La gestion de projet s’applique évidemment aussi aux projets de bioinformatique 3. William Noble (@Noble:2009) propose la structure de répertoires suivante :

Les noms de répertoires sont en gros caractères et les noms de fichiers sont en caractères plus petits . Seul un sous-ensemble des fichiers est affiché ici. Notez que les dates sont formatées en <Année>-<mois>-<jour> afin qu’elles puissent être triées par ordre chronologique. Le code source src/ms-analysis.c est compilé pour créer bin/ms-analysis et est documenté dans doc/ms-analysis.html. Les fichiers README dans les répertoires de données précisent qui a téléchargé les données, à partir de quelle URL, et à quelle date . Le script results/2009-01-15/runall génère automatiquement les trois sous-répertoires split1, split2 et split3, correspondant à des validation croisées de 3 sous-ensembles. Le script bin/parse-sqt.py est appelé par le script runall .

Directory structure for a sample bioinformatics project.
Directory structure for a sample bioinformatics project.

Un répertoire de projet bien défini et bien documenté doit permettre à quelqu’un qui n’est pas familier avec le projet 4 de :

  1. comprendre en quoi consiste le projet, quelles données sont disponibles, quelles analyses ont été effectuées et quels résultats ont été produits

  2. et surtout de répéter l’analyse à nouveau - avec de nouvelles données ou en modifiant certains paramètres d’analyse .

Le répertoire de travail

Le répertoire de travail est un concept important à comprendre. C’est l’endroit à partir duquel R recherchera et enregistrera les fichiers. Lorsque vous écrivez du code pour votre projet, il doit faire référence à des fichiers en relation avec la racine de votre répertoire de travail et n’a besoin que de fichiers au sein de cette structure .

L’utilisation de projets RStudio facilite cela et garantit que votre répertoire de travail est correctement défini. Si vous avez besoin de le vérifier, vous pouvez utiliser getwd(). Si par hasard votre répertoire de travail n’est pas celui qu’il devrait être, vous pouvez le changer dans RStudio en y accédant via le navigateur de fichiers, puis en cliquant sur l’icône representant un engrenage bleu, et sélectionner Définir comme répertoire de travail. Vous pouvez également utiliser setwd("/path/to/working/directory") pour réinitialiser votre répertoire de travail. Cependant, vos scripts ne doivent pas inclure cette ligne car elle échouera sur l’ordinateur de quelqu’un d’autre.

Exemple

Le schéma ci-dessous représente le répertoire de travail bioc-intro avec les sous-répertoires data et fig_output, et 2 fichiers dans ce dernier :

bioc-intro/data/
          /fig_output/fig1.pdf
          /fig_output/fig2.png

Si on était dans le répertoire de travail, on pourrait faire référence au fichier fig1.pdf en utilisant le chemin relatif bioc-intro/fig_output/fig1.pdf ou le chemin absolu /home/user/bioc-intro/fig_output/fig1.pdf.

Si nous étions dans le répertoire data, nous utiliserions le chemin relatif ../fig_output/fig1.pdf ou le même chemin absolu /home/user/bioc-intro /fig_output/fig1.pdf.

Interagir avec R


La base de la programmation est que nous écrivons les instructions que l’ordinateur doit faire, puis nous demandons à l’ordinateur de les suivre . Nous écrivons, ou codons, des instructions dans R car c’est un langage commun que l’ordinateur et nous pouvons comprendre. Nous appelons les instructions commandes et nous demandons à l’ordinateur de les suivre en exécutant (ou en runnant) ces commandes.

Il existe deux manières principales d’interagir avec R : en utilisant la console ou en utilisant des scripts (fichiers texte brut contenant votre code). Le volet de la console (dans RStudio, le panneau inférieur gauche) est l’endroit où les commandes écrites en langage R peuvent être saisies et exécutées immédiatement par l’ordinateur. C’est également là que les résultats seront affichés pour les commandes exécutées. Vous pouvez taper des commandes directement dans la console et appuyer sur « Entrée » pour exécuter ces commandes , mais elles seront oubliées lorsque vous fermerez la session.

Parce que nous voulons que notre code et notre flux de travail soient reproductibles, il est préférable de taper les commandes souhaitées dans l’éditeur de script et d’enregistrer le script . De cette façon, il existe un enregistrement complet de ce que nous avons fait, et n’importe qui (y compris nous-même !) pourra reproduire facilement les résultats sur n’importe quel ordinateur. Notez cependant que le simple fait de taper les commandes dans le script ne les exécute pas automatiquement - elles doivent quand même être envoyées à la console pour exécution.

RStudio vous permet d’exécuter des commandes directement depuis l’éditeur de script en utilisant le raccourci Ctrl + Entrée (sur Mac, Cmd + Return fonctionnera également). La commande sur la ligne actuelle du script (indiquée par le curseur) ou toutes les commandes dans le texte qui sont sélectionnées seront envoyées à la console et exécutées lorsque vous appuyez sur Ctrl + Entrer. Vous pouvez trouver d’autres raccourcis clavier dans cette aide-mémoire RStudio sur l’IDE RStudio .

Lors de votre analyse, il est possible qu’à un moment donné vous souhaitiez vérifier le contenu d’une variable ou la structure d’un objet, sans nécessairement vouloir sauvergarder cette commande dans votre script. Vous pouvez taper ces commandes et les exécuter directement dans la console. RStudio fournit les raccourcis Ctrl + 1 et Ctrl + 2 vous permettant de passer entre le script et les volets de la console .

Si R est prêt à accepter les commandes, la console R affiche une invite ‘>’. S’il reçoit une commande (en tappant, en faisant un copié-collé ou en l’envoyant à partir de l’éditeur de script avec Ctrl + Entrer), R va essayer de l’exécuter, et lorsqu’il sera prêt, R affichera les résultats et une nouvelle invite ‘>’ apparaîtra.

Si R attend toujours que vous saisissiez plus de données parce que ce n’est pas encore terminé, la console affichera une invite « + ». Cela signifie que vous n’avez pas fini de saisir une commande complète. Ceci peut arriver s’il manque par exemple une parenthèse ou un guillemet. Lorsque cela se produit et que vous pensez avoir fini de taper votre commande, cliquez dans la fenêtre de la console et appuyez sur « Échap » ; cela annulera la commande incomplète et vous ramènera à l’invite ‘>’.

Comment en savoir plus pendant et après le cours ?


Le matériel que nous aborderons au cours de ce cours vous donnera un premier aperçu de la façon dont vous pouvez utiliser R pour analyser vos données. Cependant, vous devrez en apprendre davantage pour effectuer des opérations avancées telles que nettoyer votre jeu de données, utiliser des méthodes statistiques, ou créer de superbes graphiques5. La meilleure façon de devenir efficace et compétent en R, comme avec tout autre outil, est de l’utiliser pour répondre à de vraies questions de recherche. En tant que débutant, il peut sembler intimidant de devoir écrire un script à partir de zéro, et étant donné que de nombreuses personnes rendent leur code disponible en ligne, modifiant le code existant pour répondre à vos objectifs. cela pourrait vous permettre de démarrer plus facilement.

Cherche de l’aide


Utilisez l’interface d’aide intégrée de RStudio pour rechercher plus d’informations sur les fonctions R.

RStudio help interface.
RStudio help interface.

L’un des moyens les plus rapides d’obtenir de l’aide consiste à utiliser l’interface d’aide RStudio . Ce panneau par défaut se trouve dans le panneau inférieur droit de RStudio. Comme le montre la capture d’écran, en tapant le mot “Mean”, RStudio essaie également de donner un certain nombre de suggestions qui pourraient vous intéresser . La description s’affiche alors dans la fenêtre d’affichage .

Je connais le nom de la fonction que je souhaite utiliser, mais je ne sais pas comment l’utiliser

Si vous avez besoin d’aide à propos d’une fonction spécifique, par exemple barplot(), vous pouvez taper :

R

?barplot

Si vous avez juste besoin de vous rappeler les noms des arguments, vous pouvez utiliser :

R

args(lm)

Je veux utiliser une fonction qui fait X, il doit y avoir une fonction pour ça mais je ne sais pas laquelle…

Si vous recherchez une fonction pour effectuer une tâche particulière, vous pouvez utiliser la fonction help.search(), qui est appelée par le double point d’interrogation ??. Cependant, cela ne recherche dans les packages installés que les pages d’aide avec une correspondance avec votre demande de recherche.

R

??kruskal

Si vous ne trouvez pas ce que vous cherchez, vous pouvez utiliser le site Web rdocumentation.org qui recherche dans les fichiers d’aide de tous les packages disponibles.

Enfin, une recherche générique sur Google ou sur Internet “R <task>” vous enverra souvent soit à la documentation du package appropriée, soit à un forum utile où quelqu’un d’autre a déjà posé votre question.

Je suis coincé… Je reçois un message d’erreur que je ne comprends pas

Commencez par rechercher le message d’erreur sur Google. Cela ne fonctionne cependant pas toujours très bien car souvent, les développeurs de packages s’appuient sur la détection d’erreurs fournie par R. Vous vous retrouvez avec des messages d’erreur généraux qui pourraient ne pas être très utiles pour diagnostiquer un problème (par exemple “indice hors limites”). Si le message est très générique, vous pouvez également inclure le nom de la fonction ou du package que vous utilisez dans votre requête.

Cependant, vous devriez vérifier Stack Overflow. Recherchez en utilisant la balise [r]. La plupart des questions ont déjà reçu une réponse, mais le défi consiste à utiliser les bons mots clés dans la recherche pour trouver les réponses :

http://stackoverflow.com/questions/tagged/r

L’Introduction à R peut sembler compliquée pour les personnes ayant peu d’expérience en programmation, mais c’est une bonne base pour tenter comprendre les fondements du langage R.

La section FAQ R est également assez technique mais elle est riche et regorge d’informations utiles.

Demander de l’aide

La clé pour recevoir de l’aide de quelqu’un est qu’il comprenne rapidement votre problème. Vous devez faire en sorte qu’il soit aussi simple que possible d’identifier où pourrait se situer le problème.

Essayez d’utiliser les mots corrects pour décrire votre problème. Par exemple, un package n’est pas la même chose qu’une librairie. La plupart des gens comprendront ce que vous vouliez dire, mais d’autres ont des sentiments très forts à propos de la différence de sens. Le point clé est que cela peut rendre les choses déroutantes pour les personnes qui essaient de vous aider. Soyez aussi précis que possible lorsque vous décrivez votre problème.

Si possible, essayez de réduire ce qui ne fonctionne pas à un exemple simple et reproductible. Si vous pouvez reproduire le problème en utilisant une petite table de données au lieu de celui de 50 000 lignes et 10 000 colonnes, fournissez le petit avec la description de votre problème. Essayez aussi de généraliser ce que vous faites afin que les personnes qui ne connaissent pas grand chose à votre domaine puissent également comprendre la question. Par exemple, au lieu d’utiliser un sous-ensemble de votre ensemble de données réel, créez un petit (3 colonnes, 5 lignes) générique. Pour plus d’informations sur la façon d’écrire un exemple reproductible, voir cet article de Hadley Wickham.

Pour partager un objet avec quelqu’un d’autre, s’il est relativement petit, vous pouvez utiliser la fonction dput(). Elle produira du code R qui pourra être utilisé pour recréer exactement le même objet que celui en mémoire :

R

## iris is an example data frame that comes with R and head() is a
## function that returns the first part of the data frame
dput(head(iris))

OUTPUT

structure(list(Sepal.Length = c(5.1, 4.9, 4.7, 4.6, 5, 5.4),
    Sepal.Width = c(3.5, 3, 3.2, 3.1, 3.6, 3.9), Petal.Length = c(1.4,
    1.4, 1.3, 1.5, 1.4, 1.7), Petal.Width = c(0.2, 0.2, 0.2,
    0.2, 0.2, 0.4), Species = structure(c(1L, 1L, 1L, 1L, 1L,
    1L), levels = c("setosa", "versicolor", "virginica"), class = "factor")), row.names = c(NA,
6L), class = "data.frame")

Si l’objet est plus grand, vous pouvez fournir le fichier brut (c’est-à-dire votre fichier CSV) avec votre script jusqu’au point d’erreur (après avoir supprimé tout ce qui n’est pas pertinent pour votre problème). Alternativement, si votre question n’est pas liée à un jeu de données en particulier, vous pouvez enregistrer n’importe quel objet R dans un fichier[^export] :

R

saveRDS(iris, file="/tmp/iris.rds")

Le contenu de ce fichier ne sera cependant pas lisible directement et ne pourra pas être publié directement sur Stack Overflow. Il pourra par contre être envoyé à quelqu’un par email qui pourra le lire avec la commande readRDS() (dans ce cas-ci, le fichier téléchargé est censé se trouver dans un dossier Téléchargements du répertoire personnel de l’utilisateur) :

R

some_data <- readRDS(file="~/Downloads/iris.rds")

Dernier point, mais non des moindres, incluez toujours le résultat de la fonction sessionInfo() car elle fournit des informations essentielles concernant votre plate-forme, les versions de R et des packages que vous avez utilisé ainsi que d’autres informations qui peuvent être importantes pour comprendre votre problème.

R

sessionInfo()

OUTPUT

R version 4.5.0 (2025-04-11)
Platform: x86_64-pc-linux-gnu
Running under: Ubuntu 24.04.2 LTS

Matrix products: default
BLAS:   /usr/lib/x86_64-linux-gnu/blas/libblas.so.3.12.0
LAPACK: /usr/lib/x86_64-linux-gnu/lapack/liblapack.so.3.12.0  LAPACK version 3.12.0

locale:
 [1] LC_CTYPE=C.UTF-8       LC_NUMERIC=C           LC_TIME=C.UTF-8
 [4] LC_COLLATE=C.UTF-8     LC_MONETARY=C.UTF-8    LC_MESSAGES=C.UTF-8
 [7] LC_PAPER=C.UTF-8       LC_NAME=C              LC_ADDRESS=C
[10] LC_TELEPHONE=C         LC_MEASUREMENT=C.UTF-8 LC_IDENTIFICATION=C

time zone: Asia/Tokyo
tzcode source: system (glibc)

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base

loaded via a namespace (and not attached):
[1] compiler_4.5.0 tools_4.5.0    knitr_1.50     xfun_0.52      evaluate_1.0.3

Où demander de l’aide ?

  • La personne assise à côté de vous pendant le cours. N’hésitez pas à à comparer vos réponses, et demander de l’aide.
  • De même si un gentil collègue a plus d’expérience que vous, n’hésitez pas à le solliciter, il pourra peut-être vous aider.
  • Stack Overflow : si votre question n’a pas reçu de réponse auparavant et est bien conçue, il y a de fortes chances que vous obteniez un réponse en moins de 5 minutes. N’oubliez pas de suivre leurs directives sur la manière de poser une bonne question.
  • La liste de diffusion R-help : elle est lue par un grand nombre de personnes (dont la plupart des l’équipe principale de R), beaucoup de gens y publient des messages, mais le ton peut être assez sec, et il n’est pas toujours très accueillant pour les nouveaux utilisateurs. Si votre question est valide, vous avez de bonnes chances d’obtenir une réponse très rapidement, mais ne vous attendez pas à ce que celle-ci arrive avec formules de politesse. Ici plus qu’ailleurs, veillez à utiliser un vocabulaire précis (sinon vous pourriez obtenir une réponse signalant l’utilisation de mots incorrects plutôt que la réponse attendue). Vous aurez également plus de succès si votre question concerne une fonction de base plutôt qu’un package spécifique.
  • Si votre question concerne un package spécifique, vérifiez s’il existe une liste de diffusion dédiée à celui-ci. Habituellement, il est inclus dans le fichier DESCRIPTION du package et est accessible en utilisant packageDescription("name-of-package"). Vous pouvez également essayer d’envoyer un e-mail directement à l’auteur du package ou d’ouvrir un ticket sur le référentiel de code (par exemple, GitHub).
  • Il existe également quelques listes de diffusion thématiques (Système d’information géographique SIG, phylogénétique, etc…), la liste complète se trouve ici.

Autres ressources

  • Le Guide de publication pour les listes de diffusion R.

  • Comment demander de l’aide R

    directives utiles.

  • Ce billet de blog de Jon Skeet contient des conseils relativement complets sur la façon de poser des questions liées à la programmation.

  • Le package reprex est très utile pour créer des exemples reproductibles lorsque vous demandez de l’aide. Le lien « Comment poser des questions pour qu’elles obtiennent de réponses » de la communauté rOpenSci (lien Github et enregistrement vidéo ) comprend une présentation du package reprex et de sa philosophie.

Packages R


Chargement des paquets

Comme nous l’avons vu plus haut, les packages R jouent un rôle essentiel dans R. Pour bénéficier des fonctionnalités d’un package, il faut qu’il soit préalablement installé et chargé. Cela se fait avec la fonction library(). Ci-dessous, nous chargeons ggplot2.

R

library("ggplot2")

Installation des packages

The Comprehensive R Archive Network (CRAN) heberge de nombreux packages. Ceux qui sont disponibles sur CRAN peuvent être installés avec la fonction install.packages(). Ci-dessous, nous installons par exemple le package dplyr que nous découvrirons plus tard.

R

install.packages("dplyr")

Cette commande installera le package dplyr ainsi que toutes ses dépendances, c’est à dire tous les packages sur lesquels il s’appuie pour fonctionner.

Un autre source majeure de packages R est gérée par Bioconductor. Packages Bioconductor sont gérés et installés à l’aide d’un package dédié, à savoir BiocManager, qui peut être installé à partir de CRAN avec

R

install.packages("BiocManager")

Des packages spécifiques tels que SummarizedExperiment (nous l’utiliserons plus tard), DESeq2 (pour l’analyse RNA-Seq) et tout autre package Bioconductor ou CRAN peuvent ensuite être installés avec BiocManager::install.

R

BiocManager::install("SummarizedExperiment")
BiocManager::install("DESeq2")

Par défaut, BiocManager::install()examinera également tous vos packages installés et vérifiera si des versions plus récentes sont disponibles. S’il y en a, il vous les montrera et vous demandera si vous souhaitez « Mettre à jour tout/certains/aucun ? . Bien que vous deviez vous efforcer de disposer des dernières versions des packages, en pratique, nous vous recommandons de ne les mettre à jour que lors d’une nouvelle session R avant le chargement des packages.

Key Points

  • Commencez à utiliser R et RStudio

  1. Au lieu d’utiliser R directement en ligne de commande à partir de la console . Il existe d’autres logiciels d’interface avec R, mais RStudio est particulièrement bien adapté aux débutants tout en proposant de nombreuses fonctionnalités très avancées.↩︎

  2. Ce sont des modules complémentaires qui confèrent à R de nouvelles fonctionnalités, telles que l’analyse de données bioinformatiques.↩︎

  3. Dans ce cours, nous considérons la bioinformatique comme une science des données appliquée aux données biologiques ou bio-médicales.↩︎

  4. Cette personne pourrait être, et sera très probablement vous-même, quelques mois ou années après que les analyses aient été effectuées.↩︎

  5. Nous présenterons ici la plupart d’entre eux (sauf les statistiques), mais nous ne parviendrons à explorer qu’une infime partie de ce qu’il est possible de faire avec R.↩︎