Paradis rdebuts fr

J'ai fait le choix d'insister pour comprendre le fonctionnement de R, évidemment avec l'intention de l'utiliser au niveau débutant plutôt qu'expert. Alors que les logiciels classiques afficheront directement les résultats d'une analyse, avec R ces résultats sont stockés dans un "objet", de sorte qu'une analyse peut être effectuée sans qu'aucun résultat r ne soit affiché.

Comment R travaille

Les résultats étant eux-mêmes des objets, ils peuvent être considérés comme des données et analysés à leur tour. Les fichiers de données peuvent être lus à partir du disque sur l'ordinateur local ou à partir d'un serveur distant via Internet.

Cr´eer, lister et effacer les objets en m´emoire

Vous devez également savoir que R est sensible à la casse pour les noms d'objets, ce qui signifie que x et X peuvent être utilisés pour nommer des objets distincts (même sous Windows). La fonction ls affiche une simple liste d'objets en mémoire, c'est-à-dire seuls les noms d'objets sont affichés.

L’aide en ligne

Le mode est le type d'éléments d'un objet ; il en existe quatre principaux : numérique, caractère, complexe7 et logique (FALSE ou TRUE). Notez que les éléments d'un tableau ou d'une matrice sont tous du même mode.

Lire des donn´ees dans un fichier

Une trame de données est composée d'un ou plusieurs vecteurs et/ou facteurs qui ont tous la même longueur, mais peuvent avoir des modes différents. Si les données lues ne correspondent pas au(x) mode(s) attendu(s) (par défaut ou spécifié par quoi), un message d'erreur est renvoyé.

Enregistrer les donn´ees

Générer des données

Séquences régulières

Deux options peuvent être utilisées : length pour spécifier le nombre de données produites, et labels pour spécifier les noms des niveaux du facteur. 1] Masculin Masculin Masculin Masculin [7] Féminin Féminin Féminin Féminin Féminin Niveaux : Masculin Féminin.

S´equences al´eatoires

Manipuler les objets

Cr´eation d’objets

Enfin, notez que les séries de données ont un attribut dim de la même manière que les tableaux. Une liste est créée de la même manière qu'une série de données avec la fonction liste.

Tableau de donn´ ees. On a vu qu’un tableau de donn´ees est cr´e´e de fa¸con implicite par la fonction read.table ; on peut ´egalement cr´eer un ta-bleau de donn´ees avec la fonction data.frame

Conversion d’objets

Il existe des fonctions pour convertir les types d'objets (as.matrix,as.ts, as.data.frame, as.expression,. Une situation courante est la conversion de facteur en vecteur numérique. Pour convertir un facteur de mode numérique où conserver les niveaux spécifiés, commencez par convertir en caractère puis en numérique.

Cette procédure est très utile si, dans un fichier, une variable numérique contient (pour une raison quelconque) également des valeurs non numériques.

Les op´erateurs

Cette dernière fonction tient compte de l'approximation des calculs lors de la comparaison de valeurs numériques.

Acc´eder aux valeurs d’un objet : le syst`eme d’indexation 28

Ce système d'indexation est facilement généralisable pour les tableaux, on aura alors autant d'indices que le tableau a de dimensions (par exemple pour un tableau à trois dimensions : x[i, j, k], x[ , 3],x[ , 3 , déposer = FAUX], etc.). Il peut être utile de se rappeler que l'indexation se fait avec des crochets et que les crochets sont réservés aux arguments de fonction. Pour les vecteurs, les matrices et les tableaux, il est possible d'accéder aux valeurs de ces éléments en utilisant une expression de comparaison comme index.

Pour les tableaux et les tables de données, les noms de colonne et les noms de ligne sont les étiquettes de ligne et de colonne.

L’´editeur de donn´ees

Si les éléments d'un objet ont des noms, ils peuvent être extraits en les utilisant comme index. Ce système fonctionne aussi avec une liste si les éléments ont des noms. Pour extraire un vecteur ou un facteur d'une table de données, on utilise l'opérateur $(ex. DF$x).

Les détails d'utilisation de cet éditeur de données dépendent du système d'exploitation.

Calcul arithm´etique et fonctions simples

Ce résultat est affiché à l'écran par défaut, mais, comme la plupart des fonctions, peut être affecté à un objet. Les fonctions disponibles dans R pour la manipulation de données sont trop nombreuses pour être énumérées ici. On y trouve toutes les fonctions mathématiques de base (log, exp, log10, log2, sin, cos, tan, asin, acos, atan, abs, sqrt, . .), les fonctions spéciales (gamma, digamma, beta, besselI, . .) , ainsi que diverses fonctions utiles dans les statistiques.

Ces fonctions renvoient une valeur simple (c'est-à-dire un vecteur de longueur 1), sauf pour range qui renvoie un vecteur de longueur 2, et var, covet cor qui peut renvoyer une matrice.

Calcul matriciel

La transposition matricielle est effectuée avec la fonction t ; cette fonction fonctionne également avec des données de tableau. La fonction diag permet d'extraire, de modifier la diagonale d'une matrice, voire de créer une matrice diagonale. En particulier, le résultat d'une fonction graphique ne peut pas être affecté à un objet11, mais est envoyé au dispositif graphique.

Nous allons voir un exemple concret d'utilisation de ces fonctionnalités pour produire des graphes.

Ouvrir plusieurs dispositifs graphiques

Un périphérique graphique est matérialisé par une fenêtre graphique ou un fichier. Les graphes sont produits selon des paramètres de graphe définis par défaut et modifiables à l'aide de la fonction par.. Les numéros affichés correspondent aux numéros d'appareils à utiliser en cas de changement d'appareil actif.

La fonction dev.off() ferme un périphérique graphique : par défaut le périphérique actif est fermé, sinon c'est celui dont le numéro est donné en argument à la fonction.

Partitionner un graphique

Deux spécificités de la version Windows de R sont à noter : la fonction win.metafile, qui accède à un fichier au format Windows Metafile, et un menu "Historique" qui apparaît à la fermeture de la fenêtre graphique, qui permet de sauvegarder tous les graphiques produits lors de une session (par défaut l'enregistrement n'est pas activé, l'utilisateur l'active en cliquant sur . "Enregistrer" dans ce menu). La disposition des fonctions divise le graphe actif en plusieurs parties, sur lesquelles les graphes sont affichés successivement ; son argument principal est un tableau de valeurs entières spécifiant les numéros des sous-fenêtres. Pour visualiser concrètement la partition créée, nous allons utiliser la fonction layout.show avec le nombre de sous-fenêtres en argument (ici 4).

Dans tous ces cas, nous n'avons pas utilisé l'option byrowdematrix, donc les volets sont numérotés par colonne ; bien entendu, il suffit de spécifier matrix(.., byrow = TRUE) pour que les volets soient numérotés par lignes.

Les fonctions graphiques

Les fonctions graphiques secondaires

Notez la possibilité d'ajouter des expressions mathématiques à un graphique en utilisant detext(x, y, expression(..)), où la fonction d'expression transforme son argument en une équation mathématique . Pour inclure une variable numérique dans une expression, utilisez les fonctions replaceetas.expression ; par exemple, pour inclure une valeur de R2 (précédemment calculée et stockée dans un objet nommé Rsquared).

Les param`etres graphiques

Un exemple concret

Veuillez vous référer au tableau des paramètres graphiques pour comprendre les modifications apportées par bty, tcl, las et cex. Les paramètres graphiques et les fonctions graphiques secondaires permettent d'aller plus loin dans la présentation d'un graphique. Tout d'abord, les paramètres graphiques par défaut sont stockés dans une liste appelée, par exemple, opar.

Trois paramètres seront alors modifiés : bg pour la couleur du fond, col.axis pour la couleur des chiffres sur les axes, et mar pour les dimensions des marges autour du plot frame.

Fig. 2 – Les symboles pour tracer des points avec R (pch=1:25). Les couleurs ont ´et´e obtenues avec les options col="blue", bg="yellow", la seconde op-tion n’a un effet que pour les symboles 21 `a 25

Les packages grid et lattice

Avec les données sur l'iris, le chevauchement entre les différentes espèces est suffisamment faible pour les montrer ensemble sur la même figure (Fig. 9). Le dernier exemple utilise la méthode des coordonnées parallèles pour l'analyse exploratoire de données multivariées. Laissons de côté l'exploration graphique de ces données pour se consacrer à une simple analyse de variance de réponse en fonction de l'insecticide.

L'option data=InsectSprays spécifie que les variables doivent être extraites du jeu de données InsectSprays.

Les formules

Ces termes sont séparés par des symboles arithmétiques, mais qui ont ici une signification particulière. Nous voyons que les opérateurs arithmétiques de R ont une signification différente dans une formule que dans une expression classique. Pour inclure des opérations arithmétiques dans une formule, nous utiliserons la fonction I : la formule y~I(x1+x2) définira alors le modèle y = β(x1 +x2) +α.

Cependant, il est possible d'inclure une fonction dans une formule pour transformer une variable, comme nous l'avons vu plus haut dans l'analyse de la variance des données sur les insecticides.

Fig. 13 – Repr´esentation graphique des r´esultats de la fonction aov avec plot().

Les fonctions g´en´eriques

1 y~1 ajuste un modèle sans effets (seulement l'"ordonnée à l'origine") offset(..) ajoute un effet au modèle sans estimer aucun paramètre (par. Les fonctions que nous pouvons utiliser plus tard pour extraire les résultats, fonctionnent spécifiquement selon la classe de l'objet Les fonctions génériques ne fonctionnent généralement pas sur les objets : elles appellent la fonction appropriée selon la classe de l'objet ou la classe de l'argument.

Il existe également plusieurs outils qui extraient des informations d'un objet de modèle ou d'une formule, tels que la recherche des termes dépendants linéaires dans un modèle linéaire spécifié avec une formule.

Les packages

Le problème de ce premier programme est qu'il risque d'être sérieusement prolongé si on veut ajouter d'autres espèces. Si vous souhaitez répéter cette opération quand vous le souhaitez, il peut être judicieux d'écrire une fonction. Si nous utilisons x comme nom d'objet dans notre fonction, la valeur de x dans l'environnement global ne sera pas utilisée.

Considérons que l'on veut étudier le comportement d'un modèle non linéaire : le modèle de Ricker défini par.