grafi3.pdf

La presentación de datos estadísticos con gráficos se considera una tarea importante en el proceso de comunicación de datos. Estas notas representan una amplia variedad de gráficos comúnmente utilizados en la disciplina estadística que han demostrado ser eficaces para presentar datos.

Introducci´on

Cu´ando presentar los datos ?

No es raro ver informes que incluyen gráficos que muestran sólo dos números, por ejemplo, el porcentaje de hombres versus el porcentaje de hombres. Este índice también se puede interpretar como el porcentaje de tinta del gráfico que no se puede borrar sin afectar los datos.

Equipo y software para gr´aficos

Wainer (1990) critica el índice de Tufte no sólo por su eficiencia en la transmisión de datos, sino también por su elegancia. Los gráficos de paquetes suelen aparecer en hojas de cálculo y en algunos paquetes estadísticos.

Percepci´on gr´afica

Se caracterizan por la poca flexibilidad y poca libertad que dan al usuario para adaptarlos a sus necesidades.

Prop´osito de un gr´afico

Gráficos analíticos: estos gráficos nos permiten ver lo que podría estar pasando. Los elementos de un gráfico interactúan para aumentar nuestra percepción de las relaciones entre variables.

Elementos de un Gr´afico

Recomendaciones Generales para Elaborar un Gr´afico

Esta explicación no debe ser una repetición de la información presentada en el cuadro. No permita que las etiquetas o referencias en la región de datos interfieran o abarroten los datos cuantitativos.

Figura 1.1: En esta parte va una descripci´on del gr´afico. Esta explicaci´on no debe ser una repetici´on de la informaci´on mostrada en el gr´afico.

Gr´aficos distorsionados

Pecados comunes en gr´aficos t´ecnicos

Funciones para Especificar Devices

Algunos Par´ametros para Graficar en R

Gr´aficos Unidimensionales

Gr´aficos Bidimensionales

Gr´aficos Tridimensionales

Múltiple Gráficos por Página (Ejemplo)

Gr´aficos Univariables

Arboles de Tallo y Hoja

Boxplot o Caja de Tukey

La ubicación está representada por la línea que corta la caja y representa la mediana (que está dentro de la caja), la extensión está dada por la altura de la caja, como por la distancia entre las puntas de los bigotes. Las colas se pueden ver por la longitud de los bigotes en relación con la altura del tanque, así como por las observaciones que están marcadas explícitamente.

Figura 2.1: Podemos comparar las distribuciones del n´umero de pasajeros por viaje durante tres a˜nos

Histogramas

Para la primera clase o intervalo, si "include.lowest=TRUE", se incluirá el valor más pequeño de los datos. De forma predeterminada, esto es "VERDADERO" y el resultado es el gráfico del histograma; si se especifica como "FALSO", el resultado es una lista de puntuaciones para cada intervalo.

Figura 2.4: Se muestra la distribuci´on del tiempo utilizado por los atletas masculinos clasificados en el grupo ´elite en la media marat´on de CONAVI.

Gr´aficos de Puntos

En A con el método overplot, en B con el método stack, en C con el método jitter y en D presentación vertical con el método stack. Observe los efectos sobre los símbolos utilizados según los valores dados para el argumento pch.

Gr´aficos Circulares (Pie Charts)

El diagrama de puntos nos permite presentar información agrupada por otra variable de agrupación. Una forma tradicional es realizar un gráfico circular para cada universidad, lo que genera 10 gráficos difícilmente comparables (Anuario Estadístico de Antioquia, 1994).

Figura 2.13: El gr´afico de puntos es excelente para realizar comparaciones ya que es muy limpio, esto es, no emplea m´as tinta de la estrictamente necesaria y la comparaci´on se realiza verticalmente

Gr´afico de barras

Si es un vector, la gráfica corresponde a una serie de barras rectangulares cuyas alturas corresponden a los valores del vector. Si es una matriz y "junto a = FALSO", entonces cada barra en el gráfico corresponde a una columna, por lo que los valores en cada columna están representados por subbarras apiladas, pero si "junto a = VERDADERO", entonces los valores en cada columna, se colocan uno al lado del otro en lugar de apilarse.

Figura 2.17: Un gr´afico de torta para cada universidad nos genera 10 gr´aficos que presenta informaci´on obligatoriamente porcentual, raz´on por la cual la Universidad de Antioquia, a pesar de tener casi igual n´umero de profesores de tiempo completo que

Gr´aficos especiales en R

Gr´afico de coordenadas polares “Polar plot”

Seleccione los puntos de corte en los valores exactos que se incluyen en la selección. Observe cómo este gráfico nos permite analizar la propagación y al mismo tiempo identificar grupos o conglomerados en un conjunto de datos.

Figura 2.21: Cuando el argumento legend.text no es especificado en le barplot, el gr´afico producido resultar´ıa sin leyenda

Carta o Gr´afico de Eventos

Pir´amide Poblacional

Se limita a representar dos variables, aunque se pueden hacer modificaciones para permitirnos incluir más. En el argumento "tipo", se especifica igual a "p" para representar observaciones puntuales, aunque este es el valor predeterminado y, por lo tanto, no es necesario especificarlo.

Figura 2.25: Esta gr´afica presenta el gr´afico de eventos considerando la ocur- ocur-rencia de los eventos especiales E1, E2, y E1,2 para los datos supuestos en un experimento en el cual se observan los tiempos de vida de cuatro in-dividuos sometidos a u

Matrices de Dispersi´on

Indica que es posible agregar otros parámetros de trazado, como pch y col, con los que se puede especificar un vector de símbolos y colores para su uso en diagramas de dispersión. Permite aplicar una función: función (x, y, etiquetas, cex, fuente, ..) a paneles diagonales. Las matrices de dispersión se pueden modificar para presentar gráficamente información diferente en el mismo conjunto de datos multivariados.

Tenga en cuenta que cuando se llama al cuadro de función pero el argumento del gráfico se especifica como FALSO, los valores base del gráfico se pueden almacenar en un objeto de matriz. Otras modificaciones sencillas, pero que permiten tener una mejor perspectiva de las relaciones entre variables, es utilizar un vector de colores o símbolos en los diagramas de dispersión de la matriz en caso de que exista un factor cuyos niveles puedan influir en las variables nombradas.

Figura 3.1: Esta gr´afica presenta informaci´on sobre el precio de oferta de carros Renault 9 vs

Gr´aficos de independencia

Tenga en cuenta que los puntos en el diagrama de chips se encuentran en la parte superior derecha, lo cual es típico cuando existe una relación monótona muy positiva. Tenga en cuenta que los puntos en el gráfico de chips se encuentran casi en su totalidad entre las dos líneas centrales horizontales. Tenga en cuenta, como en el caso anterior, que en el gráfico de chips los puntos se encuentran casi por completo entre las dos líneas centrales horizontales.

Tenga en cuenta que esta función no utiliza "completo" sino "puntos", ya que al llamar a "pares", los puntos se agregan a la ventana de gráficos ya abierta y se produce el error de crear un nuevo gráfico. Finalmente, obtenemos el diagrama de dispersión y el diagrama de chips combinados, para una matriz de datos X, como esta.

Figura 3.8: En esta figura aparecen el gr´afico de dispersi´on y chi-plot para los 30 datos simulados de una normal bivariada con ρ = 0.99

Otros gr´aficos

Curvas de Andrews

Embrechts y Herzberg (1991) presentan variaciones de los gráficos de Andrews utilizando polinomios de Chebychev y polinomios de Legendre.

Figura 3.11: En esta matriz de dispersi´on aparecen abajo de la diagonal prin- prin-cipal los gr´aficos chi - plot con p = 0.95, y los respectivos gr´aficos de disper-si´on arriba de la diagonal superior, para los datos disponibles en data(iris).

Gr´afico de Estrellas (stars plots)

Si es "FALSO", se supone que los datos ya han sido escalados por otro algoritmo al rango [0,1]. De forma predeterminada, se especifica el uso de nombres de filas de matrices de datos. NULL', lo que significa que no está preespecificado, el gráfico se coloca en una matriz rectangular.

Nota: El argumento key.labels =abbreviate(colnames(data.men) indica usar los nombres de las columnas 2 a 12 de la matriz data.men en el diagrama de claves. Algo similar se puede hacer con las etiquetas de observación (nombres de filas ) de la matriz), pero de la siguiente manera: etiquetas = abreviatura(caso.nombres(datos.Hombres)).

Figura 3.12: En este gr´afico se se˜nalan a las observaciones 2, 3, 4, 6, 7, 8, y 9 por fuera de los deciles que corresponden a los puntos representados con T

Gr´aficos en Regresi´on Lineal Simple

La función matplot utilizada aquí traza las columnas de una matriz frente a las columnas de otra de modo que la primera columna x se traza frente a la primera columna y, la segunda columna x frente a la segunda columna y, y así sucesivamente. Si falta uno de los dos objetos (x o y), el cubo se toma como y y el vector 1:n se usa como x. Debe asegurarse que los rangos de ejes en ambos gráficos sean los mismos.

Algunos Ajustes de Curvas por Regresi´on no Param´etrica

Ajuste Spline

Valor: spline devuelve una lista de componentes xey que proporcionan las coordenadas donde se realiza la interpolación y los valores interpolados. Los splines se pueden utilizar para extrapolación, es decir, para predecir en puntos fuera del rango de la variable x. Si es el método "natural", esta extrapolación es lineal utilizando la pendiente de la curva de interpolación en el punto de datos más cercano. 1977) Métodos informáticos para cálculos matemáticos.

Vemos que el ajuste con el último método difiere de los dos anteriores y presenta problemas.

Figura 4.1: Los gr´aficos de residuos vs. valores predichos, Q-Q plot de resid- resid-uales, residuos estandarizados vs

Regresi´on Kernel

LOESS

Es decir, el ajuste en el punto x se ajusta utilizando puntos en la vecindad de x, ponderados por sus distancias a x (sin tener en cuenta las diferencias en las variables "paramétricas" al calcular la distancia). El tamaño de la vecindad está controlado por α (establecido por 'span' o 'enp.target'). Tenga en cuenta que el valor inicial no tiene que ser un ajuste de mínimos cuadrados.

Si es necesario obtener un diagrama de dispersión simultáneo con la curva ajustada por LOESS, la función 'scatter.smooth' del paquete modreg permite dicho gráfico, mientras que 'loess. smooth' simplemente nos da una lista de valores de xey. Alternativamente, también es posible trazar la curva ajustada LOESS junto con el diagrama de dispersión usando la función 'loess.smooth' y con esto se pueden superponer diferentes curvas ajustadas de la siguiente manera:

An´alisis de Componentes Principales

El primer componente (analizar la columna 1 de la matriz P) puede interpretarse como el grupo "no frutas" y el segundo componente como "frutas".

Figura 4.8: Curvas ajustadas por loess. Observe el efecto del argumento

An´alis de Agrupamientos (Clusters)

Funciones clusplot, clusplot.default y clusplot.partition

En caso de que sea una matriz de desigualdad, 'x' es el resultado de la función 'daisy' o 'dist' o es una matriz simétrica. A menudo, `clus' es el componente del grupo de la salida de la función `pam', `fanny' o `clara'. La densidad es el número de puntos del grupo dividido por el área de la elipse.

Sea y un vector donde el elemento i es el número de puntos en el grupo i dividido por el área de la elipse i. Cuando se aplica el algoritmo 'clear' a la matriz de datos con NA, clusplot lo reemplazará como se explica en 'clusplot.default', ya que no hay ninguna matriz de disimilitud disponible.

Figura 4.14: Partici´on en dos clusters de los estados de E.U, seg´un los datos provistos en data(votes.repub) sobre el porcentaje de votos en cada estado por el partido republicano desde 1856 hasta 1976, utilizando disimilaridades con base en la distancia

Funci´on rect.hclust

Series de tiempo

Funci´on plot.ts

Con un único argumento principal, esta función crea gráficos de series de tiempo; para series multivariadas de dos clases depende de 'plot.type'.

Funciones acf, pacf, ccf

El coeficiente de autocorrelación parcial se estima ajustando sucesivamente modelos autorregresivos de orden superior hasta 'lag.max'. El resultado de esta función no es visible si 'completo' es 'VERDADERO', es decir, el resultado es un gráfico. Tenga en cuenta que ACF y PACF muestran que la serie diferencial puede ser un proceso MA?.

Figura 4.20: Las series componentes de una serie multivariadas, graficadas con plot.ts o simplemente plot de un objeto de clase “mts”

Funci´on lag.plot

Funci´on stl

Por ejemplo, parece haber una relación significativa entre las series y el rezago de orden 1, que se debilita a medida que el orden de rezago aumenta desde el rezago 2. De forma predeterminada, se establece en el entero impar más pequeño. no mayor o igual a la 'frecuencia(x)', que se recomienda ya que evita la competencia entre los componentes de tendencia y estacionalidad. Detalles: El componente estacional se determina mediante el suavizado loess de las subseries estacionales (series de todos los valores de enero, etc.); Si 's.window ="periodic" ' se omite el suavizado tomando el promedio.

El nivel total se elimina del componente de estación y se agrega al componente de tendencia. Nota: Esta función es similar a la función 'stl' de S-PLUS, pero se diferencia en que el componente 'resto' de S-PLUS es la suma de la serie 'tendencia'.