La presentación de datos estadísticos con gráficos se considera una tarea importante en el proceso de comunicación de datos. Estas notas representan una amplia variedad de gráficos comúnmente utilizados en la disciplina estadística que han demostrado ser eficaces para presentar datos.
Introducci´on
Cu´ando presentar los datos ?
No es raro ver informes que incluyen gráficos que muestran sólo dos números, por ejemplo, el porcentaje de hombres versus el porcentaje de hombres. Este índice también se puede interpretar como el porcentaje de tinta del gráfico que no se puede borrar sin afectar los datos.
Equipo y software para gr´aficos
Wainer (1990) critica el índice de Tufte no sólo por su eficiencia en la transmisión de datos, sino también por su elegancia. Los gráficos de paquetes suelen aparecer en hojas de cálculo y en algunos paquetes estadísticos.
Percepci´on gr´afica
Se caracterizan por la poca flexibilidad y poca libertad que dan al usuario para adaptarlos a sus necesidades.
Prop´osito de un gr´afico
Gráficos analíticos: estos gráficos nos permiten ver lo que podría estar pasando. Los elementos de un gráfico interactúan para aumentar nuestra percepción de las relaciones entre variables.
Elementos de un Gr´afico
Recomendaciones Generales para Elaborar un Gr´afico
Esta explicación no debe ser una repetición de la información presentada en el cuadro. No permita que las etiquetas o referencias en la región de datos interfieran o abarroten los datos cuantitativos.
Gr´aficos distorsionados
Pecados comunes en gr´aficos t´ecnicos
Funciones para Especificar Devices
Algunos Par´ametros para Graficar en R
Gr´aficos Unidimensionales
Gr´aficos Bidimensionales
Gr´aficos Tridimensionales
M´ultiple Gr´aficos por P´agina (Ejemplo)
Gr´aficos Univariables
Arboles de Tallo y Hoja
Boxplot o Caja de Tukey
La ubicación está representada por la línea que corta la caja y representa la mediana (que está dentro de la caja), la extensión está dada por la altura de la caja, como por la distancia entre las puntas de los bigotes. Las colas se pueden ver por la longitud de los bigotes en relación con la altura del tanque, así como por las observaciones que están marcadas explícitamente.
Histogramas
Para la primera clase o intervalo, si "include.lowest=TRUE", se incluirá el valor más pequeño de los datos. De forma predeterminada, esto es "VERDADERO" y el resultado es el gráfico del histograma; si se especifica como "FALSO", el resultado es una lista de puntuaciones para cada intervalo.
Gr´aficos de Puntos
En A con el método overplot, en B con el método stack, en C con el método jitter y en D presentación vertical con el método stack. Observe los efectos sobre los símbolos utilizados según los valores dados para el argumento pch.
Gr´aficos Circulares (Pie Charts)
El diagrama de puntos nos permite presentar información agrupada por otra variable de agrupación. Una forma tradicional es realizar un gráfico circular para cada universidad, lo que genera 10 gráficos difícilmente comparables (Anuario Estadístico de Antioquia, 1994).
Gr´afico de barras
Si es un vector, la gráfica corresponde a una serie de barras rectangulares cuyas alturas corresponden a los valores del vector. Si es una matriz y "junto a = FALSO", entonces cada barra en el gráfico corresponde a una columna, por lo que los valores en cada columna están representados por subbarras apiladas, pero si "junto a = VERDADERO", entonces los valores en cada columna, se colocan uno al lado del otro en lugar de apilarse.
Gr´aficos especiales en R
Gr´afico de coordenadas polares “Polar plot”
Seleccione los puntos de corte en los valores exactos que se incluyen en la selección. Observe cómo este gráfico nos permite analizar la propagación y al mismo tiempo identificar grupos o conglomerados en un conjunto de datos.
Carta o Gr´afico de Eventos
Pir´amide Poblacional
Se limita a representar dos variables, aunque se pueden hacer modificaciones para permitirnos incluir más. En el argumento "tipo", se especifica igual a "p" para representar observaciones puntuales, aunque este es el valor predeterminado y, por lo tanto, no es necesario especificarlo.
Matrices de Dispersi´on
Indica que es posible agregar otros parámetros de trazado, como pch y col, con los que se puede especificar un vector de símbolos y colores para su uso en diagramas de dispersión. Permite aplicar una función: función (x, y, etiquetas, cex, fuente, ..) a paneles diagonales. Las matrices de dispersión se pueden modificar para presentar gráficamente información diferente en el mismo conjunto de datos multivariados.
Tenga en cuenta que cuando se llama al cuadro de función pero el argumento del gráfico se especifica como FALSO, los valores base del gráfico se pueden almacenar en un objeto de matriz. Otras modificaciones sencillas, pero que permiten tener una mejor perspectiva de las relaciones entre variables, es utilizar un vector de colores o símbolos en los diagramas de dispersión de la matriz en caso de que exista un factor cuyos niveles puedan influir en las variables nombradas.
Gr´aficos de independencia
Tenga en cuenta que los puntos en el diagrama de chips se encuentran en la parte superior derecha, lo cual es típico cuando existe una relación monótona muy positiva. Tenga en cuenta que los puntos en el gráfico de chips se encuentran casi en su totalidad entre las dos líneas centrales horizontales. Tenga en cuenta, como en el caso anterior, que en el gráfico de chips los puntos se encuentran casi por completo entre las dos líneas centrales horizontales.
Tenga en cuenta que esta función no utiliza "completo" sino "puntos", ya que al llamar a "pares", los puntos se agregan a la ventana de gráficos ya abierta y se produce el error de crear un nuevo gráfico. Finalmente, obtenemos el diagrama de dispersión y el diagrama de chips combinados, para una matriz de datos X, como esta.
Otros gr´aficos
Curvas de Andrews
Embrechts y Herzberg (1991) presentan variaciones de los gráficos de Andrews utilizando polinomios de Chebychev y polinomios de Legendre.
Gr´afico de Estrellas (stars plots)
Si es "FALSO", se supone que los datos ya han sido escalados por otro algoritmo al rango [0,1]. De forma predeterminada, se especifica el uso de nombres de filas de matrices de datos. NULL', lo que significa que no está preespecificado, el gráfico se coloca en una matriz rectangular.
Nota: El argumento key.labels =abbreviate(colnames(data.men) indica usar los nombres de las columnas 2 a 12 de la matriz data.men en el diagrama de claves. Algo similar se puede hacer con las etiquetas de observación (nombres de filas ) de la matriz), pero de la siguiente manera: etiquetas = abreviatura(caso.nombres(datos.Hombres)).
Gr´aficos en Regresi´on Lineal Simple
La función matplot utilizada aquí traza las columnas de una matriz frente a las columnas de otra de modo que la primera columna x se traza frente a la primera columna y, la segunda columna x frente a la segunda columna y, y así sucesivamente. Si falta uno de los dos objetos (x o y), el cubo se toma como y y el vector 1:n se usa como x. Debe asegurarse que los rangos de ejes en ambos gráficos sean los mismos.
Algunos Ajustes de Curvas por Regresi´on no Param´etrica
Ajuste Spline
Valor: spline devuelve una lista de componentes xey que proporcionan las coordenadas donde se realiza la interpolación y los valores interpolados. Los splines se pueden utilizar para extrapolación, es decir, para predecir en puntos fuera del rango de la variable x. Si es el método "natural", esta extrapolación es lineal utilizando la pendiente de la curva de interpolación en el punto de datos más cercano. 1977) Métodos informáticos para cálculos matemáticos.
Vemos que el ajuste con el último método difiere de los dos anteriores y presenta problemas.
Regresi´on Kernel
LOESS
Es decir, el ajuste en el punto x se ajusta utilizando puntos en la vecindad de x, ponderados por sus distancias a x (sin tener en cuenta las diferencias en las variables "paramétricas" al calcular la distancia). El tamaño de la vecindad está controlado por α (establecido por 'span' o 'enp.target'). Tenga en cuenta que el valor inicial no tiene que ser un ajuste de mínimos cuadrados.
Si es necesario obtener un diagrama de dispersión simultáneo con la curva ajustada por LOESS, la función 'scatter.smooth' del paquete modreg permite dicho gráfico, mientras que 'loess. smooth' simplemente nos da una lista de valores de xey. Alternativamente, también es posible trazar la curva ajustada LOESS junto con el diagrama de dispersión usando la función 'loess.smooth' y con esto se pueden superponer diferentes curvas ajustadas de la siguiente manera:
An´alisis de Componentes Principales
El primer componente (analizar la columna 1 de la matriz P) puede interpretarse como el grupo "no frutas" y el segundo componente como "frutas".
An´alis de Agrupamientos (Clusters)
Funciones clusplot, clusplot.default y clusplot.partition
En caso de que sea una matriz de desigualdad, 'x' es el resultado de la función 'daisy' o 'dist' o es una matriz simétrica. A menudo, `clus' es el componente del grupo de la salida de la función `pam', `fanny' o `clara'. La densidad es el número de puntos del grupo dividido por el área de la elipse.
Sea y un vector donde el elemento i es el número de puntos en el grupo i dividido por el área de la elipse i. Cuando se aplica el algoritmo 'clear' a la matriz de datos con NA, clusplot lo reemplazará como se explica en 'clusplot.default', ya que no hay ninguna matriz de disimilitud disponible.
Funci´on rect.hclust
Series de tiempo
Funci´on plot.ts
Con un único argumento principal, esta función crea gráficos de series de tiempo; para series multivariadas de dos clases depende de 'plot.type'.
Funciones acf, pacf, ccf
El coeficiente de autocorrelación parcial se estima ajustando sucesivamente modelos autorregresivos de orden superior hasta 'lag.max'. El resultado de esta función no es visible si 'completo' es 'VERDADERO', es decir, el resultado es un gráfico. Tenga en cuenta que ACF y PACF muestran que la serie diferencial puede ser un proceso MA?.
Funci´on lag.plot
Funci´on stl
Por ejemplo, parece haber una relación significativa entre las series y el rezago de orden 1, que se debilita a medida que el orden de rezago aumenta desde el rezago 2. De forma predeterminada, se establece en el entero impar más pequeño. no mayor o igual a la 'frecuencia(x)', que se recomienda ya que evita la competencia entre los componentes de tendencia y estacionalidad. Detalles: El componente estacional se determina mediante el suavizado loess de las subseries estacionales (series de todos los valores de enero, etc.); Si 's.window ="periodic" ' se omite el suavizado tomando el promedio.
El nivel total se elimina del componente de estación y se agrega al componente de tendencia. Nota: Esta función es similar a la función 'stl' de S-PLUS, pero se diferencia en que el componente 'resto' de S-PLUS es la suma de la serie 'tendencia'.
Gr´afico de Perfil
Gr´aficos de control univariados para el centramiento
Cartas de control multivariado
Graficando una elipse
Graficando elipses de confianza del (1 − α)100% para un con-
Guardar y llamar gr´aficos
Superposici´on de curvas a un histograma
Efectos de sombreado en gr´aficos tridimensionales
Especificaci´on de color (funci´on hsv)
Funci´on curve
Funci´on points
Funci´on lines
Funci´on abline
Funci´on contour
Funci´on persp
Funci´on mtext
Funci´on text