• Tidak ada hasil yang ditemukan

SPC and Statistics by Devore

N/A
N/A
Protected

Academic year: 2018

Membagikan "SPC and Statistics by Devore"

Copied!
742
0
0

Teks penuh

(1)
(2)
(3)

SÉPTIMA EDICIÓN

Probabilidad y Estadística

para Ingeniería

(4)
(5)

Probabilidad y Estadística

para Ingeniería

y Ciencias

JAY L. DEVORE

California Polytechnic State University, San Luis Obispo

Traducción

Jorge Humberto Romo Traductor profesional

Revisión Técnica

A. Leonardo Bañuelos Saucedo Profesor de carrera titular

Facultad de Ingeniería

Universidad Nacional Autónoma de México

(6)

Ingeniería y Ciencias Séptima edición Jay L. Devore

Presidente de Cengage Learning Latinoamérica:

Javier Arellano Gutiérrez

Director general México y Centroamérica:

Héctor Enrique Galindo Iturribarría

Director editorial Latinoamérica: José Tomás Pérez Bonilla

Director de producción: Raúl D. Zendejas Espejel

Editor:

Sergio R. Cervantes González

Editora de producción: Abril Vega Orozco

Ilustrador:Lori Heckelman / Graphic World, International Typesetting and Composition

Diseño de portada:

Grupo Insigne OTA S. A. de C. V.

Composición tipográfica: EDITEC, S.A. de C.V

S.A. de C.V.,

una Compañía de Cengage Learning, Inc. Corporativo Santa Fe

Av. Santa Fe núm. 505, piso 12 Col. Cruz Manca, Santa Fe C.P. 05349, México, D.F.

Cengage Learning™ es una marca registrada usada bajo permiso.

DERECHOS RESERVADOS. Ninguna parte de este trabajo amparado por la Ley Federal del Derecho de Autor, podrá ser reproducida, transmitida, almacenada o utilizada en cualquier forma o por cualquier medio, ya sea gráfico, electrónico o mecánico, incluyendo, pero sin limitarse a lo siguiente: fotocopiado, reproducción, escaneo, digitalización, grabación en audio, distribución en Internet, distribución en redes de información o almacenamiento y recopilación en sistemas de información a excepción de lo permitido en el Capítulo III, Artículo 27 de la Ley Federal del Derecho de Autor, sin el consentimiento por escrito de la Editorial.

Traducido del libro Probability and Statistics for Engineering and the Sciences. Seventh Edition. Publicado en inglés por Brooks/Cole © 2008 ISBN: 0-495-38217-5

Datos para catalogación bibliográfica: Devore, Jay L. Probabilidad y Estadística para Ingeniería y Ciencias. Séptima edición. ISBN-13: 978-607-481-338-8

ISBN-10: 607-481-338-8

Visite nuestro sitio en:

(7)

v

A mi esposa Carol:

Su esmero en la enseñanza

es una continua inspiración para mí.

A mis hijas, Allison y Teresa:

Con gran orgullo admito sus

(8)
(9)

vii

Contenido

Introducción 1

1.1 Poblaciones, muestras y procesos 2

1.2 Métodos pictóricos y tabulares en la estadística descriptiva 10 1.3 Medidas de localización 24

1.4 Medidas de variabilidad 31 Ejercicios suplementarios 42 Bibliografía 45

1

Generalidades y estadística descriptiva

2

Probabilidad

Introducción 46

2.1 Espacios muestrales y eventos 47

2.2 Axiomas, interpretaciones y propiedades de probabilidad 51 2.3 Técnicas de conteo 59

2.4 Probabilidad condicional 67 2.5 Independencia 76

Ejercicios suplementarios 82 Bibliografía 85

Introducción 86 3.1 Variables aleatorias 87

3.2 Distribuciones de probabilidad para variables aleatorias discretas 90 3.3 Valores esperados 100

3.4 Distribución de probabilidad binomial 108

3.5 Distribuciones hipergeométricas y binomiales negativas 116 3.6 Distribución de probabilidad de Poisson 121

Ejercicios suplementarios 126 Bibliografía 129

(10)

Introducción 130

4.1 Funciones de densidad de probabilidad 131

4.2 Funciones de distribución acumulativa y valores esperados 136 4.3 Distribución normal 144

4.4 Distribuciones exponencial y gama 157 4.5 Otras distribuciones continuas 163 4.6 Gráficas de probabilidad 170

Ejercicios suplementarios 179 Bibliografía 183

4

Variables aleatorias continuas

y distribuciones de probabilidad

Introducción 184

5.1 Variables aleatorias conjuntamente distribuidas 185 5.2 Valores esperados, covarianza y correlación 196 5.3 Estadísticos y sus distribuciones 202

5.4 Distribución de la media muestral 213 5.5 Distribución de una combinación lineal 219

Ejercicios suplementarios 224 Bibliografía 226

Introducción 254

7.1 Propiedades básicas de los intervalos de confianza 255 7.2 Intervalos de confianza de muestra grande para una media

y proporción de población 263 Introducción 227

6.1 Algunos conceptos generales de estimación puntual 228 6.2 Métodos de estimación puntual 243

Ejercicios suplementarios 252 Bibliografía 253

5

Distribuciones de probabilidad conjunta

y muestras aleatorias

6

Estimación puntual

(11)

7.3 Intervalos basados en una distribución de población normal 270 7.4 Intervalos de confianza para la varianza y desviación estándar

de una población normal 278 Ejercicios suplementarios 281 Bibliografía 283

Introducción 284

8.1 Hipótesis y procedimientos de prueba 285 8.2 Pruebas sobre una media de población 294

8.3 Pruebas relacionadas con una proporción de población 306 8.4 Valores P 311

8.5 Algunos comentarios sobre la selección de una prueba 318 Ejercicios suplementarios 321

Bibliografía 324

Introducción 369 10.1 ANOVA unifactorial 370

10.2 Comparaciones múltiples en ANOVA 379 10.3 Más sobre ANOVA unifactorial 385

Ejercicios suplementarios 395 Bibliografía 396

Introducción 325

9.1 Pruebas ze intervalos de confianza para una diferencia entre dos medias de población 326

9.2 Prueba tcon dos muestras e intervalo de confianza 336 9.4 Inferencias sobre una diferencia entre proporciones

de población 353

9.5 Inferencias sobre dos varianzas de población 360 Ejercicios suplementarios 364

Bibliografía 368

8

Pruebas de hipótesis basadas en una sola muestra

9

Inferencias basadas en dos muestras

(12)

Introducción 397

11.1 ANOVA bifactorial con Kij1 398 11.2 ANOVA bifactorial con Kij1 410 11.3 ANOVA con tres factores 419 11.4 Experimentos 2pfactoriales 429

Ejercicios suplementarios 442 Bibliografía 445

12

Regresión lineal simple y correlación

13

Regresión múltiple y no lineal

11

Análisis de varianza con varios factores

Introducción 446

12.1 Modelo de regresión lineal simple 447 12.2 Estimación de parámetros de modelo 454

12.3 Inferencias sobre el parámetro de pendiente 1 468

12.4 Inferencias sobre Yx*y predicción de valores Yfuturos 477 12.5 Correlación 485

Ejercicios suplementarios 494 Bibliografía 499

Introducción 500

13.1 Aptitud y verificación del modelo 501 13.2 Regresión con variables transformadas 508 13.3 Regresión con polinomios 519

13.4 Análisis de regresión múltiple 528

13.5 Otros problemas en regresión múltiple 550 Ejercicios suplementarios 562

Bibliografía 567

Introducción 568

14.1 Pruebas de bondad de ajuste cuando las probabilidades categóricas se satisfacen por completo 569

14.2 Pruebas de bondad de ajuste para hipótesis compuestas 576

14

Pruebas de bondad de ajuste

(13)

14.3 Tablas de contingencia mutuas (o bidireccionales) 587 Ejercicios suplementarios 595

Bibliografía 598

15

Procedimientos sin distribución

16

Métodos de control de calidad

Apéndice/Tablas

Introducción 599

15.1 La prueba Wilcoxon de rango con signo 600 15.2 Prueba Wilcoxon de suma de rangos 608 15.3 Intervalos de confianza sin distribución 614 15.4 ANOVA sin distribución 618

Ejercicios suplementarios 622 Bibliografía 624

Introducción 625

16.1 Comentarios generales sobre gráficas de control 626 16.2 Gráficas de control para ubicación de proceso 627 16.3 Gráficas de control para variación de proceso 637 16.4 Gráficas de control para atributos 641

16.5 Procedimientos CUSUM 646 16.6 Muestreo de aceptación 654 Ejercicios suplementarios 660 Bibliografía 661

A.1 Distribuciones binomiales acumulativas 664 A.2 Distribuciones acumulativas de Poisson 666 A.3 Áreas de la Curva normal estándar 668 A.4 La Función Gamma incompleta 670 A.5 Valores críticos para Distribuciones t 671

A.6 Valores críticos de tolerancia para distribuciones normales de población 672 A.7 Valores críticos para distribuciones chi-cuadrada 673

A.8 Curva tpara áreas de cola 674

A.9 Valores críticos para distribuciones F 676

(14)

A.11 Curvas chi-cuadrada para áreas de cola 683

A.12 Valores críticos para la prueba de normalidad Ryan-Joiner 685 A.13 Valores críticos para la prueba Wilcoxon de rangos con signo 686 A.14 Valores críticos para la prueba Wilcoxon de suma de rangos 687 A.15 Valores críticos para el intervalo Wilcoxon de rangos con signo 688 A.16 Valores críticos para el intervalo Wilcoxon de suma de rangos 689 A.17 Curvas para pruebas t 690

(15)

xiii

Propósito

El uso de modelos de probabilidad y métodos estadísticos para analizar datos se ha conver-tido en una práctica común en virtualmente todas las disciplinas científicas. Este libro pre-tende introducir con amplitud aquellos modelos y métodos que con mayor probabilidad se encuentran y utilizan los estudiantes en sus carreras de ingeniería y las ciencias naturales. Aun cuando los ejemplos y ejercicios se diseñaron pensando en los científicos e ingenieros, la mayoría de los métodos tratados son básicos en los análisis estadísticos en muchas otras disciplinas, por lo que los estudiantes de las ciencias administrativas y sociales también se beneficiarán con la lectura del libro.

Enfoque

Los estudiantes de un curso de estadística diseñado para servir a otras especialidades de es-tudio al principio es posible que duden del valor pertinencia de la materia, pero mi experien-cia es que los estudiantes pueden ser conectados a la estadística con el uso de buenos ejemplos y ejercicios que combinen sus experiencias diarias con sus intereses científicos. Así pues, he trabajado duro para encontrar ejemplos reales y no artificiales, que alguien pen-só que valía la pena recopilar y analizar. Muchos de los métodos presentados, sobre todo en los últimos capítulos sobre inferencia estadística, se ilustran analizando datos tomados de una fuente publicada y muchos de los ejercicios también implican trabajar con dichos da-tos. En ocasiones es posible que el lector no esté familiarizado con el contexto de un pro-blema particular (como muchas veces yo lo estuve), pero me di cuenta que los propro-blemas reales atraen más a los estudiantes con un contexto un tanto extraño que por problemas de-finitivamente artificiales en un entorno conocido.

Nivel matemático

La exposición es relativamente modesta en función de desarrollo matemático. El uso sus-tancial del cálculo se hace sólo en el capítulo 4 y en partes de los capítulos 5 y 6. En par-ticular, con excepción de una observación o nota ocasional, el cálculo aparece en la parte de inferencia del libro sólo en la segunda sección del capítulo 6. No se utiliza álgebra matricial en absoluto. Por lo tanto, casi toda la exposición deberá ser accesible para aquellos cuyo co-nocimiento matemático incluye un semestre o dos trimestres de cálculo diferencial e in-tegral.

Contenido

(16)

respectivamente). La regresión aparece por primera vez en el capítulo 12 (el modelo de re-gresión lineal simple y correlación) y regresa para una amplia repetición en el capítulo 13. Los últimos tres capítulos analizan métodos de jicuadrada, procedimientos sin distribución (no paramétricos) y técnicas de control de calidad estadístico.

Ayuda para el aprendizaje de los estudiantes

Aunque el nivel matemático del libro representará poca dificultad para la mayoría de los es-tudiantes de ciencia e ingeniería, es posible que el trabajo dirigido hacia la comprensión de los conceptos y apreciación del desarrollo lógico de la metodología en ocasiones requiera un esfuerzo sustancial. Para ayudar a que los estudiantes ganen en comprensión y aprecia-ción he proporcionado numerosos ejercicios de dificultad variable desde muchos que impli-can la aplicación rutinaria del material incluido en el texto hasta algunos que piden al lector que extienda los conceptos analizados en el texto a situaciones un tanto nuevas. Existen mu-chos ejercicios que la mayoría de los profesores desearía asignar durante cualquier curso particular, pero recomiendo que se les pida a los estudiantes que resuelvan un número sus-tancial de ellos; en una disciplina de solución de problemas, el compromiso activo de esta clase es la forma más segura de identificar y cerrar las brechas en el entendimiento que ine-vitablemente surgen. Las respuestas a la mayoría de los ejercicios impares aparecen en la sección de respuestas al final del texto. Además, está disponible un Manual de Soluciones para el Estudiante, que incluye soluciones resueltas de casi todos los ejercicios de número impar.

Nuevo en esta edición

• Ejercicios y ejemplos nuevos, muchos basados en fuentes publicadas que incluyen datos reales. Algunos de los ejercicios permiten una interpretación más amplia de los ejerci-cios tradicionales que incluyen cuestiones muy específicas y algunos de éstos implican material de las primeras secciones y capítulos.

• El material de los capítulos 2 y 3 sobre propiedades de probabilidad, conteo y tipos de va-riables aleatorias se reescribió para alcanzar una mayor claridad.

• La sección 3.6 sobre la distribución de Poisson ha sido revisada, incluido el material nue-vo sobre la aproximación de Poisson a la distribución binomial y la reorganización de la subsección sobre procesos de Poisson.

• El material de la sección 4.4 sobre distribuciones gama y exponencial ha sido reordenado de tal suerte que las segundas aparecen antes que las primeras. Esto es muy conveniente para aquellos que desean abordar la distribución exponencial y evitar la distribución gama. • Una breve introducción al error en la media de los cuadrados en la sección 6.1 ahora

apa-rece como ayuda para motivar la propiedad de insesgabilidad y se da un ejemplo nuevo que ilustra la posibilidad de tener más de un solo estimador insesgado razonable. • Existe un énfasis disminuido en los cálculos manuales en el ANOVA multifactorial para

reflejar el hecho de que ahora hay software apropiado ampliamente disponible y ahora se incluyen gráficas residuales para verificar suposiciones de modelo.

• Se han realizado miles de pequeños cambios en la redacción a lo largo del libro para me-jorar las explicaciones y pulir la exposición.

• El sitio web incluye applets Java™ creados por Gary McClelland, específicamente para este texto basado en el cálculo, así como también conjuntos de datos tomados del texto principal.

(17)

Material de apoyo para el profesor

Este libro cuenta con una serie de recursos para el profesor, los cuales están disponibles en el inglés y sólo se proporcionan a los docentes que lo adopten como texto en sus cursos. Para mayor información, póngase en contacto con el área de servicio a clientes en las siguientes direcciones de correo electrónico:

Cengage Learning México y Centroamérica clientes.mexicoca@cengage.com

Cengage Learning Caribe clientes.caribe@cengage.com

Cengage Learning Cono Sur clientes.conosur@cengage.com

Cengage Learning Paraninfo clientes.paraninfo@cengage.com Cengage Learning Pacto Andino clientes.pactoandino@cengage.com Los recursos disponibles se encuentran en el sitio web del libro:

http: //latinoamerica.cengage.com/devore

Las direcciones de los sitios web referidas en el texto no son administradas por Cengage Learning Latinoamérica, por lo que ésta no es responsable de los cambios o actualizaciones de las mismas.

Reconocimentos

Mis colegas en Cal Poly me proporcionaron apoyo y retroalimentación invaluables durante el curso de los años. También agradezco a los muchos usuarios de ediciones previas que me sugirieron mejoras (y en ocasiones errores identificados). Una nota especial de agradecimien-to va para Matt Carlagradecimien-ton por su trabajo en los dos manuales de soluciones, uno para profeso-res y el otro para estudiantes. Y me he beneficiado mucho de un diálogo que tuve con Doug Bates sobre el contenido, aun cuando no siempre he estado de acuerdo con sus muy preca-vidas sugerencias.

(18)

University; Aquila Lipscomb, The Citadel; Manuel Lladser, University of Colorado en Boulder; Graham Lord, University of Califomia-Los Angeles; Joseph L. Macaluso, DeSales University; Ranjan Maitra, Iowa State University; David Mathiason, Rochester Institute of Technology; Arnold R. Miller, University of Denver; John J. Millson, University of Mary-land; Pamela Kay Miltenberger, West Virginia Wesleyan College; Monica Molsee, Portland State University; Thomas Moore, Naval Postgraduate School; Robert M. Norton, College of Charleston; Steven Pilnick, Naval Postgraduate School; Robi Polikar, Rowan University; Ernest Pyle, Houston Baptist University; Steve Rein, California Polytechnic State Uni-versity-San Luis Obispo; Tony Richardson, University of Evansville; Don Ridgeway, North Carolina State University; Larry J. Ringer, Texas A&M University; Robert M. Schumacher, Ce-darville University; Ron Schwartz, Florida Atlantic University; Kevan Shafizadeh, California State University-Sacramento; Robert K. Smidt, California Polytechnic State University-San Luis Obispo; Alice E. Smith, Auburn University; James MacGregor Smith, University of Massachusetts; Paul J. Smith, University of Maryland; Richard M. Soland, The George Washington University; Clifford Spiegelman, Texas A&M University; Jery Stedinger, Cor-nell University; David Steinberg, Tel Aviv University; William Thistleton, State University of New York Institute of Technology; G. Geoffrey Vining, University of Florida; Bhutan Wadhwa, Cleveland State University; Elaine Wenderholm, State University of New York-Oswego; Samuel P. Wilcock, Messiah College; Michael G. Zabetakis, University of Pitts-burgh y Maria Zack, Point Loma Nazarene University.

Gracias a Merrill Peterson y sus colegas en Matrix Productions por hacer el proce-so de producción lo menos embarazoproce-so posible. Una vez más me siento obligado a expresar mi gratitud a todas las personas que han hecho importantes contribuciones a lo largo de sie-te ediciones del libro. En particular, Carolyn Crockett ha sido tanto una editora de primera clase como una buena amiga. Jennifer Risden, Joseph Rogove, Ann Day, Elizabeth Gersh-man y Ashley Summers merecen una mención especial por sus recientes esfuerzos. También deseo extender mi aprecio a los cientos de representantes de ventas quienes durante los úl-timos 20 años han predicado hábilmente el evangelio sobre este libro y otros que he escri-to. Por último pero no menos importante, un sincero agradecimiento a mi esposa Carol por tolerar mi programa de trabajo y mis frecuentes y demasiadas quejas a lo largo de mi carre-ra de escritor.

(19)

1

1

Generalidades y

estadística descriptiva

INTRODUCCIÓN

Los conceptos y métodos estadísticos no son sólo útiles sino que con frecuencia son in-dispensables para entender el mundo que nos rodea. Proporcionan formas de obtener ideas nuevas del comportamiento de muchos fenómenos que se presentarán en su campo de especialización escogido en ingeniería o ciencia.

La disciplina de estadística nos enseña cómo realizar juicios inteligentes y tomar decisiones informadas entre la presencia de incertidumbre y variación. Sin incerti-dumbre y variación, habría poca necesidad de métodos estadísticos o de profesionales en estadística. Si cada componente de un tipo particular tuviera exactamente la mis-ma duración, si todos los resistores producidos por un fabricante tuvieran el mismo valor de resistencia, si las determinaciones del pH en muestras de suelo de un lugar particular dieran resultados idénticos, y así sucesivamente, entonces una sola obser-vación revelaría toda la información deseada.

Una importante manifestación de variación surge en el curso de la medición de emisiones en vehículos automotores. Los requerimientos de costo y tiempo del Fede-ral Test Procedure (FTP, por sus siglas en inglés) impiden su uso geneFede-ralizado en pro-gramas de inspección de vehículos. En consecuencia, muchas agencias han creado pruebas menos costosas y más rápidas, las que se espera reproduzcan los resultados obtenidos con el FTP. De acuerdo con el artículo “Motor Vehicle Emissions Variabi-lity” (J. of the Air and Waste Mgmt. Assoc., 1996: 667-675), la aceptación del FTP como patrón de oro ha llevado a la creencia ampliamente difundida de que las me-diciones repetidas en el mismo vehículo conducirían a resultados idénticos (o casi idénticos). Los autores del artículo aplicaron el FTP a siete vehículos caracterizados como “altos emisores”. He aquí los resultados de uno de los vehículos.

HC (g/milla) 13.8 18.3 32.2 32.5

(20)

La variación sustancial en las mediciones tanto de HC como de CO proyecta una du-da considerable sobre la sabiduría convencional y hace mucho más difícil realizar eva-luaciones precisas sobre niveles de emisiones.

¿Cómo se pueden utilizar técnicas estadísticas para reunir información y sacar conclusiones? Supóngase, por ejemplo, que un ingeniero de materiales inventó un re-cubrimiento para retardar la corrosión en tuberías de metal en circunstancias específi-cas. Si este recubrimiento se aplica a diferentes segmentos de la tubería, la variación de las condiciones ambientales y de los segmentos mismos producirá más corrosión sus-tancial en algunos segmentos que en otros. Se podría utilizar un análisis estadístico en datos de dicho experimento para decidir si la cantidad promedio de corrosión excede un límite superior especificado de alguna clase o para predecir cuánta corrosión ocu-rrirá en una sola pieza de tubería.

Por otra parte, supóngase que el ingeniero inventó el recubrimiento con la creen-cia de que será superior al recubrimiento actualmente utilizado. Se podría realizar un experimento comparativo para investigar esta cuestión aplicando el recubrimiento ac-tual a algunos segmentos de la tubería y el nuevo a otros segmentos. Esto debe reali-zarse con cuidado o se obtendrá una conclusión errónea. Por ejemplo, tal vez la cantidad promedio de corrosión sea idéntica con los dos recubrimientos. Sin embargo, el recubrimiento nuevo puede ser aplicado a segmentos que tengan una resistencia su-perior a la corrosión y en condiciones ambientales severas en comparación con los seg-mentos y condiciones del recubrimiento actual. El investigador probablemente observaría entonces una diferencia entre los dos recubrimientos atribuibles no a los recubrimien-tos mismos, sino sólo a variaciones extrañas. La estadística ofrece no sólo métodos para analizar resultados de experimentos una vez que se han realizado sino también suge-rencias sobre cómo pueden realizarse los experimentos de una manera eficiente para mitigar los efectos de variación y tener una mejor oportunidad de llegar a conclusiones correctas.

1.1

Poblaciones, muestras y procesos

Los ingenieros y científicos constantemente están expuestos a la recolección de hechos o datos, tanto en sus actividades profesionales como en sus actividades diarias. La disciplina de estadística proporciona métodos de organizar y resumir datos y de sacar conclusiones ba-sadas en la información contenida en los datos.

(21)

muestra de cojinetes de una corrida de producción particular como base para investigar si los cojinetes se ajustan a las especificaciones de fabricación, o se podría seleccionar una muestra de los graduados de ingeniería del último año para obtener retroalimentación sobre la calidad de los programas de estudio de ingeniería.

Por lo general, existe interés sólo en ciertas características de los objetos en una po-blación: el número de grietas en la superficie de cada recubrimiento, el espesor de cada pa-red de cápsula, el género de un graduado de ingeniería, la edad a la cual el individuo se graduó, y así sucesivamente. Una característica puede ser categórica, tal como el género o tipo de funcionamiento defectuoso o puede ser de naturaleza numérica. En el primer caso, el valorde la característica es una categoría (p. ej., femenino o soldadura insuficiente), mientras que en el segundo caso, el valor es un número (p. ej., edad 23 años o diámetro 0.502 cm). Una variable es cualquier característica cuyo valor puede cambiar de un ob-jeto a otro en la población. Inicialmente las letras minúsculas del alfabeto denotarán las va-riables. Algunos ejemplos incluyen:

xmarca de la calculadora de un estudiante

ynúmero de visitas a un sitio web particular durante un periodo específico

zdistancia de frenado de un automóvil en condiciones específicas

Se obtienen datos al observar o una sola variable o en forma simultánea dos o más varia-bles. Un conjunto de datos univariantes se compone de observaciones realizadas en una so-la variable. Por ejemplo, se podría determinar el tipo de transmisión automática (A) o manual (M) en cada uno de diez automóviles recientemente adquiridos en cierto concesio-nario y el resultado sería el siguiente conjunto de datos categóricos

M A A A M A A M A A

La siguiente muestra de duraciones (horas) de baterías D puestas en cierto uso es un con-junto de datos numéricos univariantes:

5.6 5.1 6.2 6.0 5.8 6.5 5.8 5.5

Se tienen datos bivariantescuando se realizan observaciones en cada una de dos variables. El conjunto de datos podría consistir en un par (altura, peso) por cada jugador integrante del equipo de básquetbol, con la primera observación como (72, 168), la segunda como (75, 212), y así sucesivamente. Si un ingeniero determina el valor tanto de xcomponente de duración y yrazón de la falla del componente, el conjunto de datos resultante es bivarian-te con una variable numérica y la otra cabivarian-tegórica. Los datos multivariantes surgen cuando se realizan observaciones en más de una variable (por lo que bivariante es un caso especial de multivariante). Por ejemplo, un médico investigador podría determinar la presión sanguí-nea sistólica, la presión sanguísanguí-nea diastólica y nivel de colesterol en suero de cada pacien-te participanpacien-te en un estudio. Cada observación sería un triple de números, tal como (120, 80, 146). En muchos conjuntos de datos multivariantes, algunas variables son numéricas y otras son categóricas. Por lo tanto, el número anual dedicado al automóvil de Consumer Reportsda valores de tales variables como tipo de vehículo (pequeño, deportivo, compacto, tamaño mediano, grande), eficiencia de consumo de combustible en la ciudad (mpg), efi-ciencia de consumo de combustible en carretera (mpg), tipo de tren motriz (ruedas traseras, ruedas delanteras, cuatro ruedas), etcétera.

Ramas de la estadística

(22)

el cálculo de medidas numéricas, tales como medias, desviaciones estándar y coeficientes de correlación. La amplia disponibilidad de programas de computadora estadísticos han he-cho que estas tareas sean más fáciles de realizar de lo que antes eran. Las computadoras son mucho más eficientes que los seres humanos para calcular y crear imágenes (¡una vez que han recibido las instrucciones apropiadas del usuario!). Esto significa que el investigador no tiene que esforzarse mucho en el “trabajo tedioso” y tendrá más tiempo para estudiar los da-tos y extraer mensajes importantes. A lo largo de este libro, se presentarán los dada-tos de sa-lida de varios paquetes tales como MINITAB, SAS, S-Plus y R. El programa R puede ser descargado sin cargo del sitio http://www.r-project.org.

La tragedia que sufrió el transbordador espacial Challenger y sus astronautas en 1986 con-dujo a varios estudios para investigar las razones de la falla de la misión. La atención se en-focó de inmediato en el comportamiento de los sellos anulares del motor del cohete. He aquí datos derivados de observaciones en xtemperatura del sello anular (°F) en cada encendi-do de prueba o lanzamiento del motor del cohete del transbordaencendi-dor (Presidential Commis-sion on the Space Shuttle Challenger Accident, Vol. 1, 1986: 129-131).

84 49 61 40 83 67 45 66 70 69 80 58 68 60 67 72 73 70 57 63 70 78 52 67 53 67 75 61 70 81 76 79 75 76 58 31

Sin organización, es difícil tener una idea de cuál podría ser una temperatura típica o repre-sentativa, ya sea que los valores estén muy concentrados en torno a un valor típico o bastan-te esparcidos, ya sea que existan brechas en los datos, qué porcentaje de los valores están en los 60, y así sucesivamente. La figura 1.1 muestra lo que se conoce como gráfica de tallo y hojasde los datos, así como también un histograma. En breve, se discutirá la construcción e interpretación de estos resúmenes gráficos; por el momento se espera que se vea cómo es-tán distribuidos los valores de temperatura a lo largo de la escala de medición. Algunos de estos lanzamientos/encendidos fueron exitosos y otros fallaron.

Ejemplo 1.1

Figura 1.1 Una gráfica de tallo y hojas e histograma generados con MINITAB de los datos de temperatura de los sellos anulares.

Porcentaje

Temperatura

Tallo y hojas de temperatura N36 Unidad de hojas1.0

1 3 1

1 3

2 4 0

4 4 59

6 5 23

9 5 788

13 6 0113

(7) 6 6777789

16 7 000023

10 7 556689

4 8 0134

25 35 45 55 65 75 85

40

30

20

10

(23)

La temperatura más baja es de 31 grados, mucho más baja que la siguiente temperatura más baja y ésta es la observación en relación con el desastre del Challenger. La investigación presidencial descubrió que se requerían temperaturas calientes para la operación exitosa de los sellos anulares y que 31 grados eran demasiado frío. En el capítulo 13 se presentará una relación entre temperatura y la probabilidad de un lanzamiento exitoso. ■

Después de haber obtenido una muestra de una población, un investigador con fre-cuencia desearía utilizar la información muestral para sacar algún tipo de conclusión (hacer una inferencia de alguna clase) con respecto a la población. Es decir, la muestra es un me-dio para llegar a un fin en lugar de un fin por sí misma. Las técnicas para generalizar desde una muestra hasta una población se congregan dentro de la rama de la disciplina llamada es-tadística inferencial.

Las investigaciones de resistencia de materiales constituyen una rica área de aplicación de métodos estadísticos. El artículo “Effects of Aggregates and Microfillers on the Flexural Properties of Concrete” (Magazine of Concrete Research, 1997: 81-98) reportó sobre un es-tudio de propiedades de resistencia de concreto de alto desempeño obtenido con el uso de superplastificantes y ciertos aglomerantes. La resistencia a la compresión de dicho concre-to previamente había sido investigada, pero no se sabía mucho sobre la resistencia a la fle-xión (una medida de la capacidad de resistir fallas a flefle-xión). Los datos anexos sobre resistencia a la flexión (en megapascales, MPa, donde 1 Pa (pascal) 1.45 104lb/pulg2) aparecieron en el artículo citado:

5.9 7.2 7.3 6.3 8.1 6.8 7.0 7.6 6.8 6.5 7.0 6.3 7.9 9.0 8.2 8.7 7.8 9.7 7.4 7.7 9.7 7.8 7.7 11.6 11.3 11.8 10.7

Supóngase que se desea estimarel valor promedio de resistencia a la flexión de todas las vi-gas que pudieran ser fabricadas de esta manera (si se conceptualiza una población de todas esas vigas, se trata de estimar la media poblacional). Se puede demostrar que, con un alto gra-do de confianza, la resistencia media de la población se encuentra entre 7.48 MPa y 8.80 MPa; esto se llama intervalo de confianza o estimación de intervalo. Alternativamente, se podrían utilizar estos datos para predecir la resistencia a la flexión de una solaviga de este tipo. Con un alto grado de confianza, la resistencia de una sola viga excederá de 7.35 MPa; el

núme-ro 7.35 se conoce como límite de predicción inferior. ■

El objetivo principal de este libro es presentar e ilustrar métodos de estadística infe-rencial que son útiles en el trabajo científico. Los tipos más importantes de procedimientos inferenciales, estimación puntual, comprobación de hipótesis y estimación por medio de in-tervalos de frecuencia, se introducen en los capítulos 6 a 8 y luego se utilizan escenarios más complicados en los capítulos 9 a 16. El resto de este capítulo presenta métodos de estadís-tica descriptiva que se utilizan mucho en el desarrollo de inferencia.

Los capítulos 2 a 5 presentan material de la disciplina de probabilidad. Este material finalmente tiende un puente entre las técnicas descriptivas e inferenciales. El dominio de la pro-babilidad permite entender mejor cómo se desarrollan y utilizan los procedimientos inferencia-les, cómo las conclusiones estadísticas pueden ser traducidas al lenguaje diario e interpretadas y cuándo y dónde pueden ocurrir errores al aplicar los métodos. La probabilidad y estadística se ocupan de cuestiones que implican poblaciones y muestras, pero lo hacen de una “manera in-versa” una con respecto a la otra.

En un problema de probabilidad, se supone que las propiedades de la población estu-diada son conocidas (p. ej., en una población numérica, se puede suponer una cierta distri-bución específica de valores de la población) y se pueden plantear y responder preguntas con respecto a una muestra tomada de una población. En un problema de estadística, el ex-perimentador dispone de las características de una muestra y esta información le permite sa-car conclusiones con respecto a la población. La relación entre las dos disciplinas se resume diciendo que la probabilidad discurre de la población a la muestra (razonamiento deductivo),

(24)

mientras que la estadística inferencial discurre de la muestra a la población (razonamiento inductivo). Esto se ilustra en la figura 1.2.

Antes de que se pueda entender lo que una muestra particular pueda decir sobre la po-blación, primero se deberá entender la incertidumbre asociada con la toma de una muestra de una población dada. Por eso se estudia la probabilidad antes que la estadística.

Como un ejemplo del enfoque contrastante de la probabilidad y la estadística inferen-cial, el uso que los conductores hacen de los cinturones de seguridad manuales de regazo en carros equipados con sistemas de cinturones de hombro automáticos. (El artículo “Auto-mobile Seat Belts: Usage Patterns in Automatic Belt Systems”, Human Factors, 1998: 126-135, resume datos de uso.) Se podría suponer que probablemente 50% de todos los con-ductores de carros equipados de esta forma en cierta área metropolitana utilizan de manera regular su cinturón de regazo (una suposición sobre la población), así que se podría pregun-tar, “¿qué tan probable es que una muestra de 100 conductores incluirá por lo menos 70 que regularmente utilicen su cinturón de regazo?” o “¿cuántos de los conductores en una mues-tra de tamaño 100 se puede esperar que utilicen con regularidad su cinturón de regazo?” Por otra parte, en estadística inferencial se dispone de información sobre la muestra; por ejem-plo, una muestra de 100 conductores de tales vehículos reveló que 65 utilizan con regulari-dad su cinturón de regazo. Se podría entonces preguntar: “¿proporciona esto evidencia sustancial para concluir que más de 50% de todos los conductores en esta área utilizan con regularidad su cinturón de regazo?” En el último escenario, se intenta utilizar la informa-ción relativa a la muestra para responder una pregunta acerca de la estructura de toda la po-blación de la cual se seleccionó la muestra.

En el ejemplo del cinturón de regazo, la población está bien definida y concreta: todos los conductores de carros equipados de una cierta manera en un área metropolitana particu-lar. En el ejemplo 1.1, sin embargo, una muestra de temperaturas de sello anular está dispo-nible, pero proviene de una población que en realidad no existe. En su lugar, conviene pensar en la población como compuesta de todas las posibles mediciones de temperatura que se po-drían hacer en condiciones experimentales similares. Tal población se conoce como pobla-ción conceptual o hipotética. Existen varias situaciones en las cuales las preguntas encajan en el marco de referencia de la estadística inferencial al conceptualizar una población.

Estudios enumerativos contra analíticos

W. E. Deming, estadístico estadounidense muy influyente quien fue una fuerza propulsora en la revolución de calidad de Japón durante las décadas de 1950 y 1960, introdujo la dis-tinción entre estudios enumerativos y estudios analíticos. En los primeros, el interés se en-foca en un conjunto de individuos u objetos finito, identificable y no cambiante que conforman una población. Un marco de muestreo, es decir, una lista de los individuos u ob-jetos que tienen que ser muestreados, está disponible para un investigador o puede ser cons-truida. Por ejemplo, el marco se podría componer de todas las firmas incluidas en una petición para calificar una cierta iniciativa para las boletas de votación en una elección próxi-ma; por lo general se elige una muestra para indagar si el número de firmas válidas sobre-pasa un valor especificado. Como otro ejemplo, el marco puede contener números de serie de todos los hornos fabricados por una compañía particular durante cierto periodo; se puede seleccionar una muestra para inferir algo sobre la duración promedio de estas unidades. El uso de métodos inferenciales presentados en este libro es razonablemente no controversial en tales escenarios (aun cuando los estadísticos continúan argumentando sobre qué métodos particulares deben ser utilizados).

Población

Probabilidad

Estadística inferencial

Muestra

(25)

Un estudio analítico se define ampliamente como uno que no es de naturaleza enume-rativa. Tales estudios a menudo se realizan con el objetivo de mejorar un producto futuro al actuar sobre un proceso de una cierta clase (p. ej., recalibrar equipo o ajustar el nivel de al-guna sustancia tal como la cantidad de un catalizador). A menudo se obtienen datos sólo sobre un proceso existente, uno que puede diferir en aspectos importantes del proceso futu-ro. No existe por lo tanto un marco de muestreo que enliste los individuos u objetos de in-terés. Por ejemplo, una muestra de cinco turbinas con un nuevo diseño puede ser fabricada y probada para investigar su eficiencia. Estas cinco podrían ser consideradas como una muestra de la población conceptual de todos los prototipos que podrían ser fabricados en condiciones similares, pero nonecesariamente representativas de la población de las unida-des fabricadas una vez que la producción futura esté en proceso. Los métodos para utilizar la información sobre muestras para sacar conclusiones sobre unidades de producción futu-ras pueden ser problemáticos. Se deberá llamar a alguien con los conocimientos necesarios en el área del diseño e ingeniería de turbinas (o de cualquier otra área pertinente) para que juzgue si tal extrapolación es sensible. Una buena exposición de estos temas se encuentra en el artículo “Assumptions for Statistical Inference”, de Gerald Hahn y William Meeker (The American Statistician, 1993: 1-11).

Recopilación de datos

La estadística se ocupa no sólo de la organización y análisis de datos una vez que han sido recopilados sino también con el desarrollo de técnicas de recopilación de datos. Si éstos no son apropiadamente recopilados, un investigador no puede ser capaz de responder las pre-guntas consideradas con un razonable grado de confianza. Un problema común es que la po-blación objetivo, aquella sobre la cual se van a sacar conclusiones, puede ser diferente de la población realmente muestreada. Por ejemplo, a los publicistas les gustaría contar con va-rias clases de información sobre los hábitos de ver televisión de sus clientes potenciales. La información más sistemática de esta clase proviene de colocar dispositivos de monitoreo en un pequeño número de casas a través de Estados Unidos. Se ha conjeturado que la coloca-ción de semejantes dispositivos por sí misma modifica el comportamiento del televidente, de modo que las características de la muestra pueden ser diferentes de aquellas de la pobla-ción objetivo.

Cuando la recopilación de datos implica seleccionar individuos u objetos de un mar-co, el método más simple para garantizar una selección representativa es tomar una mues-tra aleatoria simple. Ésta es una para la cual cualquier subconjunto particular del tamaño especificado (p. ej., una muestra de tamaño 100) tiene la misma oportunidad de ser selec-cionada. Por ejemplo, si el marco se compone de 1 000 000 de números de serie, los núme-ros 1, 2, . . . , hasta 1 000 000 podrían ser anotados en trozos idénticos de papel. Después de colocarlos en una caja y mezclarlos perfectamente, se sacan uno por uno hasta que se ob-tenga el tamaño de muestra requisito. De manera alternativa (y mucho más preferible), se podría utilizar una tabla de números aleatorios o un generador de números aleatorios de computadora.

En ocasiones se pueden utilizar métodos de muestreo alternativos para facilitar el pro-ceso de selección, a fin de obtener información extra o para incrementar el grado de con-fianza en conclusiones. Un método como ése, el muestreo estratificado, implica separar las unidades de la población en grupos no traslapantes y tomar una muestra de cada uno. Por ejemplo, un fabricante de reproductores de DVD podría desear información sobre la satis-facción del cliente para unidades producidas durante el año previo. Si tres modelos diferen-tes fueran fabricados y vendidos, se podría seleccionar una muestra distinta de cada uno de los estratos correspondientes. Esto daría información sobre los tres modelos y garantizaría que ningún modelo estuviera sobre o subrepresentado en toda la muestra.

(26)

de tal modo que sea extremadamente difícil seleccionar a los que se encuentran en el cen-tro. Si los ladrillos localizados en la parte superior y a los lados de la pila fueran de algún modo diferentes a los demás, los datos muestrales resultantes no representarían la pobla-ción. A menudo un investigador supondrá que tal muestra de conveniencia representa en for-ma aproxifor-mada una muestra aleatoria, en cuyo caso el repertorio de métodos inferenciales de un estadístico puede ser utilizado; sin embargo, ésta es una cuestión de criterio. La ma-yoría de los métodos aquí analizados se basan en una variación del muestreo aleatorio sim-ple descrito en el capítulo 5.

Los ingenieros y científicos a menudo reúnen datos realizando alguna clase de expe-rimento. Esto puede implicar cómo asignar varios tratamientos diferentes (tales como ferti-lizantes o recubrimientos anticorrosivos) a las varias unidades experimentales (parcelas o tramos de tubería). Por otra parte, un investigador puede variar sistemáticamente los niveles o categorías de ciertos factores (p. ej., presión o tipo de material aislante) y observar el efec-to en alguna variable de respuesta (tal como rendimienefec-to de un proceso de producción).

Un artículo en el New York Times(27 de enero de 1987) reportó que el riesgo de sufrir un ataque cardiaco podría ser reducido tomando aspirina. Esta conclusión se basó en un ex-perimento diseñado que incluía tanto un grupo de control de individuos que tomaron un placebo que tenía la apariencia de aspirina pero que se sabía era inerte y un grupo de tra-tamiento que tomó aspirina de acuerdo con un régimen específico. Los sujetos fueron asignados al azar a los grupos para protegerlos contra cualquier prejuicio de modo que se pudieran utilizar métodos basados en la probabilidad para analizar los datos. De los 11 034 individuos en el grupo de control, 189 subsecuentemente experimentaron ataques cardiacos, mientras que sólo 104 de los 11 037 en el grupo de aspirina sufrieron un ata-que cardiaco. La tasa de incidencia de ataata-ques cardiacos en el grupo de tratamiento fue de sólo aproximadamente la mitad de aquella en el grupo de control. Una posible explica-ción de este resultado es la variaexplica-ción de la probabilidad, que la aspirina en realidad no tie-ne el efecto deseado y la diferencia observada es sólo una variación típica del mismo modo que el lanzamiento al aire de dos monedas idénticas por lo general produciría dife-rente cantidad de águilas. No obstante, en este caso, los métodos inferenciales sugieren que la variación de la probabilidad por sí misma no puede explicar en forma adecuada la

magnitud de la diferencia observada. ■

Un ingeniero desea investigar los efectos tanto del tipo de adhesivo como del material con-ductor en la fuerza adhesiva cuando se monta un circuito integrado (CI) sobre cierto sustra-to. Se consideraron dos tipos de adhesivos y dos materiales conductores. Se realizaron dos observaciones por cada combinación de tipo de adhesivo/material conductor y se obtuvie-ron los datos anexos.

Las fuerzas adhesivas promedio resultantes se ilustran en la figura 1.3. Parece que el adhe-sivo tipo 2 mejora la fuerza adhesiva en comparación con el tipo 1 en aproximadamente la misma cantidad siempre que se utiliza uno de los materiales conductores, con la combina-ción 2, 2 como la mejor. De nuevo se pueden utilizar métodos inferenciales para juzgar si estos efectos son reales o simplemente se deben a la variación de la probabilidad.

Supóngase además que se consideran dos tiempos de curado y también dos tipos de posrecubrimientos de los circuitos integrados. Existen entonces 2 2 2 2 16 combi-naciones de estos cuatro factores y es posible que el ingeniero no disponga de suficientes

?

?

?

Ejemplo 1.3

Ejemplo 1.4

Tipo de adhesivo Material conductor Fuerza de adhesión observada Promedio

1 1 82, 77 79.5

1 2 75, 87 81.0

2 1 84, 80 82.0

(27)

recursos para hacer incluso una observación sencilla para cada una de estas combinaciones. En el capítulo 11 se verá cómo la selección cuidadosa de una fracción de estas

posibilida-des usualmente dará la información posibilida-deseada. ■

Material conductor Fuerza

promedio

1 2

80 85

Adhesivo tipo 2

Adhesivo tipo 1

Figura 1.3 Fuerzas de adhesión promedio en el ejemplo 1.4.

EJERCICIOS

Sección 1.1 (1-9)

1. Dé una posible muestra de tamaño 4 de cada una de las si-guientes poblaciones.

a. Todos los periódicos publicados en Estados Unidos.

b. Todas las compañías listadas en la Bolsa de Valores de Nueva York.

c. Todos los estudiantes en su colegio o universidad.

d.Todas las calificaciones promedio de los estudiantes en su colegio o universidad.

2. Para cada una de las siguientes poblaciones hipotéticas, dé una muestra posible de tamaño 4.

a. Todas las distancias que podrían resultar cuando usted lan-za un balón de fútbol americano.

b. Las longitudes de las páginas de libros publicados de aquí a 5 años.

c. Todas las mediciones de intensidades posibles de terremo-tos (escala de Richter) que pudieran registrarse en Califor-nia durante el siguiente año.

d.Todos los posibles rendimientos (en gramos) de una cierta reacción química realizada en un laboratorio.

3. Considere la población compuesta de todas las computadoras de una cierta marca y modelo y enfóquese en si una computadora necesita servicio mientras se encuentra dentro de la garantía.

a. Plantee varias preguntas de probabilidad con base en la se-lección de 100 de esas computadoras.

b. ¿Qué pregunta de estadística inferencial podría ser respondi-da determinando el número de dichas computadoras en una muestra de tamaño 100 que requieren servicio de garantía?

4. a. Dé tres ejemplos diferentes de poblaciones concretas y tres ejemplos distintos de poblaciones hipotéticas.

b. Por cada una de sus poblaciones concretas e hipotéticas, dé un ejemplo de una pregunta de probabilidad y un ejemplo de pregunta de estadística inferencial.

5. Muchas universidades y colegios han instituido programas de instrucción suplementaria (IS), en los cuales un facilitador re-gularmente se reúne con un pequeño grupo de estudiantes

inscritos en el curso para promover discusiones sobre el ma-terial incluido en el curso y mejorar el dominio de la materia. Suponga que los estudiantes inscritos en un largo curso de es-tadística (¿de qué más?) se dividen al azar en un grupo de control que no participará en la instrucción suplementaria y en un grupo de tratamiento que sí participará. Al final del cur-so, se determina la calificación total de cada estudiante en el curso.

a. ¿Son las calificaciones del grupo IS una muestra de una población existente? De ser así, ¿cuál es? De no ser así, ¿cuál es la población conceptual pertinente?

b. ¿Cuál piensa que es la ventaja de dividir al azar a los es-tudiantes en los dos grupos en lugar de permitir que cada estudiante elija el grupo al que desea unirse?

c. ¿Por qué los investigadores no pusieron a todos los estu-diantes en el grupo de tratamiento? Nota: El artículo (“Supplemental Instruction: An Effective Component of Student Affairs Programming”, J. of College Student De-vel., 1997:577-586) discute el análisis de datos de varios programas de instrucción suplementaria.

6. El sistema de la Universidad Estatal de California (CSU, por sus siglas en inglés) consta de 23 terrenos universitarios, des-de la Estatal des-de San Diego en el sur hasta la Estatal Humboldt cerca de la frontera con Oregon. Un administrador de CSU desea hacer una inferencia sobre la distancia promedio entre la ciudad natal y sus terrenos universitarios. Describa y discuta diferentes métodos de muestreo, que pudieran ser empleados. ¿Éste sería un estudio enumerativo o un estudio analítico? Explique su razonamiento.

(28)

La estadística descriptiva se divide en dos temas generales. En esta sección, se considera la representación de un conjunto de datos por medio de técnicas visuales. En las secciones 1.3 y 1.4, se desarrollarán algunas medidas numéricas para conjuntos de datos. Es posible que usted ya conozca muchas técnicas visuales; tablas de frecuencia, hojas de contabilidad, his-togramas, gráficas de pastel, gráficas de barras, diagramas de puntos y similares. Aquí se se-leccionan algunas de estas técnicas que son más útiles y pertinentes a la estadística de probabilidad e inferencial.

Notación

Alguna notación general facilitará la aplicación de métodos y fórmulas a una amplia varie-dad de problemas prácticos. El número de observaciones en una muestra única, es decir, el

tamaño de muestra, a menudo será denotado por n, de modo que n4 para la muestra de universidades {Stanford, Iowa State, Wyoming, Rochester} y también para la muestra de lecturas de pH {6.3, 6.2, 5.9, 6.5}. Si se consideran dos muestras al mismo tiempo, my

no n1y n2se pueden utilizar para denotar los números de observaciones. Por lo tanto, si {29.7, 31.6, 30.9} y {28.7, 29.5, 29.4, 30.3} son lecturas de eficiencia térmica de dos tipos diferentes de motores diesel, entonces m3 y n4.

Dado un conjunto de datos compuesto de nobservaciones de alguna variable x, enton-ces x1, x2, x3, . . . , xndenotarán las observaciones individuales. El subíndice no guarda nin-guna relación con la magnitud de una observación particular. Por lo tanto, x1en general no será la observación más pequeña del conjunto, ni xnserá la más grande. En muchas aplica-ciones, x1será la primera observación realizada por el experimentador, x2la segunda, y así sucesivamente. La observación i-ésima del conjunto de datos será denotada por xi.

Gráficas de tallos y hojas

Considérese un conjunto de datos numéricos x1, x2, . . . , xnpara el cual xise compone de por lo menos dos dígitos. Una forma rápida de obtener la representación visual informativa del conjunto de datos es construir una gráfica de tallos y hojas.

8. La cantidad de flujo a través de una válvula solenoide en el sistema de control de emisiones de un automóvil es una ca-racterística importante. Se realizó un experimento para estu-diar cómo la velocidad de flujo dependía de tres factores: la longitud de la armadura, la fuerza del resorte y la profundidad de la bobina. Se eligieron dos niveles diferentes (alto y bajo) de cada factor y se realizó una sola observación del flujo por ca-da combinación de niveles.

a. ¿De cuántas observaciones consistió el conjunto de datos resultante?

b. ¿Este estudio es enumerativo o analítico? Explique su ra-zonamiento.

9. En un famoso experimento realizado en 1882, Michelson y Newcomb obtuvieron 66 observaciones del tiempo que re-quería la luz para viajar entre dos lugares en Washington, D.C. Algunas de las mediciones (codificadas en cierta mane-ra) fueron, 31, 23, 32, 36, 2, 26, 27 y 31.

a. ¿Por qué no son idénticas estas mediciones?

b. ¿Es éste un estudio enumerativo? ¿Por qué sí o por qué no?

1.2

Métodos pictóricos y tabulares

en la estadística descriptiva

Pasos para construir una gráfica de tallos y hojas

1. Seleccione uno o más de los primeros dígitos para los valores de tallo. Los segun-dos dígitos se convierten en hojas.

2. Enumere los posibles valores de tallos en una columna vertical. 3. Anote la hoja para cada observación junto al valor de tallo.

(29)

Si el conjunto de datos se compone de calificaciones de exámenes, cada uno entre 0 y 100, la calificación de 83 tendría un tallo de 8 y una hoja de 3. Para un conjunto de datos de efi-ciencias de consumo de combustible de automóviles (mpg), todas entre 8.1 y 47.8, se po-drían utilizar como el tallo, así que 32.6 tendría entonces una hoja de 2.6. En general, se recomienda una gráfica basada en tallos entre 5 y 20.

El consumo de alcohol por parte de estudiantes universitarios preocupa no sólo a la comu-nidad académica sino también, a causa de consecuencias potenciales de salud y seguridad, a la sociedad en su conjunto. El artículo (“Health and Behavioral Consequences of Binge Drinking in College”, J. of the Amer. Med. Assoc., 1994: 1672-1677) presentó un amplio es-tudio sobre el consumo excesivo de alcohol en universidades a través de Estados Unidos. Un episodio de parranda se definió como cinco o más tragos en fila para varones y cuatro o más para mujeres. La figura 1.4 muestra una gráfica de tallo y hojas de 140 valores de x porcentaje de edades de los estudiantes de licenciatura bebedores. (Estos valores no apare-cieron en el artículo citado, pero la gráfica concuerda con una gráfica de los datos que sí lo hicieron.)

La primera hoja de la fila 2 del tallo es 1, la cual dice que 21% de los estudiantes de una de las universidades de la muestra eran bebedores. Sin la identificación de los dígitos en los tallos y los dígitos en las hojas, no se sabría si la observación correspondiente al ta-llo 2, hoja 1 debería leerse como 21%, 2.1% o 0.21 por ciento.

Cuando se crea una imagen a mano, la ordenación de las hojas de la más pequeña a la más grande en cada línea puede ser tediosa. Esta ordenación contribuye poco si no se dis-pone de información adicional. Supóngase que las observaciones hubieran sido puestas en lista en orden alfabético por nombre de la escuela, como

16% 33% 64% 37% 31% . . .

Entonces la colocación de estos valores en la gráfica en este orden haría que la fila 1 del ta-llo tuviera 6 como su primera hoja y el principio de la fila 3 del tata-llo sería

3 °371 . . .

La gráfica sugiere que un valor típico o representativo se encuentra en la fila 4 del ta-llo, tal vez en el rango medio de 40%. Las observaciones no aparecen muy concentradas en torno a este valor típico, como sería el caso si todos los valores estuvieran entre 20 y 49%. Esta gráfica se eleva a una sola cresta a medida que desciende, y luego declina; no hay bre-chas en la gráfica. La forma de la gráfica no es perfectamente simétrica, pero en su lugar pa-rece alargarse un poco más en la dirección de las hojas bajas que en la dirección de las hojas altas. Por último, no existen observaciones que se alejen inusualmente del grueso de los da-tos (ningunos valores apartados), como sería el caso si uno de los valores de 26% hubiera sido de 86%. La característica más sobresaliente de estos datos es que, en la mayoría de las universidades de la muestra, por lo menos una cuarta parte de los estudiantes son bebedo-res. El problema de beber en exceso en las universidades es mucho más extenso de lo que

muchos hubieran sospechado. ■

Ejemplo 1.5

0 4

1 1345678889

2 1223456666777889999 Tallo: dígitos de diez cifras

3 0112233344555666677777888899999 Hojas: dígitos de una cifra 4 111222223344445566666677788888999

5 00111222233455666667777888899 6 01111244455666778

(30)

Una gráfica de tallos y hojas da información sobre los siguientes aspectos de los datos:

• Identificación de un valor típico o representativo.

• Grado de dispersión en torno al valor típico.

• Presencia de brechas en los datos.

• Grado de simetría en la distribución de los valores.

• Número y localización de crestas.

• Presencia de valores afuera de la gráfica.

La figura 1.5 presenta gráficas de tallos y hojas de una muestra aleatoria de longitudes de campos de golf (yardas) designados por Golf Magazinecomo los más desafiantes en Esta-dos UniEsta-dos. Entre la muestra de 40 campos, el más corto es de 6 433 yardas de largo y el más largo es de 7 280 yardas. Las longitudes parecen estar distribuidas de una manera aproximadamente uniforme dentro del rango de valores presentes en la muestra. Obsérvese que la selección de tallo en este caso de un solo dígito (6 ó 7) o de tres (643, . . . , 728) pro-duciría una gráfica no informativa, primero a causa de pocos tallos y segundo a causa de de-masiados.

Los programas de computadora de estadística en general no producen gráficas con ta-llos de dígitos múltiples. La gráfica MINITAB que aparece en la figura 1.5(b) resulta de

truncarcada observación al borrar los dígitos uno.

Gráficas de puntos

Una gráfica de puntos es un resumen atractivo de datos numéricos cuando el conjunto de datos es razonablemente pequeño o existen pocos valores de datos distintos. Cada observa-ción está representada por un punto sobre la ubicaobserva-ción correspondiente en una escala de me-dición horizontal. Cuando un valor ocurre más de una vez, existe un punto por cada ocurrencia y estos puntos se apilan verticalmente. Como con la gráfica de tallos y hojas, una gráfica de puntos da información sobre la localización, dispersión, extremos y brechas.

La figura 1.6 muestra una gráfica de puntos para los datos de temperatura de los sellos anu-lares introducidos en el ejemplo 1.1 en la sección previa. Un valor de temperatura represen-tativo es uno que se encuentra entre la mitad de los 60 (°F) y existe poca dispersión en torno al centro. Los datos se alargan más en el extremo inferior que en el superior y la observa-ción más pequeña, 31, apenas puede ser descrita como valor extremo.

Figura 1.5 Gráficas de tallo y hojas de yardajes de campos de golf: a) hojas de dos dígitos;

b) gráfica generada por MINITAB con las hojas de un dígito truncadas. ■

64 35 64 33 70 Tallo: dígitos de miles y cientos de cifras 65 26 27 06 83 Hojas: dígitos de decenas de cifras y una cifra

66 05 94 14

67 90 70 00 98 70 45 13

68 90 70 73 50

69 00 27 36 04

70 51 05 11 40 50 22

71 31 69 68 05 13 65

72 80 09

Tallo y hojas de yardaje N40 Unidad de hojas10

4 64 3367 8 65 0228 11 66 019 18 67 0147799 (4) 68 5779 18 69 0023 14 70 012455

8 71 013666

2 72 08

a) b)

Ejemplo 1.6

(31)

Si el conjunto de datos del ejemplo 1.7 hubieran consistido en 50 o 100 observacio-nes de temperatura, cada una registrada a un décimo de grado, habría sido muy tedioso cons-truir una gráfica de puntos. La técnica siguiente es muy adecuada a situaciones como esas.

Histogramas

Algunos datos numéricos se obtienen contando para determinar el valor de una variable (el número de citatorios de tráfico que una persona recibió durante el año pasado, el número de personas que solicitan empleo durante un periodo particular), mientras que otros datos se obtienen tomando mediciones (peso de un individuo, tiempo de reacción a un estímulo par-ticular). La prescripción para trazar un histograma es en general diferente en estos dos casos.

Una variable discreta xcasi siempre resulta de contar, en cuyo caso posibles valores son 0, 1, 2, 3, . . . o algún subconjunto de estos enteros. De la toma de mediciones surgen variables continuas. Por ejemplo, si xes el pH de una sustancia química, entonces en teoría

xpodría ser cualquier número entre 0 y 14: 7.0, 7.03, 7.032 y así sucesivamente. Desde lue-go, en la práctica existen limitaciones en el grado de precisión de cualquier instrumento de medición, por lo que es posible que no se pueda determinar el pH, el tiempo de reacción, la altura y la concentración con un número arbitrariamente grande de decimales. Sin embargo, desde el punto de vista de crear modelos matemáticos de distribuciones de datos, conviene imaginar un conjunto completo continuo de valores posibles.

Considérense datos compuestos de observaciones de una variable discreta x. La fre-cuencia de cualquier valor xparticular es el número de veces que ocurre un valor en el con-junto de datos. La frecuencia relativade un valor es la fracción o proporción de veces que ocurre el valor:

Supóngase, por ejemplo, que el conjunto de datos se compone de 200 observaciones de x el número de cursos que un estudiante está tomando en este semestre. Si 70 de estos valo-res xes 3, entonces

frecuencia del valor 3 de x: 70

frecuencia relativa del valor 3 de x:

Si se multiplica una frecuencia relativa por 100 se obtiene un porcentaje en el ejemplo de cursos universitarios, 35% de los estudiantes de la muestra están tomando tres cursos. Las

70

200 50.35

Figura 1.6 Gráfica de puntos de los datos de temperatura de los sellos anulares (°F). ■

Temperatura

30 40 50 60 70 80

DEFINICIÓN Una variable numérica es discretasi su conjunto de valores posibles es finito o se puede enumerar en una sucesión infinita (una en la cual existe un primer número, un segundo número, y así sucesivamente). Una variable numérica es continuasi sus va-lores posibles abarcan un intervalo completo sobre la línea de números.

(32)

frecuencias relativas, o porcentajes, por lo general interesan más que las frecuencias mis-mas. En teoría, las frecuencias relativas deberán sumar 1, pero en la práctica la suma puede diferir un poco de 1 por el redondeo. Una distribución de frecuenciaes una tabla de las frecuencias o de las frecuencias relativas, o de ambas.

Esta construcción garantiza que el áreade cada rectángulo es proporcional a la frecuencia relativa del valor. Por lo tanto, si las frecuencias relativas de x1 y x5 son 0.35 y 0.07, respectivamente, entonces el área del rectángulo sobre 1 es cinco veces el área del rectán-gulo sobre 5.

¿Qué tan inusual es un juego de béisbol sin hit o de un hit en las ligas mayores y cuán fre-cuentemente un equipo pega más de 10, 15 o incluso 20 hits? La tabla 1.1 es una distribu-ción de frecuencia del número de hits por equipo por juego de todos los juegos de nueve episodios que se jugaron entre 1989 y 1993.

El histograma correspondiente en la figura 1.7 se eleva suavemente hasta una sola cresta y luego declina. El histograma se extiende un poco más hacia la derecha (hacia valo-res grandes) que hacia la izquierda, un poco “asimétrico positivo”.

O con la información tabulada o con el histograma mismo, se puede determinar lo si-guiente:

frecuencia frecuencia frecuencia relativa relativa relativa

dex0 dex1 dex2

0.0010 0.0037 0.0108 0.0155 Construcción de un histograma para datos discretos

En primer lugar, se determina la frecuencia y la frecuencia relativa de cada valor x. Luego se marcan los valores xposibles en una escala horizontal. Sobre cada valor, se traza un rectángulo cuya altura es la frecuencia relativa (o alternativamente, la fre-cuencia) de dicho valor.

Ejemplo 1.8

Tabla 1.1Distribución de frecuencia de hits en juegos de nueve episodios

Número de Frecuencia Número de Frecuencia Hits/juego juegos relativa Hits/juego juegos relativa

0 20 0.0010 14 569 0.0294

1 72 0.0037 15 393 0.0203

2 209 0.0108 16 253 0.0131

3 527 0.0272 17 171 0.0088

4 1048 0.0541 18 97 0.0050

5 1457 0.0752 19 53 0.0027

6 1988 0.1026 20 31 0.0016

7 2256 0.1164 21 19 0.0010

8 2403 0.1240 22 13 0.0007

9 2256 0.1164 23 5 0.0003

10 1967 0.1015 24 1 0.0001

11 1509 0.0779 25 0 0.0000

12 1230 0.0635 26 1 0.0001

13 834 0.0430 27 1 0.0001

19 383 1.0005

(33)

Asimismo,

proporción de juegos con

0.0752 0.1026 . . .0.1015 0.6361 entre 5 y 10 hits (inclusive)

Esto es, aproximadamente 64% de todos estos juegos fueron de entre 5 y 10 hits

(inclu-sive). ■

La construcción de un histograma para datos continuos (mediciones) implica subdivi-dir el eje de medición en un número adecuado de intervalos de clase o clases, de tal suer-te que cada observación quede consuer-tenida en exactamensuer-te una clase. Supóngase, por ejemplo, que se hacen 50 observaciones de x eficiencia de consumo de combustible de un automóvil (mpg), la más pequeña de las cuales es 27.8 y la más grande 31.4. Entonces se podrían utilizar los límites de clase 27.5, 28.0, 28.5, . . . , y 31.5 como se muestra a con-tinuación:

Una dificultad potencial es que de vez en cuando una observación está en un límite de cla-se así que por consiguiente no cae en exactamente un intervalo, por ejemplo, 29.0. Una for-ma de habérselas con este problefor-ma es utilizar límites como 27.55, 28.05, . . . , 31.55. La adición de centésimas a los límites de clase evita que las observaciones queden en los lí-mites resultantes. Otro método es utilizar las clases 27.5–<28.0, 28.0–<28.5, . . . , 31.0–<31.5. En ese caso 29.0 queda en la clase 29.0–<29.5 y no en la clase 28.5–<29.0. En otras palabras, con esta convención, una observación que queda en el límite se coloca en el intervalo a la derechadel mismo. Así es como MINITAB construye un histograma.

27.5 28.0 28.5 29.0 29.5 30.0 30.5 31.0 31.5

Figura 1.7 Histograma de número de hits por juego de nueve episodios. 10

0.05

0 0.10

0 20 Hits/juego

Frecuencia relativa

Construcción de un histograma para datos continuos: anchos de clase iguales

(34)

Las compañías eléctricas requieren información sobre el consumo de los clientes para obte-ner pronósticos precisos de demandas. Investigadores de Wisconsin Power and Light deter-minaron el consumo de energía (BTU) durante un periodo particular con una muestra de 90 hogares calentados con gas. Se calculó un valor de consumo promedio como sigue:

consumo ajustado

Esto dio por resultado los datos anexos (una parte del conjunto de datos guardados FUR-NACE.MTW disponible en MINITAB, el cual se ordenó desde el valor más pequeño al más grande).

2.97 4.00 5.20 5.56 5.94 5.98 6.35 6.62 6.72 6.78

6.80 6.85 6.94 7.15 7.16 7.23 7.29 7.62 7.62 7.69

7.73 7.87 7.93 8.00 8.26 8.29 8.37 8.47 8.54 8.58

8.61 8.67 8.69 8.81 9.07 9.27 9.37 9.43 9.52 9.58

9.60 9.76 9.82 9.83 9.83 9.84 9.96 10.04 10.21 10.28

10.28 10.30 10.35 10.36 10.40 10.49 10.50 10.64 10.95 11.09 11.12 11.21 11.29 11.43 11.62 11.70 11.70 12.16 12.19 12.28 12.31 12.62 12.69 12.71 12.91 12.92 13.11 13.38 13.42 13.43 13.47 13.60 13.96 14.24 14.35 15.12 15.24 16.06 16.90 18.26

Se permite que MINITAB seleccione los intervalos de clase. La característica del histogra-ma en la figura 1.8 que más llahistogra-ma la atención es su parecido a una curva en forhistogra-ma de cam-pana (y por consiguiente simétrico), con el punto de simetría aproximadamente en 10.

Frecuencia 1–3 3–5 5–7 7–9 9–11 11–13 13–15 15–17 17–19

de clase 1 1 11 21 25 17 9 4 1

Frecuencia 0.011 0.011 0.122 0.233 0.278 0.189 0.100 0.044 0.011 relativa

consumo

(clima, en grados días)(área de casa)

De acuerdo con el histograma, proporción de

observaciones ⬇0.01 0.01 0.12 0.23 0.37 (valor exacto menor que 9

34

90 5 0.378d

Ejemplo 1.9

Figura 1.8 Histograma de los datos de consumo de energía del ejemplo 1.9.

Porcentaje

BTU

1 3 5 7 9 11 13 15 17 19

30

20

10

(35)

La frecuencia relativa para la clase 9-<11 es aproximadamente 0.27, así que se estima que en forma aproximada la mitad de ésta, o 0.135, queda entre 9 y 10. Por lo tanto

proporción de observaciones

⬇0.37 + 0.135 0.505 (poco más de 50%) menores que 10

El valor exacto de esta proporción es 47/90 0.522 ■

No existen reglas inviolables en cuanto al número de clases o la selección de las mis-mas. Entre 5 y 20 serán satisfactorias para la mayoría de los conjuntos de datos. En gene-ral, mientras más grande es el número de observaciones en un conjunto de datos, más clases deberán ser utilizadas. Una razonable regla empírica es

número de clases ⬇ 兹n苶ú苶m苶e苶苶ro苶苶d苶e苶苶o苶b苶s苶e苶r苶v苶a苶苶ci苶o苶n苶e苶s苶

Es posible que las clases de ancho-igual no sean una opción sensible si un conjunto de datos “se alarga” hacia un lado o el otro. La figura 1.9 muestra una curva de puntos de dicho conjunto de datos. Con un pequeño número de clases de ancho-igual casi todas las ob-servaciones quedan en exactamente una o dos de las clases. Si se utiliza un gran número de clases de ancho-igual las frecuencias de muchas clases será cero. Una buena opción es uti-lizar algunos intervalos más anchos cerca de las observaciones extremas y más angostos en la región de alta concentración.

La corrosión del acero de refuerzo es un problema serio en estructuras de concreto localiza-das en ambientes afectados por condiciones climáticas severas. Por esa razón, los investiga-dores han estado estudiando el uso de barras de refuerzo hechas de un material compuesto. Se realizó un estudio para desarrollar indicaciones para adherir barras de refuerzo reforzadas con fibra de vidrio a concreto (“Design Recommendations for Bond of GFRP Rebars to Con-crete”, J. of Structural Engr., 1996: 247-254). Considérense las siguientes 48 observaciones de fuerza adhesiva medida:

a)

b)

c)

Construcción de un histograma para datos continuos: anchos de clase desiguales

Después de determinar las frecuencias y las frecuencias relativas, se calcula la altura de cada rectángulo con la fórmula

altura del rectángulo

Las alturas del rectángulo resultante en general se conocen como densidadesy la es-cala vertical es la escala de densidades. Esta prescripción también funcionará cuan-do los anchos de clase son iguales.

frecuencia relativa de la clase

ancho de clase

Figura 1.9 Selección de intervalos de clase para un conjunto “alargado” de puntos: a) interva-los angostos de ancho igual; b) intervainterva-los amplios de ancho igual;

Gambar

cuadro siguiente. El valor de � debe ser conocido o se usa una estimación en su lugar.

Referensi

Dokumen terkait

Niño 10-12 años, ve más de dos horas la TV y dialoga con los padres respecto a lo que ve: “ Te enseñan a conocer las cosas que te pueden pasar si te marchas a una de estas cosas

Si una empresa o un país echa más dióxido de carbono del permitido, tiene que pagar una multa o puede pagar a otra empresa o país para que quite el exceso de dióxido de carbono

Una vez seleccionada la inca, es sumamente importante que el facilitador: 1) explique al in- quero los objetivos y la dinámica del curso, los posibles beneicios que él y su

en Las Vegas- y el bote inicial que usted sube es más pequeño. Es de- cir, la relación entre el dinero de quien sube y el dinero del primer apostante es de 14 a 4 dólares, mientras

CAROLINA ORTIX @ARA redonda y mas blanca que un nardo; ojos grandes, azules; boca roja como una herida¡ melena corta, rizada, dorada.. ¿Es · una muñeca o es una gran

La Ley en los convenios con Haití y do aun más rápidamente que Holanda y una rebaja de 50 las exportaciones, de manera por ciento aJ cacao molido, ba* que, según los últimos calcu-

La Ley en los convenios con Haití y do aun más rápidamente que Holanda y una rebaja de 50 las exportaciones, de manera por ciento aJ cacao molido, ba* que, según los últimos calcu-

Pero cada uno de esos cortes es más o menos amplio, según que ella se aproxime más a la base o al vértice; y además, cada una de esas representaciones completas de nuestro pasado no