Você está na página 1de 38

Estadística descriptiva6

Esquema capítulo
resúmenes de datos numéricos 6-1
6-2 Stem-and-Leaf diagramas 6-3 distribuciones de frecuencia e histogramas
diagramas de caja 6-4
6-5 6-6 parcelas de secuencia de tiempo, diagramas de dispersión 6-7 parcelas de
probabilidad
c06.indd 199
estadística es la ciencia de los datos. Un aspecto importante de tratar- ing con
datos es organizar y resumir los datos en formas que faciliten su interpretación y
análisis posteriores. Este aspecto de la estadística se denomina estadística
descriptiva, y es el tema de este capítulo. Por ejemplo, en el capítulo 1 nos pre-
sentaron ocho prototipos realizados sobre la retirada de la fuerza motor de
automóvil prototipo de conectores. Las observaciones (en libras) fueron de 12.6,
12.9, 13.4, 12.3, 13.6, 13.5, 12.6 y 13.1. Existe un evidente variabilidad en los
valores de la fuerza de tiro.
¿Cómo debemos resumir la información de estos datos?
Esta es la pregunta general que consideramos. Resumen de datos métodos deben
resaltar las características importantes de los datos, tales como el oriente o de
tendencia central y de variabilidad, debido a que estas características suelen ser
más importantes para la toma de decisiones de ingeniería. Veremos que existen ambos
métodos numéricos para resumir datos y una serie de potentes técnicas gráficas. Las
técnicas gráficas, son particularmente importantes. Cualquier buen análisis
estadístico de datos siempre debe comenzar con trazar los datos.
199
24/09/2013 6:48:51 PM

200 Capítulo 6/estadísticas descriptivas de


Objetivos de aprendizaje,
después de un estudio cuidadoso de este capítulo, debe ser capaz de hacer lo
siguiente:
1. Calcular e interpretar la media muestral, la varianza, la desviación típica
muestral, muestra la mediana y rango de la muestra
2. Explicar los conceptos de la media muestral, la varianza muestral, la población
media y varianza de la población 3. Construir e interpretar los datos visuales
muestra, incluyendo el tallo y hojas, mostrar el histograma, y el Box Plot
4. Explicar el concepto de muestreo aleatorio
5. Construir e interpretar parcelas de probabilidad normal
6. Explicar cómo utilizar diagramas de caja y otros datos de muestra para comparar
visualmente dos o más muestras de datos 7. Sepa cómo usar simples parcelas de
series de tiempo para mostrar visualmente las características importantes de
tiempo-oriented data
8. Saber cómo construir e interpretar diagramas de dispersión de dos o más
variables
numéricas 6-1 resúmenes de datos
bien construido y muestra resúmenes de datos son esenciales para el buen
pensamiento estadístico, porque puede concentrar el ingeniero en características
importantes de los datos o proporcionar información sobre el tipo de modelo que
debe utilizarse para resolver el problema. El ordenador se ha convertido en una
herramienta importante en la presentación y el análisis de datos. Aunque muchas
técnicas estadísticas requieren sólo una calculadora de mano, este enfoque puede
requerir mucho tiempo y esfuerzo, y un ordenador puede realizar las tareas mucho
más efi suficiente.
La mayoría de los análisis estadísticos se realiza a través de una biblioteca de
programas estadísticos predefinidos. El usuario introduce los datos y, a
continuación, selecciona los tipos de análisis y salida muestra que son de interés.
Paquetes estadísticos están disponibles para ambas máquinas de mainframe y com-
puters personales. Presentaremos ejemplos de salida típica de los programas
informáticos en todo el libro. No vamos a discutir el uso práctico de specii c
paquetes de software para la introducción y edición de datos o mediante comandos.
A menudo nos i nd útil describir las características de los datos numéricamente.
Por ejemplo, podemos terize caract.- la ubicación o la tendencia central de los
datos por el promedio aritmético normal o media.
Porque casi siempre nos pensar de nuestros datos, como un ejemplo, nos referiremos
a la media aritmética como la media de la muestra.

Si la media muestral n observaciones en una muestra se denota por x, x, x, 1, 2 ...


n la media muestral es
xi i
n ∑
= 1 x = x x x 1 2 + ++ ... n = (6-1) n n
Ejemplo 6-1 media de ejemplo, consideremos las ocho observaciones sobre pull-off
fuerza recogidos desde el proto- tipo conectores del motor en el Capítulo 1. Los
ocho observaciones son x x x 1 2 3 = == 12 6 12 9 13 4 . , ., . ,
X x xx 4 5 6 7 = === 12 3 13 6 13 5 12 6 . , ., . , . Y X8 = 13 1. . La media
muestral es
x =
8
x x x xi ∑
1 2 + ++ n i=1 12 6 12 9 13 1 . . . +++ 104 = = = =. 13 0 libras n 8 8 8
c06.indd 200 9/24/2013 6:48:52 PM

Sección 6-1/201 resúmenes de datos numéricos


una interpretación física de la media de la muestra como una medida de la ubicación
se muestra en el diagrama de puntos de los datos de la fuerza de tiro. Véase la
Fig. 6-1. Observe que la media muestral x = 13 0. Se puede considerar como un
"punto de equilibrio". Es decir, si cada observación representa 1 libra de masa
situado en el punto en el eje x, el eje se encuentra en x sería exactamente el
equilibrio de este sistema de pesos.
La media de la muestra es el valor promedio de todas las observaciones del conjunto
de datos. Generalmente, estos datos son una muestra de observaciones que han sido
seleccionadas de una población grande de observa- ciones. Aquí la población podría
consistir de todos los conectores que serán fabricados y vendidos a los clientes.
Recordar que este tipo de población se denomina conceptual o población hipotética
porque no existe físicamente. A veces hay un físico real de la pobla- ción, como un
montón de obleas de silicio producido en una fábrica de semiconductores.
En los capítulos anteriores, hemos introducido la media de una distribución de
probabilidad, denotados µ. Si pensamos en una distribución de probabilidad como un
modelo para la población, una manera de pensar de la media es el promedio de todas
las mediciones en la población. Para una población con N i nite igualmente probable
valores, la función de masa de probabilidad f x N ( ) i = 1/ y la media es

N
µ = ∑ (6-2)
i - 1 de
la media de la muestra,
n∑ xi i = 1 x f x i i ( )= N
x, es una estimación razonable de la media de la población, µ. Por lo tanto, el
engi- neer diseñar el conector con un 3/32 pulgadas de espesor de pared podría
concluir, sobre la base de los datos que una estimación de la media de la fuerza de
tiro es 13,0 libras.
Aunque la media de la muestra es útil, no transmitir toda la información acerca de
un Sam- ple de datos. La variabilidad o dispersión de los datos puede ser descrito
por la varianza o la desviación estándar de la muestra.
Varianza y Desviación estándar si x ,x, ,x 1 2 ... n es una muestra de n
observaciones, la varianza de la muestra es
2 i
n ∑
= 1
2 ( ) x x i -

s = (6-3) n - 1
La desviación estándar de la muestra, s es la raíz cuadrada positiva de la varianza
de la muestra.
Las unidades de medida de la varianza de la muestra son el cuadrado de las unidades
originales de la variable. Por lo tanto, si x 2 se mide en libras, las unidades de
la varianza de la muestra son (libras) .
La desviación estándar tiene la propiedad deseable de la medición de la
variabilidad en las unidades originales de la variable de interés, x.
¿Cómo medir la variabilidad de la varianza de la muestra?
Para ver cómo la varianza de la muestra las medidas de dispersión o variabilidad,
consulte la Fig. 6-2, que muestra un diagrama de puntos con las desviaciones x x i
- para el conector de datos de la fuerza de tiro. Cuanto mayor sea la cantidad de
variabilidad en los datos de la fuerza de tiro, el mayor en magnitud absoluta
x = 13
12 14 15
pull-off vigor
Figura 6-1 Dot diagrama que muestra la media de la muestra como un punto de
equilibrio para un sistema de pesos.
C06.indd 201 9/24/2013 6:48:54 PM

202 Capítulo 6/estadísticas descriptivas de


algunas de las desviaciones x x i - será. Porque las desviaciones x x i - siempre
suma cero, debemos utilizar una medida de variabilidad que cambia las desviaciones
negativas para no-negativo cuanti- tes. Cuadrar las desviaciones es el método usado
en la varianza de la muestra. Por consiguiente, si
2 2 s es pequeño, hay relativamente poca variabilidad en los datos, pero si es
grande, la variabilidad es relativamente grande.
Ejemplo 6-2 varianza muestral La tabla 6-1 muestra las cantidades necesarias para
el cálculo de la varianza y la desviación estándar de la muestra de la fuerza de
extracción de datos. Estos datos están representados en la Fig. 6-2.
2 El numerador de s

= ∑ i 8 1
2 ( ) x x i - = 1 60 .
5"#-& t 6-1 de términos para el cálculo de la varianza y la desviación estándar
de la muestra
i xi x x i - 2 ( ) x x i -
1 12,6 -0,4 0,16 2 12,9 -0,1 0,01 0,16 4 3 13,4 0,4 12,3 -0,7 0,49 5 13,6 13,5 0,5
0,6 0,36 6 0,25 7 12,6 -0,4
0,1 0,01 0,16 8 13.1
104.0 0.0 1.60
x
12 13 14 15 x2 x8
x1 x3
x7 x6
x4 x5
Figura 6-2 Cómo la varianza muestral mide la variabilidad a través de las
desviaciones xi - x .
así que la varianza de la muestra es de
2s = 1 60 . = 8 1 - 1 60 . = . 0 2286 7
2 libras ( )
y la desviación estándar de la muestra es S = . =. 0 2286 0 48 libras
2 Cálculo de s
2 El cálculo de s requiere el cálculo de x , n sustracciones, y n la cuadratura y
la adición de las operaciones. Si las observaciones originales o las desviaciones x
x i - no son enteros, el devia- nes x x i - puede ser tedioso trabajar con, y
varios decimales pueden tener que hacerse
c06.indd 202 9/24/2013 6:48:56 PM

Sección 6-1/203 resúmenes de datos numéricos


para asegurar la precisión numérica. Más efi ciente fórmula de cálculo de la
varianza de la muestra se obtiene de la siguiente manera:
2 i
n n n n 2 2 2 2 2 ∑ ∑ ∑ ( ) x x i - ( ) x x xx i i + - 2 x nx xx i + - 2 ∑ i ii = 1
s = = = = 1 i 1 i 1 = = - 1 - n - 1
y porque n x nx = ( ) , 1/ σ i=1 i esta última ecuación se reduce a
2  xi 2xi -  i
n ∑
= 1 
2 i
n ∑
= 1 N s = (6-4) n - 1 Nota que Ecuación 6-4 requiere cuadrar cada x , luego me
cuadrar la suma de la x , i
2 restar (∑
2 x n i ) / desde ∑ xi y i nalmente dividiendo n - 1. A veces esto se llama el
2 método abreviado para calcular s (o S).
Ejemplo 6-3 Vamos a calcular la varianza y desviación estándar mediante el método
abreviado, la ecuación 6-4. La fórmula da
2  xi 2 1 2 ( ) 104 xi -  i
n
= ∑  1353 6. -
2 i
n ∑
= 1 N s = = 8 n - 1 7 1 60 . 2 = = 0 228 . 6 6 7 ( ) Libras
y s = = 0 2286 0 48 . . Libras
estos resultados coinciden exactamente con los obtenidos anteriormente.
2 análogo al de la varianza muestral s , la variabilidad en la población es dei ned
por la varianza de la población ( 2 ) σ . Como en los capítulos anteriores, la raíz
cuadrada positiva de σ2, σ, o indica la desviación estándar de la población. Cuando
la población es i nite y consta de n valores igualmente probables, podemos dei ne
la varianza poblacional como
2 i
n ∑
= 1
2 ( ) xi - µ σ = (6-5) N hemos observado anteriormente que la media de la muestra
podría ser utilizado como un cálculo de la media de la población. Asimismo, la
varianza de la muestra es una estimación de la varianza poblacional. En el capítulo
7, trataremos los parámetros de estimación más formalmente.
Observe que el divisor de la varianza de la muestra es el tamaño de la muestra
menos 1 (n - 1), y la varianza de la población, es el tamaño de la población de N.
si supiéramos el verdadero valor de la media de la población µ, podríamos i nd la
varianza de la muestra como el promedio del cuadrado de la desviación de las
observaciones de la muestra acerca de µ. En la práctica, el valor de µ casi nunca
es conocido y, por lo tanto, la suma de los cuadrados de las desviaciones con
respecto a la muestra promedio x debe ser utilizado en su lugar. Sin embargo, las
observaciones xi tienden a estar más cerca de su promedio, x, que la media de la
población, µ. Por lo tanto, para compen- sate para esto, utilizamos n - 1 como
divisor en lugar de n. Si usamos n como el divisor de la varianza muestral,
obtendríamos una medida de variabilidad que se encuentra en la media
consistentemente menor que la verdadera población varianza σ2.
C06.indd 203 9/24/2013 6:49:00 PM

204 Capítulo 6/Estadística Descriptiva


2 Otra manera de pensar acerca de esto es considerar la varianza de la muestra s
como basada en n - 1 grados de libertad. El término de grados de libertad se deriva
del hecho de que el n desviaciones x xxx,xx 1 2 - , - -... n siempre se suma a cero
y, por tanto, especificar los valores de cualquier n -1 de estas cantidades
determina automáticamente el resto. Esto se ilustra en la Tabla 6-1. Por lo tanto,
sólo n -1 desviaciones de la n, x x, i - se determinan libremente. Podemos pensar
en el número de grados de libertad como el número de piezas independientes de
información en los datos.
Además de la varianza y la desviación estándar de la muestra, el rango de la
muestra, o la diferencia entre el mayor y menor de observaciones, con frecuencia es
una medida útil de la vari- capacidad. El rango de la muestra es deined como sigue.

Si el rango de la muestra n observaciones en una muestra se denota por x, x, x, 1,


2 ... n el rango de la muestra es

r x x = max min ( ) i - ( ) (6-6)


Para la extracción de datos de la fuerza, el rango de la muestra es de r =.= .-..
136 12 3 1 3 En general, así como la variabilidad en la muestra datos aumenta,
aumenta el rango de la muestra.
El rango de la muestra es fácil de calcular, pero omite toda la información de los
datos de la muestra entre los valores más grandes y más pequeños. Por ejemplo, las
dos muestras de 1, 3, 5, 8, 9 y 1, 5, 5, 5 y 9 tienen el mismo rango ( ), r = 8 .
Sin embargo, la desviación estándar de la muestra es irst s , 1 = . 3 35 mientras
que la desviación estándar de la segunda muestra es s2 = . . 2 83 La variabilidad
es en realidad menos en la segunda muestra.
A veces, cuando el tamaño de la muestra es pequeño, digamos n< , 8 10 o la
pérdida de información asociada con la gama no es demasiado grave. Por ejemplo, el
rango es ampliamente utilizado en el control de calidad estadístico donde los
tamaños de muestra de 4 o 5 son bastante comunes. Vamos a discutir algunas de las
apli- caciones en el Capítulo 15.
En la mayoría de estadísticas problemas, trabajamos con una muestra de
observaciones seleccionadas de la población que estamos interesados en estudiar. La
figura 6-3 ilustra la relación entre la población y la muestra.
Población
m s
muestra (x1, x2, x3, ... , Xn)
x, muestra promedio, desviación estándar de muestra el
histograma
x x s
Figura 6-3 Relación entre una población y una muestra.
C06.indd 204 9/24/2013 6:49:02 PM
Sección 6-1/resúmenes de datos numéricos 205
ejercicios para la sección 6-1
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-1. Será la media de la muestra siempre corresponden a uno de la media cae en este
diagrama. Dar una interpretación práctica de observaciones de la muestra? La media
de la muestra.
6-2. Será exactamente la mitad de las observaciones en una muestra caer 6-13. El 22
de abril de 1991, tema de la Semana de la aviación y por debajo de la media? La
tecnología espacial informó que durante la operación Desert 6-3. Será la media de
la muestra sea siempre la tormenta más frecuentemente, la Fuerza Aérea de EE.UU. F-
117A pilotos lew 1270 combatir sor- produce el valor de los datos en la muestra?
Corbatas para un total de 6905 horas. ¿Cuál es la duración media de un 6-4. Para
cualquier conjunto de valores de datos, es posible que la muestra F-117una misión
durante esta operación? ¿Por qué es el parámetro de la desviación estándar para ser
más grande que la media de la muestra? Si es así, se ha calculado una media de la
población?
Dar un ejemplo. 6-14. Prevenir la fatiga propagación de las grietas en estructuras
de aviones 6-5. La desviación estándar de la muestra puede ser igual a cero? Si es
así, es un elemento importante de la seguridad de la aeronave. Un estudio de
ingeniería dar un ejemplo. Para investigar la fatiga grieta en n = 9 cíclicamente
cargado cajas ala 6-6. Supongamos que agrega 10 a todas las observaciones en un
informó de las siguientes longitudes de crack (en mm): 2.13, 2.96, 3.02, muestra.
¿Cómo este cambio de la media muestral? ¿Cómo 1.82, 1.15, 1.37, 2.04, 2.47, 2.60.
Calcular la media de la muestra y cambiar la desviación estándar de la muestra?
Desviación estándar de la muestra. Preparar un diagrama de puntos de los datos.
6-7. Se realizaron 8 mediciones en el interior diam- 6-15. Un artículo en la
revista de fisiología ["Respuesta de eter rata de anillos de pistón forjado
utilizado en un motor de automóvil. El músculo en ejercicio de resistencia aguda a
nivel transcripcional Deined datos (en milímetros) son 74.001, 74.003, 74.015,
74.000, y traslacional Proiling" (2002, vol. 545, págs. 27-41)] estudiado 74.005,
74.002, 74.005 y 74.004. Calcular la expresión génica muestra como una función de
ejercicio de resistencia. Expression Media y la desviación estándar de la muestra,
construir un diagrama de puntos, los datos (medidas de actividad génica) de un gen
se muestran en la y comentar los datos. tabla siguiente. Un grupo de ratas fue
ejercido durante seis horas 6-8. En el análisis de datos aplicados a la vida
(Wiley, mientras que el otro no recibió ningún ejercicio. Calcular la media de la
muestra 1982), Wayne Nelson presenta el desglose del tiempo de un insulat- y la
desviación estándar del ejercicio y no grupos de ejercicio de sep- ing luid entre
electrodos a 34 kV. El tiempo, en minutos, son arado. Construir un diagrama de
puntos para el ejercicio y el no ejercicio de la siguiente manera: 0.19, 0.78,
0.96, 1.31, 2.78, 3.16, 4.15, 4.67, 4.85, grupos por separado. Comentario sobre las
diferencias de los grupos.
6.50, 7.35, 8.01, 8.27, 12.06, 31.75, 32.52, 33.91, 36.71 y 72.89. Calcular la
media muestral y la desviación estándar de la muestra. 6 horas de 6 horas No No 6-
9. Enero de 1990 la cuestión de la tendencia de Arizona contiene un Ejercicio
Ejercicio Ejercicio Ejercicio suplemento describiendo las 12 "mejores" campos de
golf en el estado. 425.313 208.475 485.396 406.921 La yardages (longitud) de estos
cursos son los siguientes: 6981, 223.306 286.484 159.471 335.209 7099, 6930, 6992,
7518, 7100, 6935, 7518, 7013, 6800, 7041 y 6890. Calcular la media de la muestra y
muestra 388.793 244.242 478.314
desviación estándar. Construir un diagrama de puntos de los datos. 139.262 408.099
245.782 6-10. Un artículo en la Revista de Ingeniería Estructural 212.565 157.743
236.212 (Vol. 115, 1989) describe un experimento para probar la fuerza de
producción 324.024 252.773 436.37 de tubos circulares con tapas soldadas a los
extremos. El irst rendimientos (en kN) son 96, 96, 102, 102, 102, 104, 104, 108,
126, 126, 128, 128, 616. Ejercicio 6-11 describe los datos de un artículo en el
140, 156, 160, 160, 164 y 170. Calcular la media de la muestra y factores humanos
en visual alojamiento desde un experimento una desviación estándar de la muestra.
Construir un diagrama de puntos de los datos. con una alta resolución de pantalla
CRT.
6-11. Un artículo en factores humanos (junio de 1989) presentó datos de un segundo
experimento utilizando una pantalla de baja resolución datos sobre alojamiento
visual (una función de movimiento del ojo) también fueron denunciados en el
artículo. Son 8.85, 35.60, 26,53, cuando reconoce un patrón moteado en un CRT de
alta resolución 64.63, 09.00, 15.38, 8.14 y 8.24. Preparar un diagrama de puntos
para esta pantalla. Los datos son los siguientes: 36.45, 38.77, 42.18, el 67,90, la
segunda muestra y compararla con la de la primera muestra.
26.72, 50.77, 39.30 y 49.71. Calcular la media de la muestra y qué se puede
concluir acerca de la resolución de la CRT en esta situación?
Desviación estándar de la muestra. Construir un diagrama de puntos de los datos. 6-
17. El pH de una solución se mide ocho veces por un 6-12. Los siguientes datos son
de intensidad solar directa cam- el operador, utilizando el mismo instrumento. Ella
obtiene los siguientes
2 urements (vatios/m ) en días diferentes en una ubicación en el sur de datos:
7.15, 7.20, 7.18, 7.19, 7.21, 7.20, 7.16 y 7.18. Se ha calculado- España: 562, 869,
708, 775, 775, 704, 809, 856, 655, 806, 878, finales de la media muestral y la
desviación estándar de la muestra. Comentario 909, 918, 558, 768, 870, 918, 940,
946, 661, 820, 898, 935, sobre las posibilidades de las principales fuentes de
variabilidad en este experimento.
952, 957, 693, 835, 905, 939, 955, 960, 498, 653, 730 y 6-18. Un artículo en la
revista de aeronaves (1988) describió 753. Calcular la media muestral y la
desviación estándar de la muestra. El cómputo de arrastre para la NASA coeficients
0012 Air- Preparar un diagrama de puntos de estos datos. Indican que la muestra de
papel de aluminio. Se utilizaron diferentes algoritmos computacionales en M∞ = . 0
7
c06.indd 205 9/24/2013 6:49:03 PM

206 Capítulo 6/estadística descriptiva


con los siguientes resultados (arrastre coeficients son unidades de arrastre dentro
de las nubes para promover la lluvia fue ampliamente utilizado en el 20cen- cuenta;
es decir, un recuento es equivalente a un coeficiente de arrastre tury.
Investigaciones recientes han cuestionado su eficacia [Oficial 0,0001): 79, 100,
74, 83, 81, 85, 82, 80 y 84. Calcular el de Investigación Atmosférica (2010, Vol 97
(2), págs. 513- 525)]. La media muestral, la varianza muestral, y una desviación
estándar de la muestra, el experimento se realizó, asignando aleatoriamente 52
nubes y construir un diagrama de puntos. para ser sembrada o no. La cantidad de
lluvia generada fue luego 6-19. Los siguientes conjuntos de datos son las
temperaturas de los medidos en acres-pies. Aquí están los datos para el unseeded y
juntas tóricas (°F) para cada prueba iring o el lanzamiento efectivo del espacio
sembrado de nubes:
shuttle rocket motor (desde la Comisión Presidencial sobre el Unseeded:
accidente del transbordador espacial Challenger, Tomo 1, págs. 129-131): 84, 49,
61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 73, 70, 57, 81,2 26,1 95,0
95,0 41,1 28,6 41,1 28,6 21,7 11,5 28,6 21,7 11,5 68,5 345. 21.7 11.5 68.5 11.5
68.5 345.5 345.5 321.2 321.2 345.5 321.2 345.5 321.2 68.5 321.2 63, 70, 78, 52, 67,
53, 67, 75, 61, 70, 81, 76, 79, 75, 76, 58, 31. 1202.6 1,0 4,9 1 4,9 173,0 372.
173,0 372.4 372.4 244.3 244.3 47 47,3 87,0 26,3 47,3 87,0 26,3 24,4 244.3 47.3 87.0
26.3 24.4 87.0 26.3 24.4 26.3 24.4 24.4 36.6 36.6 147.8 830.1 4.9 17. 147.8 17.3
29.0 17.3 29.0 29.0 (a) Calcular la media muestral y la desviación estándar de
muestra y promocionados: Construir un diagrama de puntos de los datos de
temperatura.
(B) anuló la observación menor (31°F) y recalculan 274,7 302.8 242.5 242.5 255.0
17.5 255.0 17,5 115,3 31,4 17,5 31,4 115,3 115,3 31,4 703.4 703.4 334.1 334.1 703.4
334.1 703.4 334.1 31.4 334.1 las cantidades en la parte (a). Comentar la indings.
Cómo 198.6 129.6 198.6 1697.8 118,3 274,7 129,6 274,7 274,7 1656.0 1656.0 119.0
430.0 119.0 119.0 7.7 7.7 7.7 1656.0 1656.0 430.0 430.0 430.0 430.0 7.7
"diferentes" son otras de las temperaturas a partir de este último valor? 40,6 92,4
200. 200.7 32.7 4.1 32.7 4.1 4.1 978.0 978.0 489.1 489.1 978.0 489.1 489.1 2745.6
2745.6 2745.6 6-20. Los Estados Unidos tiene una infraestructura envejecida como
broma- Hallar la media de la muestra, la muestra, la desviación estándar y el rango
nessed por varios desastres recientes, incluyendo la I-35, el puente de las
precipitaciones para el fracaso en Minnesota. La mayoría de los Estados
inspeccionar sus puentes con regularidad (a) Todas las 52 nubes y reportan su
condición (en una escala de 1 a 17) para el público. (B) Las nubes unseeded Aquí
están los números de condición de una muestra de 30 puentes (c) el sembrado de
nubes en el Estado de Nueva York (Https://www.dot.ny.gov/main/bridgedata):
5.08 5.44 6.66 5.07 6.80 5.43 4.83 4.00 4.41 4.38 6-23. Construir diagramas de
puntos del sembrado y unseeded 7.00 5.72 4.53 6.43 3.97 4.19 6.26 6.72 5.26 5.48
nubes y comparar sus distribuciones en un par de frases.
4.95 6.33 4.93 5.61 4.66 7.00 5.57 3.42 5.18 4.54 6-24. En las Olimpiadas de Sydney
2000, un programa especial in-
(a) Hallar la media muestral y la desviación estándar de muestra de ados por el
presidente del COI, Juan Antonio Samaranch permitido desarro-
llando. números de estas condiciones a los países a enviar atletas para los Juegos
Olímpicos sin el
(b) Construir un diagrama de puntos de los datos. habitual procedimiento de
calificación. Aquí están las 71 veces para el irst ronda de los 100 metros hombres
nadar (en segundos). 6-21. En un intento de medir los efectos de la lluvia ácida,
la investigación- ers mide el pH (7 es neutro y valores inferiores a 7 son ácidos)
49.93 60.39 53.40 53.40 50.46 51.34 50.46 51,82 51,82 50.28 50.46 51.34 50.28 50.19
52.14 51.34 50.28 50.19 52.14 50.28 50.19 52.14 50.19 52.14 52.14 de agua recogida
de la lluvia en el condado de Ingham, Michigan. 50.56 52.72 50.95 50.95 52.57 49.16
49,74 49,74 49.16 52.53 49.16 52.57 52.53 52.09 52.40 52.57 52.53 52.09 52.40 52.53
52.09 52.40 52.09 52.40 52.40 49.75 54.06 53.50 53.50 50.63 52.58 50.63 51,93 51,93
51,62 51,93 51,62 51,07 51,62 52.58 52.58 53.55 53.55 52.58 53.55 53.55 51,07 51,07
51,07 51,07 5,47 5,37 5,38 4,63 5,37 3,74 3,71 4,96 4,64 5,11 el 49,76 el 49,73
49,29 59.26 50.90 50.90 59.26 52.78 52.78 49,29 49,29 112.72 112.72 112.72 49.79
49.83 52.78 49.79 49.83 49.79 49.83 49.83 5.65 5.39 4.16 5.62 4.57 4.64 5.48 4.57
4.57 4.51 51.28 El 52,22 52,43 el 52,22 el 49,76 49.70 52.90 50.19 49.70 El 49,76
49.70 52.90 50.19 54.33 62.45 52.90 50.19 54.33 62.45 50.19 54.33 62.45 54.33 62.45
62.45 4.86 4.56 4.61 4.32 3.98 5.70 4.15 3.98 5.65 3.10 52.82 52.82 51,93 52.24
50.96 48.64 50.96 48.64 51.11 50.87 48.64 51.11 54.12 51.11 50.87 50.87 52,18 52,18
52,18 52,18 54.12 54.12 50.87 54.12 54.12 5.04 4.62 4.51 4.34 4.16 4.64 5.12 3.71
4.64 5.59 50.49 49.84 52.91 52.91 50.32 50.32 51.52 52,52 52,52 52,0 50.32 51.52
52.85 51.52 52.24 52.0 52.0 52.85 52.24 52.85 52.24 52.85 52.24 52.0 52.24
(a) encontrar la media muestral y la desviación estándar de muestra de 49.45 51.28
49.09 49.09 58.79 58.79 49.32 50.62 49,74 49,74 49,74 49.32 50.62 49.45 49.32 50.62
49.45 50.62 49.45 49.45
estas mediciones. (A) Hallar la media muestral y la desviación estándar de la
muestra (b) Construir un diagrama de puntos de los datos. Estos tiempos de natación
de 100 metros.
6-22. Siembra de nubes, un proceso en el cual los productos químicos tales como el
sil- (b) Construir un diagrama de puntos de los datos. La
versión de yodo y de dióxido de carbono congelado son introducidos por los aviones
(c) comentar algo inusual que puede ver.
6-2 de tallo y hojas de esquemas
del dot diagrama es una visualización de datos útiles para pequeñas muestras hasta
aproximadamente 20 observaciones. Sin embargo, cuando el número de observaciones es
moderadamente grande, otras pantallas gráficas puede ser más útil.
Por ejemplo, considerar los datos en la Tabla 6-2. Estos datos son los puntos
fuertes de compresión en libras por pulgada cuadrada (psi) de 80 ejemplares de una
nueva aleación de aluminio y litio sometidos a la evaluación como un posible
material para elementos estructurales de aviones. Los datos fueron registrados en
el orden de las pruebas, y en este formato no transmitir mucha información acerca
de compres- sive de fuerza. Preguntas tales como "¿Qué tanto por ciento de los
especímenes no inferior a 120 psi?" no son
c06.indd 206 9/24/2013 6:49:03 PM

Sección 6-2/Tallo y Hoja 207 diagramas


fáciles de contestar. Porque hay muchas observaciones, construyendo un diagrama de
puntos de estos datos sería relativamente inefi ciente; muestra más eficaces están
disponibles para grandes conjuntos de datos.
5"#-& t 6-2 fuerza compresiva (psi) de 80 especímenes de aleación Aluminum-
Lithium
105 221 183 186 121 181 180 143 97 154 153 174 120 168 167 141 245 228 174 199 181
158 176 110 163 131 154 115 160 208 158 133 207 180 190 193 194 133 156 123 134 178
76 167 184 135 229 146 218 157 101 171 165 172 158 169 199 151 142 163 145 171 148
158 160 175 149 87 160 237 150 135 196 201 200 176 150 170 118 149
un tallo y hoja diagrama es una buena forma de obtener una informativa presentación
visual de un conjunto de datos x ,x, ,x 1 2 ... n, donde cada número xi Se compone
al menos de dos dígitos. Para construir un tallo y hoja diagrama, utilice los pasos
siguientes.
Pasos para construir un tallo y hoja (1) dividir cada número xi en dos partes: un
vástago, compuesto por uno o más dígitos iniciales del diagrama, y una hoja,
compuesto por los dígitos restantes.
(2) Lista los valores del tallo en una columna vertical.
(3) Registrar la hoja por cada observación junto a su madre.
(4) escribir las unidades para tallos y hojas en la pantalla.
Para ilustrar, si el porcentaje de datos constan de información defectuosa entre 0
y 100 en lotes de obleas de semiconductores, podemos dividir el valor 76 en el
tallo y la hoja 7 6. En general, debemos escoger tallos relativamente escasos en
comparación con el número de observaciones. Generalmente, es mejor elegir entre 5 y
20 tallos.
Ejemplo 6-4 fuerza de aleación para ilustrar la construcción de un tallo y hoja
diagrama, considere la posibilidad de la aleación, resistencia a la compresión de
datos en la Tabla 6-2. Seleccionaremos como valores troncales los números 7 89
24 ,, , .... La resultante de tallo y hojas se presenta en el diagrama de la Fig.
6-4. La última columna del diagrama es un recuento del número de frecuencias de las
hojas asociadas a cada tallo. La inspección de esta pantalla inmediatamente revela
que la mayoría de las fortalezas de compresión se encuentran entre 110 y 200 psi y
que un valor central se sitúa entre 150 y 160 psi.
Además, las fortalezas se distribuyen aproximadamente simétricamente alrededor del
valor central. El tallo y hojas diagrama nos permite determinar rápidamente algunas
características importantes de los datos que no son inmediatamente evidentes en la
pantalla original en la Tabla 6-2.
En algunos conjuntos de datos, proporcionando más clases o tallos pueden ser
deseables. Una forma de hacerlo sería modificar el original proviene de la
siguiente manera: Divida el tallo 5 en dos nuevos vástagos, 5L y 5U. Tallo 5L con
las hojas 0, 1, 2, 3 y 4, y el tallo tiene 5U hojas 5, 6, 7, 8 y 9.
De esta forma se duplicará el número de tallos originales. Podríamos aumentar el
número de tallos original por cuatro por dei ning i ve nuevos vástagos: 5z con
hojas 0 y 1, 5t (para dos y tres) con hojas 2 y 3, 5f (de perrito y me ves) con
hojas 4 y 5, 5s (para seis y siete) con hojas 6 y 7, y 5e con hojas 8 y 9.
c06.indd 207 9/24/2013 6:49:04 PM
208 Capítulo 6/Estadísticas descriptivas
frecuencia Hoja Tallo 76 1 87 1 97 1 10 5 1 2 11 5 8 0 3 12 1 0 3 3 13 4 1 3 5 3 5
6 14 2 9 5 8 3 1 6 9 8 15 4 7 1 3 4 0 8 8 6 8 0 8 12 16 3 0 7 3 0 5 0 8 7 9 10 17 8
5 4 4 1 6 2 1 0 6 10 18 0 3 6 1 4 1 0 7 19 9 6 0 9 3 4 6 20 7 1 0 8 4 21 8 1 22 1 8
9 3 23 7 1 24 5 1
:tallo decenas y centenares de dígitos (psi); Hoja: Los dígitos (psi).
Figura 6-4 de Tallo y hoja diagrama para la resistencia a la compresión de datos en
la Tabla 6-2.
Ejemplo 6-5 rendimiento químico Figura 6-5 es el tallo y hojas diagrama para 25
observaciones sobre los rendimientos de los lotes de un proceso químico. En la Fig.
6-5(a), hemos usado 6, 7, 8 y 9 como los tallos. Esto se traduce en muy pocos
tallos, y el tallo y hojas diagrama no proporcionan mucha información acerca de los
datos. En la Fig. 6-5(b), hemos dividido cada tallo en dos partes, lo que se
traduce en una pantalla que muestra los datos de forma más adecuada. Figura 6-5(c)
ilustra un tallo y hojas de cada tallo con pantalla dividida en i ve las piezas.
Hay demasiados tallos en esta parcela, resultando en una pantalla que no nos dicen
mucho acerca de la forma de los datos.
Tallo tallo hojas HOJA HOJA Tallo 6 1 3 4 5 5 6 6 L 1 3 4 6z 1 7 0 1 1 3 5 7 8 8 9
6U 5 5 6 6t 3 8 1 3 4 4 7 8 8 7l 0 1 1 3 6f 4 5 5 9 2 3 5 7U 5 7 8 8 9 6s 6 ( a) 8L
1 3 4 4 6e 8U 7 8 8 0 1 1 7z 9L 2 3 7t 3 5 9U 7f 5 ( b) 7S7 7e 8 8 9 8z 1 8t 3 8f 4
4 8 7 8e 8 8 9z 9t 2 3 9f 5, 9s, 9e (c)
Figura 6-5 Tallo y hojas de muestra por ejemplo 6-5. Tallo: decenas de dígitos.
Hoja: unos dígitos.
C06.indd 208 9/24/2013 6:49:04 PM

Sección 6-2/Stem-and-Leaf diagramas 209


s t e m a n - d - e l a f o f s t r e n g t h s t r e n g t h n = 8 0 e l a f u n i
t = 1 . 0 1 . 0
1 7 6 2 8 7 3 9 7 5101 5 8 11 0 5 8 11 12 0 1 3 17 13 1 3 3 4 5 5 25 14 1 2 3 5 6 8
9 9 37 15 0 0 1 3 4 4 6 7 8 8 8 8 (10) 16 0 0 0 3 3 5 7 7 8 9 33 17 0 1 1 2 4 5 6 6
8 23 18 0 0 1 1 3 4 6 16 19 0 3 4 6 9 9 10 20 0 1 7 8
Figura 6-6 un típico 6 21 8
5 22 generado por ordenador 1 8 9
stem-and-leaf 2 23 7
diagrama. 1 24 5 La
figura 6-6 es una típica cola generada por ordenador y visualización de hojas de la
resistencia a la compresión de datos en la Tabla 6-2. El software utiliza el mismo
tallos como en la Fig. 6-4. Tenga en cuenta también que las órdenes de equipo las
hojas de menor a mayor en cada tallo. Esta forma de la parcela es generalmente
llamado una ordenada de tallo y hojas de dibujo. Esto no es usualmente utilizada
cuando la parcela está construido manu- aliado porque puede llevar mucho tiempo. El
equipo también se agrega una columna a la izquierda de los tallos que ofrece un
recuento de las observaciones por encima de cada tallo en la mitad superior de la
pantalla y un recuento de las observaciones en y debajo de cada tallo en la mitad
inferior de la pantalla. En el tronco en el medio de 16, la columna indica el
número de observaciones en este tallo.
La ordenada de tallo y hojas de pantalla hace que sea relativamente fácil de ind
características de datos como per- centiles, cuartiles y la mediana. La mediana de
la muestra es una medida de tendencia central que divide los datos en dos partes
iguales, la mitad por debajo de la mediana y la otra mitad por encima. Si el número
de observaciones es par, la mediana es a mitad de camino entre los dos valores
centrales. A partir de la Fig. 6-6 nos ind la 40a. y 41a valores de fuerza como 160
y 163, por lo que el valor de la mediana es (160 163 2 161 5 + ) / = ..
Si el número de observaciones es impar, la mediana es el valor central. La muestra
es el modo más frecuente valor de datos. La Figura 6-6 indica que el modo es 158;
este valor se repite cuatro veces, y ningún otro valor ocurre con mayor frecuencia
en la muestra. Si hay más de un valor que se produjeron cuatro veces, los datos
tienen múltiples modos.
También podemos dividir los datos en más de dos partes. Cuando un conjunto ordenado
de datos se divide en cuatro partes iguales, los puntos de división son llamados
cuartiles. El irst o cuartil inferior, q1, es un valor que tiene aproximadamente el
25% de las observaciones por debajo y alrededor del 75% de las observaciones
anteriores. El segundo cuartil, Q2, tiene aproximadamente un 50% de las observa-
ciones por debajo de su valor. El segundo cuartil es exactamente igual a la
mediana. El tercer cuartil superior o, q3 tiene aproximadamente el 75% de las
observaciones por debajo de su valor. Como en el caso de la mediana, los cuartiles
pueden no ser únicos. La resistencia a la compresión de datos en Fig. 6-6 con-
servar n = 80 observaciones. Por lo tanto, calcular el irst y tercer cuartiles (n
+1 4 ) y 3 / 14 ( ) n + / ordenó observaciones e interpolar, según sea necesario,
por ejemplo, (80 1 4 20 25 + ) / = .
o f t h e m a r e a b ovei t . F i n a l l s, % y 3 80 1 4 6075 ( ) + / = .. Por lo
tanto, la interpolación entre los 20º y 21º ordenó observa- ción obtenemos p1 = .
143 50 y entre la 60ª y 61ª observación obtenemos p3 = .. 181 00 en general, el
100kth percentil es un valor de datos tal que aproximadamente 100k% de la obser-
vations están en o por debajo de este valor y aproximadamente 100( ) 1- k
c06.indd 209 9/24/2013 6:49:06 PM

210 Capítulo 6/Estadísticas descriptivas,


podemos utilizar el rango intercuartílico, dei ned como IQR = q q 3 1 - , como una
medida de variabilidad. El rango intercuartílico es menos sensible a los valores
extremos en la muestra que es el rango de muestra ordinaria.
Muchos paquetes de software de estadísticas proporcionan resúmenes de datos que
incluyen estas cantidades.
La salida del equipo típico de la resistencia a la compresión de datos en la Tabla
6-2 se muestra en la Tabla 6-3.
5"#-& t 6-3 Estadísticas de resumen para la resistencia a la compresión de
datos de software
N Media Mediana StDev se significan Min Max Q1 Q3 80 162.66 161.50 33.77 3.78 76.00
245.00 143.50 181.00
Ejercicios para la sección 6-2
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-25. Para los datos de ejercicio 6-20, 6-30. Un artículo publicado en
Technometrics (1977, Vol. 19, pág. 425) (a) Construir un tallo y hoja diagrama.
presenta los siguientes datos en el octanaje del combustible del motor (B) Realice
cualquiera de los puentes parecen tener inusualmente bueno o varias mezclas de
gasolina:
malas calificaciones?
(C) Si es así, calcule el promedio con y sin estos puentes y 88,5 98,8 89,6 92,2
92,7 88,4 87,5 90,9 el
comentario. 94,7 88,3 90,4 83,4 87,9 92,6 87,8 89,9
6-26. Para los datos de ejercicio 6-21, 84,3 90,4 91,6 91,0 93,0 93,7 88,3 91,8 (a)
Construir un tallo y hojas de dibujo. 90,1 91,2 90,7 88,2 94,4 96,5 89,2 89,7 (B)
Muchos científicos consideran la lluvia con un pH inferior a 5,3 a 89,0 90,6 88,6
88,5 90,4 84,3 92,3 92,2 la lluvia ácida (http://www.ec.gc.ca/eau-
water/default.asp? 89,8 92,2 88,3 93,3 91,2 93,2 88,9 lang=en&n=FDF30C16-1).
¿Qué porcentaje de estos sam- 91,6 87,7 94,2 87,4 86,7 88,6 89,8 ples podría
considerarse como la lluvia ácida? 90,3 91,1 85,3 91,1 94,2 88,7 92,7 6-27. Una
espalda con espalda de tallo y hojas de visualización en dos conjuntos de datos
90,0 86,7 90,1 90,5 90,8 92,7 93,3 es llevada a cabo por ahorcamiento los datos en
ambos lados de la misma en los tallos. Aquí está una espalda con espalda de tallo y
hojas para mostrar el 91,5 93,4 89,3 100,3 90,1 89,3 86,7 cloud seeding datos en
ejercicio 6-22 mostrando la unseeded 89,9 96,1 91,1 87,6 91,8 91,0 91,0 las nubes a
la izquierda y el sembrado de nubes sobre el derecho. Construir un tallo y hojas
para mostrar estos datos. Calcular el 65098754433332221000 | 0 | 01233492223
mediana y los cuartiles de estos datos.
| 2 | | 4 | 00467703 39 6-31. Los siguientes datos son los números | 6 | 0 de
ciclos a la falla de los cupones de prueba de aluminio sometido a 3 | 8 | 8 repite
alternando el estrés en 21.000 psi, 18 ciclos por segundo.
| 10 | 1115 865 1015 885 1594 1000 1416 1501 0 | 12 | 14 | 1310 2130 845 1223 2023
1820 1560 1238 | 16 | 60 1540 1421 1674 375 1315 1940 1055 990 | 18 | 1502 1109
1016 2265 1269 1120 1764 1468 | 20 | 1258 1481 1102 1910 1260 910 1330 1512 | 22 |
24 | 1315 1567 1605 1018 1888 1730 1608 1750 | 26 | 5 1085 1883 706 1452 1782 1102
1535 1642 ¿Cómo funciona la espalda con espalda de tallo y hojas de mostrar el dif-
798 1203 2215 1890 1522 1578 1781 conferencias en el conjunto de datos de una
manera que el dotplot no? 1020 1270 785 2100 1792 758 1750 6-28. Cuando la mediana
de una muestra sea igual al construir un tallo y hojas para mostrar estos datos.
Calcular la media de la muestra? La mediana y los cuartiles de estos datos. Parece
probable que un 6-29. Cuando la mediana de una muestra sea igual a la moda? El
cupón se "sobrevivir" más allá de 2000 ciclos? Justifique su respuesta.
C06.indd 210 9/24/2013 6:49:07 PM

Sección 6-2/Stem-and-Leaf diagramas 211


6-32. El porcentaje de algodón en el material utilizado para el manu- Hong Kong
38.43 facture hombres camisas sigue. Construir un tallo y hoja India 519.04
visualización de los datos. Calcular la mediana y los cuartiles de estos datos.
Indonesia 101.80 34,2 37,8 33,6 32,6 33,8 35,8 34,7 34,6 36,6 33,1 946.27 Japón
34,7 33,1 34,2 37,6 33,6 33,6 Corea del Norte 17,43 34,5 35,4 35,0 34,6 33,4 37,3
32,5 34,1 de Corea del Sur, Laos 303.33 3.30 35,6 34,6 35,4 35,9 34,7 34,6 34,1
34,7 33,8 36,3 73.63 Malasia 36,2 34,7 34,6 35,5 35,1 35,7 37,1 35,1 2,91 Mongolia
36,8 33,6 35,2 32,8 36,8 34,7 34,0 36,8 Nepal 2.30 35,1 32,9 35,0 32,1 37,9 34,3
Nueva Zelanda 37.03 33,6 34,1 35,3 33,5 34,9 34,5 36,4 32,7 El Pakistán 71.54
6-33. Los siguientes datos representan el rendimiento de 90 consecutivos de
Filipinas 44,48
lotes de sustrato cerámico para que una capa de metal ha sido Singapur 30,89
aplicado por un proceso de deposición de vapor. Construir un tallo y Sri Lanka 6.80
hoja para mostrar estos datos. Calcular la mediana y los cuartiles Taiwán 154.34 de
estos datos. Tailandia 107.34
94,1 86,1 95,3 84,9 88,8 84,6 94,4 84,1 93,2 36,92 Vietnam 90,4 94,1 78,3 86,4 83,6
96,1 83,7 89,1 90,6 4393.8 Total 97,8 89,6 85,1 85,4 98,0 82,9 6-38. Las alumnas de
un ingeniero de pregrado- 91,4 87,3 93,1 90,3 84,0 89,7 85,4 87,3 ing curso básico
en ASU autorreporte sus alturas con precisión de 88,2 84,1 86,4 93,1 93,7 87,6 86,6
86,4 pulgadas. Los datos que siguen. Construir un tallo y hoja diagrama para 86,1
90,1 87,6 94,6 87,7 85,1 91,7 84,5 Los datos de altura y comentar cualquier
características importantes que usted note. Calcular la media de la muestra, la
muestra estándar de 95,1 95,2 94,1 96,3 90,6 89,6 87,5 desviación, y la mediana de
la muestra de altura.
90,0 86,1 92,1 94,7 89,4 90,0 84,2 62 64 61 67 65 68 61 65 60 65 64 63 59 92,4 94,3
96,4 91,1 88,6 90,1 85,1 68 64 66 68 69 65 67 62 66 68 67 66 65 87,3 93,2 88,2 92,4
84,1 94,3 90,5 69 65 69 65 67 67 65 63 64 67 65 86,6 86,7 86,4 90,6 82,6 97,3 95,6
91,2 83,0 85,0 89,1 83,1 96,8 88,3 6-39. Las fuerzas de cizallamiento de 100 puntos
de soldadura en una aleación de titanio. Construir un tallo y hoja diagrama para la
soldadura 6-34. Calcular la mediana de la muestra, el modo y la fuerza media de
datos y observaciones sobre cualquier características importantes que usted los
datos en ejercicio 6-30. Explicar cómo estas tres medidas de aviso. ¿Qué es el
percentil 95 de fuerza?
Describir la ubicación de las diferentes características de los datos.
6-35. Calcular la mediana de la muestra, modo y media del 5408 5431 5475 5442 5376
5388 5459 5422 5416 5435 datos en ejercicio 6-31. Explicar cómo estas tres medidas
de 5420 5429 5401 5446 5486 5416 5382 5357 5388 5457 Ubicación describir las
diferentes características de los datos. 5407 5469 5416 5377 5454 5375 5409 5459
5445 5429 6-36. Calcular la mediana de la muestra, modo y media para 5463 5408 5480
5453 5422 5354 5421 5406 5444 5466 los datos en ejercicio 6-32. Explicar cómo estas
tres medidas de describir la ubicación de las diferentes características de los
datos. 5399 5391 5477 5447 5329 5473 5423 5441 5412 5384 6-37. El consumo de
energía neta (en miles de millones de kilovatios- 5445 5436 5454 5453 5428 5418
5465 5427 5421 5396 horas) para los países de Asia en 2003 fue como sigue (fuente:
5381 5425 5388 5388 5378 5480 5387 5440 5482 5406 del Departamento de Energía de
EE.UU. sitio Web, www.eia.doe.gov/emeu). 5401 5411 5399 5431 5440 5413 5406 5342
5452 5420 construir un tallo y hoja diagrama para estos datos y observaciones sobre
cualquier características importantes que usted note. Calcular la muestra 5458 5485
5431 5416 5431 5390 5399 5435 5387 5462 media, desviación estándar de muestra, y la
mediana de la muestra. 5383 5401 5407 5385 5440 5422 5448 5366 5430 5418 billones
de Kilowatt-Hours 6-40. Una importante característica de calidad del agua es la
con- centration suspendido material sólido. Siguientes son 60 los AMUMA- Afganistán
1.04 urements en sólidos suspendidos desde un determinado lago. Construir Australia
200.66 un tallo y hoja diagrama para estos datos y observaciones sobre cualquier
Bangladesh 16.20 características importantes que usted note. Calcular la media
muestral, Birmania 6,88 la desviación estándar de la muestra, y la mediana de la
muestra. ¿Qué es China 1671.23 el percentil 90 de la concentración?
C06.indd 211 9/24/2013 6:49:08 PM

212 Capítulo 6/estadísticas descriptivas de


42,4 65,7 29,8 58,7 52,1 55,8 57,0 68,7 67,3 67,3 681 679 691 683 705 746 706 649
668 672 690 724 54,3 54,0 73,1 81,3 59,9 56,9 62,2 69,9 66,9 59,0 652 720 660 695
701 724 668 698 668 660 680 739 56,3 43,3 57,4 45,3 80,1 49,7 42,8 42,4 59,6 65,8
717 727 653 637 660 693 679 682 724 642 704 695 61,4 64,0 64,2 72,6 72,5 46,1 53,1
56,1 67,2 70,7 704 652 664 702 661 720 695 670 656 718 660 648 42,6 77,4 54,7 57,1
77,3 39,3 76,4 59,3 51,1 73,8 683 723 710 680 684 705 681 748 697 703 660 722 61.4
73,1 77,3 48,5 89,8 50,7 52,0 59,6 66,1 31,6 662 644 683 695 678 674 656 667 683
691 680 685
6-41. Los Estados Unidos pruebas de Asociación de Golf pelotas de golf 681 715 665
676 665 675 655 659 720 675 697 663 para garantizar que se ajusten a las reglas del
golf. Las bolas están probados para el peso, diámetro, redondez y distancia total.
6-43. Un grupo de entusiastas del vino de sabor probado un pinot noir la distancia
total test es realizado por golpear las bolas con vino de Oregon. La evaluación fue
a grado el vino en un conductor navegó por un dispositivo mecánico apodado "El
Hierro un 0-A-100 punto de escala. Los resultados siguientes. Construir un tallo-
Byron", después de la legendaria gran Byron Nelson, cuyo swing y diagrama de hojas
para estos datos y comentar toda la máquina es importante dijo a emular. Son 100
las distancias siguientes características que usted note. Calcular la media de la
muestra, el Sam- (en metros) alcanzados por una determinada marca de pelota de golf
en la ple desviación estándar, y la mediana de la muestra. Un vino clasificado de
la prueba de distancia total. Construir un tallo y hojas por encima del diagrama 90
es considerado verdaderamente excepcional. ¿Qué proporción de estos datos y
observaciones sobre cualquier características importantes que le de el gusto-
catadores consideró esta particular pinot noir verdaderamente aviso. Calcular la
media de la muestra, la muestra devia estándar- excepcional?
Ción, y la mediana de la muestra. ¿Qué es el percentil 90 de las distancias? 94 90
92 91 91 86 89 91 91 90 90 93 87 90 91 92 89 86 89 90 261,3 259.4 265.7 270.6 274.2
283.7 261.4 254,5 88 95 91 88 89 92 87 89 95 92 258.1 270.5 255.1 253.6 234.3 263.2
268.9 267,4 85 91 85 89 88 84 85 90 90 83 254.2 270.7 233.7 263.5 244.5 251.8 259.5
257.5 257.7 252.0 280.3 253.7 272,6 262,2 274.9 233.7 6-44. En su libro
Introducción a la Regresión lineal 237.9 274.0 264.5 264.0 268.3 272.1 260.2 244,8
Análisis (5ª edición, Wiley, 2012), Montgomery, Peck y 255.8 260.7 245.5 279.6
273.3 263.7 241.4 237.8 278.500 260.6 280.3 279.3 252.1 272.7 261.0 260,0
Vining presentaron las mediciones de concentración NbOCl3 desde un tubo bajo el
reactor experimental. Los datos, en gram-mol
por litro -3 × 10 , son como sigue. Construir un tallo y hojas- dia 272,2 278,7
236.0 244.3 248.3 271.2 279.8 245.6 gramos para estos datos y observaciones sobre
cualquier características importantes 241.2 251.1 267.0 273.4 247.7 254.8 272.8
270.5 que se note. Calcular la media de la muestra, la muestra stand- ard
desviación, y la mediana de la muestra. 254.4 232.1 271.5 242.9 273.6
256.8 273.0 240.8 256.1 251,6 276.6 264.5 264.5 226,8 450 450 473 507 457 452 453
1215 1256 255.3 266.6 250.2 255.8 285.3 255.4 240.5 1145 1085 1066 1111 1364 1254
1396 1575 1617 255.0 251.4 276.1 277.8 266.8 273,2 268,5 1733 2753 3186 3227 3469
1911 2588 2635 2725
6-42. Un fabricante produce dispositivos semiconductores utilizados como unidades
centrales de procesamiento de los ordenadores personales. La velocidad de 6-45. En
ejercicio 6-38, presentamos los datos de altura que eran dispositivos (en
megahercios) es importante porque determina la auto-reportadas por mujeres
estudiantes de ingeniería de pregrado el precio que el fabricante puede cobrar por
los dispositivos. La fol- en un curso básico en la ASU. En la misma clase, los
estudiantes masculinos bramido tabla contiene las mediciones de 120 dispositivos.
Construir auto-reporte sus alturas como sigue. Construir un comparativo de un tallo
y hoja diagrama para estos datos y observaciones sobre cualquier stem-and-leaf
diagrama enumerando los tallos en el centro de las importantes funciones que usted
note. Calcular la media de la muestra, la pantalla y, a continuación, colocando la
hembra sale a la izquierda y la desviación estándar de la muestra, y la mediana de
la muestra. ¿Qué macho sale a la derecha. Características importantes comentarios
sobre cualquier porcentaje de dispositivos tiene una velocidad superior a 700
megahercios? Que se note en esta pantalla.
69 67 69 70 65 68 69 70 71 69 66 67 69 75 68 67 68 680 669 719 699 670 710 722 663
658 634 720 690
677 669 700 718 690 681 702 696 692 690 694 660 69 70 71 72 68 69 69 70 71 68 72 69
69 68 69 73 70 649 675 701 721 683 735 688 763 672 698 659 704 73 68 69 71 67 68 65
68 68 69 70 74 71 69 70 69
c06.indd 212 9/24/2013 6:49:08 PM

Sección 6-3/distribuciones de frecuencia e histogramas 213


6-3 distribuciones de frecuencia e histogramas
una distribución de frecuencia es un resumen de los datos más compacta de un tallo
y hojas de dibujo. Construir una distribución de frecuencia, debemos dividir el
rango de los datos en intervalos, que normalmente se denominan intervalos de clase,
celdas o bandejas. Si es posible, las bandejas deben ser de igual ancho con el fin
de mejorar la información visual de la distribución de frecuencia. Algunos
sentencia debe ser utilizado para seleccionar el número de bandejas de forma que
una pantalla razonable puede ser desarrollado. El número de bandejas depende del
número de observaciones y el monto de la dispersión o la dispersión de los datos.
Una fre- cuencia la distribución que utiliza demasiados o muy pocos recipientes no
será informativo. Solemos i nd que entre 5 y 20 bandejas es satisfactoria en la
mayoría de los casos y que el número de bandejas debe aumentar con el n. Varios
conjuntos de reglas puede ser utilizado para determinar los estados de bandejas en
un histograma.
Sin embargo, elegir el número de bandejas aproximadamente igual a la raíz cuadrada
del número de observaciones a menudo funciona bien en la práctica.
Una distribución de frecuencia para la fuerza completa de datos en la Tabla 6-2 se
muestra en la Tabla 6-4. Porque el conjunto de datos contiene 80 observaciones, y
porque 80 9 , tenemos la sospecha de que alrededor de ocho a nueve recipientes
proporcionará una distribución de frecuencia satisfactorio. Los valores de datos
más grandes y más pequeños son 245 y 76, respectivamente, por lo que las bandejas
deben cubrir un rango de al menos 245 169 - 76 = unidades psi en la escala. Si
queremos que el límite inferior para el i rst bin para comenzar ligeramente por
debajo del valor de datos más pequeño y el límite superior para el último bin está
ligeramente por encima de los datos de mayor valor, podríamos empezar la
distribución de frecuencia a 70 y finalizar a los 250. Este es un intervalo o rango
de 180 unidades psi. Nueve contenedores, cada uno de anchura de 20 psi, ofrecer una
fre- cuencia de la distribución, con el fin de la distribución de frecuencia en la
Tabla 6-4 se basa en nueve recipientes.
Elegir el número de la segunda fila de la tabla 6-4 contiene una distribución de
frecuencia relativa. La relativa fre-
de recipientes en una frecuencia quencies se encuentran dividiendo la frecuencia
observada en cada tolva por el número total de
distribución o histo- observaciones. La última fila de la tabla 6-4 expresa las
frecuencias relativas sobre una
base acumulativa de gramo es importante. Las distribuciones de frecuencia son a
menudo más fáciles de interpretar que las tablas de datos. Por ejemplo, en la Tabla
6-4, es muy fácil ver que la mayoría de los especímenes tienen fortalezas
compresiva entre 130 y 190 psi y que 97,5 por ciento de los especímenes caen por
debajo de 230 psi.
El histograma es una representación visual de la distribución de frecuencia. Los
pasos para la construcción de un histograma siga.
La construcción de un histograma (igual (1) Etiqueta el bin (intervalo de clase)
fronteras en una escala horizontal.
Bin anchos) (2) Marcar y etiquetar la escala vertical con las frecuencias o las
frecuencias relativas.
(3) por encima de cada tolva, dibuje un rectángulo donde la altura es igual a la
frecuencia (o frecuencia) rela- tiva a la bandeja correspondiente.
La figura 6-7 es el histograma para la resistencia a la compresión de datos. El
histograma, al igual que el tallo y hojas de diagrama, proporciona una impresión
visual de la forma de la distribución de los AMUMA- urements e información acerca
de la tendencia central y dispersión o dispersión de los datos.
5"#-& t 6-4 Distribución de frecuencias de la resistencia a la compresión de
datos en tabla 6-2
Clase 70 90Ä< x 90 11 Ä< x 0 110 130Ä< x 130 150Ä< x 150 170Ä< x 170
190Ä< x 190 210Ä< x 210 230Ä< x 230 250Ä< x
frecuencia 2 3 6 14 22 17 10 4 2
relativa 0.0750 0.1750 0.2750 0.0250 0,0375 0.2125 0.1250 0.0500 0.0250 0.0250
0.0625 0.1375 la frecuencia acumulativa 0.3125 0.5875 0.8000 0.9250 0.9750 1.0000
frecuencia relativa
c06.indd 213 9/24/2013 6:49:12 PM

214 Capítulo 6/Estadísticas descriptivas

0.2500
0.1895 0.3125 25 20 15
Figura 6-7 0.1250 10 frecuencia Histograma de
frecuencia relativa 0.0625 5 fuerza compresiva para el 80 de aluminio de aleación
de litio- 0 0 70 90 110 130 150 170 190 210 230 250
especímenes. Fuerza compresiva (psi)
Observe la forma de campana simétrica, distribución de la fuerza mediciones en Fig.
6-7.
Esta pantalla ofrece a menudo Insight sobre las posibles opciones de distribuciones
de probabilidad para usar como modelo para la población. Por ejemplo, aquí se
podría concluir que la distribución normal es un modelo razonable para la población
de resistencia a la compresión de las mediciones.
A veces un histograma con desiguales bin anchos serán empleadas. Por ejemplo, si
los datos tienen varias observaciones extremas o atípicos, mediante unas bandejas
con ancho igual resultará en casi todas las observaciones que caen en tan sólo unos
pocos de los recipientes. Utilizando muchas bandejas con ancho igual producirá
muchas bandejas con frecuencia cero. Una mejor opción es usar intervalos más cortos
en la región donde la mayoría de los datos que entran y unos intervalos de ancho
cerca de las observaciones extremas. Cuando los contenedores son de ancho desigual,
el área del rectángulo (no su altura) debe ser proporcional a la frecuencia de la
tolva. Esto implica que el rectángulo de altura debe ser
Bin Bin frequancy RECTANGULAR ALTURA = ancho
de paso desde los datos originales o de tallo y hoja diagrama a una frecuencia
distribu- ción o histograma, hemos perdido un poco de información porque ya no
tenemos las observaciones individuales. Sin embargo, esta pérdida de información a
menudo es pequeña en comparación con la concisión y la facilidad de interpretación
adquirida en la utilización de la distribución de frecuencias e histograma.
Los histogramas son mejor la figura 6-8 es un histograma de la resistencia a la
compresión de datos con 17 bandejas. Hemos tomado nota
de los histogramas que relativamente grandes pueden ser relativamente sensible al
número de bandejas y su anchura. Para pequeñas
muestras de conjuntos de datos, histogramas puede cambiar dramáticamente en
apariencia si el número y/o el ancho de las bandejas cambios. Los histogramas son
más estables y, por lo tanto, fiable para grandes conjuntos de datos,
preferiblemente de tamaño de 75 a 100 o más. La figura 6-9 es un histograma para la
resistencia a la compresión de datos con
20
10
10
5 Frecuencia de

0 0
100 150 200 250 80 100 120 140 160 180 200 220 240 Fortaleza Fortaleza
Figura 6-8 un histograma de la figura 6-9 compresiva un histograma de la fuerza de
resistencia a la compresión de datos con 17 bandejas. datos con nueve recipientes.
C06.indd 214 9/24/2013 6:49:13 PM

Sección 6-3/distribuciones de frecuencia e histogramas 215


80 70 60 50 40 30
Figura 6-10 20
un total acumulado de 10
distribución de frecuencia acumulada parcela de la
fuerza compresiva 0 100 150 200 250
datos. Fuerza
nueve bandejas. Esto es similar al histograma original se muestra en la Fig. 6-7.
Porque el número de observaciones es moderadamente grande ( n = 80 ) , la elección
del número de bandejas no es especialmente importante, y tanto los Higos. 6-8 y 6-9
de transmitir información similar.
Figura 6-10 es una variación del histograma disponible en algunos paquetes de
software, la parcela de frecuencia acumulada. En esta parcela, la altura de cada
barra es el número total de obser- vations que son menor o igual que el límite
superior de la bandeja. Distribuciones acumulativas son también útiles en la
interpretación de los datos; por ejemplo, podemos leer directamente de la Fig. 6-10
que aproximadamente 70 observaciones son inferiores o iguales a 200 psi.
Cuando el tamaño de la muestra es grande, el histograma puede proporcionar
razonablemente un indicador confiable de la forma general de la distribución de la
población o de mediciones a partir de la cual se había extraído la muestra.
Consulte la Figura 6-11 para los tres casos. La mediana se denota x .
Generalmente, si los datos son simétricos, como en la Fig. 6-11(b), la media y la
mediana coinciden. Si, además, los datos tienen un solo modo (decimos que los datos
son unimodal), la media, la mediana y el modo todos coinciden.
Si los datos están sesgados (asimétrica, con una larga cola a un lado), como en la
Fig. 6-11(a) y (c), la media, la mediana y el modo no coinciden. Generalmente, nos
i nd ese modo mediana media << si la distribución está sesgada a la derecha,
mientras que la mediana media modo > > si la distribución está sesgada a la
izquierda.
Las distribuciones de frecuencia e histogramas también pueden utilizarse con datos
cualitativos o categóricos. Algunas aplicaciones tienen un orden natural de las
categorías (como estudiante de primer año, segundo, junior y senior), mientras que
en otros, el orden de las categorías será arbitrario (como macho y hembra). Cuando
se utilizan datos categóricos, las bandejas deben tener el mismo ancho.
Ejemplo 6-6 Figura 6-12 presenta la producción de aviones de transporte por la
Boeing Company en 1985. Observe que el 737 fue el modelo más popular, seguido por
el 757, 747, 767, y 707.
Un gráfico de ocurrencias por categoría (en la que las categorías están ordenadas
por el número de repeticiones) se refiere a veces como un gráfico de Pareto. Un
ejercicio le pide que construya un gráfico de estas características.
Figura 6-11
x x| |x x Histogramas para simétrico y
x |x
negativo o positivo simétrica sesgo izquierdo o derecho sesgar
las distribuciones sesgadas. (A) (b) (c)
c06.indd 215 9/24/2013 6:49:14 PM

216 Capítulo 6/Estadísticas descriptivas


250
150
100
Figura 6-12 50 número de aviones fabricados en 1985 la producción de aviones en
1985. (Fuente: 0 737 757 747 767 707 de la Boeing Company.) modelo de avión
en esta sección, nos hemos concentrado en métodos descriptivos de la situación en
la que cada observación en un conjunto de datos es un único número o pertenece a
una categoría. En muchos casos, tenemos que trabajar con los datos de cada
observación consta de varias mediciones. Por ejemplo, en un estudio de millaje de
gasolina, cada observación podría constar de una medición de millas por galón, el
tamaño del motor en el vehículo, la potencia del motor, el peso del vehículo, y la
longitud del vehículo. Este es un ejemplo de datos multivariados. En la sección
6.6, vamos a ilustrar una simple pantalla gráfica o datos multivariados. En
capítulos posteriores, trataremos de analizar este tipo de datos.
Ejercicios para la sección 6-3
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-46. Construir una distribución de frecuencias e histograma para 6-56. Construir
un histograma de los datos de la calidad del agua en el octanaje del combustible
del motor de datos de ejercicio 6-30. Utilice ocho bandejas. Ejercicio 6-40.
Comentar la forma del histograma. ¿6-47. Construir una distribución de frecuencias
e histograma usando transmitir la misma información que el tallo y hojas de la
pantalla?
Los datos de error del ejercicio 6-31. 6-57. Construir un histograma para el
conjunto de datos a distancia 6-48 de golf. Construir una distribución de
frecuencias e histograma en ejercicio 6-41. Comentar la forma del histograma. ¿Para
el contenido de algodón datos en ejercicio 6-32. transmitir la misma información
que el tallo y hojas de la pantalla?
6-49. Construir una distribución de frecuencias e histograma para el 6-58.
Construir un histograma de los datos de rendimiento de velocidad de semiconductores
en ejercicio 6-33. Los datos de ejercicio 6-42. Comentar sobre la forma de la
histo- 6-50. Construir distribuciones de frecuencia e histogramas gram. No
transmiten la misma información como el tallo y con 8 bandejas y 16 silos para el
octanaje del combustible del motor Exer- Hoja de datos en la pantalla?
Cise 6-30. Comparar los histogramas. ¿Ambos histogramas dis- de 6 a 59. Construir
un histograma para el pinot noir vino rating reproducir información similar? Datos
en ejercicio 6-43. Comentar sobre la forma de la histo- 6-51. Construir histogramas
con 8 y 16 papeleras para los datos en gramos. No transmiten la misma información
como el tallo y ejercicio 6-31. Comparar los histogramas. ¿Ambos histogramas leaf
visualización?
;4 muestran información similar? 6-60. El gráfico de Pareto. Una importante
variación de 6-52. Construir histogramas con 8 y 16 silos para el histograma de
datos para los datos categóricos, es el gráfico de Pareto. Este gráfico en
ejercicio de 6-32. Comparar los histogramas. ¿Ambos histogramas es ampliamente
utilizado en los esfuerzos de mejoramiento de calidad, y el gato- muestran
información similar? Egories suelen representar diferentes tipos de defectos,
fallos 6-53. Construir un histograma de los datos de consumo de energía de modos, o
problemas de producto/proceso. Las categorías son en ejercicio 6-37. lo ordenó que
la categoría con mayor frecuencia es de 6-54. Construir un histograma para el
estudiante la altura izquierda, seguida por la categoría con el segundo mayor fre-
datos en ejercicio 6-38. cuencia, y así sucesivamente. Estos gráficos se nombran
después de los italianos 6-55. Construir un histograma para el punto de soldadura
cizalla economista V. Pareto, y suelen exhibir "la ley de Pareto"; datos en
ejercicio 6-39. Comentar la forma del histograma. Es decir, la mayoría de los
defectos pueden ser contabilizados por sólo una no transmiten la misma información
como el tallo y hojas de algunas categorías. Suponga que la siguiente información
en la pantalla? Defectos estructurales en las puertas del automóvil se obtiene:
abolladuras,
c06.indd 216 9/24/2013 6:49:17 PM

Sección 6-4/diagramas de caja 217


mediciones de lluvia ácida en ejercicio 6-21. ;5 partes no lubricados, ;8 piezas
bajo- 6-62. Construir una distribución de frecuencias e histograma para el recorte,
21; falta de agujeros/ranuras, ;6 piezas montadas fuera de secuencia, ;4 boxes,
piezas de contorno, 30; y las piezas no limados, 3. Construir 6-63. Construir una
distribución de frecuencias e histograma para el e interpretar un gráfico de
Pareto. Combina la siembra de nubes de lluvia mediciones en ejercicio 6-22.
6-61. Construir una distribución de frecuencias e histograma para el 6-64.
Construir una distribución de frecuencias e histograma para el puente datos de la
condición de ejercicio en las mediciones de tiempo de 6-20. Nadar en ejercicio 6-
24.
Cuadro 6-4 parcelas
el tallo y hojas y visualización del histograma proporcionan impresiones visuales
generales acerca de un conjunto de datos, pero cantidades numéricas como x o s
proporcionan información acerca de sólo una característica de los datos. El
diagrama de caja es un gráfico en la pantalla al mismo tiempo que describe varias
características importantes de un conjunto de datos, tales como el centro, la
propagación, la salida de simetría, y identiication inusual de observaciones o
atípicos.
Un diagrama de caja, a veces denominada box-whisker parcelas, muestra los tres
cuartiles, el mini- mamá, y el máximo de los datos sobre un rectángulo, alineado
horizontal o verti- calmente. La caja incluye el rango intercuartílico con la
izquierda (o inferior) al borde irst cuartil, Q1, y a la derecha (o) el borde
superior en el tercer cuartil, Q3. Se dibuja una línea a través de la verificación
en el segundo cuartil (percentil 50 o la mediana), q2 = . x una línea o un bigote,
se extiende desde cada extremo de la caja. El bigote inferior es una línea desde el
irst cuartil al punto de datos más pequeño dentro de rangos intercuartil 1.5 desde
el irst cuartil. El bigote superior es una línea desde el tercer cuartil del punto
de datos más grande dentro de rangos intercuartil 1.5 desde el tercer cuartil. Más
allá de la verificación de los datos de los bigotes están representadas como puntos
individuales. Un punto más allá de un bigote, pero menos de tres rangos
intercuartil desde el borde del cuadro, se llama un outlier. Un punto más de tres
rangos intercuartil desde el borde del cuadro se llama un caso extremo atípico.
Véase la Fig. 6-13. Ocasionalmente, símbolos diferentes, tales como abrir y illed
círculos, se utilizan para identificar los dos tipos de valores atípicos.
La figura 6-14 presenta un típico diagrama de caja generados por ordenador para la
aleación, resistencia a la compresión de los datos que se muestran en la Tabla 6-2.
Este diagrama de caja indica que la distribución de fuerzas de compresión es
bastante simétrico alrededor del valor central porque la izquierda y la derecha
bigotes y las longitudes de los cuadros Izquierda y derecha en torno a la mediana,
son prácticamente las mismas. Hay también dos outliers leve a una menor resistencia
y una mayor fortaleza. El bigote superior se extiende a la observación 237 porque
es la observación más altos por debajo del límite superior de los valores atípicos.
Este límite es q3 + . = +. - . 1 5 181 1 5 181 143 5 237 25 IQR ( ) = .. El bigote
inferior se extiende a la observa- ción de 97 porque es la observación menor por
encima del límite para bajar los valores atípicos. Este límite es q1 - . = .- . - .
1 5 5 1 5 143 181 143 5 87 25 IQR ( ) = ..
Diagramas de caja son muy útiles en las comparaciones entre conjuntos de datos
gráfica porque tienen un alto impacto visual y fácil de entender. Por ejemplo, Fig.
6-15 muestra el cuadro comparativo de las parcelas para un índice de calidad en la
fabricación de dispositivos semiconductores en tres plantas de fabricación.
Inspección de esta pantalla revela que hay demasiada variabilidad en la planta 2 y
que las plantas 2 y 3 deben elevar su rendimiento del índice de calidad.
Whisker se extiende a bigote se extiende al punto de datos más pequeño dentro del
punto de datos más grande dentro de 1.5 oscila entre 1,5 intercuartil rangos
intercuartil primer cuartil del tercer cuartil
Primer cuartil segundo cuartil Tercer cuartil
Figura 6-13
Outliers Outliers extrema outlier Descripción de un diagrama de caja. 1.5 IQR 1.5
IQR IQR 1.5 IQR 1.5 IQR
c06.indd 217 9/24/2013 6:49:18 PM

218 Capítulo 6/Estadísticas descriptivas


120
245 237 237.25 250 110 ‫٭‬
100 1.5 IQR 200
181 q3 = 181 90 IQR q2 = 161,5 143,5 150 Índice de Calidad q1 = 143,5
Fortaleza 80 1.5 IQR
100 97
76 Planta 87.25 ‫ ٭‬23 1 70 87 ‫٭‬
Figura 6-14 Box Plot para resistencia a la compresión de datos en la Figura 6-15
Cuadro Comparativo parcelas de una tabla 6-2. Índice de calidad en tres plantas.
Ejercicios para la sección 6-4
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-65. Utilizando los datos sobre condiciones de puente del ejercicio 6-20, 6-70. Un
artículo en las transacciones de la institución de Chemi- (a) encontrar los
cuartiles y la mediana de los datos. cal (ingenieros, 1956, Vol. 34, págs. 280-293)
reportaron datos de (b) Dibuje un diagrama de caja para los datos. Un experimento
para investigar el efecto de varios proceso vari- (c) deben ser considerados como
posibles puntos outliers? Compare ables en la oxidación en fase vapor de naftaleno.
Un ejemplo de esto a su contestación en ejercicio 6-20. Explicar el porcentaje de
conversión de mole de naftalina de la hidracida 6-66. Utilizando los datos sobre
lluvia ácida del ejercicio 6-21, acético: 4.2, 4.7, 4.7, 5.0, 3.8, 3.6, 3.0, 5.1,
3.1, 3.8, (a) encontrar los cuartiles y la mediana de los datos. 4.8, 4.0, 5.2,
4.3, 2.8, 2.0, 2.8, 3.3, 4.8, 5.0.
(B) Dibuje un diagrama de caja para los datos. (A) calcular la media muestral, la
varianza muestral y la muestra (c) deben ser considerados como posibles puntos
outliers? Comparar la desviación estándar.
Esto a su contestación en ejercicio 6-21. Explicar. (B) Construir un diagrama de
caja de los datos.
Con un rango entre 6 y 67. Utilizando los datos del ejercicio 6-22 sobre cloud
seeding, 6-71. Las nueve medidas que siguen son horno tem- (a) encontrar la mediana
y los cuartiles de la nube. peratures unseeded datos grabados en los sucesivos
lotes en un semiconductor (b) encontrar la mediana y los cuartiles de la nube
sembrada datos. Proceso de fabricación (las unidades son °F): 953, 950, 948, 955,
951, (c) hacer dos lado-a-lado diagramas de caja, uno para cada grupo en el 949,
957, 954, 955. La
misma parcela. (A) calcular la media muestral, la varianza muestral y estándar (d)
comparar las distribuciones de lo que se puede ver en la desviación.
side-by-side diagramas de caja. (B) encontrar la mediana. ¿Cuánto podría la máxima
temperatura 6-68. Utilizando los datos del ejercicio 6-24 sobre horarios, aumento
de medición sin cambiar el valor de la mediana?
(A) Encontrar la mediana y los cuartiles para los datos. (C) Construir un diagrama
de caja de los datos.
(B) Hacer un diagrama de caja de los datos. 6-72. Ejercicio 6-18 presenta arrastre
coeficients para la NASA (c) Repita (a) y (b) para los datos sin la extrema outlier
0012 perfil aerodinámico. Se le ha pedido que calcule la media de la muestra, Sam y
comentario. ple varianza y desviación estándar de muestra de aquellos coeficients.
(D) comparar la distribución de datos con y sin el (a) encontrar la mediana y los
cuartiles superior e inferior de la extrema outlier. Arrastre coeficients.
6-69. El "arranque en frío" de un tiempo de encendido (b) Construir un diagrama de
caja de los datos.
motor de automóvil, está siendo investigado por una de gasolina manu- (c) anuló la
observación más altos (100) y las piezas (A) de rectificación facturer. Las
siguientes veces (en segundos) fueron obtenidos para a y b). Comentar la indings.
vehículo de ensayo: 1.75, 1.92, 2.62, 2.35, 3.09, 3.15, 2.53, 1.91. 6-73. Ejercicio
6-19 presenta las temperaturas de los conjuntos (a) Calcular la media muestral, la
varianza muestral, y juntas tóricas de muestra (°F) para cada prueba iring o el
lanzamiento efectivo de la desviación estándar. Lanzadera espacial de motores de
cohete. En este ejercicio, se le pidió a ind (b) Construir un diagrama de caja de
los datos. La media muestral y la desviación estándar de la muestra de temperatura.
C06.indd 218 9/24/2013 6:49:19 PM

Sección 6-5/secuencia de tiempo parcelas 219


(a) encontrar la mediana y los cuartiles superior e inferior del constructo cuadro
comparativo parcelas. Escriba una interpretación de la temperatura. La información
que se puede ver en estos terrenos.
(B) anuló la menor observación 31 (°F) y se vuelve a calcular el 6-81. Un artículo
en Nature Genetics ["El Tratamiento c specii cantidades en la parte (a). Comentar
tu i conclusiones. Cómo "dif.- Cambios en la expresión genética discriminar en Vivo
erentes drogas" son las otras temperaturas de este menor valor? Respuesta en las
células de la leucemia humana" (2003, Vol 34(1), págs.
(c) Construir un diagrama de caja de los datos y comentarios sobre la po- 85 90)]
estudió la expresión génica en función de posibles tratamientos para la presencia
de outliers. leucemia. Un grupo recibió una alta dosis de la droga, mientras que la
6-74. Reconsiderar el octanaje del combustible del motor de datos en el grupo de
control no recibió ningún tratamiento. Los datos de expresión (cam-
Ejercicio 6-28. Construir un diagrama de caja de los datos y escribir un ures de
actividad génica) de un gen se muestran en la Tabla 6E.1.
interpretación de la parcela. ¿Cómo funciona el box plot comparar en construir un
diagrama de caja para cada grupo de pacientes. Escribir una interpre-
valor interpretativo a la original de tallo y hojas de dibujo? Tation para comparar
la información de estas parcelas.
6-75. Reconsiderar los datos de consumo de energía en el ejercicio 5"#-& t 6E.1
La expresión génica
6-37. Construir un diagrama de caja de los datos y escribir una interpreta- ción de
la parcela. ¿Cómo funciona el box plot comparar en altas dosis interpretativas de
Mando de control al valor original de tallo y hoja diagrama? 16.1 25.1 131.1 297.1
6-76. Reconsiderar los datos de la calidad del agua en el ejercicio 6-40. 134,9
491.8 820.1 166.5 Construir un diagrama de caja de las concentraciones y escribir
una inter- pretación 2258.4 1332.9 52.7 82.5 de la parcela. ¿Cómo funciona el box
plot comparar en inter- 14.4 1172 713.9 497,5 pretive valor a la original de tallo
y hojas de dibujo? 124,3 1482.7 785.6 263.4 6-77. Reconsiderar la intensidad de
soldadura datos en ejercicio 6-39. 99 35,4 114 252,3 Construir un diagrama de caja
de los datos y escribir una interpretación de 24,3 31,9 351.4 528.9 la parcela.
¿Cómo funciona el box plot comparar en valor interpretativo a la original de tallo
y hojas de dibujo? 16.3 24.1 86.3 678.9
6-78. Reconsiderar la velocidad de datos de semiconductores en ejercicio 15.2 545.2
646.6 3010.2
6-42. Construir un diagrama de caja de los datos y escribir una interpreta- ción
47,7 92,9 67,1 169,9 de la parcela. ¿Cómo funciona el box plot comparar en 12.9
20.2 318.2 337.1 interpretativas al valor original de tallo y hoja diagrama? 72.7
102.3 280.2 2476.4
6-79. Utilizar los datos sobre las alturas de macho y hembra engi- neering 126,7
255.1 194.2 181.4 estudiantes desde ejercicios 6-38 y 6-45 para construir 46.4
100.5 408.4 2081.5 cuadro comparativo parcelas. Escriba una interpretación de la
informa- ción de 60,3 159,9 155,5 424.3 que ve en estos terrenos. 23,5 168 864.6
188.1 6-69 6-80 en ejercicio, se presentaron datos sobre el frío 43.6 95.2 355.4
563 Inicio de un determinado tiempo de encendido de la gasolina que se utiliza en
un vehículo de prueba. 79,4 132,5 634 149,1 una segunda formulación de la gasolina
fue probado en el mismo vehículo 2122.9 2029.9 38 442,6, con los siguientes
horarios (en segundos): 1.83, 1.99, 3.13, 58.2 15.8 362.1 1295.9 3.29, 2.65, 2.87,
3.40, 2.46, 1.89 y 3.35. Utilice estos nuevos datos, junto con los tiempos de
arranque en frío en ejercicio 6-69 informó a 26,5 175,6
6-5 secuencia de tiempo traza
las pantallas gráficas que hemos considerado hasta ahora como histogramas, tallo y
hojas de parcelas y diagramas de caja son muy útiles los métodos visuales para
mostrar la variabilidad en los datos. Sin embargo, observamos en el Capítulo 1, en
el que el tiempo es un factor importante que contribuye a la variabilidad de los
datos, y los métodos gráficos no tome esto en cuenta. Una serie de tiempo o
secuencia de tiempo es un conjunto de datos en el que las observaciones se
registran en el orden en que se producen. Trazar una serie de tiempo es un gráfico
en el que el eje vertical indica el valor observado de la variable (es decir, )x y
el eje horizontal representa el tiempo (que podría ser minutos, Días, Años, etc.).
Cuando las mediciones se representan como una serie de tiempo, a menudo vemos
tendencias, ciclos, u otras características generales de los datos que no se podía
ver otra cosa.
Consideremos, por ejemplo, Fig. 6-16(a) que presenta una parcela de series de
tiempo de las ventas anuales de la compañía durante los últimos 10 años. La
impresión general que se desprende de esta pantalla es que las ventas muestran una
tendencia ascendente. Hay algunas variaciones sobre esta tendencia, con algunos
años de aumento de ventas respecto a las del año pasado y algunos años de
disminución de las ventas. Figura 6-16(b) muestra los últimos tres años de ventas
comunicadas por trimestre. Esta gráfica muestra claramente que las ventas anuales
en este negocio exhiben una variabilidad cíclica por trimestre con el i rst y
segundo trimestre las ventas generalmente son superiores a las ventas durante el
tercer y cuarto trimestres.
C06.indd 219 9/24/2013 6:49:19 PM

220 Capítulo 6/Estadísticas descriptivas,


a veces puede ser muy útil para combinar una serie de tiempo parcela con algunas de
las otras pantallas gráficas que hemos considerado anteriormente. J. Stuart Hunter
(La Statis- tician americana, 1988, Vol. 42, pág. 54) ha sugerido que combina el
tallo y hojas de parcela con una parcela de series de tiempo para formar una
parcela digidot.
Figura 6-17 es una parcela digidot las observaciones sobre resistencia a la
compresión de la tabla 6-2, suponiendo que estas observaciones se registran en el
orden en que sucedieron.
Este gráfico muestra efectivamente la variabilidad global en la resistencia a la
compresión de datos y muestra simultáneamente la variabilidad en estas mediciones a
lo largo del tiempo. La impresión general es que la fuerza de compresión varía en
torno al valor promedio de 162.66, y ningún fuerte estructura obvia ocurre en esta
variabilidad a lo largo del tiempo.
La parcela digidot en Fig. 6-18 narra una historia diferente. Esta gráfica resume
30 observaciones sobre la concentración del producto de un proceso químico donde
las observaciones se registran en intervalos de tiempo de una hora. Esta gráfica
indica que durante el irst 20 horas de funcionamiento, este proceso produce
concentraciones generalmente superior a 85 gramos por litro, pero que tras 20
muestras, algo que podría haberse producido en el proceso que dio lugar a
concentraciones más bajas. Si esta vari- capacidad de concentración del producto
puede ser reducida, el funcionamiento de este proceso puede ser mejorado.
Observe que este cambio aparente en el proceso de salida no está visto en el tallo
y hojas digidot parte de la parcela. El tallo-y-leaf plot comprime la dimensión
temporal de los datos. Esta ilus- trates porqué siempre es importante para
construir una parcela de series de tiempo de datos orientados a tiempo.
x x
ventas, ventas,
19871988 19821983 1984 1985 1986 1989 1990 1991 Años 1 2 3 4 1 2 3 4 1 2 3 4
trimestres de 1989 1990 1991
(A) (b)
Figura 6-16 empresa de ventas por año ( ) . Por trimestre ( b ) .
Series de Tiempo tallo foliar Plot
5 24 7 23 189 22 8 21 7108 20 19 960934 0361410 8544162106 3073050879 18 17 16 15
14 413535 29583169 471340886808 13 103 12 580 11 15 10
Figura 6-17 7 9
digidot parcela de 7 8
6 7 resistencia a la compresión de
datos en la Tabla 6-2.
C06.indd 220 9/24/2013 6:49:21 PM

Sección 6-5/secuencia de tiempo parcelas de 221


hojas de serie de tiempo tallo Plot
8 9e 6 9s 45 9f 2333 0010000 9t 9z Figura 6-18
99998 8e digidot una parcela de 66676 8s proceso químico 45 8f concentración 23 8t
lecturas, observó 1 8z
cada hora.
Ejercicios para la sección 6-5
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-82. Los siguientes datos son las mediciones de viscosidad de 16.3 17.2 17.4 17.5
16.5 para un producto químico observado por hora (lea abajo, luego a la izquierda
hasta el 16,1 17,4 17,5 17,4 17,8 a la derecha). Construir e interpretar una
parcela digidot separado o 17.1 17.4 17.4 17.4 17.3 stem-and-leaf y series de
tiempo parcela de estos datos. Speciications 16.9 17.0 17.6 17.1 17.3 en la
viscosidad del producto están a 48 ± 2 . ¿Qué conclusiones puedes 16.8 17.3 17.4
17.6 17.1 hacer acerca del rendimiento del proceso? 17.4 17.2 17.3 17.7 17.4
47.9 48.6 48.0 48.1 43.0 43.2 17.1 17.4 17.0 17.4 16.9 17.0 16.8 17.8 17.8 17.3
47.9 48.8 47.5 48.0 42.9 43.6 48.6 48.1 48.6 48.3 43.6 43.2 construir e interpretar
una parcela digidot o una partícula distinta- 48.0 48.3 48.0 43.2 43.3 43.5 y
foliado y parcela de series de tiempo de estos datos.
48.4 47.2 47.9 43.0 43.0 43.0 6-85. Las 100 Wolfer anual el número de manchas
solares desde 1770 hasta 48,1 48,9 48,3 43,5 42,8 1869 siga. (Para un interesante
análisis e interpretación de estos 48.0 48.6 48.5 43.1 43.1 números, véase el libro
de caja, Jenkins y Reinsel referenciados en ejercicio 6-84. Su análisis requiere
algunos conocimientos avanzados 6-83. Los pull-off para un conector de fuerza se
mide en un modelo estadístico de estadísticas y edificio.) Lea abajo, luego a la
izquierda para pruebas de laboratorio. Los datos de 40 probetas siga (lea abajo, a
la derecha. El resultado es 1869 74. Construir e interpretar un digidot luego de
izquierda a derecha). Construir e interpretar un digidot parcela parcela o un tallo
y hoja y series de tiempo de los datos de trazado. o bien un tallo y hoja y series
de tiempo de los datos de trazado.
241 203 201 251 236 190 101 31 154 38 83 90 82 7 125 23 132 67 258 195 195 238 245
175 66 20 85 10 131 60 237 249 255 210 209 178 35 92 68 24 118 47 210 220 245 198
212 175 41 10 16 8 62 94 21 8 7 13 98 96 194 194 235 199 185 190 16 2 4 57 124 77
225 245 220 183 187 6 0 2 122 96 59 248 209 249 213 218 4 1 8 138 66 44 7 5 17 103
64 47 6-84. En su libro el análisis de series de tiempo, pronóstico, y 14 12 36 86
54 30 Control (Prentice Hall, 1994), G. E. P. Box, G. M. Jenkins, y 34 14 50 63 39
16 G. C. Reinsel presente proceso químico lecturas de concentración 45 35 62 37 21
7 hechas cada dos horas. Algunos de estos datos siga (lea abajo, 43 46 67 24 7 37
y, a continuación, de izquierda a derecha). 48 41 71 11 4 74 17,0 16,7 17,1 17,5
17,6 42 30 48 15 23 16,6 17,4 17,4 18,1 17,5 28 24 28 40 55
c06.indd 221 9/24/2013 6:49:22 PM

222 Capítulo 6/Estadísticas descriptivas


6-86. En su libro Introducción al análisis de series de tiempo y energía,
www.eia.doe.gov/). sitio Web Construir e interpretar las previsiones (Wiley, 2008),
Montgomery, Jennings y digidot Kolahci una parcela o en un tallo y hoja y presentó
los datos de series de tiempo en el cuadro 6E.2, los cuales son el total mensual
pas- parcela para cada columna de datos.
senger millas aéreas l propia en el Reino Unido desde 1964 a 6-89. Cuadro 6E.5
contiene el temperamento de aire media mundial de la superficie- 1970 (en millones
de millas). Comentar las características de los datos que son evidentes. Construir
e interpretar una parcela digidot o una anomalía maduros y el global de la
concentración de CO2 para los años 1880-2004. La temperatura se mide en número de
loca- separar tallo y hoja y series de tiempo de los datos de trazado. nes de todo
el mundo y ha promediado anualmente y, a continuación, sub- 6-87. Cuadro 6E.3
muestra el número de sismos por recogido desde una base promedio del período (1951-
1980) y el resultado año de magnitud 7.0 o superior desde 1900 (fuente: Tierra-
informó como una anomalía.
quake sistema de bases de datos del Servicio Geológico de los Estados Unidos, (a)
Construir una serie de tiempo, parcela de la media mundial de la superficie Centro
Nacional de Información sobre Terremotos de aire, Golden, Colorado). datos de
anomalías de temperatura y comentar las características construir e interpretar una
parcela digidot o una partícula distinta- que observe.
y foliado y parcela de series de tiempo de estos datos. (B) 6-88. Cuadro 6E.4
muestra las importaciones estadounidenses de petróleo como porcentaje de los
totales y el Golfo Pérsico las importaciones como porcentaje de la
construcción de una serie de tiempo gráfica de la concentración de CO2 global datos
y comentarios sobre las características que se observan.
(C) la superposición de dos parcelas en el mismo conjunto de ejes y comentar todas
las importaciones por año desde 1973 (Fuente: Departamento de la parcela.
5"#-& t 6E.2 Reino Unido aerolíneas de pasajeros Millas voladas
Mes 1964 1965 1966 1967 1968 1969 1970 Ene 7.269 8.350 8.186 8.334 8.639 9.491
6.775 7.829 7.444 10.840 Febrero 7.899 8.772 8.919 7.819 8.829 8.484 10.436 Mar.
10.894 11.607 13.589 9.994 8.371 9.948 9.864 Abril 8.852 10.078 10.455 13.402
10.638 10.252 10.801 9.069 Mayo 11.179 12.537 13.103 10.248 11.253 12.282 12.953
Junio 10.588 14.759 14.933 11.030 11.424 11.637 12.222 Julio 10.794 13.667 14.147
10.882 11.391 11.577 12.246 Agosto 12.770 13.731 14.057 10.333 10.665 12.417 13.281
De septiembre 13.812 15.110 16.234 9.109 9.396 9.637 de octubre 10.366 10.857
12.185 12.389 7.685 7.775 8.094 8.730 Nov 10.645 9.290 7.682 7.933 9.280 11.594 DIC
9.614 10.925 12.161 12.772
5"#-& t 6E.3 Datos del terremoto de
1900 13 1928 22 15 1956 1984 8 1901 14 1929 19 1957 34 15 1985 1902 8 1930 13 1958
10 1986 6 1903 10 1931 26 1959 15 11 1987 1904 16 1932 13 22 1960 1988 8 1905 26
1933 14 18 1961 1989 7 1906 32 1934 22 15 1962 1990 18 1907 27 1935 24 20 1963 1991
16 1908 1936 18 21 1964 15 13 1992 1909 32 1937 22 22 1965 1993 12 1910 1938 36 26
1966 19 1994 13 24 1911 1939 21 1967 16 20 1995 1912 22 1940 23 30 1968 1996 15
1913 23 1941 1969 24 27 1997 16 1914 22 1942 27 1970 29 1998 12
c06.indd 222 9/24/2013 6:49:22 PM

Sección 6-5/secuencia de tiempo parcelas 223


1915 18 1943 41 23 1999 1971 18 1916 1944 25 31 1972 20 2000 15 21 1917 1945 27
1973 16 2001 16 21 1918 35 1946 1974 21 2002 13 1919 14 26 1947 1975 21 2003 15
1920 8 1948 28 1976 25 2004 16 1921 11 36 1949 1977 16 2005 11 1922 14 1950 39 18
1978 2006 11 1923 23 21 1951 15 1979 2007 18 1924 18 17 1952 1980 18 2008 12 17
1925 1953 22 1981 2009 14 15 1926 19 17 1954 1982 10 1927 20 19 1955 1983 15
5"#-& t 6E.4 Los datos de importación de petróleo
Las importaciones de petróleo de petróleo Las importaciones totales de petróleo Las
importaciones desde el persa (miles de barriles de petróleo como porcentaje del
Golfo como porcentaje del total del año día) Productos suministrados de
importaciones de petróleo
1973 6256 36,1 13,5 1974 6112 36,7 17,0 37,1 19,2 1976 1975 6055 7313 1977 8807
41,8 25,1 47,7 27,8 44,3 26,5 1979 1978 8362 8456 6909 1980 45,6 24,4 40,5 21,9
37,3 20,3 1982 1981 5996 5113 1983 5051 33,4 13,6 33,1 8,7 1984 1985 5067 5437 34,5
9,3 32,2 38,2 14,6 6,1 1986 6224 1987 8710 1988 6678 40,0 16,1 42,8 20,8 46,5 23,0
1990 1989 8061 8018 1991 7627 47,1 24,5 45,6 24,1 46,3 22,5 1993 1992 7888 8620
1994 8996 50,0 20,6 50,7 19,2 1995 1996 9478 8835 49,8 17,8 51,7 16,9 54,5 10,162
1997 17.2 56.6 19.9 1999 1998 10,708 10.852 55,5 22,7 58,1 21,7 2001 2000 11,459
11,871 60,4 23,2
c06.indd 223 9/24/2013 6:49:23 PM

224 Capítulo 6/Estadística Descriptiva


5"#-& t 6E.4 (Continuación)
año las importaciones de petróleo Las importaciones totales de petróleo como
importaciones de petróleo del Golfo Pérsico como (mil barriles por día de petróleo)
por ciento por ciento del total- Prod uctos de importaciones de petróleo
suministrado
2002 2003 12,264 11,530 58,3 19,6 61,2 20,3 63,4 18,9 2005 2004 13,145 13,714
13,707 2006 65,9 17,0 66,3 16,1 2007 2008 12,915 13,468 65,1 16,1 66,2 18,4
5"#-& t 6E.5 Global de anomalías de temperatura media del aire en la superficie
global y la concentración de CO2
o anomalía, Año o o C CO 2 ppmv año anomalía, C CO 2 ppmv año anomalía, C CO 2 ppmv
1880 -0,11 -0,09 303.8 290.7 1922 1964 -0,25 -0,13 291.2 319.2 1881 1923 -0,16
-0,15 320.0 304.1 1965 1882 -0,01 -0,11 304.5 291.7 1924 1966 -0,07 -0,04 292.1
321.1 1883 1925 -0,15 305,0 1967 -0,02 -0,42 292.6 322.0 1884 1926 0.04 305.4 1968
-0,09 322,9
1885 -0,23 -0,05 305.8 293.0 1927 1969 0.00
- 0.25 293.3 324.2 1886 1928 0,01 0,04 325.2 306.3 1970 1887 -0,45 -0,22 306.8
293.6 1929 1971 -0,10 -0,23 293.8 326.1 1888 1930 -0,03 -0,05 327.2 307.2 1972 1889
0,04 0,03 307.7 294.0 1931 1973 0,18
0,22 294.2 328.8 1890 -1932 0,04 -0,06 329.7 308.2 1974 1891 -0,55 -0,11 308.6
294.3 1933 1975 -0,02 -0,40 294.5 330.7 1892 1934 0,05 -0,21 331.8 309 1976 1893
-0,39 249,6 1935 -0,08 309,4 1977 0,16 -0,32 294.7 333.3 1894 1936 0.01 309.8 1978
0,07 34,6 294,8 1937 1895 -0,32 0,12 0,13 336.9 310.0 1979 1896 1938 294.9 -0,27
0,15 0,27 338.7 310.2 1980 1897 -0,15 -0,02 los 310.3 295.0 1939 1981 0.40 339.9
1898 -0,21 0,14 310.4 295.2 1940 1982 1899 341,1 0,10 -0,25 0,11 310.4 295.5 1941
1983 0.34 0.05 295.8 342.8 1900 -1942 0.10 Los 310.3 1984 0,16 -0,05 296.1 344.4
1901 1943 0.06 0.13 345.9 310.2 1985 1902 1944 296.5 -0,30 0,10 0,19 347.2 310.1
1986 1903 -0,35 -0,01 310.1 296.8 1945 1987 0,35 -0,42 297.2 348.9 1904 1946 0,01
0,42 351.5 310.1 1988 1905 1947 297.6 -0,25 0,12 0,28 352.9 310.2 1989 1906 -0,15
-0,03 los 310.3 298.1 1948 1990 0,49 354.2 1907 -0,41 -0,09 310,5 298,5 1949 1991
0,44 355,6 1908 -0,30 -0,17 310.7 298.9 1950 1992 0.16 356.4 1909 -0,31 -0,02 311.1
299.3 1951 1993 0,18 -0,21 299.7 357.0 1910 1952 0,03 311,5 1994 0.31 358.9
c06.indd 224 9/24/2013 6:49:23 PM

Sección 6-6/diagramas de dispersión 225


años o anomalía, o o C CO 2 ppmv año anomalía, C CO 2 ppmv año anomalía, C CO 2
PPMV,
1911 -0,25 0,12 311.9 300.1 1953 1995 0,47 0,33 300.4 360.9 1912 -1954 -0,09 312,4
1996 0,36 -0,28 300.8 362.6 1913 1955 -0,09 0,40 363.8 313.0 1997 1914 -0,02 -0,18
313.6 301.1 1956 1998 0,71 366,6 1915 0.06 301.4 1957 0,08 0,43 368.3 314.2 1999
1916 -0,20 0,10 314.9 301.7 1958 2000 0,41 -0,46 302.1 369.5 1917 1959 2001 315,8
0,05 0,56 0,33 302.4 371.0 1918 -1960 -0,02 0,70 373.1 316.6 2002 1919 1961 302.7
-0,09 0,10 0,66 375.6 317.3 2003 1920 -0,15 303.0 1962 0,05 0,60 377.4 318.1 2004
1921 -0,04 0,03 318.7 303.4 1963
(fuente: Http://data.giss.nasa.gov/gistemp/)
5"#-& t 6.5 Datos de calidad para los jóvenes de los vinos tintos de
calidad total hasta el pH2 color color de densidad de
19,2 3,85 66 9,35 5,65 3,75 6,95 11,15 18,3 79 17,1 3,88 73 9,40 5,75 3,66 6,40
4,00 15,2 86 14,0 3,47 178 3,60 2,25 3,75 3,20 5,80 13,8 108 12,8 96 5.00 2.70 3.92
3.97 10.25 6.10 17,3 59 16,3 22 3.76 8.20 5.00 3.98 10.15 6.00 16,0 58 15,7 3,75
120 8.80 5.50 15.3 3.77 144 5.60 3.35 14.3 3.76 100 5.55 3.25 3.76 8.70 5.10 14,0
104 13,8 67 3.90 7.41 4.40 3.80 5.35 3.15 12,5 89 11,5 3,65 192 6.35 3.90 3.60 4.25
2.40 14,2 301 17,3 3,86 99 12.85 7.70 3.93 4.90 2.75 El 15,8 66
6-6 diagramas de dispersión
en muchos problemas, ingenieros y científicos que trabajan con datos que es de
naturaleza multifactorial; es decir, cada observación se compone de mediciones de
varias variables. Hemos visto un ejemplo de esto en el cable tire bond fuerza los
datos de la tabla 1.2. Cada observación consistió de datos sobre la fuerza de tiro
de un hilo en particular bond, la longitud del cable, y la matriz de altura. Estos
datos son muy habituales. El cuadro 6.5 contiene un segundo ejemplo de datos
multivariados tomado de un artículo sobre la calidad de los diferentes vinos tintos
jóvenes en el Diario de la ciencia de los alimentos
c06.indd 225 9/24/2013 6:49:24 PM

226 Capítulo 6/Estadísticas descriptivas


Scatter Plot de Calidad vs. Color
20 19 18 17 16 15 14 13 Calidad
Figura 6-19 12
diagrama de dispersión de 11 calidad de vino y 2 3 4 56 7 8 color de la Tabla 6-5.
Color
3,50 3,75 4,00 100 200 300 4 8 12 2.0 4.5 7.0 20
16
12 Calidad 4.00
pH 3,75
3,50 300 200 Total
100 so2
Figura 6-20 12
Matriz de Densidad de Color 8 diagramas de dispersión de los datos de calidad del
vino en 4
Tabla 6-5. Color
y agricultura (1974, Vol 25) por T.C. Somers y M.E. Evans. Los autores informaron
de calidad junto con varias otras variables descriptivas. Nos muestran sólo
calidad, pH, el total de SO2 (en ppm), densidad de color y color vino para una
muestra de sus vinos.
Supongamos que queríamos mostrar gráficamente la relación potencial entre calidad y
una de las otras variables, como por ejemplo el color. El diagrama de dispersión es
una forma útil de hacer esto. Un diagrama de dispersión es construido trazando cada
par de observaciones con una medición del par en el eje vertical de la gráfica y la
otra medida del par en el eje horizontal.
La figura 6.19 es el diagrama de dispersión de calidad versus la variable
descriptiva de color. Observe que existe una evidente relación entre las dos
variables, con vinos de colores más intensos en general, tener una calificación de
calidad superior.
Un diagrama de dispersión es una excelente herramienta exploratoria y puede ser muy
útil en la identificación de poten- cial relaciones entre dos variables. Los datos
de la Figura 6-19 indican que una relación lineal
c06.indd 226 9/24/2013 6:49:24 PM

Sección 6-6/diagramas de dispersión 227


entre la calidad y el color pueden existir. Hemos visto un ejemplo de un diagrama
de dispersión tridimensional en el Capítulo 1 donde nos trazan wire bond fuerza
versus la longitud del cable y morir de altura para la fuerza de tiro de bonos de
datos.
Cuando existen dos o más variables, la matriz de diagramas de dispersión puede ser
útil en la búsqueda de los pares en todas las relaciones entre las variables en la
muestra. Figura 6-20 es la matriz de diagramas de dispersión (sólo se muestra la
mitad superior) para los datos de la calidad del vino en la Tabla 6-5. La fila
superior de la gráfica contiene distintos diagramas de dispersión de calidad ver-
sus otros cuatro variables descriptivas y otras células contienen otras parcelas
por pares de las cuatro variables descriptivas, SO2, pH, densidad de color y el
color. Esta pantalla indica una debilidad potencial relación lineal entre calidad y
pH y algo más intensas relaciones potenciales entre la calidad y la densidad del
color y la calidad y color (que se señaló anteriormente en la figura 6-19). Un
fuerte aparente relación lineal entre la densidad del color y el color existe (esto
debe ser esperado).
Muestra el coeficiente de correlación rxy es una medida cuantitativa de la fuerza
de la relación lineal entre dos variables aleatorias x e y. Muestra el coeficiente
de correlación es deined como
n∑ y x x i i ( ) - rxy =  
n ∑
i=1
i=1 1 / 2 (6.6)
n 2 2  ( ) s s xx i i - - ∑ ( )   i=1 Si las dos variables están perfectamente
linealmente relacionada con una pendiente positiva rxy = 1 y si están perfectamente
linealmente relacionada con una pendiente negativa, entonces rxy = -1. Si no hay
una relación lineal entre las dos variables existe, entonces rxy = 0. El
coeficiente de correlación simple también es a veces llamado el coeficiente de
correlación de Pearson después Karl Pearson, uno de los gigantes de las esferas de
las estadísticas en los siglos XIX y XX.
Muestra el valor del coeficiente de correlación entre la calidad y el color, las
dos varia- bles trazadas en el diagrama de dispersión de la figura 6-19, es de
0.712. Esto es moderadamente fuerte corres- bianos, indicando una posible relación
lineal entre las dos variables. A continuación correlaciones | 0.5 | son
generalmente considerados débiles y correlaciones encima | 0.8 | generalmente se
consideran fuertes.
Todos pairwise muestra las correlaciones entre las variables de ive En Tabla 6-5
son como sigue:
Calidad Total hasta el pH2 pH densidad color Total 0.349 SO2 -0,445 -0.679 la
densidad del color, 0.702 0.482 0.215 0.712 -Color 0,430 -0.480 0.996
moderadamente fuertes correlaciones existentes entre la calidad y las dos variables
de color y la densidad del color, y entre el pH y el total de SO2 (nota que esta
correlación es negativa). La correlación entre el color y la densidad del color es
de 0.996, lo que indica una relación lineal casi perfecta.
Véase la Fig. 6-21 para varios ejemplos de diagramas de dispersión que exhiben las
relaciones posibles entre dos variables. Las piezas (E) y (f) de la Lustración
merecen especial atención; en parte (e), una probable relación cuadrática existe
entre y y x, pero muestra el coeficiente de correlación es cercano a cero porque el
coeficiente de correlación es una medida de asociación lineal, pero en parte (f),
la correlación es aproximadamente cero porque no existe ninguna asociación entre
las dos variables.
C06.indd 227 9/24/2013 6:49:25 PM

228 Capítulo 6/Estadística descriptiva


(a) la escasa relación positiva (b) relación fuerte y positiva
(c) relación negativa débil (d) la fuerte relación negativa
Figura 6-21
relación potencial (e) relación cuadrática no lineal, rxy< o (F) ninguna
relación, rxy< o
entre las variables.
Ejercicios para la sección 6-6
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-90. Cuadro 6E.6 presenta datos sobre las calificaciones de mariscales de 5"#-
& t 6E.6 2008 NFL Quarterback Rating datos
para la temporada de la Liga Nacional de Fútbol de 2008 (fuente: The Sports
Network). Se sospecha que el rating (y) está relacionado a los astilleros por la
calificación promedio de los astilleros adquirida por pase intento (x). Intento de
equipo reproductor de los puntos (a) Construir un gráfico de dispersión de
quarterback rating versus yardas Felipe Ríos SD 8.39 105.5 por intento. Comentar la
sospecha que está relacionado con la calificación de yardas por intento. Chad
Pennington MIA 7,67 97,4
(b) ¿Cuál es la simple correlación coefi ciente entre estos dos Kurt Warner ARI
7,66 96,9 variables?
6-91. Un artículo publicado en Technometrics por S. C. Narula y J. F. Drew Brees NO
7,98 96,2
Wellington ["La predicción, la regresión lineal, y un mínimo de Peyton Manning IND
7.21 95 la suma de los errores relativos" (1977, Vol 19)], se presentan datos sobre
Aaron Rodgers GB 7.53 93.8 el precio de venta y los impuestos anuales para 24
casas. Los datos se muestran en la Tabla 6E.7.
C06.indd 228 9/24/2013 6:49:26 PM

Sección 6-6/diagramas de dispersión 229


Matt Schaub HOU 8.01 92.7 5"#-& t 6E.7 el precio de la vivienda y los datos
fiscales de
Tony Romo DAL 7,66 91,4 Impuestos (impuestos locales (local, Jeff Garcia TB 7.21
90.2 Venta escuela), escuela), precio de venta/1000 condado)/1000 Precio/1000
condado)/1000 Matt Cassel NE 7.16 89.4 25.9 30.0 5.0500 4.9176 Matt Ryan ATL 7,93
87,7 29,5 36,9 8.2464 5.0208 Shaun Hill SF 7.10 87.5 27.9 41.9 6.6969 4.5429 Seneca
Wallace mar 6.33 87 25.9 40.5 7.7841 4.5573 Eli Manning NYG 6,76 86,4 29,9 43,9
9.0384 5.0597 Donovan McNabb PHI 6.86 86,4 29,9 37,5 5.9894 3.8910 Jay Cutler DEN
7,35 86 30,9 37,9 28,9 7.5422 5.8980 8.7951 5.6039 44,5 Trent Edwards BUF 7,22 85,4
35,9 37,9 6.0831 5.8282 Jake Delhomme coche 7.94 84,7 31,5 38,9 8.3607 5.3003 Jason
Campbell fue de 6,41 84,3 31,0 36,9 8.1400 6.2712 David Garrard JAC 6,77 81,7 30,9
45,8 9.1416 5.9592 Brett Favre NYJ 6.65 81 Joe Flacco BAL 6.94 80,3 5"#-& t
6E.8 datos de solubilidad para ejercer 6-93 Kerry Collins diez 6,45 80,2 Ben
Roethlisberger PIT 7.04 80.1 Observación Kyle Orton CHI 6.39 79.6 Número y x 1 x2
x3
1 7.3 0.0 0.0 JaMarcusRussell 0.22200 OAK 6,58 77,1 0.39500 2 8.7 0.0 0.3 Tyler
Thigpen KC 6.21 76 0.42200 3 8.8 0.7 1.0 Gus Freotte min 7,17 73,7 4 0.43700 8,1
4,0 0,2
Dan Orlovsky DET 6.34 72,6 5 9.0 0.5 1.0 6 0.42800 0.46700 Marc Bulger 8.7 1.5 2.8
6.18 7 0.44400 STL 71.4 9.3 2.1 1.0 Ryan Fitzpatrick CIN 5.12 70 0.37800 8 7.6 5.1
3.4 Derek Anderson CLE 5,71 66,5 9 0.49400 0.45600 10.0 0.0 0.3 10 8.4 3.7 4.1
(a) Construir un gráfico de dispersión de precio de venta frente a los impuestos
pagados. 11 0.45200 9.3 3.6 2.0 comentar la creencia generalizada de que el precio
está relacionado con 12 0.11200 7.7 2.8 7.1 Los impuestos pagados. 13 0.43200 9.8
4.2 2.0 (b) ¿Cuál es la simple correlación coefi ciente entre estos 14 0.10100 7.3
2.5 6.8 dos variables? 15 0.23200 8.5 2.0 6.6 6-92. Un artículo en la Revista de
Ciencias Farmacéuticas 16 0.30600 9.5 2.5 5.0 (1991, Vol. 80, págs. 971-977)
presentó datos sobre la observó 17 0.09230 7.4 2.8 7.8 Solubilidad fracción molar
de soluto a una temperatura constante de 18 0.11600 7.8 2.8 7.7 y la dispersión,
dipolar, e hidrógeno-bonding Hansen 19 0.07640 7.7 3.0 8.0 Parámetros de
solubilidad parcial. Los datos se muestran en la Tabla 20 0.43900 10.3 1.7 4.2
6E.8, donde y es el logaritmo negativo de la fracción molar 21 0.09440 7.8 3.3 8.5
Solubilidad, 0.11700 x 22 7.1 3.9 6.6 1 es la dispersión de solubilidad parcial, x2
es el dipo- lar la solubilidad parcial, y x3 es el enlace de hidrógeno solubilidad
parcial. 23 0.07260 0.04120 7.7 4.3 9.5 24 7.4 6.0 10.9 (a) construir una matriz de
gráficos de dispersión para estas variables.
(B) Comentario sobre la aparente relación entre y y el 25 0.25100 7.3 2.0 5.2
otros tres variables? 26 0.00002 7.6 7.8 20.7
c06.indd 229 9/24/2013 6:49:27 PM

230 Capítulo 6/Estadística descriptiva


probabilidad 6-7 parcelas
¿Cómo podemos saber si una determinada distribución de probabilidad es un modelo
razonable para los datos?
A veces se trata de una cuestión importante porque muchas de las técnicas
estadísticas que se presentan en los capítulos subsiguientes se basan en la
hipótesis de que la distribución de la población es de un SPE- cii c tipo. Así,
podemos pensar en determinar si los datos vienen de una distribución de
probabilidad c specii como verificación de hipótesis. En otros casos, la forma de
la distribución pueden dar ideas sobre el mecanismo físico subyacente generando los
datos. Por ejemplo, en ingeniería de confiabilidad, comprobando que el tiempo de
falla de los datos proceden de una distribución exponencial identi- i es el
mecanismo de falla en el sentido de que la tasa de fracaso es constante con
respecto al tiempo.
Algunas de las visualizaciones hemos utilizado anteriormente, tales como el
histograma, pueden proporcionar información acerca de la forma de la distribución
subyacente. Sin embargo, histogramas generalmente no son realmente fiable indica-
tores de la forma de distribución, a menos que el tamaño de la muestra es muy
grande. Un gráfico de probabilidad es un método gráfico para determinar si los
datos de la muestra se ajustan a una hipótesis de distribución basada en un examen
visual subjetiva de los datos. El procedimiento general es muy simple y puede ser
per- forman rápidamente. También es más fiable que el histograma para pequeñas a
muestras de tamaño moderado.
Trazado de probabilidad normalmente utiliza ejes especiales que han sido adaptados
a las hipótesis de distribu- bution. El Software está ampliamente disponible para
el normal, lognormal, Weibull, y diversos de chi-cuadrado y distribuciones gamma.
Nos centramos principalmente en parcelas de probabilidad normal porque muchas
técnicas estadísticas son apropiados sólo cuando la población es (al menos
aproximadamente) normal.
Para construir un gráfico de probabilidad, las observaciones de la muestra son i
rst clasificados de pequeños- est a mayor. Es decir, la muestra x ,x, ,x 1 2 ... n
se organizan como x,x,x, ( ) ( ) ( ) 1 2 ... n donde x( ) 1 es la más pequeña
observación, x( ) 2 es la segunda más pequeña observación, etcétera con x n ( ) el
mayor.
Observaciones del pedido x( ) j son entonces conspirado contra su frecuencia
acumulada observada ( .)/ j n - 0 5 sobre el papel de probabilidad correspondiente.
Si la hipótesis de distribución describe adecuadamente los datos, los puntos
trazados caerá aproximadamente a lo largo de una línea recta; si la parcela- ted se
desvían considerablemente signii puntos de una línea recta, la hipótesis de modelo
no es apropiado.
Generalmente, la determinación de si o no los datos de impresión es una línea recta
es subjetiva. El procedimiento se ilustra en el siguiente ejemplo.
Ejemplo 6-7 Batería Diez observaciones sobre la vida útil eficaz en minutos de
baterías utilizadas en un ordenador personal portátil son los siguientes: 176, 191,
214, 220, 205, 192, 201, 190, 183, 185. Nuestra hipótesis es que la vida de la
batería está adecuadamente modelada por una distribución normal. Utilizar
probabilidad de conspirar para in- vestigar esta hipótesis, yo rst organizar las
observaciones en orden ascendente y calcular sus frecuencias acumuladas ( .)/ j - 0
5 10 como se muestra en la Tabla 6-6.
5"#-& t 6-6 Cálculo para construir un gráfico de probabilidad normal

j x( ) j ( j - 0.5 10 )/ z j
1 176 0,05 -1,64 2 183 0,15 -1,04 3 185 0,25 -0,67 4 190 0,35 -0,39 5 191 0,45
-0,13 0,55 0,13 7 6 192 201 0,65 0,39 0,75 0,67 9 8 205 214 0,85 1,04 1,64 0,95 10
220
c06.indd 230 9/24/2013 6:49:30 PM
Sección 6-7/Probabilidad parcelas 231
Los pares de valores x( ) y j ( j - 0 5 10 . / Ahora están trazadas sobre ejes de
probabilidad normal. Este trazado es el mostrado en la Fig. 6-22. ) La
mayoría de las parcelas de probabilidad normal tiene 100 0 5 j n ( ) - . / En la
escala vertical izquierda y (a veces) 100 1 0 5 [ ] - - ( .)/ j n en la escala
vertical a la derecha, con el valor de la variable trazadas en la escala
horizontal. Una línea recta, elegido subjetivamente, ha aspirado a través de los
puntos trazados. En el dibujo de la línea recta, debe ser inl uenced por los puntos
más cerca del centro de la parcela que por los puntos extremos. Una buena regla es
dibujar la línea aproximadamente entre los percentiles 25 y 75 puntos. Esta es la
forma en la línea de la Fig. 6-22 fue determinada. En la evaluación de la
"proximidad" de los puntos de la línea recta, imaginar un "lápiz" de grasa
localizada a lo largo de la línea. Si todos los puntos están cubiertos por este
lápiz imaginario, una distribución normal describe adecuadamente los datos. Porque
los puntos en la Fig. 6-19 pasaría la prueba de "lápiz" de grasa, podemos concluir
que la distribución normal es un modelo apropiado.

99,9 0,1 99 1 95 5
N 80 20 ]n
50 50 j - 0.5)/ j - 0.5)/ 20 80 100(5 95 100[1 - ( 1 99 0,1 99,9 170 180 190 200
210 220 x( j)
Figura 6-22 gráfico de probabilidad normal para la vida de la batería.
Un gráfico de probabilidad normal también pueden construirse en ejes comunes
trazando el stand- ardized puntajes normales z j contra x( ) j donde las
puntuaciones normales estandarizadas cumplen
j - . 0 ≤ 5==Φ P Z ( ) z z j j n ( )
si, por ejemplo, ( .)/ ., . j n - z = 0 5 0 05 005 φ( )j implica que z j = - . . 1
64 Para ilustrar, examinar los datos del Ejemplo 6-4. En la última columna de la
tabla 6-6 se muestran las puntuaciones normales estandarizadas. Figura 6-23 es el
argumento de z j versus x( ) j . Este gráfico de probabilidad normal es equivalente
a la de la Fig. 6-22.
Hemos construido nuestra probabilidad parcelas con la escala de probabilidad (o el
z-escala) en el eje vertical. Algunos paquetes de computadora "l ip" el eje y poner
la probabilidad de la escala en el eje horizontal.
3.30
1.65
zj 0
Figura 6-23 -1,65
gráfico de probabilidad normal obtenida de normales estandarizadas -3,30 170 180
190 200 210 220
partituras. x( j)
c06.indd 231 9/24/2013 6:49:33 PM

232 Capítulo 6/estadísticas descriptivas de


3.30 3.30 3.30
1.65 1.65 1.65
zj 0 zj 0 zj 0
-1,65 -1,65 -1,65
-3,30 170 180 190 200 210 220 180 190 -3,30 170 200 210 220 170 180 190 -3.30 200
210 220 x( j) j) x( x( j)
(a) (b) (c)
Figura 6-24 Trazado de probabilidad normal indicando una distribución nonnormal.
(A) La luz de cola de distribución.
(B) pesadas colas de la distribución. (C) una distribución con positivo (derecha) o
sesgar.
Probabilidad normal el gráfico de probabilidad normal puede ser útil en la
identificación de distribuciones que son simétricos pero
parcelas de pequeñas muestras que tienen colas que son "pesado" o "ligero" que el
normal. También pueden ser útiles en la iden-
pueden no ser fiables tifying distribuciones sesgadas. Cuando se selecciona una
muestra de una luz-tailed distribución (tales como la distribución uniforme), el
menor y el mayor de observaciones no será tan extrema como sería de esperar en una
muestra de una distribución normal. Por lo tanto, si consideramos la línea recta
trazada a través de las observaciones en el centro del gráfico de probabilidad
normal, observaciones sobre el lado izquierdo, se tienden a caer por debajo de la
línea, y observaciones sobre el lado derecho tenderá a caer por encima de la línea.
Esto producirá una S en forma de gráfico de probabilidad normal como se muestra en
la Fig. 6-24(a). Un pesado- colas de distribución dará como resultado datos que
también producen una S en forma de gráfico de probabilidad normal, pero ahora las
observaciones sobre la izquierda estará por encima de la línea recta y de las
observaciones de la derecha que se encuentran por debajo de la línea. Véase la Fig.
6-24(b). Una distribución sesgada positivamente tienden a producir un patrón como
se muestra en la Fig. 6-24(c), donde los puntos en ambos extremos de la parcela
tienden a caer por debajo de la línea, dando una forma redondeada a la parcela.
Esto ocurre porque tanto el menor como el mayor observa- ciones de este tipo de
distribución son mayores de lo esperado en una muestra de una distribución normal.
Aun cuando la población subyacente es exactamente normal, los datos de la muestra
no va a trazar exactamente en una línea recta. Algunos juicios y experiencias son
necesarias para evaluar la parcela.
Generalmente, si el tamaño de la muestra es de n < 30, puede haber signiicant
desviación de linealidad en terrenos normales, por lo que en estos casos sólo una
muy grave apartamiento de linealidad debe ser inter- preted como una fuerte
indicación de nonnormality. A medida que N aumenta, el patrón lineal tenderán a ser
más fuertes, y el gráfico de probabilidad normal será más fácil de interpretar y
más fiable como un indicador de la forma de la distribución.
Ejercicios para la sección 6-7
problema disponible en WileyPLUS a discreción del instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-93. Construir un gráfico de probabilidad normal del pistón 6-96. Construir un
gráfico de probabilidad normal del diámetro del anillo solar datos en Ejercicio 6-
7. ¿Le parece razonable datos de intensidad en el ejercicio 6-12. Parece razonable
suponer que el diámetro del anillo del pistón se distribuye normalmente? Asumir que
la intensidad solar se distribuye normalmente?
6-94. Construir un gráfico de probabilidad normal del 6-97 aislante. Construir un
gráfico de probabilidad normal de la junta tórica joint luid Tiempo de desglose de
datos en Ejercicio 6-8. Parece ser rea- los datos de temperatura en ejercicio 6-19.
Parece razonable suponer que sonable Tiempo de desglose se distribuye normalmente?
Asumir que la junta tórica de la temperatura común se distribuye normalmente?
6-95. Construir un gráfico de probabilidad normal de visual discutir cualquier
características interesantes que puedes ver en la parcela.
alojamiento de datos en ejercicio 6-11. Parece ser rea- 6-98. Construir un gráfico
de probabilidad normal de la octane sonable asumir que visual alojamiento es
normalmente datos de calificación en ejercicio 6-30. ¿Le parece razonable asumir
distribuido? Índice de octano que se distribuye normalmente?
C06.indd 232 9/24/2013 6:49:34 PM

Sección 6-7/
6-99 233 parcelas de probabilidad. Construir un gráfico de probabilidad normal de
los ciclos poblaciones tienen la misma varianza, las dos probabil normal- a la
falta de datos en ejercicio 6-31. ¿Le parece razonable ity parcelas deben tener
idénticas pendientes. ¿Qué conclusiones sería asumir que los ciclos al fracaso se
distribuye normalmente? Dibujar sobre las alturas de los dos grupos de estudiantes
de 6-100. Construir un gráfico de probabilidad normal del suspendido el examen
visual del trazado de probabilidad normal?
Los datos de concentración de sólidos en el ejercicio 6-40. Parece ser rea- 6-102.
Es posible obtener un "rápido y sucio" estimar sonable asumir que la concentración
de sólidos suspendidos de la media de una distribución normal del percentil 50 en
aguas de este lago particular se distribuye normalmente? Valor en un gráfico de
probabilidad normal. Proporcionar un argumento porqué 6-101. Construir dos parcelas
de probabilidad normal para la altura es así. También es posible obtener una
estimación de la base de datos- en ejercicios 6-38 y 6-45. Trazar los datos para
mujeres ard desviación de una distribución normal, restando la 84a y los
estudiantes varones en los mismos ejes. No parecen valor percentil de altura desde
el valor del percentil 50. Proporcionar un ser normalmente distribuidos para
cualquier grupo de estudiantes? Si tanto el argumento para explicar por qué esto es
así.

Problema Ejercicios suplementarios disponibles en WileyPLUS a discreción del


instructor.
Problema de tutoría disponible en WileyPLUS a discreción del instructor.
6-103. La Administración Nacional Oceánica y Atmosférica- 6-105. Cuadro 6E.10
muestra los datos de desempleo para la proporcionó la absoluta mensual de
estimaciones globales (las tierras que los Estados Unidos están
desestacionalizados. Construir un tiempo y océano combinado) Índice de temperatura
(grados Celsius) desde la serie parcela de estos datos y comentar las
características (fuente:
2000. De enero a diciembre de lectura de izquierda a derecha en la www. Oficina de
Trabajo de EE.UU. sitio Web, Http://data.bls.gov).
ncdc.noaa.gov/oa/climate/research/anomalies/anomalies. 6-106. Una muestra de 6
resistencias arrojó las siguientes resistencias html). Construir e interpretar un
argumento o un digidot separados (ohmios): x,x,x,x, 1 2345 = = = = = 45 38 47 41 35
x y x6 = . 43 stem-and-leaf y series de tiempo parcela de estos datos. (A) calcular
la varianza y la desviación estándar de la muestra.
6-104. La concentración de una solución se mide seis (b) Reste 35 de cada uno de
los originales de la resistencia medida-
2 veces por un mismo operador que utilice el mismo instrumento. Ella obtiene
declaraciones y calcular s y s. Compare los resultados con los datos siguientes:
63.2, 67.1, 65.8, 64.0, 65.1, y 65.3 los obtenidos en la parte (a) y explicar sus
conclusiones.
(Gramos por litro). (C) Si las resistencias son 450, 380, 470, 410, 350 y 430 (a)
Calcular la media de la muestra. Supongamos que el deseable ohms, puede utilizar
los resultados de las partes anteriores de este
valor 2 para esta solución ha sido specii ed a 65,0 gramos problema i nd s y s?
Por litro. ¿Cree usted que la media de la muestra valor com- 6-107. Considere las
siguientes dos muestras:
puted aquí está lo suficientemente cerca para el valor del objetivo para aceptar la
muestra 1: 10, 9, 8, 7, 8, 6, 10, 6 como solución conforme al destino? Explicar su
razonamiento. Ejemplo 2: 10, 6, 10, 6, 8, 10, 8, 6 (b) calcular la varianza de la
muestra y el estándar de la muestra (a) calcular el rango de la muestra para ambas
muestras. ¿Le con- desviación. clude que ambas muestras exhiben la misma
variabilidad? Explicar.
(C) suponga que en la medición de la concentración, el operador (b) calcular las
desviaciones estándar de muestra para ambas muestras.
Debe configurar un aparato y utilice un material reactivo. ¿Por qué estas
cantidades indican que ambas muestras tienen el ¿cree usted que las principales
fuentes de variabilidad en esta misma variabilidad? Explicar.
experimentar? ¿Por qué es conveniente tener una pequeña variación de (c) Escriba
una breve declaración contrastando el rango de la muestra frente a estas medidas?
La desviación estándar de la muestra como una medida de variabilidad.
5"#-& t 6E.9 temperatura mensual Global
Año1 2 3 4 5 6 7 8 9101112 2000 12.3 12.6 13.2 14.3 15.3 15.9 16.2 16.0 15.4 14.3
13.1 12.5 12.4 12.5 13.3 2001 14.2 15.4 16.0 16.3 16.2 15.5 14.5 13.5 12.7 12.9
13.4 12.7 2002 14.2 15.3 16.1 16.4 16.1 15.5 14.5 13.5 12.6 12.6 12.6 13.2 2003
14.2 15.4 16.0 16.3 16.2 15.6 14.7 13.4 12.9 12.6 12.8 13.3 2004 14.3 15.2 16.0
16.3 16.1 15.5 14.6 13.6 12.7 12.6 12.5 13.4 2005 14.4 15.4 16.2 16.4 16.2 15.7
14.6 13.6 12.8 12.4 12.6 13.2 2006 14.2 15.3 16.1 16.4 16.2 15.6 14.6 13.5 12.9
12.8 12.7 13.3 2007 14.4 15.3 16.0 16.3 16.1 15.5 14.5 13.4 12.6 2008 12.2 12.4
13.4 14.1 15.2 16.0 16.3 16.1 15.5 14.6 13.5 12.5 12.6 13.2 12.7 2009 14.3 15.3
16.1 16.4 16.2 15.6
c06.indd 233 9/24/2013 6:49:36 PM

234 Capítulo 6/Estadística Descriptiva


5"#-& t 6E.10 Porcentaje de desempleo
año Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic 1999 4.3 4.4 4.2 4.3 4.2 4.3
4.3 4.2 4.2 4.1 4.1 4.0 4.0 4.1 4.0 2000 3,8 4,0 4,0 4,0 4,1 3,9 3,9 3,9 3,9 2001
4.2 4.2 4.3 4.4 4.3 4.5 4.6 4.9 5.0 5.3 5.5 5.7 5.7 5.7 5.7 2002 5,9 5,8 5,8 5,8
5,7 5,7 5,7 5,9 6,0 5,8 5,9 5,9 6,0 2003 6,1 6,3 6,2 6,1 6,1 6,0 5,8 5,7 5,7 5,6
5,8 5,6 2004 5.6 5.6 5.5 5.4 5.4 5.5 5.4 5.4 5.2 5.4 5.2 5.2 2005 5.1 5.1 5.0 4.9
5.0 5.0 5.0 4.8 4.7 4.8 4.7 2006 4,7 4,7 4,6 4,7 4,7 4,5 4,4 4,5 4,4 4,6 4,5 4,4
2007 4,5 4,5 4,6 4,7 4,7 4,7 4,8 4,7 4,9 4,9 4,8 5,1 5,0 2008 5,5 5,6 5,8 6,2 6,2
6,6 6,8 7,6 8,1 8,5 7,2 2009 8,9 9,4 9,5 9,4 9,7 9,8
6-108. Un artículo en Ingeniería de Calidad (1992, Vol 4, 6-109. El total neto de
consumo de electricidad de las Naciones pp. 487-495) presenta una viscosidad de un
lote de datos Estados químicos por año desde 1980 a 2007 (en miles de millones de
kilovatios-hora). Una muestra de estos datos se encuentra en la Tabla 6E.11. En el
cuadro 6E.12. Consumo neto excluye la energía pro- sumed por las unidades
generadoras.
13.3 14.3 14.9 15.2 15.8 14.2 16.0 14.0 14.5 16.1 13.7 15.2 13.7 16.9 14.9 14.4
tabla t 6E.12 El consumo de electricidad de EE.UU.
15.3 13.1 15.2 15.9 15.1 14.9 13.6 13.7 2094.4 1980 1981 1982 1983 2151.0 2147.1
2086.4 15.3 15.5 14.5 16.5 13.4 15.2 15.3 13.8 1984 1985 1986 2368.8 2285.8 2324.0
2457.3 14.3 12.6 15.3 1987 14,8 14,1 14,4 14,3 15,6 1988 1989 1990 2837.1 2578.1
2755.6 2886.1 14.8 14.6 15.6 1991 15.1 14.8 15.2 15.6 14.5 15.2 14.3 15.8 17.0 14.3
14.6 16.1 12.8 1992 1993 1994 3080.9 2897.2 3000.7 3164.0 14.5 15.4 13.3 1995 14,9
14,3 16,4 13,9 16,1 1996 1997 1998 3425.1 3253.8 3301.8 3483.7 14.6 15.2 14.1 1999
14,8 16,4 14,2 15,2 16,6 2000 3592.4 2001 2002 2003 3662.0 3557.1 3631.7 14.1 16.8
15.4 14.0 16.9 15.7 14.4 15.6 3715.9 2004 2005 2006 2007 3891.7 3811.0 3816.8 (a)
lectura de izquierda a derecha y de arriba hacia abajo, dibuje una serie de tiempo
(Fuente: Departamento de Energía de EE.UU. sitio Web, Www.eia.doe.gov/emeu/
parcela de todos los datos y comentarios sobre las características de los datos
internacionales/contents.html#InternationalElectricity).
que son revelados por este trazado. Construir una serie de tiempo, parcela de estos
datos. Construir y b) Considerar la noción de que el yo rst 40 observaciones fueron
gen- interpretar un tallo y hojas de presentación de estos datos. c specii erated
desde un proceso, mientras que los últimos 40 observa- 6-110. Reconsiderar los
datos del ejercicio 6-108. Preparar com- nes fueron generados a partir de un
proceso diferente. ¿El cuadro reparativas parcela parcelas para dos grupos de
observaciones: el i rst 40 indican que los dos procesos generan resultados
similares? Y el último 40. Comentario sobre la información de los diagramas de
caja. (C) calcular la media muestral y la varianza muestral del i rst 6-111. Los
datos que se muestran en la Tabla 6E.13 son mensuales cham- 40 observaciones; luego
calcular estos valores para el segundo 40 pagne ventas en Francia (1962-1969) en
miles de botellas. Observaciones. ¿Estas cantidades indican que ambos procesos (a)
Construir una serie de tiempo de los datos de trazado y comentar sobre el
rendimiento el mismo nivel medio? La variabilidad de la misma? Explicar las
características de los datos que revela esta parcela.
5"#-& t 6E.11 Los datos de viscosidad (b) especular sobre cómo se utiliza un
método gráfico para pronosticar ventas champagne mensual para el año 1970. 13.3
14.3 14.9 15.2 15.8 14.2 16.0 14.0 6-112. Los datos siguientes son las temperaturas
de efl uent 14.5 16.1 13.7 15.2 13.7 16.9 14.9 14.4 al alta de una planta de
tratamiento de aguas servidas en 15.3 13.1 15.2 consecutivos 15,9 15,1 14,9 13,6
13,7 días:
15,3 15,5 14,5 16,5 13,4 15,2 15,3 13,8 43 47 51 48 52 50 46 49 14,3 12,6 15,3 14,8
14,1 14,4 14,3 15,6 45 52 46 51 44 49 46 51 14,8 14,6 15,6 15,1 14,8 15,2 15,6 14,5
49 45 44 50 48 50 49 50 15.2 14.3 15.8 17.0 14.3 14.6 16.1 12.8 14.5 15.4 13.3 14.9
14.3 16.4 13.9 16.1 (a) Calcular la media de la muestra, muestra la mediana,
muestra la vari- ance, y una desviación estándar de la muestra. 14.6 15.2 14.1 14.8
16.4 14.2 15.2 16.6 (b) Construir un diagrama de caja de los datos y comentarios
sobre el infor- 14.1 16.8 15.4 14.0 16.9 15.7 14.4 15.6 información en esta
pantalla.
c06.indd 234 9/24/2013 6:49:37 PM

Sección 6-7/Probabilidad parcelas 235


5"#-& t 6E.13 las ventas de Champagne en Francia
Mes 1962 1963 1964 1965 1966 1967 1968 1969 Ene 2.851 2.541 3.113 5.375 3.633 4.016
2.639 3.934 2.672 2.475 3.006 3.088 Feb 4.292 3.957 2.899 2.755 3.031 4.047 3.162
Mar. 3.718 4.154 4.510 3.370 4.286 2.721 3.266 3.523 4.514 Abril 4.121 4.276 3.740
4.676 2.946 3.776 4.520 Mayo 3,937 4.647 4.968 2.927 5.010 3.036 3.230 4.539 Junio
3,986 3,986 4.874 4.753 4.677 2.282 3.028 3.260 3.663 Julio 3.965 3.523 4.217
Agosto 2.212 4.633 1.759 1.723 1.821 1.738 1.573 que dista 1.643 1.659 2.922 3.595
3.528 4.739 Septiembre 5.048 5.221 5.591 4.301 5,222 Octubre 4.474 5.211 5.428
6.922 6.873 6.424 6.981 5.764 6.838 7.614 8.314 Nov 10.803 9.858 9.842 9.851 7.132
8.357 9.254 10.651 Dic 11.331 13.916 13.076 12.670
6-113. Un fabricante de resortes de bobina está interesada en el 6-117. Construir
un gráfico de probabilidad normal de la efl uent implementar un sistema de control
de calidad para supervisar su pro- Temperatura de descarga datos de ejercicio 6-
112. Basado en el proceso de producción. Como parte de este sistema de calidad, se
decidió trazar, ¿qué conclusiones puede sacar?
Registrar el número de no conformidades resortes de bobina en cada 6-118. Construir
parcelas de probabilidad normal de los lotes de producción de arranque en frío de
tamaño 50. Durante 40 días de producción, tiempo de encendido de 40 datos
presentados en ejercicios 6-69 y 6-80. Con- lotes de datos fueron recopilados de la
siguiente manera: struct una parcela independiente para cada formulación de
gasolina, pero organizar leer datos a través y hacia abajo. Las parcelas en los
mismos ejes. ¿Qué conclusiones provisionales pueden
912 71412 6 9 4 6 7 que llamar?
8 5 9 7 811 3 6 7 7 6-119. Reconsiderar la pelota de golf distancia total datos en
Exer- 11 4 4 8 7 5 6 4 5 8 cise 6-41. Construir un diagrama de caja de la distancia
yardage y escribir 19 19 18 12 11 17 15 17 13 13 una interpretación de la parcela.
¿Cómo funciona el box plot comparar en (a) Construir un tallo y hojas de los datos
de trazado. valor interpretativo a la original de tallo y hojas de dibujo?
(B) Encontrar la muestra la media y la desviación estándar. 6-120. Las
transformaciones. En algunos conjuntos de datos, una transformación (c) construir
una serie de tiempo de los datos de trazado. Hay evidencia por alguna función
matemática aplicada a los datos originales, que hubo un aumento o disminución del
promedio de num- como y o registro, y puede resultar en datos que son más sencillas
para trabajar ber de no conformidades Resortes fabricados durante los 40 días? Con
estadísticamente de los datos originales. Para ilustrar el efecto explicar. de una
transformación, considere los siguientes datos, que repre- envió a ciclos de
fracaso para un hilo producto: 675, 3650, 175, 1150, 6-114. Un canal de
comunicación está siendo supervisado por el registro - 290, 2000, 100, 375. ing el
número de errores en una cadena de 1000 bits. Datos de 20 de estas cadenas seguir:
(a) Construir un gráfico de probabilidad normal y comentar sobre la forma de la
distribución de los datos. Leer datos a través y hacia abajo (b) transformar los
datos mediante logaritmos; es decir, dejar y ∗(nuevo 3 1 0 1 3 2 4 1 3 1) Valor =
log (valor antiguo) y . Construir una probabilidad normal 1 1 2 3 3 2 0 2 0 1
parcela de los datos transformados y comentar el efecto de (a) Construir un tallo y
hojas de la parcela. La transformación de datos.
(B) Encontrar la muestra la media y la desviación estándar. 6-121. En 1879, A. A.
Michelson realizado 100 determinaciones de (c) construir una serie de tiempo de los
datos de trazado. Existen pruebas de la velocidad de la luz en el aire usando un
catión modii de un método que existía un aumento o una disminución en el número de
propuestas por el físico francés Foucault. Michelson cometió errores en una cadena?
Explicar las mediciones en i ve juicios de 20 mediciones en cada caso. El 6-115.
Reconsiderar el campo de golf yardage datos en ejercicio observaciones (en
kilómetros por segundo) se presentan en la Tabla 6E.14.
6-9. Construir un diagrama de caja del yardages y escribir una interpre- cada valor
tiene 299,000 resta.
cación de la parcela. La verdad actualmente aceptada de la velocidad de la luz en
el vacío 6-116. Reconsiderar los datos en ejercicio 6-108. La construcción normal
es de 299,792.5 km por segundo. Stigler (1977, Los Anales probabilidad parcelas
para dos grupos de los datos: el i rst 40 y la de estadísticas) informó de que el
"verdadero" valor de comparación para el pasado 40 observaciones. La construcción
de ambas parcelas en los mismos ejes. ¿Cuál de estas mediciones es 734.5.
Construcción de cuadro comparativo parcelas puede sacar conclusiones provisionales?
De estas mediciones. ¿Le parece que todo lo que ve los juicios son
c06.indd 235 9/24/2013 6:49:38 PM

236 Capítulo 6/Estadística Descriptiva


5"#-& t 6E.14 la velocidad de la luz Datos 21.3, 15.0, 15.5, 16.4, 18.2, 15.3,
15.6, 19.5, 14.0, 13.1, 10.5, 11.5, 12.9, 8.4, 9.2, 11.9, 5.8, 8.5, 7.1, 7.9, 8.0,
9.9, 8.5, 9.1, 9.7, el Ensayo 1, 6.2, 7.2, 8.7, 5.8, 5.7, y 5.2. 850 900 930 950
980 (a) realizar un adecuado análisis gráfico de los datos. 1000 930 760 1000 960
(b) calcular e interpretar los resúmenes numéricos apropiados.
740 1070 850 980 880 (c) Observe que la tasa parece disminuir dramáticamente
inicio- 980 650 810 1000 960 ing alrededor del 1990. Examinar algunas posibles
razones explicando el ensayo 2 ¿Por qué esto podría haber sucedido.
960 960 880 850 900 (d) Si ha habido un cambio real en la tasa de ahogamiento
comenzar- 830 810 880 800 760 ning alrededor de 1990, ¿qué impacto tiene esto sobre
la suma- Mary estadísticas que calculan en la parte (b)? 940 940 800 880 840 6-124.
Los pacientes que llegaban al departamento de emergencias de un hospital de 790 880
830 790 800 presentan una variedad de síntomas y quejas. El siguiente ensayo 3 se
recogieron datos durante un fin de semana turno de noche (11:00 p.m.
880 880 720 620 970 a las 7:00 a.m.):
880 850 840 850 840 El dolor torácico 8 880 860 720 860 950 Difi culty respirar 7
910 870 840 840 840 de entumecimiento en las extremidades 3 Prueba 4 huesos rotos
11 890 810 800 760 750 910 890 880 Las abrasiones 16 840 21 810 820 850 cortes 770
740 760 puñaladas 9 920 860 720 850 780 impactos de bala 4 5 Prueba de fuerza
contundente trauma 10 890 780 760 790 820 desmayos, pérdida de conciencia, 5 870
810 810 950 810 840 810 810 9 810 850 (a) calcular resúmenes numéricos de estos
datos. ¿Qué prácticas 740 870 940 800 870 interpretación puede dar a estos
resúmenes?
(B) suponga que usted sabía que una determinada fracción de estos coherentes con
respecto a la variabilidad de las mediciones? Los pacientes salen sin tratamiento
(LWOT). Este es un importan- son todos los ensayos me he centrado en el mismo
valor? ¿Cómo cada tant problema porque estos pacientes pueden estar gravemente
enfermo o grupo de ensayos para comparar el valor real? Podría no haber sido
lesionado. Discutir qué datos adicionales que serían necesarios a los efectos de
"inicio" en el que realiza el experimento de Michelson? Comenzar un estudio sobre
las razones por las que pacientes LWOT. Podría haber sido un sesgo en el
instrumento de medición? 6-125. Uno de los autores (DCM) tiene un Mercedes-Benz 500
6-122. En 1789, Henry Cavendish calcula la densidad SL Roadster. Es un modelo 2003
y tiene bastante poco kilometraje de la tierra utilizando una balanza de torsión.
Sus 29 mediciones (actualmente 45,324 millas en el odómetro). Él está interesado en
seguir, expresado como un múltiplo de la densidad del agua. aprender cómo compara
el kilometraje de su coche con el kilometraje 5.50 5.30 5.47 5.10 5.29 5.65 similar
SLs. Cuadro 6E.15 contiene el kilometraje 100 Mercedes- 5.55 5.61 5.75 5.63 5.27
5.44 Benz SLs desde los modelos de los años 2003-2009 tomada del sitio web de
Cars.com. 5,57 5,36 4,88 5,86 5,34 5,39 (a) Calcular la media muestral y la
desviación estándar de 5.34 5.53 5.29 4.07 5.85 5.46 las lecturas del
cuentakilómetros. 5,42 5,79 5,62 5,58 5,26 (b) construir un histograma de las
lecturas del cuentakilómetros y com- (a) Calcular la media de la muestra, la
desviación estándar de la muestra, y la declaración sobre la forma de la
distribución de los datos.
La mediana de los datos de densidad de Cavendish. (C) Construir un tallo y hoja
diagrama del odómetro (b) construir un gráfico de probabilidad normal de los datos.
Comentar lecturas.
la parcela. No parece ser una "baja" outlier en los datos? (D) ¿Qué es el percentil
de kilometraje del DCM?
(C) La mediana de la muestra podría ser una mejor estimación de la den- 6-126. El
consumo de energía para 90 viviendas con calefacción de gas sity de la tierra que
la media de la muestra? ¿Por qué? Durante la temporada de calefacción invernal se
presenta en la Tabla 6E.16. El
6-123. En su libro Introducción al análisis de series de tiempo variable informa es
BTU/número de días-grado de calentamiento
y previsión (Wiley, 2008), Montgomery, Jennings, y (a) Calcular la media muestral y
la desviación estándar de
Kulahci presentó los datos sobre la tasa de ahogamiento para los niños el uso de la
energía.
entre uno y cuatro años de edad por cada 100,000 habitantes en (b) construir un
histograma de los datos de uso de energía y com- Arizona desde 1970 hasta 2004. Los
datos son: 19.9, 16.1, 19.5, 19.8, ción sobre la forma de la distribución de los
datos.
C06.indd 236 9/24/2013 6:49:39 PM

Sección 6-7/Probabilidad parcelas 237


(c) construir un tallo y hojas diagrama de uso de energía. (F) suponga que la i rst
36 observaciones en la tabla provienen de (d) ¿Qué proporción de los datos de uso
de energía está por encima de la aver- una máquina y los restantes proceden de una
segunda máquina de uso de edad más 2 desviaciones estándar? (Leer a través de las
filas y el abajo). No parece haber un
6-127. La fuerza necesaria para retirar el tapón de un medicamento posible
diferencia en las dos máquinas? Construir una apro-
botella es una característica importante del producto ya que requieran- nentes
visualización gráfica de los datos como parte de su respuesta.
ing demasiada fuerza puede causar difi culty para pacientes ancianos (g) Parcela i
rst 36 observaciones en la tabla en un proble- normal
o en pacientes con artritis o condiciones similares. Cuadro 6E.17 Capacidad de
trazado y las restantes observaciones sobre otro normal presenta los resultados de
la prueba de una muestra de 68 tapas adjunta a la probabilidad de parcela. Compare
los resultados con el único botellas normales de la fuerza (en libras) necesario
para la extracción de la tapa. gráfico de probabilidad que has construido para
todos los datos de la pieza (C).
(A) Construir un tallo y hoja de datos de diagrama de la fuerza. 6-128. Considerar
la temperatura media del aire en la superficie mundial (b) ¿Cuál es el promedio y
la desviación estándar de la fuerza? La anomalía y la concentración de CO2 global
datos originalmente (c) construir un gráfico de probabilidad normal de los datos y
se com- se muestra en el cuadro 6E.5.
ción sobre la parcela. (A) Construir un gráfico de dispersión de la media mundial
de la superficie de aire (d) Si el catión specii superior en fuerza requerida es de
30 libras, concentración, ¿qué proporción de las tapas no cumplen este requisito?
Anomalía de temperatura versus la observación mundiales de CO2 en la parcela.
(E) ¿Qué proporción de las tapas supera la fuerza media plus (b) ¿Cuál es la simple
correlación coefi ciente entre estas 2 desviaciones estándar? Dos variables?
5"#-& t 6E.15 Las lecturas del cuentakilómetros Mercedes-Benz SL500 de 100
automóviles, modelos de los años 2003-2009
2020 8905 1698 6207 4977 17,656 17,971 22,643 10,327 37,687 11.508 7893 8940 4166
9056 15,598 15,000 19,842 33,745 22,168 19,000 31,668 33,512 18,327 31,845 30,015
28,522 5824 15,984 16,903 37,789 2171 36,161 28,958 40,944 18,498 40,057 15,272
32,271 36,889 21,564 28,968 30.487 31,000 42,915 19,377 19,634 26,313 43,049 30,396
38,277 72,272 21,218 29,250 48,648 29,216 3800 44,944 49,125 33,065 32,524 38,139
62,940 51,326 45,540 26,235 46,505 54,126 4100 34,420 15,972 41,218 43,382 15,879
13,500 77,809 25,708 29,000 58,006 51,071 63,249 58,526 66,325 60,499 63,260 49,489
32,800 67,000 60,449 27,422 60,583 56,314 67,072 47,603 83.500 62.500 51,936 65,195
64,473 85,475
5"#-& t 6E.16 El uso de energía en BTU/número Los días-grado de calefacción
7,87 9,43 7,16 8,67 12.31 9.84 16.90 10.04 12.62 7.62 11.12 13.43 9.07 6.94 10.28
13.96 7.93 9.37 6.80 4.00 8,58 8,00 5,98 15,24 8,54 11,09 11,70 12,71 6,78 9,82
12.91 10.35 9.60 9.58 9.83 9.52 6.62 5.20 El 12,28 18,26 10,64 7,23 2,97 8,81 9,27
11,29 8,29 9.96 10.30 16.6 14.24 11,43 10,28 13,60 5,94 10,36 6.85 6.72 10.21 11.62
8.61 13.68 10.95 7.62 10.40 15.12 13.47 8,47 12,92 11,70 7,73 8,37 8,69 8,26 7,69
7,29 10,49 12,19 5,56 9,76 7.15 12.69 13.38 13.11 10.50 14.35 13.42 6.35 9.83 12.16
tabla t 6E.17 la fuerza para quitar tapas de botella
14 18 27 24 24 28 22 21 16 17 22 16 16 18 30 16 14 15 25 15 16 15 15 19 19 10 22 17
15 17 20 17 20 15 17 20 24 27 17 32 31 27 21 21 26 31 34 32 24 16 37 36 34 20 19 21
14 14 19 15 30 24 15 17 17 21 34 24
c06.indd 237 9/24/2013 6:49:39 PM

238 Capítulo 6/Estadísticas descriptivas


ejercicios Mind-Expanding
6-129. Considerar los datos de aerodinámica en ejercicio 6-18. Reste 6-136.
30 de cada valor y, a continuación, multiplica las cantidades resultantes de
2 por 10. Ahora calcule s para los nuevos datos. ¿Cómo es esto quan-
Supongamos que tienes una muestra x x x 1 2 , , , ... n y
2 han calculado xn y sn para la muestra. Ahora un ( 1) n + observación st esté
disponible. Deje que xn + 2 1 y s cantidad relacionada con s para los datos
originales? Explicar por qué.
2 n + 1 sea la media muestral y la varianza de la muestra utilizando todos 6-130.
Considerar la cantidad de n + 1 observaciones. n 2 - ∑ i = 1(x i ) . Por lo que el
valor de esta cantidad está minimizado? (A) muestran cómo xn + 1 puede ser
calculada usando xn y xn + 1 .
6-131. Utilizando los resultados del ejercicio 6-130, que de la
n- ∑ i = 1(xi µ
2) será n 2 dos cantidades - ∑ i = 1(x x i ) y pequeñas, siempre que x ≠ µ?
2
2 2 n x x ( n +1 - (b) indican que el n n s s n n +1 = - ( 1) + )
n + 1
6-132. La codificación de los datos. Vamos donde a y b son constantes distinto de
cero. Encontrar la relación
de las observaciones se quitan de la nace arrojó un promedio de muestra (°F) de
835.00 y una muestra de cada extremo, y la media de la muestra de los números
restantes es la desviación estándar de 10,5. Utilizando los resultados del
ejercicio calculado. La cantidad resultante se denomina media truncada, 6-132,
¿cuál es el promedio de la muestra y el estándar de la muestra que generalmente se
ubica entre la media muestral x y el sam- o desviaciones expresadas en C? %T (C)
Utilizar los resultados de las piezas (A) y (b) para calcular el nuevo y un bx , i
i = + i n = 12, , , ... Muestra la media y la desviación estándar para los datos
del ejercicio 6-38, cuando la nueva observación es x38 = 64. entre x e y, y entre
Sx y Sy. 6-137. Media truncada. Supongamos que los datos están ordenados 6-133. Una
muestra de mediciones de temperatura en un fur- en orden creciente,
6-134. Considerar la muestra x x x 1 2 , , , ... n con sam- ple mediana x. ¿Por
qué? La media truncada con un recorte moderado- x y una desviación estándar de la
muestra. Deje ming porcentaje (de 5% a 20%) es una buena estimación del medio o
centro. No es tan sensible a los valores atípicos como la media ple significan zi =
- (x xsi n i )/ ... , , , , = . 1 2 ¿Cuáles son los valores de la pero es más
sensible que la mediana. media muestral y la desviación estándar de muestra de la
Zi? (A) calcular la media truncada al 10% para los datos de rendimiento de 6-135.
Un experimento para investigar el tiempo de supervivencia en ejercicio 6-33 horas
de un componente electrónico consiste en colocar el (b) calcular la media truncada
al 20% para los datos de rendimiento en piezas en una célula de prueba y
ejecutarlos durante 100 horas en ejercicio 6-33 y compararla con la cantidad
encontrada condiciones de temperatura elevada. (Esto se llama un "accel- en la
parte (a). erated" prueba de vida) ocho componentes fueron probados con el (c)
Comparar los valores calculados en las piezas (A) y (b) con los siguientes tiempos
de falla resultante: media muestral y la media de los datos de rendimiento. Hay
mucho
+ 75 63 100 36 51 45 80 90 ,, , ,, ,, la diferencia de estas cantidades? ¿Por qué?
La observación de 100+ indica que la unidad todavía funcionaba en el 6-138. Media
truncada. Supongamos que el tamaño de la muestra n es de 100 horas. ¿Hay alguna
medida significativa de ubicación que tal que la cantidad nT /100 no es un número
entero. Desarrollar un puede ser calculado para estos datos? ¿Cuál es su valor
numérico? Procedimiento para la obtención de una media truncada en este caso.
Términos y conceptos importantes
Box Plot Datos Multivariados probabilidad parcela desviación estándar de muestra
grados de libertad gráfico de probabilidad normal frecuencia relativa varianza
muestral distribución de frecuencias y distribución Outlier diagrama de dispersión
histograma Gráfico de Pareto muestra coeficiente de correlación de Tallo y hoja
diagrama percentil de histograma muestra la serie de tiempo medio rango
intercuartil media poblacional muestra mediana de matriz de gráficos de dispersión
de modo muestra la desviación estándar de la población cuartiles y percentiles la
varianza poblacional muestra el rango
C06.indd 238 9/24/2013 6:49:44 PM

Você também pode gostar