Escolar Documentos
Profissional Documentos
Cultura Documentos
Roberto Araya Schulz Mauricio Moya Mrquez Gustavo Rodrguez Seplveda Marcelo Gonzlez Molina Mara Alicia Venegas Thayer Macarena Escalante Salamanca Osvaldo Baeza Rojas Manuel Galaz Prez
I.S.B.N.: 978-956-303-040-2 2 edicin: Febrero de 2008 2003 por Centro Comenius Universidad de Santiago de Chile Inscripcin N 165473 Derechos Exclusivos Reservados Universidad de Santiago de Chile Editado por Centro Comenius Universidad de Santiago de Chile San Martn 40 A oficina 6, Santiago Telfono: 6883261 Fax: 6727140 Diseo Juan Rojas R. Impreso XXXXXX XXXXXXXX
Profesionales del Proyecto Fidel Oteza Morra Director del Proyecto Gonzalo Villarreal Farah Sub Director del Proyecto Manuel Galaz Prez Encargado operativo y coordinador de desarrollo de materiales Hernn Miranda Vera Roberto Araya Schulz Lorena Espinoza Salfate Investigadores asociados Osvaldo Baeza Rojas Macarena Escalante Salamanca Evelyn Herrera Toro Mauricio Moya Mrquez Gustavo Rodrguez Seplveda Alicia Venegas Thayer Nelly Devia Ormeo Mara Isabel Escobar Gutierrez Autores de textos y guas, material concreto y recursos tecnolgicos Juan Silva Quiroz Evelyn Herrera Toro Encargados de la plataforma virtual Gladys Bobadilla Abarca Investigadora Asociada y Especialista en contenidos Lucrecia Zamorano Aravena Instrumentos de evaluacin y revisin de materiales Sergio Reyes Gonzlez Anlisis estadstico Claudia Matus Correa Asesora anlisis estadstico Gerardo Honorato Gutirrez Cristin Reyes Reyes Miguel Muoz Jara Editores matemticos Jessica Marinkovic O'Ryan Dwight Pennanen Arias Roxana Donoso Loyola Apoyo operativo y logstico Juan Rojas Rivera Diagramacin, diseo y edicin grfica Mauro Silva Cuevas Hctor Ros Bolbarn Ingeniera y Soporte tcnico
7
Gua 1 Las preguntas iniciales
8
Gua 2 Qu hacer con los datos?
Organizar los datos para graficar e interpretar
15
Gua 3 Y ahora, qu hacemos con estos datos?
21
Gua 4 Formas de representar la informacin
36
Gua 5 Qu nos dicen los datos? I
Situaciones en contexto
45
Gua 6 Qu nos dicen los datos? II
Situaciones en contexto
54
Gua 7Cmo observar patrones en la informacin?
Sorpresas mgicas. Buscando patrones en la informacin
60
Gua 8Cmo saber qu nos intoxic?
rboles de segmentacin
71
Gua 9Es posible discriminar mediante rectas?
Segmentacin de una poblacin, usando mtodos grficos
80
Gua 10 Aplicando lo aprendido
Situaciones en contexto
90
Gua 11 Necesitamos un representante!
Medidas de tendencia central
101
Gua 12 Medidas de tendencia central
Datos agrupados
107
Gua 13 Juntos o separados?
117
Gua 14 Cmo distribuir los valores en una muestra?
130
Gua 15 Apropindose de la tcnica
135
Gua 16 Qu es y cmo se usa la distribucin normal
146
Gua 17 La distribucin normal estndar
153
Gua 18 De la distribucin binomial a la distribucin normal
158
Gua 19 Un mtodo para aprender de la experiencia
Las preguntas
1. 2. Cmo puedes mejorar tus decisiones a partir del manejo de informacin disponible? Ms de una vez escuchaste decir: Despus de la batalla somos todos generales, vale la pena preguntarse adems: por qu antes de la batalla no es lo mismo? En nuestro contexto, Cmo anticipar si una decisin es adecuada o no? Qu tipos de grficos estadsticos se observan comnmente en los medios de comunicacin? Cul es la ventaja de que un conjunto de datos est organizado en un grfico o una tabla? Cmo encontrar patrones de comportamiento o regularidades en los datos, de modo que permita hacer inferencias sobre una o ms poblaciones? Qu pueden decir la moda, la media aritmtica y la mediana respecto a un conjunto de datos? Qu puede decir la desviacin estndar respecto a un conjunto de datos? Es posible encontrar un intervalo para la media de un conjunto de datos fijando un cierto nivel de precisin? Es posible inferir acerca del comportamiento de una poblacin, a partir de una muestra tomada? Qu caractersticas debe tener esa muestra?
3. 4. 5. 6. 7. 8. 9.
Tabla 1
En la recta
Comenzaremos la bsqueda de una representacin grfica en la siguiente recta numrica de los datos de la Tabla 1. Para ello te proponemos tomar cada una de las estaturas y ubicarlas haciendo una marca en la recta que represente este valor de forma aproximada y bajo ella el nombre del compaero. Conversa con un compaero si se les ocurre otra manera de ubicarlas en la recta.
Observando slo la recta numrica con los datos que acabas de incorporarle, responde las siguientes preguntas: 1. Cul es el valor de la estatura que ms se repite?
2.
3.
Realiza una estimacin del promedio de estaturas del grupo curso observando el grfico. Explica cmo lo calculaste.
4.
5.
Consideras que a travs de este tipo de representacin te fue fcil responder las tres primeras preguntas? Por qu?
6.
Se te ocurre una manera ms resumida de organizar las estaturas del grupo curso? Comenta con tus compaeros y tu profesor.
10
En un histograma
A continuacin representars las estaturas de la tabla 1 a travs de un histograma1 . Para esto construye una tabla agrupando las estaturas en intervalos cuya longitud sea de 3 cm partiendo por la estatura menor y abarcando todas las registradas. Por ejemplo, [1,601,63[, [1,631,66[, etc.
Intervalo
Frecuencia
Frecuencia relativa
Frecuencia Relativa %
Tabla 2
Grafica las frecuencias relativas absolutas de los intervalos de la Tabla 2. Como se trata de intervalos, las barras van juntas.
1 La definicin de histograma la puedes ver en la Gua 4, que ms adelante ser estudiada con mayor detalle.
11
Observando esta representacin grfica, responde: 1. En qu intervalo se acumula el mayor nmero de datos?
2.
3.
Haz una estimacin del promedio de estatura del grupo curso observando el histograma. Cmo lo hiciste para obtener ese valor?
4.
Qu otro tipo de informacin puedes extraer del grfico? Comenta con tus compaeros.
5.
Al comparar el histograma con la recta numrica, en cul te fue ms cmodo realizar las estimaciones pedidas?
12
Grfico circular
La informacin presente en la Tabla 2, se puede representar a travs de un grfico circular o de torta. Para esto se utilizan los porcentajes de cada intervalo presentes en la Tabla 2. En la imagen que se encuentra a continuacin, divide los sectores de acuerdo a los datos obtenidos en la Tabla 2.
1.
2.
3.
Entrega una estimacin del promedio de estatura del grupo curso solo observando el grfico circular. Explica cmo lo calculaste.
4.
Qu otro tipo de informacin puedes extraer de la grfica? Comenta con tus compaeros.
13
Analizando la informacin
De acuerdo con el trabajo realizado en esta gua, escribe el tipo de informacin que es ms fcil de estimar con slo observar cada una de las siguientes representaciones grficas, es decir, sin la necesidad de realizar algn tipo de clculo: 1. Recta numrica.
2.
Histograma.
3.
4.
5.
Escribe un ejemplo en el que consideres que es ms conveniente representar los datos a travs de un histograma que un grfico circular.
14
Tiro al blanco
1. Toma un lpiz tinta o pasta y djalo caer verticalmente desde una determinada altura sobre el blanco 12 veces.
2.
La posicin de cada uno de los puntos generados est determinada por una coordenada horizontal (x) y otra vertical (y). Anota en la siguiente tabla cada una de estas coordenadas. Aproxima los valores decimales a 5 dcimas o al entero ms cercano. Lanzamiento x y 1 2 3 4 5 6 7 8 9 10 11 12
15
3.
4.
5.
Estas coordenadas podemos escribirlas como pares ordenados (x, y) donde el primer valor es la posicin vertical (x) y el segundo, la horizontal (y). Ubica en el plano cartesiano cada uno de estos pares ordenados. Lanz. 1 2 3 4 5 6 7 8 9 10 11 12 (x, y)
Observemos que cada uno de estos puntos tiene una ubicacin dentro del plano y que esta depende de los valores de las coordenadas x e y. A continuacin, realizars una actividad donde este tipo de grfico ser aplicado para caracterizar hombres y mujeres de acuerdo a dos conjuntos de datos: estatura y calzado.
16
En la siguiente actividad necesitas los datos que recopilaste junto con tus compaeros en la Gua 2: Qu hacer con los datos? El objetivo es caracterizar a hombres y mujeres de acuerdo a su estatura y nmero de calzado. Comenzars ordenando la estatura y el calzado de cada compaero como par ordenado distinguiendo entre hombres y mujeres. Considera 15 hombres y 15 mujeres1. Considera x : estatura y : calzado Mujeres
Nombre (x, y) Nombre
Hombres
(x, y)
Slo observando la informacin ordenada en la tabla: 1. Puedes observar alguna diferencia entre las estaturas de los hombres respecto a las mujeres?
1 En aquellos cursos donde falten hombres o mujeres, el profesor cuenta con un banco de datos que podrn utilizar para realizar la actividad.
17
2.
Puedes observar alguna diferencia entre la talla de calzado de los hombres respecto a las mujeres?
De acuerdo con la tabla anterior, hay datos de mujeres y hombres. Para distinguirlos en el grfico se puede representar el punto asociado al par ordenado con otra forma o color. Por ejemplo, los pares ordenados asociados a datos de mujeres se marcarn con un y los de hombre con un O, cada investigador puede escoger la representacin que ms le acomode. En la siguiente plano XY utiliza una escala conveniente - si lo crees necesario, los ejes no necesariamente deben partir en el (0,0) - para graficar estos pares ordenados, recordando hacer la distincin entre hombres y mujeres, de tal manera que podamos encontrar alguna relacin entre los datos de una forma visual.
Observando el grfico anterior responde las siguientes preguntas: 3. Considerando el eje de las estaturas (X): a. Entre qu valores se acumulan todos los datos del curso?
18
b. En el intervalo [150 - 160], entre qu valores vara el calzado? Recuerda considerar hombres y mujeres
d. Encuentra un intervalo de largo 10 cm. donde se acumule el mayor nmero de hombres y determina un intervalo para su calzado.
4.
Considerando el eje del nmero de calzado (Y) a. Entre qu valores se acumulan todos los datos del curso?
b. Qu estatura tienen los hombres cuyo calzado est entre 39 y 42, considerando estos valores?
2.
Observas diferencias entre el nmero de calzado de los hombres respecto al de las mujeres?
19
A modo de cierre
1. Notas alguna diferencia entre observar los datos desde una tabla a un grfico XY? Discute con tus compaeros y profesor respecto a las ventajas y desventajas que utilizar ese tipo de grfico.
20
GUA 4
FORMAS DE REPRESENTAR LA INFORMACIN
Un grfico puede valer ms que mil palabras, pero puede tomar muchas palabras para hacerlo 1 John Tukey
La presentacin de datos estadsticos por medio de grficos es considerada una tarea importante en el proceso de comunicacin de los datos, considerando que es algo que se realiza a diario y en forma casi natural por personas de las ms diferentes profesiones. Usualmente, cuando alguien recibe en sus manos un documento con grficos, la primera mirada se dirige a stos. A pesar de la reconocida importancia este proceso, no siempre se realiza de la mejor manera.
La revista americana LIFE tena como consigna Una foto vale ms que mil palabras. La capacidad de visualizacin del hombre hace que esto sea casi cierto. En comparacin con otras formas de presentacin de los datos, los grficos nos permiten comprender el comportamiento de los datos, de una mirada, an cuando se trate de datos muy complejos; por lo tanto, ahorran tiempo al momento de analizar la informacin. Los grficos estadsticos permiten usar nuestra habilidad visual para procesar informacin de un grfico. Esto nos permite hacer juicios respecto a la variabilidad, escala, patrones y tendencias de los datos.
Entre las funciones que cumplen los grficos se pueden sealar las siguientes: Hacer ms visibles los datos, sistemas y procesos. Poner de manifiesto sus variaciones y su evolucin histrica o espacial. Evidenciar las relaciones entre diversos elementos de un sistema o de un proceso, y representar la correlacin entre dos o ms variables. Sistematizar y sintetizar los datos, sistemas y procesos. Aclarar y complementar las tablas y las exposiciones tericas o cuantitativas. El estudio de su disposicin y de las relaciones que muestran puede sugerir hiptesis nuevas.
1 http://cran.r-project.org/doc/contrib/grafi3.pdf
21
Las variables
Antes de comenzar el estudio sobre los distintos tipos de grficos que existen para representar la informacin, es importante definir un concepto que aparece recurrentemente en todo estudio estadstico, el concepto de variable. Informalmente podemos decir que una variable es un valor o cualidad que cambia, ya sea de una persona a otra, de un da a otro, entre una situacin y la siguiente. Ejemplos de variables son: La temperatura tomada a una determinada hora del da es una variable, ya que puede variar de un da a otro. El nmero de hijos que tiene una familia, se considera como una variable puesto que una familia puede tener 2 hijos, otra 4, o bien 0 hijos (no tienen hijos). El color de pelo de una persona, que puede ser rubio, negro, caf, etc. La calificacin de un programa de televisin en Muy Bueno, Bueno, No me interesa, Malo y Muy malo. El Lugar en una carrera deportiva: 1 Lugar, 2 Lugar, 3 Lugar, etc. Las variables se presentan en dos tipos diferentes: cualitativas y cuantitativas que dependen de los tipos de datos utilizados como se resume en el siguiente esquema2:
Ahora, escribe al lado de cada uno de los ejemplos anteriores a qu tipo de variable corresponde de acuerdo con este esquema.
22
Grfico de Lneas
Este tipo de grfico permite observar y analizar los valores que va tomando una variable, especialmente en un periodo determinado de tiempo. En el eje X o eje horizontal, se ubican las categoras en que se organizaron los valores, que normalmente se refieren a tiempo (horas, das, meses, etc.) Con relacin al eje Y o eje vertical se ubican los puntos que representan los valores que toma la variable en cada una de esas categoras. Estos puntos luego son unidos por una lnea. El siguiente grfico de puntos muestra las temperaturas promedios mensuales3 registradas durante un ao, donde el Eje Y son los Grados Celsius (C) y el Eje X, los meses de enero a diciembre.
Qu tipo de preguntas puedes responder a travs de este grfico? Por ejemplo: En qu mes se observa la mayor temperatura promedio?
3 Segn recomendacin de Organizacin Meteorolgica Mundial (OMM) La temperatura promedio diaria se calcula con la siguiente frmula:
T mx + T mn + T 1 + T 2 4
T 1 corresponde a la temperatura tomada a las 8 horas en invierno y a las 9 horas en verano. T 2 corresponde a la temperatura tomada a las 20 horas en invierno y a las 21 horas en verano.
Y la temperatura promedio mensual se obtiene sumando las temperaturas promedios diarias de un mes y dividindolo por el nmero de das que tiene el mes.
23
Podemos observar adems, el mismo grfico pero ahora con barras horizontales, donde ahora las categoras se ubican en el eje vertical y las frecuencias en el eje horizontal.
24
Con slo observar este tipo de grfico, podemos responder preguntas como: Por ejemplo: Cules son los productos que tienen aproximadamente el mismo porcentaje de preferencia?
O bien las barras pueden poner una sobre otra, lo que entrega una informacin adicional (Cul?)
25
Con este tipo de grfico podemos responder preguntas como: Por ejemplo: En cul o cules sectores se observa mayor nmero de mujeres que hombres?
Histograma4
El histograma permite graficar las frecuencias, frecuencias relativas y porcentuales para variables continuas, como por ejemplo, estaturas, peso, tiempo, entre otros. Para ello, se agrupan estos datos en intervalos, preferentemente de igual longitud, que se denominan clases. Para construir un histograma se debe considerar lo siguiente: las barras, que representan las frecuencias relativas de cada clase, deben tener una base de igual longitud que la clase y el alto est dado por la siguiente frmula:
Alto = Frec Re lativa de la clase Amplitud de la clase
El siguiente histograma, representa las frecuencias relativas obtenidas de las estaturas, en centmetros, de un grupo aleatorio de 150 personas. Observa la longitud de cada intervalo y el alto de cada barra.
4 http://cran.r-project.org/doc/contrib/grafi3.pdf
26
Observaciones
Cada barra debe tener rea igual a la frecuencia relativa del intervalo que forma su base. Por esta razn dividimos la frecuencia relativa de un intervalo por su longitud, y usamos este valor como la altura del rectngulo que dibujamos en el grfico. Como cada rectngulo del histograma tiene rea igual a la frecuencia relativa, y como la suma de todas las frecuencias relativas es igual a 1, se tiene que el rea total bajo el histograma es igual a 1, pues corresponde a la suma de las reas de los rectngulos. Puedes observar esto en el histograma anterior. La Regla de Sturgest es til para determinar el posible nmero de intervalos, esta dice que un nmero razonable de intervalos es 1+3,3 logn, donde n es el nmero total de datos. En el caso que las longitudes de las clases sean iguales, como en el ejemplo anterior, es posible construir el histograma considerando, como alto de barras, slo las frecuencias relativas o absolutas de las variables:
Qu preguntas responderas a travs de un histograma? Por ejemplo: Cul es el intervalo donde se encuentra el mayor nmero de personas?
27
Polgono de Frecuencias
A partir del histograma se construye el grfico conocido como polgono de frecuencias, uniendo a travs de una lnea los puntos correspondientes a los pares ordenados originados por cada marca de clase y su respectiva frecuencia relativa. La marca de clase es el punto medio de cada clase y se obtiene sumando los extremos de los intervalos y dividindolo por dos. Adems, se incluyen dos intervalos de frecuencia cero, uno en cada extremo de la distribucin. Considerando el histograma de las estaturas, entregado anteriormente, a continuacin se presenta su correspondiente Polgono de Frecuencias. Marca Frecuencia de clase (%) 114,5 124,5 134,5 144,5 155,5 164,5 174,5 184,5 194,5 204,5 0 0,04 0,1 0,16 0,17 0,24 0,15 0,12 0,02 0 Polgono de Frecuencias, considerando la marca de clase de cada uno de los intervalos
Estaturas [110 - 119[ [120 - 129[ [130 - 139[ [140 - 149[ [150 - 159[ [160 - 169[ [170 - 179[ [180 - 189[ [190 - 199[ [200 - 209]
28
Qu tipo de preguntas puedes responder al observar un polgono de frecuencias? Por ejemplo: Entre qu estaturas se encuentra la mayor parte de la muestra?
29
Considerando que el nmero total de cotizantes es de aproximadamente 1.500.000 se pueden formular preguntas como: Por ejemplo: Qu Isapre concentra el mayor nmero de cotizantes?
En resumen, los grficos circulares son una alternativa frente a los grficos de barras y son bastante simples de realizar. El dimetro de un grfico circular es arbitrario, pero el ngulo de cada sector circular es proporcional a la frecuencia de la categora correspondiente.
Ojiva
La ojiva es un grfico que muestra la frecuencia acumulada en el eje vertical de los valores de la variable, dispuestos en el eje horizontal. Los valores de cada frecuencia acumulada se representan por el alto de los puntos con relacin al eje vertical. Cada uno de estos puntos se conecta mediante una lnea. Su objetivo, al igual que el histograma y el polgono de frecuencias, es representar distribuciones de frecuencias de variables cuantitativas continuas, pero slo para frecuencias acumuladas. En el centro de Santiago se encuest a 40 personas, preguntndoles cuntas horas haban dormido la noche anterior. Los resultados de dicha encuesta se resumen en la siguiente tabla:
N de horas que durmi Frecuencia Frecuencia Acumulada Frecuencia Acumulada % N de horas que durmi Frecuencia Frecuencia Acumulada Acumulada %
Frecuencia
[0 - 1[ [1 - 2[ [2 - 3[ [3 - 4[ [4 - 5[ [5 - 6[
1 0 2 3 5 7
1 1+0=1 1+2=3 3 + 3 =6 6 + 5 = 11 11 + 7 = 18
9 6 4 2 1 0
18 + 9 = 27 27 + 6 = 33 33 + 4 = 37 37 + 2 = 39 39 + 1 = 40 40 + 0 = 40
30
En el siguiente grfico de ojivas se observan las frecuencias acumuladas (%) de acuerdo a los resultados obtenidos en la encuesta.
Qu preguntas puedes responder con slo observar este grfico? Por ejemplo: qu porcentaje de encuestados durmi menos de 3 horas la noche anterior?
Grfico de Dispersin
El grfico de dispersin muestra la relacin entre dos variables cuantitativas como un conjunto de puntos. Dadas dos variables, X e Y, tomadas sobre los mismos elementos de una poblacin, el grfico de dispersin ser un grfico de dos dimensiones, donde en el eje vertical (eje X) se grafica una variable, y en el eje horizontal (eje Y) la otra. El objetivo es determinar si existe una relacin lineal entre los cambios observados para estas dos variables y se conoce como correlacin lineal. Las posibles situaciones que se pueden dar en cuanto a esta relacin existente entre dos variables son: Correlacin Positiva, esto quiere decir que al aumentar el valor de una de las variables, los valores de la otra variable tambin aumentarn. Y viceversa, si disminuyen los valores de una de las variables, los valores de la otra variable tambin disminuirn. Correlacin Negativa, esto quiere decir que al aumentar el valor de una de las variables, los valores de la otra variable disminuyen. Y viceversa, si disminuyen los valores de una de las variables, los valores de la otra variable aumentan.
Unidad: Estadstica y Probabilidad
31
Si los valores de ambas variables se revelan independientes entre s, se afirmara que no existe correlacin.
Tambin existe la posibilidad de que dos variables se relacionen de manera logartmica, exponencial o cuadrtica, que ahora no estudiaremos pero que si te interesa puedes investigar. A continuacin se muestra una tabla5 con algunas ciudades de Chile y el nombre de la estacin meteorolgica, se indica adems su latitud y la temperatura promedio anual6 que se registra en cada una de ellas. Ciudad / Estacin Arica / Chacalluta Antofagasta / Cerro Moreno Copiap / Chamonate La Serena / La Florida Valparaso / Punta ngeles Santiago / Quinta Normal Isla Juan Fernndez Curic / General Freire Chilln / General Bernardo O'Higgins Concepcin / Carriel Sur Temuco / Manquehue Valdivia / Pichoy Puerto Montt / El Tepual Coyhaique / Teniente Vidal Balmaceda / Aeropuerto Punta Arenas / Carlos Ibez Latitud () 18,5 23,4 27,3 29,9 33,0 33,4 33,6 35,0 36,6 36,8 38,8 39,6 41,4 45,6 45,9 53,0 T Prom. 18,7 16,4 15,2 13,6 14,0 14,4 15,3 13,1 12,7 12,2 11,2 11,0 10,1 8,1 6,4 5,9
5 Gentileza de la Direccin Meteorolgica de Chile 6 Es el promedio de las Temperaturas medias mensuales para el periodo 1970-1990.
32
En el siguiente grfico de dispersin es posible observar la relacin que existe entre las variables latitud y temperatura.
1.
De acuerdo con el grfico anterior, puedes afirmar que existe una correlacin entre la latitud y la temperatura de las ciudades? Explica.
2.
Escribe dos ejemplos en los cuales puedes utilizar un grfico de dispersin para analizar los datos. Discute con tus compaeros y profesor.
33
Pirmide Poblacional
Este tipo de grficos permite presentar en forma comparativa, la distribucin de la poblacin, por rangos de edad, segn dos grupos, por ejemplo, hombres y mujeres.
1.
De acuerdo con la Pirmide de Poblacin Mundial en 1998, cules son las caractersticas de la poblacin de ese ao?
2.
Qu diferencias distingues entre la poblacin de 1998 y la que se espera para 2050? Existen similitudes?
7 http://cran.r-project.org/doc/contrib/grafi3.pdf
34
Y para finalizar
De acuerdo a las presentaciones que se realizaron, responde: 1. Qu diferencias puedes observar entre un grfico de barras y un histograma?
2.
35
Infidelidad en la pareja1
Lo dicen las encuestas: la mayora de las personas desea una relacin de pareja estable y duradera. Lo indican los ratings: las historias de amor, los romances, las venturas y desventuras de las parejas nos interesan. Nos motivan, nos identifican. Nos vemos reflejados en esos amores arrobadores. Y tambin, desgraciadamente, en esas dolorosas traiciones. El dolor, el horror, el desconcierto son sentimientos que se suceden, al principio en un estado de shock y que cuesta mucho contener y llevar. Tampoco logran mostrar el largo camino hacia el perdn. Y menos se habla del valiente proceso que siguen quienes logran superar realmente esta situacin.
Fragmento, Andrea Poms Aguirre / Terapeuta Familiar y de Parejas.
Se entrevist a una muestra de 2.000 personas de una poblacin2 cuya edad estuviera entre 20 y 40 aos, preguntando por la fidelidad hacia su pareja, los resultados estn resumidos en el siguiente grfico circular.
1 http://www.centroespiral.cl/documentos/infidelidad.pdf 2 Una poblacin es un conjunto de personas u objetos que presentan una determinada caracterstica y sobre el que se va a llevar a cabo una investigacin. Se habla de muestra cuando se consideran slo algunos elementos de la poblacin que sirven para representarla.
36
1.
Expresa con tus palabras la informacin que est resumida en el grfico de torta.
2.
Quines son ms infieles, los hombres o las mujeres? Qu porcentaje representa cada uno de ellos?
3.
De acuerdo a la muestra de la poblacin, cuntas personas han sido infieles a su pareja? Cuntos hombres? Cuntas mujeres?
4.
Qu otro tipo de grfico utilizaras para representar esta informacin y hacer la distincin entre hombres y mujeres? Constryelo.
37
(EX) Se dice que un taxn se ha extinguido cuando no hay duda fundada de que el ltimo individuo ha muerto. (EW) Cuando slo sobrevive en cultivo, cautividad o como poblacin (o poblaciones) naturalizadas en un lugar distinto de su
hbitat original. (CR) Cuando tiene un riesgo muy alto de extincin en un futuro cercano (Usando los criterios correspondientes) (EN) Cuando su situacin no es crtica pero se enfrenta con un alto riesgo de extincin en un futuro cercano (Usando los criterios correspondientes)
Considerando los datos proporcionados por la tabla anterior, responde: 1. Describe con tus palabras la informacin que proporciona la tabla.
3 http://www.tecnun.es/asignaturas/ecologia/Hipertexto/12EcosPel/123BiodivPelig.htm
38
2.
3.
4.
Cul es la cantidad total de especies extinguidas? Cul es la especie con mayor nmero de extinciones?
5.
Cul(es) es(son) la(s) especie(s) que tiene un nmero de extinciones mayor a la de los insectos?
39
Analfabetismo en Chile4
Las cifras de analfabetismo en el pas son difciles de precisar porque cuando se realizan los censos generalmente se pregunta de forma oral a los encuestados si saben leer y escribir. Es fcil imaginar que por vergenza o para evitar la discriminacin de sus pares, las personas respondan que s. Adems, hay otro aspecto, por analfabeto se entiende a quien no es capaz de leer ni escribir, sin embargo, existen los analfabetos por desuso, es decir, aquellas personas que en algn momento de sus vidas s pudieron efectuar ambas labores pero que por falta de prctica han olvidado por completo cmo hacerlo. A quienes desde pequeos les ensearon a leer y escribir puede parecerles inconcebible sobrevivir hasta edad avanzada en una cultura que por definicin es letrada. Cuesta imaginarse las innumerables estrategias que habrn debido desarrollar para llegar a ser productivos. Para ellos no basta alcanzar la esquina de cualquier calle para leer un cartel y saber dnde estn ubicados, si quieren tomar una micro tienen que preguntar a otro qu nmero tiene para llegar a destino, tampoco pueden descifrar el titular de un diario expuesto en un quiosco, firmar un contrato o votar con seguridad en las elecciones. 1. Qu informacin nos entrega el grfico presentado?
2.
4 http://gerontologia.uchile.cl/docs/entre_1.htm
40
3.
4.
5.
6.
7.
8.
A travs del grfico es posible determinar cul es la regin con una mayor proporcin de analfabetismo? Justifica.
41
Calentamiento Global5
El Calentamiento global es una teora que explica el aumento en la temperatura media de la atmsfera terrestre y de los ocanos, motivada por el efecto invernadero causado por las emisiones de dixido de carbono (CO2) y otros gases. La temperatura se ha elevado desde finales del siglo XIX, cuando se puso fin a una etapa de unos 400 aos conocida como "pequea glaciacin" y se estima que en gran medida es debido a la actividad humana, incrementndose durante los ltimos decenios. La teora predice, adems, que las temperaturas continuarn subiendo en el futuro si continan las emisiones de gases invernadero. El llamado "Efecto Invernadero" consiste en la elevacin de la temperatura del planeta provocada por la accin de un determinado grupo de gases, algunos de ellos producidos masivamente por el hombre, que retienen el calor de la atmsfera. Este fenmeno evita que el calor del Sol recibido por la Tierra deje la atmsfera y vuelva al espacio, produciendo a escala planetaria un efecto similar al observado en un invernadero. 1. De acuerdo a la lectura y el grfico presentado, cules son las variables involucradas?
2.
Entre qu valores fluctu la temperatura entre los aos 1000 y 1800? Qu ha sucedido a partir de 1800?
5 http://es.wikipedia.org/wiki/Calentamiento_global
42
3.
Entre qu valores fluctuaron las emisiones de CO2 entre los aos 1000 y 1800? Qu ha sucedido a partir de 1800?
4.
En la lectura inicial se dice que el aumento de la temperatura media de la atmsfera y de los ocanos se debe al efecto invernadero causado por la concentracin de CO2. De qu manera se puede inferir esto a partir del grfico?
5.
Qu pasar en el futuro si las condiciones ambientales no cambian dentro de los prximos 10 aos?
Manejo de la Informacin
En base a lo realizado, responde las siguientes preguntas: 1. En cuanto al manejo de la informacin en estadstica, Qu ventajas observas al tabular los datos?
2.
43
3.
Qu ventajas trae el saber leer e interpretar una tabla de datos? Por qu?
4.
5.
44
Test de Cooper1
El Test de Cooper es una prueba de condicin fsica. Sirve para medir la resistencia aerbica y medir el VO2 mximo, que es la capacidad mxima del organismo para metabolizar el oxgeno en la sangre. Fue diseada por el Dr. Kennth H. Cooper en 1968 para el ejrcito de los EE.UU. Actualmente, se utiliza en diversos mbitos como sistema de evaluacin (Establecimientos de enseanza media y Facultades de Educacin Fsica) o como medio de clasificacin de los aspirantes en pruebas fsicas de acceso a los cuerpos de polica, bomberos, ejrcito, etc. El objetivo de la prueba es recorrer la mxima distancia posible en 12 minutos, y se evala bajo la siguiente tabla de datos.
1 http://es.wikipedia.org/wiki/Test_de_Cooper
45
1.
Mario tiene 15 aos y su hermano Sergio tiene 24, si al cabo de correr 12 minutos ambos alcanzan una distancia de 2450 metros, cul de los dos tiene mejor condicin fsica?
2.
Paula recorre 2,45 kilmetros y su hermana Carla de 18 aos recorre 1,5 kilmetros en 12 minutos. Si Paula tiene el doble de edad que Carla, qu condicin fsica tiene cada una?
3.
Ren tiene ms de 50 aos. Si al realizar el Test de Cooper, los resultados indican que su condicin fsica es buena, Cuntos metros como mnimo debi alcanzar en los doce minutos?
4.
Segn el Test de Cooper, Alicia tiene condicin fsica mala, si recorri 1750 metros, segn la tabla de datos, Qu edad podra tener Alicia?
5.
Es posible conocer el gnero de una persona que a sus 45 aos, realiz el Test de Cooper, y logr alcanzar una distancia de 2 kilmetros? Si Cul es el gnero? NO Por qu?
46
6.
Mauricio tiene 16 aos y su sueo es ingresar al cuerpo de bomberos. Para poder ingresar debe tener al menos, buena condicin fsica segn el Test de Cooper. Considerando que su ltimo registro en la prctica fue de 231.500 centmetros, con esta marca ingresa al cuerpo de bomberos? Si Por qu? NO Qu distancia le falta para obtener el mnimo de aprobacin?
2 http://es.wikipedia.org/wiki/Vacuna
47
Contra: (1) Tuberculosis (2) Difteria (3) Ttanos (4) Tos Convulsiva (5) Poliomielitis (6) Infecciones graves producidas por HIB (7) Sarampin (8) Rubola (9) Paperas
1.
2.
3.
4.
3 http://www.minsal.cl/ici/calendariovacunacion.htm
48
5.
Cuntas veces debe ser proporcionada la vacuna Tresvirica y a qu edades? De qu enfermedades nos previene esta vacuna?
Antes de analizar las siguientes tres actividades, aclararemos algunos conceptos respecto a las mediciones meteorolgicas que aqu se presentan, de acuerdo con la Organizacin Meteorolgica Mundial (OMM): La temperatura promedio diaria se calcula con la siguiente frmula: T 1 corresponde a la temperatura tomada a las 8 horas en invierno y a las 9 horas en verano. T 2 corresponde a la temperatura tomada a las 20 horas en invierno y a las 21 horas en verano.
T mx + T mn + T 1 + T 2 4
Y la temperatura promedio mensual se obtiene sumando las temperaturas promedios diarias de un mes y dividindolo por el nmero de das que tiene el mes. El climograma presenta temperaturas promedio mensuales considerando un registro de 30 aos, 1961 - 1990. Para calcular las precipitaciones observadas de forma: Diaria, es decir, precipitaciones acumuladas en 24 horas (en mm de agua cada), registradas desde las 8.00 a 20.00 horas en invierno y de 9.00 a 21.00 horas en verano. Mensual: El promedio de precipitaciones mensuales se obtiene sumando las precipitaciones acumuladas diariamente y luego se divide por el nmero de das del mes. El climograma presenta un promedio mensual de precipitaciones acumuladas considerando un registro de 30 aos (1961-1990). Este promedio indica lo normal a la fecha.
49
2.
3.
4 http://www.meteochile.cl/climas/climas_localidades.html#puntaarenas
50
4.
5.
6.
7.
8.
Tiene sentido decir que en el mes de Marzo, las temperaturas son iguales a las precipitaciones? Por qu?
51
Antofagasta y su clima5
Antofagasta es una ciudad ubicada en una regin de aridez extrema. Sus coordenadas geogrficas son 23 38` de latitud sur, 70 25` longitud oeste, con una elevacin media de 40 metros. En la faja costera de la zona impera un clima desrtico con nublados abundantes, siendo los elementos climticos sobresalientes la ausencia de precipitaciones, un alto porcentaje de das con nublados matinales, humedad relativa elevada y temperaturas que presentan poca variacin diurna y estacional. Esta uniformidad se debe a la cercana del ocano, a la influencia moderadora de la corriente de Humboldt y a la presencia del anticicln semipermanente del Pacfico sur, que genera estabilidad atmosfrica. A pesar de todo el rigor del desierto, es posible encontrar algunos recursos hdricos, principalmente puntos de afloramiento de aguas subterrneas en cauces de quebradas secas. El ro Loa, de modesto caudal, es el nico que presenta escurrimiento continuo y que desemboca en el mar. 1. De acuerdo al grfico (climograma), cules son las variables involucradas?
2.
3.
52
Las siguientes preguntas estn dirigidas a comparar el clima de ambas ciudades de acuerdo a los datos presentados en los grficos:
4.
Cul es la escala utilizada en cada grfico para las temperaturas y las precipitaciones?
5.
6.
7.
8.
53
1 http://www.automind.cl
54
Tabla 1: Apuestas
Jugador Apuesta 1 1 2 3 4 5 6 7 8 9 10 2 3 4
55
Una vez que ya tienes los datos entregados por el juego de las Sorpresas Mgicas en la tabla, responde las preguntas que se presentan a continuacin. 1. Con la informacin presente en la tabla, te es fcil detectar un patrn de comportamiento de los datos? Si Por qu? No
2.
Podras realizar una apuesta ms certera? Cul sera esta en el lanzamiento 11 de acuerdo a tu casilla?
Grosor Caja
2,23 2,16 2,6 2,2 2,61 2,62 2,18 2,96 2,14
1
B B B B B B B N B
56
2.
Ordena la informacin de las columnas de manera que las primeras filas sean B (Blanco) y las siguientes sean N (Negro). Para esto, selecciona las tres columnas con su informacin, ingresa al men datos, elige la opcin ordenar, en la ventana que aparece, en la seccin ordenar por escoger la columna de la casilla designada, para el ejemplo 1 y presiona Aceptar. Con esto la tabla quedar ordenada para ser graficada, como se muestra en la tabla siguiente, primero la informacin relativa a B (Blanco) y posteriormente la informacin relativa a N (Negro), de la respectiva casilla:
Largo Caja
8,5 5,8 5,9 5,8 5,7 6,9 8 6,9 9,7
Grosor Caja
2,23 2,16 2,6 2,2 2,61 2,62 2,18 2,14 2,96
1
B B B B B B B B N
3.
Una vez que se tienen ordenados los datos, se procede a graficar. Para esto selecciona las columnas Largo Caja y Grosor Caja hasta la ltima fila que contenga una letra B (Blanco), como se muestra en la imagen, y presiona el botn de Asistente de Grfico, en este primer paso del asistente escoge grficos tipo XY (Dispersin) y presiona siguiente.
4.
En el segundo paso del asistente selecciona la lengeta Serie y presiona Agregar, en la casilla Nombre escribe Negro y en la casilla Valores de X, selecciona los valores de la columna Largo Caja que contengan la letra N (Negro) y para los Valores de Y selecciona los valores de la columna Grosor Caja que contengan la letra N (Negro). Por otra parte, selecciona la serie existente y en la casilla Nombre cambiar por Blanco, luego presiona siguiente.
Unidad: Estadstica y Probabilidad
5.
57
6.
En el tercer paso del asistente, en la casilla Eje de Valores(X) escribe el nombre de la variable que estas graficando, para este caso Largo de Caja, y en la casilla Eje de Valores (Y) escribe la otra variable que estas graficando, para este caso Grosor Caja, presiona siguiente y luego Finalizar. De esta forma obtendrs un grfico como el siguiente:
1 Variable Largo Caja Largo Caja Largo Caja Largo Caja Grosor Caja Grosor Caja Grosor Caja Ancho Caja Ancho Caja Largo Cara
vs. vs. vs. vs. vs. vs. vs. vs. vs. vs.
2 Variable Grosor Caja Ancho Caja Largo Cara Ancho Cara Ancho Caja Largo Cara Ancho Cara Largo Cara Ancho Cara Ancho Cara
58
1.
Al observar el comportamiento de los grficos, te fue posible determinar algn patrn para la apuesta? Si No
2.
Para los casos en que es posible observar algn patrn, cules son las variables que te permiten tomar mejores decisiones en las apuestas de las Sorpresas Mgicas?
3.
Anota los patrones en la informacin para cada variable que cumple con estos.
2.
Con qu forma de representar la informacin fue ms claro detectar el patrn de comportamiento? Justifica.
3.
Ahora que ya tienes algunas herramientas, qu haras antes de realizar una apuesta con las Sorpresas Mgicas?
Con esta forma de analizar la informacin y con los patrones que encontraste, realiza una apuesta ms certera en el juego. Buena suerte!
Unidad: Estadstica y Probabilidad
59
Un problema de intoxicacin
En un paseo al campo, donde asistieron 19 personas, se realiz un asado para compartir. Al da siguiente del asado, varias personas sufrieron sntomas de intoxicacin por algn alimento en mal estado. Con el fin de detectar cul o cules de los alimentos consumidos provocaron la intoxicacin, en los das siguientes se realiz una encuesta a los participantes del asado, sobre lo que cada uno ingiri aquel da. Los alimentos y bebidas consumidos fueron: vacuno, choclo, papas, tomate, pan, porotos verdes, lechuga y bebidas . La informacin se resumi en la tabla siguiente, en la que cada fila corresponde a una de las personas que fue al paseo y donde cada columna indica si la persona ingiri o no el alimento correspondiente. Adems se agreg una columna que indica quin se enferm y quin no.
Porotos verdes
Lechuga
Bebidas Si Si Si Si Si Si Si Si Si Si No Si Si Si Si Si No Si No
Vacuno
Tomate
Choclo
Papas
Pan
Salud Enfermo Enfermo Enfermo Sano Enfermo Enfermo Sano Enfermo Enfermo Enfermo Enfermo Sano Sano Enfermo Enfermo Enfermo Enfermo Enfermo Sano
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Si Si Si Si Si Si Si Si No Si Si Si Si Si Si Si Si No Si
Si Si Si No Si Si No Si Si No Si No No Si Si No Si Si No
No Si No No No No No No Si No No No No No No No No No No
Si Si No No No Si No No Si No No Si Si No Si No Si Si Si
Si Si Si Si Si No No Si Si Si Si Si No Si Si Si Si Si Si
No No No No No Si No Si Si Si No No No Si Si Si Si No No
Si No No No No Si Si No No No Si Si No No Si No Si No Si
60
1.
Buscando la causa
De acuerdo a tu respuesta de la pregunta anterior, realizaremos un anlisis sistemtico por comparacin de dos variables. Para esto, se construye una tabla donde se analizan dos alimentos, por ejemplo, Tomate y Bebidas. Posteriormente en cada una de las celdas se anota el valor 1 para consignar que ingiri el alimento y 0 para cuando no haya ingerido el alimento. Finalmente, en la columna de salud se coloca el estado de la persona que asisti al asado (enfermo o sano). Con estos datos se procede a graficar en base a los valores 0 y 1, diferenciando a los enfermos (cuadrados oscuros) de los sanos (crculos blancos).
Bebidas
Tomate
Salud Enfermo Enfermo Enfermo Sano Enfermo Enfermo Sano Enfermo Enfermo Enfermo Enfermo Sano Sano Enfermo Enfermo Enfermo Enfermo Enfermo Sano
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
1 1 0 0 0 1 0 0 1 0 0 1 1 0 1 0 1 1 1
1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0
61
1.
De la informacin que se encuentra en la tabla, Cuntas personas consumieron Tomate? Cuntas personas consumieron Bebidas?
2.
Podras decir que todas las personas que consumieron Tomate enfermaron? Justifica.
3.
Podras asegurar que todas las personas que consumieron estos dos alimentos (Tomate y Bebidas) enfermaron? Justifica.
4.
Al observar y analizar el grfico, Qu informacin se puede extraer del grfico en relacin con la causa de la intoxicacin por alimentos?
62
Luego, se realiza la segmentacin del primer alimento en dos ramas para consignar los datos relacionados con los invitados que ingirieron el alimento y aquellos que no. En una segunda segmentacin se vuelve a realizar el mismo anlisis anterior, en esta ocasin con el segundo alimento seleccionado. A continuacin se presenta el rbol de segmentacin de los alimentos Tomate y Bebidas.
1.
Qu porcentaje de la poblacin del asado se enferm producto de la intoxicacin por algn alimento?
2.
De las personas que consumieron tomate, cul es el nmero de sanos? Qu porcentaje representan?
3.
Existen personas enfermas, pese a no ingerir ninguno de estos alimentos? Qu porcentaje representan del total de personas asistentes al asado?
63
4.
Analizando las posibilidades que muestra el rbol de segmentacin Podras decir si se ha encontrado la causa de la intoxicacin por la ingesta de estos alimentos? Justifica.
Salud 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
64
1.
De la informacin que se encuentra en la tabla, cuntas personas no consumieron ninguno de los dos alimentos seleccionados?
2.
De las personas que no consumieron ninguno de los dos alimentos, existen enfermos? Cuntos?
3.
4.
Podras asegurar que todas las personas que consumieron estos dos alimentos enfermaron? Justifica.
El rbol de segmentacin
En esta oportunidad completars el rbol de segmentacin con la informacin necesaria y con la segmentacin del primer alimento que escogiste anteriormente. Una vez que completes la informacin solicitada (N de sanos, N de enfermos, total de personas del nodo, porcentaje de sanos, porcentaje de enfermos y porcentaje total del nodo respecto al inicial), realiza una segunda segmentacin del rbol utilizando el segundo alimento seleccionado, agregando en cada caso la informacin solicitada en las segmentaciones anteriores.
65
1.
En base a la segmentacin que hiciste para el segundo alimento, escogiste una de las ramas principales (rama 1 o rama 2). Explica el por qu de la eleccin para realizar la segmentacin.
66
2.
Las ramas presentes en el rbol te permiten determinar todas las posibilidades que se tiene con los alimentos seleccionados? Si Por qu? No
3.
De acuerdo a los dos alimentos seleccionados y de la informacin registrada en el rbol de segmentacin, puedes decir que estos alimentos son la causa de intoxicacin? Justifica.
2.
Selecciona dos posibles alimentos que causaron la intoxicacin de los asistentes al asado, discute con tus compaeros y el profesor si estos alimentos pueden ser causa.
3.
Realiza una conjetura del por qu piensas que estos alimentos escogidos pueden ser los causantes de la intoxicacin.
67
4.
De acuerdo a los alimentos que consideras que son la causa de la intoxicacin, completa la tabla siguiendo las instrucciones utilizadas hasta el momento y grafica cada uno de los puntos correspondientes a los invitados al asado.
Salud 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
5.
6.
7.
68
69
2.
Construyendo y analizando el grfico con valores 0 y 1, es posible analizar toda la informacin necesaria para detectar la causa de la intoxicacin? Justifica.
3.
Con esta tercera forma de registrar y analizar la informacin, el diagrama de rbol de segmentacin, permite obtener mayor cantidad de informacin por variable? Es claro para detectar las causas de intoxicacin? Justifica.
4.
En estricto rigor, Cuntas variables deberan analizarse para poder encontrar la causa de la intoxicacin? Cules seran las combinaciones de alimentos a analizar?
70
GUA 9
ES POSIBLE DISCRIMINAR MEDIANTE RECTAS?
SEGMENTACIN DE UNA POBLACIN, USANDO MTODOS GRFICOS
En esta gua veremos cmo segmentar una poblacin usando mtodos grficos y luego escribiendo los resultados con rboles.
Accidentes automovilsticos
Los choques de automviles son la causa prevenible N1 de muerte en adultos, jvenes y nios, como tambin la causa principal de daos permanentes al cerebro y la columna. Por ejemplo, una parada en seco a 50 k/h podra causar la misma fuerza sobre el cerebro y el cuerpo de un nio como la cada de un edificio de tres pisos. Por esta razn, al momento de conducir un vehculo se debe considerar una serie de factores y como conductor tenerlos presente y respetarlos. Algunas consideraciones al momento de conducir son: Cuando beba alcohol no conduzca; no utilice su telfono celular cuando conduzca; use siempre el cinturn de seguridad, incluso si su vehculo posee airbag; no traslade a menores o bebs en el asiento delantero; conduzca siempre atento a las condiciones de trnsito y sealizaciones viales; respete el lmite de velocidad mximo permitido en la ruta; mantenga la distancia de seguridad con el vehculo que lo antecede, aunque circule despacio; encienda las luces del vehculo al circular por un tnel; qutese las gafas de sol al entrar a un tnel; conduzca con precaucin si el pavimento est mojado; entre otras a considerar.
71
Situacin 1: En el grfico siguiente se considera la relacin entre dos variables a comparar, supongamos que la variable p representa el nmero de horas de conduccin y la variable q representa la edad de la persona que conduce.
1.
2.
3.
Escribe una tabla de datos con las mejores aproximaciones correspondientes al grfico pq, considerando todas las observaciones de la muestra. Para esto, toma el centro de los crculos como los valores de la observacin, y en las cruces considerar la interseccin de los segmentos. p q Siniestro p q Siniestro
72
4.
De las personas que sufrieron siniestro de acuerdo al grfico, estima el tiempo promedio que estuvieron manejando y la edad que tiene cada conductor.
5.
Analizando cada una de las variables presentes, qu puedes decir de la informacin que se muestra en el grfico?
6.
Si tuvieras que separar la poblacin entre las personas con siniestro y las sin siniestro, con tan solo trazar una recta. Podras hacer esta separacin en este grfico? Si Por qu? No
Situacin 2: En este segundo grfico se comparan otras dos variables. Supongamos que se analiza la relacin que pudiese existir entre las variables u, que representa el nmero de aos que se posee un automvil y v, que representa los aos de experiencia del conductor.
73
1.
Determina el porcentaje que representa cada uno de los casos, siniestros y no siniestros, con respecto a la muestra.
2.
Escribe una tabla de datos aproximados correspondientes al grfico uv, considerando todas las observaciones de la muestra. u v Siniestro u v Siniestro
3.
Analizando cada una de las variables que se presentan en el grfico, qu puedes concluir de la muestra observando el grfico uv?
4.
Podras realizar una discriminacin de la poblacin entre personas con siniestros y sin siniestros trazando una recta horizontal o una recta vertical en el grfico? Si No
Si tu respuesta es positiva, traza la recta en el grfico. Realiza una interpretacin de la segmentacin de la muestra que realizaste a travs de la recta.
74
Situacin 3: En este tercer grfico supngase que se presenta la relacin existente entre las variables w, que representa una estimacin de la distancia de seguridad que se mantiene con respecto al automvil que antecede y z, que representa la velocidad a que se desplaza el automvil.
1.
Escribe una posible tabla de datos correspondientes al grfico wz, considerando todas las observaciones de la muestra. w z Siniestro w z Siniestro
2.
En este tercer grfico, al observar el comportamiento de las variables, qu puedes decir de esta muestra?
3.
Podras discriminar la poblacin presente en este grfico trazando una sola recta? Si No
75
4.
En caso de ser positiva la respuesta, escribe las expresiones que representa cada una de ellas.
5.
Escribe cada segmentacin como rbol. Incluye los porcentajes en cada caso.
76
Situacin 4: En el grfico siguiente, inventa un par de variables que hipotticamente puedan relacionarse de acuerdo al contexto de las aseguradoras de automviles y de los valores que tiene cada uno de los ejes del grfico siguiente.
1.
Escribe una tabla de datos aproximados correspondientes al grfico sr, considerando todas las observaciones de la muestra. s r Siniestro s r Siniestro
2. 3.
En el grfico sr anterior, traza una recta que te permita una segmentacin de la muestra entre individuos con siniestros y sin siniestros. Estima dos puntos que pasen por la recta que trazaste y determina una posible expresin algebraica que describa la recta trazada en el grfico anterior.
77
4.
5.
Escribe cada segmentacin como rbol. Incluye los porcentajes en cada caso.
78
2.
En cul(es) grfico(s) usaras ms de una recta para segmentar la muestra entre siniestros y no siniestros?
3.
En cul(es) grfico(s) usaras lneas, no necesariamente horizontales ni verticales, para discriminar siniestros de no siniestros. Dibjalas. Determina los porcentajes de siniestros y no siniestros de cada segmento.
4.
En todos los grficos presentados es posible discriminar la muestra entre siniestros y no siniestros mediante rectas? Justifica.
79
Actividad 1: Pesos
Grafica en una recta la siguiente informacin: Nombre Peso en Kg. Claudio Pamela 72 58 Mara 55 Ernesto Gustavo 80 69 Irene 67 Martn 70 Patricio 64
Entre qu valores se concentran los pesos de las mujeres? Entre qu valores se concentran los pesos de los hombres?
Actividad 2: Coordenadas
Imagina que se tienen los siguientes datos en coordenadas (x, y) como resultado de hacer 30 mediciones.
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
X Y
N
8 0
16
9 0
17
10 0
18
10 1,5
19
10 2
20
11 -1
21
11 0
22
11 1
23
12 12 -2,5 -1
24 25
12 0
26
12 1
27
12 2
28
12 3
29
12 4
30
X Y
13 -3
13 -2
13 -1
13 0
13 1
14 -1
14 0,5
14 1
15 -2
15 -1
15 0
16 0
17 17 -1,5 -2
18 0
80
1.
2.
3.
81
1.
Ordena los datos anteriores en la siguiente tabla de frecuencias. N de caries Frecuencia absoluta Frecuencia relativa Frecuencia relativa %
Totales: 2. Construye dos grficos de barras para la informacin anterior. a) Considerando frecuencia absoluta b) Considerando frecuencia relativa
3.
En promedio, cuntas caries tendra un alumno del cuarto medio? Explica cmo obtuviste este valor a partir de la tabla de frecuencias.
82
Actividad 4: Notas
Los siguientes datos corresponden a las notas obtenidas por un curso de 33 alumnos en la asignatura de Lenguaje y Comunicacin. 4,5 3,3 4,4 1. 5,6 4,2 5,6 2,5 2,4 5,1 7 2,5 4,5 3,4 3,6 4,3 3,3 4,5 4,1 4,5 5,6 3,9 6,2 4,8 1,4 3,9 5,8 4,2 5,5 4,1 6,7 5,3 5,7 4,9
Frecuencia absoluta
Frecuencia relativa
Frecuencia relativa %
Totales: 2. Segn los datos anteriores, construye un histograma, usando frecuencias relativas porcentuales.
3.
83
4.
1.
Completa la tabla siguiente, donde se reflejen los mismos datos anteriores ahora en porcentajes.
Razones para comprar un libro Cultura general Ayuda a capacitarse Aumento de conocimientos Satisfaccin personal Otras Total
Hombres %
Mujeres %
Total
1 Ejercicio adaptado del libro Contenidos bsicos de Estadstica y Probabilidad, del autor Eugenio Saavedra Gallardo. Editorial Universidad de Santiago. Coleccin Ciencias 2005.
84
2.
Construye dos grficos circulares que reflejen la misma informacin en porcentajes, tanto para mujeres como para hombres.
Enfermedad
Aparato circulatorio Tumores malignos Traumatismo y envenenamiento Aparato respiratorio Aparato digestivo Sntomas y estados morbosos mal definidos Infecciosas y parasitarias Afecciones originadas en el perodo prenatal Aparato genitourinario Enfermedades de las glndulas endocrinas, nutricin, metabolismo y trastornos de la inmunidad Resto causas
Porcentaje
28% 22% 10% 13% 7% 4% 3% 1% 2% 4% 6% 100%
85
3.
Construye un grfico que muestre adecuadamente la informacin anterior. Justifica tu eleccin, es decir, por qu este grfico y no otro?
4.
86
1.
2.
87
Grfico 1
88
Grfico 2
Grfico 3 1. Cules grficos te sirven para discriminar negro de blanco, segn las variables escogidas? Por qu?
89
2.
En aquellos en que discrimine, cules son los intervalos para negro y para blanco?
90
1. 2.
Completa la informacin que falta en las ramas anteriores. Qu informacin revela el rbol de segmentacin? Qu se puede concluir?
Para cada uno de los siguientes grficos, responde las siguientes preguntas: 1. Cuntos casos hay en la muestra que presentan la caracterstica A y cuntos la B?
2.
Escribe una tabla con las coordenadas aproximadas para cada grfico XY.
91
3. 4.
En los grficos anteriores, traza lneas verticales, horizontales o diagonales, para mostrar una segmentacin apropiada de las dos poblaciones. Escribe los porcentajes de A y B respectivamente en cada grfico.
92
Carolina Alejandro
4,8 4,5
Notas parciales de Matemtica 4,7 4,5 4,5 4,0 4,5 4,5 3,8 5,6 4,5 4,4 2,8 5,0
4,5
4,5
93
2.
Si se considera la suma de las respectivas notas quin de ellos tendra mejores calificaciones? Esta respuesta coincide con la respuesta anterior?
3.
Si se considera la nota mxima de las respectivas notas quin de ellos tendra mejores calificaciones? Esta respuesta, coincide con la respuesta inicial?
4.
Si se considera la nota que ms se repite, quin de ellos tendra mejores calificaciones? Esta respuesta, coincide con la respuesta inicial?
5.
6.
Cul es la nota que est al centro en cada caso? Considerando este valor, quin tiene mejores calificaciones? Esta respuesta coincide con la respuesta inicial?
94
7.
Calcula el promedio de notas para cada caso. Para ello completa la siguiente tabla: Lo que se conoce como promedio y que se emplea, por ejemplo, en las calificaciones finales de las asignaturas, tambin se le conoce como Media o Media Aritmtica y se designa por X. Suma total de las notas parciales Carolina Alejandro N de notas Promedio de notas (X)
Hasta el momento has encontrado diferentes representantes de una muestra de datos, como por ejemplo: la nota mxima, la suma de las notas, la moda, la mediana, la media aritmtica. Ahora, de acuerdo a lo realizado: 8. Es posible considerar como un buen representante de la muestra a alguno de los valores registrados anteriormente? Por qu?
9.
En el siguiente grafico de barras, se observan las notas obtenidas por Carolina con su respectiva frecuencia absoluta.
95
Supongamos que cada una de estas barras tuviera un cierto peso de acuerdo a su altura. Si ubicamos estos pesos en el mismo orden sobre una balanza, para mantenerla equilibrada, en qu valor se encontrara el punto de equilibrio de la balanza? Antalo en el dibujo
Cmo saber si realmente el valor escogido es el punto de equilibrio? Ahora calcula la diferencia que hay entre el punto de equilibrio y cada una de las notas. Completa la tabla. Notas parciales de Matemtica (xi) Carolina
xi Pto de equilibrio
4,0
4,0
4,1
4,5
4,5
4,5
4,5
4,7
4,8
(x
i =1
pto de equilibrio )
Notar que:
(x pto de equilibrio)= (x
i =1
1.
2.
96
Registra en la tabla, la diferencia de cada nota con la Mediana. Luego, suma los valores obtenidos. Notas parciales de Matemtica (xi) Carolina 4,0 4,0 4,1 4,5 4,5 4,5 4,5 4,7 4,8
x M
i
(x
i =1
Me)
Registra en la tabla, la diferencia de cada nota con la Moda. Luego, suma los valores obtenidos. Notas parciales de Matemtica (xi) Carolina 4,0 4,0 4,1 4,5 4,5 4,5 4,5 4,7 4,8
x M
i
(x
i =1
Mo)
Registra en la tabla, la diferencia de cada nota con la Media Aritmtica. Luego, suma los valores obtenidos. Notas parciales de Matemtica (xi) Carolina 4,0 4,0 4,1 4,5 4,5 4,5 4,5 4,7 4,8
x X
i
(x
i =1
)
Unidad: Estadstica y Probabilidad
97
1.
A qu medida de tendencia central corresponde el punto de equilibrio? Por qu? Qu sucede con la Mediana y con la Moda? Realiza un grfico de barras con las notas de Carolina y ubica estos valores.
2.
Considerando el trabajado realizado en esta gua, Cul crees t que debe(n) ser la(s) razn(es) por la(s) cual(es) la Media Aritmtica se destaque como un buen representante de un conjunto de datos por sobre la Mediana y la Moda?
98
Pasando en Limpio
Considerando el trabajo realizado y una muestra de datos cualesquiera, completa la siguiente tabla. Cuando corresponda, justifica brevemente.
Moda
S
Para su clculo, se utilizan todos los datos de la muestra?
Mediana
S No
Media Aritmtica
S No
No
S
El valor, es un dato de la muestra?
No
No
No
Cmo se obtiene esta medida? De qu manera afecta el hecho de que la cantidad de datos sea par o impar?
S
El valor, es punto de equilibrio en la balanza?
No
No
No
99
Desafos
Discute e investiga con tus compaeros, los siguientes casos: 1. Un ascensor tiene un cartel que indica lo siguiente: Mximo de personas 10, peso lmite 675 Kg.. Cul es el peso promedio que se debera considerar, por persona, y que exige el aviso del ascensor? Siempre podrn utilizar el ascensor 10 personas?
2. Un lago de 20 cm. de profundidad en promedio, permite que una persona de 1,70 m. pueda zambullirse totalmente de forma vertical en sus aguas. a. Es posible esta situacin?
b.
c.
Intenta un bosquejo del hipottico lago, para que cumpla las condiciones anteriores.
100
Puntajes en la PSU
Los puntajes obtenidos en la PSU por los alumnos de un establecimiento educacional fueron los siguientes. 360 730 325 501 790 425 358 560 345 540 658 351 417 515 552 584 325 445 650 742 800 430 427 368 451 531 545 457 321 410 630 625 490 610 679 645 320 420 729 562 651 620 381 780 745 372 573 777 518 478 328 504 800 800 550 660 389 383 760 500 677 600 790 430 410 520 820 555 470 478 580 750 666 770 478 330 400 690 643 390 699
1. A simple vista, puedes hacer una estimacin de la media aritmtica, la moda, y la mediana de la forma en que estn presentados los datos?
2. Cmo organizaras los datos para facilitar el clculo de las medidas de tendencia central?
101
2. Divide el rango de los datos en un determinado nmero de intervalos, siendo stos del mismo tamao o amplitud. Para este caso, divide el rango por 10 (10 intervalos).
3. Determina intervalos, utilizando la amplitud de clase y, asigna el nmero de puntajes que hay en cada intervalo definido, respectivamente. Para lo anterior, realiza los siguientes pasos, registrando lo que se seala en la tabla que se presenta a continuacin: i. Para definir el primer intervalo, utiliza el menor puntaje de todos los datos como extremo inferior. Luego, a este extremo, smale la amplitud de clase, as obtienes el extremo superior del primer intervalo [a - b [. Para el segundo intervalo, el extremo superior del primer intervalo asgnalo como el extremo inferior de este. Nuevamente le sumas la amplitud de clase. De esa forma obtienes el extremo superior para este intervalo y as sucesivamente hasta completar el nmero de intervalos definidos. Determina el nmero de puntajes (frecuencia) que estn en el interior de cada intervalo y regstralo en la columna N de puntajes. Puntaje PSU (Intervalos) [320 [ [ [ [ [ [ [ [ [ [ [ [ [ [ [ [ [ [ ] N de puntajes (frecuencias)
ii.
iii.
iv.
v.
102
El N de puntajes registrados para cada intervalo se denominan frecuencia absoluta del intervalo ( fi ).
Registra el primer intervalo. En el caso que no conocieras los datos que hay en su interior, qu nmero puede ser el mejor representante de este intervalo? Calclalo.
El nmero que representa el conjunto de nmeros de una clase se denomina marca de clase.
[320,370[
103
Explorando la Moda:
1. Cul es el intervalo que tiene mayor frecuencia?
2.
3.
2.
3.
Este valor corresponde a la media aritmtica. A partir de lo realizado anteriormente, describe con tus palabras cmo determinar la media de datos agrupados.
4.
La media aritmtica encontrada para los datos agrupados, es la que se obtendra al calcularla directamente en los datos originales? Justifica.
104
1.
Haz intervalos con amplitud de clase igual a 100.000, y luego completa la tabla. Clases Frecuencias fi Marca de clase mi fi mi
2.
105
Pasando en limpio
Junto a tus compaeros y tu profesor, expresa o define las caractersticas para presentar datos agrupados.
106
Grupo de Gustavo Alumno Nota 1 2,1 2 7,0 3 4 5 3,4 6 4,0 7 6,0 8 5,5 9 3,8 10 6,7 11 5,2 12 4,5 13 14 15 4,9 6,8 5,8 4,8 6,0
107
2.
Calcula la Media Aritmtica de la notas de cada grupo. A partir de estos datos, Qu grupo tendra mejores calificaciones?
3.
Observa los grficos, los cuales representan las notas de cada grupo. En cada uno de ellos, traza una lnea horizontal punteada para representar la MEDIA ARITMTICA de cada caso.
4.
5.
Entre qu notas se encuentran concentradas las notas del grupo al que pertenece Macarena? Registra la nota mnima, la mxima y la diferencia de ambas.
6.
Entre qu notas se encuentran concentradas las notas del grupo de Gustavo? Registra la nota mnima, la mxima y la diferencia de ambas.
7.
A la diferencia entre el valor mximo y mnimo de un conjunto de datos, se le conoce como Rango (R).
108
8.
Es posible afirmar que el rango permite siempre comparar la dispersin o grado de esparcimiento de los datos de cualquier par de conjuntos de datos? Justifica.
9.
i.
Cul de los grficos muestra menor dispersin de los datos? Es decir, qu grupo es ms uniforme en cuanto a sus calificaciones? Justifique.
ii. Calcula el rango para cada caso Permite el rango comparar adecuadamente la dispersin? Justifique.
iii. Segn la definicin de rango, se entiende que utiliza todos los datos del conjunto? Justifique.
iv. Tomando con base las preguntas i, ii y iii, el rango es siempre una buena medida de dispersin? Justifique.
109
Buscando la Varianza
Vuelve al caso del Grupo de Macarena y el de Gustavo. Compara cada nota con la Media Aritmtica respectiva a travs de la diferencia de estos nmeros. Registra esta diferencia en la tabla. Luego, suma dichas diferencias en cada caso. Grupo de Macarena Alumno Nota (xi) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
xi X
(x
i =1
15
xi X
(x
i =1
15
Observa que: La diferencia que se produce en cada caso, es el error que se comete al representar las notas de los alumnos por el Promedio o Media aritmtica. Los valores positivos, que corresponden a los datos por encima de la Media aritmtica, se anulan con los valores negativos, que corresponden a los datos por debajo de la Media aritmtica.
110
2.
A continuacin, determina las distancias de cada valor al promedio o Media aritmtica. Para ello y con la intencin de obtener valores positivos, eleva al cuadrado cada una de las diferencias obtenidas. Luego, suma dichas distancias y calcula el promedio de ellas, en cada caso:
xi X
(
15 i =1
xi X
i
(x
)
1 2 3 4 5
(x
i =1
15
15
xi X
(
15 i =1
xi X
i
(x
(x
i =1
15
15
Al promedio de los cuadrados de las diferencias de cada valor a la media aritmtica, o promedio de los errores cuadrticos, se le conoce como Varianza, se suele denotar por S2
Unidad: Estadstica y Probabilidad
111
S =
(x
i =1
X n
S =
(x
i =1
X n
S=
(x
i =1
X n
S=
(x
i =1
X n
Este valor, es decir, la raz cuadrada de la Varianza o promedio de los errores cuadrticos se le conoce como Desviacin Estndar y se suele denotar por (S).
1.
Determina los extremos de los intervalos presentados para cada grupo. Para ello calcula la diferencia entre la Media Aritmtica y la Desviacin Estndar, y luego la suma de ambos. Grupo de Macarena Grupo de Gustavo
[x S , x + S ]= [
2.
[x S , x + S ] =[
Grupo de Macarena
Cuntos datos se encuentran en los intervalos definidos con la desviacin estndar? Grupo de Gustavo
Registra, para cada grupo, la cantidad de notas que se encuentran en el intervalo definido con la desviacin estndar. Registra, para cada grupo, el porcentaje que corresponde el valor obtenido con respecto al nmero total de notas.
112
Grupo de Gustavo
1.
2.
Si todos los datos estn muy cercanos a la Media Aritmtica, entonces qu debe ocurrir con la Desviacin Estndar?
113
3.
Si la Media Aritmtica no es el mejor representante de un conjunto de datos, entonces qu debe ocurrir con la Desviacin Estndar?
Para ejercitar
Con los datos recopilados en la Gua 2: Qu hacer con los datos?, calcula lo siguiente: Estatura Media aritmtica Rango Varianza Desviacin estndar Calzado
x S, x + S
Porcentaje de datos en el intervalo Ahora, ilustra la situacin Estatura:
114
Calzado
Pasando en limpio
Junto a tus compaeros y tu profesor, expresa o define las Medidas de Dispersin y sus principales caractersticas.
RANGO (R)
Definicin
Principales caractersticas
VARIANZA (S2).
Definicin
115
Principales caractersticas
Principales caractersticas
116
GUA 14
CMO DISTRIBUIR LOS VALORES EN UNA MUESTRA?
Esta gua tiene la finalidad de que identifiques valores que permitan ubicar, bajo y sobre l, porcentajes de una muestra de datos. Por ejemplo la mediana, posiciona aproximadamente al 50% de los datos sobre ella y el 50% de los datos bajo ella. Estos valores se conocen como percentiles. Para esta actividad forma un equipo de trabajo, ten a la mano una calculadora, y luego lean las situaciones que se presentan y realicen las acciones que se indican:
P6 P7
215 321 368 211 245 267 299 301 325 350 390 345 234 243 15 16 17 18 19 20 21 22 23 24 25 26 27 28 P15 P16 P17 P18 P19 P20 P21 P22 P23 P24 P25 P26 P27 P28 400 200 312 389 354 239 283 294 377 285 265 342 203 391
1.
Ordena los datos relacionados con el peso de los peces, de forma ascendente (menor a mayor). Regstralos en la tabla que se muestra a continuacin
N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Cod. Pez Peso Pez en gramos N 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Unidad: Estadstica y Probabilidad
Cod. Pez
117
El valor que divide a la muestra en dos partes se le llama Percentil. En este caso, se debe buscar el Percentil 25, es decir, al valor que tiene el 25% de los datos bajo l y el 75% de los datos sobre l. Para ello realiza los siguientes pasos: 1. Registra el total de datos:
n =
2. Calcula la posicin (q) en la que se encuentra aproximadamente el 25% de los datos.
q =
3.
0,25 (n + 1) =
[q] =
4. De la tabla de datos ordenados de forma ascendente, selecciona los pesos de las posiciones [q] y [q] + 1, luego calcula el promedio de dichos pesos. Registra los datos a continuacin:
P25 = Valor posicin [q ]+ Valor posicin [q ]+ 1 = 2
5.
En la tabla de datos ordenados de forma ascendente, cuenta el nmero de pesos registrados menores que P25. A que porcentaje de la muestra corresponde?
118
6.
Registra el intervalo donde se ubica el 25% de los pesos. Recuerda: son los peces con peso menor que P25.
7.
Al obtener el percentil 25 se puede decir: El 25% de los peces pesa menos de El 75% de los peces pesa ms de
Buscando ms percentiles
Calcula los percentiles que se presentan a continuacin
Percentil 50
1. Calcula la posicin (q) en la que se encuentra aproximadamente el 50% de los datos
q=
0,5 (n + 1) =
2. Si q no es un nmero entero, entonces registra la parte entera de dicho valor. [q] = 3. De la tabla de datos ordenados de forma ascendente, selecciona los pesos de las posiciones [q] y [q] + 1, luego calcula el promedio de dichos pesos. Registra los datos a continuacin:
Valor posicin [ q ]+ Valor posicin [q ]+ 1 = 2
P50 =
4.
En la tabla de datos ordenados de forma ascendente, cuenta el nmero de pesos registrados menores que P50. A que porcentaje de la muestra corresponde?
5.
Registra el intervalo donde se ubica el 50% de los pesos. Recuerda: son los peces con peso menor que P50.
119
Percentil 80
1. A continuacin, calcula la posicin en la que se encuentra aproximadamente el 80% de los datos.
2.
3.
De la tabla de datos ordenados de forma ascendente, selecciona los pesos de las posiciones [q] y [q] + 1, luego calcula el promedio de dichos pesos. Registra los datos a continuacin:
P80 =
4. Registra el intervalo donde se ubica el 80% de los pesos de los peces.
5.
6.
Determina los intervalos donde se ubicaron los pesos de los peces, segn la distribucin que permiten los percentiles calculados.
Los percentiles permiten dividir la muestra en 100 partes iguales, es decir, podemos calcular y analizar desde el percentil 1 hasta el percentil 99. Este mtodo para calcular un percentil es utilizado para datos no agrupados.
120
Puntajes de la PSU
Un liceo desea analizar los puntajes obtenidos por sus alumnos de cuarto ao medio en la PSU. Los resultados obtenidos por sus alumnos se muestran en la tabla. Completa los datos: Frec. Frec. Relativa Puntaje Frec. Abs. Acumulada* Acumulada 4 = 0,019 [350 - 400[ 4 4 212 10 = 0,047 [400 - 450[ 6 10 212 19 = 0,089 [450 - 500[ 9 19 212 39 = 0,183 [500 - 550[ 20 39 212 70 = 0,330 [550 - 600[ 31 70 212 150 = 0,707 [600 - 650[ 80 150 212 [650 - 700[ [700 - 750[ [750 - 800[ [800 - 850] Total de alumnos 42 10 8 2 212
Caracterizando la muestra
Para comenzar a analizar los datos, realiza un grafico de ojivas. Para ello realiza lo siguiente: 1. Identifica el punto (a0 , 0) donde a0 corresponde al extremo inferior del primer intervalo
(a0 ,0) = (
2.
Ahora identifica los puntos del tipo (ai, Fi) donde Fi corresponde a la frecuencia relativa acumulada de cada intervalo y a i corresponde al extremo superior de cada intervalo Por ejemplo: (a1, F1) corresponde al 1er intervalo y el punto es (400,0,019)
(a1, F1) (a2, F2) (400,0,019)
* Frecuencia acumulada corresponde a la suma de las frecuencias absolutas, es decir, las observaciones que se han realizado hasta ese momento. Corresponde a la frecuencia acumulada dividida por el total de datos.
121
3.
Calculando percentiles
Para calcular el percentil 50, realiza lo siguiente 1. 2. Traza una recta paralela al eje x que pase por el punto 0,5 del eje y (representa la ubicacin que divide a la muestra en el 50% bajo l y al 50% sobre l) Esta recta intercepta a la ojiva trazada anteriormente?
Este punto de interseccin corresponde al Percentil 50. 3. Entre que puntos, de los graficados, se presenta esta interseccin?
122
Para conocer el percentil 50, debes encontrar la ecuacin de la recta que pasa por estos puntos
Buscando la recta
Para encontrar la recta que pasa por dos puntos dados se tiene la siguiente formula:
y y1 =
(y2 y1 ) (x x ) 1 (x2 x1 )
1.
2.
3.
Ya tienes la ecuacin de la recta, y sabes que el punto que buscas o percentil 50, corresponde a la interseccin de ella con la recta y = 0,5. Reemplaza el valor y = 0,5 en la recta encontrada.
4.
Ms percentiles
A partir de la ecuacin de la recta, podemos determinar la siguiente frmula, con la cual podemos determinar el valor de un percentil directamente.
Pm = a j 1 +
Donde:
j fj
( F j 1 )
= Corresponde al percentil a calcular, dividido por 100. Este valor es 0 < < 1 j = Corresponde al entero en el cual Fj 1 < y F j >
j = Corresponde al tamao del intervalo. F j ; F j 1 = Corresponde a la frecuencia Relativa acumulada en ese intervalo. a j 1 = Corresponde al lmite superior de ese intervalo. f j ; f j 1 Corresponde a la frecuencia absoluta en aquel intervalo.
Unidad: Estadstica y Probabilidad
123
Calcula el Percentil 10
Para utilizar esta formula debes hacer lo siguiente: 1. Registra el tamao de la muestra: n = 2. Calcula
4.
5.
Ahora, reemplaza en la formula los valores encontrados, segn corresponda y calcula el Percentil 10
P 10 = a j 1 +
j fj
( Fj 1 )
P10 =
124
6.
7.
8.
Cuartiles y Deciles
Otras medidas de Posicin son los cuartiles y deciles.
Cuartiles
Los cuartiles (Qn) dividen a la muestra en 4 partes iguales, y son llamados Q1: primer cuartil; Q2: segundo cuartil y Q3 tercer cuartil.
125
Cada uno de ellos es equivalente a un percentil, por ejemplo: Primer Cuartil (Q1) representa al 25% de la muestra, por lo tanto equivale al percentil 25 P25 1. A que percentil equivale el segundo y el tercer cuartil?
2.
Calcula el primer, segundo y tercer cuartil del caso presentado anteriormente: El peso de los Peces
3.
Ubica los cuartiles y porcentajes de los pesos de los peces en la recta segn corresponda:
126
Deciles
Los deciles (Dn) dividen a la muestra en 10 partes iguales, y son llamados D1: primer decil; D2: segundo decil, hasta D9: noveno decil. Ubica en la recta los deciles y los porcentajes a los cuales representa.
Cada uno de ellos es equivalente a un percentil, por ejemplo: Primer Decil (D1) representa al 10% de la muestra, por lo tanto equivale al percentil 10 P10
1.
2.
3.
4.
127
Pasando en limpio
Junto a tus compaeros y tu profesor, expresa o define las medidas de posicin y sus principales caractersticas. Percentiles (Pn) Definicin
Principales caractersticas
128
Principales caractersticas
Principales caractersticas
129
Fiesta de cumpleaos
Una Fundacin de acogida de personas de la tercera edad, realiz una fiesta en la cual celebraron 7 ancianos sus cumpleaos. La Sra. Rosa cumpli 102 aos, mientras que la guagua del grupo, la Sra. Rebeca, cumpli 62. La jornada cont con la presencia de familiares y amigos, hubo torta, regalos y muchas tonadas. Tambin se celebraron los cumpleaos del Sr. Gonzlez, que cumpla 75, la Sra. Teresita (84), el Sr. Prez (63), la Sra. Dominique (71) y la Sra. Cambiaso (63). 1. Registra la media aritmtica o promedio, la mediana y la moda de las edades de los festejados. Redondea la media al nmero entero ms cercano.
2.
Existe alguna edad muy alejada del promedio (dispersa)? Si lo hubiera, seala cul es y explica cmo afecta a los resultados.
En busca de la meta
Jessica desea alcanzar un promedio de 6,5 en matemtica, para mantener el promedio anual que tuvo el pasado perodo escolar. Sus notas hasta el momento han sido las siguientes: 6,2; 6,6; 6,0; 5,9 y 6,4. 1. Cul es su promedio actual?
2.
Para cerrar el promedio, todava falta la prueba de nivel que equivale a dos notas. Es posible que consiga el promedio deseado? Justifica la respuesta con algunos ejemplos.
130
Medicin en el Liceo
El tercero A del Liceo, realiz una medicin del peso de sus alumnos y se obtuvo 1281 kilos entre todos sus alumnos. 1. Si la media es de 51 kilos Cuntos estudiantes participaron del pesaje?
2.
Si la mediana es de 57 kilos y exactamente 3 alumnos tienen ese peso, Cuntos pesan ms de 57 kilos? Discute con tus compaeros.
Resume los datos en una tabla de frecuencia y calcula la media, moda y mediana de los datos.
131
2.
3.
4.
Reaccin de frenado
Una investigacin entreg las siguientes mediciones acerca del tiempo de reaccin, en segundos, que tiene un individuo al frenar en un vehculo ante un imprevisto. 0,113 0,113 0,124 0,127 0,108 0,110 0,098 0,118 0,111 0,120 0,126 0,122 0,132 0,112 0,099 0,112 0,105 0,108 0,101 0,102 0,117 0,103 0,115 0,112 0,129 0,113 0,119 0,120 0,111 0,115 0,135 0,100 0,107 0,119 0,121 0,107 0,117 0,123 0,103 0,130 0,122 0,113 0,109 0,100 0,134 0,118 0,106 0,128 0,094 0,114
132
1.
2.
Agrupa los datos en intervalos de 0,100 de amplitud de clase. Luego, calcula la media, moda y mediana de los datos.
3.
133
2.
Si se incorpora como dato la desviacin estndar en las notas de cada una: Promedio 4,0 4,0 S 1,6 3
Andrea Xmena
a. Podras indicar qu grupo de notas corresponde a cada una de las alumnas? Grupo 1: 4,2 - 4,1 - 3,9 - 3,8 Grupo 2: 1,0 - 7,0 - 7,0 - 1,0 Justificacin:
134
En este momento, recordaremos otro concepto importante, el de variable aleatoria. En el programa de tercer ao medio, se alude y define este concepto. Nuestra definicin dice que estamos frente a una variable aleatoria cuando en un experimento aleatorio se asocia un valor numrico a cada resultado del experimento. Comnmente se utilizan letras maysculas para designar variables aleatorias ( A, B, X, Y, Z ) y letras minsculas para los valores concretos de ellas mismas (a, b, x, y, z ). Por ejemplo, si la probabilidad de que la variable aleatoria discreta X tome el valor a es 1 , entonces esto se anota como P(X = a) = 1 . 2 2 2. Las distribuciones de probabilidades
Cuando se quiere estudiar un fenmeno, se escoge una muestra del mismo y se recoge una serie de observaciones sobre los valores que presenta. Se confecciona una tabla de frecuencias que nos permite conocer el comportamiento de los datos. Esta es una aproximacin del fenmeno basada en datos observados en la muestra. Las distribuciones de probabilidad son modelos tericos de como sera tal distribucin para la poblacin completa. Las tablas de frecuencias se construyen usando datos reales observados de la muestra, pero al construir distribuciones de probabilidad, usamos los posibles resultados y sus probables frecuencias. As por ejemplo, al contemplar el experimento "observar la suma obtenida al lanzar dos dados de seis caras", podemos hacer una distribucin de frecuencias relativas, resultante de realizar el experimento un nmero grande de veces, o por el contrario, una distribucin de probabilidad, en la que asignemos a cada resultado su probabilidad. En el primer caso utilizamos la frecuencia relativa de cada dato mientras en el segundo utilizamos la probabilidad de cada resultado.
Distribucin de frecuencias relativas observadas de la suma de caras en 200 lanzamientos de dos dados.
De esta forma, al utilizar distribuciones de probabilidad, usamos un modelo terico que correspondera a una distribucin perfecta de frecuencias de una poblacin, es decir, el que correspondera al fenmeno si este se realizara un nmero infinito de veces.
Unidad: Estadstica y Probabilidad
135
Por ejemplo, si consideramos la variable aleatoria X = valor de la suma de las caras de dos dados, entonces la probabilidad de obtener 11 en la suma de las caras es de 2 . Esto se anota 11 2 . P (X = 11) = 11 Lo que hace interesante el estudio de una distribucin, es que las probabilidades de ocurrencia de los resultados de un experimento aleatorio, se reparten en su grfica con una forma caracterstica, incluso en experimentos distintos del mismo tipo. A partir de esto es que los modelos tericos de las distribuciones permiten hacer predicciones de las probabilidades de los valores de la variable aleatoria sin necesidad de realizar el experimento. A continuacin, se muestran algunas grficas de ejemplo de distribuciones de probabilidad que se usan en estadstica:
Distribucin Uniforme
Distribucin Binomial
Distribucin Normal
Distribucin T de Student
Distribucin exponencial
Distribucin
( se lee chi)
3.
La distribucin normal
La distribucin normal es un modelo terico que sirve para representar, en forma aproximada, algunas distribuciones de datos continuos. La primera condicin para que una variable aleatoria siga una distribucin normal, es que sea cuantitativa y la segunda que sea continua, por lo que, tericamente, puede tomar todos los valores dentro de un intervalo dado (que incluso puede ser infinito). En la prctica, podemos tambin considerar el caso de variables discretas con un nmero muy grande de valores, que haga necesaria su agrupacin en intervalos, para tratarla como si fuese continua. Un ejemplo de distribucin normal El coeficiente intelectual de las personas (que comnmente se denomina CI) es utilizado para medir la capacidad lgica y se obtiene a partir de ciertos cuestionarios que han sido validados y probados con un gran nmero de personas. En estos cuestionarios, una puntuacin 100 corresponde al promedio, y se supone que se alcanza cuando el desarrollo intelectual de una persona es el promedio del correspondiente a su edad. Una puntuacin superior o inferior a 100 indica ms o menos capacidad intelectual que el promedio de su edad, respectivamente.
136
En las figuras siguientes se muestran los histogramas de frecuencias de la puntuacin obtenida en el cuestionario que mide el CI por grupos de personas seleccionadas aleatoriamente. Resultados obtenidos por 100 personas.
(Frecuencia absoluta)
Figura 1a.
Figura 1b.
Figura 1c.
Si siguiramos aumentando a millones o ms la cantidad de personas, el histograma adoptara una forma estable como la figura 2. Esta es la forma caracterstica de la distribucin normal que estudiaremos en esta y en las prximas guas. Figura 2 Recordemos que si recolectamos datos de un experimento aleatorio y graficamos el histograma de frecuencias relativas absolutas de ellos, la frecuencia relativa absoluta de cada uno se puede entender tambin como la probabilidad (experimental) de ocurrencia del mismo. De este modo, las frecuencias relativas acumuladas permiten determinar las probabilidades de mayoraciones o minoraciones. Por ejemplo, respecto de la figura 1b: Frecuencia relativa absoluta. La frecuencia absoluta de personas con un CI igual a 80 es 30. O sea, que de 1000 personas observadas, 30 de ellas tenan un CI igual a 80. En este caso, la frecuencia absoluta relativa ser 30 1000 = 0,03 . Este valor se puede interpretar como la probabilidad experimental de que una persona escogida al azar tenga un CI igual a 80 es del 3%. Frecuencia relativa acumulada. La frecuencia acumulada de personas con un CI menor a 80 es 30 + 20 + 18 + 12 + 7 + 8 = 95 (aproximadamente del grfico 1b). O sea, que de 1000 personas observadas, 95 de ellas tenan un 95 = 0,095 . Este valor se CI menor a 80. En este caso, la frecuencia absoluta acumulada ser 1000 puede interpretar como la probabilidad experimental de que una persona escogida al azar tenga un CI menor a 80 es del 9,5%.
Unidad: Estadstica y Probabilidad
137
Recordemos tambin que la distribucin normal es un modelo terico de una variable aleatoria continua, cuyo grfico de frecuencias relativas absolutas es similar a la figura 2. As, la figura 2 muestra la distribucin de frecuencias de infinitos datos observados. En este caso, no es posible determinar la frecuencia relativa absoluta (probabilidad de un dato) de un dato pues al dividir la frecuencia absoluta por el nmero de observaciones, que son infinitas, se obtiene cero. Por ello, es que se utiliza la frecuencia relativa acumulada (probabilidad de un intervalo) y slo se puede obtener informacin de intervalos de datos. Por esta razn es que utilizaremos slo probabilidades de desigualdades en adelante. Los parmetros de una distribucin normal Los parmetros en la distribucin normal son: la media, que llamaremos (usaremos en el modelo terico y x para el promedio de los datos observados) y la variabilidad que llamaremos 2, aunque por razones prcticas de manipulacin aritmtica, en esta y las guas siguientes, usaremos la desviacin estndar . Estos conceptos los usaremos respecto de una variable aleatoria continua que llamaremos X. Ms arriba se explic que la distribucin normal es un modelo terico de una variable aleatoria continua, cuyo histograma de frecuencias relativas absolutas es similar a la figura 2 y que este corresponde a la distribucin de frecuencias absolutas de infinitos datos observados. Por lo tanto, para obtener la frecuencia de uno de ellos se utiliza la llamada funcin de densidad normal. La funcin de densidad normal est definida por una frmula que depende de los parmetros y anteriormente mencionados que la determinan por completo. La funcin de densidad de la variable aleatoria normal X, con media y desviacin estndar , es:
f (x ) =
1 2
( ) e
1 x 2
Esta funcin tiene un aspecto complejo, pero NO se te pedir manipularla algebraicamente. Te proporcionaremos herramientas de software para trabajar con ella. En la figura 3 adjunta, se muestra la grfica de la funcin de densidad de la distribucin normal. Podemos ver que es simtrica respecto de la media y se muestra el punto que est desviado a una distancia de la media .
Junto a las caractersticas anteriores, se puede observar que la grfica tiene forma de campana. Justamente, esta grfica es conocida como la campana de Gauss.
138
Observacin 1: El applet no llega a = 0, pero es posible observar que, en este caso, todos los datos tericos cuya distribucin es normal, son iguales entre s y, por ende, iguales a la media . Observacin 2: Pasa lo mismo que en el punto anterior, solo que en este caso = 2.
f.
4.
Las probabilidades en la distribucin normal 4.1. Clculo de probabilidades en la distribucin normal Si tenemos una variable aleatoria X cuyos valores se distribuyen segn una distribucin normal de media y desviacin estndar entonces, podemos determinar las probabilidades asociadas a los valores de X. Supongamos que X tiene una distribucin
{
Entonces, la probabilidad de encontrar un valor cualquiera de X que sea menor o igual a 3 es de 0,747. La notacin para este clculo es P ( X 3)= 0,747. En las condiciones anteriores, la probabilidad representa el rea bajo la curva a la izquierda de 3. La figura 4 siguiente muestra la grfica de la situacin.
Figura 4.
Ejercicios: Utilizando el applet Distribucin normal 03, determina las siguientes probabilidades segn la distribucin dada:
Unidad: Estadstica y Probabilidad
139
1.
Si la variable aleatoria X tiene una distribucin N (2 ; 1,1): 1.1. Reconoce y anota los valores de y de la distribucin dada en el enunciado: = += + 2 = + 3 = = = 2 = 3 =
1.2. A partir de la distribucin dada, determina las siguientes probabilidades: 1.2.1. 1.2.2. 1.2.3. 1.2.4. 1.2.5. 1.2.6. 1.2.7. 1.2.8. 1.2.9. 1.2.10. 1.2.11. 1.2.12. 1.2.13. = = = = = = = = = = = = =
2.
Si la variable aleatoria X tiene una distribucin N (2 ; 0,5): 2.1. Reconoce y anota los valores de y de la distribucin dada en el enunciado: = += + 2 = + 3 = = = 2 = 3 =
140
2.2. A partir de la distribucin dada, determina las siguientes probabilidades: = = = = = = = = = = = = = 3. Si la variable aleatoria X tiene una distribucin N (0,5 ; 0,75) entonces: 3.1. Reconoce y anota los valores de y de la distribucin dada en el enunciado: = += + 2 = + 3 = = = 2 = 3 =
141
Considerando la misma distribucin, determina las siguientes probabilidades: = = = = = = En los tres ejercicios anteriores, se te pidi calcular las mismas probabilidades en los ejercicios 8 al 13. Si te fijas, a pesar de ser distribuciones distintas, estas probabilidades tienen el mismo valor. Esto ocurre as, porque las reas bajo la curva correspondientes a los intervalos [ , + ] , [ 2 , + 2 ] y [ 3, + 3 ] de cualquier distribucin, son siempre las mismas. Las siguientes figuras muestran esto grficamente.
) = P( X + ) P( X )= 0.682 P(x [ , + ]
Figura 5a.
P (x [ 2 , + 2 ] ) = P( X + 2 ) P( X 2)= 0.953
Figura 5b.
) = P( X + 3 ) P( X 3 )= 0.996 P(x [ 3 , + 3 ]
Figura 5c.
4.2. A continuacin te presentamos dos ejercicios, en los que debers seguir el procedimiento anterior para responder a las preguntas propuestas. Usa el applet Distribucin normal 03. 1. La talla media de 200 alumnos de un centro escolar es de 1,6m y su desviacin tpica 0,2m. Si las tallas siguen una distribucin normal. Cul es la probabilidad que un alumno elegido al azar pueda medir menos de 1,5m? La variable aleatoria es X = El problema supone que X tiene una distribucin
a. b.
142
c. El valor de es:
El valor de es:
;
d. La distribucin involucrada es N ( ; ) = N (
e. Utilizando el applet Distribucin normal 03, la probabilidad a determinar es P(X )= f. Describe en palabras y respecto del enunciado la probabilidad obtenida.
2.
En una fbrica de tuberas se construyen ductos para desage. Si se sabe que el dimetro se distribuye normalmente con una media de 2,5m y una desviacin estndar de 0,25m, cul es la probabilidad que el dimetro de un ducto mida menos de 2,4 metros? a. La variable aleatoria es X = b. El problema supone que X tiene una distribucin c. El valor de es: El valor de es:
;
d. La distribucin involucrada es N ( ; ) = N (
P( X
)=
143
5.
Cierre 5.1. En un experimento aleatorio, cul es la principal diferencia entre una tabla de frecuencias y una distribucin?
5.2. Cul es la forma caracterstica de la grfica de una distribucin normal? cul es la posicin donde se ubica siempre la media en su grfico?
5.3. La figura 6 es la grfica de una distribucin N(1,5 ; 1). Sobre el mismo grfico dibuja: 5.3.1. La media . 5.3.2. P ( X 1) = 0,308 5.3.3. P ( X 3) = 0, 068
Figura 6.
5.3.4. Explica el significado de la media . Adems, explica qu significa el rea bajo la curva de la figura 6 cuando P ( X 1) = 0,308 y P ( X 3) = 0,068 . Cundo el rea bajo la curva de una distribucin normal mide 1?
144
ANEXO 1
Algunas propiedades de la distribucin normal.
1. La funcin de densidad de probabilidad es:
1 f (x ) = e2 2 1 x
2
2. 3. 4.
] , + [
Su grfica tiene como asntota horizontal el eje de abscisas (Eje X). El rea total bajo la curva es igual a 1. De aqu se tiene que, por ejemplo, si z es un valor de una variable aleatoria Z que tiene una distribucin normal entonces:
P (z 0,7 )+ P (z 0,7 ) = 1
5. Es simtrica con respecto a su media . Segn esto, para este tipo de variables existe una probabilidad de 0,5 (o un 50%) de observar un dato mayor que la media, y de 0,5 (o de un 50%) de observar un dato menor. La forma de la campana de Gauss depende de los parmetros y (ver applet Distribucin normal 01). La media indica la posicin del eje de simetra de la campana, de modo que para diferentes valores de la grfica es desplazada a lo largo del eje horizontal. Cuanto mayor sea , ms aplanada ser la curva. La desviacin estndar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , ms dispersos estarn los datos en torno a la media y la curva ser ms plana. Un valor pequeo de este parmetro indica que los datos estn muy prximos al valor medio de la distribucin. No existe una nica distribucin normal, sino una familia de distribuciones con una forma comn, diferenciadas por los valores de su media y su desviacin estndar.
6. 7. 8.
9.
10. Si seguimos la curva desde el centro hacia la izquierda y la derecha, podremos observar que la curva cambia de sentido, de cncava a convexa, o sea de una forma as a otra as . El punto en donde se produce este cambio de sentido est localizado a una distancia a cada lado de la media , o sea en y en + . La figura adjunta muestra esta situacin.
De entre todas las distribuciones normales, la ms utilizada es la distribucin normal estndar N(0,1), que corresponde a una distribucin de media = 0 y desviacin estndar = 1. Esta distribucin se estudia en la siguiente gua.
Unidad: Estadstica y Probabilidad
145
En la prctica, esto consiste en tomar los valores x de la variable X (que distribuye x de la variable Z (que distribuye N(0 ; 1) ). N( ; ) ) y transformarlos en valores z = Veamos un ejemplo de esta transformacin.
146
Supongamos que se tiene una mquina que rellena una botella de perfume con 10 ml siguiendo una distribucin N(10 ; 0,1). Se pide determinar la probabilidad que un frasco de perfume tenga un contenido menor a 10,15ml. Resolucin: a. b. c. d. La variable aleatoria es X = La cantidad de ml de llenado de un frasco de perfume La variable X distribuye N(10 ; 0,1) La probabilidad pedida es P ( X 10,15 ) Transformacin de la variable aleatoria X. Si X ~ N (10 ; 0,1 ) entonces Z ~ N (0 ; 1 ), donde
Z= X X 10 = 0,1
e.
La probabilidad de la buscada es
X 10 10,15 10 P ( X 10,15 ) = P = P ( Z 1,5 ) 0,1 0,1
f.
Segn el applet
P ( Z 1,5 ) = 0,932
En porcentaje sera: g.
93,2%
93,3%
- Segn el applet, la probabilidad de que un frasco tenga menos de 10,15 ml de perfume es del 93,2% - Segn la tabla del anexo 2, la probabilidad de que un frasco tenga menos de 10,15 ml de perfume es del 93,3%
147
1.2. A continuacin te presentamos tres ejercicios. Los dos primeros son los mismos de la gua anterior (en la parte 3.2) y el tercero es nuevo. En esta ocasin, te ayudaremos a seguir el procedimiento del ejemplo anterior para responder a las preguntas propuestas. 1. La talla media de 200 alumnos de un centro escolar es de 1,6m y su desviacin tpica 0,2m. Si las tallas siguen una distribucin normal. Cul es la probabilidad que un alumno elegido al azar pueda medir menos de 1,5m? a. La variable aleatoria es X= b. La variable X distribuye N( c. La probabilidad pedida es P ( X , )
d. Transformacin de la variable aleatoria X. Si X ~ N ( ; ) entonces Z ~ N (0 ; 1 ) , donde X X Z= = e. La probabilidad buscada es: x P ( X _____ ) = P f. Segn el applet
P ( Z ______ ) = ______
= P ( Z ______ )
148
2.
En una fbrica de tuberas se construyen ductos para desage. Si se sabe que el dimetro se distribuye normalmente con una media de 2,5m y una desviacin estndar de 0,25m, cul es la probabilidad que el dimetro de un ducto mida menos de 2,4 metros? Utiliza el mismo procedimiento esbozado en la pregunta 1 anterior para contestar.
149
3.
La resistencia a la rotura de cierto tipo de plstico se distribuye segn una distribucin normal. La media de la resistencia de rotura es de 1100 kilos y la desviacin estndar es de 75 kilos. Cul es la probabilidad de que el plstico resista hasta los 1500 kilos? Utiliza el mismo procedimiento esbozado en la pregunta anterior para contestar.
150
2.
2.2. Cualquier variable aleatoria X que tenga distribucin normal se puede llevar a una variable aleatoria Z que tenga distribucin normal N(0 ; 1) mediante la transformacin adecuada. Cul es la transformacin para la variable aleatoria X que distribuye N(5 ; 0,1) que la lleva a la variable aleatoria Z que distribuye N(0 ; 1)?
151
ANEXO 2
Se suele llamar Z a la distribucin normal con media = 0 y desviacin estndar = 1 y se le conoce como la distribucin N(0 , 1). Las diferentes reas encerradas por esta curva y el eje de abscisas, desde 0 hasta 3,49 vienen dadas en la siguiente tabla de centsima en centsima. Por ejemplo, para obtener la probabilidad de un valor z < 1,26, la cifra entera y la dcima de z se buscan en la primera columna, y la centsima en la primera fila. Entonces el valor de P ( Z < 1,26 ) se determina cruzando la fila del 1,2 con la columna del 0,06 obtenindose 0,8962 como se muestra. Por lo tanto, desde la tabla se tiene que P ( Z < 1,26 ) = 0,8962 .
Sugerencia: Como se vio en el anexo 1 de la gua 16, la distribucin normal es simtrica con respecto a su media . Esta propiedad nos permitir calcular la probabilidad de un valor z menor que un valor negativo: P( z < a ) = 1 P ( z < a ) Por ejemplo, si queremos calcular P( z < 0,48) , debemos buscar P( z < 0,48) = 0,6844 , luego P( z < 0,48) = 1 P ( z < 0,48) = 0,3156
152
[2,30 2,35 [ [2,35 2,40 [ [2,40 2,45 [ [2,45 2,50 [ [2,50 2,55 [ [2,55 2,60 [ [2,60 2,65 ]
A partir de estos datos, consideremos la variable aleatoria X como el peso de los paquetes de azcar. Se calculan la media y la desviacin estndar, obteniendo una media de 2,497 y una desviacin estndar de 0,0725. Luego, se comparan las frecuencias reales con las frecuencias tericas, que se obtienen de la distribucin normal con la misma media y la misma desviacin tpica (o estndar), o sea, N ( 2,497 ; 0,0725 ) . La siguiente tabla muestra esta comparacin:
Unidad: Estadstica y Probabilidad
153
Frecuencias reales
4 16 34 45 49 38 14
Probabilidades
P ( 2,3 X < 2,35) = 0,0183 P ( 2,35 X < 2,4) = 0,0701 P ( 2,4 X < 2,45 ) = 0,1693 P ( 2,45 X < 2,5 ) = 0,2549 P ( 2,5 X < 2,55 ) = 0,2513 P( 2,55 X < 2,6 ) = 0,1549 P ( 2,6 X 2,65 ) = 0,0604
Frecuencias tericas
3,66 14,02 33,86 50,98 50,26 30,98 12,08
[2,30 2,35 [ [2,35 2,40 [ [2,40 2,45 [ [2,45 2,50 [ [2,50 2,55 [ [2,55 2,60 [ [2,60 2,65 ]
Considerar aceptables las diferencias entre las frecuencias reales y las frecuencias tericas si estas son menores a 0,01. Por lo tanto, es posible hacer predicciones probabilsticas razonablemente precisas respecto del peso de los paquetes de azcar. Cmo determinar la distribucin normal que se ajusta a una distribucin binomial Si se tiene una variable aleatoria que distribuye binomialmente, y se tiene un nmero grande de datos de ella, entonces es posible utilizar la distribucin normal para aproximar a la distribucin binomial. Una distribucin binomial de n expermientos con probabilidad de xito p tiene como media a = n p y como desviacin tpica (o estndar) a = n p ( 1 p ) . Cuando el valor de n p (1 p ) sea mayor o igual a 10, la aproximacin de la distribucin normal a la distribucin binomial ser bastante buena. En estos casos, diremos que una binomial B( n, p ) es 1 p ) , o sea, equivalente1 a una distribucin normal con = n p y = n p ( B (n, p ) ~ N np , n p ( 1 p) .
entonces, la distribucin binomial es equivalente a una distribucin normal que tenga igual media ( = n p ) y misma desviacin tpica ( = n p ( 1 p ) ) que ella.
1 En esta unidad, entenderemos por distribuciones equivalentes a aquellas cuyos valores difieren poco entre ellas.
154
Veamos un ejemplo Supongamos que el porcentaje de fracaso escolar en la PSU es del 40%. Calcula la probabilidad de que no se superen los 380 fracasos, para una poblacin de 1000 estudiantes o sea P ( X 380) , donde X = Nmero de fracasos escolares en la PSU distribuye binomialmente. Solucin Supongamos que la variable aleatoria X = "nmero de fracasos escolares en la PSU" sigue una distribucin binomial B (1000 ; 0,4 ) . Entonces, para calcular P ( X 380 ) tendramos que disponer de una tabla que tuviese las probabilidades de fracaso de n = 1000 estudiantes (te imaginas el tamao de dicha tabla?). Adems, en estas condiciones, habra que calcular P ( X 380 ) como la suma de 381 probabilidades: P (0), P (1), ..., P (379), P (380) , es decir P ( X 380 ) = P (0) + P (1) + ... + P (379) + P (380) a mano (o con calculadora). Un trabajo largo, tedioso y muy susceptible de incorporar errores. En estas condiciones, es preferible utilizar una distribucin normal que se asemeje mucho a la binomial del problema, pues se facilitan mucho los clculos. Los pasos a seguir entonces son: a. Identifiquemos los valores que necesitamos: i. n = 1000 . b. ii. p = 0,4 .
1 p ) 10 . Luego debemos comprobar que n p ( n p ( 1 p ) = 1000 0,4 ( 1 0,4 ) = 1000 0,4 (0,6 ) = 1000 0,24 = 240 10
Como el resultado es mayor a 10 entonces podemos utilizar una distribucin normal equivalente a B (1000 ; 0,4 ) cuya media ser = n p = 1000 0,4 = 400 y su desviacin estndar = n p( 1 p ) = 1000 0,4 ( 1 0,4 ) = 1000 0,4 0,6 = 240 15,49 . Por lo tanto, la distribucin normal equivalente a B (1000 ; 0,4 ) ser N ( ; ) = N ( 400 ;15,49 ) i. Para transformar la distribucin N ( 400 ;15,49 ) en una distribucin normal estndar se utiliza la variable aleatoria Z = X . Para calcular P ( X 380 ) utilizaremos esta transformacin y el applet Distribucin normal 03 o la tabla en el Anexo 2 de la gua 17:
ii. P ( X 380 ) = P ( X 380
)= P (Z
380400 15, 49
)= P ( Z 1,29 ) = 0,1056
Por lo tanto, slo el 10,56% de los 1000 estudiantes tendrn, tericamente, menos de 380 fracasos.
155
Aplicaciones
En base a los pasos descritos en la pgina anterior determina las siguientes probabilidades: 1. Siguiendo el mismo contexto del ejemplo anterior, determina e interpreta las siguientes probabilidades: i. P ( X 400 ) a. n = ____________ ,
p = ____________
No
= n p ( 1 p ) = ________________________________________________
d. Por lo tanto, en este caso, la distribucin normal equivalente a B (1000 ; 0,4 ) ser
N ( ; ) = N ( _______ ; ________ )
e. Transforma la distribucin normal obtenida en d. en una distribucin normal estndar y calcula la probabilidad:
P ( X 400 ) = P ( X 400
)= P (Z
400
a. n = ____________ ,
p = ____________
No
156
= n p ( 1 p ) = ________________________________________________
e. Transforma la distribucin normal obtenida en d. en una distribucin normal estndar y calcula la probabilidad:
P ( X 700 ) = P ( X 700
)= P (Z
700
)= P ( Z ______ ) = _______
f. Por lo tanto, . 2. Un proveedor de bolgrafos afirma que el 95% de ellos no tiene ningn defecto. Si t seleccionas 10 (n = 10) al azar y ves que slo 4 de ellos funcionan bien (p = 0,4). Calcula la probabilidad de que hayan 4 o menos bolgrafos que funcionen ( P ( X 4 ) ). Basndote en este resultado, di que opinas de la afirmacin del proveedor.
157
Figura 1.
En esta gua abordaremos la forma de determinar los valores de a y b del intervalo anterior, dados el tamao n de la muestra y el porcentaje de probabilidad que deseemos. O sea, construiremos un modelo terico del intervalo de confianza de la media de una poblacin. Los intervalos de confianza son entonces formas estadsticas de estimar por intervalos un parmetro de una poblacin con una determinada confianza. Su uso se explica en que si se toman distintas muestras de una poblacin entonces sus medias aritmticas diferirn, por lo que es mejor tener un rango en el que se encuentren las medias con una alta probabilidad. Los estadsticos han desarrollado muchas frmulas para determinar estos intervalos. En esta gua veremos el de la media cuando es conocida la desviacin estndar de la poblacin.
1 Entenderemos como mayor confianza a la mayor probabilidad de el intervalo estimado contenga a . 2 Para una confianza del 95% se toma = 0,05, pues 1 = 0,95 . Para una confianza del 99% = 0,01 y 1 = 0,99.
158
1.
Intervalo de confianza de la media En la gua 16, se mostr que las probabilidades (reas bajo la curva) correspondientes a los intervalos [ , + ] , [ 2 , + 2 ] y [ 3 , + 3 ] de cualquier distribucin normal, son siempre la misma en cada caso, es decir, la probabilidad de que un valor x est entre los extremos de cada intervalo es:
P(x [ , + ]) = P ( x + ) = 0.682 P( x [ 2 , + 2 ]) = P ( 2 x + 2 ) = 0.953 P( x [ 3 , + 3 ]) = P ( 3 x + 3 ) = 0.996
P(x [ , + ]) = P ( x + ) = 0.682
P(x [ 2 , + 2 ]) = P ( 2 x + 2 ) = 0.953
P( x [ 3 , + 3 ]) = P ( x + ) = 0.996
El objetivo del intervalo de confianza de la media, es obtener un rango de valores en el que se encuentre el valor correcto de la media de la poblacin (o sea ), con un porcentaje alto de confianza. En una distribucin normal, el 95% de los casos se encuentran a una distancia de a lo ms 2 de la media ( P ( 2 x + 2 ) = 0.953 ), como se muestra en la figura 3. Si es la media de una poblacin y su desviacin estndar, la media muestral X es una variable aleatoria que sigue una distribucin aproximadamente normal N ; n siendo n el tamao de la muestra, para valores suficientemente grandes. Por ello, en el 95% de las muestras x de X , el promedio x estar a una distancia a lo ms de n de la verdadera media en la poblacin, o sea:
159
P x 2
x +2
) = 0.953
Recprocamente, podemos deducir que el 95% de las muestras la media en la poblacin estar dentro del intervalo x 2 n . Este es el intervalo de confianza del 95%. Por tanto, si x es el valor obtenido como candidato para la media, a partir de una muestra de tamao n, y es el valor desconocido de la media en la poblacin entonces, usando los intervalos en que se encuentran en el 95% y 99% de casos en la distribucin normal, podemos afirmar: a. Si P x 2 entonces
x +2
n
n n
[x 2
n
, x+2
b. Si P x 3
x +3
n
n n
entonces x 3
, x +3
2.
Aplicaciones del Intervalo de confianza de la media 2.1. Veamos un ejemplo. Supongamos que una fbrica produce y vende paquetes de azcar de 1 kilo. Al realizar un control de calidad, se observa que el peso medio de 100 paquetes es de 1050 grs. Si se sabe que la desviacin estndar es de 80 grs., calcula el intervalo de confianza del peso medio real ( ) de los paquetes de azcar. Solucin: Los datos del enunciado son: x = 1050 , n = 100 y = 80 . Como no nos entregan porcentaje de confianza requerido, lo supondremos en un 95%. Con estos datos, el intervalo de confianza de en este caso ser:
[x 2
, x+2
]= [1050 2
80 100
, 1050 + 2
80 100
Por lo tanto, en un 95% (95 de cada 100) de las muestras que se tomen, el verdadero valor de estar incluido en el intervalo [1034 , 1066 ]. En relacin con el contexto, podemos afirmar con un 95% de confianza que el peso promedio de TODOS los paquetes de azcar estar entre 1034 y 1066 gramos. Si aumentamos el porcentaje de confianza al 99% tendremos:
160
[x 3
, x +3
]= [1050 3
80 100
, 1050 + 3
80 100
Se aument el porcentaje de confianza, pero al mismo tiempo se agrand el intervalo. 2.2. Supongamos que en una muestra de 1000 estudiantes, el tiempo que usan un reproductor de msica en formato MP3 por da es de 2,5 horas, con una desviacin estndar de 0,5 horas. a. Determina el intervalo de confianza del 95% para la media del tiempo que usan un reproductor de msica en formato MP3 por da de TODOS los estudiantes.
b.
Determina el intervalo de confianza del 99% para la media del tiempo que usan un reproductor de msica en formato MP3 por da de TODOS los estudiantes.
c.
Escribe en palabras y en relacin al contexto del problema la interpretacin de los resultados obtenidos en a. y b.
161
2.3. Supongamos que en una muestra de 500 botellas de aceite de cierta marca, el contenido promedio de ellas es de 1,0 litros, con una desviacin estndar de 0,1 litros. a. Determina el intervalo de confianza del 95% para la media del contenido de TODAS las botellas de aceite.
b.
Si ahora la muestra es de 1000 botellas, determina el intervalo de confianza del 95% para la media del contenido de TODAS las botellas de aceite y compralo con el resultado de a.
c.
Escribe en palabras y en relacin al contexto del problema la interpretacin de los resultados obtenidos en a. y b.
162
Cierre
1. Qu es y de qu parmetros depende un intervalo de confianza?
2.
Es correcto afirmar que TODOS los estudiantes dueos de un MP3 usan su reproductor 2,5 horas al da para escuchar msica? Justifica tu respuesta.
3.
Bajo las condiciones del enunciado del ejemplo 2.1, se mostr que al aumentar el porcentaje de confianza del 95% al 99% tambin aument la longitud del intervalo. En estas mismas condiciones, si se aumenta el tamao n de la muestra aumenta o disminuye la longitud del intervalo? Prueba con n = 1000, n = 10000 y n = 100000.
163