Escolar Documentos
Profissional Documentos
Cultura Documentos
INTEGRANTES:
Carolina Ramrez Gaviria
CC. 1152462421
CC. 1018376321
UNIVERSIDAD DE MEDELLN
FACULTAD DE INGENIERA
INGENIERA AMBIENTAL
MEDELLN 2015-2
Objetivos:
1. Identificar tipos de variables aleatorias y su tratamiento estadstico.
2. Analizar descriptivamente la base de datos entregada.
3. Afianzar el uso del software estadstico R.
Adjunto a este archivo, encontrar una base de datos asociada a 5 marcas
diferentes de bebidas energticas. Seleccione 2 marcas de las 5 y desarrolle cada
uno de los siguientes puntos:
1
2
3
4
5
6
cuenta slo las dos marcas seleccionadas). De igual manera se calculan los
estadsticos considerando los conjuntos de datos de cada marca por separado.
Mediana
Denotada por es el valor que tiene la propiedad de dejar a su izquierda el 50%
de las observaciones y a su derecha el 50% restante, siempre y cuando los datos
sean ordenados. Tiene como propiedad que no es tan sensible a los datos
atpicos.
Si la cantidad de datos es impar, la mediana se obtiene de manera fcil, pero
cuando los datos son pares, sta se determina como
=
+
2
Donde y son los dos valores centrales. Para datos agrupados, el intervalo
mediano o que contiene la mediana con frecuencia , es el primer intervalo cuya
frecuencia absoluta acumulada es igual o mayor que 2
1
(+1 )
= + 2
Para las dems medidas de tendencia central (medias), conviene conocer lo que
es la media generalizada (tambin conocida como Medias de Hlder) las cuales se
agrupan como
1
() = ( )
=1
1
=
=1
12
22
1
2
]=[ 1
1
1
= [ ] =
Recorrido o rango
Denotada por es una medida de dispersin global definida como la diferencia
entre el mayor y el menor valor
=
Es una medida bastante susceptible a los datos atpicos. Si el recorrido es
pequeo entonces los datos estn poco dispersos.
Cuasivarianza
Tambin conocida como varianza insesgada o varianza corregida, se define como
2 =
=1( )2 (=1 2 ) 2
=
1
1
=
=
1
1
1
(+1 )
Como casos particulares de los cuantiles estn los cuartiles (cuartiles de orden
0.25, 0.5, 0.75), los deciles (cuartiles de orden 01 0.9) y los percentiles (cuartiles
de orden 0.01, 0.02, 0.03 0.99)
A continuacin se muestran los cuartiles y deciles para la base de datos truncada,
as como para marca de manera independiente. Cabe resaltar que 2 = 5 y este
valor corresponde a la mediana.
Coeficiente de asimetra
Para distribuciones unimodales, se suele establecer el coeficiente de simetra de
Pearson, el cual se define como
=
Si = 0 la distribucin es simtrica
Si < 0 la distribucin es asimtrica por la izquierda
Si > 0 la distribucin es asimtrica por la derecha
3 =1( )3
=
3
3
Si 1 = 0 la distribucin es simtrica
Si 1 < 0 la distribucin es asimtrica por la izquierda
Si 1 > 0 la distribucin es asimtrica por la derecha
4
Se conoce a 4 como el cuarto momento estadstico respecto a la media. Como el
apuntamiento de la distribucin Normal es 3, se toma ste como valor de
referencia. Aqu los casos que se presentan son
Si 2 = 0 distribucin mesocrtica
Si 2 < 0 distribucin platicrtica
Si 2 > 0 distribucin leptocrtica
+ +1
2
=
2
2
Algo que se nota desde el diagrama de barras, es que la mayora de las bebidas
expiran en un perodo de tiempo mayor a 5 meses, y en los dems, el tiempo
faltante antes de vencer se distribuye casi equitativamente para los dems
perodos de meses. Segn el diagrama de cajas y bigotes no se presentan datos
atpicos, y la media, al igual que el rango intercuartlico es el mismo para cada
marca, al igual que para la base de datos truncada.
-1.218
-1.161
-1.257
-0-037
-0.03
0.03
Efectivamente, estos valores son muy cercanos a 0, lo que indica que el precio
presenta cierta simetra. De hecho las dos primeras (la base de datos truncada y
la marca A) presentan asimetra por la izquierda, y la marca B, por la derecha.
Curtosis de la BD
Curtosis de la marca A (2)
Curtosis de la marca B (5)
-0.826
-1.236
-1.174
Para este caso, los valores obtenidos del coeficiente de asimetra para la variable
Cafena son los siguientes.
Asimetra de la BD
Asimetra de la marca A (2)
Asimetra de la marca B (5)
0.0027
0.073
-0.046
Esto muestra que las distribuciones tienden a presentar cierta simetra cuando se
comparan con una curva normal. Solo la marca B presenta cierta asimetra por la
izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la
marca A) presentan asimetra por la derecha.
Curtosis de la BD
Curtosis de la marca A (2)
Curtosis de la marca B (5)
-1.122
-1.247
-1.275
0.412
-0.036
0.058
Esto muestra que las distribuciones tienden a presentar cierta simetra cuando se
comparan con una curva normal. Solo la marca B presenta cierta asimetra por la
izquierda, las otras dos distribuciones (la de la base de datos truncada y la de la
marca A) presentan asimetra por la derecha.
17. Redacte las conclusiones que puede tomar a partir del anlisis general
de las dos marcas de bebidas energizantes que ha estudiado. Para
qu le puede servir esta informacin?
Realizando un anlisis general de ambas marcas, la marca A (2) es mucho ms
econmica que la marca B (5), posiblemente debido a una menor cantidad de
taurina y poco control sobre la cafena. En ambas muestras se presenta una cierta
simetra respecto a una curva normal, algo que es importante cuando se habla de
control de calidad de un producto (ya que se habla de que una variable sea
consecuente a un valor esperado para cierto producto).
Este tipo de informacin y de anlisis ayuda a determinar aspectos importantes al
comparar productos por ejemplo. Si los valores son representativamente cercanos