Você está na página 1de 14

Estadstica para

investigadores
Solucin Tareas P2P

Purificacin Galindo
Purificacin Vicente
Departamento de Estadstica
Universidad de Salamanca

Solucin tarea p2p Mdulo 2 y 4

Solucin tarea p2p Mdulo 2


Tomamos datos de la siguiente publicacin:

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido


de alquitrn y nicotina de los cigarrillos vienen acompaados por incrementos en el
monxido de carbono emitido al fumar.
Partimos de estos datos y nos planteamos el siguiente objetivo:

OBJETIVO: Hacer el estudio descriptivo de los datos y encontrar un modelo que nos
permita estimar la cantidad de MONOXIDO de CARBONO, a partir de las variables
Alquitrn, Nicotina y Peso del cigarrillo.

Solucin tarea p2p Mdulo 2 y 4

TAREAS
La primera tarea consistir en cubrir el primer objetivo. Hacer un estudio descriptivo de
las variables que intervienen en el estudio.
Tarea 1.- Comience por hacer un estudio descriptivo de los datos ayudado de las
siguientes salidas de ordenador

a.
Genere un breve informe estadstico (tmese el espacio que necesite pero sea breve), en el
que seale
1)
2)
3)
4)

el tamao muestral
cul es la variable con mayor variabilidad
cul de las medias es ms representativa de los datos
cul de las medias es ms estable.

b.
Analice los percentiles. Escriba un breve informe con los resultados ms relevantes entre
los que al menos debe estar la Mediana y el Recorrido Intercuartlico (debe calcularlo a partir de la
tabla) para todas y cada una de las variables. En el informe compare, adems, los resultados
obtenidos con la Media y su dispersin y la Mediana y su dispersin.

c.
Analice los Box Plot (diagramas de caja) que se adjuntan y saque las conclusiones ms
relevantes. Debe escribir, al menos, sobre la posible asimetra y la existencia, o no, de outliers.

Solucin tarea p2p Mdulo 2 y 4

SOLUCIN
Parte A)
1) Tamao Muestral: 25 (Se analizan 25 cigarrillos)
2) Cul es la Variable con mayor variabilidad?
De la tabla de Estadsticos descriptivos que nos proporcionan, podemos afirmar lo
siguiente:
Si se analiza la desviacin tpica: Alquitrn (5.88)

Solucin tarea p2p Mdulo 2 y 4

Teniendo en cuenta que las variables estn expresadas en distintas unidades, sera ms
apropiado trabajar con los Coeficientes de Variacin (CV)

CVAlquitrn= 49.67%
CVNicotina= 40.43%
CVPeso=
9.04%
CVMonoxido= 37.83%

El resultado es anlogo, por tanto: Variable con mayor variabilidad: ALQUITRN

3) Cul de las medias es la ms representativa de los datos?


Para saber cul es la ms representativa debo evaluar de nuevo la dispersin. Aquella con
menor dispersin es la ms representativa. Por tanto, la variable cuya media es ms
representativa es la variable Peso.

4) Cul de las medias es la ms estable?


La media ms estable es la que tenga un error estndar(ES) (o error tpico) ms pequeo
ya que el ES sirve para evaluar la variabilidad de la media en el muestreo.
Por tanto, sin ms que mirar la tabla de Estadsticos descriptivos, podemos afirmar que la
variable ms estable es el Peso del cigarrillo (ES=0.017).

Parte B
Mediana y el Recorrido Intercuartlico (RI) para cada una de las variables
Mediana
RI

Monoxido:

Mediana
RI

Nicotina:

Mediana
RI

Peso:

P50= 13.00

= P75-P25 = 15.65-9.75=5.90

Alquitrn:

Alquitrn:

Mediana
RI

Monxido:

P50= 12.40

= P75-P25 = 15.15-7.90=7.25

Nicotina:

P50= 0.90

= P75-P25 = 1.03-0.68=0.35
Peso:

P50= 0.96

= P75-P25 = 1.02-0.92=0.10

Solucin tarea p2p Mdulo 2 y 4

Los valores se han aproximado a dos cifras decimales

Si comparamos los resultados obtenidos con la Media y el Coeficiente de Variacin (CV) y


la Mediana y el Recorrido Intercuartlico (RI), vemos que la Media ms representativa de
los datos es la Media del Peso ya que su CV es el ms bajo 9.04
Si comparamos las medianas y sus RI, la mediana ms representativa es tambin la
mediana del Peso ya que su RI es el menor (0.10)

PARTE C
Para todas las variables se detectan outliers, es decir valores discordantes con el patrn
general, ya que todas las cajas tienen puntos fuera de sus bigotes.
Todas las variables presentan distribucin ligeramente asimtrica, constatada porque la
lnea que representa el P50 (Mediana) no est exactamente en el centro de la caja y
adems los bigotes no tienen la misma longitud. Los bigotes ms similares son los de la
variable Nicotina.
La altura de las respectivas cajas pone de manifiesto, grficamente, lo que ya habamos
visto analticamente y es que el Recorrido Intercuartlico ms pequeo es el
correspondiente al peso.
Una visin rpida del grfico podra llevar a la interpretacin de que el RI de la Nicotina es
menor, pero fijndonos en la escala del grfico que es diferente en Peso y Nicotina, vemos
que la afirmacin anterior se verifica.

Solucin tarea p2p Mdulo 2 y 4

Solucin Tarea p2p Mdulo 4

Solucin tarea p2p Mdulo 2 y 4

Solucin tarea p2p Mdulo 4


Tomamos datos de la siguiente publicacin:

Estudios realizados con anterioridad ponen de manifiesto que incrementos en el contenido


de alquitrn y nicotina de los cigarrillos vienen acompaados por incrementos en el
monxido de carbono emitido al fumar.
Partimos de estos datos y nos planteamos el siguiente objetivo:

Solucin tarea p2p Mdulo 2 y 4

OBJETIVO: Encontrar un modelo que nos permita estimar la cantidad de MONOXIDO de


CARBONO, a partir de las variables Alquitrn, Nicotina y Peso del cigarrillo.
Tarea. La realizacin de esta tarea ir en un documento aparte que tendrs que subir en
el apartado "Fichero opcional" que se encuentra al final de la actividad p2p. Este
documento tendr 3 partes:
PARTE 1. Comience con una inspeccin grfica de las nubes de puntos. Genere un breve
informe (tmese el espacio que necesite, pero sea breve) sobre a) la relacin entre el
Monxido de Carbono y cada una de las variables explicativas, a partir de las
correspondientes nubes de puntos que se adjuntan. b) dganos, a partir de la inspeccin
visual de las nubes, cul de las variables parece ms relacionada con el Monxido y c) si
la relacin parece similar para los dos tipos de tabaco, Rubio y Negro.

Solucin tarea p2p Mdulo 2 y 4

Parte 2. Bsqueda de modelos que nos permitan estimar la cantidad de MONXIDO de


CARBONO, a partir de las variables Alquitrn, Nicotina y Peso del cigarrillo.
a. Realice un breve informe sobre los modelos y su representatividad, a la vista de
los resultados que se adjuntan: Interprete el coeficiente de determinacin R2 y el
coeficiente de regresin, en cada modelo y dganos cul le parece ms adecuado y
porqu.

Ilustracin 1. Nota: En el original de esta tarea haba una errata en los valores de los
coeficientes R2. Aqu ya aparecen corregidos. En cualquier caso esa errata no afectaba los
resultados.

Si en vez de tres modelos simples ajustsemos un solo modelo con las tres variables, fjese
lo que pasa.

b. Dganos brevemente qu ha cambiado con respecto a la situacin del apartado


anterior, a la vista de las nuevas significaciones, y a qu cree que se debe.

Solucin tarea p2p Mdulo 2 y 4

10

SOLUCIN
INFORME PARTE 1. Inspeccin grfica de las nubes de puntos.
a) Estudio de la relacin entre el Monxido de Carbono y cada una de las variables
explicativas, a partir de las correspondientes nubes de puntos que se adjuntan.
En el primer y segundo diagrama de dispersin observamos que hay una clara tendencia
lineal, por lo tanto puede pensarse que las dos variables implicadas (Monxido y Alquitrn
en el primer caso y Monxido y Nicotina en el segundo), estn relacionadas. Adems de
las grficas se deduce que la relacin, en ambos casos es directa; es decir, cuando el
Alquitrn aumenta, el Monxido aumenta y cuando la Nicotina aumenta, el Monxido
aumenta.
En el caso de Alquitrn y el Monxido, la nube de puntos (diagrama de dispersin) pone
de manifiesto que hay un dato (de tabaco rubio) que no sigue la tendencia general y que
puede modificar la pendiente de la recta. Obsrvese que el punto verde que aparece
claramente alejado del resto de los puntos de la nube, pero en la direccin de la recta, no
afecta a la pendiente.
En el tercer grfico (nube de puntos) observamos que no hay una relacin tan clara entre
las variables Monxido-Peso. No obstante la decisin de si Monxido y Peso tiene una
relacin significativa estadsticamente, la tomaremos despus de estudiar el modelo, su
correspondiente coeficiente de determinacin R2 y el p-valor, cosa que haremos en los
apartados siguientes

b) Cul de las variables parece ms relacionada con el monxido?


Alquitrn y Nicotina parecen tener, desde el anlisis de los grficos, una relacin muy
similar con Monxido; no obstante se espera un valor ligeramente ms alto entre Monxido
y Nicotina dado que en el Alquitrn aparece un dato discordante que va a modificar la
pendiente y har bajar el ajuste (como puede comprobarse en el apartado 2). Sin duda, la
menos relacionada con el Monxido es el Peso.

c) La relacin parece similar para los dos tipos de tabaco, Rubio y Negro?
La tendencia es similar para tabaco rubio y para tabaco negro, aunque en el tabaco
negro, los valores son ms altos, tanto para el Monxido como para el Alquitrn, la
Nicotina y el Peso.

Solucin tarea p2p Mdulo 2 y 4

11

INFORME PARTE 2.
a) Breve informe sobre los modelos y su representatividad.
La relacin entre el Monxido y las tres variables (Alquitrn, Nicotina y Peso) es
estadsticamente significativa ya que el p-valor es <0.05 en todos los casos.
a.1 Breve informe sobre los modelos
La relacin es directa en todos los casos ya que los coeficientes de regresin de los tres
modelos son positivos: 0.73 para el Alquitrn, 12.40 para la Nicotina y 25.06 para el Peso.
Teniendo en cuenta que el coeficiente de regresin indica lo que cabe esperar que cambie
la variable respuesta (en media) por incremento unitario en la variable independiente,
podemos afirmar que: El incremento medio esperado, ms alto, en el Monxido (por
incremento unitario en las respectivas variables) es debido al Peso (coeficiente de
regresin= 25.06), el siguiente incremento es debido la Nicotina (coeficiente de regresin=
12.40) y el ms pequeo es el debido al Alquitrn (coeficiente de regresin= 0.73)

a.2 Bondad de ajuste


El coeficiente de determinacin evala la bondad de ajuste del modelo, ese valor est
acotado entre 0 y 1. Cuanto ms se aproxime a 1 mayor bondad de ajuste del modelo y
mayor poder explicativo.
De entre todos los modelos, el de mejor ajuste es el que relaciona Monxido y Nicotina ya
que es el que tiene un coeficiente de determinacin ms alto (R2= 0.86). El siguiente
modelo con mejor ajuste es el que relaciona Monxido y Alquitrn ya que es el que tiene
el siguiente coeficiente de determinacin ms alto (R2= 0.82).
El modelo con peor ajuste es el que relaciona Monxido y Peso (R2= 0.22).

INFORME PARTE 3.
a) Dganos brevemente qu ha cambiado con respecto a la situacin del apartado
anterior, a la vista de las nuevas significaciones
Los resultados aparentemente son contradictorios con los del apartado anterior, ya que en
los modelos bivariantes, en los que se relacionaba el Monxido con cada una de las
variables explicativas, se prob que exista relacin significativa (p<0.05) en todos los
casos, incluso con el Peso que, de la inspeccin visual de la nube de puntos, pareca que
no.
En este anlisis, slo aparece como significativa la relacin entre Monxido y Nicotina y las
dems parecen como no significativas. En realidad lo que traducen estos resultados es que
una vez considerado el aporte de la variable Alquitrn, los aportes de las otras dos, no
son significativos.

Solucin tarea p2p Mdulo 2 y 4

12

b) A qu cree que se debe.


Este fenmeno es muy frecuente que ocurra cuando las variables explicativas estn
fuertemente relacionadas. Se conoce con el nombre de colinealidad. La discrepancia entre
los resultados se debe a que Alquitrn, Nicotina y Peso estn muy relacionadas.
El diagnstico de la colinealidad y sus implicaciones en el Anlisis de Datos, se tratarn en
el curso siguiente, de nivel intermedio.

Solucin tarea p2p Mdulo 2 y 4

13

Solucin tarea p2p Mdulo 2 y 4

14

Você também pode gostar