Você está na página 1de 32

1

ANALISIS DE DATOS
Gonzalo Durn Pacheco
Universidad Mayor de San Simn
Cochabamba Bolivia
Octubre Noviembre 2008
Objetivo
Presentar una seleccin de tcnicas de anlisis
estadstico para el anlisis de variables
cuantitativas y categricas aplicables a estudios
de investigacin.
Aprender los supuestos y condiciones de
aplicacin de los mtodos presentados.
Introducir al manejo de un programa de anlisis de
datos (SAS).
2
Contenido
I. Introduccin al anlisis de datos/
principios de inferencia estadstica
II. Anlisis de variables cuantitativas
1. Anlisis Exploratorio
2. Correlacin y regresin
3. Regresin mltiple
4. Anlisis de componentes principales
Contenidocont
III. Anlisis de variables categricas
1. Anlisis Exploratorio
2. Anlisis de tablas de contingencia
3. Anlisis de correspondencias binarias
4. Anlisis de correspondencias mltiples
IV. Anlisis de agrupamiento (clusters)
3
I. Introduccin al anlisis de
datos y principios de inferencia
estadstica
Introduccin al anlisis de datos y principios de
inferencia estadstica
-3
-2
-1
0
1
2
3
-4 -3 -2 -1 0 1 2 3 4
CP1
C
P
2
Setosa Versicolor Virginica
Ciencia Ciencia Ciencia Ciencia
Colecci Colecci Colecci Colecci n de n de n de n de
evidencia evidencia evidencia evidencia
(datos) (datos) (datos) (datos)
Planteo de: Planteo de: Planteo de: Planteo de:
-Hip Hip Hip Hip tesis, tesis, tesis, tesis,
- -- - Preguntas Preguntas Preguntas Preguntas
- Objetivos Objetivos Objetivos Objetivos
4
Introduccin al anlisis de datos y principios de
inferencia estadstica
OBJETIVOS
Diseo Metodolgico:
-Diseo experimental
-Diseo muestral
-Definicin de Variables
Anlisis de datos
-Tipo de anlisis
-Exploracin
-Inferencia, etc.
Ejecucin
del estudio
-Colecta de
datos
Anlisis e
interpretacin
de resultados
Conclusiones
Introduccin al anlisis de datos y principios de
inferencia estadstica
Variables y datos.
Una variable es un atributo o caracterstica medida (u
observada) en un organismo, individuo o cualquier
entidad sujeto de estudio.
La caracterstica esencial, de una variable es la capacidad
de variar; es decir, una variable puede asumir
diferentes valores
A partir de ahora se denotarn las variables con las ltimas
letras del alfabeto X, Y, Z.
5
Introduccin al anlisis de datos y principios de
inferencia estadstica
Tipos de Variables:
Variables
cuantitativas
(alturas, edades, pesos,
ingresos, volmenes,
etc.)
Variables
Categricas
(colores, gneros, estado
socioeconmico,
formas, etc.)
Variables
cuantitativas
Sus valores, varan en
cantidad
Variables
Categricas
Sus valores varan en
calidad
Introduccin al anlisis de datos y principios de
inferencia estadstica
Ejemplos de variables cuantitativas
Concentracin ambiental de NO2 (g/m3)
Ingresos ($US/ao)
Superficies (Ha).
Peso de la gnada de un pez (gr) e ndice gonado-somtico
(%)
Nmero de individuos de una especie de planta/animal (por
m2)
Nros de Unidades formadoras de colonias (UFC)
Tiempo de incubacin antes de .
6
Introduccin al anlisis de datos y principios de
inferencia estadstica
Ejemplos de variables categricas
Resultado de una prueba de elisa (+, -, indeterminado).
Nivel de educacin alcanzado (ninguna, primaria,
secundaria, tcnico, universitaria).
Estadio de maduracin del pez (Inmaduro, en
maduracin, Maduro)
Familias de mariposas encontrados (Bibionidae,
Empididae, Eulophidae,).
Preferencia por un producto (si, no).
Coloracin de la flor (amarilla, violeta, .,)
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Estimacin de Parmetros
Parmetro de inters
n

Poblacin objetivo de
estudio de tamao N o
Muestra o subconjunto de
la poblacin de tamao n

Estimador
7
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Asuma una variable
cuantitativa cualquiera
cuyo parmetro es el
promedio poblacional .
Asuma otra variable
categrica cualquiera
cuyo parmetro el la
proporcin poblacional

=
=
+ + +
=
N
i
i
N
y
N N
y y y
1
2 1
1 ...



N
N
c
=
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Los parmetros de inters se denotarn con letras del
alfabeto griego (,,, etc).
Definicin de Parmetro: Un parmetro es una funcin
definida sobre los valores numricos de caractersticas
medibles de una poblacin.
El valor numrico del parmetro es constante en una
poblacin .
8
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
El objetivo de un estudio de muestreo es realizar
inferencias (estimaciones, pruebas de hiptesis) sobre
parmetros de una poblacin a partir de datos
obtenidos de una muestra.
Se colecta informacin sobre el parmetro de inters.

y
6
y
4
y
1
y
3
y
2
y
9
y
11
y
10
y
n
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Se denotarn a los estimadores con el smbolo del
parmetro y un sombrero ( ).
Definicin de estimador: Un estimador es una
funcin de los valores numricos observables en la
muestra (o de constantes conocidas).
El valor numrico de un estimador no es constante,
este vara de una muestra a otra, segn las
observaciones que fueron incluidas

9
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Asuma que se extrae un nmero indeterminado de
muestras de la poblacin bajo estudio.
_
y

2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
n
y s
2
Como lidiar con
la Incertidumbre
Distribuciones de
Probabilidad

s
2

2
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Ejemplo de distribucin de frecuencias: variable altura.
95%
2.5%
2.5%
10
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Distribucin de frecuencias de las medias muestrales
(Distribucin muestral de la media)
_
y
95% de
seguridad que
est dentro el
intervalo
95%

Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Distribucin Normal:
Y ~ N( ,
2
)
Distribucin Binomial
Y ~ Bin(n, )
2
2
1
2
2
1
) (
(

Y
e y f
( )
y n y
y
n
y Y P

|
|

\
|
= = 1 ) (


11
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Distribuciones muestrales comunes.
Si Y ~ N(,
2
)
) , ( ~
2
_
n N Y
n
Y
Z
2
_


=
) 1 , 0 ( ~ N Z
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Distribucin de Chi-cuadrado
Z~N(0,1)
Si X = Z
2
X ~
2
X = Z
1
2
++Z
q
2
X ~
q
2
Distribucin t de student
q X
Z
T =
q
t T ~
X
T
12
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Distribucin de Fisher-Snedecor
Si X
1
~
q1
2
y X
2
~
q2
2
2 , 1
~
q q
F F
2
2
1
1
q
X
q
X
F =
F
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Otros elementos y propiedades de un estimador derivadas a
partir de las caractersticas de su distribucin de
probabilidades: E(Y), V(Y) Esperanza y Varianza
matemtica.
E(Y)
V(Y)
13
No sesgo: El valor esperado del estimador es exactamente
el parmetro de inters
Eficiencia: La varianza del estimador debe ser pequea
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
= )

( E
)

( V
Pequea
_
y
Med


) ( ) ( Med V y V <
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
La Precisin o grado de error con que se estima un
parmetro se mide a travs del Error Estndar.
Para la media muestral Y ~ N(,
2
)
Para una proporcin muestral Y ~ Bin(n,)
n
V ee
) 1 (
) ( ) (



= =
)

( )

( V ee =
n
y V y ee
2
) ( ) (

= =
14
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
En resumen:
Para hacer estimar un parmetro se requiere:
i. Un estimador (no sesgado)
ii. Conocer la forma de la distribucin del estimador
iii. Una medida de precisin del estimador:

( )

( V ee =

Introduccin al anlisis de datos y principios de


inferencia estadstica: Estimacin
Ejemplo:
Para una variable cuantitativa Y cuyo parmetro de
inters es (asumiendo que Y ~ N(,
2
)):
i. El estimador:
ii. Distribucin de
iii. Precisin del estimador:
_
y =
n
y ee
2
_
) (

=
|
|

\
|
n
N y
2
_
, ~

=
=
N
i
i
y
N
1
2 2
) (
1

15
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Ejemplo:
Suponga se tiene la altura (Y) de 6 personas y se desea
estimar la altura media del grupo al que representan.
Asumiendo que Y ~ N(,
2
):
m y
n
y
n
i
i
68 . 1
6
1.85 1.74 1.66 1.56 1.83 1.45 1
1
_
=
+ + + + +
= =

=
|
|

\
|
n
N y
2
_
, ~

( ) ( )
2
1
2 2
2 2 2
0245 . 0
1 6
1.68 - 1.85 ... 1.68 - 1.45
) (
1
1
m y y
n
s
n
i
i
=

+ +
=

= =

n
y ee
2
_
) (

=
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Ejemplo:
El peso promedio de la poblacin en estudio es de 1.68m
estimacin que se hace con un error de 0.0639m (6.4cm),
el que representa aprox. un 7.6% de error de estimacin.
m y ee 06395 . 0
6
0245 . 0
) (
_
= =
% 6 . 7 100 *
) ( * 2
) (
_
_
_
= =
y
y ee
y er
16
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Estimacin por intervalos
Obtener un intervalo de valores : del que se tenga
una seguridad dada (ej 95%) de que este incluya al
parmetro
95% de seguridad
que est dentro el
intervalo
( ) )

( *

,

2 /

ee z
S I
=
)

(
S I

95%

95 . 0 )

( =
S I
P
( ) )

( *

,

1
ee t
n S I
=
Introduccin al anlisis de datos y principios de
inferencia estadstica: Estimacin
Ejemplo:
Se espera con un 95% de confianza que el peso promedio de la
poblacin en estudio se encuentre dentro el intervalo
(1.52, 1.85)m
95%

52 . 1 06395 . 0 * 75 . 2 68 . 1 = =
I

85 . 1 06395 . 0 * 75 . 2 68 . 1 = + =
S

1.85 1.52
17
Introduccin al anlisis de datos y principios de
inferencia estadstica: Prueba de hiptesis
Pruebas de hiptesis
A travs de una muestra plantear y probar hiptesis sobre
los parmetros de la poblacin
Ej:
H
0
: El volumen de plasma sanguineo de la
poblacin rural es de 3.0 litros
H
0
: = 3.0

n

0 0
: = H
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Pasos para realizar pruebas de hiptesis
1. Planteamiento de la Hiptesis Nula H
0
2. Planteamiento de la Hiptesis alternativa H
1
3. Determinacin del nivel de significancia (0.05;
0.01).
4. Determinacin del Estadstico de Prueba y su
distribucin
5. Regin de rechazo
6. Conclusin.
18
H
0
: =
0
H
1
:
0;
<
0;
>
0
= 0.05
Estadstico de Prueba:
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Prueba de conformidad de una media
1
0

=
n
s
Y
T

t
/2;n-1
n
Y
z

=
z
/2
Si n < 30
Si n 30
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Regin de rechazo
(H
1
:
0
)
Si P_value <
Si z >1.96 z <-1.96
Si T > t
/2,n-1

T < - t
/2,n-1
Altura Pob. 1
140
120
100
80
60
40
20
0
/2 /2
1-
19
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Regin de rechazo
(H
1
: >
0
)
Si P_value <
Si z > 1.6449
Si T > t
,n-1
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Regin de rechazo
(H
1
: <
0
)
Si P_value <
Si z < -1.6449
Si T < - t
,n-1
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
20
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Ej:
Una mquina automtica fabrica comprimidos de un peso
promedio de 500 mg, y un desvo estndar de 11.8 mg. A
fin de verificar si la mquina no se descalibra se toman
regularmente muestras de 40 comprimidos y se controla
el peso promedio.
Durante uno de esos controles se encuentra una media
del peso se 503 mg. y un desvo estndar constante.
Se puede concluir que la mquina est descalibrada?
H
0
: = 500
H
1
:
0
= 0.05
Prueba estadstica:
Regin de Rechazo: Se rechaza H
0
si z > 1.96 z < -1.96
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
n
Y
z

= z
/2
21
Se concluye con un 95 % de confianza que la mquina
no est descalibrada (no existen diferencias
significativas entre la muestra y 500 mg
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
61 . 1
40
8 . 11
500 503
=

= z
1.61 < 1.96, Por lo
que no se rechaza H
0
(P_value = 0.0537)
H
0
: =
0
H
1
:
0;
<
0;
>
0
= 0.05
Prueba estadstica:
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Prueba de conformidad de una proporcin
n
p p
p
z
) 1 (
0

=

z
/2
22
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Regin de rechazo
(H
1
:
0
)
Si P_value <
Si z >1.96 z <-1.96
/2 /2
Altura Pob. 1
140
120
100
80
60
40
20
0
1-
/2
/2
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Regin de rechazo
(H
1
: >
0
)
Si P_value <
Si z > 1.6449
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
23
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Regin de rechazo
(H
1
: <
0
)
Si P_value <
Si z < -1.6449
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Ej:
El fabricante de un medicamento afirma que este es eficaz
en un 90 % en curar una alergia en 8 horas.
En una muestra de 200 personas que sufren de esta
alergia 160 fueron curados por el medicamento.
Se puede decir con un riesgo del 5 % que la afirmacin
del fabricante es legtima?
24
H
0
: = 0.900
H
1
: < 0.900
= 0.05
Prueba estadstica:
Regin de Rechazo: Se rechaza H
0
si z < -1.6449
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
n p p
p
z
/ ) 1 (
0

=

z
/2
Se concluye con un 95 % de confianza que la afirmacin
del fabricante no es legtima (existen diferencias
significativas entre 0.80 y 0.90
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
714 , 4
200 / ) 10 . 0 * 90 . 0 (
90 . 0 80 . 0
=

= z
-4,714 < -1.6449
Por lo que se rechaza H
0
(P_value = 0.000...)
25
Ej: Con el fin de probar un medicamento, se lleva a cabo
un ensayo clnico .
Dos grupos de 40 sujetos se conforman de forma
aleatoria.
Cada uno de los individuos del grupo 1 recibe el
medicamento,
Cada sujeto del grupo 2 recibe un placebo. A
Al final 15 individuos del grupo 1 adquieren la gripe,
mientras que 9 individuos del grupo 2.
p
1
=15/40 p
2
=9/40
Se puede concluir con un riesgo del 5 % que el
medicamento aumenta la susceptibilidad al contagio?
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
H
0
:
1
=
2
H
1
:
1
>
2
= 0.05
Prueba estadstica:
Prueba de comparacin de dos proporciones
2
2 2
1
1 1
2 1
) 1 ( ) 1 (
n
p p
n
p p
p p
z

=
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
N(0,1)
26
Regin de rechazo
(H
1
:
1
>
2
)
Si P_value <
Si z > 1.6449
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Prueba de comparacin de dos proporciones
Prueba estadstica:
Z = 1.48 < 1.96 por lo que no se rechaza H
0
Conclusin: Con un 95 % de seguridad se concluye que el
medicamento no aumenta la susceptibilidad a contraer el
contagio.
48 . 1
40
) 225 . 0 1 ( 225 . 0
40
) 375 . 0 1 ( 375 . 0
225 . 0 375 . 0
=

= z
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Prueba de comparacin de dos proporciones
27
H
0
:
1
=
2
H
1
:
1

2;

1
<
2;

1
>
2
= 0.05
Prueba estadstica:
2
2
1
2
2 1
n
s
n
s
y y
z
+

=
N(0,1)
Comparacin de dos Medias
Cuando n1+ n2 100
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Prueba estadstica:
2 1
2 1
1 1
n n
s
y y
T
p
+

= t
;n1+ n2-2
Cuando n1+ n2 < 100
2
) 1 ( ) 1 (
2 1
2
2 2
2
1 1
+
+
=
n n
s n s n
s
p
Comparacin de dos Medias
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
28
Regin de rechazo
(H
1
:
1

2
)
Si P_value <
Si z >1.96 z <-1.96
Si T > t
/2,n1+n2 - 2

T < - t
/2,n1+n2 - 2
Altura Pob. 1
140
120
100
80
60
40
20
0
/2
/2
1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
Regin de rechazo
(H
1
:
1
>
2
)
Si P_value <
Si z > 1.6449
Si T > t
,n1+n2 - 2
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
29
Regin de rechazo
(H
1
:
1
<
2
)
Si P_value <
Si z < -1.6449
Si T < - t
,n1+ n2 - 2
Altura Pob. 1
140
120
100
80
60
40
20
0

1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
Ej. Se desea determinar si el hbito de fumar de las
madres tiene un efecto sobre el peso al nacer de sus
nios. Para este efecto se obtienen pesos de recin
nacidos de 15 madres no fumadoras y 14 pesos de
madres altamente fumadoras. Los resultados se observan
en la tabla siguiente.
Tendr un efecto el hbito de fumar sobre el peso de los
recin nacidos?
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
30
3.99 3.83 3.18 2.76
3.79 3.31 2.84 3.60
3.60 4.13 2.90 3.75
3.73 3.26 3.27 3.59
3.21 3.54 3.85 3.63
3.60 3.51 3.52 2.38
4.08 2.71 3.23 2.34
3.61
media 3.5933 3.2029
desvio est. 0.3707 0.4927
n 15 14
Altamente Fumadoras No Fumadoras
Peso al Nacer (kg)
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
H
0
:
1
=
2
H
1
:
1

2;
= 0.05
Prueba estadstica:
2 1
2 1
1 1
n n
s
y y
T
p
+

= t
;n1+ n2-2
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
31
Prueba estadstica:
42 . 2
14
1
15
1
4337 . 0
2029 . 3 5933 . 3
=
+

= T
t
0.05;27
4337 . 0
2 14 15
) 4927 . 0 ( 13 ) 3707 . 0 ( 14
2 2
=
+
+
=
p
s
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
Regin de rechazo
(H
1
:
1

2
)
Si P_value < 0.05
Si T > t
/2,27
T
< - t
/2,27
Altura Pob. 1
140
120
100
80
60
40
20
0
/2
/2
1-
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Comparacin de dos Medias
32
T = 2.42 > t
/2,27
= 2.05 Por lo tanto se rechaza H
0
Conclusin: Con un 95 % de confianza se concluye
que el peso de recin nacidos de mujeres no
fumadoras difiere de aquel de recin nacidos de
mujeres altamente fumadoras. De acuerdo a lo
observado, los nacidos de no fumadoras nacen con
mayor peso que los nacidos de mujeres altamente
fumadoras.
Comparacin de dos Medias
Introduccin al anlisis de datos y principios de
inferencia estadstica: Pruebas de hiptesis
Introduccin al anlisis de datos y principios de
inferencia estadstica
Supuestos y condiciones de aplicacin.
Se asume que los datos observados y
1
,y
2
,,y
n
son
una muestra aleatoria, son independientes e
identicamente distribuidos segn una distribucin
de probabilidad P(): Y ~ iid P()
Las distribuciones muestrales son aproximaciones
basadas en el supuesto de extraccin de mltiples
muestras

Você também pode gostar