Você está na página 1de 88

Análisis Exploratorio

de Datos
Clasificación/Tipo de Datos

• Cualitativo (Categorías)
• Nominal  Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc.
• Ordinal  Pobre = 1; Aceptable = 2;
Bueno = 3; Excelente = 4

• Cuantitativo (Números)
• Intervalo  estatura, viscosidad, distancia, duración...etc
• Razón  temperatura, peso...etc

NOTA:
El tipo de Estadísticas que se pueden obtener o calcular
depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen
sentido con datos categóricos (si con proporciones)
Escalas de Medida

Clasificación : Nominal, Ordinal, Intervalos y


Razón
Variables : Discretas y Continuas
Categóricas, Cuantitativas

Organización :  Frecuencia absoluta


 Frecuencia relativa
A partir de nivel ordinal :
 Frecuencia absoluta acumulada
 Frecuencia relativa acumulada
Tipos de Variables

Tanto en la escala intervalar como en la de razón es posible distinguir dos


tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto de
puntos aislados (subconjunto de valores en IR)
Variables Continuas: una que puede tomar sus valores en un conjunto donde
todos sus elementos son puntos de acumulación (un intervalo en IR).
Siempre es posible tratar una variable continua como discreta mediante la
construcción de “intervalos de clase” representando cada uno de los
intervalos por su valor medio denominado “marca de clase”
Variables Categóricas o Cualitativas

Variables Cuantitativas
Organización/Presentación

Para estudiar las características de una variable se ordenan los


valores observados de la muestra en k clases denominadas c1, c2, .. ck.
Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de
individuos u observaciones que pertenece a dicha clase y se denota
por ni. Como las clases c1, c2, ..... ck una partición de la muestra, es
fácil verificar que

n = S ni  número total de observaciones o tamaño de la muestra


i=1
Organización/Presentación

Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la proporción
de individuos que pertenecen a la clase sobre el total de
individuos o tamaño de la muestra. Se de nota por fi. Se
puede verificar que
k
n
fi = ---i nótese que .... S fi = 1
n i=1
Presentación de Datos Cualitativos

• Reglas: Partición de la Población


• Cada observación debe pertenecer a una, y sólo
una clase o categoría.
• Todas las observaciones deben ser pertenecer a
una.

• Tablas  Tabligrama.
• Gráficos de Barras  Diagrama de Pareto.

• Gráficos Circulares o de Torta .


Ejemplo: Tablas

Clase Descripción Frecuencia


1 107

2 60

3 51

4 25

5 10

6 8
Escala Nominal

Usa números como una manera de separar los elementos de la


población en diferentes clases o categorías. El número asignado a la
observación sólo sirve como un nombre para distinguir la categoría a
la cual pertenece la observación.

• La variable induce una partición sobre la población la


información puede clasificarse en clases o categorías.
• Cada clase debe estar perfectamente definida y diferenciada
de las demás.
• La recopilación se reduce a contar el número de individuos
en la muestra que pertenece a cada clases:
Ejemplos : Clasificación de alumnos por
Cursos : primero (1), segundo (2),...., sexto (6) año;
Sexo : masculino (M), femenino (F);
Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.
Escala Nominal

120
107 Diagrama de Pareto
100

80
Frecuencia

60
60
51

40

25
20
10 8

0
1 2 3 4 5 6
Clase
Escala Nominal
5 6
4% 3%
4 Diagrama Circular
10%

1
40%

3
20%

2
23%
Escala Ordinal

Dónde existe un orden implícito entre las mediciones. El valor


numérico es usado sólo como una manera de arreglar los
elementos de acuerdo al orden establecido.
La variable admite grados de calidad:existe una relación de orden
total entre las clases.
No es posible cuantificar la diferencia entre los individuos
pertenecientes a las distintas clases.
Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D
(admisible), E (deficiente)
Escala Ordinal

9
Diagrama de Bloques
8

0
Pobre Regular Aceptable Bueno Muy Bueno
Escala Intervalar
Considera no sólo la información pertinente al orden, sino además,
el tamaño relativo de los intervalos a que pertenece cada uno de los
individuos. En este nivel es posible cuantificar la diferencia de todos
los individuos pertenecientes a los intervalos, clases o categorías
distintas.

Está involucrado en concepto de distancia, y la distancia entre dos


medias puede ser expresada en función de esta unidad.

Ejemplos: temperatura al interior de un silo, interés sólo clasificar en


intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje
promedio PAA, interesa clasificar en tramos de 25 puntos.
Escala Intervalar

• Tabligramas.

• Tablas de Frecuencia.

• Histogramas: valores discretos y continuos.


• Usar 5 a 20 clases (intervalos o grupos).
• (considerar anchos de clases, límites y marca de clase).
• (polígono de frecuencias – dibujar en marca de clase).

• Frecuencia Acumulada - Ojiva.


• (graficar en límite superior).
Ejemplo: Tabligrama

Ejemplo: 40 Datos
10 7 8 Diagrama de
11 1 2 3 7 9 Tallos-y-hojas
12 0 3 3 4 6 8
13 1 2 2 4 5 6 7 8
14 0 1 2 3 3 5 7 8 8
15 0 2 3 3 8 8
16 0 0 1 2
Tabla de Frecuencias

K := N° Clases  1 + 3.3 log n  7


R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55
A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8

Límites Marca Conteo Frecuencias


ABS - REL - REL. AC.
102,5-111,5 107 /// 3
111,5-120,5 116 //// 5
120,5-129,5 125 //// 5
129,5-138,5 134 //// /// 8
138,5-147,5 143 //// // 7
147,5-156,5 152 //// / 6
156,5-165,5 161 //// / 6
Histograma

0
107 116 125 134 143 152 161
Polígono de Frecuencias

0
99 107 116 125 134 143 152 161 170
Frecuencia Acumulada: Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
99 107 116 125 134 143 152 161 170
Escala de Razón

Esta escala se usa cuando no sólo el orden y tamaño del


intervalo son importantes.
La única diferencia entre la escala de razón y la intervalar es
que en la primera se puede definir un cero absoluto y en la
segunda no
Buscar ejemplos de Escala intervalar
Buscar ejemplos de Escala de razón
Tarea : Discuta la diferencia entre Precisión y Exactitud ,
Extraer Información desde la Muestra

• Mediciones de Tendencia Central


• Mediciones de Dispersión
• Coeficiente de Variación
Medidas de Tendencia Central

• Estas medidas tienden a ubicarse en el


centro del conjunto.
• Proporcionan un valor simple y
representativo, que resume un gran
volumen de información.

• Media Aritmética • Moda


• Media Geométrica • Mediana
• Media Armónica • Semi Rango
Medidas de Dispersión

• Miden la “dispersión” de valores


dentro del conjunto de datos
respecto de alguna medida de
tendencia central.

• Varianza • Rango
• Desviación Estándar • Rango Cuartílico
• Desviación Media • Rango Percentil
Medidas de Tendencia y Dispersión

0,5000
Mediana
Moda
0,4500
Media
0,4000 Aritmética
0,3500

0,3000

0,2500

0,2000

0,1500

0,1000 Q1 Q2 Q3 Q4
0,0500

0,0000
0 1 2 3 4 5 6 7

Rango
Tipo de Variable

Variables Categóricas: (Escala Nominal)


Moda (Medida del centro)
Tasa de Variación (Medida de Dispersión)

ni
fM  fi = i = 1, 2, 3, ..., k.
n
nM n - nM
V = 1 – fM = 1- =
n n
Ejemplo
En un estudio de mercado se considera una muestra de 1100 fumadores
averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla

Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273

fM = 0,282  Clase modal C


TV = 1 – 0,282 = 0,718  Tasa de variación
Tipo de Variable
Variables Categóricas: (Escala Nominal)
Moda (Mo) (Medida del centro)
Tasa de Variación (V) (Medida de Dispersión)

Variables Cualitativas: (Escala Ordinal)


Moda, Mediana (Me)
Tasa de Variación,
Indice de Dispersión (ID) , Cuartíles

Qi = Cj  j : min S fj > i/4 Cj : clase j

Mediana = C(Q2)

( rango C(Q3) – rango C(Q1))


D = rango clase es su N° de Orden
(K –1) K : N° total de clases
Ejemplo 2.4 :
Se tiene la impresión que el servicio prestado por una sucursal bancaria
no es buena; por lo tanto, la gerencia ordena un estudio al respecto.
Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio
recibido

1 2 3 4 5
Calificación P R S B E
Frec. Absoluta 20 10 18 16 6
Frec. Relativa 0,286 0,143 0,257 0,229 0,086
Frec Acumul 20 30 48 64 70
Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000

Q1 = 0,286 > 0,25  P fM = 0,286  CM = P


Q2 = 0,686 > 0,50  S Med =C(Q2)  CMed = S
Q3 = 0,914 > 0,75  B V = 1 - fM = 1 – 0,286 = 0,714

Q4 = E rC(Q3) – rC(Q1) 4–1


D = = = 0,75
(K-1) 5 –1
Variables Categóricas: (Escala Nominal)
Moda ( Medida del centro )
Tasa de Variación ( Medida de Dispersión )

Variables Cualitativas: (Escala Ordinal)


Moda, Mediana
Tasa de Variación, Índice de Dispersión

Variables Cuantitativas: (Escala Intervalar)


Moda, Mediana, Media, Media Truncada
Tasa de Variación, Índice de Dispersión, Varianza
Rango, Rango Inter-cuartílico (IQR), MEDA

 Medidas de homogeneidad
Señal de Ruido  = - log  S2 
  CV =
S
 X 2 X
Escala Intervalar

Existen dos maneras de realizar los cálculos


de las madidas características de datos de
escala inervalar, con ...

1. Datos Agrupados: cuando los datos


disponibles se presentan ya “trabajados” en
tablas de frecuencias y no se cuenta con los
datos originales.

2. Datos No agrupados: cuando los datos se


presentan como “materia” en bruto
Tendencia Central: Promedio
Datos Agrupados: Datos NO Agrupados:
k

X=  f *X n


i i
i =1 Xi
ni i =1
X=
n

ai

xi Xi+1
X : Media Aritmética
fi : Frec. relativa Clase i = ni
n Xi : i-ésimo valor observado
Xi : Marca Clase i
_ n : Tamaño Muestra
X : Media Aritmética
k : N° de clases
ni : Frec. absoluta Clase i
n : Tamaño Muestra
ai : Amplitud de Clase i
Tendencia Central: Moda
Datos Agrupados: Datos NO Agrupados:

 D 
M o = L + aM 
 D + D 
1
Es el valor que ocurre con
 1 2
 mayor frecuencia: el valor
D1 más común.
nM D
2
n1 • Puede que no exista
n2 moda.
aM • Puede que exista
más un valor Modal
L xM
L : Límite inferior Clase modal
aM : Amplitud Clase Modal
D1 : nM - n1
D2 : nM - n2
nM : Frec. absoluta Clase Modal V = Tasa de Variación = 1 – fM
n1 : Frec. absoluta Clase anterior a Clase Modal
n2 : Frec. absoluta Clase posterior a Clase Modal
Tendencia Central: Mediana
Datos Agrupados: Datos NO Agrupados:
n-
( N ) Si los datos se ordenan de
Me = L + a 2 e-1
e n orden ascendente de
e magnitud, entonces la
Ne-1= Sfi
i = e-1
Mediana está dada por:
ne
i=1

ae n+1
Me =
2
• Si n es impar , la Mediana
L xe es exactamente el valor
L : Límite inferior Clase del medio
Mediana (C Me) • Si n es par , la Mediana es el
Ne-1 : Frec. Acumulada hasta antes
promedio de los valores
centrales
(C Me)
ne : Frecuencia Absoluta (C Me)
ae : Amplitud (C Me)
n : Tamaño de la muestra
Dispersión: Varianza Muestral
Datos Agrupados: Datos NO Agrupados:
k _
S2 =  fi ( X i - X ) 2
n _
 ( X i - X )2
i =1 1
S2 =
ne n i =1

ni
ae nk

s2 : Variancia Muestral
xi-1 xi _
xk
x X : Media Aritmética
Xi : i-ésimo valor observado
fi : Frec. relativa Clase i
X
_i : Marca Clase i n : Tamaño Muestra
X : Media Aritmética
ni : Frec. absoluta Clase i
n : Tamaño Muestra
k : N° de clases
Dispersión: Desviación Media
Datos Agrupados: Datos NO Agrupados:
k
MD =  f i Xi - X
n _
i =1

i =1
Xi- X
ne MD =
n
ni
ae nk

xi-1 xi _ MD : Desviación Media


xk
x X : Media Aritmética
fi : Frec. relativa Clase i
Xi : Marca Clase i Xi : i-ésimo valor observado
X : Media Aritmética
ni : Frec. absoluta Clase i n : Tamaño Muestra
n : Tamaño Muestra
k : N° de clases
| | : valor absoluto
Rango Inter-Cuartílico
RQ = (Q3– Q1) / 2
Datos Agrupados: Datos NO Agrupados:
 n * i  Si los datos se ordenan de
- NQ i - 1 
Q =L + a  4 orden ascendente de
i Qi nQ i
i = Q -1i
magnitud, entonces el
NQ -1= Sfi
i nQ
cuartil Qi, para i = 1, 2, 3, 4
i=1 i
está dado por
i(n + 1)
ae Qi = 4
L xQ • Puede ser necesario interpolar
i
entre valores sucesivos
L : Límite inferior Qi; i = 1,2,3,4 • Nota Q2 = Me
NQí-1 : Frec. Absoluta acumulada hasta antes de la clase Qi
aQi : Amplitud cuartil i-ésimo
nQi : Frecuencia Absoluta de la clase del cuartil i-ésimo
n : Tamaño de la muestra
Dispersión: Rango Percentil
RP = (P90 – P10)
Datos Agrupados: Datos NO Agrupados:
 n * i  Si los datos se ordenan de
-
 100 NP i - 1 
P =L +a orden ascendente de
i nP i
i = P -1i
Pi magnitud, entonces el
NP -1= Sfi
i nP
percentil Pi, para i = 1, 2, ..,
i=1 i
99 está dado por
i(n + 1)
ae Pi = 100
L xP • Puede ser necesario interpolar
entre valores sucesivos
L : Límite inferior percentil i-ésimo
NPí-1 : Frec. Absoluta acumulada hasta antes de la • Nota P50 = Me
clase percentil i-ésimo
aPi : Amplitud percentil i-ésimo
nPi : Frecuencia Absoluta de la clase del percentil
i-ésimo
n : Tamaño de la muestra
Gráficos de Cajas
Representación visual para describir, simultáneamente, varias
características importantes tales como
• Centro
• Dispersión
• Desviación de la asimetría
• Identificación de las observaciones (valores atípicos)
Valores Q1 Q2 Q3 Valores
Atípicos 3 I RQ 3 I RQ Atípicos

Mediana

D = Índice de Dispersión = (rangQ3- rangQ1) / (K-1)


Gráficos de Cajas
Comparaciones gráficas entre conjuntos de datos

70 80 90 100 110 120

3
Características de forma: Simetría

m3
Coeficiente de Simetría de Fisher 1 =  Sesgo.
S3

0,09 0,45 0,09

0,08 0,40 0,08

0,07 0,35 0,07

0,06 0,30 0,06

0,05 0,25 0,05

0,04 0,20 0,04

0,03 0,15 0,03

0,02 0,10 0,02

0,01 0,05 0,01

0,00
0 2,5 5 7,5 10 12,5 15 17,5 20 -4 -3 -2 -1 0 1 2 3 4 0 2,5 5 7,5 10 12,5 15 17,5 20
0

1 < 0 1 = 0 1 > 0
Distribución, Distribución,
tiende a Distribución, tiende a
concentrarse es simétrica concentrarse
en Valores respecto a la en Valores
Altos de la Media Bajos de la
Variable Mo = MA = Me Variable
Mo > MA > Me Mo < MA < Me
Características de forma: Achatamiento
m4
Coeficiente 2 = -3
4
 Curtosis
S

0,45 0,45 0,45

0,40 0,40 0,40

0,35 0,35 0,35

0,30 0,30 0,30

0,25 0,25 0,25

0,20 0,20 0,20

0,15 0,15 0,15

0,10 0,10 0,10

0,05 0,05 0,05

0,00 0,00 0,00


-4 -3 -2 -1 0 1 2 3 4
-2 -1 0 1 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5

2 < 0 2 = 0 2 > 0
Distribución tiende a Distribución tiende a
concentrarse alrededor de dispersarse
Distribución
la Media.
“Normal”
Variancia grande
Variancia Pequeña
Achatada.
Aguzada
Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de
tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de
0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2.
El laboratorio de resitencia de materiales proporciona la tabla de frecuencias

Clase Límites Marca Frecuencia Frecuencia Frecuencia Frecuencia


de Clase de Clase Absoluta Abs. Acuml. Relativa Relat. Acuml.

1 407,5- 412,5 410 4 4 0,032 0,032


2 412,5- 417,5 415 5 9 0,040 0,072
3 417,5- 422,5 420 8 17 0,064 0,136
4 422,5- 427,5 425 14 31 0,112 0,248
5 427,5- 432,5 430 13 44 0,104 0,352
6 432,5- 437,5 435 19 63 0,152 0,504
7 437,5- 442,5 440 20 83 0,160 0,664
8 442,5- 447,5 445 15 98 0,120 0,784
9 447,5- 452,5 450 12 110 0,096 0,880
10 452,5- 457,5 455 6 116 0,048 0,929
11 457,5- 462,5 460 7 123 0,056 0,984
12 462,5- 467,5 465 2 125 0,016 1,000

Determine: Todas las medidas de localización, escala, simetria y forma


Análisis de una muestra estratificada

E1 m
E2 n1 V
1 n
h 1
h n
n2 V2 X1
Em nh
nm ph 
X2 Vm n
Xm m- estratos

Supongamos que la variable admite una clasificación


en k-clases, representadas por X1, X2,.....Xk.
Análisis de una muestra estratificada
nih = Cantidad de individuos de la submuestra del
estrato “h” que pertenece a Ci.

k k
nih
fih 
nh f
i 1
ih 1 n
i 1
ih  nh

k k
X h   fih X i Vh   fih ( X i - X h ) 2
i 1 i 1

m
fi   ph fih
h 1
Análisis de una muestra estratificada

Entonces: m
X   ph X n
h 1

m m
VT   phVh   ph ( X h - X ) 2
h 1 h 1

VT  Vint ra  Vint er
Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50
pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos.
Al cabo de un cierto tiempo se pesan los 350 pollos,
encontrándose que algunos están muertos y los vivos pesan
entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos
muertos se supondrán de peso cero, y el cero actuará como
centro del supuesto intervalo. Los otros intervalos serán
1,00 ; 1,50 1,50 ; 2,00 2,00 ; 2,50.

Centros Frecuencias Absolutas Calcular


(1) (2) (3)
0 5 10 10
X h ,Vh , X ,VT
1,25 10 20 30 Vinter ,Vint ra
1,75 30 150 50
Note que existen 3
2,25 5 20 10 estratos y 4 clases
Análisis Muestra Estratificada

Frecuencia
Relativa Histograma Apilado por Peso
0,7

0,6

0,5
Criadero 1
0,4
Criadero 2
0,3 Criadero 3
0,2

0,1

0 Peso
0 1,25 1,75 2,25

1,00 1,50 2,00 2,50


Análisis Muestra Estratificada
Frecuencia
Relativa Histograma por Estrato y por Peso
0,5

0,4

0,3 Criadero 1
Criadero 2
0,2 Criadero 3

0,1

0 Peso
0 1,25 1,75 2,25

1,00 1,50 2,00 2,50


Ejemplo

Estrato (1) P1=1/7


Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,2325
1,25 0,2 0,250 -0,275 0,0756 0,0151
1,75 0,6 1,050 0,225 0,0501 0,0304 X1=1,525
2,25 0,1 0,225 0,725 0,525 0,0525 V1=0,331

Estrato (2) P2=4/7


fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0,05 0 -1,662 2,76 0,138
0,10 0,125 -0,412 0,17 0,017
0,75 1,312 0,088 0, 01 0,007 X2=1,662
0,1 0,225 0,588 0,34 0,034 V2=0,196
Estrato (3) P3=2/7
fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0,10 0 -1,475 2,17 0,217
0,30 0,375 -0,225 0,05 0,015
0,50 0,875 0,275 0, 08 0,040 X3=1,475
0,20 0,225 0,775 0,60 0,060 V3=0,0332

Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2


Xh Vh
(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00057
(2) 4/7 1,662 0,196 0,949 0,112 0,033 0,001 0,00057
(3) 2/7 1,475 0,332 0,422 0,095 -0,114 0,013 0,00557
1,589 0,254 0,0067
Estrato (1) P1=1/7

Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2

0 0,1 0 -1,525 2,325 0,2325 X1=1,525


1,25 0,2 0,250 -0,275 0,0756 0,0151
1,75 0,6 1,050 0,225 0,0501 0,0304 V1=0,331
2,25 0,1 0,225 0,725 0,525 0,0525

Estrato (2) P2=4/7

fi2 fi2X1 Xi-X2 ( )2 fi2( )2

0,05 0 -1,662 2,76 0,138 X2=1,662


0,10 0,125 -0,412 0,17 0,017
0,75 1,312 0,088 0, 01 0,007 V2=0,196
0,10 0,225 0,588 0,34 0,034

Estrato (3) P3=2/7

fi3 fi3X1 Xi-X3 ( )2 fi3( )2

0,10 0 -1,475 2,17 0,217 X3=1,475


0,30 0,375 -0,225 0,05 0,015
0,50 0,875 0,275 0, 08 0,040
0,20 0,225 0,775 0,60 0,060
V3=0,0332
Resultados

Se ha obtenido, entonces:

• Media Total X = 1,589

•Varianza promedio dentro de los estratos


Vintra= 0,254

•Varianza entre estratos


Vinter= 0,0067

•Varianza Total
VT= 0,2607
Estadística Bivariada

Supongamos que se toma una muestra de tamaño n de


una población y que se está investigando, o se desea
estudiar, dos características de la misma.

Sean estas características X e Y. Siguiendo los


procedimientos habituales, la Muestra se divide en
• r clases Ai para la variable X
• s clases Bj para la variables Y

Existirán elementos que pertenecerán simultánea-


mente a AiBj. Los datos los podemos ordenar en una
tabla o matriz llamada Tabla de Contingencia
Tabla de Contingencia

Y B1 B2 ..... Bj ..... Bs Total


X
A1 n11 n12 ..... n1j ..... n1s n1
A2 n21 n22 ..... n2j ..... n2s n2

Ai ni1 ni2 ..... nij ..... nis ni

Ar nr1 nr2 ..... nrj ..... nrs nr


Total n1 n2 ..... nj ..... ns n 

n  =_ n
Tabla de Contingencia

Y B1 B2 ..... Bj ..... Bs Total


X
A1 f11 f12 ..... f1j ..... f1s f1
A2 f21 f22 ..... f2j ..... f2s f2

Ai fi1 fi2 ..... fij ..... fis fi

Ar fr1 fr2 ..... frj ..... frs fr


Total f1 f2 ..... fj ..... fs f 

f  =_1
Estadística Bivariada

Notación:

fij := frecuencia conjunta = fr(xi,yj)

fi =

fj
ij = frecuencia marginal =  f (x , y )  f (x )
j
r i j r i

fj=

fi
ij = frecuencia marginal =  f (x , y )  f ( y )
i
r i j r j

fij fr ( xi , y j )
fi/j = = frecuencia condicional = fr ( xi / yj) 
f j fr ( y j )
Tabla de Contingencia

nij  Frecuencia Absoluta de la clase conjunta AiBj.


(Valor observado en la celda (i,j) de la Tabla de Contingencia)

fij  nij  f
r s

n
Frecuencia Relativa

“conjunta” de la clase conjunta ij
1
correspondiente a la i 1 j 1
intersección de Ai y Bj.

s
ni   nij
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r
(Independiente de la clases Bj a la que estén asociadas
Suma de los valores de la fila i-ésima )
j 1

n j   nij
r
Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s
(Independiente de las clases Ai a la que estén asociadas.
Suma de los valores de la columna j-ésima)
i 1
Tabla de Contingencia

Para frecuencias
s
relativas , i = 1,....,r se tiene:
f i   f ij (Suma de los valores de la fila i-ésima
j 1 de la tabla de contingencia de frecuencias)
r
f  j   f ij
i 1

Además se verifica que:


ni n j fij nij
fi  f j  fi/j  
n n f j n j
Frecuencia Marginal

Dado el experimento anterior, cuando sólo interesa conocer la frecuencia


de ocurrencia de cada una de las variables por separado se habla de
Frecuencia Marginal de la variable

ni 
fi  n
Frecuencia (relativa) “marginal” de la variable X,
Conjunto de valores pertenecientes a las clases Ai,
 considerandolas independientemente de las calses Bj

nj
f j  n Frecuencia (relativa) “marginal” de la variable Y,
Conjunto de valores pertenecientes a las clases Bj,

considerandolas independientemente de las calses Ai
Tabla de Contingencia

Ejemplo
Una tela se clasifica en tres categorías A, B y C según cantidad y
severidad de pequeñas imperfecciones. La empresa tiene 5
telares, en un mes dado de producción se registraron los
siguientes datos.

# piezas de tela en la clasificación


Telar A B C Marginal
1 185 16 12 213
2 190 24 21 235
3 170 35 16 221
4 158 22 7 187
5 185 22 15 222
Marginal 888 119 71 1078
Independencia Estadística

Se dice que X es independiente de Y si las frecuencias


condicionales de X/Y son todas iguales; es decir, no dependen
de la clase condicionante, esto es
f f f = .... = f = fi
A i = 1, 2, 3, ... , r
i/1 = i/2 = i/3 i/s

n n n n n + n + n +.... + n n
n 1
i1 
n 2
i2 
n 3
i3 .... 
n S
is  n i11+ n i22 + n i33 +.... + n iss  n i  f i

Luego  fi/j  fi similarmente  fj/i  f j


fij
Como  fi/j   fij  fi/j fj fij  fi  f j
f j
Frecuencia Condicional

• Cuando se “pregunta” por la frecuencia relativa de una de las varia-


bles, digamos X, restrigida a los elementos observados de una clase
dada de la otra; esto es, estudiar el comportamiento de una variable
dado un valor fijo de la otra.

fij
nij Frecuencia (relativa) de la variable X en la clase
fi/j   n conjunta AiBj, “dado” que sólo nos interesa

f j
respecto a lo observado en la clase Bj de la
j variable Y; para i = 1, 2, .., r

Constituye la distribución de frecuencia relativa


f ,f ,f
1/j 2/j 3/j, ... , f
r/j
condicional de la variable X dada la clase Bj de la
variable Y.
Nótese que se trabaja “condicionado” sobre un
tamaño de muestra “reducido” al número de
observaciones de la clase Bj dada
Estadística Bivariada

Notación:

Análogamente, se tiene:

fj/i = fij = frecuencia condicional = f


fr ( xi , y j )
r ( y j / xi ) 
fi fr ( xi )
Independencia Estadística

X e Y son variables estadísticamente independientes ssi:

fr ( y j / xi )  fr ( y j ) ó fr ( xi / y y )  fr ( xi )
fi/j  fi ó fj/i  f j
Estadística Bivariada

Independencia Estadística

como fij  fj/i  fi  fij  f j  fi

Asociación de Variables
1
Datos no agrupados Cov(x,y) =  ( xi - x )( yi - y )
n
Datos agrupados : Cov(x,y) =  fi ( xi - x)( yi - y )

Coeficiente de Correlación = r = Cov (x,y)


Sx Sy
Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías

2 20 15 10 45
3 12 7 5 24
4 4 10 2 16
5 - 5 10 15
Marginal 36 37 27 100
Obtener :
Distribuciones marginales
Distribuciones condicionales (4 averías), Media
y Varianza condicional
Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías

2 0,20 0,15 0,10 0,45


3 0,12 0,07 0,05 0,24
4 0,04 0,10 0,02 0,16
5 0 0,05 0,10 0,15
Marginal 0,36 0,37 0,27 1,00
fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5

Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2


+1//8(160-137,5)2 =
Curvas de Regresión

X
Curvas de regresión (Lineal)

y   0  1 x  
x , y son variables independiente y dependiente
respectivamente. Además  una variable estadística que
representa el error.
Los parámetros 0 y 1 pueden ser estimados a partir de
los datos {(xi , yi)}i=1,...,n mediante método de mínimos
cuadrados.
Sea ; ei  yi - yˆ i  yi - ˆ 0 - ˆ1 xi
Entonces
Modelo Estadístico (Lineal)
y   0  1x  
y

mx  0   1 x

x: variable independiente y
y : variable dependiente
 : una variable estadística que representa el error.
Modelo Estadístico (Lineal)

y   0  1x  

1

0

x
Modelo Estadístico (Lineal)

y y  0  1x  
  
yi   0  1x

y
ei
i
mx  0   1 x

x
x
Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi ,
yi)}i=1,...,n mediante método de mínimos cuadrados.
Esto es, minimizar el error cuadrático medio  min S ei2
n n

  i  min  i 0 1i
-  - 
2 2
min ( y x )
 0 1  0 1
i 1 i 1

SC xy
̂1  ˆ 0  y - ˆ1 x
SC x
n
SC E   ei
n
SC xy   ( xi - x )( yi - y )
2

i 1 i 1
n
SC x   ( xi - x )
n
VNE   ei
2 2

i 1 i 1
Ejemplo: Curvas de Regresión

Límites de Clase Marca de Consumo N° de


Ingreso Estandarizado Clase Promedio Personas
de una Población x 105 de Leche Encuestadas
Semanal
0 - 100000 0,5 2,13 532
100001 - 200000 1,5 2,82 647
200001 - 300000 2,5 3,70 692
300001 - 400000 3,5 4,25 867
400001 - 500000 4,5 4,86 865
500001 - 600000 5,5 5,16 513
600001 - 800000 7,0 5,23 530
800001 - 1000000 9,0 5,57 181
Modelo Estadístico: Ejemplo

x y SCx SCy SCxy y SCE
0,5 2,13 14,06 4,35 7,82 2,70 0,32
1,5 2,82 7,56 1,95 3,84 3,10 0,08
2,5 3,70 3,06 0,27 0,90 3,51 0,04
3,5 4,25 0,56 0,00 -0,03 3,91 0,11
4,5 4,86 0,06 0,42 0,16 4,32 0,30
5,5 5,16 1,56 0,89 1,18 4,72 0,19
7,0 5,23 7,56 1,03 2,79 5,33 0,01
9,0 5,57 22,56 1,84 6,44 6,14 0,32
S 34,0 33,72 57,00 10,74 23,10 33,72 1,37
x = 4,25 y = 4,215 4,215


1 0.4135965

0 2.4697149
Ejemplo

SCxy = 23,10 SCxy


ˆ 1 = = 0.4135965

SCx = 57,00
SCx

y = 4,215
ˆ = y - ˆ x
 = 2.4697149
x = 4,25 0 1

% de Ajuste del Modelo =

SCE 1,37
1- =
10,74
= 0,872  87,2%
SCy
Ejemplo: Curvas de Regresión

t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 17
20 40 26 14 8
20 12

V(t) 25 40 46 29 12 6 17

Sea xt = sen t yt = V(t)

Luego y(t) = 0 + 1 xt + t

min Q(  0 , 1 )  min
 0 , 1 0 , 
1
 (y
t
t -  0 - 1 xt ) 2
ˆ cov( x, y )
ˆ0  y - ˆ1 x  25,3 1  2
 20
Sx

S y  1276
2
( yt - yˆ t )  22,45
2

% de Ajuste del Modelo =


2

1- 2
t
 0,98 100%  98%
Sy
Ajuste Lineal
6.02
Linear Fit:

5.32 Y = a + bx

4.61

3.90
Consumo

3.19

2.48

a = 2.4697149
1.78 b = 0.4135965
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Ajuste Logarítmico
6.02
Logarithm Fit:

5.32
Y = a + b*ln(x)

4.61

3.90
Consumo

3.19

2.48

1.78
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Ajuste Polinomial
6.02
Power Fit:

5.32 Y = a xb

4.61

3.90
Consumo

3.19

2.48
a = 2.6890974

1.78 b = 0.3543629
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Modelo Logístico
6.02
Logistic Model:
a
5.32 Y =
1+b*e-cx

4.61

3.90
Consumo

3.19

2.48 a = 5.6469463
b = 2.2230602
1.78 c = 0.55970905
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Modelo de Richard
6.02
Richard’s Model:
a
5.32 Y =
1+b*e(b-cx)(1/d)
4.61

3.90
Consumo

3.19

a=
5.6606384
2.48
b=
0.5984401
1.78
0.1 1.7 3.3 4.9 6.6 c= 8.2 9.8
0.5415778 Ingreso
Asociación Exponencial
6.02
Exponential Association (3):

5.32 Y = a (b - e-cx)

4.61

3.90
Consumo

3.19

2.48 a = 4.6333776
b = 1.3115177
1.78 c = 0.2709334
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Transformaciones

Sea yi = h ( xi ) con i = 1,...,n


1. Lineales yi = axi + b
y = ax + b
Sy = a Sx
2. No lineales yi = h( xi )
1
y = h(x) + h”(x) SX2
2
Sy2 Sx2  h’ (x)2
En particular 1
h(x) = ln x y = ln x - 2 ( Sx2 / x2 )
Sy2  ( Sx2 / x2 ) = CV 2
Relaciones Linealizables

1. y = K x ln y = a0 + a1 ln x
2. y=K(/x) y = a0  a1 x-1
3. y = K e x ln y = a0 + a1 x
4. y = K e-/x ln y = a0 + a1 x-1
5. yt = K +  cos t y = a0 + a1 xt
siendo xt = cos t

6. y() = y - 1 = a0 + a1 x
y-1 dy = a1 w = dy
dx dx
ln w = ln a1 + ( 1 -  ) ln y
Transformaciones

3. Box-Cox Transformaciones (1964)

( x + m ) - 1  0 x > -m
h (x) = X() = 

ln ( x + m )  =0 m>0
Transformaciones

Sea yi = h ( xi ) con i = 1,...,n


1. Lineales 2. No lineales
• yi = a + bxi • y = a + b ln x
• y = a + bx • y = a e bx
• sy = b sx

3. Linealizables
• y =axb  ln y = ln a + b ln x
• y =a(b/x)  y = a  b x-1
• y = a e bx  ln y = ln a + b x
• y = a e-b/x  ln y = ln a - b x-1
• yt = a + b cos t  y = a + b xt siendo xt = cos t

Você também pode gostar