Análisis Exploratorio de Datos

Análisis Exploratorio
de Datos
Clasificación/Tipo de Datos
• Cualitativo (Categorías)
• Nominal  Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc.
• Ordinal  Pobre = 1; Aceptable = 2;
Bueno = 3; Excelente = 4
• Cuantitativo (Números)
• Intervalo  estatura, viscosidad, distancia, duración...etc
• Razón  temperatura, peso...etc
NOTA:
El tipo de Estadísticas que se pueden obtener o calcular
depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen
sentido con datos categóricos (si con proporciones)
Escalas de Medida
Clasificación : Nominal, Ordinal, Intervalos y

Razón
Variables : Discretas y Continuas
Categóricas, Cuantitativas
Organización :  Frecuencia absoluta

 Frecuencia relativa
A partir de nivel ordinal :
 Frecuencia absoluta acumulada
 Frecuencia relativa acumulada
Tipos de Variables
Tanto en la escala intervalar como en la de razón es posible distinguir dos

tipos de variables aleatorias:
Variables Discretas: una que puede tomar sus valores de un conjunto de
puntos aislados (subconjunto de valores en IR)
Variables Continuas: una que puede tomar sus valores en un conjunto donde
todos sus elementos son puntos de acumulación (un intervalo en IR).
Siempre es posible tratar una variable continua como discreta mediante la
construcción de “intervalos de clase” representando cada uno de los
intervalos por su valor medio denominado “marca de clase”
Variables Categóricas o Cualitativas
Variables Cuantitativas
Organización/Presentación
Para estudiar las características de una variable se ordenan los

valores observados de la muestra en k clases denominadas c1, c2, .. ck.
Frecuencia Absoluta.
Se llama frecuencia absoluta de la clase ci al número total de
individuos u observaciones que pertenece a dicha clase y se denota
por ni. Como las clases c1, c2, ..... ck una partición de la muestra, es
fácil verificar que
n = S ni  número total de observaciones o tamaño de la muestra

i=1
Organización/Presentación
Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la proporción
de individuos que pertenecen a la clase sobre el total de
individuos o tamaño de la muestra. Se de nota por fi. Se
puede verificar que
k
n
fi = ---i nótese que .... S fi = 1
n i=1
Presentación de Datos Cualitativos
• Reglas: Partición de la Población

• Cada observación debe pertenecer a una, y sólo
una clase o categoría.
• Todas las observaciones deben ser pertenecer a
una.
• Tablas  Tabligrama.
• Gráficos de Barras  Diagrama de Pareto.
• Gráficos Circulares o de Torta .

Ejemplo: Tablas
Clase Descripción Frecuencia

1 107
2 60
3 51
4 25
5 10
6 8
Escala Nominal
Usa números como una manera de separar los elementos de la

población en diferentes clases o categorías. El número asignado a la
observación sólo sirve como un nombre para distinguir la categoría a
la cual pertenece la observación.
• La variable induce una partición sobre la población la

información puede clasificarse en clases o categorías.
• Cada clase debe estar perfectamente definida y diferenciada
de las demás.
• La recopilación se reduce a contar el número de individuos
en la muestra que pertenece a cada clases:
Ejemplos : Clasificación de alumnos por
Cursos : primero (1), segundo (2),...., sexto (6) año;
Sexo : masculino (M), femenino (F);
Colegio : SEK (1); Alemán(2), Ruben Castro(3), etc.
Escala Nominal
120
107 Diagrama de Pareto
100
80
Frecuencia
60
60
51
40
25
20
10 8
0
1 2 3 4 5 6
Clase
Escala Nominal
5 6
4% 3%
4 Diagrama Circular
10%
1
40%
3
20%
2
23%
Escala Ordinal
Dónde existe un orden implícito entre las mediciones. El valor

numérico es usado sólo como una manera de arreglar los
elementos de acuerdo al orden establecido.
La variable admite grados de calidad:existe una relación de orden
total entre las clases.
No es posible cuantificar la diferencia entre los individuos
pertenecientes a las distintas clases.
Ejemplo calificaciones de A (muy bueno), B (bueno), C (satisfactorio), D
(admisible), E (deficiente)
Escala Ordinal
9
Diagrama de Bloques
8
0
Pobre Regular Aceptable Bueno Muy Bueno
Escala Intervalar
Considera no sólo la información pertinente al orden, sino además,
el tamaño relativo de los intervalos a que pertenece cada uno de los
individuos. En este nivel es posible cuantificar la diferencia de todos
los individuos pertenecientes a los intervalos, clases o categorías
distintas.
Está involucrado en concepto de distancia, y la distancia entre dos

medias puede ser expresada en función de esta unidad.
Ejemplos: temperatura al interior de un silo, interés sólo clasificar en

intervalos de cinco grados {(0, 5°), (5, 10°), .....,(30, 35°)}. Puntaje
promedio PAA, interesa clasificar en tramos de 25 puntos.
Escala Intervalar
• Tabligramas.
• Tablas de Frecuencia.
• Histogramas: valores discretos y continuos.

• Usar 5 a 20 clases (intervalos o grupos).
• (considerar anchos de clases, límites y marca de clase).
• (polígono de frecuencias – dibujar en marca de clase).
• Frecuencia Acumulada - Ojiva.

• (graficar en límite superior).
Ejemplo: Tabligrama
Ejemplo: 40 Datos
10 7 8 Diagrama de
11 1 2 3 7 9 Tallos-y-hojas
12 0 3 3 4 6 8
13 1 2 2 4 5 6 7 8
14 0 1 2 3 3 5 7 8 8
15 0 2 3 3 8 8
16 0 0 1 2
Tabla de Frecuencias
K := N° Clases  1 + 3.3 log n  7

R := Rango = máx { xi } - mín { xi } = 162 - 107 = 55
A := Amplitud = ( R + 1 ) / K = ( 55 + 1 ) / 7 = 8
Límites Marca Conteo Frecuencias

ABS - REL - REL. AC.
102,5-111,5 107 /// 3
111,5-120,5 116 //// 5
120,5-129,5 125 //// 5
129,5-138,5 134 //// /// 8
138,5-147,5 143 //// // 7
147,5-156,5 152 //// / 6
156,5-165,5 161 //// / 6
Histograma
0
107 116 125 134 143 152 161
Polígono de Frecuencias
0
99 107 116 125 134 143 152 161 170
Frecuencia Acumulada: Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
99 107 116 125 134 143 152 161 170
Escala de Razón
Esta escala se usa cuando no sólo el orden y tamaño del

intervalo son importantes.
La única diferencia entre la escala de razón y la intervalar es
que en la primera se puede definir un cero absoluto y en la
segunda no
Buscar ejemplos de Escala intervalar
Buscar ejemplos de Escala de razón
Tarea : Discuta la diferencia entre Precisión y Exactitud ,
Extraer Información desde la Muestra
• Mediciones de Tendencia Central

• Mediciones de Dispersión
• Coeficiente de Variación
Medidas de Tendencia Central
• Estas medidas tienden a ubicarse en el

centro del conjunto.
• Proporcionan un valor simple y
representativo, que resume un gran
volumen de información.
• Media Aritmética • Moda

• Media Geométrica • Mediana
• Media Armónica • Semi Rango
Medidas de Dispersión
• Miden la “dispersión” de valores

dentro del conjunto de datos
respecto de alguna medida de
tendencia central.
• Varianza • Rango
• Desviación Estándar • Rango Cuartílico
• Desviación Media • Rango Percentil
Medidas de Tendencia y Dispersión
0,5000
Mediana
Moda
0,4500
Media
0,4000 Aritmética
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000 Q1 Q2 Q3 Q4
0,0500
0,0000
0 1 2 3 4 5 6 7
Rango
Tipo de Variable
Variables Categóricas: (Escala Nominal)

Moda (Medida del centro)
Tasa de Variación (Medida de Dispersión)
ni
fM  fi = i = 1, 2, 3, ..., k.
n
nM n - nM
V = 1 – fM = 1- =
n n
Ejemplo
En un estudio de mercado se considera una muestra de 1100 fumadores
averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla
Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273
fM = 0,282  Clase modal C

TV = 1 – 0,282 = 0,718  Tasa de variación
Tipo de Variable
Moda (Mo) (Medida del centro)
Tasa de Variación (V) (Medida de Dispersión)
Variables Cualitativas: (Escala Ordinal)

Moda, Mediana (Me)
Tasa de Variación,
Indice de Dispersión (ID) , Cuartíles
Qi = Cj  j : min S fj > i/4 Cj : clase j
Mediana = C(Q2)
( rango C(Q3) – rango C(Q1))

D = rango clase es su N° de Orden
(K –1) K : N° total de clases
Ejemplo 2.4 :
Se tiene la impresión que el servicio prestado por una sucursal bancaria
no es buena; por lo tanto, la gerencia ordena un estudio al respecto.
Se toma una muestra de 70 respuestas de clientes opinando sobre el servicio
recibido
1 2 3 4 5
Calificación P R S B E
Frec. Absoluta 20 10 18 16 6
Frec. Relativa 0,286 0,143 0,257 0,229 0,086
Frec Acumul 20 30 48 64 70
Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000
Q1 = 0,286 > 0,25  P fM = 0,286  CM = P

Q2 = 0,686 > 0,50  S Med =C(Q2)  CMed = S
Q3 = 0,914 > 0,75  B V = 1 - fM = 1 – 0,286 = 0,714
Q4 = E rC(Q3) – rC(Q1) 4–1

D = = = 0,75
(K-1) 5 –1
Moda ( Medida del centro )
Tasa de Variación ( Medida de Dispersión )
Variables Cualitativas: (Escala Ordinal)

Moda, Mediana
Tasa de Variación, Índice de Dispersión
Variables Cuantitativas: (Escala Intervalar)

Moda, Mediana, Media, Media Truncada
Tasa de Variación, Índice de Dispersión, Varianza
Rango, Rango Inter-cuartílico (IQR), MEDA
 Medidas de homogeneidad
Señal de Ruido  = - log  S2 
  CV =
S
 X 2 X
Escala Intervalar
Existen dos maneras de realizar los cálculos

de las madidas características de datos de
escala inervalar, con ...
1. Datos Agrupados: cuando los datos

disponibles se presentan ya “trabajados” en
tablas de frecuencias y no se cuenta con los
datos originales.
2. Datos No agrupados: cuando los datos se

presentan como “materia” en bruto
Tendencia Central: Promedio
Datos Agrupados: Datos NO Agrupados:
k
X=  f *X n

i i
i =1 Xi
ni i =1
X=
n
ai
xi Xi+1
X : Media Aritmética
fi : Frec. relativa Clase i = ni
n Xi : i-ésimo valor observado
Xi : Marca Clase i
_ n : Tamaño Muestra
k : N° de clases
ni : Frec. absoluta Clase i
n : Tamaño Muestra
ai : Amplitud de Clase i
Tendencia Central: Moda
 D 
M o = L + aM 
 D + D 
1
Es el valor que ocurre con
 1 2
 mayor frecuencia: el valor
D1 más común.
nM D
2
n1 • Puede que no exista
n2 moda.
aM • Puede que exista
más un valor Modal
L xM
L : Límite inferior Clase modal
aM : Amplitud Clase Modal
D1 : nM - n1
D2 : nM - n2
nM : Frec. absoluta Clase Modal V = Tasa de Variación = 1 – fM
n1 : Frec. absoluta Clase anterior a Clase Modal
n2 : Frec. absoluta Clase posterior a Clase Modal
Tendencia Central: Mediana
n-
( N ) Si los datos se ordenan de
Me = L + a 2 e-1
e n orden ascendente de
e magnitud, entonces la
Ne-1= Sfi
i = e-1
Mediana está dada por:
ne
i=1
ae n+1
Me =
2
• Si n es impar , la Mediana
L xe es exactamente el valor
L : Límite inferior Clase del medio
Mediana (C Me) • Si n es par , la Mediana es el
Ne-1 : Frec. Acumulada hasta antes
promedio de los valores
centrales
(C Me)
ne : Frecuencia Absoluta (C Me)
ae : Amplitud (C Me)
n : Tamaño de la muestra
Dispersión: Varianza Muestral
k _
S2 =  fi ( X i - X ) 2
n _
 ( X i - X )2
i =1 1
S2 =
ne n i =1
ni
ae nk
s2 : Variancia Muestral
xi-1 xi _
xk
x X : Media Aritmética
Xi : i-ésimo valor observado
fi : Frec. relativa Clase i
X
_i : Marca Clase i n : Tamaño Muestra
ni : Frec. absoluta Clase i
n : Tamaño Muestra
k : N° de clases
Dispersión: Desviación Media
k
MD =  f i Xi - X
n _
i =1

i =1
Xi- X
ne MD =
n
ni
ae nk
xi-1 xi _ MD : Desviación Media

xk
x X : Media Aritmética
fi : Frec. relativa Clase i
Xi : Marca Clase i Xi : i-ésimo valor observado
ni : Frec. absoluta Clase i n : Tamaño Muestra
n : Tamaño Muestra
k : N° de clases
| | : valor absoluto
Rango Inter-Cuartílico
RQ = (Q3– Q1) / 2
 n * i  Si los datos se ordenan de
- NQ i - 1 
Q =L + a  4 orden ascendente de
i Qi nQ i
i = Q -1i
magnitud, entonces el
NQ -1= Sfi
i nQ
cuartil Qi, para i = 1, 2, 3, 4
i=1 i
está dado por
i(n + 1)
ae Qi = 4
L xQ • Puede ser necesario interpolar
i
entre valores sucesivos
L : Límite inferior Qi; i = 1,2,3,4 • Nota Q2 = Me
NQí-1 : Frec. Absoluta acumulada hasta antes de la clase Qi
aQi : Amplitud cuartil i-ésimo
nQi : Frecuencia Absoluta de la clase del cuartil i-ésimo
Dispersión: Rango Percentil
RP = (P90 – P10)
 n * i  Si los datos se ordenan de
-
 100 NP i - 1 
P =L +a orden ascendente de
i nP i
i = P -1i
Pi magnitud, entonces el
NP -1= Sfi
i nP
percentil Pi, para i = 1, 2, ..,
i=1 i
99 está dado por
i(n + 1)
ae Pi = 100
L xP • Puede ser necesario interpolar
entre valores sucesivos
L : Límite inferior percentil i-ésimo
NPí-1 : Frec. Absoluta acumulada hasta antes de la • Nota P50 = Me
clase percentil i-ésimo
aPi : Amplitud percentil i-ésimo
nPi : Frecuencia Absoluta de la clase del percentil
i-ésimo
Gráficos de Cajas
Representación visual para describir, simultáneamente, varias
características importantes tales como
• Centro
• Dispersión
• Desviación de la asimetría
• Identificación de las observaciones (valores atípicos)
Valores Q1 Q2 Q3 Valores
Atípicos 3 I RQ 3 I RQ Atípicos
Mediana
D = Índice de Dispersión = (rangQ3- rangQ1) / (K-1)

Gráficos de Cajas
Comparaciones gráficas entre conjuntos de datos
70 80 90 100 110 120
3
Características de forma: Simetría
m3
Coeficiente de Simetría de Fisher 1 =  Sesgo.
S3
0,09 0,45 0,09
0,08 0,40 0,08
0,07 0,35 0,07
0,06 0,30 0,06
0,05 0,25 0,05
0,04 0,20 0,04
0,03 0,15 0,03
0,02 0,10 0,02
0,01 0,05 0,01
0,00
0 2,5 5 7,5 10 12,5 15 17,5 20 -4 -3 -2 -1 0 1 2 3 4 0 2,5 5 7,5 10 12,5 15 17,5 20
0
1 < 0 1 = 0 1 > 0
Distribución, Distribución,
tiende a Distribución, tiende a
concentrarse es simétrica concentrarse
en Valores respecto a la en Valores
Altos de la Media Bajos de la
Variable Mo = MA = Me Variable
Mo > MA > Me Mo < MA < Me
Características de forma: Achatamiento
m4
Coeficiente 2 = -3
4
 Curtosis
S
0,45 0,45 0,45
0,40 0,40 0,40
0,35 0,35 0,35
0,30 0,30 0,30
0,25 0,25 0,25
0,20 0,20 0,20
0,15 0,15 0,15
0,10 0,10 0,10
0,05 0,05 0,05
0,00 0,00 0,00

-4 -3 -2 -1 0 1 2 3 4
-2 -1 0 1 2 0 -5 -4 -3 -2 -1 0 1 2 3 4 5
2 < 0 2 = 0 2 > 0
Distribución tiende a Distribución tiende a
concentrarse alrededor de dispersarse
Distribución
la Media.
“Normal”
Variancia grande
Variancia Pequeña
Achatada.
Aguzada
Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de
tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de
0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2.
El laboratorio de resitencia de materiales proporciona la tabla de frecuencias
Clase Límites Marca Frecuencia Frecuencia Frecuencia Frecuencia

de Clase de Clase Absoluta Abs. Acuml. Relativa Relat. Acuml.
1 407,5- 412,5 410 4 4 0,032 0,032

2 412,5- 417,5 415 5 9 0,040 0,072
3 417,5- 422,5 420 8 17 0,064 0,136
4 422,5- 427,5 425 14 31 0,112 0,248
5 427,5- 432,5 430 13 44 0,104 0,352
6 432,5- 437,5 435 19 63 0,152 0,504
7 437,5- 442,5 440 20 83 0,160 0,664
8 442,5- 447,5 445 15 98 0,120 0,784
9 447,5- 452,5 450 12 110 0,096 0,880
10 452,5- 457,5 455 6 116 0,048 0,929
11 457,5- 462,5 460 7 123 0,056 0,984
12 462,5- 467,5 465 2 125 0,016 1,000
Determine: Todas las medidas de localización, escala, simetria y forma

Análisis de una muestra estratificada
E1 m
E2 n1 V
1 n
h 1
h n
n2 V2 X1
Em nh
nm ph 
X2 Vm n
Xm m- estratos
Supongamos que la variable admite una clasificación

en k-clases, representadas por X1, X2,.....Xk.
nih = Cantidad de individuos de la submuestra del
estrato “h” que pertenece a Ci.
k k
nih
fih 
nh f
i 1
ih 1 n
i 1
ih  nh
k k
X h   fih X i Vh   fih ( X i - X h ) 2
i 1 i 1
m
fi   ph fih
h 1
Entonces: m
X   ph X n
h 1
m m
VT   phVh   ph ( X h - X ) 2
h 1 h 1
VT  Vint ra  Vint er
Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50
pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos.
Al cabo de un cierto tiempo se pesan los 350 pollos,
encontrándose que algunos están muertos y los vivos pesan
entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos
muertos se supondrán de peso cero, y el cero actuará como
centro del supuesto intervalo. Los otros intervalos serán
1,00 ; 1,50 1,50 ; 2,00 2,00 ; 2,50.
Centros Frecuencias Absolutas Calcular

(1) (2) (3)
0 5 10 10
X h ,Vh , X ,VT
1,25 10 20 30 Vinter ,Vint ra
1,75 30 150 50
Note que existen 3
2,25 5 20 10 estratos y 4 clases
Análisis Muestra Estratificada
Frecuencia
Relativa Histograma Apilado por Peso
0,7
0,6
0,5
Criadero 1
0,4
Criadero 2
0,3 Criadero 3
0,2
0,1
0 Peso
0 1,25 1,75 2,25
1,00 1,50 2,00 2,50

Análisis Muestra Estratificada
Frecuencia
Relativa Histograma por Estrato y por Peso
0,5
0,4
0,3 Criadero 1
Criadero 2
0,2 Criadero 3
0,1
0 Peso
0 1,25 1,75 2,25
1,00 1,50 2,00 2,50

Ejemplo
Estrato (1) P1=1/7

Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,2325
1,25 0,2 0,250 -0,275 0,0756 0,0151
1,75 0,6 1,050 0,225 0,0501 0,0304 X1=1,525
2,25 0,1 0,225 0,725 0,525 0,0525 V1=0,331
Estrato (2) P2=4/7

fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0,05 0 -1,662 2,76 0,138
0,10 0,125 -0,412 0,17 0,017
0,75 1,312 0,088 0, 01 0,007 X2=1,662
0,1 0,225 0,588 0,34 0,034 V2=0,196
Estrato (3) P3=2/7
fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0,10 0 -1,475 2,17 0,217
0,30 0,375 -0,225 0,05 0,015
0,50 0,875 0,275 0, 08 0,040 X3=1,475
0,20 0,225 0,775 0,60 0,060 V3=0,0332
Estratos Ph Media Varianza PhXh PhVh Xh-X (X-Xh)2 Ph( )2

Xh Vh
(1) 1/7 1,525 0,331 0,218 0,047 -0,064 0,004 0,00057
(2) 4/7 1,662 0,196 0,949 0,112 0,033 0,001 0,00057
(3) 2/7 1,475 0,332 0,422 0,095 -0,114 0,013 0,00557
1,589 0,254 0,0067
Estrato (1) P1=1/7
Xi fi1 fi1X1 Xi-X1 ( )2 fi1( )2
0 0,1 0 -1,525 2,325 0,2325 X1=1,525

1,25 0,2 0,250 -0,275 0,0756 0,0151
1,75 0,6 1,050 0,225 0,0501 0,0304 V1=0,331
2,25 0,1 0,225 0,725 0,525 0,0525
Estrato (2) P2=4/7
fi2 fi2X1 Xi-X2 ( )2 fi2( )2
0,05 0 -1,662 2,76 0,138 X2=1,662

0,10 0,125 -0,412 0,17 0,017
0,75 1,312 0,088 0, 01 0,007 V2=0,196
0,10 0,225 0,588 0,34 0,034
Estrato (3) P3=2/7
fi3 fi3X1 Xi-X3 ( )2 fi3( )2
0,10 0 -1,475 2,17 0,217 X3=1,475

0,30 0,375 -0,225 0,05 0,015
0,50 0,875 0,275 0, 08 0,040
0,20 0,225 0,775 0,60 0,060
V3=0,0332
Resultados
Se ha obtenido, entonces:
• Media Total X = 1,589
•Varianza promedio dentro de los estratos

Vintra= 0,254
•Varianza entre estratos

Vinter= 0,0067
•Varianza Total
VT= 0,2607
Estadística Bivariada
Supongamos que se toma una muestra de tamaño n de

una población y que se está investigando, o se desea
estudiar, dos características de la misma.
Sean estas características X e Y. Siguiendo los

procedimientos habituales, la Muestra se divide en
• r clases Ai para la variable X
• s clases Bj para la variables Y
Existirán elementos que pertenecerán simultánea-

mente a AiBj. Los datos los podemos ordenar en una
tabla o matriz llamada Tabla de Contingencia
Tabla de Contingencia
Y B1 B2 ..... Bj ..... Bs Total

X
A1 n11 n12 ..... n1j ..... n1s n1
A2 n21 n22 ..... n2j ..... n2s n2
Ai ni1 ni2 ..... nij ..... nis ni
Ar nr1 nr2 ..... nrj ..... nrs nr

Total n1 n2 ..... nj ..... ns n 
n  =_ n
Y B1 B2 ..... Bj ..... Bs Total

X
A1 f11 f12 ..... f1j ..... f1s f1
A2 f21 f22 ..... f2j ..... f2s f2
Ai fi1 fi2 ..... fij ..... fis fi
Ar fr1 fr2 ..... frj ..... frs fr

Total f1 f2 ..... fj ..... fs f 
f  =_1
Notación:
fij := frecuencia conjunta = fr(xi,yj)
fi =

fj
ij = frecuencia marginal =  f (x , y )  f (x )
j
r i j r i
fj=

fi
ij = frecuencia marginal =  f (x , y )  f ( y )
i
r i j r j
fij fr ( xi , y j )
fi/j = = frecuencia condicional = fr ( xi / yj) 
f j fr ( y j )
nij  Frecuencia Absoluta de la clase conjunta AiBj.

(Valor observado en la celda (i,j) de la Tabla de Contingencia)
fij  nij  f
r s
n
Frecuencia Relativa

“conjunta” de la clase conjunta ij
1
correspondiente a la i 1 j 1
intersección de Ai y Bj.
s
ni   nij
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r
(Independiente de la clases Bj a la que estén asociadas
Suma de los valores de la fila i-ésima )
j 1
n j   nij
r
Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s
(Independiente de las clases Ai a la que estén asociadas.
Suma de los valores de la columna j-ésima)
i 1
Para frecuencias
s
relativas , i = 1,....,r se tiene:
f i   f ij (Suma de los valores de la fila i-ésima
j 1 de la tabla de contingencia de frecuencias)
r
f  j   f ij
i 1
Además se verifica que:

ni n j fij nij
fi  f j  fi/j  
n n f j n j
Frecuencia Marginal
Dado el experimento anterior, cuando sólo interesa conocer la frecuencia

de ocurrencia de cada una de las variables por separado se habla de
Frecuencia Marginal de la variable
ni 
fi  n
Frecuencia (relativa) “marginal” de la variable X,
Conjunto de valores pertenecientes a las clases Ai,
 considerandolas independientemente de las calses Bj
nj
f j  n Frecuencia (relativa) “marginal” de la variable Y,
Conjunto de valores pertenecientes a las clases Bj,

considerandolas independientemente de las calses Ai
Ejemplo
Una tela se clasifica en tres categorías A, B y C según cantidad y
severidad de pequeñas imperfecciones. La empresa tiene 5
telares, en un mes dado de producción se registraron los
siguientes datos.
# piezas de tela en la clasificación

Telar A B C Marginal
1 185 16 12 213
2 190 24 21 235
3 170 35 16 221
4 158 22 7 187
5 185 22 15 222
Marginal 888 119 71 1078
Independencia Estadística
Se dice que X es independiente de Y si las frecuencias

condicionales de X/Y son todas iguales; es decir, no dependen
de la clase condicionante, esto es
f f f = .... = f = fi
A i = 1, 2, 3, ... , r
i/1 = i/2 = i/3 i/s
n n n n n + n + n +.... + n n
n 1
i1 
n 2
i2 
n 3
i3 .... 
n S
is  n i11+ n i22 + n i33 +.... + n iss  n i  f i
Luego  fi/j  fi similarmente  fj/i  f j

fij
Como  fi/j   fij  fi/j fj fij  fi  f j
f j
Frecuencia Condicional
• Cuando se “pregunta” por la frecuencia relativa de una de las varia-

bles, digamos X, restrigida a los elementos observados de una clase
dada de la otra; esto es, estudiar el comportamiento de una variable
dado un valor fijo de la otra.
fij
nij Frecuencia (relativa) de la variable X en la clase
fi/j   n conjunta AiBj, “dado” que sólo nos interesa
f j
respecto a lo observado en la clase Bj de la
j variable Y; para i = 1, 2, .., r
Constituye la distribución de frecuencia relativa

f ,f ,f
1/j 2/j 3/j, ... , f
r/j
condicional de la variable X dada la clase Bj de la
variable Y.
Nótese que se trabaja “condicionado” sobre un
tamaño de muestra “reducido” al número de
observaciones de la clase Bj dada
Notación:
Análogamente, se tiene:
fj/i = fij = frecuencia condicional = f

fr ( xi , y j )
r ( y j / xi ) 
fi fr ( xi )
X e Y son variables estadísticamente independientes ssi:
fr ( y j / xi )  fr ( y j ) ó fr ( xi / y y )  fr ( xi )
fi/j  fi ó fj/i  f j
como fij  fj/i  fi  fij  f j  fi
Asociación de Variables
1
Datos no agrupados Cov(x,y) =  ( xi - x )( yi - y )
n
Datos agrupados : Cov(x,y) =  fi ( xi - x)( yi - y )
Coeficiente de Correlación = r = Cov (x,y)

Sx Sy
Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías
2 20 15 10 45
3 12 7 5 24
4 4 10 2 16
5 - 5 10 15
Marginal 36 37 27 100
Obtener :
Distribuciones marginales
Distribuciones condicionales (4 averías), Media
y Varianza condicional
Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías
2 0,20 0,15 0,10 0,45

3 0,12 0,07 0,05 0,24
4 0,04 0,10 0,02 0,16
5 0 0,05 0,10 0,15
Marginal 0,36 0,37 0,27 1,00
fj/4 ={ 2/8; 5/8; 1/8} Xj/4 =137,5
Vj/4= 2/8(120-137,5)2 +5/8(140-137,5)2

+1//8(160-137,5)2 =
Curvas de Regresión
X
Curvas de regresión (Lineal)
y   0  1 x  
x , y son variables independiente y dependiente
respectivamente. Además  una variable estadística que
representa el error.
Los parámetros 0 y 1 pueden ser estimados a partir de
los datos {(xi , yi)}i=1,...,n mediante método de mínimos
cuadrados.
Sea ; ei  yi - yˆ i  yi - ˆ 0 - ˆ1 xi
Entonces
Modelo Estadístico (Lineal)
y   0  1x  
y
mx  0   1 x
x: variable independiente y
y : variable dependiente
 : una variable estadística que representa el error.
y   0  1x  
1
0
x
y y  0  1x  
  
yi   0  1x
y
ei
i
mx  0   1 x
x
x
Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi ,
yi)}i=1,...,n mediante método de mínimos cuadrados.
Esto es, minimizar el error cuadrático medio  min S ei2
n n
  i  min  i 0 1i
-  - 
2 2
min ( y x )
 0 1  0 1
i 1 i 1
SC xy
̂1  ˆ 0  y - ˆ1 x
SC x
n
SC E   ei
n
SC xy   ( xi - x )( yi - y )
2
i 1 i 1
n
SC x   ( xi - x )
n
VNE   ei
2 2
i 1 i 1
Ejemplo: Curvas de Regresión
Límites de Clase Marca de Consumo N° de

Ingreso Estandarizado Clase Promedio Personas
de una Población x 105 de Leche Encuestadas
Semanal
0 - 100000 0,5 2,13 532
100001 - 200000 1,5 2,82 647
200001 - 300000 2,5 3,70 692
300001 - 400000 3,5 4,25 867
400001 - 500000 4,5 4,86 865
500001 - 600000 5,5 5,16 513
600001 - 800000 7,0 5,23 530
800001 - 1000000 9,0 5,57 181
Modelo Estadístico: Ejemplo

x y SCx SCy SCxy y SCE
0,5 2,13 14,06 4,35 7,82 2,70 0,32
1,5 2,82 7,56 1,95 3,84 3,10 0,08
2,5 3,70 3,06 0,27 0,90 3,51 0,04
3,5 4,25 0,56 0,00 -0,03 3,91 0,11
4,5 4,86 0,06 0,42 0,16 4,32 0,30
5,5 5,16 1,56 0,89 1,18 4,72 0,19
7,0 5,23 7,56 1,03 2,79 5,33 0,01
9,0 5,57 22,56 1,84 6,44 6,14 0,32
S 34,0 33,72 57,00 10,74 23,10 33,72 1,37
x = 4,25 y = 4,215 4,215

1 0.4135965

0 2.4697149
Ejemplo
SCxy = 23,10 SCxy

ˆ 1 = = 0.4135965
SCx = 57,00
SCx
y = 4,215
ˆ = y - ˆ x
 = 2.4697149
x = 4,25 0 1
% de Ajuste del Modelo =
SCE 1,37
1- =
10,74
= 0,872  87,2%
SCy
Ejemplo: Curvas de Regresión
t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 17
20 40 26 14 8
20 12
V(t) 25 40 46 29 12 6 17
Sea xt = sen t yt = V(t)
Luego y(t) = 0 + 1 xt + t
min Q(  0 , 1 )  min
 0 , 1 0 , 
1
 (y
t
t -  0 - 1 xt ) 2
ˆ cov( x, y )
ˆ0  y - ˆ1 x  25,3 1  2
 20
Sx
S y  1276
2
( yt - yˆ t )  22,45
2
% de Ajuste del Modelo =

2
eˆ
1- 2
t
 0,98 100%  98%
Sy
Ajuste Lineal
6.02
Linear Fit:
5.32 Y = a + bx
4.61
3.90
Consumo
3.19
2.48
a = 2.4697149
1.78 b = 0.4135965
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Ajuste Logarítmico
6.02
Logarithm Fit:
5.32
Y = a + b*ln(x)
4.61
3.90
Consumo
3.19
2.48
1.78
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Ajuste Polinomial
6.02
Power Fit:
5.32 Y = a xb
4.61
3.90
Consumo
3.19
2.48
a = 2.6890974
1.78 b = 0.3543629
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Modelo Logístico
6.02
Logistic Model:
a
5.32 Y =
1+b*e-cx
4.61
3.90
Consumo
3.19
2.48 a = 5.6469463
b = 2.2230602
1.78 c = 0.55970905
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Modelo de Richard
6.02
Richard’s Model:
a
5.32 Y =
1+b*e(b-cx)(1/d)
4.61
3.90
Consumo
3.19
a=
5.6606384
2.48
b=
0.5984401
1.78
0.1 1.7 3.3 4.9 6.6 c= 8.2 9.8
0.5415778 Ingreso
Asociación Exponencial
6.02
Exponential Association (3):
5.32 Y = a (b - e-cx)
4.61
3.90
Consumo
3.19
2.48 a = 4.6333776
b = 1.3115177
1.78 c = 0.2709334
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Transformaciones
Sea yi = h ( xi ) con i = 1,...,n

1. Lineales yi = axi + b
y = ax + b
Sy = a Sx
2. No lineales yi = h( xi )
1
y = h(x) + h”(x) SX2
2
Sy2 Sx2  h’ (x)2
En particular 1
h(x) = ln x y = ln x - 2 ( Sx2 / x2 )
Sy2  ( Sx2 / x2 ) = CV 2
Relaciones Linealizables
1. y = K x ln y = a0 + a1 ln x
2. y=K(/x) y = a0  a1 x-1
3. y = K e x ln y = a0 + a1 x
4. y = K e-/x ln y = a0 + a1 x-1
5. yt = K +  cos t y = a0 + a1 xt
siendo xt = cos t
6. y() = y - 1 = a0 + a1 x
y-1 dy = a1 w = dy
dx dx
ln w = ln a1 + ( 1 -  ) ln y
Transformaciones
3. Box-Cox Transformaciones (1964)
( x + m ) - 1  0 x > -m
h (x) = X() = 
ln ( x + m )  =0 m>0
Transformaciones
Sea yi = h ( xi ) con i = 1,...,n

1. Lineales 2. No lineales
• yi = a + bxi • y = a + b ln x
• y = a + bx • y = a e bx
• sy = b sx
3. Linealizables
• y =axb  ln y = ln a + b ln x
• y =a(b/x)  y = a  b x-1
• y = a e bx  ln y = ln a + b x
• y = a e-b/x  ln y = ln a - b x-1
• yt = a + b cos t  y = a + b xt siendo xt = cos t

Análisis Exploratorio de Datos

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análisis Exploratorio de Datos

Enviado por

Direitos autorais:

Formatos disponíveis

Análisis Exploratorio

Clasificación : Nominal, Ordinal, Intervalos y

Organización :  Frecuencia absoluta

Tanto en la escala intervalar como en la de razón es posible distinguir dos

Para estudiar las características de una variable se ordenan los

n = S ni  número total de observaciones o tamaño de la muestra

• Reglas: Partición de la Población

• Gráficos Circulares o de Torta .

Clase Descripción Frecuencia

Usa números como una manera de separar los elementos de la

• La variable induce una partición sobre la población la

Dónde existe un orden implícito entre las mediciones. El valor

Está involucrado en concepto de distancia, y la distancia entre dos

Ejemplos: temperatura al interior de un silo, interés sólo clasificar en

• Histogramas: valores discretos y continuos.

• Frecuencia Acumulada - Ojiva.

K := N° Clases  1 + 3.3 log n  7

Límites Marca Conteo Frecuencias

Esta escala se usa cuando no sólo el orden y tamaño del

• Mediciones de Tendencia Central

• Estas medidas tienden a ubicarse en el

• Media Aritmética • Moda

• Miden la “dispersión” de valores

Variables Categóricas: (Escala Nominal)

fM = 0,282  Clase modal C

Variables Cualitativas: (Escala Ordinal)

Qi = Cj  j : min S fj > i/4 Cj : clase j

( rango C(Q3) – rango C(Q1))

Q1 = 0,286 > 0,25  P fM = 0,286  CM = P

Q4 = E rC(Q3) – rC(Q1) 4–1

Variables Cualitativas: (Escala Ordinal)

Variables Cuantitativas: (Escala Intervalar)

Existen dos maneras de realizar los cálculos

1. Datos Agrupados: cuando los datos

2. Datos No agrupados: cuando los datos se

xi-1 xi _ MD : Desviación Media

D = Índice de Dispersión = (rangQ3- rangQ1) / (K-1)

70 80 90 100 110 120

0,09 0,45 0,09

0,08 0,40 0,08

0,07 0,35 0,07

0,06 0,30 0,06

0,05 0,25 0,05

0,04 0,20 0,04

0,03 0,15 0,03

0,02 0,10 0,02

0,01 0,05 0,01

0,45 0,45 0,45

0,40 0,40 0,40

0,35 0,35 0,35

0,30 0,30 0,30

0,25 0,25 0,25

0,20 0,20 0,20

0,15 0,15 0,15

0,10 0,10 0,10

0,05 0,05 0,05

0,00 0,00 0,00

Clase Límites Marca Frecuencia Frecuencia Frecuencia Frecuencia

1 407,5- 412,5 410 4 4 0,032 0,032

Determine: Todas las medidas de localización, escala, simetria y forma

Supongamos que la variable admite una clasificación

Centros Frecuencias Absolutas Calcular

1,00 1,50 2,00 2,50

1,00 1,50 2,00 2,50