Escolar Documentos
Profissional Documentos
Cultura Documentos
de Datos
Clasificación/Tipo de Datos
• Cualitativo (Categorías)
• Nominal Viña = 1 ; Santiago = 2 ; Temuco = 3 ..etc.
• Ordinal Pobre = 1; Aceptable = 2;
Bueno = 3; Excelente = 4
• Cuantitativo (Números)
• Intervalo estatura, viscosidad, distancia, duración...etc
• Razón temperatura, peso...etc
NOTA:
El tipo de Estadísticas que se pueden obtener o calcular
depende del tipo de dato que se trate.
Por ejemplo promedio, mediana y varianza no tienen
sentido con datos categóricos (si con proporciones)
Escalas de Medida
Variables Cuantitativas
Organización/Presentación
Frecuencia Relativa.
Se llama frecuencia relativa de la clase ci a la proporción
de individuos que pertenecen a la clase sobre el total de
individuos o tamaño de la muestra. Se de nota por fi. Se
puede verificar que
k
n
fi = ---i nótese que .... S fi = 1
n i=1
Presentación de Datos Cualitativos
• Tablas Tabligrama.
• Gráficos de Barras Diagrama de Pareto.
2 60
3 51
4 25
5 10
6 8
Escala Nominal
120
107 Diagrama de Pareto
100
80
Frecuencia
60
60
51
40
25
20
10 8
0
1 2 3 4 5 6
Clase
Escala Nominal
5 6
4% 3%
4 Diagrama Circular
10%
1
40%
3
20%
2
23%
Escala Ordinal
9
Diagrama de Bloques
8
0
Pobre Regular Aceptable Bueno Muy Bueno
Escala Intervalar
Considera no sólo la información pertinente al orden, sino además,
el tamaño relativo de los intervalos a que pertenece cada uno de los
individuos. En este nivel es posible cuantificar la diferencia de todos
los individuos pertenecientes a los intervalos, clases o categorías
distintas.
• Tabligramas.
• Tablas de Frecuencia.
Ejemplo: 40 Datos
10 7 8 Diagrama de
11 1 2 3 7 9 Tallos-y-hojas
12 0 3 3 4 6 8
13 1 2 2 4 5 6 7 8
14 0 1 2 3 3 5 7 8 8
15 0 2 3 3 8 8
16 0 0 1 2
Tabla de Frecuencias
0
107 116 125 134 143 152 161
Polígono de Frecuencias
0
99 107 116 125 134 143 152 161 170
Frecuencia Acumulada: Ojiva
40
39
38
37
36
35
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
99 107 116 125 134 143 152 161 170
Escala de Razón
• Varianza • Rango
• Desviación Estándar • Rango Cuartílico
• Desviación Media • Rango Percentil
Medidas de Tendencia y Dispersión
0,5000
Mediana
Moda
0,4500
Media
0,4000 Aritmética
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000 Q1 Q2 Q3 Q4
0,0500
0,0000
0 1 2 3 4 5 6 7
Rango
Tipo de Variable
ni
fM fi = i = 1, 2, 3, ..., k.
n
nM n - nM
V = 1 – fM = 1- =
n n
Ejemplo
En un estudio de mercado se considera una muestra de 1100 fumadores
averiguando la marca de cigarrillo que fuman, se obtienen la siguiente Tabla
Marca A B C D
Frecuencia 220 270 310 300
Frec. Relativa 0,200 0,245 0,282 0,273
Mediana = C(Q2)
1 2 3 4 5
Calificación P R S B E
Frec. Absoluta 20 10 18 16 6
Frec. Relativa 0,286 0,143 0,257 0,229 0,086
Frec Acumul 20 30 48 64 70
Frec Aculm.Relat. 0,286 0,429 0,686 0,914 1,000
Medidas de homogeneidad
Señal de Ruido = - log S2
CV =
S
X 2 X
Escala Intervalar
X= f *X n
i i
i =1 Xi
ni i =1
X=
n
ai
xi Xi+1
X : Media Aritmética
fi : Frec. relativa Clase i = ni
n Xi : i-ésimo valor observado
Xi : Marca Clase i
_ n : Tamaño Muestra
X : Media Aritmética
k : N° de clases
ni : Frec. absoluta Clase i
n : Tamaño Muestra
ai : Amplitud de Clase i
Tendencia Central: Moda
Datos Agrupados: Datos NO Agrupados:
D
M o = L + aM
D + D
1
Es el valor que ocurre con
1 2
mayor frecuencia: el valor
D1 más común.
nM D
2
n1 • Puede que no exista
n2 moda.
aM • Puede que exista
más un valor Modal
L xM
L : Límite inferior Clase modal
aM : Amplitud Clase Modal
D1 : nM - n1
D2 : nM - n2
nM : Frec. absoluta Clase Modal V = Tasa de Variación = 1 – fM
n1 : Frec. absoluta Clase anterior a Clase Modal
n2 : Frec. absoluta Clase posterior a Clase Modal
Tendencia Central: Mediana
Datos Agrupados: Datos NO Agrupados:
n-
( N ) Si los datos se ordenan de
Me = L + a 2 e-1
e n orden ascendente de
e magnitud, entonces la
Ne-1= Sfi
i = e-1
Mediana está dada por:
ne
i=1
ae n+1
Me =
2
• Si n es impar , la Mediana
L xe es exactamente el valor
L : Límite inferior Clase del medio
Mediana (C Me) • Si n es par , la Mediana es el
Ne-1 : Frec. Acumulada hasta antes
promedio de los valores
centrales
(C Me)
ne : Frecuencia Absoluta (C Me)
ae : Amplitud (C Me)
n : Tamaño de la muestra
Dispersión: Varianza Muestral
Datos Agrupados: Datos NO Agrupados:
k _
S2 = fi ( X i - X ) 2
n _
( X i - X )2
i =1 1
S2 =
ne n i =1
ni
ae nk
s2 : Variancia Muestral
xi-1 xi _
xk
x X : Media Aritmética
Xi : i-ésimo valor observado
fi : Frec. relativa Clase i
X
_i : Marca Clase i n : Tamaño Muestra
X : Media Aritmética
ni : Frec. absoluta Clase i
n : Tamaño Muestra
k : N° de clases
Dispersión: Desviación Media
Datos Agrupados: Datos NO Agrupados:
k
MD = f i Xi - X
n _
i =1
i =1
Xi- X
ne MD =
n
ni
ae nk
Mediana
3
Características de forma: Simetría
m3
Coeficiente de Simetría de Fisher 1 = Sesgo.
S3
0,00
0 2,5 5 7,5 10 12,5 15 17,5 20 -4 -3 -2 -1 0 1 2 3 4 0 2,5 5 7,5 10 12,5 15 17,5 20
0
1 < 0 1 = 0 1 > 0
Distribución, Distribución,
tiende a Distribución, tiende a
concentrarse es simétrica concentrarse
en Valores respecto a la en Valores
Altos de la Media Bajos de la
Variable Mo = MA = Me Variable
Mo > MA > Me Mo < MA < Me
Características de forma: Achatamiento
m4
Coeficiente 2 = -3
4
Curtosis
S
2 < 0 2 = 0 2 > 0
Distribución tiende a Distribución tiende a
concentrarse alrededor de dispersarse
Distribución
la Media.
“Normal”
Variancia grande
Variancia Pequeña
Achatada.
Aguzada
Ejercicio: Se desea determinar las características de resistencia a la ruptura bajo cargas de
tensión del concreto ofrecido por cierto proveedor. Para ello se les solicita 125 probetas de
0,5 pies de diámetro por 1 pie de longuitud. La carga de tensión se mide en lb/pug2.
El laboratorio de resitencia de materiales proporciona la tabla de frecuencias
E1 m
E2 n1 V
1 n
h 1
h n
n2 V2 X1
Em nh
nm ph
X2 Vm n
Xm m- estratos
k k
nih
fih
nh f
i 1
ih 1 n
i 1
ih nh
k k
X h fih X i Vh fih ( X i - X h ) 2
i 1 i 1
m
fi ph fih
h 1
Análisis de una muestra estratificada
Entonces: m
X ph X n
h 1
m m
VT phVh ph ( X h - X ) 2
h 1 h 1
VT Vint ra Vint er
Ejemplo
Se tiene 3 criaderos de aves. En el criadero (1) se ponen 50
pollos recién nacidos; en el (2) 200 pollos y en el (3) 100 pollos.
Al cabo de un cierto tiempo se pesan los 350 pollos,
encontrándose que algunos están muertos y los vivos pesan
entre 1,00 [kg]. y 2,50 [kg]. Para los efectos del registro los pollos
muertos se supondrán de peso cero, y el cero actuará como
centro del supuesto intervalo. Los otros intervalos serán
1,00 ; 1,50 1,50 ; 2,00 2,00 ; 2,50.
Frecuencia
Relativa Histograma Apilado por Peso
0,7
0,6
0,5
Criadero 1
0,4
Criadero 2
0,3 Criadero 3
0,2
0,1
0 Peso
0 1,25 1,75 2,25
0,4
0,3 Criadero 1
Criadero 2
0,2 Criadero 3
0,1
0 Peso
0 1,25 1,75 2,25
Se ha obtenido, entonces:
•Varianza Total
VT= 0,2607
Estadística Bivariada
n =_ n
Tabla de Contingencia
f =_1
Estadística Bivariada
Notación:
fi =
fj
ij = frecuencia marginal = f (x , y ) f (x )
j
r i j r i
fj=
fi
ij = frecuencia marginal = f (x , y ) f ( y )
i
r i j r j
fij fr ( xi , y j )
fi/j = = frecuencia condicional = fr ( xi / yj)
f j fr ( y j )
Tabla de Contingencia
fij nij f
r s
n
Frecuencia Relativa
“conjunta” de la clase conjunta ij
1
correspondiente a la i 1 j 1
intersección de Ai y Bj.
s
ni nij
Frecuencia Absoluta de la clase Ai; para i= 1, ,2, ... ,r
(Independiente de la clases Bj a la que estén asociadas
Suma de los valores de la fila i-ésima )
j 1
n j nij
r
Frecuencia Absoluta de la clase Bj; para j= 1, ,2, ... ,s
(Independiente de las clases Ai a la que estén asociadas.
Suma de los valores de la columna j-ésima)
i 1
Tabla de Contingencia
Para frecuencias
s
relativas , i = 1,....,r se tiene:
f i f ij (Suma de los valores de la fila i-ésima
j 1 de la tabla de contingencia de frecuencias)
r
f j f ij
i 1
ni
fi n
Frecuencia (relativa) “marginal” de la variable X,
Conjunto de valores pertenecientes a las clases Ai,
considerandolas independientemente de las calses Bj
nj
f j n Frecuencia (relativa) “marginal” de la variable Y,
Conjunto de valores pertenecientes a las clases Bj,
considerandolas independientemente de las calses Ai
Tabla de Contingencia
Ejemplo
Una tela se clasifica en tres categorías A, B y C según cantidad y
severidad de pequeñas imperfecciones. La empresa tiene 5
telares, en un mes dado de producción se registraron los
siguientes datos.
n n n n n + n + n +.... + n n
n 1
i1
n 2
i2
n 3
i3 ....
n S
is n i11+ n i22 + n i33 +.... + n iss n i f i
fij
nij Frecuencia (relativa) de la variable X en la clase
fi/j n conjunta AiBj, “dado” que sólo nos interesa
f j
respecto a lo observado en la clase Bj de la
j variable Y; para i = 1, 2, .., r
Notación:
Análogamente, se tiene:
fr ( y j / xi ) fr ( y j ) ó fr ( xi / y y ) fr ( xi )
fi/j fi ó fj/i f j
Estadística Bivariada
Independencia Estadística
Asociación de Variables
1
Datos no agrupados Cov(x,y) = ( xi - x )( yi - y )
n
Datos agrupados : Cov(x,y) = fi ( xi - x)( yi - y )
2 20 15 10 45
3 12 7 5 24
4 4 10 2 16
5 - 5 10 15
Marginal 36 37 27 100
Obtener :
Distribuciones marginales
Distribuciones condicionales (4 averías), Media
y Varianza condicional
Ejercicio
Fallas Anuales
Temperatura 120 140 160 Marginal
Averías
X
Curvas de regresión (Lineal)
y 0 1 x
x , y son variables independiente y dependiente
respectivamente. Además una variable estadística que
representa el error.
Los parámetros 0 y 1 pueden ser estimados a partir de
los datos {(xi , yi)}i=1,...,n mediante método de mínimos
cuadrados.
Sea ; ei yi - yˆ i yi - ˆ 0 - ˆ1 xi
Entonces
Modelo Estadístico (Lineal)
y 0 1x
y
mx 0 1 x
x: variable independiente y
y : variable dependiente
: una variable estadística que representa el error.
Modelo Estadístico (Lineal)
y 0 1x
1
0
x
Modelo Estadístico (Lineal)
y y 0 1x
yi 0 1x
y
ei
i
mx 0 1 x
x
x
Los parámetros 0 y 1 pueden ser estimados a partir de los datos {(xi ,
yi)}i=1,...,n mediante método de mínimos cuadrados.
Esto es, minimizar el error cuadrático medio min S ei2
n n
i min i 0 1i
- -
2 2
min ( y x )
0 1 0 1
i 1 i 1
SC xy
̂1 ˆ 0 y - ˆ1 x
SC x
n
SC E ei
n
SC xy ( xi - x )( yi - y )
2
i 1 i 1
n
SC x ( xi - x )
n
VNE ei
2 2
i 1 i 1
Ejemplo: Curvas de Regresión
1 0.4135965
0 2.4697149
Ejemplo
SCx = 57,00
SCx
y = 4,215
ˆ = y - ˆ x
= 2.4697149
x = 4,25 0 1
SCE 1,37
1- =
10,74
= 0,872 87,2%
SCy
Ejemplo: Curvas de Regresión
t 0 1 2 3 4 5 6
V(t) 30 60 46 32 10 4 17
20 40 26 14 8
20 12
V(t) 25 40 46 29 12 6 17
Luego y(t) = 0 + 1 xt + t
min Q( 0 , 1 ) min
0 , 1 0 ,
1
(y
t
t - 0 - 1 xt ) 2
ˆ cov( x, y )
ˆ0 y - ˆ1 x 25,3 1 2
20
Sx
S y 1276
2
( yt - yˆ t ) 22,45
2
2
eˆ
1- 2
t
0,98 100% 98%
Sy
Ajuste Lineal
6.02
Linear Fit:
5.32 Y = a + bx
4.61
3.90
Consumo
3.19
2.48
a = 2.4697149
1.78 b = 0.4135965
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Ajuste Logarítmico
6.02
Logarithm Fit:
5.32
Y = a + b*ln(x)
4.61
3.90
Consumo
3.19
2.48
1.78
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Ajuste Polinomial
6.02
Power Fit:
5.32 Y = a xb
4.61
3.90
Consumo
3.19
2.48
a = 2.6890974
1.78 b = 0.3543629
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Modelo Logístico
6.02
Logistic Model:
a
5.32 Y =
1+b*e-cx
4.61
3.90
Consumo
3.19
2.48 a = 5.6469463
b = 2.2230602
1.78 c = 0.55970905
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Modelo de Richard
6.02
Richard’s Model:
a
5.32 Y =
1+b*e(b-cx)(1/d)
4.61
3.90
Consumo
3.19
a=
5.6606384
2.48
b=
0.5984401
1.78
0.1 1.7 3.3 4.9 6.6 c= 8.2 9.8
0.5415778 Ingreso
Asociación Exponencial
6.02
Exponential Association (3):
5.32 Y = a (b - e-cx)
4.61
3.90
Consumo
3.19
2.48 a = 4.6333776
b = 1.3115177
1.78 c = 0.2709334
0.1 1.7 3.3 4.9 6.6 8.2 9.8
Ingreso
Transformaciones
1. y = K x ln y = a0 + a1 ln x
2. y=K(/x) y = a0 a1 x-1
3. y = K e x ln y = a0 + a1 x
4. y = K e-/x ln y = a0 + a1 x-1
5. yt = K + cos t y = a0 + a1 xt
siendo xt = cos t
6. y() = y - 1 = a0 + a1 x
y-1 dy = a1 w = dy
dx dx
ln w = ln a1 + ( 1 - ) ln y
Transformaciones
( x + m ) - 1 0 x > -m
h (x) = X() =
ln ( x + m ) =0 m>0
Transformaciones
3. Linealizables
• y =axb ln y = ln a + b ln x
• y =a(b/x) y = a b x-1
• y = a e bx ln y = ln a + b x
• y = a e-b/x ln y = ln a - b x-1
• yt = a + b cos t y = a + b xt siendo xt = cos t