Escolar Documentos
Profissional Documentos
Cultura Documentos
METODOS CUANTITATIVOS
Contenidos
• Estadística Descriptiva
• Introducción a Inferencia Estadística
• Distribuciones de Probabilidad
• Una introducción al análisis de correlación y regresión
lineal
1
21/04/2013
¿Qué es la Estadística?
Estadística: Ciencia que trata de la recopilación
recopilación, organización
organización,
presentación, análisis e interpretación de datos numéricos
(estadísticas) con el fin de realizar una toma de decisiones más
efectiva.
2
21/04/2013
Estadística Descriptiva
Población: Conjunto
j de todos los posibles
p individuos,,
personas,objetos o mediciones de interés científico
Estadística Descriptiva
Datos
Ejemplos:
Tipo de auto
Color de cabello Discretos Continuos
Género
Número de hijos Peso de un embarque
Cantidad de empleados Distancia entre dos
ciudades
3
21/04/2013
Estadística Descriptiva
Niveles de medición
Estadística Descriptiva
Por ejemplo;
M=Masculino; F=Femenino
4
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
5
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
6
21/04/2013
Estadística Descriptiva
13
Estadística Descriptiva
7
21/04/2013
Estadística Descriptiva
Variable: Cooperación del personal para el proyecto de calidad de la
empresa.
Categorías
g Códigos
g Frecuencia
Si se ha obtenido la cooperación 1 91
No se ha obtenido la cooperación 2 5
No responden 3 26
Total 122
Ingreso familiar ($) Frecuencia
10.000-11.999 12
A veces , las categorías de las 12.000-13.999 14
distribuciones de frecuencias 14.000-15.999 24
son tantas que es necesario 16.000-17.999 15
resumirlas en clases. 18.000-19.999 13
20.000-21.999 7
22.000-23.999 6
24.000-25.999 4
26.000-27.999 3
28.000-29.999 2
Total 100
Estadística Descriptiva
8
21/04/2013
Estadística Descriptiva
¿Cómo presentar las distribuciones de frecuencia?
Estadística Descriptiva
Histograma
Motivación hacia el trabajo
40 35 36
33
30 27
20
20
10 8
10
0
20-24,9 25-29,9 30-34,9 35-39,9 40-44,9 45-49,9 50-54,9
9
21/04/2013
Estadística Descriptiva
Polígono de frecuencia
Motivación hacia el trabajo
40
35 35 36
33
30
27
25
20 20
15
10 10
8
5
0
20-24,9 25-29,9 30-34,9 35-39,9 40-44,9 45-49,9 50-54,9
Estadística Descriptiva
180
169
160 161
140 134
120
100 98
80
60 65
40
30
20
10
0
20-24,9 25-29,9 30-34,9 35-39,9 40-44,9 45-49,9 50-54,9
10
21/04/2013
Estadística Descriptiva
Diagrama de Pareto
Un diagrama de Pareto se asemeja a un histograma, excepto que es una gráfica
de barras de frecuencias de una variable cualitativa
cualitativa.
Los diagramas de Pareto se usan en el control de procesos para tabular las
causas asociadas con variaciones de causas atribuibles en la calidad del
producto. Los diagramas de Pareto permiten que tanto equipos de trabajadores
como gerentes se concentren en las áreas más importantes en las que se
necesitan acciones correctivas.
Ejemplo:
Estadística Descriptiva
30 100
20
50
10
Frecuencia
10
7
5 5
0 3 0
Ensamble Laca Abolladu Eléctric Otros
DEFECTO
11
21/04/2013
Estadística Descriptiva
Tablas de contingencia
Las tablas de frecuencia pueden organizar datos de sólo una
variable a la vez. Si se desea examinar o comparar dos
variables, una tabla de contingencia resulta de mucha
utilidad.
Estadística Descriptiva
12
21/04/2013
Estadística Descriptiva
• la media aritmética
• la mediana
• la moda
• la media geométrica
Estadística Descriptiva
Media: (Mean) La media ( promedio) es la medida de tendencia central más
utilizada y puede definirse como el promedio aritmético de una distribución.
Es una medida solamente aplicable a mediciones por intervalos o de razón.
X
X
n
donde X indica la suma de todos las X
n es el número total de valores en la muestra
M di de
Media d una población:
bl ió
X
N
indica la media poblaciona l.
N es el número total de observacio nes en la población
13
21/04/2013
Estadística Descriptiva
Ejemplo:
Nota:Cualquier
q característica medible de una muestra se llama dato
estadístico. Cualquier característica medible de una población, como la
media, se denomina parámetro.
Estadística Descriptiva
n 1
2
•. Es una medida de tendencia central propia de los niveles de una medición
ordinal, por intervalos y de razón.
•. No es influenciada por valores extremos.
•. 50%de
50%d llas observaciones
b i son mayores que la
l mediana.
di
• No necesita ser uno de los valores del conjunto de datos.
• Es única para un conjunto de observaciones.
14
21/04/2013
Estadística Descriptiva
Ejemplo:
Estadística Descriptiva
Ejemplo:
15
21/04/2013
Estadística Descriptiva
400 360
Número de respuestas
350
300
250
200 180
150 105
100 70
50
50
0
Cariño Lamoure Extasis Elegancia Nocturna
Estadística Descriptiva
16
21/04/2013
Estadística Descriptiva
Datos muestrales
La moda: La moda no es una medida aceptable de posición respecto de
datos muestrales, porque su valor puede variar ampliamente de una
muestra a otra.
Estadística Descriptiva
Ejemplo:
Se han recopilado los índices salariales de los 650 empleados por hora de
una empresa manufacturera.
f t L
La medida
did más
á representativa
t ti del
d l índice
í di
salarial típico es la mediana, porque en este caso está implicada una
población y la mediana no se ve relativamente afectada por la posible falta
de simetría de los índices salariales.
Ejemplo:
17
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
Media Geométrica
MG n ( X 1 )( X 2 )( X 3).............( X n )
18
21/04/2013
Estadística Descriptiva
Ejemplo:
Estadística Descriptiva
Ejemplo:
Suponga que usted recibe un 5 por ciento de aumento en su salario este año
y un 15 por ciento de aumento el año próximo.
próximo El incremento porcentual
promedio es 9.886, no 10.0. Empezamos por calcular la media geométrica.
Recuerde, por ejemplo, que un aumento de 5 por ciento en el salario es 105 o
1.05. Lo escribiremos como 1.05.
Esto se puede verificar suponiendo que su salario mensual sea de $3.000 al
empezar y que usted reciba dos aumentos de 5 por ciento y de 15 por ciento.
Aumento 1 = $3.000 (.05) = $150.00
Aumento 2 = $3.150 (.15) = 472.50
Total $622.50
Su aumento total de salario es $622.50. Esto es equivalente a:
$3.000.00 (.09886) = $296.58
$3.296.58 (0.9886) = $325.90
$622.48 que es aproximadamente $622.50
19
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
Ejemplo:
La población de Haarlan,
Haarlan Alaska,
Alaska era de dos personas en 1990
1990, en 2000 fue de 22
22.
¿Cuál es la tasa de incremento anual promedio de este periodo?
Solución:
Hay 10 años entre 1990 y 2000 por lo que n = 10. La fórmula (3-6) para la media
geométrica aplicada a este tipo de problema queda:
22
MG 10 1 1.271 1 0.271
2
El valor final es .271. La tasa anual de incremento es 27.1 por ciento. Esto
significa que la tasa de crecimiento en Haarlan es 27.1 por ciento por año[1].
[1
20
21/04/2013
Estadística Descriptiva
Ejercicio:
Estadística Descriptiva
Media Ponderada
w1 X 1 w 2 X 2 ..... w n X n
Xw
w1 w 2 ..... w n
21
21/04/2013
Estadística Descriptiva
Ejemplo:
Estadística Descriptiva
•Si no existe asimetría o sesgo en los datos, son iguales la media, la mediana y
la moda. La mitad de los valores están por encima de estos promedios y la
mitad por debajo de ellos ( asimetría =0).
Media
mediana
Moda
22
21/04/2013
Estadística Descriptiva
Moda Media
Mediana
Estadística Descriptiva
Cuando la asimetría es negativa significa que los valores
tienden a agruparse hacia la derecha de la curva ( por encima
de la media).
Media Moda
Mediana
23
21/04/2013
Estadística Descriptiva
Coeficiente de asimetría
Karl Pearson desarrolló una medida para evaluar el sesgo de unas
distribución denominada coeficiente de asimetría (C
distribución, (C.A)
A)
3(media mediana)
C. A
desviación estándar
Ejemplo:
Estadística Descriptiva
Curtosis;(Kurtosis) mide el grado de agudeza de una distribución.
Cuando la curtosis es cero, significa que
se trata de una curva normal, . Si es
positiva, quiere decir que la curva o
distribución es más levantada. Si es
negativa, quiere decir que la curva es
más plana .
Curva plalticúrtica
24
21/04/2013
Estadística Descriptiva
Cuartiles: Son los tres valores que dividen al conjunto de datos ordenados en
cuatro
c atro partes ig
iguales,
ales son un n caso partic
particular
lar de los percentiles
percentiles.
Deciles: son los nueve valores que dividen al conjunto de datos ordenados en
diez partes iguales, son también un caso particular de los percentiles.
Estadística Descriptiva
P
L p (n 1)
100
Donde Lp es el sitio del percentil deseado en una serie ordenada
n es el número de observaciones.
P es el percentil deseado.
25
21/04/2013
Estadística Descriptiva
Diagrama de Caja
(Box-plot)
Estadística Descriptiva
26
21/04/2013
Estadística Descriptiva
Proveedor A
.5 Proveedor B
Frecuencia
relativa .4
.3
.2
.1
9 10 11 7 8 9 10 11 12 13 15
Días hábiles Días hábiles
Estadística Descriptiva
27
21/04/2013
Estadística Descriptiva
Medidas de dispersión
Amplitud
p total ( rango)
g )
Se trata de la diferencia entre los valores mayor y menor de un
conjunto de datos.
Estadística Descriptiva
Ejecutivos
28
21/04/2013
Estadística Descriptiva
Varianza poblacional
(X X2 X
2
)2
2 o bien 2
N N N
donde
2 es el símbolo para la varianza de una población
X es el valor de la observación en la población
es la media de la población
N es el número total de observaciones en la población
Estadística Descriptiva
En general es difícil interpretar el significado del valor de una varianza,
porque las unidades en las que se le expresa son valores elevados al
cuadrado. Es más frecuente el uso de la raíz cuadrada.
( X )2 X 2 X
2
o bien
N
N N
29
21/04/2013
Estadística Descriptiva
Varianza muestral
( X ) 2
(X X) 2 X2 n
s2 o bien s 2
n 1 n 1
Estadística Descriptiva
(X )2
(X X )2 X 2
n
s o bien s
n 1 n 1
30
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
31
21/04/2013
Estadística Descriptiva
Teorema de Chebyshev
El matemático ruso Chebyshevy desarrolló un teorema q que
permite determinar la proporción mínima de los valores que se
encuentra dentro de un número específico de desviaciones
estándares con respecto a la media.
Por ejemplo, con base en el teorema de Chebyshev, al menos tres
de cada cuatro valores, o 75%, deben encontrarse entre la media
más dos desviaciones estándares y la media menos dos
desviaciones estándares.
Esta relación se aplica sin importar la forma de la distribución.
distribución
Además, al menos ocho de cada nueve valores, o 89,9%, se
encontrarán entre la media más tres desviaciones estándares y la
media menos tres desviaciones. Al menos 24 de 25 valores, o
96%, se encontrarán entre la media y menos cinco desviaciones.
Estadística Descriptiva
En términos generales, el teorema de Chebyshev establece que; para un
conjunto cualquiera de observaciones (muestra o población), la proporción
mínima de los valores que se encuentran dentro de k desviaciones estándares
desde la media es al menos.
menos
1
1 1 / k 2 1 1 / 22 1 0,75
4
32
21/04/2013
Estadística Descriptiva
El teorema de Chebyshev se refiere a cualquier conjunto de valores; esto es, la
distribución de los valores puede tomar cualquier forma. Sin embargo, para una
curva de distribución simétrica en forma de campana podemos ser más
precisos al explicar la dispersión
dispersión.
Estadística Descriptiva
68%
95%
99,7%
33
21/04/2013
Estadística Descriptiva
Ejemplo:
Estadística Descriptiva
Nota:
El concepto de desviación estándar es muy importante en los negocios y en
la economía. Por ejemplo, en finanzas la desviación estándar se utiliza como
medida
did de
d riesgo
i relacionada
l i d con varias
i oportunidades
t id d de d inversión.
i ió
Mediante el uso de la desviación estándar para medir la variabilidad en las
tasas de rendimiento ofrecidas por diferentes inversiones, el analista
financiero puede medir el nivel de riesgo que tiene cada activo financiero.
34
21/04/2013
Estadística Descriptiva
Dispersión Relativa
El coeficiente de variación (C.V) es una medida muy útil cuando:
1 L datos
1.-Los d t están tá en unidades
id d diferentes
dif t (como
( dól
dólares y días
dí ded inasistencia).
i i t i )
2.- Los datos están en las mismas unidades, pero las medias muy distantes (
como sucede con los ingresos de los ejecutivos y los ingresos de los empleados
no calificados).
3.- Cuando se desea comparar la variabilidad de dos conjuntos de datos.
Población C .V . 100
s
Muestra C .V . 100
X
Estadística Descriptiva
Ejemplo:
35
21/04/2013
Estadística Descriptiva
Ejemplo:
Estadística Descriptiva
X X
Z
s
donde X es la puntuación o valor a transformar
X es la media de la distribución
s la desviación estándar de ésta.
Z es la puntuación transformada en unidades de desviación estándar
36
21/04/2013
Estadística Descriptiva
Ejemplo:
Supongamos que en una distribución de frecuencias obtuvimos una media
de 60 y una desviación estándar de 10, y deseamos comparar a una
puntuación de 50 con el resto de la distribución. Entonces, transformamos
esta puntuación o valor en una puntuación Z. Tenemos que: _
X=50, X=60, s=10
la puntuación Z correspondiente a un valor de 50 es:
Z= (50-60)/10= -1
Estadística Descriptiva
37
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
Ejemplo:
38
21/04/2013
Estadística Descriptiva
Para discernir esto es necesario acudir al promedio y a la
desviación estándar de las notas de esos ramos de todos los
alumnos.
Estadística Descriptiva
39
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
OBS: Con los diagramas de caja también se pueden identificar los valores
atípicos, pero no necesariamente los mismos valores que aquellos menores
que 3 o mayores que 3 en los valores z.
z SE puede usar cualquiera de esos
métodos o ambos. Se trata de identificar valores que podrían no pertenecer al
conjunto de datos.
40
21/04/2013
Estadística Descriptiva
Resumen
Tipo de
variable Estadisticos Gráficos Tabla de frecuencias
Nominal Moda Gráfico de barras Frecuencias absolutas
Diagrama de
sectores Frecuencias relativas
Ordinal Moda Gráfico de barras Frecuencias absolutas
Diagrama de
Mínimo sectores Frecuencias relativas
Diagrama de cajas Frecuencias absolutas
Máximo (box‐plot) acumuladas
Amplitud Frecuencias relativas acumuladas
Mediana
Percentiles
Rango intercuartilico
Medidas de tendencia
Medidas de tendencia
Escala central Histogramas Frecuencias absolutas
Poligonos de
Medidas de dispersión frecuencias Frecuencias relativas
Medidas de forma de la
distribución (Asimetría y Diagrama de cajas Frecuencias absolutas
curtosis) (box‐plot) acumuladas
Medida de localización
relativa Frecuencias relativas acumuladas
* Cuando hay muchos valores no
tiene sentido, se agrupan en
intervalos
Estadística Descriptiva
Números indices
Un número índice es una cifra relativa (expresada en forma de
porcentaje),
t j ) que representat las
l variaciones
i i medias
di en precio,
i
cantidad o valor, de uno o más ítem en una época dada, respecto
del período base.
Los índices tratan de cuantificar variaciones, y no expresan si los
precios son altos, o si se ha producido mucho. Sólo pretenden
comparar cifras con otras que se consideran como referencia.
41
21/04/2013
Estadística Descriptiva
Indices simples
En muchos casos es preciso expresar las diversas cifras de una serie
anual o mensual en función de una que considera como base.base En este
caso, se trata de índices simples, que representan el porcentaje de
cada cifra de la serie, respecto del valor observado en el período base.
Xt
I t 100
X0
Estadística Descriptiva
X
A 100 t 1
X0
42
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
43
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
Variación IPC Dic 1998 a Oct 2000 = ((Índice IPC Oct 2000/Índice
IPC Dic 1998) –1) X 100 = 6,46%,
La variación es igual a 6,46%, que equivale a la inflación
acumulada en ese período.
44
21/04/2013
Estadística Descriptiva
Estadística Descriptiva
Debemos multiplicar
Base 100x (1+IPC Enero)=100x(1+-0,0033)=99,67=Indice IPC Enero
1999.
45
21/04/2013
Estadística Descriptiva
Ejercicio:
Estadística Descriptiva
46
21/04/2013
Estadística Descriptiva
Lo que equivale a:
IPCdic añot
Deflactor IPC base dic 99
IPC dic año1999
Estadística Descriptiva
A B C A/C
Año Ingresos corrientes IPC Deflactor IPC Ingreso en $ constantes
( $ dic de cada año) ( dic 1998=100) (base dic 99) ( base dic1999=100)
1989 116664 37 5093
37,5093 0 367
0,367 318212
1990 131678 47,7601 0,467 282076
1991 258790 56,6713 0,554 467200
1992 185600 63,8659 0,624 297322
1993 245679 71,6789 0,701 350667
1994 456876 78,0909 0,763 598571
1995 345721 84,4933 0,826 418622
1996 245696 90,0969 0,881 279001
1997 234567 95,5428 0,934 251181
1998 236458 100 0 977
0,977 241920
1999 345672 102,31 1,000 345672
Valores nominales
VALORES REALES
Deflactor
47
21/04/2013
Estadística Descriptiva
A B C (A/B)*102,31
Año Ingresos corrientes IPC A/B Ingreso en $ constantes
( $ dic de cada año) ( dic 1998=100) ( base dic1999=100)
1989 116664 37,5093 3110,269 318212
1990 131678 47,7601 2757,071 282076
1991 258790 56,6713 4566,509 467200
1992 185600 63,8659 2906,089 297322
1993 245679 71,6789 3427,494 350667
1994 456876 78 0909
78,0909 5850 566
5850,566 598571
1995 345721 84,4933 4091,697 418622
1996 245696 90,0969 2727,019 279001
1997 234567 95,5428 2455,099 251181
1998 236458 100 2364,580 241920
1999 345672 102,31 3378,673 345672
Estadística Descriptiva
A B C (A/C)*100
Año Ingresos corrientes IPC IPC Ingreso en $ constantes
( $ dic de cada año) ( dic 1998=100)
1998 100) ( dic 1999=100)
1999 100) ( base dic1999=100)
dic1999 100)
1989 116664 37,5093 36,662 318212
1990 131678 47,7601 46,682 282076
1991 258790 56,6713 55,392 467200
1992 185600 63,8659 62,424 297322
1993 245679 71,6789 70,061 350667
1994 456876 78,0909 76,328 598571
1995 345721 84,4933 82,586 418622
1996 245696 90,0969 88,063 279001
1997 234567 ,
95,5428 93,386
, 251181
1998 236458 100 97,742 241920
1999 345672 102,31 100,000 345672
48
21/04/2013
Estadística Descriptiva
El Decreto Supremo
p Nº 280 del 12 de Mayo
y de 1975 estableció q
que la UF p
pasaría
a reajustarse en forma mensual.
Estadística Descriptiva
49
21/04/2013
Estadística Descriptiva
Cálculo de la UF
UFdía = UFdía-1 x Rd
Donde:
Rd = Factor de reajuste diario del valor de la Unidad de
Fomento.
d = NNº de días comprendidos en el período para el cual se
calcula el valor diario de la UF.
vIPC-1 = Variación porcentual del IPC registrada en el mes
inmediatamente anterior.
Estadística Descriptiva
1
vIPC1 d
Rd 1
100
Ejercicio:
50
21/04/2013
INFERENCIA
RECOLECCION DE LOS
DE LOS DATOS CALCULO POBLACION
PARAMETROS
EN LA DE
MEDIANTE
MUESTRA ESTADIGRAFOS
TECNICAS
ESTADISTICAS
APROPIADAS
51
21/04/2013
Supóngase
p g que
q tenemos datos de los ingresos
g de 1000
familias chilenas. Este grupo de datos puede ser resumido
encontrando el promedio de ingreso por familia y la
dispersión de estos ingresos familiares sobre y bajo el
promedio. Estos datos también pueden ser descritos
construyendo una tabla, un diagrama o gráfico del número
de familias en cada clase de ingresos. Esta es estadística
descriptiva.
Si estas 1000 familias son representativas
representati as de todas las
familias chilenas, podemos entonces estimar y probar
hipótesis sobre el promedio de ingreso familiar en Chile
como un todo. Puesto que estas conclusiones están
sujetas a errores, tendríamos también que indicar la
probabilidad de error. Esto es inferencia estadística.
1.Probabilidad
52
21/04/2013
Probabilidad
Probabilidad
Ejemplo:
Experimento:
E i t Tirar
Ti un dado.
d d
Resultados posibles: Caer un 1
Caer un 2
Caer un 3
Caer un 4
Caer un 5
Caer un 6
Eventos p
posibles: Caer un número par
p
Caer un número mayor que 4
Caer un número 3 o menor
53
21/04/2013
Probabilidad
Enfoques de la probabilidad
Probabilidad
Probabilidad clásica
Númerode resultadosfavorables
Probabilidad de un evento
Númerototal de resultadosposibles
Ej
Ejemplo:
l
54
21/04/2013
Probabilidad
Probabilidad
Variable aleatoria
discreta continua
55
21/04/2013
Distribuciones de probabilidad
Distribuciones de probabilidad
f ( x) P ( X xi ) para i 1,2,...., n
0 para x xi
56
21/04/2013
2. Distribuciones de probabilidad
Ejemplo:
Distribuciones de probabilidad
Distribución de Poisson
xe
P( x)
x!
Donde
x es el número de veces que ocurre el evento
: Es el número promedio de eventos por unidad de tiempo
e= 2,71828 la base del logaritmo natural.
57
21/04/2013
Distribuciones de probabilidad
Distribución de Poisson
e λ T ( λ T ) x
P( x)
x!
Distribuciones de probabilidad
Ejemplo:
P (5)
105 2.7182810 0.0378
5!
116
58
21/04/2013
Distribuciones de probabilidad
Distribuciones de probabilidad
Ejemplo:
P ( x 3) P (0) P (1) P ( 2) 5 / 2e
59
21/04/2013
Distribuciones de probabilidad
Ejemplos:
P(0)
P ( 0) e λ T P(1) P(1) e λ T ( λ T )
1
T
1/ 2/
1/ 2/ T
Distribución de Poisson p
para
la probabilidad de cero Distribución
Di t ib ió ded Poisson
P i de
d
eventos en T segundos. una llamada telefónica
realizada una vez en T
segundos.
Distribuciones de probabilidad
La Distribución Binomial
60
21/04/2013
Distribuciones de probabilidad
Distribuciones de probabilidad
La probabilidad que de n número de trabajadores, un número x dado, esté
interesado en unirse al sindicato es:
n!
Px p x 1 p
n x
n C x p 1 p
x n x
x ! n x !
Ejemplo:
61
21/04/2013
Distribuciones de probabilidad
Valor esperado y varianza en la distribución binomial
E ( x) np
Var ( x) 2 np (1 p )
Distribuciones de probabilidad
62
21/04/2013
Distribuciones de probabilidad
Distribuciones de probabilidad
Ejemplo:
1 2
f ( x) x 0x3
9
Puede verificarse que f(x)0 para toda x en el intervalo 0
a 3 y que:
3 1 2
0 9
x dx 1
1 2
1 1
0 9 x dx
27
63
21/04/2013
Distribuciones de probabilidad
Ejemplo:
Distribución de probabilidad continua.
El ciclo de vida de un
f(x) componente eléctrico sigue
una distribución de
probabilidad continua.
Distribuciones de probabilidad
U di
Una distribución
t ib ió ded probabilidad
b bilid d a menudo
d puede
d
resumirse en términos de algunas de sus características,
conocidas como los momentos de la distribución. Dos
de los momentos más ampliamente utilizados son la
media, o valor esperado y la varianza.
64
21/04/2013
Distribuciones de probabilidad
E ( X ) xff ( x)
x
Distribuciones de probabilidad
Ejemplo:
x 2 3 4 5 6 7 8 9 10 11 12
f(x) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
1 2 3 1
E( X ) 2 3 4 ... 12 7
36 36 36 36
65
21/04/2013
Distribuciones de probabilidad
3
1 x4
3
x2 9
E ( X ) x dx 2.25
0
9 9 4 0 4
Distribuciones de probabilidad
1. E(b)= b
2. E(aX+b)= aE(X)+b
E ( a1 X 1 a2 X 2 ... an X n ) a1 E ( X 1 ) a2 E ( X 2 ) ... an E ( X n )
Si X, Y son variables aleatorias independientes, entonces:
3. E(XY) = E(X)E(Y)
66
21/04/2013
Distribuciones de probabilidad
2 V ( X ) ( X ) 2 P( X )
V ( X ) E ( X 2 ) E ( X ) 2
La desviación estándar de una distribución de probabilidades
di
discreta
t se determina
d t i tomando
t d la
l raíz
í cuadrada
d d ded la
l varianza.
i
( X ) 2 P( X )
Distribuciones de probabilidad
Propiedades de la varianza
Sean a y b constantes y X variable aleatoria:
67
21/04/2013
Distribuciones de probabilidad
Ejemplo
Distribuciones de probabilidad
68
21/04/2013
Distribuciones de probabilidad
f(x f (X )
1
e (X )
2 / 2 2
2 2
) E( X )
V (X ) 2
x
La distribución normal de probabilidad es importante para la inferencia estadística
por tres razones:
1.- Se sabe que las medidas obtenidas en muchos procesos aleatorios siguen esta
distribución.
2.- Las distribuciones normales sirven para aproximar otras distribuciones como la
binomial y de Poisson.
3.- La distribución de la media muestral es normal cuando el tamaño de la muestra es
grande.
Distribuciones de probabilidad
69
21/04/2013
Distribuciones de probabilidad
X
z
Donde:
X es el valor de cualquier observación específica
es la media de la distribución
es la desviación estándar de la distribución
Distribuciones de probabilidad
Ejemplo:
Ejemplo;
¿Cuál es el área bajo la curva normal entre la media y X para los siguientes
valores de z?
70
21/04/2013
Distribuciones de probabilidad
Ejemplo:
f(x)
Distribuciones de probabilidad
X 2400 2000
z 2
200
El valor z=2 indica que 2400 hr se halla por encima de la media de 2000 hr en
dos desviaciones estándar:
P(0z2)=0,4772 P(2000X2400)=0,4772
71
21/04/2013
Distribuciones de probabilidad
2200 - 2000
z 1
200
Distribuciones de probabilidad
x0
P * (x 0 ) p ( x)dx
Observe que:
P( x b) P * (b) P * (a )
P(a
Y por el teorema fundamental del cálculo integral.
dP * ( x)
p( x)
dx
72
21/04/2013
Distribuciones de probabilidad
Distribución uniforme
Una función de distribución de probabilidad p(x) se distribuye
uniformemente sobre un intervalo desde a hasta b si p(x) es constante en
todo el intervalo.
Distribuciones de probabilidad
Distribución exponencial
La variable aleatoria continua con distribución exponencial se define
como:
e x
si x 0
f ( x)
2 0 si x 0
=2
1
=1
73
21/04/2013
Distribuciones de probabilidad
L probabilidad
La b bilid d d
de obtener
bt un valor
l ded la
l variable
i bl aleatoria
l t i exponencial
i l
igual o menor que determinado valor específico x0.
x0
F ( x0 ) P ( x x0 ) e x dx 1 e x0
0
Distribuciones de probabilidad
2 1 F ( x0 ) e - x 0
1,5
0,5 F(0,5)
( , )
1- F(0,5)
0,5
74
21/04/2013
Distribuciones de probabilidad
El parámetro se toma como el número ( o fracción ) de acontecimientos de
Poisson que ocurren por unidad de tiempo.
( la unidad de tiempo elegida para la exponencial).
Ejemplo:
f (t ) 6e 6t
Distribuciones de probabilidad
75
21/04/2013
Distribuciones de probabilidad
2.- Lapsos de servicio breves
Con una distribución exponencial, son comunes los valores pequeños en el
lapso
p de servicio. En la figura
g se observa la gráfica
g de la probabilidad
p de que
q el
tiempo de servicio S sea igual o menor que t Prob(St) si el tiempo promedio de
servicio es 10, o sea =0,10 y
1/ =10.
Alta probabilidad de lapsos de servicio cortos.
1
0,632
10
Distribuciones de probabilidad
76
21/04/2013
Distribuciones de probabilidad
Si el tiempo
p entre llegadas
g tiene una distribución exponencial
p con parámetro
p ,,
entonces, en un periodo específico de tiempo (digamos T), el número de
llegadas tendrá una distribución de Poisson con parámetros T. Entonces, si X
es el número de llegadas durante el tiempo T, la probabilidad de que X sea igual
a un número dado (digamos n) se obtiene mediante la ecuación.
eλ T (λ T )n
Pr ob( X n)
n!
3. Tipos de muestra
Los parámetros de una población frecuentemente se estiman sobre
la base de estadísticas muestrales. Para emplear una estadística
muestral como estimador de un parámetro, la muestra debe ser una
muestra
t aleatoria
l t i ded una población
bl ió
Muestra probabilística
Tipos de muestra
Muestra no probabilística
154
77
21/04/2013
Tipos de muestra
155
Tipos de muestra
156
78
21/04/2013
Trabajador Salario
Javier 7
Saúl 7
Susana 8
Berta 8
Juan 7
Aura 8
Carlos 9
157
Solución:
1.- La media de la población es =7,7143 dólares
2.- Distribución de muestreo de las medias para n=2
0,30
0,20
0,10
79
21/04/2013
159
E( X ) X
n
El teorema del límite central constituye el fundamento teórico para la inferencia
estadística. Este concepto se refiere a la estimación y las pruebas de hipótesis
160
80
21/04/2013
Solución
E ( X ) 9000 X
500
83,3
n 36
b) estos cálculos indican que, a largo plazo, la media de un grupo grande de medias
muestrales, basada cada una de ellas en un tamaño de muestra n=36, será igual a
9000 hr. Además la variabilidad de estas medias muestrales respecto del valor
esperado de 9000 hr se expresa mediante una desviación estándar de 83,3 hr
161
5.Intervalos de confianza
162
81
21/04/2013
Intervalos de confianza
Error muestral e intervalo de confianza
Intervalos de confianza
En la práctica no se puede determinar el valor del error
muestral, porque no se conoce la media de la población
. Sin embargo, se puede usar la distribución muestral
x
de para establecer márgenes de probabilidad respecto
al tamaño del error muestral
164
82
21/04/2013
Intervalos de confianza
Si usamos la tabla de áreas de la distribución
normal estándar de probabilidades, vemos que el
95% de los valores de cualquier variable aleatoria
con distribución normal quedan dentro de una
distancia igual a +- 1,96 desviaciones estándar de la
media. Por consiguiente para x la distribución
muestral de x el 95% de los valores de debe
estar a +- 1,96 desviaciones estándar o menos de .
Si por ejemplo n=100 y =20 entonces la desviación
estándar
tá d ded lal distribución
di t ib ió muestral
t l es 2 y que ell
95% de las medias de muestra deben estar a +-3,92
o menos de la media de la población ( pues +-
1,96*2=+-3,92 ).
165
Intervalos de confianza
Por consiguiente podemos hacer la siguiente
aseveración probabilística sobre el error muestral
para el ejemplo; Hay un probabilidad de 0,95
0 95 de que
la media de una muestra origine un error muestral de
3,92 o menos. Esta aseveración probabilistica acerca
del error muestral es una aseveración sobre la
precisión.
Podemos definir un estimado de intervalo para
restando 3,92 de x y sumando 3,92 más
166
83
21/04/2013
Intervalos de confianza
Para interpretar el estimado de intervalo de o intervalo
de confianza para la media veamos los valores posibles
de que se p
q
x podrían obtener a ppartir de tres muestras
distintas aleatorias simples, cada una formada por 100
datos.
Supongamos que la primera media de muestra tiene el
valor que vemos indicado en la figura como x1. En este
caso, vemos en la figura que el intervalo formado, al
restar y sumar 3,92 a x1, abarca la media de población .
El intervalo basado en x2 también incluye a la media de
población . Sin embargo, el intervalo basado en la
tercera media de muestra, identificada con x3, no incluye
a la media de población; la razón es que x3 está en una
cola de la distribución, a mayor distancia que 3,92 de
167
Intervalos de confianza
Distribución
muestral de x 95% de todos
los valores de
x
3,92 3,92
x1
x2
x3
168
84
21/04/2013
Intervalos de confianza
Como el 95% de las medias de muestra posibles
estará en la región, el 95% de los intervalos
definidos al sumar y restar
x 3 92 a
3,92 abarcarán a
.
z / 2 * x o menos
169
Intervalos de confianza
z
x /2 n
Un intervalo de confianza para la media es un
intervalo estimado construido en relación con la
media muestral por medio del cual puede
especificarse la verosimilitud de que el intervalo
incluya el valor de la media de la población.
Estimación de intervalo: Expresa la amplitud dentro de la cual probablemente
se encuentra un parámetro poblacional
170
85
21/04/2013
Intervalos de confianza
El nivel de confianza asociado con un intervalo
de confianza indica el porcentaje de tales
intervalos que a largo plazo incluyen el
parámetro que está siendo estimado.
171
Intervalos de confianza
¿Cómo se elabora un intervalo de confianza?
Cuando n30 ;
X z que equivale a X
1.96
X n
s
X zs que equivale a X
1.96
X n
172
86
21/04/2013
Intervalos de confianza
Ejemplo:
Durante una semana dada, una muestra aleatoria de 30 empleados
por hora seleccionada de un gran número de empleados de una
empresa
p tiene un salario medio muestral de $180.000,, con una
desviación estándar muestral de $14. Estimamos el salario medio de
todos los empleados por hora de la empresa con una estimación por
intervalo tal como para que podamos tener una confianza de 95% de
que el intervalo incluye el valor de la media de la población de la
siguiente manera
X 1.96s 180.000 1.96(2,56) 174,98 a 185,02
x
173
Intervalos de confianza
Ejemplo:
174
87
21/04/2013
Intervalos de confianza
Solución:
1.- La media muestral vale 35.420
2.- El intervalo de confianza está entre 35170 y 35670
s
X 35420
2050
1.96 1,96
n 256
3.- La medida de confianza que se obtiene se denomina grado de confianza. En
este caso es 0,95.
4.- Si hubiera tiempo para seleccionar 100 muestras de tamaño 256 de la
población de administradores y calcular las medias muestrales y los intervalos
de confianza, la media poblacional del ingreso anual se encontraría
aproximadamente en 95 de los 100 intervalos de confianza. Un intervalo puede
o no contener a la media poblacional. Aproximadamente 5 de los 100 intervalos
de confianza no contienen a la media poblacional de ingreso anual, .
175
Intervalos de confianza
s
X o bien sX
n n
Lógicamente, una estimación de la media poblacional basada en una muestra
grande es más confiable que una estimación realizada con una muestra
pequeña.
ñ En
E otras
t palabras,
l b ell error en la
l estimación
ti ió de
d la
l media
di poblacional
bl i l
disminuye a medida que aumenta el tamaño de la muestra
176
88
21/04/2013
2
z.s
n
E
178
89
21/04/2013
2 2 2
z.s (1.645)(20) 32.9
n 121
E 3 3
179
6. Pruebas de Hipótesis
El propósito del análisis estadístico es reducir el
nivel de incertidumbre en el proceso de toma de
decisiones. Los gerentes pueden tomar mejores
decisiones sólo si tienen suficiente información a
su disposición. La prueba de hipótesis es una
herramienta analítica muy efectiva para obtener
esta valiosa información, bajo una gran variedad
de circunstancias.
180
90
21/04/2013
Pruebas de Hipótesis
¿En qué consiste la prueba de hipótesis?
181
Pruebas de Hipótesis
Procedimiento para aceptar una hipótesis
182
91
21/04/2013
Pruebas de Hipótesis
C. Decidir acerca del estadístico de prueba.
El valor 2estadístico de prueba es un valor determinado a partir de la
información muestral que se utiliza para aceptar o rechazar la hipótesis
muestral,
nula. Por lo general se utilizan el valor z, t, F,
183
Pruebas de Hipótesis
Prueba de hipótesis sobre la media poblacional
Para una prueba de hipótesis sobre la media poblacional si se conoce
la desviación estándar de la población se utiliza la fórmula (para una
muestra grande (n30)).
(n30)) La distribución muestral del estadístico z se
distribuye normalmente
X
z
n
Si no se conoce se sustituye por la desviación estándar de la muestra.
X
t
s
n
184
92
21/04/2013
Pruebas de Hipótesis
Problema:
185
Pruebas de Hipótesis
186
93
21/04/2013
Pruebas de Hipótesis
Consideremos 5% nivel de significancia de la prueba
Definición de región de aceptación y rechazo
Región de rechazo
Región de
aceptación Ho
Escala de z
-1,645 0
Valor crítico
187
Pruebas de Hipótesis
s 12 x - 45 50
1,2 z 4,1
n 100 s/ n 1,2
188
94
21/04/2013
Pruebas de Hipótesis
En el ejemplo dado la hipótesis alterna era unilateral. Se decía que la vida
media de las ampolletas era menor que 50 días. Sin embargo, se puede
presentar una hipótesis alterna bilateral. Sería en el caso de que se hubiera
dicho que la vida de las nuevas ampolletas era distinto de 50 días.
días H1: µ50.
µ50
También podría ser la hipótesis alterna unilateral derecha, cuando se dijese
que el promedio es mayor que. En este caso la región de rechazo estaría a
la derecha.
Región de rechazo
0 025
0,025 Región de rechazo
0,025
Región de aceptación Ho
-1,96 1,96
189
Pruebas de Hipótesis
Ejemplo: Un embotellador de bebidas suaves puede asumir, o plantear la
hipótesis que el contenido promedio es de 16 onzas (=16). Esta hipótesis
nula Ho se prueba contra la hipótesis alternativa H1 que establece lo
contrario. Por lo tanto se tendría que.
Ho: =16 H1: 16
190
95
21/04/2013
Pruebas de Hipótesis
Pruebas de Hipótesis
Una vez planteadas las hipótesis;
Ho: =16 H1: 16
X 0 16.357 16
Z 2.91
s 0.866
n 50
192
96
21/04/2013
Pruebas de Hipótesis
La regla de decisión es “ No se rechaza la hipótesis nula si -1,96Z 1,96.
Se rechaza si Z<-1,96 o Z>1,96
Ho:
=16
16 H1: 16
0,95
0,4750 0,4750
0,025 0,025
-1,96
1 96 1 96
1,96
193
Pruebas de Hipótesis
El paso final de la prueba de hipótesis es donde cae el valor del
estadístico para la muestra y determinar si la hipótesis nula debería
rechazarse o no.
El valor del estadístico para la muestra de 16,357 onzas produce una
Z=2,91>1.96 y cae en la zona de rechazo, cola a la derecha.
194
97
21/04/2013
Pruebas de Hipótesis
Valor p: Es el nivel más bajo de significancia (valor) al cual se puede
rechazar la hipótesis nula.
195
Pruebas de Hipótesis
Las hipótesis son
a) Ho: 31.000
H1: >31.000
Z es 1,93
, 0,4732
Valor p =0
=0,0268
0268
98
21/04/2013
Pruebas de Hipótesis
Resumen de las formas para las
hipótesis nula y alternativa
Ho : 0 Ho : 0 Ho : 0
Ha : 0 Ha : 0 Ha : 0
Se debe tener en cuenta que la hipótesis alternativa es lo que trata de
establecer la prueba. Por consiguiente, al preguntar si el usuario busca
evidencia para respaldar que < o, > o o que o, se contribuirá a
determinar Ha.
197
Pruebas de Hipótesis
Tipos de análisis; paramétricos
y no paramétricos
Análisis paramétricos
198
99
21/04/2013
Pruebas de Hipótesis
Pruebas paramétricas
Las pruebas
L b estadísticas
t dí ti paramétricas
ét i más
á utilizadas
tili d
son:
•Coeficiente de correlación de Pearson y regresión
lineal
•Prueba t
•Prueba de contraste de diferencia de proporciones
•Análisis de varianza unidireccional (ANOVA)
199
Pruebas de Hipótesis
Análisis no paramétricos
200
100
21/04/2013
Pruebas de Hipótesis
Pruebas no paramétricas
201
Pruebas de Hipótesis
¿Qué es la Chi cuadrado?
Definición; Es una prueba estadística para evaluar hipótesis acerca de la relación
entre dos variables categóricas
Se simboliza; 2
Hipótesis a probar: Correlacionales
202
101
21/04/2013
Pruebas de Hipótesis
En la tabla de contingencia se anotan las frecuencias
observadas en la muestra de la investigación.
Posteriormente, se calculan las frecuencias esperadas para
cada celda. En esencia,, la Chi cuadrado es una comparación
p
entre la tabla de frecuencias observadas y la denominada tabla
de frecuencias esperadas, la cual constituye la tabla que
esperaríamos encontrar si las variables fueran estadísticamente
independientes o no estuvieran relacionadas.
La chi cuadrada es una prueba que parte del supuesto de “no
relación entre variables” y el investigador evalúa si en su caso
esto es cierto o no, analizando si sus frecuencias observadas
son diferentes de lo que pudiera esperarse en caso de ausencia
de correlación.
203
Pruebas de Hipótesis
Prueba de independencia
1 Plantear
1.- Pl t l hipótesis
la hi ót i nula
l y alternativa
lt ti
Ho: La variable de columna es independiente de la variable de renglón
Ha: La variable de columna no es independiente de la variable de renglón
2. Tomar una muestra aleatoria y anotar las frecuencias observadas para cada
celda de la tabla de contingencias
3. Aplicar la ecuación (1) para calcular la frecuencia esperada para cada celda
eij
Total del renglón i Total de la columna j
Tamaño de la muestra
204
102
21/04/2013
Pruebas de Hipótesis
Prueba de independencia
4.-Aplicar la ecuación (2) para calcular un valor de como
2 estadístico
f ij eij 2
2
i j
eij
Rechazar H 0 si 2 2
Siendo el nivel de significación para la prueba ; si hay n renglones y m
columnas en la tabla, hay (n-1)(m-1) grados de libertad
205
Pruebas de Hipótesis
Prueba de independencia
Tabla de frecuencias esperadas
ZONA DEL DISTRITO ELECTORAL
Norte Sur Total
IDENTIFICACION Partido derechista 145,4 134,6 280
POLITICA Partido del centro 244 226 470
Partido izquierdista 150,6 139,4 290
Total 540 500 1040
206
103
21/04/2013
Pruebas de Hipótesis
Procedimiento para calcular la chi cuadrado
frec obs - frecesp2
CELDA frec observada frec esperada frecobs
frecobs-frecesp
frecesp frec obs - frecespp 2 frecesp
207
Pruebas de Hipótesis
208
104
21/04/2013
Pruebas de Hipótesis
Refresco Variable 1 variable 2
Preferencia en el sabor Atractivo del envase
Coca-Cola 1 2
Fanta 2 5
Sprite 3 1
Bilz 4 3
Pap 5 4
Quatro 6 6
Orange 7 8
Kem Piña 8 7
Pepsi 9 10
Seven-Up 10 9
209
Pruebas de Hipótesis
Análisis parámetricos
¿Qué es la prueba
¿Q p t para
p muestras independientes?
p
Definición: Es una prueba estadística para evaluar si dos grupos difieren entre si de
manera significativa respecto a sus medias.
Ejemplo:
Ho: No hay diferencia entre el ingreso medio de hombres y mujeres
H1: Hay diferencia entre el ingreso medio de hombres y mujeres
Se simboliza: t
210
105
21/04/2013
Pruebas de Hipótesis
Variable: La comparación se realiza sobre una variable. Si hay diferentes
variables, se efectuarán varias pruebas t ( una por cada variable)
Nivel de medición de la variable: Intervalos o razón
x1 x2
t
2 2
s1 s2
N1 N1
211
Pruebas de Hipótesis
Para saber si el valor t es significativo, se aplica la fórmula y se calculan
los grados de libertad . La prueba t se basa en una distribución muestral o
poblacional de diferencia de medias conocida como la distribución t de
Student.
gl ( N1 N 2 ) 2
106
21/04/2013
Pruebas de Hipótesis
Una vez calculados el valor t y los grados de libertad, se elige el nivel de
significancia y se compara el valor obtenido contra el valor que le
correspondería en la tabla t de Student.
Student Si el valor calculado es igual o
mayor al que aparece en la tabla, se acepta la hipótesis de investigación.
Pero si es menor se acepta la hipótesis nula.
El nivel de confianza 0,05 significa que existe un 95% de confianza de que
los grupos difieren significativamente entre si y 5% posibilidad de error.
Cuanto mayor sea el valor t calculado respecto al valor de la tabla y menor
sea la posibilidad de error, mayor será la certeza en los resultados.
Cuando el valor t se calcula utilizando un paquete estadístico, la
significancia se proporciona como parte de los resultados y ésta debe ser
menor q que 0,05
,
213
214
107
21/04/2013
Análisis de correlación
Análisis de correlación
Se simboliza; r
108
21/04/2013
Análisis de correlación
Análisis de correlación
109
21/04/2013
Análisis de correlación
Por ejemplo:
r 0,8
r 2 0,64
Análisis de correlación
Ejemplos:
110
21/04/2013
Análisis de correlación
muestra población
Análisis de correlación
cov( x, y ) cov( x, y )
rxy xy
sx s y x y
muestra población
111
21/04/2013
Análisis de correlación
•El
El coeficiente de correlación r (mide el grado de asociación lineal entre X y
Y) se estima de acuerdo a la fórmula:
n XY X Y
r
n X ( X ) 2 n Y 2 ( Y ) 2
2
Análisis de correlación
Ejemplo:
112
21/04/2013
Análisis de correlación
Análisis de correlación
Gráfico de dispersión
30
20
Ventas de sábado y domingo
10
0
1 2 3 4 5 6 7
1.- Ventas
3.- Si existe una fuerte correlación positiva
4.- 0,93
5.- 0,93 indica una correlación positiva fuerte entre el número de veces
que sale publicado el anuncio, y las ventas.
113
21/04/2013
Análisis de correlación
Análisis de correlación
Ejemplo:
En un cierto estudio realizado en un parque de atracciones se halló una
correlación significativa y muy alta entre la temperatura y el número de tazas de
chocolate
h l t caliente
li t servidas
id , r= 0,923
0 923 p<=0,000.
< 0 000 Lo
L cuall es un resultado
lt d muy
extraño, pues implica que cuanto mayor es la temperatura más tazas de chocolate
caliente se consumen. Sin embargo, si se controla la variable número de visitantes
el resultado es muy diferente.
Cuando hace frío, mucha gente, (de la poca gente que va) toma chocolate, pero
cuando hace calor muy poca gente, de la mucha que va toma chocolate caliente.
Es decir, como en verano va mucha gente, por poca gente que tome chocolate
caliente ya es mayor la cantidad que en invierno.
114
21/04/2013
229
115
21/04/2013
231
116
21/04/2013
E(Y)=7272/60=121,2
Es incondicional en el sentido de que para obtener esta
cifra se omiten los niveles de ingresos de las diversas
familias
234
117
21/04/2013
235
Gráfico de dispersión
Gasto de consumo v/s Ingreso
A pesar de la
200
variabilidad del
180
gasto para cada
160
ingreso, en
140
promedio el
120 consumo
Gasto de consumo
100 semanal se
80 incrementa en la
60 misma medida
40 que el ingreso
0 20 40 60 80 100 120 140 160 180 200 220 240 260 280
236
Ingreso semanal
118
21/04/2013
237
E (Y / X i ) 1 2 X i
238
119
21/04/2013
Ecuación de
E (Y / X i ) 1 2 X i regresión
(2)
poblacional FRP
239
120
21/04/2013
Yi E (Y / X i ) ui (4)
121
21/04/2013
Yi E (Y / X i ) ui 1 2 X i ui (5)
122
21/04/2013
La especificación estocástica
Yi E (Y / X i ) ui 1 2 X i ui (7)
245
123
21/04/2013
247
124
21/04/2013
Yi 1 2 X i i (8)
Donde i denota el término residual (muestral)
Conceptualmente es análogo a ui y puede ser considerado
como un estimado de ui
249
125
21/04/2013
Yi E (Y / X i ) i
251
252
126
21/04/2013
que muestra que los residuos son simplemente las diferencias entre los
valores observados y los estimados de Y.
Ahora, dados n pares de observaciones de Y y X, se está interesado en
determinar la FRM de tal manera que esté lo más cerca posible a la Y
observada.
253
254
127
21/04/2013
255
2 2
2
i i i 1 2 X i
u Y Y i Y (10)
El procedimiento
di i t ded MCO genera las
l siguientes
i i t ecuaciones
i
para estimar 1 y 2 donde n es el tamaño de la muestra
256
128
21/04/2013
Yi n 1 2 X i Ecuaciones
normales
Yi X i 1 X i 2 X i2
Resolviendo las ecuaciones normales simultáneamente se
obtiene
2
xi yi Estimadores de
1 Y - 2 X mínimos
x 2
i
cuadrados
257
129
21/04/2013
E (Y / X i ) 1 2 X i
259
Homocedasticidad Heterocedasticidad
260
130
21/04/2013
261
cov((uii , X i ) 0
Supuesto 7: El número de observaciones n debe ser mayor
que el número de parámetros por estimar.
X
2
i X
var( X )
n 1 262
131
21/04/2013
132
21/04/2013
Suma de residuos al
2 ui2 cuadrado (SRC)
(12)
Donde 2 es el estimador de MCO de la verdadera 2
.
El término número de grados de libertad significa el
número total de observaciones n menos el número de
restricciones puestas en ellas.
265
ui2 (13)
n2
266
133
21/04/2013
Un estimador 2 de MCO es el mejor estimador lineal insesgado (MELI)
de 2 si:
1. Es lineal, es decir, una función lineal de una variable aleatoria tal como
la variable dependiente Y en el modelo de regresión.
267
2. Es insesgado, es decir, su valor promedio o esperado, E ( es
2)
igual al
valor verdadero,
E ( 2 ) 2
3. Tiene varianza mínima entre la clase de todos los estimadores lineales
insesgados; a un estimador insesgado con varianza mínima se le conoce
como estimador eficiente
268
134
21/04/2013
Teorema de Gauss-Markov
269
Coeficiente de determinación r2
Una medida de la bondad del ajuste
270
135
21/04/2013
Coeficiente de determinación r2
y i yi i
Elevando la expresión al cuadrado en ambos
lados y sumando sobre la muestra, se obtiene
(14)
271
Coeficiente de determinación r2
yi Yi Y
2 2
(STC)
136
21/04/2013
Coeficiente de determinación r2
la variación residual o no
uˆ i
2 (SRC) explicada de los valores de Y
alrededor de la recta de
Así, (14) es
regresión, o simplemente la
suma de residuos al cuadrado
STC = SEC + SRC (SRC).
273
Coeficiente de determinación r2
2
Ahora, se define r2 como Y i Y
SEC
r
2
Yi Y STC
2
274
137
21/04/2013
Coeficiente de determinación r2
O en forma alterna
2
u
Coeficiente de
i SRC (15) determinación
r 1
2
1
Y STC
2
i Y
275
r
xy i i n xi y i x y
i i
x y
i
2
i
2
n x i
2
x n y y
i
2
i
2
i
2
(16)
276
138
21/04/2013
Propiedades de r
Coeficiente de
correlación muestral
278
139
21/04/2013
Interpretación de la pendiente:
279
Y X
2 0,5091 se( 2 ) 0,0357
70 80
65 100
90 120 r 2 0,9621 r 0,9809
95 140
110 160
115 180
120 200
140 220
Por tanto la línea de regresión estimada es
155 240
280
140
21/04/2013
Resultados en SPSS
Coeficientesa
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 24,455 6,414 3,813 ,005
X ,509 ,036 ,981 14,243 ,000
a. Variable dependiente: Y
281
Interpretación:
141
21/04/2013
284
142
21/04/2013
saˆla
l = -0.90 + 0.54(8) = 3.42, o 3.42 dólares por hora
(en dólares de 1976).
La estimación de la pendiente implica que un año más
de educación aumenta el salario promedio en 54
centavos de dólar por hora.
285
El supuesto de normalidad:
El modelo clásico de regresión lineal normal
143
21/04/2013
La regresión
L ió lineal
li l normall clásica
lá i supone que
cada ui, está normalmente distribuida con
Media : E(ui ) 0
E ui E (ui ) E (ui2 ) 2
2
Varianza :
Cov(ui , u j ) :
E ui E (ui ) u j E (u j ) E (ui u j ) 0 i j
ui ~ N(0, 2 )
287
El supuesto de normalidad
144
21/04/2013
Estimación de intervalos
289
Estimación de intervalos
145
21/04/2013
Simbólicamente
Pr 2 - 2 2 1
Tal intervalo, si existe, se conoce como intervalo de
confianza;
a 1 - se le denomina coeficiente de confianza; y (0 < <
1) se conoce como el nivel de significancia.
Los puntos extremos del intervalo de confianza se conocen
2 - de confianza (también denominados
como límites 2 valores
críticos) siendo
críticos), el límite de confianza inferior y
el límite de confianza superior.
Obsérvese que en la práctica y 1 - son expresados
frecuentemente en forma porcentual como 100 y 100(1 -
)%.
292
146
21/04/2013
293
147
21/04/2013
Se tiene
24,4545 - 2,306(6,41 38)
1 1
t
se( 1 )
296
148
21/04/2013
0,5091 0,3
t 5,86
0,0357
Si 5%, , , gl 8 entonces t 0 , 025 2.306
luego el t calculado es mayor al t de tabla y por lo tanto se rechaza la hipótesis nula
El procedimiento
di i t anterior
t i se denomina
d i prueba b t.
t En
E ell
lenguaje de pruebas de significancia, se dice que un
estadístico es estadísticamente significativo si el valor del
estadístico de prueba se encuentra en la región crítica. En
nuestro ejemplo, el estadístico t es significativo y
procedemos a rechazar la hipótesis nula.
297
la predicción individual.
149
21/04/2013
proporciona la estimación
puntual de esta predicción media de
la siguiente forma: Y0 1 2 X 0
24.4545 0.5091(100) 75.3645
Donde Y0 = estimador de E(Y I Xo).
Xo) Puede demostrarse que
este predictor puntual es el mejor estimador lineal e insesgado
(MELI).
Y0
Puesto que es un estimador, es probable que éste sea
diferente de su verdadero valor. La diferencia entre los dos
valores dará alguna idea sobre el error de predicción o de 299
pronóstico.
150
21/04/2013
Predicción individual
(18)
n
xi
Puede demostrarse además que Y0 también sigue una
distribución normal
con media y varianza dadas por (17) y (18),
respectivamente.2 Sustituyendo 2desconocida por se
cumple que
Y0 Y0
t también sigue una distribución t
ee(Y0 Y0 )
302
151
21/04/2013
303
304
152
21/04/2013
305
ln Yi ln β1 β2 ln X i μi
Si escribimos como
ln Yi β2 ln X i μi
Donde y β2
ln β1 este modelo es lineal en los parámetros
y lineal en los logaritmos de las variables Y y X y puede ser
estimado por regresión MCO
306
153
21/04/2013
307
Y 2 i
Yi 1 X i e
d demandada
ln Y ln β1 β2 ln X i
Cantidad
ln de can
lnX
Precio X Ln del Precio
308
154
21/04/2013
Ejemplo
Gasto en bienes duraderos respecto al gasto de consumo personal total
310
155
21/04/2013
156
21/04/2013
Solución
Gráfico de dispersión
p
18
16
14
12
s de dólares)
10
6
Pedidos (miles
0
0 2 4 6 8 10
Número de llamadas
313
c)
Y a bX
Número de pedidos 0,105 1,85 (llamadas )
d)
Y a bX
Número de pedidos 0,105 1,85 (5) 9,145
157
21/04/2013
Ejemplo:
Solución:
a)
Y a bX
Cantidad gastada 60.4 11,3 (tamaño)
b)
S Y,X
(Y Y ) 3467,2
20,818
n2 8
158
21/04/2013
Recta de
regresión Las tres medias quedan
en la recta de regresión
X
X1 X2 X3
159