Você está na página 1de 69

RESUMEN NUMÉRICO

DE LOS DATOS
MEDIDAS DE CORRELACIÓN

MÓDULO 2

JUAN NARRO LAVI


PROFESOR DE ESTADÍSTICA
PARA LA ADMINISTRACIÓN
“LA ESTADÍSTICA ES UNA CIENCIA QUE
DEMUESTRA QUE SI MI VECINO TIENE DOS
AUTOS Y YO NINGUNO, EN PROMEDIO
LOS DOS TENEMOS UNO.”
George Bernhard Shaw

Figura 2.1

Figura 2.1. Imagen tomada de “Matemáticas”, por UAM. Recuperado de


http://www.uam.es/ss/Satellite/Ciencias/es/1242655568413/contenidoFinal/Matematicas.htm
Sumario
1. Medidas de Tendencia Central

2. Medidas de Dispersión

3. Simetría y Medida de Curtosis

4. Coeficiente de Correlación

5. Recta de Regresión
Estadística Sumaria

Descripción Numérica de Datos

Tendencia Central Dispersión

Rango
Media Aritmetica Rango Intercuartil

Varianza
Mediana
Desviación Estándar
Moda Coeficiente de Variación
Estadística Sumaria

Tendencia Central

Media Mediana Moda

Promedio Punto medio de Valor observado


Aritmético los Datos Ordenados frecuentemente

(Levin & Rubin, 2004, p. 70)


Medidas de Tendencia Central
Aquellas que nos indican cual podría ser el punto medio
o típico de un conjunto de datos analizados.

Llamados “Promedios”.

Promedios principales:
Media aritmética simple
Media ponderada
Media geométrica
Media Armónica Figura 2.2
Mediana
Moda
Figura 2.2. Imagen tomada de “El banquero colega”, por Rafa. Recuperado de
http://rafabatallitas.blogspot.pe/2011_11_01_archive.html
Media Aritmética Simple
Todo conjunto de variables posee una media.
Incluye a todos los valores.
Es única.
Suma de las desviaciones de cualquier valor y la media es cero.

-2
-1 +3
(Adaptado de Lind et al., 2012, p. 59-60)

1 2 3 4 5 6 7 8 9

Figura 2.3 (Lind et al., 2012, p. 88)

Figura 2.3. Tomado de “La media como punto de equilibrio”, por Lind et al., 2012, Estadística aplicada a los
negocios y la economía (15ª ed.), p.61. Copyright 2012 por Mc Graw Hill.
Media Aritmética
Ventajas:
- Concepto familiar para muchas personas
- Es única para cada conjunto de datos
- Es posible comparar medias de diferentes muestras

Desventajas:
- Se ve afectada por los datos extremos.

1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media = 3 Media = 4
(Levin & Rubin, 2004, p. 65)
Media Ponderada

Media aritmética en la
cual se considera a cada
uno de los valores de las
variables de acuerdo con
su importancia relativa
en el grupo.

(Adaptado de Lind et al., 2012, p. 63)


Media Geométrica
De n números positivos es la raíz n-ésima del producto
de los n números.

Para promediar porcentajes, índices y cifras relativas.

Determinar el incremento porcentual promedio en


ventas, producción, etc.

(Adaptado de Lind et al., 2012, p. 72-73)


Mediana
Punto medio de los
valores después de
ordenarlos.
Datos No Agrupados

Es un promedio de (Adaptado de Levin y Rubin, 2004, p. 77)


posición.

No es afectada por
valores extremos.
Datos Agrupados

(Adaptado de Levin y Rubin, 2004, p. 80)


Mediana
Ejemplo:
Los siguientes datos se refieren al número de clientes
atendidos durante los últimos 11 días en una tienda de
a r t e f a c t o s .
Calcule e interprete la mediana.

12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16

mediana
5 datos menores 5 datos mayores

Primero se ordenan lo datos:


5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17

Interpretación:
Durante 5 días se atendieron a menos de 11 clientes, y
durante 5 días se atendieron a más de 11 clientes.
Mediana
Reglas
1.- Si la serie es impar, la mediana ocupa el lugar central de
la serie previamente ordenada.
Ejemplo:
5, 10, 10, 12, 15, 17, 20, 21, 24

2.- Si la serie es par, la mediana se obtiene de la semisuma


de los dos valores centrales de la serie previamente
ordenada
Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34

mediana
Mediana

Ventajas:
Los valores extremos no afectan a la mediana como
en el caso de la media aritmética.
Es fácil de calcular, interpretar y entender.
Se puede determinar para datos cualitativos.

Desventajas:
Como valor central, se debe ordenar primero la serie
de datos.
(Levin y Rubin, 2004, p. 80)
Moda
Valor que más se repite en
un conjunto de datos.

No es afectada por valores


extremos. Datos Agrupados

Para datos discretos es fácil


de calcular.

No puede ser calculada


exactamente en una dist. de
frecuencias.
(Lind et al., 2012, p. 65-66)
Moda

Ejemplo:
4, 5, 7, 8, 8 , 10, 12, 15
UNIMODAL

4, 7, 12,12 , 15, 16, 20, 20 , 24, 27


BIMODAL

7, 12, 15, 18, 25, 30, 31, 38 AMODAL


Moda
Ventajas:
Se puede utilizar tanto para datos cualitativos como
cuantitativos.

No se ve afectada por los valores externos

Desventajas:
No tiene un uso tan frecuente como la media.

Muchas veces no existe moda (distribución amodal).

En otros casos la distribución tiene varias modas, lo


que dificulta su interpretación.
(Levin & Rubin, 2004, p. 86)
Selección del Promedio Apropiado

OBSERVACIÓN DATOS
22, 24, 25, 26, 27, 28,
EDAD 28, 29, 30, 31, 33, 34

INGRESO EN 8, 8.2, 9,10,11,12,


MILES DE $ 12.3,12.5,13,13.5, 86,97

39, 40, 41, 41, 41, 41,


TALLA ZAPATOS
42, 42, 43, 43, 44, 45
Selección del Promedio
Más Adecuado
La mediana siempre es la posición central.

La moda se puede emplear cuando se requiere una


idea rápida de la tendencia central.

La más usada es la media aritmética.

La más representativa para datos de una distribución


asimétrica es la mediana.

Media valor de equilibrio de Magnitud .


Mediana valor de equilibrio de Cantidad.
Moda valor con mayor frecuencia.
Cuartiles, Deciles y Percentiles
(Fractiles o cuantiles)
Medidas de posición.
Dividen en :
- Cuatro (Qj) Datos No Agrupados
- Diez (Dj)
- Cien (Pj)
Formulación semejante
a la mediana. Datos Agrupados
Medidas de Dispersión
Evaluemos:

10 10 10 10 20 30 30 30 30 MEDIA 20 MED. 20 MOD 30

20 22 21 20 20 19 18 20 20 MEDIA 20 MED. 20 MOD 20

1 4 6 8 20 32 34 36 39 MEDIA 20 MED. 20 MOD -

10 12 14 16 20 24 26 28 30 MEDIA 20 MED. 20 MOD -


Medidas de Dispersión

Dispersión

Rango Desviación Varianza Desviación Coeficiente


Media Estándar de Variación

Información sobre la
variabilidad de los datos.

Mismo centro,
Diferente variación
Rango o Recorrido
Diferencia entre el valor
mayor y el valor menor
Datos No Agrupados de un conjunto de datos.

No está afectado por los


Datos Agrupados valores comprendidos
entre los extremos.
(Adaptado de Lind et al., 2012 p.76)

(Levin & Rubin, 2004, p. 92)


Rango o Recorrido
Ventajas
Fácil de calcular
Fácil de entender e interpretar
Desventajas
Solo considera los valores extremos
No toma en cuenta ni el número de datos
ni el valor de estos

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Rango = 14 - 1 = 13

(Levin & Rubin, 2004, p. 92)


Desviación Media
Media de los valores
absolutos de las diferencias
entre las variables y la media.
Datos No Agrupados
Da una mejor descripción de
la dispersión que el rango.

Datos Agrupados

(Adaptado de Lind et al., 2012, p. 76, 78)


Varianza
Media aritmética de las
desviaciones cuadráticas
respecto a la media.

Expresada en unidades al Población


cuadrado.

n-1, factor de corrección.

Muestra

(Adaptado de Lind et al., 2012, p. 79-80, 83)


Desviación Estándar
Es la raíz cuadrada positiva
de la varianza.

Unidades originales.
Población
Permite medir el % de
elementos dentro de
intervalos de una curva
simétrica.
Muestra
Puntaje estándar (Z).

(Lind et al., 2012, p. 80-82, 84)


Comparación de
Desviaciones Estándar
Datos A
Media = 15.5
s = 3.338
11 12 13 14 15 16 17 18 19 20 21

Datos B
Media = 15.5
s = 0.9258
11 12 13 14 15 16 17 18 19 20 21

Datos C
Media = 15.5
s = 4.57
11 12 13 14 15 16 17 18 19 20 21
Puntaje o Resultado Estándar (Z)

-3 -2 -1 +1 +2 +3

Z
-3 -2 -1 0 +1 +2 +3

(Levin & Rubin, 2004, p. 99)


Interpretación y usos de la
Desviación Estándar
Regla Empírica, si la distribución de datos tiene forma
acampanada, entonces el intervalo:

contiene cerca 68% de los valores en la


población o muestra.

68%

(Adaptado de Levin & Rubin, 2004, p. 211)


Interpretación y usos de la
Desviación Estándar
2 contiene cerca 95% de los valores en la
población o muestra.

3 contiene a casi todos (cerca 99.7%)


los valores de la población o muestra.

95% 99.7%

2 3

(Adaptado deLevin & Rubin, 2004, p. 211)


Interpretación y usos de la
Desviación Estándar

34.13% 34.13%

13.60% 13.60%

2.135% 2.135%

0.135% 0.135%

-3 -2 -1 +1 +2 +3

68.26%
95.46%
99.73%
Figura 2.10.

Figura 2.10.
Adaptado de “Usos de la desviación estándar”, por Levin & Rubin, 2004,
Estadística para administración y economía (7a ed.), p.98. Copyright 2004 por Pearson Prentice Hall.
Coeficiente de Variación

Indica la magnitud relativa de la


desviación estándar con respecto
Población
a la media aritmética.

Comparación de distribuciones.
Muestra

(Levin & Rubin, 2004, p. 107)


Coeficiente de Variación

CV Grado de Variabilidad
0 < CV < 10 Datos muy homogéneos
10 ≤ CV < 15 Datos regularmente homogéneos
15 ≤ CV < 20 Datos regularmente variables
20 ≤ CV < 25 Datos variables
CV ≥ 25 Datos muy variables
Medidas de Simetría y Curtosis
Evalúa como están concentradas las observaciones.

Además de la tendencia para agruparse alrededor de


ciertos valores y grados de dispersión.

Representatividad de los valores de tendencia y su


confiabilidad.

Coeficientes:
- de Asimetría
- de Curtosis
Coeficiente de Simetría
y Curtosis de Fisher
Simetría Curtosis
Tercer momento Cuarto Momento

Simétrica = 0 Mesocúrtica = 0

Asimétrica Positiva > 0 Leptocúrtica > 0

Asimétrica Negativa < 0 Platicúrtica < 0

∑ ni = 1 ( x i x ( 3 ∑ ni = 1 ( x i x ( 4
sk = k = 3
(n 1(s 2 (n 1(s 4
Coeficiente de Simetría
Establece si una distribución es simétrica o no.

No tiene unidades

Simétrica y y
Frecuencia

Frecuencia
y (cero sesgo)
Sesgada Sesgada a la derecha
Frecuencia

a la izquierda (sesgo positivo)


(sesgo negativo)

x
x x
Media = 20 Años
Fuerza de Ingreso semanal
Mediana = 20 tensión
Moda = 20 Moda Mediana Media
Media Mediana Moda $300 $500 $700
2 600 2 600 3 000

Figura 2.11.

Figura 2.11. Tomado de “Posiciones relativas de la media, la mediana y la moda”, por Lind et al., 2012, Estadística
aplicada a los negocios y la economía (15a ed.), pp.70-71. Copyright 2012 por Mc Graw Hill.
Coeficiente de Curtosis
Grado de concentración con relación a la media
aritmética.

Se emplea para distribuciones unimodales simétricas.

Sin unidades.

(a) (b) (c)

Leptocúrtica Mesocúrtica Platicúrtica


Análisis de Regresión Simple
Ecuaciones Simples expresan una relación entre dos
variables.

- Se representan con Diagramas de Dispersión.


Ecuaciones múltiples expresan una relación entre más
de dos variables.
Análisis de Regresión Simple
Finalidad es establecer una relación cuantitativa
(ecuación de regresión) entre dos variables, y estimar el
valor de Y (dependiente) con base en un valor de X
(independiente).

Ecuación de estimación o de pronóstico (Y’) .

Regresión lineal simple


- Una recta.

(Levin & Rubin, 2004, p. 510)


Análisis de Regresión Simple
Métodos : gráfico y matemático (mínimos cuadrados).

Gráfico
- Diagrama de dispersión.
- Trazar una recta que trate de unir los puntos.
- Ventaja: simple y directo.
- Desventaja: procedimiento subjetivo.

16
14
12

X 3 1 2 5 4 10
8
6

Y 9 5 7 14 10 4
2
0
0 1 2 3 4 5 6
Análisis de Regresión Simple
Mínimos cuadrados
- Técnica para encontrar la ecuación de regresión
minimizando la suma de los cuadrados de las
distancias verticales entre los valores observados
y los estimados (recta) de Y.
- Hallar los coeficientes de regresión a y b.
-Ecuaciones Normales.

(Levin & Rubin, 2004, pp. 518-521)


Recta de Regresión

14
Y
12 * Y’
10
Valor Y’=2.7+2.1X
8 Efectivo * Valor
6 Estimado
4

0 1 2 3 4 5
Análisis de Regresión Simple
Error estándar de estimación
Mide la disparidad (dispersión) promedio entre los
valores observados y los valores estimados de Y.

- Indicador del grado de precisión de la ecuación.


- No es la más adecuada para medir relación.
(Levin & Rubin, 2004, pp. 526-527)
Coeficiente de Correlación (r)
Karl Pearson, 1900.

Mide el grado de asociación o relación lineal entre


las variables X e Y.

Sus valores van de -1 a +1.(correlación negativa y


positiva perfecta).

Es el mismo signo de b.
Coeficiente de Correlación (r)

Medida de intensidad de la relación entre dos conjuntos


de variables.
Correlación Correlación
Negativa Positiva
Perfecta Ninguna Perfecta
Correlación

Correlación Correlación
Negativa Positiva
Moderna Moderna

-1 0.5 0 0.5 1

Correlación Negativa Correlación Positiva

Figura 2.13
Figura 2.13 Adaptado de “Coeficiente de correlación”, por Lind et al., 2012,
Estadística aplicada a los negocios y la economía (15ª ed.), p.465. Copyright 2012 por Mc Graw Hill.
Coeficiente de Correlación (r)

Y Y Y

X X X
r = -1 r = -.6 r=0

Y Y Y

X X X
r = +1 r = +.3 r=0
Variaciones

14
Y Variación no
12 * Explicada Y’
10
Valor
8 Total *
6 Variación
Explicada
4

0 1 2 3 4 5
Coeficiente de Determinación (r 2)
Proporción de la variación total en la variable
dependiente (Y) que se explica o contabiliza por
variación de la variable dependiente X.

Puede adoptar valores entre 0 y 1.

(Lind et al., 2012, p. 487)


Coeficiente de Determinación (r 2)

Si r 2 = 1 : Correlación perfecta, es decir, toda


variación de Y puede explicarse por X
Si r 2 = 0 : No existe correlación entre X e Y. La
variación explicada es 0.

La variable X no explica nada de los cambios en Y

Cuanto más cerca a uno, las variables tendrán mayor


correlación.
Media Ponderada
Un productor de yogurt ha decidido capitalizar un
reciente "boom" en la demanda para yogurt de sabores.
El presenta su producto bajo diferentes marcas (A, B, C,
D) y quiere ampliar su publicidad dando énfasis a los
sabores; pero a la vez desea mantener la diferenciación
de marcas. Sabe que si varía demasiado los precios
esperados por sus consumidores en las distintas
marcas, ellos se tornarán más cautos al momento de
escoger los sabores. Por lo tanto, decide efectuar un
estudio de mercado para sus productos, empleando tres
diferentes niveles de precios en cada una de sus
marcas.
Media Ponderada
Marca Precio USD Frec. de Compra
0.20 33
A 0.25 42
0.29 30
0.35 40
B 0.37 47
0.40 23
0.41 28
C 0.43 31
0.45 34
0.47 47
D 0.49 27
0.51 17
Media Ponderada
¿Cuál será el precio promedio de cada una de las marcas, basado en la
cantidad comprada por cada consumidor de marca, en cada uno de los
tres precios propuestos en el estudio de mercado?
¿Cuál será el ingreso total por ventas, para cada marca; encontrado en
este estudio de mercado, sí el productor coloca sus precios al nivel del
promedio hallado, y si las mismas cantidades por marca fueran
vendidas?
Para ayudar al productor en su presupuesto del próximo año, asuma que
la frecuencia de compra que se halló en el estudio corresponde sólo al
1/512 de las compras mensuales esperadas, y que la demanda para el
yogurt de sabores no es estacional. Asuma además que los precios
promedio hallados son usados en cada marca y que las cantidades
vendidas por marca en la muestra serán vendidas a este precio. ¿Cuál
será su venta total anual esperada de yogurt de sabores?
Media Geométrica
Ejemplo:
La siguiente tabla muestra la tasa de aumento en las
ventas durante los últimos meses. Calcule e interprete la
tasa media mensual.

Meses Enero Febrero Marzo Abril Mayo


Aumento de
Ventas 2.6% 5.4% 3.8% 0.5% 1.4%

La tasa 2.6% también se puede expresar como 0.026 y,


ya que como se refiere a un aumento a partir de 100%, el
factor de variación será 1.026. Para los otros datos se
opera igual.
Media Geométrica

(Factor decrecimiento medio)

Tasa Media de Variación

Interpretación
Si se selecciona al azar un mes entre enero y mayo, se
espera que las ventas se hayan incrementado 2.72% con
respecto al mes anterior.
Media Geométrica
Suponga que usted tiene un ingreso de $3000.00 y
recibe 5% de incremento salarial este año y 15% de
incremento el siguiente.

El incremento porcentual anual promedio es de 9.886,


no de 10.0. ¿Por qué razón?

¿Cuál es el incremento recibido?


Media Geométrica
El rendimiento anual de cuatro tipos de acciones de la
empresa MICROCHIP INC., informadas por la New York
Stock Exchange (NYSE) son:

4.91, 5.75, 8.12 y 21.60 %.

Se desea establecer una posibilidad de inversión, para lo


cual uno de los factores de decisión es el rendimiento
promedio de estas acciones.
Media Geométrica
El INEI difunde mensualmente el índice de precios al
consumidor. Informa el cambio de precios de una
canasta de artículos en el mercado de un periodo a
otro. El índice de 2004 fue de 172.2. En 2013 se
incrementó a 214.5. ¿Cuál es el incremento
promedio anual de dicho periodo?
Varianza
Ejemplo:
La siguiente información se refiere a una muestra
del número de artículos vendidos durante una
semana:
8, 10, 5, 12, 10, 15
¿Cuál en el nivel de variabilidad de las ventas?

8 8 - 10 = 2 4
10 10 - 10 = 0 0

5 5 - 10 = 5 25
12 12 - 10 = 2 4

10 10 - 10 = 0 0

15 15 - 10 = 5 25
Varianza

2
Artículos vendidos

(Lind et al., 2012, p. 79-80, 83)


Desviación Estándar
Ejemplo:
Empleando los mismos datos del ejemplo anterior,
complementemos la información sobre la variabilidad de
los artículos vendidos.
Ya sabemos por el ejemplo anterior que S2 = 11.6 artículos
vendidos al cuadrado.
Entonces
Interpretación y usos de
la Desviación Estándar
Luis del Águila, dueño de una fabrica de repuestos, dice
que su promedio semanal de producción es de 11,398
piezas con una varianza de 49,729.

Si los datos usados fueron el resultado de 32 semanas


de observación, ¿durante cuántas semanas la
producción fue mayor a 11,844 piezas? y ¿cuántas
menor a 11,175 piezas?
Coeficiente de Variación
Ejemplo:

A continuación se presentan las ventas (en unidades


monetarias) logradas durante una semana por dos
tiendas de artículos electrodomésticas. La tienda I vende
en soles y la tienda II en dólares ¿Cuál de ellos tiene un
desempeño más estable, en cuanto a nivel de ventas?.

Tienda I (soles) Tienda II (dólares)


40,70,60,48,52,65,58 70,35,150,140,82,110,140,120
Coeficiente de Variación
Una granja de truchas las alimenta en estanques especiales y las
vende cuando llegan a cierto peso. Se tomó una muestra aleatoria de
10 truchas y las aisló en un estanque y se les alimentó con un
alimento concentrado denominado “Trucha Fuerte”
Al final del experimento los pesos de las truchas fueron (en gramos):
124, 125, 125, 123, 120, 124, 127, 125, 126 y 121
¿Cuál es la amplitud total de la muestra?
¿Cuál es la media aritmética, varianza y desviación estándar de la
muestra?
Si además, se empleó otra mezcla especial, “Piscifood”, en otro
estanque. Se calculó la media dando un valor de 126.9 gramos y la
desviación estándar tuvo un valor de 1.2 gramos. ¿Qué alimento da
como resultado un peso más uniforme?
Análisis de Regresión Simple
2 2
n y x y x xy

1 9 3 81 9 27
2 5 1 25 1 5
3 7 2 49 4 14
4 14 5 196 25 70
5 10 4 100 16 40
∑Y= 45 ∑X= 15 ∑Y2= 451 ∑X2= 55 ∑XY= 156

b = 2.1 a = 2.7 Y = 2.7 + 2.1X


Análisis de Regresión Simple
2
n y x y (y-y ) (y-y )

1 9 3 9.0 0.0 0.0


2 5 1 4.8 0.2 0.04
3 7 2 6.9 0.1 0.01
4 14 5 13.2 0.8 0.64
5 10 4 11.1 -1.1 1.21
∑(Y-Y’)2= 1.90

(Levin & Rubin, 2004, pp. 526-527)


2
Coeficiente de Determinación (r )
2 2 2
y y y (y-y ) (y -y) (y-y )
9 9.0 9 0 0.0 0.0
5 4.8 9 16 0.2 0.04
7 6.9 9 4 0.1 0.01
14 13.2 9 25 0.8 0.64
10 11.1 9 1 -1.1 1.21
∑= 46 ∑= 44.10 ∑= 1.90

Variación Total = Variación Explicada + Variación No Explicada


46 = 44.10 + 1.90
96% de la variación de la altura
(Y) esta explicada por la variación
de la edad de las plantas (X).
Análisis de Regresión Simple
Una empresa dedicada a la producción de cierto artículo
perecible ZZ desea evaluar la relación existente entre la
distancia recorrida para transportar su producto a los diferentes
puntos de comercialización y las mermas producidas por dicho
transporte. Con este fin, se lleva a cabo un estudio en el que se
observan, entre otras variables:
Y= porcentaje de carga útil final (luego del transporte)
X= Distancia recorrida (decenas de kilómetros)
Y se encuentra en una muestra aleatoria de 12 viajes o
recorridos los siguientes resultados:

Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95


Distancia Recorrida (x) 33 12 18 3 4 8 66 5 37 29 15 10

Con la finalidad de establecer medidas preventivas, ¿Cuál será el


porcentaje de carga útil para un futuro transporte de 250 km.?
Bibliografía
ULevin, R., & Rubin, D. (2004). Estadística para administración
y economía (7a ed.). México: Pearson Prentice Hall.

Lind, D., Marchal, W., & Wathen, S. (2012). Estadística aplicada


a los negocios y la economía (15a ed.). México: McGraw-Hill.

Você também pode gostar