Escolar Documentos
Profissional Documentos
Cultura Documentos
GUÍA DIDÁCTICA
ESTADÍSTICA Y PROBABILIDADES APLICADA
DOCENTE:
Mg. RUBÉN GALEAS ARANA
Huancayo – Perú
DICIEMBRE 2012
1
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
2
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
UNIDAD I
ESTADÍSTICA
1.1. CONCEPTO.
1.2. CLASIFICACIÓN.
a) La Estadística Descriptiva.
b) La Estadística Inferencial.
1
http://es.wikipedia.org/wiki/Estadística
3
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
b) Muestra.
Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos
desde la muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer
la generalización
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.
- Nivel de confianza.
4
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
- Porcentaje de error.
- La variabilidad.
Hay que considerar que “p” y “q” son complementarios, es decir, que su
suma es igual a la unidad (p+q=1). Además, cuando se habla de la
máxima variabilidad, en el caso de no existir antecedentes sobre la
investigación (no hay otras o no se pudo aplicar una prueba previa),
entonces los valores de variabilidad es p=q=0,5
. .
=
Donde:
no es el tamaño de la muestra.
Z es el nivel de confianza.
p es la variabilidad positiva.
q es la variabilidad negativa.
E es el porcentaje de error.
=
−1
1+
Donde:
n es el tamaño de la muestra.
5
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Tabla 1.1. Tabla de apoyo al cálculo del tamaño de la muestra por niveles de confianza.
Confianza 95% 94% 93% 92% 91% 90% 80% 62,27% 50%
Z 1,96 1,88 1,81 1,75 1,69 1,65 1,28 1 0,6745
2
Z 3,84 3,53 3,28 3,06 2,86 2,72 1,64 1,00 0,4550
E 0,05 0,06 0,07 0,08 0,09 0,10 0,20 0,37 0,50
2
E 0,0025 0,0036 0,0049 0,0064 0,0081 0,0100 0,0400 0,1369 0,2500
384,16
= = = 356,82
−1 384,16 − 1
1+ 1+
5000
Lo que significa que el tamaño de la muestra para una población de
5000 individuos debe ser 357 individuos.
c) Individuo o Elemento.
Son las personas u objetos, que son parte de la muestra, que contienen
cierta información que se desea estudiar o investigar. Por ejemplo: se
desea estudiar la cantidad de suministros con instalaciones trifásicas en
el distrito de Pilcomayo, y se define el individuo “suministro”, de tal
manera que de cada usuario se solicita la siguiente información:
- Código del suministro.
- Número de personas que se benefician del suministro.
- Consumo de energía en el mes de noviembre de 2012.
- Cantidad de artefactos eléctricos que utiliza.
- El suministro es monofásico o trifásico (monofásico=1; trifásico=2).
- Tiene instalación de puesta a tierra (Si=1; No=2)
6
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
7
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
a) Variables Cualitativas.
b) Variables Cuantitativas.
- Variable Discreta.
- Variable Continua.
8
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Una pregunta es confiable si significa lo mismo para todos los que la van a
responder. Por ejemplo, una pregunta no confiable sería ¿Ve usted mucho
la televisión?. Para un encuestado, dos horas diarias puede ser poco y
2
Cada vez doy alguna sesión en un curso sobre encuestas, pongo mucho énfasis en que la redacción de las
preguntas es muy importante, e influye mucho en las respuestas, por lo que siempre, cualquier lector que observa los
resultados de una encuesta, debería pedir que le dejen ver las preguntas (y las respuestas) ofrecidas a los
encuestados. Por supuesto, deberían también hacerlo los periodistas antes de informar sobre la tal encuesta.
Pero cuando digo este tipo de cosas mucha gente tiende a pensar que estoy hablando de las encuestas "manipuladas",
es decir, de encuestas en las que la empresa o el investigador responsable han intentado, deliberadamente, formular
las preguntas y las respuestas para empujar en la dirección de una respuesta favorable a sus puntos de vista, o sus
propuestas políticas. Y obviamente, este tipo de encuestas existen y con un poco de diligencia, no son difíciles de
detectar.
Pero la cosa es mucho más complicada. Es que incluso queriendo hacer una encuesta correcta y neutral, la elección
de unas palabras u otras al preguntar puede dar lugar a resultados muy diferentes. Hoy he encontrado en un artículo
de George Lakoff en el Huffington Post un ejemplo fantástico, de libro, que apareció en febrero en el NYTimes. El
periódico hizo una encuesta para saber la opinión de los americanos sobre el tema de los gays en el ejército, pero
decidió hacer un pequeño experimento con las palabras. A la mitad de la muestra les preguntaron si estaban a favor de
que "los homosexuales" pudieran servir en el ejército; y a la otra mitad les preguntaron si estaban a favor de que "los
gays y lesbianas" pudieran hacerlo (redacción exacta de las preguntas y los resultados).
Resultado: el 70% está a favor de permitir que sirvan en el ejército los gays y lesbianas, pero sólo el 59% está a favor
de que lo hagan los homosexuales. Es más, preguntados por su reacción en caso de que hagan pública su orientación
sexual, seguía estando a favor de su reclutamiento un 58% de los preguntados por gays y lesbianas, pero sólo un 44%
de los preguntados por los homosexuales (según cuenta Lakoff, la diferencia en este último punto es particularmente
alta entre los demócratas, que responden a favor, en el primer caso, el 79% de las veces, pero sólo el 43% en el
segundo caso).
Ya ven: diferencias de 11, 14 puntos, o de 36 puntos (para los demócratas) según se pregunte, en distintas preguntas,
por "gays y lesbianas" o por "homosexuales". Cualquiera de las dos formulaciones podría haber sido escogida por un
investigador perfectamente neutral y deseoso de hacer un estudio serio y objetivo, sin agendas oscuras ni planes
turbios. Pero los resultados difieren, a veces espectacularmente.
Entonces, ¿Cuál de las dos preguntas representa la "verdadera" opinión de los norteamericanos? Ninguna en
particular. Cada una, si la encuesta está bien hecha, representa la respuesta de los americanos a una pregunta
distinta. Lo que nos recuerda una vez más lo exquisitos que hay que ser al tomar siempre con la debida moderación los
datos de las encuestas.
9
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
para otro mucho. Una buena pregunta sería: ¿Cuántas horas al día ve
usted la televisión? y se plantearían las siguientes posibilidades: menos
de dos horas, de dos a cinco horas, de seis a nueve horas, más de nueve
horas.
a) Finalidad.
10
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Si la variable está bien definida será más fácil determinar cuáles son
las conductas representativas del mismo y, a partir de ellas, especificar
el contenido del cuestionario.
- Utilización prevista
b) Características.
c) Redacción.
11
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
¿Considera que las mujeres deben tener los mismos derechos que los
hombres?
12
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Por ejemplo:
Le parece a usted imposible que la llegada del hombre a la luna nunca
haya ocurrido.
* Elección múltiple
13
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
d) Revisión.
14
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
UNIDAD II
ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS ESTADÍSTICOS
2.1. TABLAS DE INFORMACIÓN ESTADÍSTICA.
a) Número de Tabla.
b) Título.
c) Encabezamiento
d) Cuerpo de la Tabla.
15
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
f) Fuente.
g) Elaboración.
h) Fecha.
16
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
= + + + + =N
17
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
=1
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
Tabla 2.3. Edad de las personas que ingresaron a las instalaciones del Parque
Industrial de la empresa ELECTROCENTRO S.A. según empresa de vigilancia el
día 06 de diciembre de 2012.
xi Recuento fi Fi ni Ni
27 I 1 1 0,032 0,032
28 II 2 3 0,065 0,097
29 IIII I 6 9 0,194 0,290
30 IIII II 7 16 0,226 0,516
31 IIII III 8 24 0,258 0,774
32 III 3 27 0,097 0,871
33 III 3 30 0,097 0,968
34 I 1 31 0,032 1
31 1
Fuente: Empresa de vigilancia.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07
18
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
= −
- Clase.
- Límites de clase.
= −
- Marca de clase (c)
+
=
2
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la oficina de Recursos Humanos de la
Empresa ELECTROCENTRO S.A., la edad de los 48 trabajadores
se muestra en la Tabla 2.4:
20
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
1 [21;28)
2 [28;35)
3 [35;42)
4 [42;49)
5 [49;56)
6 [56;63)
21
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Tabla 2.6. Tipos de gráficos según el tipo de dato que estamos estudiando
GRÁFICA TIPO DE DATOS
Diagrama de barras Cualitativos y cuantitativos discretos
Histograma Cuantitativos continuos
Polígono de frecuencias Cuantitativos discretos y continuos
Diagrama de sectores Cualitativos y cuantitativos
22
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
23
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Figura 2.3. Diagrama de barras sobre el grupo sanguíneo que poseen los
trabajadores de ELECTROCENTRO S.A.
24
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
2.2.2. HISTOGRAMAS.
25
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
26
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
27
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Tabla 2.9 Distribución de frecuencias del deporte que practican los 941
estudiantes.
Frecuencia
Frecuencia
Deporte Frecuencia relativa Frecuencia
Relativa
que Absoluta acumulada Absoluta
(%)
practican (fi) (%) (fi)
(ni)
(Ni)
Fútbol 407 43,3 43,3 43,3
Vóley 222 23,6 23,5 66,8
Básquet 183 19,4 19,5 86,3
Otro
129 13,7 13,7 100
deporte
Total 941 100 100
28
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
UNIDAD III
PARÁMETROS ESTADÍSTICOS
Un parámetro estadístico es un número que se obtiene a partir de los datos de
una distribución estadística. Estos parámetros se calculan para variables
cuantitativas.
Los parámetros estadísticos sirven para sintetizar la información dada por una
tabla estadística o por un gráfico estadístico.
29
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
casos cuyos valores son muy bajos o muy altos respecto al resto del grupo,
es recomendable utilizar la mediana o la moda. (Porque dadas las
características de la media, esta es afectada por los valores extremos,
entonces muchas veces se puede optar por no tomar en cuenta tales
valores extremos y excluirlos de la observación).
1 + + + +
̅= =
30
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
62; 50; 64; 52; 60; 55; 58; 52; 55; 53; 53; 65; 57; 52; 62 y 60 años
̅=
910
̅ = 16 = 56,875 ( )
1
̅= ( . )
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30; 30;
29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
31
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
1
̅= ( . )
2023
̅= 48
= 42,1458 ( )
b) Mediana (Md).
32
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
= = =
Md=x5=16
+ +1
2 2
=
2
+ +1
10 + 10
+1 + 16 + 18
2 2 2 2 5 6
= = = =
2 2 2 2
= 17
33
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.
+ 1 31 + 1
= = = 16 ( ó )
2 2
Como la posición de la mediana es 16, su valor es el promedio de los
datos décimo sexto y décimo séptimo. Para observar con claridad
cuáles son los datos décimo y undécimo se aconseja calcular la
frecuencia acumulada (Fi), entonces observando la Tabla 3.5 los
valores son 30 y 31, finalmente la mediana sería:
30 + 31
= = 30,5
2
Lo que significa que la mitad de los datos están por debajo de 30,5 y la
otra mitad está por encima de 30,5.
34
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
= + 2−
Donde:
Limd Límite inferior del intervalo de clase de la posición de la
mediana.
r Rango de clase.
N Número total de datos.
Fmd-1 Frecuencia acumulada del intervalo de clase que antecede al
intervalo de la mediana.
fmd Frecuencia absoluta del intervalo de clase de la mediana.
= + 2− = 35 + 7
24 − 18
7
= 41
c) Moda (Mo).
La moda, nos indica el valor que más veces se repite dentro de los
datos; es decir, si tenemos la serie ordenada (2; 2; 3; 3; 3; 3; 5 y 7), el
valor que más veces se repite es el número 3, dicho valor sería la moda
35
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
−
= +
( − )+( − )
Donde:
11 − 7
= 28 + 7
(11 − 7) + (11 − 7)
= 31,5
36
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
informa el valor que separa los datos en dos partes iguales, cada una de
las cuales cuenta con el 50% de los datos. Por último la Moda nos indica el
valor que más se repite dentro de los datos. Otro dato importante es que
la media y la mediana solo se pueden hallar para variables
cuantitativas, mientras que la moda se puede hallar para variables
cuantitativas y cualitativas.
De estas tres últimas medidas de posición los cuartiles son las de mayor
aplicación. Se emplean generalmente en la determinación de estratos o
grupos correspondientes a fenómenos socio-económicos, monetarios o
teóricos.
De igual manera los deciles se designan por D1, D2, D3,…, D9 y los
percentiles con P1, P2, P3,…, P99. Los deciles y percentiles se usan con
gran cantidad de datos.
37
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
. ( + 1)
= = 1; 2; 3
4
1 . (7 + 1)
= =2
4
2 . (7 + 1)
= =4
4
3 . (7 + 1)
= =6
4
- Los datos ordenados y los cuartiles se muestran en la Tabla 3.8.
Q1 Q2 Q3
1 . (10 + 1)
= = 2,75 ( 2° 3°)
4
2 . (10 + 1)
= = 5,50 ( 5° 6°)
4
3 . (10 + 1)
= = 8,25 ( 8° 9°)
4
38
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
=2.
=3.
Cuando los datos son agrupados, los cuartiles se calcula con la siguiente
fórmula:
−
= +
Donde:
. ( + 1) 1 . (48 + 1)
= = = 12,25
4 4
39
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
12,5 − 7
= 28 + 7 = 31,5
11
. ( + 1) 2 . (48 + 1)
= = = 24,5
4 4
24,5 − 18
= 35 + 7 = 41,5
7
Así como las medidas de tendencia central nos permiten identificar el punto
central de los datos, las Medidas de dispersión nos permiten reconocer qué
tanto se dispersan los datos alrededor del punto central; es decir, nos
indican cuanto se desvían las observaciones alrededor de su promedio
aritmético (Media). Este tipo de medidas son parámetros informativos que
nos permiten conocer como los valores de los datos se reparten a través de
eje X, mediante un valor numérico que representa el promedio de
dispersión de los datos. Las medidas de dispersión más importantes y las
más utilizadas son la Varianza y la Desviación estándar (o Desviación
Típica).
Las medidas de dispersión nos informan sobre cuanto se alejan del centro
los valores de la distribución. Las medidas de dispersión son:
= −
b) Desviación Media ( ).
| − |+| − |+ +| − | 1
= = . | − |
9; 3; 8; 8; 9; 8; 9; 18.
40
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
̅= 8
=9
|9 − 9| + |3 − 9| + |8 − 9| + |8 − 9| + |9 − 9| + |8 − 9| + |9 − 9| + |18 − 9|
=
8
= 2,25
| − |. +| − |. + +| − |. 1
= = . | − |.
21 457,5 98,570
457,5
̅ = 21 = 21,786
98,570
= = 4,69
21
41
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
c) Varianza (2).
Esta medida nos permite identificar la diferencia promedio que hay entre
cada uno de los valores respecto a su punto central (Media ). Este
promedio es calculado, elevando cada una de las diferencias al
cuadrado (Con el fin de eliminar los signos negativos), y calculando su
promedio o media; es decir, sumado todos los cuadrados de las
diferencias de cada valor respecto a la media y dividiendo este resultado
por el número de observaciones que se tengan. Si la varianza es
calculada a una población (Total de componentes de un conjunto), la
ecuación sería:
9; 3; 8; 8; 9; 8; 9; 18
42
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
42 1 820 9183,333
1820
̅ = 42 = 43,33
9183,333
= = 218,65
42
d) Desviación Típica ().
=
Entonces la desviación típica del ejemplo de la Tabla 3.12, sería:
= 218,65 = 14,79
La varianza sería:
a) Asimetría
44
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
b) Curtosis.
45
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA
Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña
introducción a las principales medidas de Estadística Descriptiva; es de
gran importancia que los estudiantes profundicen en estos temas ya que
la principal dificultad del software SPSS radica en el desconocimiento de
los conceptos estadísticos.
46