Você está na página 1de 46

MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg.

RUBÉN GALEAS ARANA

UNIVERSIDAD NACIONAL DEL CENTRO DEL PERÚ

UNIDAD DE POSGRADO DE LA FACULTAD DE


INGENIERÍA ELÉCTRICA Y ELECTRÓNICA

GUÍA DIDÁCTICA
ESTADÍSTICA Y PROBABILIDADES APLICADA

DOCENTE:
Mg. RUBÉN GALEAS ARANA

Huancayo – Perú
DICIEMBRE 2012

1
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

ESTADÍSTICA Y PROBABILIDADES APLICADA


OBJETIVOS.

1. Utilizar los elementos conceptuales y procedimentales de


la estadística, así como utilizar adecuadamente los
conceptos de probabilidades.
2. Reconocer la importancia de la estadística, como eje
transversal para la organización, sistematización,
inferencia y validación de datos e información en las
diferentes disciplinas del conocimiento científico.
3. Propiciar el desarrollo de habilidades para el análisis e
interpretación de datos, que permitan realizar una
adecuada toma de decisiones basados en criterios
técnicos-científicos en base a la información existente.
4. Desarrollar habilidades para el manejo del software
estadístico SPSS.

2
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

UNIDAD I

ESTADÍSTICA
1.1. CONCEPTO.

Según la enciclopedia virtual Wikipedia1. La Estadística es una ciencia


formal que estudia la recolección, análisis e interpretación de datos de una
muestra representativa, ya sea para ayudar en la toma de decisiones o
para explicar condiciones regulares o irregulares de algún fenómeno o
estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin
embargo, la estadística es más que eso, es decir, es el vehículo que
permite llevar a cabo el proceso relacionado con la investigación científica.

La estadística es transversal a una amplia variedad de disciplinas, desde la


física hasta las ciencias sociales, desde las ciencias de la salud hasta el
control de calidad. Se usa para la toma de decisiones en áreas de negocios
en instituciones privadas como gubernamentales.

Finalmente podemos decir que la ESTADÍSTICA se ocupa de los métodos


y procedimientos para recoger, clasificar, resumir, analizar e interpretar los
datos; que ayudan a tomar mejores decisiones.

1.2. CLASIFICACIÓN.

La estadística se clasifica en dos grandes áreas:

a) La Estadística Descriptiva.

La estadística descriptiva o deductiva, se refiere a la recolección,


presentación, descripción, análisis e interpretación de una serie de
datos; originados a partir de los fenómenos de estudio. Esta descripción
se realiza a través de la elaboración de cuadros, gráficos (histogramas,
gráfico circular, etc.), cálculo de promedios, varianzas, etc.

b) La Estadística Inferencial.

La estadística inferencial o inductiva, es una técnica mediante el cual se


obtienen generalizaciones o se toman decisiones en base a una
información completa o parcial obtenida mediante técnicas descriptivas.

Se dedica a la generación de los modelos, inferencias y predicciones


asociadas a los fenómenos en cuestión teniendo en cuenta la
aleatoriedad de las observaciones, apoyándose en el cálculo de
probabilidades y a partir de datos muestrales. Estas inferencias pueden

1
http://es.wikipedia.org/wiki/Estadística

3
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

tomar la forma de respuestas a preguntas si/no (prueba de hipótesis),


estimaciones de unas características numéricas (estimación),
pronósticos de futuras observaciones, descripciones de asociación
(correlación) o modelamiento de relaciones entre variables (análisis de
regresión). Otras técnicas de modelamiento incluyen ANOVA (ANalysis
Of VAriance), series de tiempo y minería de datos.

Para finalizar este punto debemos manifestar que ambas áreas de la


estadística (descriptiva e inferencial) comprenden la ESTADÍSTICA
APLICADA.

1.3. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA.

A continuación daremos algunos conceptos básicos y fundamentales para


una mejor comprensión de la estadística.

a) Población, Colectivo o Universo.

Es cualquier conjunto de personas, objetos, ideas o acontecimientos;


que se someten a la observación estadística de una o varias
características comunes. Por ejemplo, la población de usuarios de
electricidad del Valle del Mantaro; la cantidad de contadores de energía
instalados en zonas rurales de la región de Junín.

b) Muestra.

Es un subconjunto de unidades de análisis extraída de la población


objetivo, buscando que dichas unidades seleccionadas sean
representativas con la finalidad de permitir que a través de la
información recabada con la muestra se realicen inferencias valederas
para toda la población.

En estadística el tamaño de la muestra es el número de individuos que


componen la muestra extraída de una población, necesarios para que
los datos obtenidos sean representativos de la población.

Para calcular el tamaño de una muestra hay que tomar en cuenta tres
factores:
1. El porcentaje de confianza con el cual se quiere generalizar los datos
desde la muestra hacia la población total.
2. El porcentaje de error que se pretende aceptar al momento de hacer
la generalización
3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

- Nivel de confianza.

Es el porcentaje de seguridad que existe para generalizar los


resultados obtenidos. Comúnmente en las investigaciones sociales se
busca un 95%.

4
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

- Porcentaje de error.

Equivale a elegir una probabilidad de aceptar una hipótesis que sea


falsa como si fuera verdadera. Comúnmente se aceptan entre el 4% y
el 6% como error, tomando en cuenta de que no son complementarios
la confianza y el error.

- La variabilidad.

Es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la


hipótesis que se quiere investigar en alguna investigación anterior o en
un ensayo previo a la investigación actual.

El porcentaje con que se aceptó tal hipótesis se denomina variabilidad


positiva y se denota por “p”. Y el porcentaje con el que se rechazó la
hipótesis es la variabilidad negativa, denotada por “q”.

Hay que considerar que “p” y “q” son complementarios, es decir, que su
suma es igual a la unidad (p+q=1). Además, cuando se habla de la
máxima variabilidad, en el caso de no existir antecedentes sobre la
investigación (no hay otras o no se pudo aplicar una prueba previa),
entonces los valores de variabilidad es p=q=0,5

Calcularemos el tamaño de la muestra a través de las siguientes


fórmulas:

- La fórmula en caso no se conozca con precisión el tamaño de la


población es:

. .
=

Donde:
no es el tamaño de la muestra.
Z es el nivel de confianza.
p es la variabilidad positiva.
q es la variabilidad negativa.
E es el porcentaje de error.

- La fórmula en caso se conozca el tamaño de la población (N) es:

=
−1
1+

Donde:
n es el tamaño de la muestra.

Para hallar el valor del nivel de confianza Z, se usa la Tabla 1.1.

5
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Tabla 1.1. Tabla de apoyo al cálculo del tamaño de la muestra por niveles de confianza.
Confianza 95% 94% 93% 92% 91% 90% 80% 62,27% 50%
Z 1,96 1,88 1,81 1,75 1,69 1,65 1,28 1 0,6745
2
Z 3,84 3,53 3,28 3,06 2,86 2,72 1,64 1,00 0,4550
E 0,05 0,06 0,07 0,08 0,09 0,10 0,20 0,37 0,50
2
E 0,0025 0,0036 0,0049 0,0064 0,0081 0,0100 0,0400 0,1369 0,2500

Por ejemplo, se desea determinar el tamaño de la muestra de una


población de 5000 individuos, con un nivel de confianza de 95% y error
máximo de 5%.

. . (1,96) . (0,5). (0,5)


= = = 384,16
(0,05)

Como el valor de N=5000 entonces el tamaño de la muestra sería:

384,16
= = = 356,82
−1 384,16 − 1
1+ 1+
5000
Lo que significa que el tamaño de la muestra para una población de
5000 individuos debe ser 357 individuos.

c) Individuo o Elemento.

Son las personas u objetos, que son parte de la muestra, que contienen
cierta información que se desea estudiar o investigar. Por ejemplo: se
desea estudiar la cantidad de suministros con instalaciones trifásicas en
el distrito de Pilcomayo, y se define el individuo “suministro”, de tal
manera que de cada usuario se solicita la siguiente información:
- Código del suministro.
- Número de personas que se benefician del suministro.
- Consumo de energía en el mes de noviembre de 2012.
- Cantidad de artefactos eléctricos que utiliza.
- El suministro es monofásico o trifásico (monofásico=1; trifásico=2).
- Tiene instalación de puesta a tierra (Si=1; No=2)

Recopilando la información especificada a toda la muestra se tendría la


base de datos que se muestra en la Tabla 1.2:

Tabla 1.2. Resumen de datos obtenidos de encuesta a los individuos.


Consumo
Cantidad Tipo
de Energía
Código Personas de de Puesta
Usuario en
Suministro Beneficiarias artefactos sumini a tierra
noviembre
que utiliza stro
(kW.h)
1 68857337 5 73 8 1 2
2 35677221 8 90 8 1 1
3 54231245 7 120 15 2 1

6
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

En la Figura 1.1, se muestra la forma de identificar la población, muestra


e individuo.

Figura 1.1. Ejemplo de población, muestra e individuo

Para facilitar aún más la comprensión de los conceptos, realizaremos el


siguiente proceso estadístico:
1°) Se elige una muestra de elementos de una población.
2°) Se observan las características que se han decidido estudiar, tomando
el valor correspondiente a cada uno de los elementos de la muestra.
3°) Se ordenan estos valores y se obtienen diversas medidas que permiten
identificar y comparar numéricamente y gráficamente.
4°) Con los datos obtenidos en la muestra, se deduce el comportamiento
de la población mediante modelos creados por la teoría de
probabilidades.

En los tres primeros procesos, se está trabajando con la muestra y se


analiza los datos, eso significa que está dentro de la Estadística
Descriptiva. En el proceso 4° se quiere inferir, mediante el cálculo de
probabilidades, el comportamiento de la población en función de los
resultados obtenidos de la muestra; este proceso corresponde a la
Estadística Inferencial.

1.4. VARIABLES ESTADÍSITICAS.

Una variable estadística, es cada una de las características o


cualidades que poseen los individuos de una población.

A continuación desarrollaremos los tipos de variables estadísticas.

7
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

a) Variables Cualitativas.

Las variables cualitativas se refieren a características o cualidades


que no pueden ser medidas con números. Podemos distinguir dos tipos
de variables cualitativas:

- Variable cualitativa nominal.

Una variable cualitativa nominal presenta características no numéricas


que no admiten un criterio de orden. Por ejemplo: El estado civil, con
las siguientes características: soltero, casado, divorciado, viudo y
separado. Tipo de deporte que practica con las siguientes
características: fútbol, básquet, vóley, tenis, otro .deporte.

- Variable cualitativa ordinal o variable cuasicuantitativa

Una variable cualitativa ordinal presenta características no numéricas,


en las que existe un orden. Por ejemplo:
Puesto conseguido en una prueba deportiva: 1º, 2º, 3º, ...
Medallas de una prueba deportiva: oro, plata, bronce.

b) Variables Cuantitativas.

Una variable cuantitativa es la que se expresa mediante un número, por


tanto se pueden realizar operaciones aritméticas con ella. Existen dos
tipos:

- Variable Discreta.

Una variable discreta es aquella que toma valores numéricos


enteros, es decir no admite valores intermedios entre dos valores
específicos. Por ejemplo: La cantidad de personas beneficiarias,
número de artefactos eléctricos que utiliza.

- Variable Continua.

Una variable continua es aquella que puede tomar valores numéricos


reales comprendidos entre dos números. Por ejemplo: la talla de los
estudiantes, el peso de los trabajadores, la temperatura corporal de los
pacientes.

1.5. DISEÑO DE CUESTIONARIOS.

En la actualidad, la parte más conocida de la Estadística es aquella que se


dedica a los sondeos de opinión. A nadie le sorprende que en los medios
de comunicación: prensa, radio, televisión, medios digitales, etc.; nos
informen o nos pregunten sobre cualquier tema de actualidad.

8
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

En muchas ocasiones, nos informan solo del resultado de la encuesta y


muy pocas veces nos informan exactamente de cuál fue la pregunta que se
les hizo a los encuestados.

A nadie le extraña que habitualmente podamos hablar de encuestas


"manipuladas" solamente con la redacción de la pregunta o el diseño de
cuestionarios.

En esta sección trataremos sobre el diseño de cuestionarios y daremos


algunas consideraciones a tener en cuenta si se pretende que la
información que obtengamos sea significativa.

Para ilustrar cómo la redacción de la pregunta puede influir en el resultado


del estudio (aún sin que haya interés por manipular los resultados)
reproduzco aquí un artículo del profesor Josu Mezo2, en la que con un
ejemplo muy acertado plantea una reflexión sobre el tema.

Con dicho artículo queremos reflejar que la realización de encuestas, que


es un buen recurso para muchos estudios e investigaciones, no se debe
abordar sin una buena fundamentación teórica que los respalde.

El primer paso que debemos dar es la confección del cuestionario y para


ello debemos tener en cuenta que cada una de las preguntas que
compondrán nuestro cuestionario deben ser confiables y válidas.

Una pregunta es confiable si significa lo mismo para todos los que la van a
responder. Por ejemplo, una pregunta no confiable sería ¿Ve usted mucho
la televisión?. Para un encuestado, dos horas diarias puede ser poco y

2
Cada vez doy alguna sesión en un curso sobre encuestas, pongo mucho énfasis en que la redacción de las
preguntas es muy importante, e influye mucho en las respuestas, por lo que siempre, cualquier lector que observa los
resultados de una encuesta, debería pedir que le dejen ver las preguntas (y las respuestas) ofrecidas a los
encuestados. Por supuesto, deberían también hacerlo los periodistas antes de informar sobre la tal encuesta.
Pero cuando digo este tipo de cosas mucha gente tiende a pensar que estoy hablando de las encuestas "manipuladas",
es decir, de encuestas en las que la empresa o el investigador responsable han intentado, deliberadamente, formular
las preguntas y las respuestas para empujar en la dirección de una respuesta favorable a sus puntos de vista, o sus
propuestas políticas. Y obviamente, este tipo de encuestas existen y con un poco de diligencia, no son difíciles de
detectar.
Pero la cosa es mucho más complicada. Es que incluso queriendo hacer una encuesta correcta y neutral, la elección
de unas palabras u otras al preguntar puede dar lugar a resultados muy diferentes. Hoy he encontrado en un artículo
de George Lakoff en el Huffington Post un ejemplo fantástico, de libro, que apareció en febrero en el NYTimes. El
periódico hizo una encuesta para saber la opinión de los americanos sobre el tema de los gays en el ejército, pero
decidió hacer un pequeño experimento con las palabras. A la mitad de la muestra les preguntaron si estaban a favor de
que "los homosexuales" pudieran servir en el ejército; y a la otra mitad les preguntaron si estaban a favor de que "los
gays y lesbianas" pudieran hacerlo (redacción exacta de las preguntas y los resultados).
Resultado: el 70% está a favor de permitir que sirvan en el ejército los gays y lesbianas, pero sólo el 59% está a favor
de que lo hagan los homosexuales. Es más, preguntados por su reacción en caso de que hagan pública su orientación
sexual, seguía estando a favor de su reclutamiento un 58% de los preguntados por gays y lesbianas, pero sólo un 44%
de los preguntados por los homosexuales (según cuenta Lakoff, la diferencia en este último punto es particularmente
alta entre los demócratas, que responden a favor, en el primer caso, el 79% de las veces, pero sólo el 43% en el
segundo caso).
Ya ven: diferencias de 11, 14 puntos, o de 36 puntos (para los demócratas) según se pregunte, en distintas preguntas,
por "gays y lesbianas" o por "homosexuales". Cualquiera de las dos formulaciones podría haber sido escogida por un
investigador perfectamente neutral y deseoso de hacer un estudio serio y objetivo, sin agendas oscuras ni planes
turbios. Pero los resultados difieren, a veces espectacularmente.
Entonces, ¿Cuál de las dos preguntas representa la "verdadera" opinión de los norteamericanos? Ninguna en
particular. Cada una, si la encuesta está bien hecha, representa la respuesta de los americanos a una pregunta
distinta. Lo que nos recuerda una vez más lo exquisitos que hay que ser al tomar siempre con la debida moderación los
datos de las encuestas.

9
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

para otro mucho. Una buena pregunta sería: ¿Cuántas horas al día ve
usted la televisión? y se plantearían las siguientes posibilidades: menos
de dos horas, de dos a cinco horas, de seis a nueve horas, más de nueve
horas.

Una pregunta es válida si estimula información exacta y relevante. La


redacción en las preguntas influye mucho en la validez del cuestionario.
Debemos tener en cuenta que una pregunta puede ser válida para un
grupo de personas pero no para otro.

En conclusión, la construcción de un cuestionario es un proceso laborioso


en el que hay que tener muy claro qué se quiere medir con él, a quién va
dirigido y para qué se va a utilizar.

En la confección de un cuestionario podemos distinguir las siguientes


etapas:
a) Determinar la finalidad del cuestionario: qué se va a medir, a quién se va
a medir y para qué se va a medir.
b) Especificar las características del cuestionario: cuál va a ser su
contenido, qué tipo de preguntas se van a incluir, cuántas preguntas.
c) Redacción de las preguntas: selección y tipo de preguntas.
d) Revisión del cuestionario por un grupo de expertos.
e) Confección de la prueba piloto: instrucciones de administración, forma
de presentación y formato de registro de las respuestas.
f) Aplicación de la prueba.
g) Corrección de la prueba.

En los siguientes apartados analizaremos alguna de estas etapas.

a) Finalidad.

- Variable objeto de estudio.

Como paso previo a la construcción de un cuestionario es necesario


tener muy claro cuál va a ser su objetivo; es decir, qué es lo que se
quiere medir, a quién se quiere medir y para qué se quiere medir.

Aunque pueda ser trivial el señalar la importancia de lo que se quiere


medir, si la variable de estudio es física, como la altura o la edad, al ser
variables que están muy claras para todo el mundo y todos saben
cómo medirlas esto podría ser cierto. Pero al medir otras variables de
tipo psicológico o de opinión, que no son observables directamente,
debemos definir claramente la variable de estudio.

Por ejemplo, si queremos realizar una prueba para medir la agresividad


en los adolescentes, en primer lugar debemos definir qué entendemos
por “agresividad”.

10
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Si la variable está bien definida será más fácil determinar cuáles son
las conductas representativas del mismo y, a partir de ellas, especificar
el contenido del cuestionario.

- Población a la que va dirigido

Otro aspecto importante en la redacción y confección de cuestionario


es delimitar la población a la que va dirigido. Esto influirá en el
contenido de las preguntas, la redacción de éstas, la longitud del
cuestionario y las instrucciones de aplicación.

Por ejemplo, si queremos diseñar una encuesta para conocer la opinión


sobre el uso de la energía nuclear, el cuestionario será distinto si se va
a aplicar a la población en general o si se le va a aplicar a expertos en
energías. También los cuestionarios será distintos si se aplica a
población adulta o infantil, etc..

- Utilización prevista

Además de tener en cuenta a qué población irá dirigido nuestro


cuestionario debemos tener en cuenta qué utilización se le va a dar; es
decir, para qué se va a utilizar; qué decisiones se van a tomar a partir
de los resultados que obtengamos.

Por ejemplo, no es lo mismo construir un cuestionario para detectar


niños superdotados que para detectar niños deficientes. En el primer
caso las preguntas deberían ser difíciles en su mayoría, para que solo
puedan ser contestadas por los niños más inteligentes; mientras que en
el segundo caso, las preguntas deben ser fáciles, de tal manera que
solo respondan de manera incorrectas aquellos niños que presenten
dificultades.

b) Características.

Es importante especificar las características del cuestionario: cuál va a


ser su contenido, qué tipo de preguntas se van a incluir, cuántas
preguntas, qué características psicométricas o sociales incluiremos de
acuerdo a la población o muestra que se va a encuestar.

c) Redacción.

La realidad es que si queremos realizar un buen estudio estadístico a


partir de un cuestionario, la redacción es importante, si la redacción de
las preguntas no es la correcta, los resultados que obtendremos en
nuestro estudio tampoco lo serán.

A continuación, y aunque en muchos casos puedan resultar obvias,


daremos unas recomendaciones generales sobre la redacción de las
preguntas:

11
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

- Evitar la ambigüedad de los enunciados.

El significado de las palabras empleadas debe estar claro para todos


los sujetos. Los enunciados cortos y directos contribuirán a evitar la
ambigüedad ya que la inclusión de palabras innecesarias complican la
lectura y pueden provocar confusión en los sujetos. Debemos evitar el
uso de palabras como muchas veces, a menudo, frecuentemente, ...

Ejemplos de preguntas mal formuladas serían:


¿Ves mucho tiempo la televisión?
Para algunas personas dos horas diarias puede resultar mucho y para
otras poco.
¿Te consideras una persona religiosa?
Términos como la religiosidad pueden ser interpretados por los sujetos
de forma distinta.

- Evitar enunciados que provoquen respuestas sesgadas.

Se deben evitar los enunciados que puedan provocar una respuesta


sesgada, entendiendo por ésta aquella que es más probable que elijan
los sujetos independientemente de su opinión. Por ejemplo un
enunciado que implique que los sujetos deban admitir conductas o
actitudes que no son consideradas socialmente como aceptables
pueden provocar que los sujetos no manifiesten su verdadera opinión y
elijan la respuesta socialmente aceptable.

Una pregunta de este tipo puede ser:

¿Considera que las mujeres deben tener los mismos derechos que los
hombres?

A esta pregunta la mayoría de las personas se inclinarían por la


respuesta SI, que es la socialmente aceptada aunque pudieran tener
opiniones distintas.

- Expresar una única idea en el enunciado.

Es necesario evitar las dobles preguntas en un mismo enunciado ya


que provocaría confusión en los sujetos y no sabrían qué respuesta
emitir.

Por ejemplo, un enunciado con doble pregunta sería del tipo:

Está usted a favor de reducir el consumo de alcohol entre los jóvenes y


aumentar los impuestos de las bebidas alcohólicas.

En este enunciado se incluyen dos conceptos diferentes que puede


provocar que haya personas que estén a favor de un enunciado y en
contra del otro que le impediría saber qué opción elegir.

12
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Ante situaciones de este tipo se deben incluir dos preguntas por


separado.

- Evitar las dobles negaciones en los enunciados.

En general, es recomendable no usar enunciados negativos y sobre


todo evitar el uso de las dobles negaciones ya que provocan que los
sujetos no sepan cuál es la respuesta que representa su opinión.

Por ejemplo:
Le parece a usted imposible que la llegada del hombre a la luna nunca
haya ocurrido.

- Recomendaciones para preguntas de elección.

Además de las recomendaciones anteriores hay una serie de normas


específicas para cada tipo de pregunta.

* Dos alternativas: Verdadero-Falso

1. Estar absolutamente convencido de que la pregunta es sin duda


verdadera o falsa.
2. No utilizar frases que sean universalmente verdaderas o falsas.
3. Evitar en el enunciado palabras que puedan, de alguna manera,
inducir la respuesta correcta a los sujetos aunque no la conozcan.
4. Situar a lo largo del test, de forma aleatoria, las preguntas de
enunciado correcto, evitando crear patrones de respuestas.

* Elección múltiple

1. Asegurarse de que el enunciado formula el problema con claridad.


2. Incluir la mayor parte del texto en el enunciado para evitar
repeticiones innecesarias en las opciones de respuesta.
3. Incluir las distintas opciones de respuesta al final del enunciado.
4. Evitar opciones de respuesta como Ninguna de las anteriores,
Todas las anteriores.
5. Sólo debe haber una respuesta correcta en las alternativas, salvo
que se indique lo contrario.
6. Tratar de que todas las alternativas de respuesta tengan una
longitud aproximadamente igual y una construcción gramatical
parecida.
7. La ubicación de las respuestas debe ser aleatoria.
8. Hacer que todas las alternativas le parezcan igual de atractivas a
una persona no informada del problema al que alude el
enunciado.
9. Asegurarse de que cada alternativa concuerda gramaticalmente
con el enunciado de la pregunta. Si el enunciado está en singular,
cada alternativa debe estar en singular.

13
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

d) Revisión.

Una vez redactadas las preguntas, y antes de dar forma a la prueba


piloto, es conveniente que éstas sean revisadas por un grupo de
personas que no hayan intervenido en su elaboración, con el fin de que
puedan revisar, no sólo si se adaptan al contenido, sino la claridad de la
redacción, si se han cumplido las normas generales y específicas en
función del tipo de formato, etc..

Lo ideal es que la redacción pudiera ser hecha por personas expertas,


tanto en los contenidos como en el estilo de redacción; si esto no es
posible, siempre se podrá contar con alguna persona más o menos
calificada. Si tampoco esto fuera posible, lo mejor es hacer una segunda
lectura de la prueba al cabo de un tiempo, esta lectura ofrecerá una
nueva visión del trabajo y permitirá corregir los posibles errores.

Finalmente y lo más importante es que usted mismo responda el


cuestionario y compruebe que las preguntas están bien redactadas y de
fácil aplicación.

14
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

UNIDAD II

ORGANIZACIÓN Y PRESENTACIÓN
DE DATOS ESTADÍSTICOS
2.1. TABLAS DE INFORMACIÓN ESTADÍSTICA.

Las tablas de información estadística comprenden a resúmenes y


consolidaciones de informaciones dispersas que se efectúan con fines de
realizar una presentación ordenada y clasificada de los resultados, de
modo que se facilite sus análisis e interpretación para la toma de
decisiones. Las tablas de información resultan de identificar las
necesidades de información, por tanto es necesario que para su
elaboración se consideren las características que puedan cumplir su
objetivo de informar. La estructura general de una tabla de información
estadística es la siguiente:

a) Número de Tabla.

Es un código de identificación que permite citarlo cuantas veces sea


necesario a lo largo de un informe.

b) Título.

Corresponde a una descripción resumida de la información estadística


de la tabla. En general una tabla debería responder a las siguientes
preguntas:
- Qué: ¿Qué información contiene la tabla?
- Dónde: ¿A dónde corresponde la información tabulada?
- Cómo: ¿Cómo está arreglada o clasificada la información?
- Cuándo: ¿A qué periodo de tiempo corresponde la información?

c) Encabezamiento

Es la descripción resumida sobre el contenido de las filas y columnas


que contiene la tabla de información estadística.

d) Cuerpo de la Tabla.

Comprende le contenido numérico de la información de la tabla.

e) Notas de pie o llamadas.

Siempre es recomendable anotar las aclaraciones sobre términos,


siglas, abreviaturas usadas. También es recomendable precisar las

15
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

unidades de medida y equivalencias que se están utilizando para


expresar cantidades.

f) Fuente.

Se debe anotar el nombre de la institución o de la investigación de


dónde se han tomado los datos individuales.

g) Elaboración.

Se debe anotar el nombre de la unidad o entidad responsable de la


formulación y presentación del tabulado de la información estadística.

h) Fecha.

Se debe registrar la fecha en que se realizó el cuadro para dejar


constancia del evento y poder actualizar de ser necesario.

Todas las características de la estructura de una tabla de información


estadística se puede observar en la Tabla 2.2.

A continuación desarrollaremos un ejemplo de aplicación. Según


información preliminar de la Oficina de Atención al Cliente de la Empresa
ELECTROCENTRO S.A., en el mes de noviembre de 2012, la empresa
atendió a los clientes que se muestran en la Tabla 2.1.

Tabla 2.1. Información preliminar de atención al cliente en las oficinas de


ELECTROCENTRO S.A.
Cliente Distrito Sexo
1 El Tambo (*) Masculino
2 Huancayo Femenino
3 Huancayo Masculino
4 Chilca Masculino
5 Huancayo (*) Masculino
6 El Tambo Femenino
7 El Tambo Masculino
8 Chilca Femenino
9 Huancayo (*) Femenino
10 Huancayo Masculino
11 Huancayo Masculino
12 Chilca Masculino
13 El Tambo Masculino
14 El Tambo Masculino
15 Huancayo Masculino
(*) El cliente no acreditó su residencia.

A continuación elaboraremos una tabla de resultados que consolide la


información dispersa en esta base de datos construida por la Oficina de
Atención al Cliente de la Empresa ELECTROCENTRO S.A.

16
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Tabla 2.2. Número de clientes que fueron atendidos en la empresa ELECTROCENTRO


S.A. según residencia y sexo del cliente en el mes de noviembre de 2012.
Sexo
Clientes atendidos
Distrito de Masculino Femenino
Residencia Cantidad % Cantidad % Cantidad %
(fi) (ni) (fi) (ni) (fi) (ni)
Huancayo 7 46,67 5 45,46 2 50,00
El Tambo 5 33,33 4 36,36 1 25,00
Chilca 3 20,00 2 18,18 1 25,00
15 100,00 11 100,00 4 100,00
Fuente: Oficina de atención al cliente de ELECTROCENTRO S.A.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-05

2.1.1. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS.

La tabla de distribución de frecuencias o tabla de frecuencias es


una ordenación en forma de tabla de los datos estadísticos,
asignando a cada dato su frecuencia correspondiente; este tipo de
tabla de frecuencias se utiliza con variables cualitativas y variables
discretas, pero en poblaciones pequeñas. Para ello existen
algunos conceptos que desarrollaremos a continuación.

- Frecuencia absoluta (fi).

La frecuencia absoluta es el número de veces que aparece un


determinado valor en un estudio estadístico. La suma de las
frecuencias absolutas es igual al número total de datos, que se
representa por N, matemáticamente se expresa así:

= + + + + =N

La columna de las frecuencias absolutas (fi), nos indica el número


de veces que ocurre un mismo dato

- Frecuencia relativa (ni).

La frecuencia relativa es el cociente entre la frecuencia absoluta (fi)


de un determinado valor y el número total de datos (N).
Matemáticamente se expresa así:

La frecuencia relativa se puede expresar en fracciones, en


números decimales o en porcentajes. En una tabla de distribución
de frecuencias la suma de todas las frecuencias relativas debe dar
como resultado 1,00 o 100%.

17
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

=1

Otro dato importante, es que la frecuencia relativa nos ayuda a


identificar tendencias, es decir, el número cuya frecuencia relativa
se acerque más a la unidad, es el que tiene mayores
probabilidades de salir elegido.

- Frecuencia acumulada (Fi).

La frecuencia acumulada es la suma de las frecuencias absolutas


(fi) de todos los valores inferiores o iguales al valor considerado.

- Frecuencia relativa acumulada (Ni).

La frecuencia relativa acumulada es el cociente entre la frecuencia


acumulada (Fi) de un determinado valor y el número total de datos
(N); también se puede expresar en tanto por ciento.
Matemáticamente se expresa así:

A continuación desarrollaremos un ejemplo de aplicación: Según


información preliminar de la empresa de vigilancia de la Empresa
ELECTROCENTRO S.A., la edad de las personas que ingresaron a
las instalaciones de Parque Industrial, el día 06 de diciembre de
2012 son las siguientes:

32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.

Tabla 2.3. Edad de las personas que ingresaron a las instalaciones del Parque
Industrial de la empresa ELECTROCENTRO S.A. según empresa de vigilancia el
día 06 de diciembre de 2012.
xi Recuento fi Fi ni Ni
27 I 1 1 0,032 0,032
28 II 2 3 0,065 0,097
29 IIII I 6 9 0,194 0,290
30 IIII II 7 16 0,226 0,516
31 IIII III 8 24 0,258 0,774
32 III 3 27 0,097 0,871
33 III 3 30 0,097 0,968
34 I 1 31 0,032 1
31 1
Fuente: Empresa de vigilancia.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07

A partir de la Tabla 2.3 se puede responder a algunas preguntas.

18
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

- ¿Qué porcentaje de los visitantes tienen 30 años?


Rpta. 22,6%

- ¿Qué porcentaje de los visitantes son menores a 30 años?


Rpta. 29,0%

2.1.2. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS PARA DATOS


AGRUPADOS.

La tabla de distribución de frecuencias para datos agrupados


básicamente se utiliza con variables cualitativas y variables
discretas, pero con muestras de poblaciones altas, también se
utiliza con variables continuas. Para ello existen algunos conceptos
que desarrollaremos a continuación.

- Amplitud de datos, rango o recorrido (R).

La amplitud de datos es la diferencia entre el máximo valor de los


datos (xmax) y el mínimo valor de los datos (xmin), matemáticamente
se expresa así:

= −
- Clase.

Los datos se agrupan en intervalos que tengan la misma amplitud


denominados clases. A cada clase se le asigna su frecuencia
correspondiente.

Los datos de la variable estadística se deben agrupar en intervalos


de clase contiguos y elegidos convenientemente para no perder
mucha información. Si existen pocos intervalos se pierde gran
información que nos impediría apreciar la distribución de la
variable; si existen demasiados intervalos, se pierde la utilidad de
usar agrupaciones por intervalos.

Existen distintos criterios para establecer el número adecuado de


intervalos; según Norcliffe el número de intervalos debe ser
aproximadamente la raíz cuadrada del número de datos (por
ejemplo para 100 datos, deberíamos tener aproximadamente 10
intervalos). Aunque la mayoría de investigadores, normalmente
indican que debe ser entre 5 y 15, de tal manera que en cada clase
se tengan, al menos, 5 observaciones. Otros indican que la
cantidad de intervalos (k) se puede obtener con la siguiente
relación.

2 ≥ Siendo N, el número total de datos.

De cualquier forma, el investigador los acomodará a las


condiciones específicas del problema estadístico objeto de estudio
19
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

(se tomarán tantos intervalos como sean necesarios para recubrir


todo el recorrido de la variable).

- Límites de clase.

La clase está representada por un intervalo, el extremo inferior de


un intervalo debe coincidir con el superior del intervalo anterior.
Normalmente se utiliza el criterio de que los intervalos sean
cerrados por la izquierda y abiertos por la derecha [a;b), de tal
manera que el dato cuyo valor es “a” está incluido en el intervalo
mas no el dato “b”.

Entonces cada clase está delimitada por el límite inferior de la


clase (a) y el límite superior de la clase (b).

- Amplitud de clase o rango de clase (r).

La amplitud de los intervalos debe ser la misma y su valor se


calcula con la siguiente relación.

Si el valor de “r” no es entero, se debe redondear al entero más


próximo, luego con dicho valor se puede construir los intervalos de
clase respectivo, para ello generalmente se empieza con el valor
de xmin y se suma el valor de “r” y se va avanzando hasta llegar al
valor xmax.

Finalmente, la amplitud de la clase es la diferencia entre el límite


superior (b) e inferior (a) de cada clase, matemáticamente se
expresa así:

= −
- Marca de clase (c)

La marca de clase es el punto medio de cada intervalo y es el valor


que representa a todo el intervalo para el cálculo de algunos
parámetros, matemáticamente se expresa así:

+
=
2
A continuación desarrollaremos un ejemplo de aplicación: Según
información preliminar de la oficina de Recursos Humanos de la
Empresa ELECTROCENTRO S.A., la edad de los 48 trabajadores
se muestra en la Tabla 2.4:

20
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Tabla 2.4. Edad de los trabajadores de ELECTROCENTRO S.A.


29 61 33 50 54 26
62 45 55 33 22 50
33 39 29 38 55 62
30 37 56 60 21 49
56 40 22 34 50 58
43 58 30 29 46 61
27 32 41 28 39 51
41 24 31 49 58 59

A continuación calcularemos los datos necesarios para la


construcción de la tabla de frecuencias.

- Número de trabajadores: N=48


- Determinamos la edad mínima: xmin=21
- Determinamos la edad máxima: xmax=62
- Determinamos la amplitud de datos: R=62-21=41
- Determinamos la cantidad de intervalos
2 ≥ 48 Entonces k=6.

- Determinamos la amplitud de clase:

= = = 6,83 redondeando sería r = 7

- Determinamos los seis (k=6) intervalos empezando del menor


sumando siete a cada intervalo.

1 [21;28)
2 [28;35)
3 [35;42)
4 [42;49)
5 [49;56)
6 [56;63)

- Finalmente construimos la tabla de frecuencias


correspondiente que se muestra en la Tabla 2.5.

Tabla 2.5. Edad de los trabajadores de la empresa ELECTROCENTRO S.A.


según Oficina de Recursos Humanos hasta el día 30 de noviembre de 2012.
Clase Recuento ci fi Fi ni Ni
[21;28) IIII II 24,5 7 7 14,583 14,583
[28;35) IIII IIII I 31,5 11 18 22,917 37,500
[35;42) IIII II 38,5 7 25 14,583 52,083
[42;49) IIII 45,5 5 30 10,417 62,500
[49;56) IIII IIII 52,5 9 39 18,750 81,250
[56;63) IIII IIII 59,5 9 48 18,750 100,000
48 100,000
Fuente: Oficina de Recursos Humanos.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07

21
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

2.2. GRÁFICOS ESTADÍSTICOS.

Después de construir la tabla de frecuencias, es muy útil la representación


gráfica del mismo, esto nos permite, a simple vista, obtener información
relevante de la población o muestra que estamos estudiando.

Según el tipo de dato que estamos estudiando o analizando, se debe usar


una de las siguientes representaciones gráficas que se muestran en la
Tabla 2.6.

Tabla 2.6. Tipos de gráficos según el tipo de dato que estamos estudiando
GRÁFICA TIPO DE DATOS
Diagrama de barras Cualitativos y cuantitativos discretos
Histograma Cuantitativos continuos
Polígono de frecuencias Cuantitativos discretos y continuos
Diagrama de sectores Cualitativos y cuantitativos

2.2.1. DIAGRAMA DE BARRAS.

Un diagrama de barras se utiliza para presentar datos cualitativos


o datos cuantitativos de tipo discreto.

Se representan sobre unos ejes de coordenadas, en el eje de


abscisas (eje x) se colocan los valores de la variable, y sobre el eje
de ordenadas (eje y) las frecuencias absolutas o relativas o
acumuladas.

Los datos se representan mediante barras de una altura proporcional


a la frecuencia, y pueden con barras verticales u horizontales. En la
Figura 2.1 se observa el diagrama de barras verticales del ejemplo
que se muestra en la Tabla 2.5.

Figura 2.1. Diagrama de barras vertical sobre la edad de los trabajadores de


ELECTROCENTRO S.A.

22
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

En la Figura 2.2 se observa el diagrama de barras horizontales del


ejemplo que se muestra en la Tabla 2.5.

Figura 2.2. Diagrama de barras horizontal sobre la edad de los trabajadores de


ELECTROCENTRO S.A.

Un ejemplo para variables cualitativas, sería considerando el mismo


ejemplo de los trabajadores de ELECTROCENTRO S.A. donde a
cada uno de ellos se les hizo un análisis de sangre y se obtuvo el
diagrama de frecuencias que se muestra en la Tabla 2.7.

Tabla 2.7. Grupo sanguíneo de los trabajadores de la empresa


ELECTROCENTRO S.A. según Oficina de Recursos Humanos
hasta el día 30 de noviembre de 2012.
fi Fi ni Ni
A 16 16 33,3 33,3
B 12 28 25,0 58,3
AB 5 33 10,4 68,7
O 15 48 31,3 100,0
Total 48 100
Fuente: Oficina de Recursos Humanos.
Elaboración: Rubén Galeas Arana.
Fecha: 2012-12-07

Su diagrama de barras correspondiente se muestra en la Figura 2.3.

23
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Figura 2.3. Diagrama de barras sobre el grupo sanguíneo que poseen los
trabajadores de ELECTROCENTRO S.A.

24
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

2.2.2. HISTOGRAMAS.

Es un resumen gráfico del conjunto de valores producidos por


las variaciones de una determinada característica,
representando la frecuencia con que se presentan distintas
categorías dentro de dicho conjunto.

Los histogramas, fundamentalmente se utilizan para variables


cuantitativas continuas, con un gran número de datos, y que se han
agrupado en clases.

En el eje de las abscisas (eje x), se construyen unos rectángulos que


tienen por base la amplitud del intervalo, y por altura, la frecuencia
absoluta de cada intervalo, tal como se muestra en la Figura 2.4.

En la Tabla 2.8 se muestra la tabla de distribución de frecuencias de


la variable peso (variable cuantitativa continua) de una muestra de
941 alumnos de una institución educativa.

Tabla 2.8 Distribución de frecuencias del peso de 941 estudiantes.


Frecuencia
Frecuencia
Frecuencia relativa
Relativa
Intervalo de clase Absoluta acumulada
(%)
(fi) (%)
(ni)
(Ni)
40,21 a 45,149 33 3,51 3,51
45,149 a 50,088 83 8,82 12,33
50,088 a 55,027 127 13,50 25,83
55,027 a 59,966 176 18,70 44,53
59,966 a 64,905 159 16,90 61,43
64,905 a 69,844 113 12,01 73,44
69,844 a 74,783 117 12,43 85,87
74,783 a 79,722 84 8,93 94,70
79,722 a 84,661 31 3,29 98,09
84,661 a 89,600 18 1,91 100
Total 941 100

En la Figura 2.4 se observa un histograma graficado según los datos


de la Tabla 2.8.

Encima de los histogramas también se puede graficar la curva


normal que sirve para dar algunas interpretaciones al gráfico, tal
como se muestra en la Figura 2.5.

25
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Figura 2.4. Histograma

Figura 2.5. Histograma con curva normal de distribución

26
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

2.2.3. POLÍGONO DE FRECUENCIAS.

Un polígono de frecuencias se forma uniendo, mediante segmentos,


los extremos superiores de las barras de los diagramas de barras o
de los histogramas.

En la Figura 2.6 se muestra el polígono de frecuencias de los datos


de la Tabla 2.8.

Figura 2.6. Polígono de frecuencias

2.2.4. DIAGRAMA DE SECTORES.

El diagrama de sectores, también conocidos como diagrama de torta


o diagrama circular, puede aplicarse a cualquier tipo de variables
(cualitativas y cuantitativas), aunque es el más adecuado en
variables cualitativas. Este diagrama es un círculo dividido en
sectores cuya amplitud es proporcional a las frecuencias de cada
valor.

Los datos se representan en un círculo, de modo que el ángulo de


cada sector (αi) se obtiene multiplicando la frecuencia absoluta (fi)
por 360º y dividiendo entre el número total de datos (N), tal como se
muestra en la siguiente fórmula:

27
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

El diagrama circular se construye con la ayuda de un transportador


de ángulos.

En la Tabla 2.9 se muestra la tabla de distribución de frecuencias de


la variable deporte (variable cualitativa) de una muestra de 941
alumnos del ejemplo anterior.

Tabla 2.9 Distribución de frecuencias del deporte que practican los 941
estudiantes.
Frecuencia
Frecuencia
Deporte Frecuencia relativa Frecuencia
Relativa
que Absoluta acumulada Absoluta
(%)
practican (fi) (%) (fi)
(ni)
(Ni)
Fútbol 407 43,3 43,3 43,3
Vóley 222 23,6 23,5 66,8
Básquet 183 19,4 19,5 86,3
Otro
129 13,7 13,7 100
deporte
Total 941 100 100

En la Figura 2.7 se observa el diagrama circular graficado según los


datos de la Tabla 2.9.

Figura 2.7. Diagrama circular

28
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

UNIDAD III

PARÁMETROS ESTADÍSTICOS
Un parámetro estadístico es un número que se obtiene a partir de los datos de
una distribución estadística. Estos parámetros se calculan para variables
cuantitativas.

Los parámetros estadísticos sirven para sintetizar la información dada por una
tabla estadística o por un gráfico estadístico.

Existen tres tipos parámetros estadísticos:

3.1. MEDIDAS DE TENDENCIA CENTRAL.

Para explicar y entender mejor las medidas de tendencia central,


explicaremos la nota que obtuvo un determinado alumno, el cual fue 35
puntos en una prueba de matemática. Este puntaje, por sí mismo tiene muy
poco significado a menos que podamos conocer el total de puntos que
obtiene una persona promedio al participar en esa prueba, saber cuál es la
calificación menor y mayor que se obtiene, y cuán variadas son esas
calificaciones. Es decir, para que una calificación tenga significado hay que
contar con elementos de referencia generalmente relacionados con ciertos
criterios estadísticos.

Las medidas de tendencia central (media, mediana y moda) sirven


como puntos de referencia para interpretar los resultados que se
obtienen en un determinado caso de estudio.

Volviendo a nuestro ejemplo, digamos que la calificación promedio en la


prueba que hizo el alumno fue de 20 puntos. Con este dato podemos decir
que la calificación del alumno se ubica notablemente sobre el promedio.
Pero si la calificación promedio fue de 65 puntos, entonces la conclusión
sería muy diferente, debido a que se ubicaría muy por debajo del promedio
de la clase.

En resumen, el propósito de las medidas de tendencia central es:


- Mostrar en qué lugar se ubica el individuo promedio o típica del grupo.
- Sirve como un método para comparar o interpretar cualquier valor de una
variable en relación con el valor central o típico.
- Sirve como un método para comparar el valor o puntaje obtenido por un
mismo individuo en dos diferentes ocasiones.
- Sirve como un método para comparar los resultados medios obtenidos
por dos o más grupos de individuos.

De las tres medidas de tendencia central, la media es reconocida como la


mejor y más útil. Sin embargo, cuando en una distribución se presentan

29
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

casos cuyos valores son muy bajos o muy altos respecto al resto del grupo,
es recomendable utilizar la mediana o la moda. (Porque dadas las
características de la media, esta es afectada por los valores extremos,
entonces muchas veces se puede optar por no tomar en cuenta tales
valores extremos y excluirlos de la observación).

Las medidas de tendencia central más comunes son:

a) Media, Media Aritmética o Promedio ( ).

Seguramente has escuchado en los medios de información, noticias


como las siguientes:
- El promedio de las edades de la selección de fútbol es 18 años.
- La temperatura promedio del día es 20 °C.
- El sueldo promedio de los trabajadores de una empresa está por arriba
del salario mínimo.

Esta información nos hace reflexionar y deducir algún conocimiento:


- En el primer ejemplo se deduce que la selección es un equipo de
jóvenes.
- En el segundo ejemplo, que el clima fue agradable.
- En el tercero, que la empresa paga muy bien a sus trabajadores.

Sin embargo nuestra deducción no es siempre correcta, analicemos el


último ejemplo:

La información que nos proporcionó la empresa es que tiene 16


trabajadores y su planilla diaria es de S/. 800,00, entonces el promedio
del salario diario es de S/. 50,00. Este resultado nos hace pensar que los
sueldos mensuales de los trabajadores es de S/.1500,00; el cual es el
doble del sueldo mínimo; entonces podemos deducir que la
remuneración de los trabajadores es buena, sin embargo no es así,
porque en el promedio está incluido el sueldo del gerente que gana
S/. 350,00 y esta cantidad disfraza el sueldo real de cada uno; porque si
el gerente percibe S/. 350,00 diarios, entonces ¿Cuál es el sueldo real
de los otros trabajadores?, sería en promedio S/. 30,00.

Como habrás notado en este ejemplo, conocer los promedios no es


suficiente, es necesario saber cómo están dispersos los datos.

- Cálculo de la media para datos no agrupados.

Este caso se utiliza cuando la cantidad de datos (N) es pequeño y se


calcula con la siguiente fórmula:

1 + + + +
̅= =

30
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Como ejemplo tomaremos las edades de 16 amigos que se muestran a


continuación:

62; 50; 64; 52; 60; 55; 58; 52; 55; 53; 53; 65; 57; 52; 62 y 60 años

Entonces la media es:

̅=
910
̅ = 16 = 56,875 ( )

- Cálculo de la media para datos agrupados.

Este caso se utiliza cuando la cantidad de datos (N) es grande y se


puede construir una tabla de frecuencia, su valor se calcula con la
siguiente fórmula:

1
̅= ( . )

Para este caso desarrollaremos el mismo ejemplo de la Tabla 2.3,


sobre la edad de las personas que ingresaron a las instalaciones de
Parque Industrial de ELECTROCENTRO S.A., el día 06 de diciembre
de 2012, que son las siguientes:

32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30; 30;
29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.

El resumen de los datos se muestra en la Tabla 3.1

Tabla 3.1. Datos resumen de los datos mostrados


xi fi xi.fi
27 1 27
28 2 56
29 6 174
30 7 210
31 8 248
32 3 96
33 3 99
34 1 34
Total 31 944

Luego la media sería:


944
̅ = 31 = 30,451 ( )

31
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Otro caso de datos agrupados es el de una distribución de frecuencias


donde tiene intervalos de clase y por tanto marca de clase (c i), en este
caso la media se calcula con la siguiente fórmula:

1
̅= ( . )

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.2.

Tabla 3.2. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi ci.fi
[21;28) IIII II 24,5 7 171,5
[28;35) IIII IIII I 31,5 11 346,5
[35;42) IIII II 38,5 7 269,5
[42;49) IIII 45,5 5 227,5
[49;56) IIII IIII 52,5 9 472,5
[56;63) IIII IIII 59,5 9 535,5
48 2023

Luego la media sería:

2023
̅= 48
= 42,1458 ( )

b) Mediana (Md).

La mediana, es el valor del término medio que divide una distribución de


datos ordenados en dos partes iguales, es decir, el 50% de los datos se
ubican sobre la mediana o hacia los puntajes altos y el 50% restante
hacia los puntajes bajos; es decir, la mediana nos indica que la mitad de
los datos se encuentran por debajo de este valor y la otra mitad por
encima del mismo.

Tiene la ventaja de no estar afectada por las observaciones extremas, ya


que no depende de los valores que toma la variable, sino del orden de
las mismas, por ello, para el cálculo de la mediana interesa que los
valores estén ordenados de menor a mayor.

- Cálculo de la mediana para datos no agrupados.

En este caso se presenta dos casos:


* Cuando el número de datos (N) es impar se aplica la siguiente
relación:

32
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Desarrollaremos un ejemplo, para calcular la mediana de las


siguientes calificaciones del curso de Estadística evaluadas sobre
veinte: 20; 16; 12; 08; 18; 14; 20; 18 y 12.

Primero ordenaremos los datos de menor a mayor, tal como se


muestra en la Tabla 3.3.

Tabla 3.3. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7 x8 x9
08 12 12 14 16 18 18 20 20

= = =

Entonces la mediana sería el elemento x5, es decir:

Md=x5=16

Lo que significa que la mitad de los datos están por debajo de 16 y la


otra mitad está por encima de 16.

* Cuando el número de datos (N) es par se aplica la siguiente


relación:

+ +1
2 2
=
2

Ahora desarrollaremos un ejemplo, para calcular la mediana de las


siguientes calificaciones del curso de Matemática evaluadas sobre
veinte: 20; 16; 18; 12; 08; 16; 18; 14; 20 y 18.

Primero ordenaremos los datos de menor a mayor, tal como se


muestra en la Tabla 3.4.

Tabla 3.4. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
08 12 14 16 16 18 18 18 20 20

+ +1
10 + 10
+1 + 16 + 18
2 2 2 2 5 6
= = = =
2 2 2 2

= 17

Lo que significa que la mitad de los datos están por debajo de 17 y la


otra mitad está por encima de 17.

33
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

- Cálculo de la mediana para datos agrupados.

Este caso se utiliza cuando la cantidad de datos (N) es grande y se


puede construir una tabla de frecuencia, su valor se calcula con la
siguiente fórmula:

= (solo la posición de la mediana)

Para este caso desarrollaremos el mismo ejemplo de la Tabla 2.3,


sobre la edad de las personas que ingresaron a las instalaciones de
Parque Industrial de ELECTROCENTRO S.A., el día 06 de diciembre
de 2012, que son las siguientes:

32; 31; 28; 29; 33; 32; 31; 30; 31; 31; 27; 28; 29; 30; 32; 31; 31; 30;
30; 29; 29; 30; 30; 31; 30; 31; 34; 33; 33; 29; 29.

El resumen de los datos se muestra en la Tabla 3.5

Tabla 3.5. Datos resumen de los datos mostrados


xi Recuento fi Fi
27 I 1 1
28 II 2 3
29 IIII I 6 9
30 IIII II 7 16 décimo sexto
31 IIII III 8 24 décimo séptimo
32 III 3 27
33 III 3 30
34 I 1 31
31

Entonces, calculamos la posición de la mediana:

+ 1 31 + 1
= = = 16 ( ó )
2 2
Como la posición de la mediana es 16, su valor es el promedio de los
datos décimo sexto y décimo séptimo. Para observar con claridad
cuáles son los datos décimo y undécimo se aconseja calcular la
frecuencia acumulada (Fi), entonces observando la Tabla 3.5 los
valores son 30 y 31, finalmente la mediana sería:

30 + 31
= = 30,5
2
Lo que significa que la mitad de los datos están por debajo de 30,5 y la
otra mitad está por encima de 30,5.

Otro caso de datos agrupados es el de una distribución de frecuencias


donde tiene intervalos de clase y por tanto marca de clase (ci), en este
caso la mediana se calcula con la siguiente fórmula:

34
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

= + 2−

Donde:
Limd Límite inferior del intervalo de clase de la posición de la
mediana.
r Rango de clase.
N Número total de datos.
Fmd-1 Frecuencia acumulada del intervalo de clase que antecede al
intervalo de la mediana.
fmd Frecuencia absoluta del intervalo de clase de la mediana.

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.6.

Tabla 3.6. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi Fi
[21;28) IIII II 24,5 7 7
[28;35) IIII IIII I 31,5 11 18
[35;42) IIII II 38,5 7 25
[42;49) IIII 45,5 5 30
[49;56) IIII IIII 52,5 9 39
[56;63) IIII IIII 59,5 9 48
48

Primero calculamos el valor de N/2=48/2=24 (valor de la posición).

Como la posición de la mediana es 24, su valor se encuentra en el


intervalo de clase [35;42), entonces observando la Tabla 3.6 se puede
calcular la mediana:

= + 2− = 35 + 7
24 − 18
7

= 41

Lo que significa que la mitad de los datos están por debajo de 41 y la


otra mitad está por encima de 41.

c) Moda (Mo).

La moda, nos indica el valor que más veces se repite dentro de los
datos; es decir, si tenemos la serie ordenada (2; 2; 3; 3; 3; 3; 5 y 7), el
valor que más veces se repite es el número 3, dicho valor sería la moda

35
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

de los datos. Es posible que en algunas ocasiones se presente dos


valores con la mayor frecuencia, lo cual se denomina Bimodal (2; 2; 2;
3; 3; 3; 5 y 7) o en otros casos más de dos valores, lo que se conoce
como multimodal (1; 2; 2; 3; 3; 5; 5 y 7) y cuando ningún dato tiene una
frecuencia mayor, se dice que la muestra no tiene moda o es amodal (2;
2; 3; 3; 5 y 5).

Cuando los datos son agrupados, la moda se calcula con la siguiente


fórmula:


= +
( − )+( − )

Donde:

Limo Límite inferior de la clase modal.


r Rango de clase.
fimo Frecuencia absoluta de la clase modal.
fimo-1 Frecuencia absoluta anterior a la clase modal.
fimo+1 Frecuencia absoluta posterior de la clase modal.

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.7.

Tabla 3.7. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi
[21;28) IIII II 24,5 7
[28;35) IIII IIII I 31,5 11
[35;42) IIII II 38,5 7
[42;49) IIII 45,5 5
[49;56) IIII IIII 52,5 9
[56;63) IIII IIII 59,5 9
48

Primero se ubica el mayor valor de la columna de la frecuencia absoluta,


que en este caso sería el valor de 11 (valor de la posición), entonces
observando la Tabla 3.7 se puede calcular la moda:

11 − 7
= 28 + 7
(11 − 7) + (11 − 7)

= 31,5

En conclusión las Medidas de tendencia central, nos permiten identificar los


valores más representativos de los datos, de acuerdo a la manera como se
tienden a concentrar. La Media nos indica el promedio de los datos; es
decir, nos informa el valor que obtendría cada uno de los individuos si se
distribuyeran los valores en partes iguales. La Mediana por el contrario nos

36
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

informa el valor que separa los datos en dos partes iguales, cada una de
las cuales cuenta con el 50% de los datos. Por último la Moda nos indica el
valor que más se repite dentro de los datos. Otro dato importante es que
la media y la mediana solo se pueden hallar para variables
cuantitativas, mientras que la moda se puede hallar para variables
cuantitativas y cualitativas.

3.2. MEDIDAS DE POSICIÓN.

Las medidas de posición dividen un conjunto de datos en grupos con el


mismo número de individuos. Las medidas de posición son: Cuartiles,
Deciles y Percentiles.

Los cuartiles son medidas estadísticas de posición que tienen la propiedad


de dividir la serie estadística en cuatro grupos de números iguales de
términos. De manera similar los deciles dividen a la serie en diez partes
iguales y los percentiles dividen a los términos de la serie en cien grupos
iguales.

Así como la mediana divide la serie o distribución en dos partes iguales,


existen 3 cuartiles, 9 deciles y 99 percentiles que dividen en cuatro, diez
y cien partes iguales a la distribución.

De estas tres últimas medidas de posición los cuartiles son las de mayor
aplicación. Se emplean generalmente en la determinación de estratos o
grupos correspondientes a fenómenos socio-económicos, monetarios o
teóricos.

Los tres cuartiles suelen designarse con los símbolos:


Q1 = primer cuartil (representa al 25% de los datos).
Q2 = segundo cuartil (representa al 50% de los datos).
Q3 = tercer cuartil (representa al 75% de los datos)

De igual manera los deciles se designan por D1, D2, D3,…, D9 y los
percentiles con P1, P2, P3,…, P99. Los deciles y percentiles se usan con
gran cantidad de datos.

En cualquiera de los tres casos, la medida de posición seleccionada toma


el valor de uno de los términos o del punto medio entre dos términos.

Para el cálculo de estas tres medidas de posición es necesario arreglar los


términos en forma creciente o decreciente. Así, en el caso de un
ordenamiento simple, el siguiente paso es determinar el "número de orden"
de los cuartiles, deciles o porcentiles, el cual indicará el lugar que ocupen
en la distribución.

En lo que se refiere a los cuartiles, la posición de cualquier cuartil se puede


calcular con la siguiente relación:

37
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

. ( + 1)
= = 1; 2; 3
4

Por ejemplo si los datos son: 4; 5; 3; 8; 10; 1; 9 (número impar de


datos)

- El lugar o posición que ocupa cada cuartil sería:

1 . (7 + 1)
= =2
4
2 . (7 + 1)
= =4
4
3 . (7 + 1)
= =6
4
- Los datos ordenados y los cuartiles se muestran en la Tabla 3.8.

Tabla 3.8. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7
1 3 4 5 8 9 10

Q1 Q2 Q3

En este caso podemos decir que aproximadamente el 25% de los datos


son menores o iguales a 3, de igual manera diremos que el 50% de los
datos son menores o iguales a 5 y por último diremos que el 75% de los
datos son menores o iguales a 9.

Ahora desarrollaremos un ejemplo, para calcular los cuartiles de las


siguientes calificaciones del curso de Matemática evaluadas sobre
veinte: 20; 16; 18; 12; 08; 16; 18; 14; 20 y 18 (número par de datos).

- El lugar que ocupa cada cuartil sería:

1 . (10 + 1)
= = 2,75 ( 2° 3°)
4

2 . (10 + 1)
= = 5,50 ( 5° 6°)
4

3 . (10 + 1)
= = 8,25 ( 8° 9°)
4

- Los datos ordenados y los cuartiles se muestran en la Tabla 3.9.

Tabla 3.9. Datos ordenados de menor a mayor


x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
08 12 14 16 16 18 18 18 20 20

Q1=13 Q2=17 Q3=19

38
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

En este caso podemos decir que aproximadamente el 25% de los datos


son menores o iguales a 13, de igual manera diremos que el 50% de los
datos son menores o iguales a 17 y por último diremos que el 75% de
los datos son menores o iguales a 19.

Observando los dos ejemplos anteriores, se puede concluir que hallando


la posición del primer cuartil (Q1) los otros dos se pueden hallar
multiplicando por dos y por tres respectivamente, matemáticamente
sería:

=2.

=3.

Cuando los datos son agrupados, los cuartiles se calcula con la siguiente
fórmula:


= +

Donde:

LiQ Límite inferior de la clase del cuartil correspondiente.


r Rango de clase.
fiQ Frecuencia absoluta de la clase del cuartil correspondiente.
FiQ-1 Frecuencia absoluta anterior a la clase del cuartil
correspondiente.
XQk Valor de la posición calculada para el cuartil correspondiente.

Para una aplicación de este caso tomaremos el ejemplo de la Tabla 2.5


y que se muestran en la Tabla 3.10.

Tabla 3.10. Datos resumen de los datos de la Tabla 2.5


Clase Recuento ci fi Fi
[21;28) IIII II 24,5 7 7
[28;35) IIII IIII I 31,5 11 18 Para Q1
[35;42) IIII II 38,5 7 25 Para Q2
[42;49) IIII 45,5 5 30
[49;56) IIII IIII 52,5 9 39
[56;63) IIII IIII 59,5 9 48
48

Calcularemos la posición del cuartil (Q1)

. ( + 1) 1 . (48 + 1)
= = = 12,25
4 4

39
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

12,5 − 7
= 28 + 7 = 31,5
11

Calcularemos la posición del cuartil (Q2)

. ( + 1) 2 . (48 + 1)
= = = 24,5
4 4

24,5 − 18
= 35 + 7 = 41,5
7

3.3. MEDIDAS DE DISPERSIÓN.

Así como las medidas de tendencia central nos permiten identificar el punto
central de los datos, las Medidas de dispersión nos permiten reconocer qué
tanto se dispersan los datos alrededor del punto central; es decir, nos
indican cuanto se desvían las observaciones alrededor de su promedio
aritmético (Media). Este tipo de medidas son parámetros informativos que
nos permiten conocer como los valores de los datos se reparten a través de
eje X, mediante un valor numérico que representa el promedio de
dispersión de los datos. Las medidas de dispersión más importantes y las
más utilizadas son la Varianza y la Desviación estándar (o Desviación
Típica).

Las medidas de dispersión nos informan sobre cuanto se alejan del centro
los valores de la distribución. Las medidas de dispersión son:

a) Rango o recorrido (R).

El rango es la diferencia entre el mayor y el menor de los datos de una


distribución estadística.

= −

b) Desviación Media ( ).

La desviación media es la media aritmética de los valores absolutos de


las desviaciones respecto a la media.

La desviación media ( ) matemáticamente se calcula con la siguiente


relación:

| − |+| − |+ +| − | 1
= = . | − |

Un ejemplo de aplicación haremos para datos no agrupados. Se desea


calcular la desviación media de los siguientes datos:

9; 3; 8; 8; 9; 8; 9; 18.

40
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Entonces calculamos la media:

9 + 3 + 8 + 8 + 9 + 8 + 9 + 18
̅= 8
=9

|9 − 9| + |3 − 9| + |8 − 9| + |8 − 9| + |9 − 9| + |8 − 9| + |9 − 9| + |18 − 9|
=
8

= 2,25

La desviación media indica la forma de cómo se separan los datos de la


media.

Si los datos vienen agrupados en una tabla de frecuencias, la


expresión de la desviación media es:

| − |. +| − |. + +| − |. 1
= = . | − |.

Como ejemplo de aplicación, calcularemos la desviación media de la


distribución que se muestra en la Tabla 3.11.

Tabla 3.11. Tabla de distribución de ejemplo


xi fi xi·. fi |xi - | |xi - | . fi

[10; 15) 12,5 3 37,5 9,286 27,858

[15; 20) 17,5 5 87,5 4,286 21,430

[20; 25) 22,5 7 157,5 0,714 4,998

[25; 30) 27,5 4 110,0 5,714 22,856

[30, 35) 32,5 2 65,0 10,714 21,428

21 457,5 98,570

Primero calculamos la media.

457,5
̅ = 21 = 21,786

Ahora calculamos la desviación media.

98,570
= = 4,69
21

41
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

c) Varianza (2).

La varianza es la media aritmética del cuadrado de las desviaciones


respecto a la media de una distribución estadística.

Esta medida nos permite identificar la diferencia promedio que hay entre
cada uno de los valores respecto a su punto central (Media ). Este
promedio es calculado, elevando cada una de las diferencias al
cuadrado (Con el fin de eliminar los signos negativos), y calculando su
promedio o media; es decir, sumado todos los cuadrados de las
diferencias de cada valor respecto a la media y dividiendo este resultado
por el número de observaciones que se tengan. Si la varianza es
calculada a una población (Total de componentes de un conjunto), la
ecuación sería:

Un ejemplo de aplicación haremos para datos no agrupados. Se desea


calcular la desviación media de los siguientes datos:

9; 3; 8; 8; 9; 8; 9; 18

Primero calculamos la media:

Ahora calculamos la varianza:

La varianza para datos agrupados se calcula con la siguiente relación:

Como ejemplo de aplicación, calcularemos la varianza de la distribución


que se muestra en la Tabla 3.12.

42
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Tabla 3.12. Tabla de distribución de ejemplo


2
xi fi xi . fi (xi- ) .fi

[10, 20) 15 1 15 802,778

[20, 30) 25 8 200 2688,889

[30,40) 35 10 350 694,444

[40, 50) 45 9 405 25,000

[50, 60 55 8 440 1088,889

[60,70) 65 4 260 1877,778

[70, 80) 75 2 150 2005,556

42 1 820 9183,333

Primero calculamos la media:

1820
̅ = 42 = 43,33

Ahora calculamos la varianza:

9183,333
= = 218,65
42
d) Desviación Típica ().

Esta medida nos permite determinar el promedio aritmético de


fluctuación de los datos respecto a su punto central o media. La
desviación estándar nos da como resultado un valor numérico que
representa el promedio de diferencia que hay entre los datos y la media.
Para calcular la desviación estándar basta con hallar la raíz cuadrada de
la varianza, por lo tanto su ecuación sería:

=
Entonces la desviación típica del ejemplo de la Tabla 3.12, sería:

= 218,65 = 14,79

Para comprender mejor, el concepto de las medidas de distribución


vamos a suponer que el gerente de una empresa de alimentos desea
saber que tanto varían los pesos de los empaques (en gramos), de uno
de sus productos; por lo que opta por seleccionar al azar cinco unidades
de ellos para pesarlos. Los productos tienen los siguientes pesos (490,
500, 510, 515 y 520) gramos respectivamente.

Entonces su media es:


43
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

La varianza sería:

Por lo tanto la desviación estándar sería:

Con lo que concluiríamos que el peso promedio de los empaques es de


507 gramos, con una tendencia a variar por debajo o por encima de
dicho peso en 12 gramos. Esta información le permite al gerente
determinar cuánto es el promedio de pérdidas causado por el exceso de
peso en los empaques y le da las bases para tomar los correctivos
necesarios en el proceso de empacado.

3.4. MEDIDAS DE DISTRIBUCIÓN.

Las principales medidas de distribución son: la asimetría y la curtosis.

a) Asimetría

Esta medida nos permite identificar si los datos se distribuyen de forma


uniforme alrededor del punto central (Media aritmética). La asimetría
presenta tres estados diferentes (ver Figura 3.1), cada uno de los cuales
define de forma concisa como están distribuidos los datos respecto al eje
de asimetría. Se dice que la asimetría es positiva cuando la mayoría de
los datos se encuentran por encima del valor de la media aritmética, la
curva es Simétrica cuando se distribuyen aproximadamente la misma
cantidad de valores en ambos lados de la media y se conoce como
asimetría negativa cuando la mayor cantidad de datos se aglomeran en
los valores menores que la media.

Figura 3.1. Representación de los tres estados de la simetría

El Coeficiente de asimetría, se representa mediante la ecuación


matemática,

44
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Donde (g1) representa el coeficiente de asimetría de Fisher, (Xi) cada


uno de los valores, ( ) la media de la muestra y (ni) la frecuencia de
cada valor. Los resultados de esta ecuación se interpretan:

 (g1 = 0): Se acepta que la distribución es Simétrica, es decir, existe


aproximadamente la misma cantidad de valores a los dos lados de la
media. Este valor es difícil de conseguir por lo que se tiende a tomar
los valores que son cercanos ya sean positivos o negativos (± 0,5).
 (g1 > 0): La curva es asimétricamente positiva por lo que los valores
se tienden a reunir más en la parte izquierda que en la derecha de la
media.
 (g1 < 0): La curva es asimétricamente negativa por lo que los valores
se tienden a reunir más en la parte derecha de la media.

Desde luego entre mayor sea el número (Positivo o Negativo), mayor


será la distancia que separa la aglomeración de los valores con respecto
a la media.

b) Curtosis.

Esta medida determina el grado de concentración que presentan los


valores en la región central de la distribución. Por medio del Coeficiente
de Curtosis, podemos identificar si existe una gran concentración de
valores (Leptocúrtica), una concentración normal (Mesocúrtica) o una
baja concentración (Platicúrtica), tal como se muestra en la Figura 3.2.

Figura 3.2. Representación del coeficiente de la curtosis

Para calcular el coeficiente de Curtosis se utiliza la ecuación:

45
MAESTRÍA EN SISTEMAS ELÉCTRICOS DE DISTRIBUCIÓN Mg. RUBÉN GALEAS ARANA

Donde (g2) representa el coeficiente de Curtosis, (Xi) cada uno de los


valores, ( ) la media de la muestra y (ni) la frecuencia de cada valor. Los
resultados de esta fórmula se interpretan:

 (g2 = 0) la distribución es Mesocúrtica: Al igual que en la asimetría es


bastante difícil encontrar un coeficiente de Curtosis de cero (0), por
lo que se suelen aceptar los valores cercanos (± 0.5 aprox.).
 (g2 > 0) la distribución es Leptocúrtica
 (g2 < 0) la distribución es Platicúrtica

Cuando la distribución de los datos cuenta con un coeficiente de


asimetría (g1 = ±0,5) y un coeficiente de Curtosis de (g2 = ±0,5), se le
denomina Curva Normal. Este criterio es de suma importancia ya que
para la mayoría de los procedimientos de la estadística de inferencia se
requiere que los datos se distribuyan normalmente.

La principal ventaja de la distribución normal radica en el supuesto que


el 95% de los valores se encuentra dentro de una distancia de dos
desviaciones estándar de la media aritmética (Ver Figura 3.3); es decir,
si tomamos la media y le sumamos dos veces la desviación y después le
restamos a la media dos desviaciones, el 95% de los casos se
encontraría dentro del rango que compongan estos valores.

Figura 3.3. Representación de la curva normal

Desde luego, los conceptos vistos hasta aquí, son sólo una pequeña
introducción a las principales medidas de Estadística Descriptiva; es de
gran importancia que los estudiantes profundicen en estos temas ya que
la principal dificultad del software SPSS radica en el desconocimiento de
los conceptos estadísticos.

46

Você também pode gostar