Você está na página 1de 84

ESTADÍSTICA

CAPÍTULO 1.
INTRODUCCIÓN: ¿Por qué estudiar métodos estadísticos?
1.1 LA "IMAGEN" DE LA ESTADÍSTICA

Las actitudes populares hacia la estadística con frecuencia


manifiestan una mezcla de ansiedad, escepticismo, miedo y
desprecio. Los"lapsus freudianos" en ocasiones han trocado1
a los estadísticos en "sadísticos". La advertencia "no se vuelva
un estadístico" se entiende como "no permita que algo
perverso le suceda". Los estadísticos han sido colocados
despectivamente junto a los mentirosos y los políticos
mañosos, y por lo tanto han sido acusados de
"estadisticulación", es decir, el arte de mentir con números
aparentando ser objetivos, racionales y científicos.

El lego educado, no sólo el profesional, necesita


conocimiento estadístico para tener el conocimiento crítico y
las habilidades necesarias para evaluar la credibilidad de la
información vía números así como vía palabras. El
pensamiento lógico es una buena protección contra la
aceptación acrítica de la bazofia verbal, mientras que un
conocimiento básico de la estadística nos hace menos
vulnerables a la basura cuantitativa. Con optimismo, descubrirá
que un estudio de la estadística no sólo mejorará su
habilidad para leer y evaluar la literatura de investigación, sino
que lo ayudará a ser un consumidor o un productor más
competente y confiado en la evidencia cuantitativa utilizada
para sustentar aseveraciones y conclusiones.

Se reconoce cada vez más que la investigación experimental


puede hacer contribuciones importantes a nuestras vidas
dándonos medicinas, dietas, tratamientos, materiales y
programas de estudio más efectivos, por mencionar unas
cuantas. Considere el siguiente comentario de T. M. Porter
(1986) en este sentido:

1
TROCAR. Mudar, cambiar, permutar una cosa por otra.

1
La estadística ha llegado a conocerse en el siglo XX
como la herramienta matemática para analizar datos
experimentales y basados en la observación. Conservada
religiosamente por la política pública como la única base
confiable para los juicios en torno a la eficacia de
procedimientos médicos o a la seguridad de químicos, y
adoptada por las empresas para usos como el control de
calidad industrial, está evidentemente entre los productos
de la ciencia cuya influencia sobre la vida pública y
privada ha sido más penetrante. El análisis estadístico ha
llegado a ser visto en muchas disciplinas científicas como
indispensable para llegar a conclusiones confiables a
partir de resultados empíricos... Desde la invención del
Cálculo, si acaso, no se ha encontrado un nuevo campo
de las matemáticas con tan amplio dominio de aplicación.

La estadística es una herramienta básica para la


investigación empírica en los campos de la educación y las
ciencias sociales del comportamiento. Algún conocimiento de
los métodos estadísticos es una necesidad para proseguir una
carrera de erudición en muchas disciplinas empíricas. Durante
las tres últimas décadas, las escuelas de estudios superiores
han reconocido la importancia de la estadística como una
herramienta de investigación, aceptando el trabajo de cursos
sobre estadística como un sustituto del requisito de una de las
dos lenguas extranjeras que tradicionalmente se piden para
obtener el doctorado. Esta sustitución es notablemente
acertada: la estadística es un lenguaje para comunicar
información basada en datos cuantitativos, el cual cobra cada
vez mayor importancia.

2
1.2 DOS TIPOS DE ESTADÍSTICA

Dos corrientes de influencia han conducido al desarrollo de


métodos estadísticos. Una rama tenía por objetivo mantener en
orden registros del gobierno (estado y estadística vienen de la
misma raíz latina, status). De esta rama evolucionaron las
actividades de conteo, medición, descripción, tabulación,
ordenamiento y levantamiento censal, todas las cuales
condujeron finalmente a la estadística descriptiva. La
segunda corriente de influencia se originó en las matemáticas
de juegos de azar y condujo al desarrollo de la estadística
inferencialque está basada con exactitud en la probabilidad
matemática.La estadística descriptiva e inferencialson las
más ampliamente utilizadas en la investigación del
comportamiento. La estadística descriptiva que se utiliza por
lo común.

1.3 ESTADÍSTICA DESCRIPTIVA

La estadística descriptiva incluye la tabulación,


representación y descripción de conjuntos de datos. Esos
datos pueden ser de variables cuantitativas como altura,
inteligencia o nivel de estudio (variables que se caracterizan
por un continuo fundamental), o de variables categóricas,
como género, especialidad académica u ocupación. Los
conjuntos de datos muy grandes deben, por lo general,
experimentar un proceso de organización y resumen antes de
que sean inteligibles por los simples mortales. La mente
humana no puede extraer fácilmente toda la importancia de
una serie de datos desorganizados sin la ayuda de técnicas
especiales. Por fortuna, la estadística descriptiva proporciona
herramientas para organizar, simplificar y resumir información
básica a partir de un conjunto de datos que de otra forma sería
poco manejable.

3
1.4 ESTADÍSTICA INFERENCIAL

La estadística inferencial proporciona métodos para


estimar las características de un grupo total (población),
basándose en datos de un conjunto pequeño (muestra) de
observaciones. El propósito principal de la estadística
inferencial es estimar los atributos de la población a partir de
sólo una muestra decasos. La estadística descriptiva con
frecuencia sirve como un trampolín para la estadística
inferencial.

1.5 LA NATURALEZA INTERDISCIPLINARIA DE LA ESTADÍSTICA

Todas las disciplinas empíricas hacen un uso amplio de los


métodos estadísticos.

1.6 ESTADÍSTICA Y MATEMÁTICAS

La disciplina de la estadística es una rama de las matemáticas


aplicadas

Los términos estadísticos se definen, sin ambigüedades


y con precisión.

1.7 CASO DE ESTUDIO CON APLICACIONES EN COMPUTADORA

Varios procesos estadísticos facilitan una comprensión


apropiada sobre lo que dicen los datos y lo que no dicen.

1.8 SECRETOS DEL ÉXITO

1. Trate de apartar un tiempo para estudiar cada día a una


hora cuando esté alerta y descansado. La superioridad de
la práctica "espaciada contra la masificada" es
especialmente cierta en estadística.

2. No se permita el retraso ya que los temas futuros estarán


construidos sobre los pasados.

4
3. "Sed hacedores de la palabra, y no tan sólo oidores,
engañándoos a vosotros mismos" (Santiago 1:22). Hágase
un favor: trabaje cuidadosamente algunos problemas
simples y compruebe utilizando sólo papel, lápiz y una
calculadora portátil antes de usar la computadora.

Que la computadora maneje los detalles de cálculo


mientras usted se concentra en aspectos más
importantes de la investigación, como la comprensión y
la interpretación.

4. Repase con periodicidad y refuerce los conceptos


importantes.

5. Disciplínese a leer cada capítulo al menos una vez antes y


después de la exposición correspondiente.

1.9 LAS RECOMPENSAS DE SU LABOR

1. Un mejor entendimiento de la información expresada de


manera cuantitativa.

2. Un conocimiento considerable de los términos estadísticos,


conceptos y fundamentos estadísticos (Como
consecuencia, será capaz de evaluar mejor la
investigación con respecto a las implicaciones de la
práctica y la teoría).

3. Un conocimiento fundamental de los términos estadísticos,


conceptos, análisis y métodos estadísticos.

4. Mayor confianza en su habilidad para alcanzar metas.

5
CAPÍTULO 2.
DISTRIBUCIONES DE FRECUENCIA: Tablas
estadísticas y gráficas
2.1 VARIABLES

Las características personales como estatura, edad, género,


CI, GPA, autoconcepto, habilidad en lectura y tamaño del
grupo se conocen como variables de manera más explícita,
variables personológicas (variables sobre persona).

El número de monedas de cinco en una de veinticinco


centavos por lo tanto no es una variable sino una constante.

Una clase de variables, como estatura, inteligencia, o nivel


de estudios, se caracteriza por un continuo fundamental, y se
dice que las variables son variablescuantitativas o
continuas. Otra clase de variables, conocidas como variables
cualitativas o categóricas, representan diferencia, no en
grado sino en clase: variables como género, especialidad
académica u ocupación.

2.2 MEDICIÓN DE VARIABLES

Antes de que una variable pueda ser trataba estadísticamente,


debe ser observada/medida para un conjunto de unidades
observacionales. Las unidades observacionales son aquellas
entidades que se observan. En este libro, la mayoría de
nuestros ejemplos se toman de los campos de la educación y
de las ciencias sociales y del comportamiento; de ahí que las
unidades observacionales comunes serán personas; las
escuelas, los códigos postales y los estados, entre otros,
también son unidades observacionales comunes. Cuando las
observaciones se cuantifican (se expresan numéricamente),
se dice que los números son mediciones. Una medición es
una observación que se expresa numéricamente. En este libro,
observación, medición y valor tienen esencialmente el mismo
significado.

6
Las variables pueden medirse en varias formas diferentes.
Por ejemplo, la eficacia de la enseñanzapuede ser evaluada
por el rendimiento de los estudiantes, cuestionarios de
evaluación del curso a losestudiantes, autoevaluaciones de los
maestros, valoración del supervisor, o evaluaciones de
colegas.

Algunos de esos métodos de evaluación podrían arrojar


datos cuantitativos (por ejemplo, valores o clasificaciones),
mientras que otros podrían ser expresados en palabras. De
esto no debe deducirse que sólo porque algunos enfoques son
cuantificables y sujetos de análisis estadístico son
forzosamente superiores a los enfoques que no lo son. La
credibilidad de los resultados de investigaciones y las
generalizaciones no son mejores que laexactitud, conveniencia
y significado de las mediciones de las que se derivaron las
conclusiones. El análisis estadístico, sin embargo, sólo es
aplicable cuando la información se expresa numéricamente.
Los números son el único lenguaje que la estadística
comprende.

2.3 USO DE SÍMBOLOS

Para una comunicación expedita, las variables se representan


mediante letras mayúsculas itálicas (por ejemplo, X, Y, Z).
Cuando sólo una variable está bajo consideración, el símbolo
en mayúscula e itálicas X se utiliza para denotar esa variable.
Cuando se están estudiando dos variables (como la relación
entre CI y la habilidad de deletreo), X representa una de las
variables y Yla otra. Si están en consideración tres variables,
se etiquetarán como X, Y y Z, etcétera.

Para especificar una observación particular en un


conjunto dado (lista u ordenamiento) de observaciones, se
utilizan subíndices. Los subíndices son "etiquetas del nombre".

7
2.4 DISTRIBUCIONES DE FRECUENCIA

El uso de representaciones visuales para comunicar


información cuantitativa ha sido una faceta de la estadística
que se ha descuidado. Afortunadamente, la amplia
disponibilidad de microcomputadoras y software gráfico están
ayudando a corregir esta situación. En este texto, con
frecuencia incluiremos gráficas, tablas y resultados estadísticos
de algunos de los paquetes de software más ampliamente
utilizados para ilustrar su adaptabilidad para los propósitos
estadísticos y de comunicación.

La información estadística puede comunicarse más


fácilmente si se organiza en tablas y se muestra en gráficas.
En este capítulo, utilizaremos varias técnicas y enfoques para
ilustrar cómo arreglar y representar un conjunto de datos de
modo que las características importantes de dicho conjunto
sean apreciables de inmediato.

2.5 ORGANIZACIÓN DE DATOS PARA QUE TENGAN SENTIDO

A menos que un conjunto de datos esté sistemáticamente


organizado, será difícil de asimilar e interpretar. Los
procedimientos para organizar, resumir y simplificar datos son
fundamentales para los métodos estadísticos. El uso creciente
de la cuantificación y el análisis estadístico en las ciencias
sociales y del comportamiento ha subrayado dramáticamente
la necesidad de organizar datos para comunicar un significado.
Si un enorme conjunto de números no están resumidos y
simplificados, podemos llegar a abrumarnos pronto debido a la
abundancia de datos numéricos. Por otro lado, cuando los
datos están organizados y se presentan gráficamente, la
comunicación, comprensión e interpretación se facilita.

8
2.6 UN EJEMPLO

Para los fines de instrucción, los ejemplos en que se utilizan


conjuntos pequeños de datos tienen ciertas ventajas sobre los
conjuntos grandes de datos. Permiten que la mayor parte de la
atención se centre en los procedimientos involucrados y sus
significados, con un mínimo de detalles mecánicos/de cálculo
llenos de repeticiones. Por otro lado, los conjuntos grandes de
datos dan información más realista y fidedigna sobre las
características de interés relativas a la población de la que se
obtuvieron los datos.

La estadística nos da formas sistemáticas de organizar


cantidades de datos de otra forma poco manejables que
facilitaran nuestros esfuerzos para entender e interpretar datos.

2.7 DISTRIBUCIONES DE FRECUENCIA NO AGRUPADAS

Ciertas características importantes de un conjunto de


valores pueden resaltar si solamente se organizan los valores
en una distribución de frecuencia no agrupada. Una
distribución de frecuencia no agrupada consta de dos
columnas: 1) un listado de todos los valores posibles
arreglados en orden inverso de mayor a menor, y 2) una
columna de frecuencia (f) que lista el número de veces que se
obtuvo cada valor.

En una tabla el número de veces que se obtiene un valor


es la frecuencia (f) de ese valor y se muestra justo a la
derecha del registro tabular del valor. La suma de las
frecuencias es el número total de observaciones (n).

9
2.8 DISTRIBUCIONES DE FRECUENCIA AGRUPADAS

A menos que el rango de valores (es decir, Xmáx -


Xmín) sea pequeño, la distribución de frecuencia no agrupada
extiende tanto los valores que la forma de la distribución no es
fácilmente apreciable. Si se agrupan los valores similares en un
intervalo, el patrón de la distribución de valores se hará más
evidente. Esta pérdida de la información que pertenece a los
valores individuales se sacrifica a fin de ganar información
sobre toda la distribución de valores. El espacio (ancho) de los
intervalos de clase y. en consecuencia, el número de intervalos
son algo arbitrarios, pero la decisión tiene que estar influida por
el número de observaciones en la muestra. Con muestras
grandes de n = 200 o más, tal vez el número adecuado de
intervalos sea 20; mientras que con una muestra menor de 50
o algo por el estilo, quizá 10 intervalos sean el número
apropiado.

Para organizar datos en una distribución de frecuencia


agrupada:
1) calcule el rango.
2) Determine el ancho del intervalo.
3) Especifique los límites del intervalo.
4) Cuente los valores para encontrar la frecuencia de
cada intervalo.

Cuatro pasos para construir una distribución de frecuencia


agrupada:
1. Calcule el rango. El rango es la diferencia entre el valor
más grande, Xmáx, y el valor más pequeño, Xmín.

2. Determine el ancho del intervalo. El ancho del


intervalo (w) se calcula dividiendo el rango entre el número
deseado de intervalos.

10
3. Especifique los límites de intervalo. Para alejar la
probabilidad de agrupar los datos en una forma muy
favorable a la inclinación personal del investigador, el
procedimiento para asignar los límites del intervalo debe
ser estandarizado. Cada intervalo debe comenzar con un
múltiplo de w (es decir, 1w=3, 2W=6, 3w=9, 4w=12,
etcétera). El primer intervalo comienza con (es decir, tiene
un límite inferior de) el mayor múltiplo de w que es menor o
igual a Xmín.

Cada límite inferior de intervalo es w mayor que el


límite inferior del intervalo anterior.

Del mismo modo, el límite superior de cada intervalo


se encuentra sumando w al límite superior del intervalo
anterior.

Los intervalosse definen secuencialmente hasta que


se alcanza el intervalo que contiene el valor más alto,
Xmáx.

4. Conteo de los valores. Para cada valor coloque


una estaca de cuenta en el intervalo que contiene ese
valor. Para el quinto valor en un intervalo, una línea que
cruce las primeras cuatro estacas organiza las marcas en
grupos convenientes de cinco.

Los límites del intervalo especificado que aparecen


en la tabla 2.2 se llaman límites de intervalo aparentes.
Los límites exactos del intervalo, sin embargo, se
extienden .5 unidades a cada lado de los límites
aparentes del intervalo, es decir, el límite inferior exacto
es .5 unidades menor que el límite inferior aparente, y el
límite superior exacto es .5 unidades mayor que el límite
superior aparente.

11
2.9 CONTEOS DE TUKEY

Tukey (1977) sugirió un método alternativo para contar las


observaciones cuando n es grande. El método de Tukey
cuenta los valores en prácticos grupos convenientes de diez:
las primeras cuatro cuentas se denotan por puntos que forman
las esquinas de un cuadrado; las siguientes cuatro cuentas son
segmentos de línea que forman los lados del cuadrado; la
novena cuenta y la décima se indican por líneas diagonales
dentro del cuadrado.

2.10 PORCENTAJES Y PORCENTAJES ACUMULADOS

1. Para encontrar la columna "%", convierta las frecuencias


en porcentajes. Divida la frecuencia del intervalo entre n
para obtener la proporción de valores en el intervalo, y
entonces convierta a porcentaje multiplicando por 100:% =
100 x (f/n) o % = 100f/n.

2. Para encontrar el "% acumulado" para un intervalo,


sume el porcentaje para el intervalo al registro de
porcentaje acumulado del intervalo anterior. (Para el
primer intervalo, el registro de la columna "%" es también
el registro de la columna de "% acumulado".)

2.11 GRÁFICAS DE DISTRIBUCIONES DE FRECUENCIAS

Una distribución de observaciones puede conceptualizarse


más fácilmente si se representa gráficamente. Podemos
obtener información importante concerniente a un conjunto de
valores simplemente mirando una representación visual de los
datos. TRES TIPOS COMUNES DE GRÁFICASson los
histogramas (gráficas de barras), los polígonos de
frecuencia (gráficas de línea) y las curvas de ojiva
(porcentajes acumulados). También, las gráficas de pastel,
gráficas de cajas y patillas y gráficas de series de tiempoa
menudo pueden ser utilizadas con provecho.

12
2.12 HISTOGRAMA O GRÁFICA DE BARRAS

Un HISTOGRAMA2es una gráfica deuna distribución de


frecuencias (o porcentaje)en la que se utilizanbarras cuyas
longitudes corresponden ala frecuencia (o porcentaje) de
observaciones para cada intervalo. Este tipo de gráfica puede
usarse para datoscuantitativos y categóricos. A diferencia del
polígono de frecuencias, éste puede usarse paramostrar
datos categóricos como ocupación, afiliación religiosa, raza,
etcétera (variables, cuyas observaciones no pueden ser
clasificadas significativamente de menos a más). El eje
vertical del histograma se etiqueta "Frecuencia" por lo que las
alturas de las barras rectangulares indicanel intervalo de
frecuencias.

LAS BARRAS RECTANGULARES que componen los


histogramas pueden mostrar 1) frecuencias, 2) porcentajes o
3) frecuencias y porcentajes simultáneamente. Es por lo
general más fácil comprender y comunicar información
utilizandoporcentajes más que usando sólo frecuencias.

2.13 POLÍGONOS DE FRECUENCIA

Un segundo método ampliamente utilizado para mostrar


información numérica de forma gráfica es la gráfica de línea o
polígono de frecuencias. El PROCESO DE
CONSTRUCCIÓN DE UN POLÍGONO DE FRECUENCIASes
similar al delhistogramaexcepto quesólo un punto sobre el
punto medio de cada intervalo se utiliza para indicar la
frecuencia. PARA UN HISTOGRAMA DADO, si un punto se
colocaen el punto medio del extremo superior de cada barra
rectangular, y los puntos adyacentes se conectanmediante
segmentos de línea, la figura resultante es un polígono de
frecuencias. Si las frecuencias se transforman a
porcentajes, la figura se describe como un polígono de
porcentajes. Los polígonos de frecuencia/porcentajeson
particularmente apropiados para variables cuantitativas como
edad, calificaciones de exámenes, ingresos, etcétera.

2
HISTOGRAMA. Representación gráfica de una distribución de frecuencias
por medio de rectángulos, las anchuras representan intervalos de la
clasificación y las alturas representan las correspondientes frecuencias.

13
2.14 POLÍGONOS CONTRA HISTOGRAMAS

Por supuesto SERÍA ENGAÑOSOconstruir un polígono de


frecuenciasparavariables categóricascomoespecialidad o
grupo étnico. Los polígonos de frecuencia/porcentajeson
apropiados sólo paravariables cuantitativas como calificaciones
de exámenes, ingreso, etcétera (variables que tienen un
continuo fundamental, es decir, que pueden ser arregladas
en orden de mayor a menor). Los histogramas, por otro lado,
son apropiados paravariablescuantitativas y categóricas.

PARA DATOS CATEGÓRICOS, es mejor dejarbrechas


grandes entre las barras de un histogramapara ilustrarla
ausencia de un continuo fundamental. PARA DATOS
CONTINUOS, mejor minimizarlas brechas entre las
barrasparareflejar la naturaleza continua de los datos.

Con frecuencia, es informativomostrar dos o más


distribuciones en la misma figuraparapermitir una comparación
y diferenciación visuales. CUANDO SE PRESENTAN DOS O
MÁS DISTRIBUCIONES DE VALORES EN LA MISMA
GRÁFICA, los polígonos de porcentajeson por lo general
preferibles a los histogramas. Utilizando colores u otras
distinciones gráficas (líneas de guiones, líneas sólidas, líneas
punteadas, etcétera), puede mostrardos o más
distribucionesde forma simultánea en la misma figura.

2.15 CURVA DE OJIVA

Una gráfica de líneaen que se usa la tabla de registrosde


porcentaje acumuladose llamaOJIVA O CURVA DE
PORCENTAJE ACUMULADO.

El eje verticalrepresenta el porcentaje acumulado,


porcentaje de valores que caen en o debajo de cada intervalo.
El valor superior de cada intervalo (no el punto medio) se
ordena a lo largo de la línea base. Para construir una ojiva,
coloque un punto sobre el límite superior aparente de cada
intervaloparaindicar el porcentaje acumulado de ese intervalo,
y conectelos puntos con segmentos de línea.

14
2.16 MEDIANA, CUARTILES Y PERCENTILES

Las curvas de ojivason particularmente útiles para encontrar


puntos específicos en la distribución de valores. Uno de los
puntos más interesantes es la mediana, que es el percentil
50: punto debajo del cual cae el 50% de los valores. La
mediana es fácil de estimar a partir de una ojiva:
1) Localice "50" en el eje vertical;
2) del "50", muévase horizontal mente para intersecar la curva
de ojiva, y
3) luego muévase verticalmente hacia abajo para intersecar la
línea base y lea la mediana de la distribución.

Tres puntos importantes adicionales en una


distribuciónson los cuartiles, puntos que parten la distribución
en cuatro partes o cuartos. Esos cuartiles ( , y
)pueden estimarse a partir de la curva de ojivabuscando los
valores que correspondan a los valores del porcentaje
acumulado de 25, 50 y 75. El punto que divide el cuarto inferior
(25%) de los tres cuartos superiores de la distribución es el
primer cuartil ( ); el segundo cuartil ( ) es idéntico a la
mediana y es el percentil 50; el tercer cuartil ( ) divide el
cuarto superior de los tres cuartos inferiores de la distribución.

Los percentilesdividen en centésimos la distribución. El


percentil 70 ( )excede 70% de los valores en la distribución;
excede 30%; etcétera. Los percentilesson puntos en una
distribución bajo los cuales cae un porcentaje dado P, de los
casos. Hemos señalado que es equivalente a la mediana y
a y son equivalentes para y respectivamente.
Los percentilesse convierten fácilmente en rango percentil,
que es una forma muy popular y útil de comunicar una posición
relativa de valores en una distribución dada. El rango
percentil de un puntoes el porcentaje de casos que caen bajo
ese punto.

Se puede utilizar curva de ojivapara estimar el rango


percentil de una calificación. Este procedimiento es inverso al

15
procedimiento seguido para estimar la mediana de una
distribución. Primero, localice la calificación a lo largo de la
línea base; entoncesmuévase hacia arriba verticalmente hasta
que interseque la curva de ojiva; entoncesgire a la izquierda y
muévase horizontalmente al margen izquierdo y lea el
porcentaje acumulado (rango percentil) de la calificación.

2.17 GRÁFICOS DE CAJA Y PATILLAS

Los gráficos de caja y patillas (o gráfico de caja


abreviado)son una gráfica simple y útil para mostrar una
distribución. En los años recientes, se ha llegado a usar
ampliamente, en gran medida como resultado de la influencia
de Tukey (1977).

La cajase extiende de a (llamados "bisagras" por Tukey)


y define el 50% central de la distribución. La patilla inferiorpor
lo general se extiende de hacia abajo a Xmín, y la
superiorse extiende de hacia arriba a Xmáx. Si, sin
embargo, Xmín o Xmáx se han desviado muy marcadamente
del resto de los valores, las patillas se detendrán en los valores
más pequeño y más grande que parezcan pertenecer al
conjunto de datos. Los valores muy extremosse describen
como externos y siempre deben ser verificados dos veces con
precisión; con frecuencia los valores externosrepresentan
solamente errores de medición o de registro de datos.

Para distribuciones simétricas precisas, la mediana


cae a la mitad entre y , y las patillas son iguales en
longitud. No importa si los gráficos de caja se muestran
verticalmente u horizontalmente.

Las gráficas de cajatambién son especialmente útiles para


comparar las distribuciones de dos o más grupos para alguna
variable de interés.

El rango intercuartil (es decir, de Q1a Q3)

2.18 GRÁFICAS DE SERIES DE TIEMPO


16
Una gráfica de series de tiempoes una gráfica de línea en la
que la línea base representa el tiempo. Puede ser muy
informativa sobre tendencias en formas en las que una
representación estática de datos no puede serlo. Ejemplos
familiares de gráficas de series de tiempo incluyenlos
precios de las acciones de Dow-Jones, el índice de precios al
consumidor, nuevas reclamaciones para seguro de desempleo,
etcétera.

Los datos de series de tiemposon interesantes, y


proporcionan información relacionada con cambios que han
sido reportados durante un periodo. El mayor y más difícil
desafío de intentar explicar cómo y por qué ocurren tales
cambios es la fuente de numerosos debates acalorados en las
comunidades políticas, sociales, educacionales y religiosas.

2.19 GRÁFICAS DE PASTEL

Una gráfica de pasteles una gráfica circular consectores


dibujados proporcionales a las frecuencias queconstituyen las
categorías comprendidas por la variable que se gráfica. Son
particularmente adecuadas paramostrar las frecuencias
categóricas en relación conlas otras y en relación con el total,
especialmente cuando el número de categorías no es grande.

2.20 DESCRIPCIÓN DE DISTRIBUCIONES

La distribución con forma de campana en el panel A de la


figura ilustra unacurva normal (también llamada distribución
normal). La curva normales simétrica con respecto a la línea
vertical en la mediana, es decir, cada mitad de curva es la
imagen espejo de la otra. En una distribución normal, la
mediana también es la moda (el valor más frecuente). La
distribución normales la distribución más importante en
estadística, y una que encontrará a lo largo de su estudio de la
estadística.

La curva en el panel B de la figura tiene dos puntos


diferentes distintivosalrededor de los cuales los valores tienden

17
a acumularse. Ésta se llama distribución bimodal (es decir,
distribución con dos modas). Si las estaturas de todos los
adultos de Estados Unidos fueran graneadas, resultaríauna
distribución bimodal. Las estaturas de las mujeres se
acumularían alrededor de su moda de aproximadamente 1.65
m, y las estaturas de los hombres se acumularían alrededor de
su moda de cerca de 1.75 m.

Cuando las frecuencias que se agrupan alrededor de dos


modasdifieren sustancialmente, el valor más popular se dice
que esla moda mayor, y la joroba más pequeña representala
moda menor. La distribución de tipo bimodal también puede
ocurrir cuandouna población se polariza en dos campos
opuestos con poco acuerdo entre ellos, por ejemplo, actitud
hacia el aborto.

El panel C de la figura ilustra una distribución


rectangular, distribución simétricacon una frecuencia
constante para todos los valores de X, Quizá la variable "día de
la semana de nacimiento" (L, M, M, J, V, S, D) tendría una
distribución que es aproximadamente rectangular, ya que el
número de nacimientos es aproximadamente el mismo para
cada día de la semana.

Los paneles D y E de la figura representan distribuciones


asimétricas, es decir, curvas que no son simétricas. La
asimetríapuede ser de cualquier grado, desdemuy
ligerahastamuy extrema: La dirección de la asimetría se
marcacomo positivacuando la distribución "se alarga" hacia la
derecha a los valores altos en la distribución, y se llama
negativacuando la distribución se corre hacia la izquierda al
extremo de valores bajos del rango. No se confunda con los
términos negativo o positivo con referencia a la asimetría; los
términos positivo o negativono tienen nada que ver con un
desempeño deseable o indeseable; se refieren más bien al
signo algebraico (+ o -) del resultadocuando el grado de
asimetría se cualifica utilizando un índice de asimetría. La
asimetría negativa se ilustra en el panel E de la figura, ya que
la mayoría de los valores hacia el extremo alto y la curva se
desvanece hacia la izquierda o extremo bajo.

18
La distribución del número de días de ausencia para los
estudiantes en una clase durante el año escolarse esperaría
que fuera positivamente sesgada: la mayoría de los
estudiantes perdería sólo unos pocos días, pero unos pocos
individuos perderían muchos días. Las calificaciones en un
examen muy simpletenderían a estar sesgadas
negativamente.

2.21 GRÁFICAS ENGAÑOSAS: CÓMO MENTIR CON LA


ESTADÍSTICA

La habilidad para interpretar apropiadamente (y no ser


engañado) por información que se presenta gráficamente es un
tipo importante de preparación tanto para el lego como para el
profesional. Los medios populares bombardean continuamente
al público con una abundancia de figuras basadas en datos.
Los libros de texto en todas las disciplinas empíricas están
llenos de numerosas gráficas.

A veces, el interés propio nos induce (incluyendo a los


investigadores) a utilizar hechos literales en forma tal que el
mensaje resulta ambiguo, es decir, se miente con impunidad
(al menos en el sentido legal). Las gráficas y los
diagramaspueden organizarse para hacer propagandamás
que para iluminar.

Tufte (1983) proporciona muchos ejemplos evidentes en su


excelente libro. Muchas, si no es que la mayoría, de las cifras

19
en los medios populares se construyen para ser notorias tanto
como sea posible; los periodistas con frecuencia comprometen
la exactitud para maximizar el choque de una historia, sin
tomar en cuenta si las palabras o cuadros son utilizados para
representar la historia. Nos corresponde estar con los pies en
la tierra para que no estemos entre las víctimas crédulas de la
desinformación.

2.22 REPRESENTACIÓN DISTORSIONADA

Un error común, pero no muy sutil, evidente en muchas


pictografías (histogramas en que se utilizan figuras para
representar frecuencias) que se da en el medio popular esla
falacia línea contra área. Para obtener atizar más el fuego los
artistas gráficos a menudo representan la frecuencia de una
categoría por la altura de la figura (distancia lineal), incluso
hacen una figura por categoría. Esta escasez de
representación uniforme de una frecuencia conduce a una
imagen distorsionada de los datos.

2.23 ESCALA Y CALIBRACIÓN ERRÓNEAS

Un defecto común de las gráficases el uso de un valor


arbitrario al inicio de la escala en el eje vertical.

Un método común de una exageración porcentuales el


cambio a través del tiempo,se hace aparecer más grande de lo
que es.

La calibración de la gráfica debería por lo general incluir


al ceropara variables cuantitativas que tienen un cero absoluto
(es decir, donde cero significa ninguno) como ingreso, años de
experiencia, estatura, etcétera. Para variables en las cuales
el cero es significativo o arbitrario, como las mediciones
estandarizadas de aprovechamiento, aptitud, variables
afectivas y psicológicas, etcétera, la gráfica debería por lo
general incluir todo el rango de los valores potenciales con
espacio para extenderse en cualquier dirección.

2.24 GRÁFICAS COMBINADAS

20
La combinación de gráficaspuede ser una de las formas
más sutiles de dar credibilidad injustificada a la propaganda
gráfica.

2.25RESUMEN DE CAPÍTULO

Antes de que se pueda estudiar estadísticamente una


variable, ésta debe ser medida; la mediciónes un proceso de
asignación de números a las observaciones de una variable.
Los métodos estadísticos sonherramientas paraorganizar,
resumir y simplificar un conjunto de datos. Una característica
de interés en un conjunto de datoses la forma de su
distribución de frecuencias. Las distribucionespueden
sernormales, asimétricas (positiva y negativa) rectangulares o
bimodales. Las tablas y gráficaspueden aclarar una cantidad
de datos que de otra forma serian difíciles de manejar. La forma
o perfil de una distribución se hace evidente silas
observaciones se representan gráficamente
mediantehistogramas de frecuencias/porcentajes, y polígonos
de frecuencias/porcentajes. Las curvas de ojiva (porcentaje
acumulado)son útiles en especial paradeterminar los
percentiles, como el primer cuartil ( o ),la mediana
( ), y el tercer cuartil ( o ). Los gráficos de caja y
patillason gráficas simples y efectivas paratransmitir las
características sobresalientes de una distribución. Las gráficas
de series de tiemporevelan cambios en una variable sobre un
intervalo de tiempo dado.

Las graficas pueden serun armaasí comouna


herramienta: pueden informar, pero
tambiéndistorsionarCuando se utilizan figuras pictográficas
para representar frecuencias, todas deben ser del mismo
tamañoal menos en una dimensión. Las escalas que tienen
un punto cero verdadero o realdeben comenzar con cero
paraevitar efectos exagerados. La combinación de
gráficaspuede ser efectiva en particular para propaganda,
pues permite falsear relaciones de causa y efecto.

21
CAPÍTULO 3.
MEDIDAS DE TENDENCIA CENTRAL Y ESCALAS DE
MEDICIÓN.

3.1 ESCALAS DE MEDICIÓN

La medición incluye la evaluación, un proceso mediante el


cual las cosas se diferencian. No está limitada al uso de
instrumentos altamente desarrollados y refinados.

Por lo común, se distinguen cuatro escalas o niveles


de medición: nominal, ordinal, intervalos y escalas de
proporción o razón.

3.2 ESCALAS NOMINALES

La medición nominales la forma más rudimentaria de medir.


Es el proceso de agrupar unidades (objetos, personas,
etcétera) en categorías basándose en uno o más atributos o
propiedades observados. Con las escalas nominales
(categóricas), los números asignados definen cada grupo
distinto y sirven meramente como etiquetas o nombres(es
decir, nominal, utilizando un número como una etiqueta de
nombre). Los números hacen distinciones categóricas más que
cuantitativas; cada cifra representa una categoría diferente. La
magnitud de los números no refleja alguna ordenación
inherente de las cosas a las que fueron asignados, más bien
sirven sólo como códigos de identidad. Las observaciones no
pueden ser ordenadasde pequeño a grande o de menos a
más. Cualquier cuestión perteneciente a la magnitud de la
variable fundamentales irrelevante para la medición
nominal. La única cuestión comparativa relevantepara los
datos nominalespertenece a si dos observaciones son o no la
misma.
Las variables nominales que tienen sólo dos categorías,
como género y tipo de escuela (privada o pública), se llaman
variables dicotómicas.
Examen: ¿cuál de las siguientes variables resultaría una
escala nominal: ocupación, tipo de programa escolar,
calificación de lectura, altura en pulgadas?
Respuesta: ocupación y tipo de programa escolar son
variables nominales.

22
3.3 ESCALAS ORDINALES

Una escala de medición ordinalse logra cuando las


observaciones pueden colocarse en un orden o jerarquíacon
respecto a la característica que se evalúa. La magnitud de los
números no es arbitraria (como lo es en las escalas
nominales), sino que representa el orden del rango del atributo
observado. Se supone un continuo subyacente en los
números. Clase social, lugar en la clase, concursos de belleza
(en efecto, todas las variables expresadas como rangos) y
normas percentilaresson ejemplos de escalas ordinales.

Examen: ¿cuál de las siguientes variables podría expresarse


como rangos y representar una medición ordinal: 1) grado
académico (licenciatura, maestría o doctorado), 2) género, 3)
deporte favorito?

Respuesta: grado académico.

3.4 ESCALAS DE INTERVALO

Las escalas de intervaloson más refinadas, tanto que


números consecutivos marcan intervalos iguales, es decir,
cantidades iguales de la variable que se mide. Una diferencia
numérica dada representala misma magnitud del atributo (o
rasgo, propiedad o característica) en todos los puntos a lo largo
de la escala. La diferencia entre las temperaturas (energía
cinética) de 50° y 51° es idéntica en magnitud a la diferencia
entre 70° y 71°. Con las escalas de intervalo, sin embargo, el
punto cero es arbitrario y no representa "ninguno" o "vacío" o
"nada"; es decir, cero no representa la ausencia de la
característica medida; representa un punto conveniente del
cual se marcan intervalos de igual magnitud. Para la escala
centígrada de temperatura, la temperatura a la que el agua se
congela se asigna a 0°C; para la escala Fahrenheit, el punto en
el que una solución salina saturada se congela se asigna a
0°F. Cada vez que escribimos la fecha, el número utilizado
para el año (d.C: número de años desde el nacimiento de
Cristo) representa una escala de intervalo.

23
Examen: ¿cuál de las siguientes variables puede expresarse
utilizando una escala de intervalo: 1) carrera, 2) clase social, 3)
calificación del autoconcepto, 4) temperatura del agua en la
bahía de Kealakekua?
Respuesta: ¡la temperatura del agua en la hermosa bahía de
Kealakekua! (La temperatura del agua también puede
expresarse como una escala de proporción si la temperatura se
expresa utilizando la escala absoluta [Kelvin].)

3.5 ESCALAS DE PROPORCIÓN

Las escalas de proporcióntienen las propiedades de las


escalas ordinales y de las escalas de intervalo, pero, además,
el cero representa la ausencia de la característica en cuestión
(es decir, la escala tiene un punto cero absoluto); en
consecuencia, los números pueden compararse como
proporciones. Las medidas de longitud para las cuales se
utiliza una regla o una cinta métricas ejemplifican una medición
de proporción. Si Sue mide 1.52 m de altura y Carmen 1.27 m,
entonces Sue es 119% (1.52/1.27 = 1.19) tan alta como
Carmen o Sue es 20% más alta que Carmen. La evaluación del
CI, sin embargo, no tiene la cualidad de proporción: si Toni
tiene un CI de 125 y Jack tiene un CI de 100, no se puede decir
que Toni es 25% más inteligente que Jack. Medidas de tiempo,
distancia, peso, área y costo por lo generalrepresentan
escalas de proporción. Mediciones bien llevadas a cabo de la
escolaridad, aptitud, conceptos sociales y psicológicos con
frecuencia se supone que tienen cualidades por lo menos
ordinales o casi de intervalo.

Examen: ¿cuál de las siguientes variables tienen medidas que


probablemente representen escalas de proporción: 1) costo por
estudiante, 2) distancia de la escuela, 3) peso?
Respuesta: todas.

3.6 ESCALAS DE MEDICIÓN Y ESTADÍSTICA

Muchos textos afirman que la mayoría de las estadísticas


convencionales son inapropiadasa menos que las
mediciones representen una escala de intervalo o de
proporción.

24
3.7 MEDIDAS DE TENDENCIA CENTRAL

Medidas de tendencia central: la media, mediana y moda.

Una medida de tendencia central o localización media de


los conjuntos de datos está lejos y por mucho del tipo de índice
estadístico más ampliamente utilizado; en general, es la más
importante descripción de una distribución.

3.8 MEDIA

La media, o promedio aritmético, de un conjunto de


observaciones ( )es simplemente su suma ( ) dividida
entre el número de observaciones (n).
Para fines estadísticos, la media de una muestra ( ) se
distingue de la media de la población ( ). La media de
población ( ) es un parámetroy está basada en el conjunto
completo de unidades observacionales (N) en la población
definida por el investigador, por ejemplo, todos los directores
de California, todos los estudiantes de Colorado inscritos en
programas bilingües, todas las escuelas primarias de Estados
Unidos, etcétera. Una media de muestra ( ) es un
estadígrafo inferencial; está basada en un subconjunto, de
preferencia una muestra aleatoria, de unidades
observacionales (n) seleccionadas de toda la población.
En matemáticas y ciencias se utilizan fórmulas debido a
queson precisas y sucintas. Una fórmulaes una oración
expresada matemáticamente.

3.9 MEDIANA

La mediana (Md)es otra medida común de tendencia


central; es el valor medio en un conjunto de valores ordenados:
el punto abajo (y arriba) del cual cae un número igual de
observaciones; la medianaes el percentil cincuenta ( ) o el
segundo cuartil ( ).

Para encontrar la mediana de un grupo de valores:


1. Arregle los valores en orden.
2. Cuente hacia atrás hasta el valor medio en la
distribución ordenada.

25
Para una distribución compuesta por un NÚMERO PAR
DE OBSERVACIONES, la mediana ocupa una posición
intermedia entre el par de valores de en medio.

La medianapuede encontrarse para cualquier distribución


que pueda ordenarse; es decir, sólo se requiere una escala
ordinal de medición.

3.10 MODA

La modaes la observación que ocurre con más frecuencia, el


valor más común o popular.

La modapuede emplearse incluso con variables


categóricas —datos que representan sólo una escala nominal
de medición.

Los conceptos de media y mediana virtualmente no


tienen significado con variables categóricas.

Examen: ¿cuál es la media y la mediana étnica en Estados


Unidos?
Respuesta: ¡no contesto preguntas absurdas!

La moda, sin embargo, tiene significado con datos en


todos los niveles de medición. La moda es fácilmente
identificableen una distribución de frecuencia no
agrupada.Con distribuciones de frecuencia agrupadas, el
punto medio del intervalo con la frecuencia más grande puede
usarse para estimar la moda.

3.11 MEDIA, MEDIANA Y MODA DE SUBGRUPOS COMBINADOS

La media compuestao media mayor simbolizada por .

Cuidado:La media mayorno es sólo la media de las medias


de lossubgruposa menos que los tamaños de las muestras de
los subgrupos sean idénticas. La media mayor ( ) de grupos
de medida diferente se calcula dividiendo la suma de las
sumas de los subgrupos entrela suma de las n del grupo, como
está implícito en la ecuación 3.3.

26
M
d
3.12 TENDENCIA CENTRAL Y ASIMETRÍA

En distribuciones simétricas con sólo una moda, como la


curva normal en la figura 3.1 A, la media ( ), mediana (Md) y
moda (Mo) tienen el mismo valor. Por ejemplo, la media, la
mediana y la moda de la población de valores de CIson todas
100 debido a quela distribución de valores de CI está
representada de manera precisa por la curva normal.

Para distribuciones bimodales y rectangulares como en


la figura 3.1B y la figura 3.1C, sólo la media y la mediana son
idénticas. Observe que una distribución perfectamente
rectangular no tiene una moda, ya que todos los valores X
tienen la misma frecuencia.

En distribuciones asimétricas como las figuras 3.1D y


3.1E, la media, siendo sensible a la magnitud de cada valor,es
"jalada" hacia los valores extremos en la "cola" de la
distribución. Consecuentemente, la media tiene el valor más
grande de las tres medidas de tendencia centralen una
distribución asimétrica positiva, y el valor más pequeño
enuna distribución asimétrica negativa.

27
Contrario a la opinión popular, no es siempre el caso que
50% de casos estén por encima del promedio (la media).
Observe en la figura 3.1D que es completamente posible para
el 70% o más de los valores de una distribución estar debajo
del promedio (o arriba del promedio como en la figura 3.1E).

Se espera que la mediana caiga entrela media y la moda


en las distribuciones asimétricas; teóricamente, en
distribuciones asimétricas grandes y moderadas, se
espera que la mediana estécerca de dos veces alejada de la
moda como lo está de la media (véanse figuras 3.1D у З.1Е).
Sin embargo, con conjuntos de datos pequeños, la moda es
muy erráticay su relación a la media y la mediana es
completamente impredecible.

En distribuciones extremadamente asimétricas, la


mediapuede estar influida a tal grado que no es una buena
medición descriptiva de la tendencia central de una
distribución.

En distribuciones severamente asimétricas, la mediana es


preferible a la media para fines descriptivos; realmente, sólo
en distribuciones simétricasla media es fácil de interpretar (y
esto se debe a que es igual a la mediana).

3.13 MEDIA, MEDIANA У MODA: ¿CUÁL MEDIDA ES MEJOR?

La modaes aplicable para cada una de las cuatro escalas de


medición. Sólo la modatiene significado para variables
categóricas comoafiliación política, afiliación religiosa, grupo
étnico, especialidad académica u ocupación. Sin embargo,
para fines inferenciales, la moda tiene una desventaja
distintiva: la moda de una muestra no es una estimación
muy confiable de su moda de población a menos que el
tamaño de la muestra aleatoria sea extremadamente grande.
La confiabilidad en estadísticarepresenta la precisión con la
cual la estadística estima el parámetro de población
correspondiente. Establecido de forma diferente, hay un gran
error de muestreo asociado con la moda de la muestra; el
error de muestreoes la diferencia entre el estadígrafo de la
muestra y el parámetro de población correspondiente.

28
La mediana de la muestraes más confiable (es decir,
tiene un error de muestreo menor) que la moda de la muestra;
la media de la muestratiene un error de muestreo menor que
la moda o la mediana, lo cual es una razón del por qué tiende a
ser preferida para fines inferenciales.
Como ejemplo, suponga que un grupo se divida
aleatoriamente en dos subgrupos, А у В, y que se aplica el
mismo examen a ambos subgrupos. Sería de esperarse quela
diferencia entre las dos mediasfuera menor que aquélla entre
las dos medianas, lo cual, a su vez, se esperaría que fuera
menor que la diferencia entre las dos modas. Expresado de
otra forma, a la larga, la media de la muestra da una
estimación más cercana de su parámetro de población que la
mediana o la moda.

Para fines descriptivos, la medianaes con frecuencia


la medida preferida de tendencia central. Como el percentil 50
de la distribución, comunica bien el "promedio" para
distribuciones continuas simétricas y asimétricas. La mediana
de una distribucióntambién tiene una característica
matemática interesante: es el punto del cual la suma de las
distancias (valores absolutos) a todos los otros valores en la
distribución es un mínimo.

RESUMEN DE CAPÍTULO

Los números en un conjunto de datostienen diferentes


propiedades dependiendo dela naturaleza de la variable que se
mide y de la precisión involucrada en los procedimientos de
evaluación. Los cuatro tipos básicos de escalas de
medición o nivel de medición se describen como
escalasnominal, ordinal, de intervalo y de proporción. Con
escalas nominales, los números solo se usan como etiquetas
de nombre, y no representan valores o cantidades. Con las
escalas ordinales, los números pueden colocarse en orden
por rango decantidad o grado. Con escalas de intervalo, los
números representan unidades iguales a lo largo deun
continuo, pero tienenun punto cero arbitrario. Una escala de
proporciónes una escala de intervalo, pero también tiene un
cero absoluto.

29
La escala de medición representada por un conjunto
de datos depende en parte dela naturaleza de la variable en
cuestióny en parte dela calidad de los procedimientos de
medición. Las mediciones de variables
categóricascontinúan siendo escalas nominalessin importar
cuán cuidadosamente sean evaluadas. Las medidas de
variables continúas que teóricamente pueden medirse por
escalas de intervalo o de proporciónpueden representar solo
escalas ordinalessi se emplean procedimientos de medición
ordinarios.

Hay tres medidas comunes de tendencia central:la


media, mediana y moda. La mediaes la medición más
ampliamente usada de ―promedio‖tantoen la comunicación de
información al público en generalcomoen la investigación
empírica. De las tres la media de la muestraes la más
precisa(es decir, tiene menos error de muestreo) y tiende a ser
mejor para fines inferenciales, es decir, hacer inferencias sobre
parámetros de población. El valor de todos los datosinfluye
en el valor numérico de la media. En consecuencia, en
distribuciones asimétricas, la media es ―halada‖ hacia la cola
mas alargadamás que la mediana o la moda.

En distribuciones segadas positivamente, se espera


que la media exceda ala mediana y a la moda; lo contrario es
cierto paradistribuciones sesgadas negativamente. Para
distribuciones continuas, la mediana es por lo generalel
indicador más significativo de tendencia centralpara fines
descriptivos.

La medianaes el percentil 50 de una distribución ( ) y


parte a un conjunto de valores en el punto medio. La
medianaes también el punto en una distribución del cual la
suma de las desviaciones absolutas de todos los valores esun
mínimo. Si esas diferencias son cuadráticas, sin
embargo,el total será menor que la media, no que la mediana.
La media, por lo tanto, es la medida de tendencia central que
satisface de modo sorprendente el importante criteriode
mínimos cuadrados.

30
La moda, a diferencia de la media y la mediana, puede
usarse incluso con las escalas nominales. La modaes la
observación que ocurre con más frecuencia, pero es menos
confiable que la media o la mediana. En distribuciones
simétricas unimodales, la moda, la mediana y la mediatienen
el mismo valor.
Característica MEDIA MEDIANA MODA
Más confiable MEDIA
Menos confiable MODA
Requiere sólo de escalas
nominales
MODA
Requiere sólo observaciones
clasificadas
MEDIANA
Punto debajo del cual y arriba del
cual cae la mitad de las MEDIANA
observaciones
“Centro de gravedad” de una
distribución
MEDIA
Influye en ella el valor específico
de cada observación
MEDIA
Será igual en una distribución
simétrica
MEDIA MEDIANA
Será igual en una distribución
normal
MEDIA MEDIANA MODA
Tendrá el valor más grande en una
distribución sesgada positivamente
MEDIA
Tendrá el valor más grande en una
distribución sesgada MODA
negativamente
Su valor no es ni el más grande ni
el más pequeño en distribuciones MEDIANA
asimétricas
Es en sí misma mejor que otras
operaciones aritméticas
MEDIA
Es la más ampliamente utilizada en
métodos estadísticos más MEDIA
avanzados
Puede estimarse gráficamente de
las curvas de ojiva
MEDIANA
Puede estimarse más rápidamente
en histogramas o polígonos de MODA
frecuencia
Mejor para variables continuas
para fines descriptivos
MEDIANA
Es igual a y MEDIANA

31
REPASO ACTIVO: EJERCICIO CLOZE.

Tres medidas comúnmente usadas de TENDENCIA


CENTRAL son la media, la moda y la MEDIANA Por lo general
los valores se concentran alrededor del valor que ocurre con
mayor frecuencia, la MODA. El punto medio que separa la
distribución en dos partes de igual tamaño es la MEDIANA. La
medida de tendencia central más segura, estable o confiable
tiende a serla MEDIA. La MEDIA es sensible al valor de cada
dato en la distribución; esto no ocurre en la MODA ola
MEDIANA. Lasdistribuciones que son precisamente simétricas
y tienen una cierta forma de campana matemáticamente
especificada se llaman distribucionesNORMALES. En una
distribución normal verdadera, la moda, la mediana y la media
tienen el mismo VALOR. Todas las distribuciones normales
son SIMÉTRICASpero algunas distribuciones simétricas no
sonNORMALES. Una prueba puede ser tan difícil que hay
muchos valores BAJOS y pocos extremadamente ALTOS. Tal
distribuciónse describirá como sesgada POSITIVAMENTE.

En distribuciones asimétricas, la MEDIANA con frecuencia


es la medida descriptiva preferida de tendencia central, pero
para fines inferenciales la MEDIA tiene el menor error de
muestreo. En unaPrueba muy fácil, la MEDIANA será mayor
que la MEDIA, pero menor que la MODA. Si se encontrara que
la media CI enun grupo fuera 110 y la mediana 100, la
distribución probablemente estaría sesgadaPOSITIVAMENTE.
Si un grupo tuvierauna media de 89.3 y una mediana de 90.1,
el sesgo sería INSIGNIFICANTE. Si este grupo se combinara
con un grupo talentoso, la forma de la distribución de los
valores de CI compuestos probablemente sería BIMODAL.
Si pudiera desarrollarse una prueba de modo que cada
valor se obtuviera con igual frecuencia, la forma de la
distribución sería SIMÉTRICA y RECTANGULAR y no sería
MODA.

32
CAPÍTULO 4.
MEDIDAS DE VARIABILIDAD:¿Cuán diferentes son las
observaciones?

4.1 INTRODUCCIÓN

Las dos características estadísticas más importantes de


cualquier conjunto de datos son:
1) su tendencia central
2) su variabilidad.

Esos conceptos son muy útiles al resumir las características


principales de un conjunto desconcertante de datos. Las
medidas de tendencia centralestán relacionadas con el
promedio o valor típico o representativo de la distribución. Una
segunda consideración importante se relaciona con la
variabilidad entre los valores, es decir, qué tan grandes son
las diferencias entre los valores. Las medidas de
variabilidadcuantifican el grado de dispersión o la extensión
de las diferencias individuales evidenciadas en la distribución.
Para interpretar de manera apropiada una observación,
necesitamosmedidas de tendencia central y
variabilidad.Consideramos tres medidas de variabilidad: el
rango, varianza y desviación estándar.

Examen: intente esta analogía: muestra es a estadígrafo como


población es a "?".
Respuesta: parámetro.

4.2 EVALUACIÓN DE LA VARIABILIDAD

Las descripciones expresadas tales como "mucho",


"considerable" y "pequeña" son intentos verbales para
comunicar la variabilidad, pero se interpretan subjetivamente y,
por lo tanto, con pérdida en la precisión. Los índices
estadísticos son necesarios pues cuantifican objetivamente el
grado de variabilidad en la distribución.

4.3 VALORES DE DESVIACIÓN

Para la variabilidad, se consideran las diferencias entrela


media ycada valor.

33
Esas diferencias de la media se llamanvalores de
desviacióny se simbolizancon minúsculas: x cuando se
considera una variable (y x y y cuando se consideran dos
variables).

Los valores brutos por arriba de la mediatienen valores


de desviación positivos, y los valores brutos por abajo de la
mediatienen valores de desviación negativos. Típicamente,
más o menos la mitad de los valores de desviación son
positivos y la mitad negativos, y su suma siempre es cero.
Si la distribución es marcadamente heterogénea o
marcadamente homogénea, la suma de sus valores de
desviación de la media es cero. Esto es cierto para todas las
distribuciones de todas las diferentes formas y de todos los
tamaños, es decir, . Obviamente, no puede usarse
para reflejar la variabilidad.

4.4 SUMA DE CUADRADOS

, la suma de los cuadrados (SC), nunca puede ser


negativa. Esta suma de cuadrados puede interpretarse
comouna manera de cuantificar la totalidad de la variabilidad
en un conjunto de valores. Si dos grupos del mismo tamaño
toman la misma prueba,el grupo con la mayor SC tiene la
mayor variabilidad, es decir,es más heterogéneo y está
caracterizado por mayores diferencias individuales.

Como al valor de la suma de cuadrados le afecta de gran


manerael número de observaciones del conjunto de datos, no
es una medida útil de la variabilidad.

4.5 VARIANZA DE POBLACIÓN

El propósito de una medida de la variabilidades cuantificar


el grado de variación entre el conjunto de valores de una
distribución.

Cuando todas las N observaciones de la población están


incluidas en el conjunto de datos, la varianza , se encuentra
dividiendo la suma de cuadrados entre N, como se define en la
ecuación 4.3.

34
Para calcular para una población de valores.

1. Encuentre la desviación de cada valor de la media:


ecuación 4.1:
2. Eleve al cuadrado cada valor de la desviación:
.
3. Sume las para encontrar la suma de cuadrados:
SC =
4. Encuentre la varianza dividiendo SC entre N:

4.7 DESVIACIÓN ESTÁNDAR DE UNA POBLACIÓN

La desviación estándar ( )es simplemente la raíz


cuadrada de la varianza.

La desviación estándares más útil para describir la


variabilidad de un conjunto de datos mejor que la varianza
(aunque la varianza tiene propiedades que son superiores para
el uso en estadísticas inferenciales). La desviación
estándarlleva las mismas unidades que los valores originales.
Se espera que aproximadamente dos tercios de los valores
estén dentro de una (+ o -) desviación estándar de la
media.Para distribuciones normales, cerca de un tercio de
los valores se desvían más de una de .

4.8 PARÁMETROS CONTRA ESTADÍGRAFOS

El conjunto total de personas o cosas que el investigador


desea describir esla población de interés.

4.9 ERROR DE MUESTREO Y VARIANZA DE LA MUESTRA

De modo intuitivo sabemos que los estadígrafos de


muestra diferirán en algo de sus correspondientes parámetros.
Los estadísticos llaman a este tipo de diferencia error de
muestreo.

La suma de cuadrados para cualquier conjunto de


valoreses menor cuando se desvía de su propia que
cuandose desvía de otro punto.

35
De aquí, la SC de la muestra de será menor que la
suma de los cuadrados de (excepto en el raro caso en que
X= ). Cuando es desconocida, el uso de la estimación, ,
más que de para calcular la suma de cuadrados, SC, da
como resultado un valor para la suma de cuadrados que es
demasiado pequeño, y la ecuación 4.3 daría una
subestimación influida por la varianza de la población.
Afortunadamente, los estadísticos matemáticoshan resuelto
esta dificultad en nuestro lugar: han probado, bastante
asombrosamente, quela influencia en SC resultante del uso
de en lugar de , ¡es compensada con precisión al
reemplazar el denominador n por (n - 1) (véase la ecuación
4.6)! Utilizar el divisor (n - 1) da como resultadouna
estimación no influida de la varianza de la población de la
muestra aleatoria de n observaciones; n - 1tiene el nombre no
intuitivo de grados de libertad, y se representa por (letra
griega que se pronuncia como "ni" que corresponde a nuestra
letra n). Encontrará las expresiones "grados de libertad" y " " a
lo largo del libro; piense en grados de libertad comoun
tamaño de muestra, ajustado para compensar el sesgo. La
varianza de la muestra, , definida por la ecuación 4.6 es
una inferencia estadística no sesgada; es la estimación no
sesgada de .

La varianza de la muestra, ,tiene una propiedad que es muy


importante en inferencia estadística —el estadígrafo es una
estimación no sesgada del parámetro . Una estimación no
sesgadaes aquella en la cual la sobreestimación y
subestimación tienden a balancearse a la larga.

La desviación estándar de la muestraes simplemente la


raíz cuadrada de la varianza de la muestra.

4.10 VALORES ESPERADOS

Si un estadígrafo no es sesgado, su "valor esperado" es


igual al parámetro que estima. El valor esperado de un
estadígrafo de la muestraes su valor medio "a la larga".

E(estadígrafo no sesgado) = parámetro (4.8)

36
A la larga, el valor medio de un estadígrafo no sesgado
(es decir, su valor esperado)es el parámetro que estima. Otra
forma de decir esto es que, a la larga, la suma algebraica de
los errores de muestreo para ese estadígrafoes cero.

4.11 DESVIACIÓN ESTÁNDAR DE LA MUESTRA, s, COMO UN


ESTIMADOR DEL PARÁMETRO

Puede parecer a nivel intuitivo que si , entonces


debería también ser una estimación no sesgada de . Este no
es el caso: una raíz cuadrada de un estadígrafo no
sesgadono es una estimación no sesgada de la raíz cuadrada
del parámetro, por ejemplo, . Afortunadamente, el
error que resulta por utilizar como una estimación de es
insignificantea menos que n sea pequeña.

4.12 RANGO

El rango es simplemente la diferencia entre las


observaciones mayores (Xmáx) y las menores (Xmín).

4.13 ESTIMACIÓN DE H Y DE RANGO INTERCUARTIL

Aunque no tan importantes como la varianza y la desviación


estándar, hay otras dos medidas de variabilidad que deberán
estar en nuestro vocabulario estadístico, el rango
intercuartilar y el rango semintercuartilar. El primer
cuartil ,es el punto en la escala bajo el cual 25% de los
valores caen— es el percentil 25. es equivalente ala
mediana o al percentil 50. El punto bajo el cual se encuentra el
75% de los valores define . La diferencia (rango
intercuartil)entre el primero y tercer cuartiles de un grupo de
valores, es decir, , es el rango intercuartilar. Un
sinónimo de es estimado H (Tukey, 1977), la
diferencia entre , ("eje inferior" de Tukey) y ("eje superior"
de Tukey).

37
El rango semintercuartilar Q, es una medida de la
distancia entre el tercer y primer cuartiles, es decir:

Qpuede ser una útil medida descriptiva de la


variabilidad. Si dos grupos de valores tienen el mismo valor
de Q, probablemente poseen patrones similares de
heterogeneidad. En distribuciones que no son severamente
asimétricas, Md± Qpuede usarse para reconstruir los límites
aproximados del valordentro del cual el 50% de los valores
caen. En la sección 5.12 veremos que en una distribución
normal Q = .674 o = 1.5Q; en otras palabras, cuando una
distribución es aproximadamente normaluno puede estimar
de Q, o viceversa.

Examen: en la población distribuida normalmente de las


calificaciones de CI, = 15. Estime los percentiles 25 y 75 en
esta distribución.
Respuestas: = = 90 y = = 110. (Q es cerca de
10 —dos tercios de .)

4.14 INFLUENCIA DEL TAMAÑO DE LA MUESTRA EN EL RANGO

Un gran defecto del rango como inferencia estadísticaes


que su valor se ve afectado en gran medida por el tamaño de
la muestra. El rangose afecta sólo por dos observaciones
atípicas(la mayor y la menor) y, conforme aumenta el tamaño
de la muestra, el rango tiende a incrementarse. Este no es el
caso de ; la expresión E( ) = no depende de n; esta
característica prevalece a pesar del tamaño de la muestra.

El rangotiene valor muy limitado como inferencia estadísticaya


que su valor depende del tamaño de la muestra. El rango es,
sin embargo, útil como una estadística descriptiva, y debe
considerarse como complemento, no como sustituto para y
.
Tanto el rango, el rango intercuartilar y Qtienen un valor
limitado como estadísticas inferenciales.

38
4.15 CONFIABILIDAD Y CONSISTENCIA DE ESTIMADORES

La confiabilidad en estadísticarepresenta la estabilidad y


consistencia del estadígrafo comouna estimación del
correspondiente parámetro de población. La mediaes más
confiable que la mediana o la moda; esto indica quemedias de
la muestra de la misma población son más parecidas (tienen
menos variabilidad) quelas medianas de la muestra o las
modas de la muestra. De manera similar, las varianzas de la
muestra (y desviaciones estándar)son más confiables y
estables quelos rangos de la muestra y los rangos
intercuartiles.

El hecho de que un estadígrafo sea no sesgado [por


ejemplo, E( ) = ] para todo valor de nno implica que la
estadística basada en 10 observacionessea tan exacta como
una estimación basada en 100 observaciones. Con todas las
mediciones estadísticas, conforme n aumenta, el error de
muestreo disminuyey se espera que el estimador se aproxime
al parámetro en valor numérico. Esta característica, de que un
estadígrafo se aproxime al parámetro a medida que n aumenta,
se llamaconsistencia.

Todas las estadísticas aplicadas tienen la propiedad


deconsistencia, pero no todas sonno sesgadas; y de las que
son no sesgadas, no todas son igualmente eficientes. La
eficienciase relaciona con la cantidad de error de muestreo
esperado en una medición estadística dada; los índices más
eficientestienden a tener menos error de muestreo, es decir,
dan estimaciones más cercanas en valor a sus
correspondientes parámetros. Las preferencias de los
estadísticos por ciertas inferencias estadísticas sobre
otras está basada enel no sesgo y en la confiabilidadya que
todas son consistentes, por ejemplo, la media se prefiere
sobrela mediana y la moda para fines inferencialesdebido a
que es más confiable (o eficiente).

39
RESUMEN DEL CAPÍTULO

Las medidas de variabilidadson necesarias para cuantificarel


grado de dispersión en una distribución. La varianza, la
desviación estándar y el rangoson medidas comunes de
variabilidad. Si una distribución contiene todas las
observaciones de la población, las medidas estadísticas son
parámetros. La varianza y la desviación estándar para la
población se simbolizan y , respectivamente. Si la
distribución contiene sólo una muestra de observaciones
de la población, las medidas estadísticas se llaman
estadígrafos (o inferencias estadísticas). Las estimaciones de
la varianza y de la desviación estándar de la muestra se
simbolizan y , respectivamente. La diferencia entre un
estadígrafo y el parámetro relevante esel error de muestreo.
Las mediciones estadísticas se evalúan en términos
deconfiabilidad, consistencia y no sesgo.
Consistenciasignifica que el error de muestreo en una
estadística disminuye a medida que n aumenta—todas las
medidas estadísticas son consistentes. La confiabilidades el
grado en el cual las estimaciones de la muestra de un
parámetro tienden a tener menos error de muestreo. Las
estadísticas más confiablestienen relativamente menos error
de muestreopara competir con los índices estadísticos —la
mediase prefiere a las otras medidas de tendencia central
debido a quea la larga tiene menos error de muestreo para
cualquier valor de n; es más confiable y eficiente. Las
estadísticas no sesgadasson aquellas para las cuales el valor
esperado del estadígrafo esigual al parámetro, haciendo caso
omiso de n. La expresión, E( )= , establece quela varianza
de una muestra es una estimación no sesgada de la varianza
de población. La desviación estándar de la muestra, ,es
ligeramente sesgada; tiende a subestimar el parámetro
aunque el grado de sesgo sea insignificante, a menos que n
sea muy pequeña. El rangopuede ser significativo como una
estadística descriptiva,pero tiene un uso limitado en inferencia
estadística debido a queestá extremadamente influido por n,
entre mayor sea n. mayor es el rango.

40
ESTADÍSTICA
CAPÍTULO 2.
DISTRIBUCIONES DE FRECUENCIA: Tablas
estadísticas y gráficas

RESUMEN DE CAPÍTULO

Antes de que se pueda estudiar estadísticamente una


variable, ésta debe ser medida; la mediciónes un proceso de
asignación de números a las observaciones de una variable.
Los métodos estadísticos sonherramientas paraorganizar,
resumir y simplificar un conjunto de datos. Una característica
de interés en un conjunto de datoses la forma de su
distribución de frecuencias. Las distribucionespueden
sernormales, asimétricas (positiva y negativa) rectangulares o
bimodales. Las tablas y gráficaspueden aclarar una cantidad
de datos que de otra forma serian difíciles de manejar. La forma
o perfil de una distribución se hace evidente silas
observaciones se representan gráficamente
mediantehistogramas de frecuencias/porcentajes, y polígonos
de frecuencias/porcentajes. Las curvas de ojiva (porcentaje
acumulado)son útiles en especial paradeterminar los
percentiles, como el primer cuartil ( o ),la mediana
( ), y el tercer cuartil ( o ). Los gráficos de caja y
patillason gráficas simples y efectivas paratransmitir las
características sobresalientes de una distribución. Las gráficas
de series de tiemporevelan cambios en una variable sobre un
intervalo de tiempo dado.

Las graficas pueden serun armaasí comouna


herramienta: pueden informar, pero
tambiéndistorsionarCuando se utilizan figuras pictográficas
para representar frecuencias, todas deben ser del mismo
tamañoal menos en una dimensión. Las escalas que tienen
un punto cero verdadero o realdeben comenzar con cero
paraevitar efectos exagerados. La combinación de
gráficaspuede ser efectiva en particular para propaganda,
pues permite falsear relaciones de causa y efecto.

41
PRUEBA DE DOMINIO.

1. Si un valor de CI es 115 en , ¿qué porcentaje de valores


excede 115?

2. ¿Cuál de estos tipos de distribución es mejor para transmitir la


distribución de frecuencias de 600 valores de una prueba?

a) distribución de rango-orden
b) distribución de frecuencias no agrupada
c) histograma

3. Considere el siguiente conjunto de calificaciones de matemáticas


de los datos del HSB (caso de estudio):

43 58 46 49 50 50 55 47 50 52 51 56
53 54 51 51 39 50 40 41 58 42 40 41

a) Encuentre Xmáx= 58
b) Encuentre Xmín= 39
c) Calcule el rango=19

4. De las siguientes opciones, cuál puede determinar con mayor


precisión el rango de un conjunto de observaciones?

a) ¿distribución de frecuencias no agrupada


b) Distribución de frecuencias agrupada

5. Adivine si cada una de las siguientes distribuciones tiene


asimetría positiva o negativa.

a) ingreso familiar en dólares por año. POSITIVA


b) edad de graduación de la universidad. POSITIVA
c) poblaciones de ciudades en Estados Unidos. POSITIVA
d) calificaciones en una prueba muy fácil. NEGATIVA.

6. Dada Xmín=42 y el tamaño de intervalo (w) es igual a 5.


¿Cuáles son los valores límites inferior y superior aparentes de
los tres intervalos más bajos?

40-44, 45-49, 50-54

42
7. ¿Qué nombre daría a un valor que se desvía marcadamente de
los otros valores en la distribución?

EXTERNO

8. Si la variable de la línea base (eje X o abscisa) representa


una variable categórica (como nacionalidad o género), ¿se
prefieren los histogramas a los polígonos de frecuencias?
9. ¿Pueden representarse en la misma figura un polígono de
porcentaje y uno de frecuencias?
10. ¿Cuál de los siguientes cuatro términos difiere más de los otros
tres?

a) eje X
b) eje Y
c) eje horizontal
d) abscisa
En las preguntas 11-16, haga coincidir las descripciones verbales y
gráficas:

11. distribución rectangular


12. distribución bimodal
13. distribución normal
14. distribución asimétrica positiva
15. distribución asimétrica negativa

16. ¿Cuáles de las curvas anteriores (a-e) son aproximadamente


simétricas?

NORMAL, BIMODAL Y RECTANGULAR.

17. Para representar datos visualmente en una distribución de


frecuencias agrupada, ¿cuántas clases se recomiendan
generalmente para tamaños de muestras de cerca de

a) 60?=10
b) 1 000?=15 o 20

43
18. ¿Cuál de las siguientes gráficas es mejor para determinar
percentiles?

a) Histograma
b) polígono de porcentajes
c) curva de ojiva

19. ¿Cuál de los siguientes cuatro términos difiere más de los otros
tres?

a)
b) Mediana
c)
d)

20. El número de huevos en una docena es una

a) Variable
b) Constante

21. ¿En una gráfica de caja y patillas, qué porcentaje de los casos
cae dentro de la caja?

50%

22. En una gráfica vertical de caja y patillas, si la patilla inferior es


más larga que la superior, la distribución parecería ser

a) Normal
b) Bimodal
c) asimétrica positiva
d) asimétrica negativa

23. El conjunto de datos de HSB (caso de estudio) incluye datos de


10 variables diferentes. Para cada variable listada a
continuación, decida si la variable esCATEGÓRICA o
CONTINUA.
a) tipo de escuela. CATEGÓRICA
b) tipo de programa escolar. CATEGÓRICA
c) calificación en escritura. CONTINUA
d) género. CATEGÓRICA
e) calificación en lectura. CONTINUA

44
f) Raza. CATEGÓRICA
g) calificación en ciencias. CONTINUA
h) calificación en matemáticas. CONTINUA
i) calificación en civismo. CONTINUA
j) NSE. CONTINUA

24. Considere las siguientes variables y haga hipótesis sobre la


forma aproximada de sus distribuciones en los Estados Unidos.
Conteste(N) para normal, (B) para bimodal, (R) para rectangular,
(AP) para asimétrica positiva, y (AN) para asimétrica
negativa.

a) peso de los hombres de 20 años. NORMAL


b) mes de nacimiento. RECTANGULAR
c) peso de las mujeres de 20 años. NORMAL
d) días de la concepción al nacimiento. ASIMÉTRICA
NEGATIVA
e) peso de las personas a la edad de 20 años. BIMODAL
f) edad al primer matrimonio. ASIMÉTRICA POSITIVA

PROBLEMAS Y EJERCICIOS.

1. Suponga que el siguiente conjunto de datos es una


muestra aleatoria de 40 calificaciones de autoconcepto.

a) Determine Xmáx, Xmín y el rango


Xmáx=117
Xmín=63
Rango=54

45
b) ¿Cuántos intervalos sugeriría para mostrar la
distribución?

CERCA DE 10 INTERVALOS A MENOS QUE n SEA


MUY GRANDE.

c) Determine el ancho del intervalo, w, para permitir 10


intervalos.

w = rango/10 = 54/10 = 5.4, REDONDEADO A 5.

d) Si w = 5, ¿cuál es el primer intervalo (valores más


bajos)?

EL MENOR MÚLTIPLO DE 5 QUE ES MENOR QUE


63 ES 60:60-64

e) Si w = 5, liste los intervalos.

f) Construya una distribución de frecuencias agrupada


para los 40 valores. (Utilice el método de conteo con
estacas.)

g) Construya columnas de porcentajes y porcentaje


acumulado para esos datos.

46
h) ¿Sería un polígono de frecuencias una gráfica
apropiada para esos datos? ¿Por qué?

SÍ; LOS POLÍGONOS DE FRECUENCIA SON


EXCELENTES PARA VARIABLES CONTINUAS.

i) Construya un polígono con esos datos.

j) Construya una ojiva de esos datos.

k) Estime , y utilizando la ojiva.

=80
=100
=110

l) Construya una gráfica horizontal de caja y patillas para


esos datos.

47
m) Comente sobre la aparente simetría o asimetría de
esos datos.

PARECE QUE LA DISTRIBUCIÓN ES ASIMÉTRICA


Y SESGADA A LA IZQUIERDA

n) ¿Cómo diferirá una ojiva de asimetría positiva de la de


asimetría negativa?

LA OJIVA DE UNA DISTRIBUCIÓN ASIMÉTRICA


POSITIVA SE ELEVARÍA MUY RÁPIDO DE LA
LÍNEA BASE EN EL LADO IZQUIERDO DE LA
OJIVA DEBIDO AL CONJUNTO DE VALORES EN
LAS REGIONES MÁS BAJAS. POR OTRO LADO, LA
OJIVA DE UNA DISTRIBUCIÓN ASIMÉTRICA
NEGATIVA NO COMENZARÁ A ELEVARSE
RÁPIDAMENTE SINO HASTA QUE ALCANCE LOS
VALORES ALTOS EN EL LADO DERECHO DE LA
FIGURA.

o) ¿Puede suponer cómo podría aparecer la ojiva de una


distribución rectangular?

UNA LÍNEA RECTA INCLINADA HACIA ARRIBA


DESDE EL EXTREMO INFERIOR IZQUIERDO
HASTA EL EXTREMO SUPERIOR DERECHO.

2. El siguiente conjunto de datos es de una muestra aleatoria


de 50 casos de los datos del HSB. En este caso, los
números representan la raza de los individuos, de donde 1
= hispano, 2 = asiático, 3 = negro, 4 = blanco.

48
a) ¿Un polígono de frecuencias es apropiado para
graficar esos datos? ¿Por qué?

NO, YA QUE ESOS DATOS SON CATEGÓRICOS


MÁS QUE CUANTITATIVAMENTE CONTINUOS.

b) ¿Es apropiada una gráfica de barras para graficar esos


datos? ¿Por qué?

UNA EXCELENTE ELECCIÓN, YA QUE LOS DATOS


NO TIENEN UN CONTINUO FUNDAMENTAL

c) Construya una distribución de frecuencias agrupada


para esos datos. (Utilice el método de conteo de
Tukey.)

d) Construya una columna de porcentajes para esos


datos.

e) Construya un hístograma de frecuencias para esos


datos.

f) Etiquete el eje vertical de la figura en el inciso e para


indicar frecuencia y porcentajes.

49
g) ¿Habría probablemente brechas entre las columnas del
histograma? ¿Por qué?

SÍ, YA QUE ES CONGRUENTE CON LOS DATOS


CATEGÓRICOS NO CLASIFICABLES

50
CAPÍTULO 3.
MEDIDAS DE TENDENCIA CENTRAL Y ESCALAS DE
MEDICIÓN.

RESUMEN DE CAPÍTULO

Los números en un conjunto de datostienen diferentes


propiedades dependiendo dela naturaleza de la variable que se
mide y de la precisión involucrada en los procedimientos de
evaluación. Los cuatro tipos básicos de escalas de
medición o nivel de medición se describen como
escalasnominal, ordinal, de intervalo y de proporción. Con
escalas nominales, los números solo se usan como etiquetas
de nombre, y no representan valores o cantidades. Con las
escalas ordinales, los números pueden colocarse en orden
por rango decantidad o grado. Con escalas de intervalo, los
números representan unidades iguales a lo largo deun
continuo, pero tienenun punto cero arbitrario. Una escala de
proporciónes una escala de intervalo, pero también tiene un
cero absoluto. La escala de medición representada por un
conjunto de datos depende en parte dela naturaleza de la
variable en cuestióny en parte dela calidad de los
procedimientos de medición. Las mediciones de variables
categóricascontinúan siendo escalas nominalessin importar
cuán cuidadosamente sean evaluadas. Las medidas de
variables continúas que teóricamente pueden medirse por
escalas de intervalo o de proporciónpueden representar solo
escalas ordinalessi se emplean procedimientos de medición
ordinarios.

Hay tres medidas comunes de tendencia central:la


media, mediana y moda. La mediaes la medición más
ampliamente usada de ―promedio‖tantoen la comunicación de
información al público en generalcomoen la investigación
empírica. De las tres la media de la muestraes la más
precisa(es decir, tiene menos error de muestreo) y tiende a ser
mejor para fines inferenciales, es decir, hacer inferencias sobre
parámetros de población. El valor de todos los datosinfluye
en el valor numérico de la media. En consecuencia, en
distribuciones asimétricas, la media es ―halada‖ hacia la cola
mas alargadamás que la mediana o la moda.

51
En distribuciones segadas positivamente, se espera
que la media exceda ala mediana y a la moda; lo contrario es
cierto paradistribuciones sesgadas negativamente. Para
distribuciones continuas, la mediana es por lo generalel
indicador más significativo de tendencia centralpara fines
descriptivos.

La medianaes el percentil 50 de una distribución ( ) y


parte a un conjunto de valores en el punto medio. La
medianaes también el punto en una distribución del cual la
suma de las desviaciones absolutas de todos los valores esun
mínimo. Si esas diferencias son cuadráticas, sin
embargo,el total será menor que la media, no que la mediana.
La media, por lo tanto, es la medida de tendencia central que
satisface de modo sorprendente el importante criteriode
mínimos cuadrados.

La moda, a diferencia de la media y la mediana, puede


usarse incluso con las escalas nominales. La modaes la
observación que ocurre con más frecuencia, pero es menos
confiable que la media o la mediana. En distribuciones
simétricas unimodales, la moda, la mediana y la mediatienen
el mismo valor.

Característica MEDIA MEDIANA MODA


Más confiable MEDIA
Menos confiable MODA
Requiere sólo de escalas
nominales
MODA
Requiere sólo observaciones
clasificadas
MEDIANA
Punto debajo del cual y arriba del
cual cae la mitad de las MEDIANA
observaciones
“Centro de gravedad” de una
distribución
MEDIA
Influye en ella el valor específico
de cada observación
MEDIA
Será igual en una distribución
simétrica
MEDIA MEDIANA
Será igual en una distribución
normal
MEDIA MEDIANA MODA
Tendrá el valor más grande en una MEDIA

52
distribución sesgada positivamente
Tendrá el valor más grande en una
distribución sesgada MODA
negativamente
Su valor no es ni el más grande ni
el más pequeño en distribuciones MEDIANA
asimétricas
Es en sí misma mejor que otras
operaciones aritméticas
MEDIA
Es la más ampliamente utilizada en
métodos estadísticos más MEDIA
avanzados
Puede estimarse gráficamente de
las curvas de ojiva
MEDIANA
Puede estimarse más rápidamente
en histogramas o polígonos de MODA
frecuencia
Mejor para variables continuas
para fines descriptivos
MEDIANA
Es igual a y MEDIANA

REPASO ACTIVO: EJERCICIO CLOZE.

Tres medidas comúnmente usadas de TENDENCIA


CENTRAL son la media, la moda y la MEDIANA Por lo general
los valores se concentran alrededor del valor que ocurre con
mayor frecuencia, la MODA. El punto medio que separa la
distribución en dos partes de igual tamaño es la MEDIANA. La
medida de tendencia central más segura, estable o confiable
tiende a serla MEDIA. La MEDIA es sensible al valor de cada
dato en la distribución; esto no ocurre en la MODA ola
MEDIANA. Lasdistribuciones que son precisamente simétricas
y tienen una cierta forma de campana matemáticamente
especificada se llaman distribucionesNORMALES. En una
distribución normal verdadera, la moda, la mediana y la media
tienen el mismo VALOR. Todas las distribuciones normales
son SIMÉTRICASpero algunas distribuciones simétricas no
sonNORMALES. Una prueba puede ser tan difícil que hay
muchos valores BAJOS y pocos extremadamente ALTOS. Tal
distribuciónse describirá como sesgada POSITIVAMENTE.

53
En distribuciones asimétricas, la MEDIANA con frecuencia
es la medida descriptiva preferida de tendencia central, pero
para fines inferenciales la MEDIA tiene el menor error de
muestreo.

En unaPrueba muy fácil, la MEDIANA será mayor que la


MEDIA, pero menor que la MODA. Si se encontrara que la
media CI enun grupo fuera 110 y la mediana 100, la
distribución probablemente estaría sesgadaPOSITIVAMENTE.
Si un grupo tuvierauna media de 89.3 y una mediana de 90.1,
el sesgo sería INSIGNIFICANTE. Si este grupo se combinara
con un grupo talentoso, la forma de la distribución de los
valores de CI compuestos probablemente sería BIMODAL. Si
pudiera desarrollarse una prueba de modo que cada valor se
obtuviera con igual frecuencia, la forma de la distribución sería
SIMÉTRICA y RECTANGULAR y no sería MODA.

PRUEBA DE DOMINIO.

1. Hay en general varias formas de medir la misma variable?


SÍ.

2. ¿Las diferentes formas de medir una misma variable dan


como resultado observaciones igualmente precisas?
PROBABLEMENTE NO.

3. ¿Pueden las observaciones en una escala de intervalo o


de proporción convertirse en una escala ordinal (rangos)?
SÍ.

4. ¿Qué nivel de medición se requiere para cada una de las


siguientes afirmaciones?
а) X es 25% mayor que Y.PROPORCIÓN.
b) X es mayor que Y. ORDINAL.
c)Xno es la misma que Y.NOMINAL.
d) X es 7 puntos menor que Y. INTERVALO.
5. Suponga que una variable se mide utilizando una escala
de intervalo, una ordinal y una de proporción. Ordene las
mediciones de menos a más deseable.
ORDINAL, INTERVALO y PROPORCIÓN.

54
6. Si = 20, = 14 у = 8, ¿cuál es el valor? de:
a) + = 20 + 8 = 28.
b) = 20 + 14 + 8 = 42.

7. Cuando las personas se miden en una escala de intervalo,


¿las diferencias entre personas se miden en una escala de
proporción?
SÍ.

8. Si el aprovechamiento de los alumnos se mide por el


número de libros de la biblioteca leídos, ¿representa esto
una verdadera escala de proporción?
PROBABLEMENTE NO, YA QUE LOS LIBROS VARÍAN
EN TAMAÑO Y DIFICULTAD, LA MEDIDA CARECERÍA
DE UNIDADES DE MEDICIÓN IGUALES.

Las preguntas 9-12 se refieren al siguiente arreglo de


observaciones: 0,0,0, 1, 1,2,4, 7, 11.

9. ¿Cuál es el valor numérico de la moda? 0.

10. ¿Cuál es el valor numérico de la mediana? 4.

11. ¿Cuál es el valor numérico? de:


a) = 26.
b) n = 9
c) la media = = 2.89

12. Describa la forma de la distribución.


SESGADA POSITIVAMENTE.

13. En una distribución asimétrica negativa,


a) ¿cuál medida de tendencia central tiende a tener el
menor valor?MEDIA.
b) ¿El mayor valor?MODA.

14. Cuál estadígrafo de la muestra ( , Md o Mo) se espera


que difiera menos de su correspondiente parámetro de
población? Esas diferencias se describen como
ERRORES DE MUESTREO.

55
15. ¿Cuál medida de tendencia central es la más confiable?
MEDIA.
¿Cuál es menos confiable?MODA.

16. ¿Cuál medida de tendencia central se preferirá con


variables categóricas como grupo étnico o estado civil?
MODA.

17. ¿Cuál es el término que menos concuerda con los otros?


a)
b)
c)
d) Mediana

18. ¿Cuál es la opción que menos concuerda con las otras?


a) Moda
b) Mediana
c) El valor más popular
d) El valor más frecuente

19. Si el salario medio de maestros de escuelas primarias y


secundarias en Estados Unidos fuera $38, 000 y si el
salario medio fuera de $34, 000, la distribución parecería
ser
a) Simétrica
b) Bimodal
c) Sesgada positivamente
d) Sesgada negativamente

20. En una clínica de salud mental de un condado grande, un


grupo de ocho consejeros centrados en pacientes ve un
promedio de cinco pacientes por día, mientras doce
terapeutas en modificación de la conducta ve un promedio
de diez pacientes por día. ¿Cuál es el número medio de
pacientes visto por los veinte terapeutas de la clínica?
8 CLIENTES POR DÍA.

56
21. Si la media y la mediana son iguales, no esperaríamos que
la distribución fuera
a) Normal
b) Rectangular
c) Bimodal
d) Simétrica
e) Asimétrica

22. En una distribución de valores para los que = 65.5, Md =


64 y Mo = 60, se encontró que se ha cometido un error en
un valor. En lugar de 70, el valor debería haber sido 90. En
consecuencia, ¿cuál de las medidas de tendencia central
anteriores sería ciertamente incorrecta?
a) Media
b) Moda
c) Mediana

23. Si hubiera 40 observaciones en la distribución de la


pregunta 22, ¿cuál sería el valor correcto para la media?
66.

24. Si el salario medio para 100 empleados de mayor edad en


un Hospital de Administración de Veteranos fuera $39, 000
y para 50 empleados jóvenes fuera de $30,000 encuentre
el salario medio para todos los empleados combinados.
$36, 000.

25. Si la mayoría de los estudiantes de su grupo de estadística


han leído y estudiado este capítulo tan cuidadosamente
que saben las respuestas a casi todas las preguntas de
esta prueba de dominio, la distribución de calificaciones de
la prueba probablemente sería
a) normalmente distribuida
b) sesgada negativamente
c) sesgada positivamente

26. Si = 7, = 7, = 8.0 y = 12.0.


a) = . =14.
b) = .= 10.

57
27. DadaX: 6, 10,2,6.
a) = 24
b) n = 4.
c) =6.

PROBLEMAS Y EJERCICIOS.

Los ejercicios 1-10 están basados en los siguientes datos.

En un grupo de sexto grado con 36 estudiantes, se


administra una técnica sociométrica de "adivina quién"
para evaluar el grado de relaciones positivas entre ellos
para cada estudiante. Los valores para los 36 estudiantes
fueron:

1. Cuál es el rango?
Rango = - =52 – 0 = 52.

2. Construya una distribución de frecuencias no agrupada.

3. Construya una distribución de frecuencias agrupada, con w


= 5.

58
4. Construya un histograma de esos datos y comente sobre
la forma de la distribución.

5. Construya una ojiva.

6. Estime y .
= 2 o 3.
= 13.5.

7. Calcule la media.
= 9.78.

8. Determine la mediana.
5

9. Determine la moda.
1

59
10. Compare la distancia de ( a con la distancia de a
. - ES MAYOR QUE - .
El patrón sugiere asimetría POSITIVA.

11. Para una década reciente, el incremento en el ingreso


medio en el sur fue 74% para blancos y 113% para no
blancos. ¿Cuál es el incremento medio para ambos grupos
combinados si de cada 100 trabajadores 82 fueron
blancos?
= .=( )/( )=
= = 81%.

12. Suponga que siete amigos viven junto a una autopista y


quieren juntarse en la casa de uno de ellos para comer
tacos y discutir las medidas de tendencia central y sus
tipos favoritos de gráficas. Si sus casas a lo largo de la
autopista están situadas de este a oeste en este orden: A,
B, C, D, E, F y G, ¿dónde deberían reunirse para
minimizar la suma de las distancias recorridas?
Md EN EL PUNTO D.

Sugerencia:¿de cuál punto se minimiza la suma de las


desviaciones? LA SUMA DE LAS DESVIACIONES
ABSOLUTAS ES UN MÍNIMO ALREDEDOR DE LA
MEDIANA

13. Suponga que una distribución tiene una media de 70, una
mediana de 65 y una moda de 55. ¿En qué dirección está
sesgada la distribución?ESTA SESGADA A LA
DERECHA, ES DECIR, POSITIVAMENTE.

14. Si aplica una prueba de CI a una clase en dos ocasiones


separadas, como regla general, comente sobre las
diferencias relativas entre las dos medias, las dos
medianas y las dos modas.
SE ESPERA QUE LAS MEDIAS DIFIERAN MENOS Y
QUE LA MODAS DIFIERAN MÁS.

60
Las preguntas 15-16 corresponden a los datos presentados en
la tabla 2.2.

15. Mo = 50

16. Md=51

61
CAPÍTULO 4.
MEDIDAS DE VARIABILIDAD: ¿Cuán diferentes son las
observaciones?

RESUMEN DE CAPÍTULO

Las medidas de variabilidadson necesarias para cuantificarel


grado de dispersión en una distribución. La varianza, la
desviación estándar y el rangoson medidas comunes de
variabilidad. Si una distribución contiene todas las
observaciones de la población, las medidas estadísticas son
parámetros. La varianza y la desviación estándar para la
población se simbolizan y , respectivamente. Si la
distribución contiene sólo una muestra de observaciones
de la población, las medidas estadísticas se llaman
estadígrafos (o inferencias estadísticas). Las estimaciones de
la varianza y de la desviación estándar de la muestra se
simbolizan y , respectivamente. La diferencia entre un
estadígrafo y el parámetro relevante esel error de muestreo.
Las mediciones estadísticas se evalúan en términos
deconfiabilidad, consistencia y no sesgo.
Consistenciasignifica que el error de muestreo en una
estadística disminuye a medida que n aumenta—todas las
medidas estadísticas son consistentes. La confiabilidades el
grado en el cual las estimaciones de la muestra de un
parámetro tienden a tener menos error de muestreo. Las
estadísticas más confiablestienen relativamente menos error
de muestreopara competir con los índices estadísticos —la
mediase prefiere a las otras medidas de tendencia central
debido a quea la larga tiene menos error de muestreo para
cualquier valor de n; es más confiable y eficiente. Las
estadísticas no sesgadasson aquellas para las cuales el valor
esperado del estadígrafo esigual al parámetro, haciendo caso
omiso de n. La expresión, E( )= , establece quela varianza
de una muestra es una estimación no sesgada de la varianza
de población. La desviación estándar de la muestra, ,es
ligeramente sesgada; tiende a subestimar el parámetro
aunque el grado de sesgo sea insignificante, a menos que n
sea muy pequeña. El rangopuede ser significativo como una
estadística descriptiva,pero tiene un uso limitado en inferencia
estadística debido a queestá extremadamente influido por n,
entre mayor sea n. mayor es el rango.

62
PRUEBA DE DOMINIO.

1. Complete la analogía:ESTADÍGRAFO es a una muestra


como el parámetro es aPOBLACIÓN.

Responda las preguntas 2-10 con una de las siguientes


medidas de variabilidad: a) RANGO b) DESVIACIÓN
ESTÁNDAR c) VARIANZA

Cuando se obtienen para una muestra aleatoria de


observaciones:
2. ¿Cuál es completamente no sesgada?VARIANZA
3. ¿Cuál contiene el mayor sesgo?RANGO
4. ¿Cuál es menos confiable (estable)?RANGO
5. ¿En cuál influye considerablemente por el tamaño de la
muestra?RANGO (Ver Tabla 4.1)
6. ¿Cuál contiene un sesgo que es insignificante si n es 20 o
más?DESVIACIÓN ESTÁNDAR
7. ¿Cuál es más fácil de calcular?RANGO
8. ¿Cuál tiene el mismo valor esperado a pesar del tamaño
de la muestra?VARIANZA
9. ¿Tienen todas la propiedad de consistencia?SÍ
10. ¿Cuál no está expresada en las mismas unidades que las
observaciones originales?VARIANZA
11. ¿Si todos los valores son diferentes, el rango es siempre
mayor que la varianza y la desviación estándar?
RANGO > , PERO EL RANGO NO SIEMPRE >

12. ¿Para obtener la varianza de la muestra, la suma de


cuadrados se dividirá entre el tamaño de la muestra, n, o
entre los grados de libertad, = n - 1 ?
ENTRE = (n – 1).

13. ¿Cuál símbolo representa el estimador de la varianza de la


muestra?
14. ¿Cuál símbolo representa la desviación estándar de
población?
15. ¿Cuál símbolo representa el tamaño de la muestra?n
16. ¿Cuál símbolo representa la media de la población?
17. ¿Si se encuentra que la varianza es 100, cuál es la
desviación estándar? 10

63
18. Utilizando la tabla 4.1 y suponiendo que una muestra de
100 observaciones se obtiene aleatoriamente de una
población con = 10, estime el rango.
5(10)=50

19. ¿En la pregunta 18, cuál tiene el mayor valor, el rango o la


varianza? VARIANZA, 100 CONTRA 50.

Cuál medida de tendencia central:


20. ¿Sería más apropiada para datos nominales? Mo = MODA
21. ¿Queda mejor con el término "valor medio"?
Md = MEDIANA

22. ¿Sería sensible al valor numérico de cada dato?


= MEDIA.

23. ¿Variaría menos de muestra a muestra? = MEDIA.


¿Se esperaría que fuera menor en una distribución
sesgada negativamente? = MEDIA.

Se aplicó la misma prueba de ortografía a una muestra


aleatoria de estudiantes de tres escuelas diferentes y el
resultado para cada escuela, cuando se gráfico, se aproximó a
una curva con forma de campana. El resumen de resultados
fue como sigue:

Cuál escuela parecería:


24. ¿Ser más homogénea? A
25. ¿Tener más estudiantes con calificaciones arriba de 75? C
26. ¿Tener el mayor rango? C
27. ¿Tener la menor calificación promedio de ortografía? A
28. ¿Cuál de las X de las escuelas se acercará más a su
correspondiente ? B

64
29. Encuentre para:
a) Escuela A;25
b) Escuela B; 100
c) Escuela C.400

30. Reacomode la ecuación 4.6 y calcule: SC para la escuela


A.

Donde: ;

31. Si las tres escuelas se juntaran, encuentre la media mayor


(ecuación 3.3).

Donde:

Por tanto:

65
PROBLEMAS Y EJERCICIOS.

1. Una muestra aleatoria de seis estudiantes destacados fue


seleccionada y se les aplicó un examen de memoria. Los
datos se listan abajo.

Para esos datos, calcule:


a) la mediana,Md = 5.5
b) la moda,Mo = 5
c) el rango,5
d) los grados de libertad, = 5
e) la media, = 6
f) la suma de cuadrados, SC = = 16
g) la varianza de la muestra = 3.2
h) la desviación estándar de la muestra. = 1.79

2. A una muestra aleatoria de 10 estudiantes de


mecanografía de primer semestre se aplicó una prueba de
mecanografía de 5 minutos al fin del semestre. La
calificación WPM para cada uno se determinó, y los
valores se presentan abajo.

X: 22, 21, 29, 22, 27, 25, 25, 25, 30, 24

Para esos datos, encuentre:


a) la mediana,Md = 25
b) la moda,Mo = 25
c) el rango,9
d) los grados de libertad, = 9
e) la media, = 25
f) la suma de cuadrados, SC = = 80
66
g) la varianza de la muestra = 8.89
h) la desviación estándar de la muestra. = 2.98

3. Para los siguientes datos.

Calcule:
a) = 5
b) SC = 32
c) =5.33
d) = 2.31

4. Para los siguientes datos.

Calcule:
a) = 4
b) SC = 26
c) =6.5
d) = 2.55

5. Para los siguientes datos.

Calcule:
a) = 4
b) SC = 36
c) =5.14
d) = 2.27

67
Ejercicios 6-9. Ocasionalmente, los estadígrafos resumidos
como n, y están dados, pero el investigador necesita
trabajar las fórmulas "de forma inversa " para determinar y
SC. Para cada uno de los siguientes ejercicios, trabaje
inversamente para encontrar y SC.

6. = 25. = 10, n = 11.


=275; SC=1,000.

7. = 82.4, = 8, n= 10.
=824; SC=576.

8. = 110.5, = 20, n=40.


=4,420; SC=15,600.

9. = 28.4, = 3, n = 41.
=1164.4; SC=360.

La siguiente información se aplica a los problemas 10-15. A


cada estudiante de un grupo de sexto año se le pidió una lista
de sus mejores amigos (anónimamente). Los valores de una
muestra representativa de 11 estudiantes se dan abajo. Los
valores indican el número de veces que cada uno de los 11
estudiantes fue listado como "mejor amigo " por un compañero
de grupo.

1, 0, 2, 1, 0, 0, 1, 0, 2, 4, 0

10. Calcule el rango = 4 - 0 =4


11. Calcule =X/n=11/11=1
12. Calcule la suma de cuadrados usando valores de
desviación.SC = 16
13. Calcule SC utilizando una fórmula alterna:
SC = =27-11(2)²=16
14. Calcule =1.6 y =1.2649 o 1.26
15. Si 10 puntos se agregan a cada valor, indique si el valor de
cada uno de los siguientes cambiaría:
a) ; SE INCREMENTARÍA EN 10
b) rango; NO CAMBIA
c) ;NO CAMBIA

68
d) , NO CAMBIA

16. Con respecto al error de muestreo, cuál es la diferencia


esencial entre parámetro y estadígrafo?
LOS PARÁMETROS ESTÁN LIBRES DE ERROR, LOS
ESTADÍSTICOS INFERENCIALES CONTIENEN
ERRORES DE MUESTRA.

17. ¿Cuál es la diferencia esencial entre muestra y población?


SE SELECCIONA UNA MUESTRA DE UNA POBLACIÓN
MÁS GRANDE. UNA MUESTRA ES A LA POBLACIÓN
COMO UNA PARTE ES AL ENTERO.

18. ¿Cuál es la diferencia esencial entre n y N?


N y n SON EL NÚMERO DE OBSERVACIONES EN UNA
POBLACIÓN Y EN UNA MUESTRA,
RESPECTIVAMENTE.

19. Para los siguientes valores de clasificación de grado de un


examen estandarizado de lectura.
6.8, 6.7, 6.5, 6.4, 6.4, 6.3, 6.1, 6.0

Encuentre:
a) = 6.4
b) SC = 0.52
c) = 0.52/7=0.0743
d) = =.273
e) rango = 6.8-6.0=0.8

20. ¿Por qué los jugadores de basquetbol de preparatorias


grandes tienden a ser más altos que los jugadores
depreparatorias pequeñas?
EL INTERVALO ES UNA FUNCIÓN DEL TAMAÑO DE
LA MUESTRA. CON PROMEDIO, ENTONCES, LOS
PEQUEÑOS COLEGIOS DE BACHILLERATO TENDRAN
ESTUDIANTES MUY ALTOS CON MUCHO MENOS
FRECUENCIA.

69
Los datos de prueba de los datos HSB fueron procesados
mediante un programa de computadora y la salida se muestra
abajo (N = 200).

Variable Rango
Calificación T en lectura 52.23 10.25 105.12 48.00
Calificación Ten escritura 52.78 9.48 89.84 36.00
Calificación T en matemáticas 52.64 9.37 87.77 42.00
Calificación Ten ciencias 51.85 9.90 98.03 48.00
Calificación T en civismo 52.40 10.74 115.26 45.00

21. Si una constante de 100 se suma a cada una de las


calificaciones de lectura, ¿cuál sería, de la distribución
revisada?
a) la media, = 152.23
b) la desviación estándar, , NO CAMBIA
c) la varianza, ,NO CAMBIA

22. Encuentre: la suma de valores ( ) para los datos de


civismo.200(52.4)=10,480

23. El valor de desviación de Hassan para su calificación T en


ciencias fue 6.65
a) ¿Cuál es su calificación en ciencias? 58.5
b) Estime su rango percentilar en la distribución de
calificaciones de ciencias.
HASAN ESTA CERNA A DOS TERCIOS DE UNA
DESVIACIÓN ESTÁNDAR ARRIBA DE LA MEDIA. DE
AQUÍ QUE HAYA ESPERADO ESTAR CERCANO A 75
PERCENTILES.

24. ¿Le gustan los números grandes? Utilizando la ecuación


4.6, trabaje de forma inversa para encontrar SC para los
datos de lectura.

SC=

70
25. Realmente el conjunto de datos del HSB es una muestra
para un conjunto de datos mucho mayor en el que las
cinco pruebas fueron transformadas de modo que la media
de cada una fuera 50 y la varianza fuera 100.
a) ¿En cuál de los cinco exámenes la media tiene el
menor error de muestreo? CIENCIAS.

b) Si compara los 5 rangos en el conjunto de datos del


HSB con los rangos correspondientes en el conjunto
completo de datos, ¿qué esperaría encontrar?
SE ESPERARÍA QUE EL INTERVALO EN EL
CONJUNTO DE DATOS HSB FUERAN DATOS MÁS
PEQUEÑOS QUE EL CONJUNTO DE DATOS.

71
APÉNDICES.
APÉNDICE C: Glosario de Símbolos.

1. Símbolos presentados en el capítulo 1, Introducción y visión


general.

HSB Conjunto de datos de preparatoria y superior,


datos del caso de estudio del curso

2. Símbolos presentados en el capítulo 2, Distribuciones de


frecuencias

f Frecuencia de ocurrencia de un valor


n Número de valores en una muestra
N Número de valores en una población
Punto percentil k-ésimo
Cuartil 1, percentil 25
Cuartil 2, percentil 50
Cuartil 3, percentil 75
Ancho del intervalo para una distribución de
w
frecuencias agrupada
Variables representadas por letras mayúsculas
X, Y, Z
itálicas
Xi i-ésima observación o valor para la variableX
Xmáx Valor más grande en un conjunto de datos
Xmín Valor más pequeño en un conjunto de datos

3. Símbolos presentados en el capítulo 3, Tendencia central.

, Medias de la muestra
Media de la población
Sumatoria de los valores de la variable X

. Media principal para muestras combinadas


Mo Moda para un conjunto de observaciones
Md Mediana para un conjunto de observaciones

72
4. Símbolos presentados en el capítulo 4, Variabilidad

x Valor de desviación, diferencia de la media


Suma de cuadrados, suma de valores de
desviación al cuadrado
Suma de cuadrados, suma del valor de
SC
desviación al cuadrado
Varianza de población
Desviación estándar de población
Varianza de la muestra
Desviación estándar de la muestra

73
APÉNDICE E: Glosario de Fórmulas.

1. Fórmulas presentadas en el capítulo 2, Distribuciones de


frecuencias:

Rango= Xmáx - Xmín…………………………………..(2.1)

Para determinar el ancho de intervalo para dar intervalos


de clase:
…………………………………………………..(2.2)

2. Fórmulas presentadas en el capítulo 3, Tendencia central.

y ………………………………..…..(3.1 – 3.2)

o ….....(3.3)

3. Fórmulas presentadas en el capítulo 4, Variabilidad

……………………………………………..…..(4.1)
Suma de cuadrados = SC = ……....(4.2)
………..…..(4.3)

……………………………………….…...(4.4)
Error de muestreo= Estadígrafo- Parámetro…….…....(4.5)
…………………….…....(4.6)

……………………………………….…....(4.7)
E(estadística no sesgada)=parámetro……..…….…....(4.8)
…………………………………………..…....(4.9)
Rango= Xmáx - Xmín………………………….….…..(4.10)
……………………………………..…….…..(4.11)

74
APÉNDICE E: Glosario de Términos.

ABSCISA.Se refiere al eje horizontal o eje x de una gráfica

CONSISTENCIA.Es la propiedad estadística de un estadígrafo


que asegura que conforme aumenta eltamaño de la muestra el
error de muestreo disminuye.

CONSTANTE, en contraste con una variable, es uniforme para


todas las unidades en la población. Por ejemplo, la ciudadanía
del electorado de Estados Unidos es una constante ya que
todos los votantes son ciudadanos de Estados Unidos

CRITERIO DE MÍNIMOS CUADRADOS. Se define "mejor"


como la estadística (o línea) que tiene el valor mínimo para la
suma de valores (residuos) de desviación al cuadrado.

CUALITATIVA o nominal, la medición ocurre cuando los


numerales asignados se usan como etiquetas o nombres más
que para una cuantificación.

CUANTITATIVA,medición que asigna números a las


observaciones reflejando la cantidad o grado que posee el
atributo.

CUARTIL.Es uno de los tres puntos ( , , ) que parten la


distribución en cuatro segmentos iguales. es el punto que
divide el cuarto inferior de la distribución de los tres cuartos
superiores; , , .

CURVA DE CAMPANA.Se refiere a una curva con forma de


campana o normal.

CURVA DE PORCENTAJE ACUMULADO, una ojiva formada


al graficar los valores de porcentajes acumulados de los límites
superiores de intervalos sucesivos de una distribución de
frecuencias agrupada conectándolos con segmentos de línea.

DATOS CATEGÓRICOS (O NOMINALES),comprenden


variables en las que las observaciones notienen un rango u
orden inherente o un continuo fundamental, por ejemplo,
género, raza y trabajoson variables categóricas.

75
DESVIACIÓN DE CUARTIL o rango semiintercuartil, es la
mitad de la diferencia entre y : .

DESVIACIÓN ESTÁNDAR ( o ).Es una medida de


variabilidad o de las diferencias individuales entre un conjunto
de valores.
En una distribución normal, cerca de dos tercios de los
valores estarán dentro de una desviación estándar a partir de
la media.

DISTRIBUCIÓN DE FRECUENCIA AGRUPADA.Es un arreglo


de intervalos de valores ordenadosque muestran la frecuencia
de cada intervalo.

DISTRIBUCIÓN DE FRECUENCIA.Es un arreglo de valores


ordenados en el que la frecuencia decada valor se reporta o se
muestra.

DISTRIBUCIÓN NORMAL o curva normal.Es una distribución


en forma de campana simétricaque forma la base de muchas
estadísticas inferenciales.
Una multitud de distribuciones atribuidas que ocurren de
manera natural y varias distribuciones de muestras se
aproximan a la curvanormal.

DISTRIBUCIONES BIMODALES,tienen dos picos distintos,


alrededor de los cuales las observaciones tienden a
acumularse.

EFICIENCIA de un estadígrafo, está relacionada con la


magnitud relativa del error de muestreo esperado en una
estadística.
Por ejemplo, la misma media es más eficiente que la
mediana de la muestra.

ERROR DE MUESTREO.Es la diferencia entre una muestra


estadística obtenida de la muestra y suparámetro de población
correspondiente.

76
ESCALA DE PROPORCIÓN de medición, se calibra de un
punto cero absoluto y los números sucesivos marcan
cantidades iguales del atributo que se mide.

ESCALA NOMINAL de medición, se usan números como


etiquetas o nombres.
Las variables categóricas representan escalas
nominales.

ESCALA ORDINAL,sus mediciones presuponen un continuo


fundamental y proporcionan datos en la forma de rangos.
Esto implica que un número mayor indica una cantidad
o grado más grande del atributo medido que lo que indica un
número más bajo, pero las diferencias entre rangos pueden no
ser iguales.

ESCALAS DE INTERVALO,tienen un punto cero arbitrario con


unidades iguales.

ESTADÍSTICA DESCRIPTIVA.Es la rama de la estadística que


incluye resumir, organizar y mostrar los datos de una
población.

ESTADÍSTICA INFERENCIAL.Es aquella rama de la


estadística que hace planteamientos acerca de los atributos de
la población utilizando probabilidades basadas en muestras
aleatorias.

ESTADÍSTICAS (o estadísticas inferenciales).Son medidas


basadas en datos de la muestra; se usan para estimar los
parámetros correspondientes de la población.

FRECUENCIA.Es el número de veces que un valor ocurre en


una categoría o conjunto de datos.

FRECUENCIA ACUMULADA de un punto.Se refiere al


número de valores en o debajo de ese punto.

GENERALIZACIÓN.Se refiere a si los resultados basados en


los datos de la muestra pueden aplicarse a la población.

77
GRADOS DE LIBERTAD, , es una propiedad matemática de
un conjunto de datos que está relacionada con el número de
restricciones impuestas a los datos.

GRÁFICA DE BARRAS.Se compone de barras cuyas


longitudes indican la frecuencia o porcentaje para un valor o
categoría.

GRÁFICA DE DISPERSIÓN.Es un conjunto de puntos en un


plano XY, cada uno de los cuales indica simultáneamente el
desempeño de un sujeto tanto en la variable X u horizontal
como en la variable Y o vertical.

GRÁFICA DE PASTEL.Es una gráfica circular compuesta de


cuñas o rebanadas, cuyos tamaños se determinan mediante la
frecuencia relativa (o porcentaje) de cada segmento de la
variable.

GRÁFICAS DE CAJA Y PATILLAS (o gráficas de


caja),muestran una caja con patillas en los extremos opuestos.
La caja representa el 50% central de la distribución, una
línea dentro de la caja designa la mediana, y las patillas
representan la distancia de los puntos finales prescritos.

HISTOGRAMAS,están compuestos de barras cuyas longitudes


indican las frecuencias o porcentajes de los intervalos de los
valores.

HOMOGENEIDAD DE LA VARIANZA,prevalece cuando las


varianzas de la población que se comparan no difieren.

INTERVALOS DE CLASE.Se forman cuando se combina un


rango específico de valores adyacentes.
Esas frecuencias del intervalo de clase pueden usarse
entonces para construir una distribución defrecuencias
agrupada.

MEDIA (o media aritmética).Es el promedio aritmético de un


conjunto de valores.

MEDIA CUADRADA.Es un estimado de la varianza.

78
MEDIA PRINCIPAL.Es la media de todas las observaciones en
un conjunto de datos.

MEDIANA.Es el punto medio de una distribución de los


valores; precisamente la mitad de los valorescae arriba de la
mediana; también se le llama percentil 50 o .

MEDICIÓN.Es un proceso por el que se asignan números (o


cuantificaciones) a las observaciones.

MODA.Es el valor (o categoría) con la mayor frecuencia de


ocurrencia.

MU ( ) Es la media de la población.

MUESTRA REPRESENTATIVA.Es aquélla cuyas


características y atributos corresponden cercanamente con los
de la población correspondiente.

MUESTRAS.Son subconjuntos de poblaciones.

OJIVA.Es una curva de porcentaje acumulado.

ORDENADA.Es el eje vertical o y de una gráfica bidimensional.

PARÁMETRO.Es una característica o atributo de la población.

PERCENTIL.Es uno de los 99 puntos a lo largo de una


distribución que se parte en centésimos.
Por ejemplo, es un punto que separa el 28% inferior
de la distribución del 72% superior.

POBLACIÓN, todos los miembros, elementos, observaciones o


valores que se ajustan a un criterio específico.

POLÍGONO DE FRECUENCIA.Es una gráfica formada al


conectar los puntos que representan lasfrecuencias o los
intervalos de clase.

PROBABILIDAD.Es la posibilidad de ocurrencia, expresada


como proporción.

79
PROPORCIÓN.Es la razón de una parte al total.

RANGO.Es la diferencia entre los valores menor y mayor en la


distribución.

RANGO INTERCUARTIL.Es la diferencia entre los cuartiles


y ; incluye el 50% central de las observaciones.

RANGO PERCENTILde un valor.Es el porcentaje de la


distribución que está en o por debajo de ese valor.

RANGO SEMI INTERCUARTIL (o desviación intercuartil).Es


la mitad de la diferencia entre elpercentil 25 ( ) y el percentil
75 ( ): .

RANGOS,se usan para ordenar un conjunto de observaciones


de acuerdo con el criterio de "mayorque".

SESGO,describe la falta de simetría en una distribución.


Es una tendencia sistemática para una estadística
inferencial (por ejemplo, ) a ser consistentemente más grande
o más pequeña que el parámetro de población correspondiente
(por ejemplo, ).

SESGO NEGATIVO,describe distribuciones simétricas en las


que la mediana excede a la media; la cola de la distribución es
hacia los valores bajos.

SESGO POSITIVO,describe distribuciones asimétricas en las


que la media excede la mediana; los valores "se alargan" hacia
los valores altos.

SUMA DE CUADRADOS (SC).Es la suma de los valores de


desviación al cuadrado, .

TENDENCIA CENTRAL de una distribución, se refiere al


valor medio, típico o promedio; la mediana, moda, y media son
medidas de tendencia central.

VALOR ABSOLUTO.Es la magnitud numérica de un número


haciendo caso omiso de su signo algebraico (+ o -); por
ejemplo, el valor absoluto de -3 es 3, simbolizado por .

80
VALOR DE DESVIACIÓN.Es el resultado cuando el valor
medio se resta de un valor bruto, refleja la distancia de la
media al valor bruto (es decir, ).

VARIABILIDAD.Se refiere al grado de heterogeneidad en los


datos.

VARIABLES.Son características o atributos que dan las


observaciones que difieren

VARIANZA ( ) o media cuadrada (MC).Es el valor promedio


de la desviación al cuadrado.
La raízcuadrada de la varianza es la desviación estándar.

81
PERSONAJES DE ESTADÍSTICA.

1. W. H. Auden, aparentemente siente que los diez


mandamientos bíblicos deberían extenderse a once cuando
escribe: "No debéis sentaros entre los estadísticos, ni confiar
en una ciencia social".

2. T. M. Porter comento en 1986:

La estadística ha llegado a conocerse en el siglo XX como la


herramienta matemática para analizar datos experimentales y
basados en la observación. Conservada religiosamente por la
política pública como la única base confiable para los juicios en
torno a la eficacia de procedimientos médicos o a la seguridad
de químicos, y adoptada por las empresas para usos como el
control de calidad industrial, está evidentemente entre los
productos de la ciencia cuya influencia sobre la vida pública y
privada ha sido más penetrante. El análisis estadístico ha
llegado a ser visto en muchas disciplinas científicas como
indispensable para llegar a conclusiones confiables a partir de
resultados empíricos... Desde la invención del Cálculo, si
acaso, no se ha encontrado un nuevo campo de las
matemáticas con tan amplio dominio de aplicación.

3. (Willson, 1980; Goodwin y Goodwin, 1985; Elmore y


Woehlke, 1988); Aplicaron la estadística descriptiva e
inferencial en la investigación del comportamiento

4. Tanur, Mosteller, Kruskal, Link, Pieters, Rising y


Lehmann, 1978; Formaron parte del comite comité conjunto de
la Asociación Estadounidense de Estadística y el Consejo
Nacional de Maestros de Matemáticas que produjo un libro
muy entretenido, Statistics: A Guide to the Unknown
(Estadística: una guía hacia lo desconocido); que proporciona
muchas aplicaciones interesantes de la estadística en los
campos de la salud pública, ciencia política y gobierno,
semántica, leyes, negocios, demografía, antropología,
economía, sociología, geología, astronomía, genética,
contabilidad, agricultura, negocios, comercios, psicología y
educación.

82
5. Rock, Hilton, Pollack, Ekstrom y Goertz, 1985; Elaboraron
los datos del studio real del libro.

6. Tukey (1977):
- sugirió un método alternativo para contar las
observaciones cuando n es grande. El método de
Tukey cuenta los valores en prácticos grupos
convenientes de diez: las primeras cuatro cuentas se
denotan por puntos que forman las esquinas de un
cuadrado; las siguientes cuatro cuentas son segmentos
de línea que forman los lados del cuadrado; la novena
cuenta y la décima se indican por líneas diagonales
dentro del cuadrado.
- En los años recientes, se ha llegado a usar
ampliamente LOS GRÁFICOS DE PATILLAS, en gran
medida como resultado de su influencia.
- En la gráfica de cala, la caja se extiende de Q1, a Q3
(llamados "bisagras" por Tukey) y define el 50% central
de la distribución.

7. Glass y Hopkins, 1996:


- Sus criterios estadísticos para designar observaciones
como externas se incluyen en el software que produce
gráficos de caja.
- Nos ayudaron a no confundirnos con los términos
negativo o positivo con referencia a la asimetría en la
DESCRPCIÓN DE DISTRIBUCIONES; los términos
positivo o negativo no tienen nada que ver con un
desempeño deseable o indeseable; se refieren más
bien al signo algebraico (+ o -) del resultado cuando el
grado de asimetría se cualifica utilizando un índice de
asimetría

8. Tufte (1983); proporciona muchos ejemplos evidentes en su


excelente libro para cómo hacer propaganda más que para
iluminar con organización de las gráficas y los diagramas.

9. (Wainer, 1992), Manifiesta que la combinación de gráficas


necesita ser cuidadosamente examinada.

83
10. Velleman y Wilkinson (1993), quienes afirman:
―Desafortunadamente, el uso de las categorías de Steven para
seleccionar o recomendar métodos de análisis estadístico es
inapropiado y puede ser erróneo. Tales categorías no
describen los atributos de los datos reales que son esenciales
para un buen análisis estadístico. Ni proporcionan un esquema
de clasificación apropiado para los métodos modernos de
análisis de datos.‖

11. Heerman y Braskamp (1970, pp. 30-110). Borgatta y


Bohrnstedt (1980), Townsend y Ashby (1984), Mitchell (1986),
Luce, Krantz. Suppes y Tversky (1990), Autores de los
principales artículos y estudios sobre Escalas de Medición y
estadística.

84

Você também pode gostar