Material Bibliografico Curso Principios de Estadistica PDF

Diplomado: ESTUDIO EN GESTIÓN DE LA CALIDAD EN LABORATORIOS DE ENSAYO ISO/IEC
17025:2005
Docente: Veronika Amador Olortegui
Curso: Principios de estadística
Material de referencia 2016
MATERIAL DE REFERENCIA
1
17025:2005
ESTADÍSTICA:
1. DEFINICIÓN DE ESTADÍSTICA
Ciencia que proporciona técnicas para tratar gran volumen de datos para extraer y mostrar la
información que subyace en ellos. Permite obtener información de un colectivo muy amplio de
datos a partir de un conjunto relativamente pequeño de datos procedentes de él, gracias a ello se
formulan modelos matemáticos que representen la repuesta obtenida en alguna característica de
interés al ser influenciada por diferentes factores. Con esta información en la mano se puede tomar
decisiones cuando exista un marco de incertidumbre.
Si buscamos en el Diccionario de la Real Academia Española de la Lengua (DRAE) el vocablo

Estadística aparecen tres acepciones de dicha palabra:
1. Estudio de los datos cuantitativos de la población, de los recursos naturales e industriales,

del tráfico o de cualquier otra manifestación de las sociedades humanas.
2. Conjunto de estos datos.
3. Rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener
inferencias basadas en el cálculo de probabilidades.
En Estadística se estudian fenómenos aleatorios, que son aquellos cuyo resultado no es

previsible aunque se repitan en idénticas condiciones.
2. CONCEPTOS DE ESTADÍSTICA
 Población: es el conjunto de todos los elementos a los que se somete a un estudio

estadístico.
 Individuo: es cada uno de los elementos que componen la población.
 Muestra: es un conjunto representativo de la población de referencia, el número de

individuos de una muestra es menor que el de la población.
 Muestreo: es la reunión de datos que se desea estudiar, obtenidos de una proporción

reducida y representativa de la población.
 Valor: es cada uno de los distintos resultados que se pueden obtener en un estudio
estadístico. Si lanzamos una moneda al aire 5 veces obtenemos dos valores: cara y cruz.
 Dato: Es cada uno de los valores que se ha obtenido al realizar un estudio estadístico. Si
lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz.
2
17025:2005
3. VARIABLE ESTADÍSTICA:
Es cada una de las características que se miden de cada uno de los individuos que forman la
muestra.
Las variables estadísticas pueden ser cualitativas y cuantitativas.
Se dice que una variable estadística es cualitativa cuando los valores que puede tomar son
atributos. Variables cuantitativas son aquellas que pueden tomar valores numéricos.
Las variables cualitativas pueden ser:
Nominales o categóricas: los valores no admiten ordenación, por ejemplo, el color, o la marca de
bebida preferida, o el partido político elegido, o el lugar de procedencia, etc.
Ordinales: los valores de este tipo de variables admiten ordenación, aunque sean cualitativas, por
ejemplo, el estado de salud de pacientes de un hospital: Muy grave, Grave, Leve. También son
ordinales las variables que miden el grado de satisfacción conseguido por algún servicio: Muy mal,
Mal, Regular, Bien, Muy bien.
Las variables cuantitativas pueden ser:
Discretas: aquellas que solo pueden tomar valores aislados, y dados dos consecutivos no puede
haber valores intermedios, frecuentemente van asociadas a procesos de conteo: Nº de ramas de
un árbol, Nº de puestas en nidos, Nº de miembros por familia, etc.
Continuas: aquellas variables numéricas que, si se poseyesen instrumentos con infinita precisión,
su valor podría ser expresado con infinitas cifras decimales, dados dos valores, por próximos que
estén, siempre sería posible encontrar valores intermedios entre ambos. La mayoría de las
variables que implican una medición son de este tipo: la temperatura de la atmósfera, la velocidad
del vuelo de un ave, la altura que alcanza un árbol, son ejemplos de variables cuantitativas
Continuas.
A veces, cuando las variables son numéricas, es necesario conocer su escala de medida:
Decimos que una variable numérica está medida en escala por intervalos cuando no hay un cero
absoluto origen de las medidas, por ejemplo: la hora de llegada de un tren a una estación, si se
toma como cero las 24 horas del día anterior y ha llegado un tren a las 0h 10 min. y otro a las 0h
20 min., sabemos que el segundo llegó 10 minutos después que el primero, pero no podemos decir
que el segundo haya tardado el doble que el primero en llegar, pues no se ha adoptado un cero
3
17025:2005
absoluto común a todos los recorridos. Un ejemplo clásico de este tipo de variable es la
temperatura: si el aire hoy está a 10ºC y ayer estaba a 20ºC, no podemos decir que la temperatura
hoy sea el doble de la de ayer, pues el cero en la escala de medida se ha tomado de modo
arbitrario, para comprobarlo, basta con expresar ambas temperaturas en grados Fahrenheit.
Una variable estadística está medida en escala por ratios cuando existe un cero absoluto,
entonces podemos considerar diferencias entre las medidas y también proporciones. La mayoría
de los fenómenos físicos que consideremos están medidos en este tipo de escala, por ejemplo, la
temperatura absoluta, en grados Kelvin es una variable medida en escala por ratios, también el
peso, la longitud, o la masa lo son.
4
17025:2005
4. ESTADÍSTICA DESCRIPTIVA:
Es la parte de la estadística que proporciona técnicas para extraer y mostrar la información que
subyace en conjuntos de muy numerosos datos.
Cuando se acomete un estudio científico, es habitual medir gran cantidad de parámetros sobre
cada uno de los individuos elegidos, la estadística descriptiva univariante permite estudiar los
datos correspondientes a cada característica sin considerar la influencia de las demás.
5. TIPOS DE REPRESENTACIONES ESTADÍSTICAS
 Distribución de frecuencias: La distribución de frecuencias o tabla de frecuencias es

una ordenación en forma de tabla de los datos estadísticos, asignando a cada dato su
frecuencia correspondiente.
 Diagrama de barras: Un diagrama de barras se utiliza para de presentar datos

cualitativos o datos cuantitativos de tipo discreto Y los datos se representan mediante
barras de una altura proporcional a la frecuencia.
Son representaciones aplicables a tablas de frecuencias de datos en agrupamiento

discreto, se pueden aplicar tanto a datos cualitativos como cuantitativos discretos.
Consisten en un sistema de ejes cartesianos sobre cuyo eje de abcisas se llevan los
valores de la variable y sobre el de ordenadas la frecuencia absoluta o relativa, acumulada
o no. Por cada valor de la variable se levantará una línea o barra (aunque puede ser un
rectángulo) de altura equivalente a la frecuencia que se desea representar.
Se muestran diagramas de barras de la variable Grado de afección y de la variable

Nº de ramas:
diagrama de barras Diagrama de barras
3.5 1.2
Frecuencia acumulada
frecuencia absoluta
3 1
2.5
0.8
relativa
2
0.6
1.5
1 0.4
0.5 0.2
0 0
NA L M G MG 0 1 2 3 4
Grado de afección Nº de ramas primarias
Los diagramas de barras, al representar sobre el eje de abscisas los valores de la variable, y ser el
eje numérico, tienen mejor aplicación en variables como mínimo ordinales, pues en las variables
nominales no hay una ordenación de los valores y se pueden representar en cualquier orden.
5
17025:2005
 Polígonos de frecuencias: Un polígono de frecuencias se forma uniendo los extremos

de las barras mediante segmentos y también se puede realizar trazando los puntos que
representan las frecuencias y uniéndolos mediante segmentos.
Aplicables a variables numéricas, aunque también se pueden trazar sobre cualitativas

ordinales, se construyen uniendo los extremos de los diagramas de barras o los centros de
las bases superiores de los rectángulos del histograma mediante líneas rectas. Si se desea
cerrar la línea poligonal por sus dos extremos, se podría inventar un valor o intervalo por
delante del primero y otro mayor que el último, cuyas frecuencias serán cero. En el caso de
datos agrupados también es frecuente unir el origen de la primera clase con el centro de su
base superior y el centro de la base superior del último rectángulo con el extremo de su
base inferior.
Polígono de frecuencias
3
frecuencia absoluta
2.5
2
1.5
1
0.5
0
0 1 2 3 4
Nº de ramas primarias
Existen otros tipos de gráficos, como los pictogramas que utilizan símbolos gráficos para
representar las frecuencias, ya sea repitiendo un mismo símbolo varias veces para indicar
las mayores o menores frecuencias, o aumentando o disminuyendo el tamaño del símbolo
según la frecuencia que se represente.
 Histograma. Un histograma es una representación gráfica de una variable en forma de

barras.
Se utilizan para variables continuas o para variables discretas, con un gran número de
datos, y que se han agrupado en clases.
Aplicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre

un eje horizontal segmentos consecutivos que representen las amplitudes de cada clase,
posteriormente se traza sobre cada clase un rectángulo cuyo área sea proporcional a la
frecuencia que se desea representar. Si todas las clases tienen igual amplitud, los
rectángulos tienen no solo el área proporcional a la frecuencia, su altura también lo es. Las
alturas de los rectángulos representan frecuencia por cada unidad de amplitud, que
6
17025:2005
también se llama densidad de frecuencia. Si se traza un eje vertical, la escala sobre este
es la frecuencia por unidad de amplitud.
A continuación se muestran histogramas de la variable Diámetro.
Histograma de frecuencias Histograma de frecuencias acumuladas

relativas
3
Frecuencia por unidad de
acumulada por unidad de

2.5
Frecuencia relativa
2 0.8
amplitud
amplitud
1.5 0.6
1 0.4
0.5 0.2
0 0
2.85 3.55 4.25 4.95 2.85 3.55 4.25 4.95
Marcas de clase Marcas de clase
En estos dos histogramas se ha tomado la unidad de longitud igual a la amplitud y, como todas las
amplitudes son iguales, la cifra que indica el área de cada rectángulo coincide con la que indica la
altura y ambas con la frecuencia que se representa.
 Diagramas de sectores o de tarta:
Diagrama de sectores
S
40%
N
60%
Son aplicables a cualquier tipo de variables, pero se utilizan sobre todo para las
categóricas. Se construyen dividiendo un círculo en tantos sectores como categorías se
vayan a representar. Cada sector abarca un ángulo proporcional a la frecuencia que se
desea representar. El diagrama de sectores de la variable Replantado es:
7
17025:2005
6. DEFINICION DE PARAMETRO ESTADISTICO

 Un parámetro estadístico es un número que se obtiene a partir de los datos de una
distribución estadística.
 Los parámetros estadísticos sirven para sintetizar la información dada por una tabla o
por una gráfica.
7. TIPOS DE PARAMETROS ESTADISTICOS

 Hay tres tipos parámetros estadísticos:
1. De centralización.
2. De posición
3. De dispersión.
MEDIDAS DE POSICIÓN CENTRAL

Otra vía de resumir la información es expresar algunas cifras que de algún modo resuman lo más
característico de los datos, podemos calcular medidas de posición y de dispersión. Entre las
primeras se verán:
Moda: es la categoría, valor o marca de clase que más se repite. Cuando tengamos datos de tipo
continuo solo tendrá sentido la moda después de haber sido agrupados en clases.
La moda de la variable Replantado es N, pues su frecuencia es la mayor entre las dos categorías
posibles. La moda de la variable Grado de afección es M, en tanto que para la variable Nº de
ramas primarias hay dos valores con máxima frecuencia, son 1 y 2 ramas.
La moda puede no ser única, y hablamos de distribuciones de frecuencias bimodales, trimodales,

etc.
Mediana: es aplicable a datos como mínimo ordinales, y se define como aquél valor de la variable
que ocupa la posición central del conjunto de datos ordenados, también se puede definir como
aquél valor de la variable que resulta ser mayor o igual que la mitad de los datos y menor que la
otra mitad.
Cuando se considera los N datos sin agrupar, la mediana es el dato que ocupa la posición
(N+1)/2, de los datos ordenados.
Si el número de datos N es impar la mediana se calcula de modo inmediato, si el número de datos

es par, la mediana es la media aritmética de los datos que ocupan las posiciones N/2 y N/2 + 1.
Para el conjunto de datos que se están considerando, la mediana es el dato que ocupa la posición
11/2=5.5, por tanto es la media entre los datos que ocupen las posiciones 5ª y 6ª .
1º 2º 3º 4º 5º 6º 7º 8º 9º 10º
8
17025:2005
Datos ordenados Mediana
Grado de afección NA NA L L M M M G MG MG M
Nº de ramas primarias 0 0 1 1 1 2 2 2 3 4 1.5
Diámetro 2.5 2.5 2.9 3.9 3.9 3.9 4.2 4.3 4.5 5.3 3.9
En realidad, si los datos son cualitativos no tiene sentido calcular la mediana, en este caso se
puede calcular la mediana del grado de afección porque los datos 5º y 6º son ambos M.
Cuando los datos son de tipo continuo y no se posee la lista original de valores, sino solo los
intervalos, sus marcas y frecuencias, el modo de proceder es diferente:
En este caso buscaremos el intervalo mediano, que es aquél cuya frecuencia acumulada es N/2 o
su frecuencia acumulada relativa es 0.5. Si estas cifras no aparecen entre las frecuencias, el
intervalo mediano es aquél que primero supera dicha cantidad.
Una vez localizado el intervalo mediano, un modo de proceder será decir que la mediana es la
marca de la clase de ese intervalo.
Procediendo de este modo, la mediana para la variable Diámetro, calculada a partir de los datos de
la tabla de frecuencias es:
Para 10 datos, N/2=5
Intervalo mediano: el 2º, pues es el primero en que se supera la cantidad 5 en la columna

Frecuencia acumulada (0.5 si se mira la acumulada relativa). La mediana es la marca de este
intervalo:
me = 3.55
Este modo de proceder se basa en suponer que todos los datos de cada intervalo son iguales
entre sí e iguales a la marca de clase.
Hay otro modo de proceder, consiste en suponer que los datos dentro de cada intervalo se
reparten uniformemente con valores crecientes de la variable, bajo esta suposición, y suponiendo
que el intervalo mediano es el j-ésimo, cuyos extremos son xj, xj+1, con una frecuencia absoluta nj y
siendo Nj y Nj-1 las frecuencias acumuladas correspondientes al intervalo mediano y al inmediato
anterior, la mediana se calcula como:
9
17025:2005
x j 1  x j  N  x j 1  x j  N 
me  x j    N j 1   x j    N j 1  , para el caso actual:
N j  N j 1  2  nj 2 
3.9  3.2
me  3.29   5  3  3.757
3
Este valor no coincide con el calculado con la marca de clase ni con el que se obtuvo a partir de los
datos originales, por ello siempre que se disponga de los datos originales, se calculará la mediana
como si se tratase de datos discretos.
La expresión anterior para la mediana se puede formular en función de las frecuencias relativas:
x j 1  x j
me  x j 
fj
 0.5  Fj 1 
Media: solo es aplicable a datos de tipo numérico, es la media aritmética de los datos observados,
o sea, la suma de todos ellos dividido por el número de observaciones:
x x   xN
 xi
i 1
x 1 2  para datos sin tabular, si están tabulados en tablas de frecuencias:
N N
k
 xi ni
i 1
x , siendo k el número de valores distintos y ni la frecuencia absoluta correspondiente al
N
valor xi de la variable.
En caso que tengamos una variable tabulada en clases, en la formula anterior, k es el número de
clases y xi cada marca de clase. Como siempre, si se puede, es preferible realizar los cálculos
sobre los datos originales.
La media de la variable Nº de ramas primarias es:
0  0  1  1  1  2  2  2  3  4 0* 2  1*3  2*3  3*1  4*1 16

x    1.6
10 10 10
y la de la variable diámetro:
3.9  4.3  3.9  2.5  3.9  4.2  4.5  5.3  2.5  2.9 37.9
x   3.79 cm
10 10
esta última calculada a partir de la tabla de frecuencias es:
10
17025:2005
2.85*3  3.55*3  4.25*3  4.95*1 8.55  10.65  12.75  4.95 36.9

x    3.69 cm
10 10 10
y no coincide con el valor calculado para los datos originales, por lo que se vuelve a poner de
manifiesto que siempre que se pueda, se debe operar con ellos.
Medidas de Posición no central
La media, mediana y moda son medidas que indican el centro de la distribución, vamos a ver
algunas más, que no indican el centro:
Cuartiles:
Si se localiza en el conjunto de datos ordenados aquellos que lo dividen en cuatro intervalos con el
mismo número de observaciones, habremos encontrado los cuartiles primero, segundo y tercero.
Primer cuartil Q1: Es aquél valor de la variable que resulta ser mayor o igual que el 25% de los
datos y menor que el 75% restante.
Para calcular Q1 se procede de diferente modo si los datos están agrupados en clases o no. Para
datos sin agrupar o con agrupamiento discreto, consideraremos el conjunto original de datos
ordenados, si de este conjunto eliminamos la mediana, quedan dos subconjuntos, la mediana del
primero de ellos es Q1.
Si se divide la lista de datos ordenados correspondiente a la variable Nº de ramas primarias por el

punto que corresponde a la mediana , quedan dos grupos de datos, ambos con cinco datos :
Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4
La mediana de la primera mitad es el dato (5+1)/2 = 3º, por tanto
Q1
Q1 = 1 : Nº de ramas primarias 0 0 1 1 1
Si los datos están agrupados en clases y no se dispone de los datos originales, se procede de
modo similar a lo hecho para la mediana en estos casos, y se puede aplicar la fórmula vista,
sustituyendo la frecuencia acumulada por N/4 o la acumulada relativa por 0.25:
11
17025:2005
x j 1  x j
Q1  x j 
fj
 0.25  Fj 1 
aquí se considera que el intervalo que contiene al primer cuartil es el j-ésimo.
Para la variable diámetro, el intervalo que contiene el primer cuartil es el primero, cuyos límites son
2.5 y 3.2 , la frecuencia relativa es 0.3 y la acumulada relativa, 0.3 también, por ser el 1º por ello la
frecuencia acumulada relativa correspondiente al intervalo anterior es 0.
3.2  2.5 0.7

Q1  2.5   0.25  0   2.5  0.25  3.0833
0.3 0.3
Para esta variable, procediendo como datos discretos, Q1 = 2.9, siempre que se pueda se debe
trabajar sobre los datos originales, sin agrupar.
Segundo cuartil: Q2 es la mediana.
Tercer cuartil: Q3 , es aquél valor de la variable que resulta ser mayor o igual que el 75% de los
datos y menor que el 25% restante.
Para datos sin agrupar, se calcula como la mediana de la segunda mitad de los datos ordenados
que se obtiene al dividir la lista original eliminando el dato mediano.
Respecto de la variable Nº de ramas primarias, la mediana de la segunda mitad es el dato

5+(5+1)/2 = 8º, por tanto
Q3
Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4
Q3 = 2
Para datos agrupados en clases, se localiza primero el intervalo que contiene el tercer cuartil, que
es aquél cuya frecuencia relativa acumulada es mayor o igual a 0.75, sea este intervalo el j-ésimo,
entonces:
x j 1  x j
Q3  x j 
fj
 0.75  Fj 
El tercer cuartil de la variable Diámetro está en el tercer intervalo (frecuencia acumulada relativa =
0.9), su valor se puede calcular como:
12
17025:2005
4.6  3.9
Q3  3.9   0.75  0.6   4.25
0.3
mientras que de los datos originales como si fuesen discretos, Q3=4.3
Percentiles: Como extensión, si el primer cuartil es el valor de la variable que resulta ser mayor o
igual que el 25% de los datos y menor que el 75%, se define Percentil como el valor de la variable
que resulta ser mayor o igual que un porcentaje dado de los datos, así se habla del percentil 10,
del percentil 20, etc., se fácil comprobar que:
p25 = Q1; p50 = Q2 = me ; p75 = Q3
Si se desea calcular el percentil p

igual o mayor que /100 es el j-ésimo:
x j 1  x j   
p  x j    F j 1 
fj  100 
En general, definimos el cuantil  ( en tanto por 1) como aquél valor de la variable que resulta ser
menor que el 100% de los datos y mayor o igual que el 100(1- )% restante, es evidente que
cuantil  = p100(1-) .
Medidas de dispersión:
Para mejorar la información sobre el conjunto de datos no basta saber en torno a qué valores está
la mayoría de los datos, también es conveniente saber si el conjunto de medidas son todas muy
parecidas entre sí o si son muy diferentes, esto se consigue con las medidas de dispersión o
variabilidad.
Rango: es la medida de variabilidad más simple, es el mayor valor menos el más pequeño,
conforme más próximos sean los valores observados, menor será el rango.
R= max(xi) – min(xi)
Rango intercuartílico: El rango está influenciado por la presencia de algún error de medida, que
suele traducirse en valores excesivamente grandes o pequeños, por eso se prefiere como medida
de variabilidad, la diferencia entre los cuartiles tercero y primero, también llamado Rango
intercuartílico:
RI = Q3-Q1
13
17025:2005
Desviación media es la media de las diferencias o desviaciones de cada dato hasta la media,
tomadas en valor absoluto, pues de lo contrario la suma se anula:
N k
 xi  x  xi  x ni
i 1
dm  si los datos están agrupados: d m  i 1
N N
Varianza: es la media de los cuadrados de las diferencias o desviaciones de cada dato hasta la
media:
N N
  xi  x   xi2
i 1 i 1
s2    x2
N N
k k
  xi  x  ni  xi2 ni
i 1 i 1
si los datos están agrupados en clases, la fórmula es: s2    x2
N N
Para la variable Nº de ramas primarias, el cálculo de la varianza es:
s2 
 0  1.6 2   0  1.6 2  1  1.6 2    4  1.6 
2

14.4
 1.44
10 10
Tratándolos como datos y frecuencias:
s 2

 0  1.6   2  1  1.6   3   2  1.6   3   3  1.6   1   4  1.6   1
2 2 2 2 2
 1.44
10
y por la fórmula reducida:
 0   2  1  3   2   3   3  1   4   1
2 2 2 2 2
40
s 2
  1.62   2.56  4  2.56  1.44
10 10
La varianza se expresa en unidades al cuadrado y no es comparable con los datos, por eso se
define
Desviación típica, es la raíz cuadrada positiva de la varianza,
s  s2
La desviación típica de la variable Nº de ramas primarias es : s  1.44  1.2

14
17025:2005
La varianza mide la dispersión de los datos respecto de la media de los propios datos. Si lo que
tenemos es una muestra, y se desea estimar la varianza de toda la población con los datos de la
muestra, se utiliza la
N
  xi  x  N s2
Cuasivarianza: s 2  i 1 
N 1 N 1
k
  xi  x  ni N s2
i 1
para datos agrupados en clases, la fórmula es: s 
2

N 1 N 1
De modo similar a la desviación típica, se define:
Cuasi desviación típica: s  s2
Para estimar la varianza de toda la población respecto a la variable Nº de ramas primarias, se usa
la cuasivarianza de esa variable calculada con los datos de la muestra:
10  1.44 14.4
s2   1.6
9 9
y la cuasidesviación típica: s  s 2  1.6  1.265
Para comparar variabilidad entre magnitudes diferentes o entre diferentes muestras, se utiliza el
coeficiente de variación, que es la desviación típica expresada en medias:
s
CV 
x
1.4
El coeficiente de variación de la variable Nº ramas primarias es: CV   0.875
1.6
En ocasiones, al tomar las medidas de un experimento, o cuando se transcriben los datos para
procesarlos, se comenten errores y aparecen datos mucho más grandes o mucho menores que el
resto, son los denominados Outliers, y es importante poder detectarlos y comprobar si se trata o
no de un error. Tanto la media como la varianza son muy sensibles a la presencia de Outliers y por
eso interesa detectarlos. La detección de Outliers se puede hacer a partir de la media y desviación
típica ya calculadas, se puede demostrar que datos cuya desviación respecto de la media sea
15
17025:2005
superior en valor absoluto a tres desviaciones típicas son raros, por eso se suelen considerar
outliers aquellos datos que cumplan:
xi  x  3s
No obstante, la presencia de los posibles outliers ha intervenido en el cálculo de la media y de la

desviación típica, por lo que sería recomendable utilizar otras medidas de posición y dispersión
para localizarlos, por eso se consideran outliers aquellas medidas que sean menores que el primer
cuartil menos 1.5 veces el rango intercuartílico, o mayores que el tercer cuartil más 1.5 veces RI:
xi es un outlier por defecto, si: Q1  xi  1.5RI
xi es un outlier por exceso, si: xi  Q3  1.5RI
Si la distancia llega a superar las 3 veces RI, entonces el outlier se considera grave, en caso
contrario, lo consideraremos leve.
Medidas de asimetría y de forma:
Además de dar información sobre la tendencia central de los datos y sobre cómo se reparten
respecto del centro, en ocasiones interesa conocer si los datos se reparten de un modo simétrico a
ambos lados de la media o no.
El coeficiente de asimetría mide esta propiedad, y se calcula como:
N
  xi  x 
3
N
  xi  x 
3
i 1
N 1 i 1
g1   , o , si los datos están agrupados:
s3 s 3 N
k
  xi  x 
3
ni k
  xi  x 
3
i 1 ni
N 1 i 1
g1  
s3 s3 N
Si g<0, existe asimetría hacia la izquierda. Si g>0, la asimetría es hacia la derecha. Si g=0, la
distribución de datos es simétrica.
El coeficiente de curtosis o apuntamiento mide si las frecuencias de los datos centrales son
mucho mayores que las de los datos extremos, o si, por el contrario, todos los datos se repiten un
número más o menos igual de veces. Se calcula como:
16
17025:2005
N
  xi  x 
4
N k
  xi  x    xi  x 
4 4
i 1 ni
N 1 i 1 1 i 1
k  , y, si los datos están agrupados: k 
s4 s4 N s4 N
Cuando los datos proceden de una distribución Normal, tomando la fórmula de la densidad de una
distribución normal se puede demostrar que el anterior coeficiente k toma el valor 3. Por este
motivo, el coeficiente de apuntamiento que se usa habitualmente es:
k
  xi  x 
4
ni
1 i 1
g2  k  3   3 y compara el apuntamiento de los datos con el que tendría una
s4 N
distribución normal teórica con igual media y varianza que la de nuestros datos.
Si g2<0 decimos que los datos son poco apuntados (distribución platicúrtica, apuntamiento menor
que el de una normal), si g2  0 diremos que los datos tienen un apuntamiento semejante al de una
normal (distribución mesocúrtica), si g2>0 diremos que nuestros datos tienen una distribución
leptocúrtica o más apuntados que la normal.
Diagrama de caja:
Es un gráfico en el que se incide más en la simetría y en la presencia de outliers, consiste en

dibujar un eje horizontal (también se podría hacer vertical) en el que se lleva una escala
correspondiente a los datos, más arriba se dibuja un segmento vertical sobre la mediana y dos
más, uno sobre cada cuartil posteriormente se cierran ambos segmentos por segmentos
horizontales, con esto se forma la caja. La posición relativa del segmento mediano respecto de los
lados de la caja ya nos informa sobre la simetría de los datos.
A continuación y desde el centro de cada uno de los lados de la caja se lleva un segmento
horizontal que termina en el los valores observados menor y mayor que no son outliers, si los hay,
o en los valores menor y mayor de los observados. Si hay outliers se marcan con símbolos
especiales, por ejemplo, * para los leves y # para los graves.
El diagrama de cajón y pata para la variable diámetro es:
Diagrama de caja
Q1 me Q3
0 1 2 3 4 17 5 6
17025:2005
En este caso no hay outliers, y por eso la pata empieza con el menor dato y termina con el mayor.
Se puede ver que los datos se extienden desde algo más de 2 hasta algo más de 5, que la
distribución presenta una cola o asimetría hacia la derecha y que no hay outliers; además se
aprecia la ubicación y valor de la mediana y cuartiles. Respecto del 50% de los datos centrales,
como puede verse en la caja, la asimetría es hacia la izquierda.
18
17025:2005
ESTIMACIÓN PUNTUAL. ESTIMACIÓN POR INTERVALOS DE CONFIANZA.
1. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA
El objetivo básico de la inferencia estadística es hacer inferencias o sacar conclusiones sobre la

población a partir de la información contenida en una muestra aleatoria de la población. Más
específicamente, podemos decir que la inferencia estadística consiste en el proceso de selección y
utilización de un estadístico muestral, mediante el cual, utilizando la información que nos
proporciona una muestra aleatoria, nos permite sacar conclusiones sobre características
poblacionales.
Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en un
estadístico muestral, es decir, en la información proporcionada por la muestra (formalmente
definimos un estadístico como una función de las observaciones muestrales). La elección del
estadístico apropiado dependerá de cuál sea el parámetro poblacional que nos interese. El valor
verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal
estadístico se denomina estimador.
Las inferencias sobre el valor de un parámetro poblacional θ se pueden obtener básicamente de
dos maneras: a partir de estimación o bien a partir del contraste de hipótesis.
En la estimación, basta seleccionar un estadístico muestral cuyo valor se utilizará como estimador
del valor del parámetro poblacional.
En el contraste de hipótesis, se hace una hipótesis sobre el valor del parámetro θ y se utiliza la
información proporcionada por la muestra para decidir si la hipótesis se acepta o no.
Ambos métodos de inferencia estadística utilizan las mismas relaciones teóricas entre resultados
muestrales y valores poblacionales. Así pues, una muestra es sacada de la población y un
estadístico muestral es utilizado para hacer inferencias sobre el parámetro poblacional. En
estimación, la información muestral es utilizada para estimar el valor del parámetro θ. En el
contraste de hipótesis, primero se formula la hipótesis sobre el valor de θ y la información
muestral se utiliza para decidir si la hipótesis formulada debería ser o no rechazada.
Pero cuando se utiliza la inferencia para estimar un parámetro poblacional debemos decir cómo de
buena es esa inferencia, o sea debemos dar una medida de su bondad. Para ello será necesario
conocer la diferencia existente entre la estimación del parámetro poblacional, calculada a partir de
una muestra específica de tamaño n, y el valor verdadero del parámetro poblacional.
2. EL PROBLEMA DE LA ESTIMACIÓN: ESTIMACIÓN PUNTUAL
La estimación estadística se divide en dos grandes grupos: la estimación puntual y la estimación

por intervalos. La estimación puntual consiste en obtener un único número calculado a partir de las
observaciones muestrales, y que es utilizado como estimación del valor del parámetro θ. Se le
llama estimación puntual porque a ese número, que se utiliza como estimación del parámetro θ, se
le puede asignar un punto sobre la recta real. En la estimación por intervalos se obtienen dos
puntos ( un extremo inferior y un extremo superior) que definen un intervalo sobre la recta real, el
cual contendrá con cierta seguridad el valor del parámetro θ.
El estimador del parámetro poblacional θ es una función de las variables aleatorias u
observaciones muestrales y se representa por
 =g ( X1 , X 2 ,..., X n )
Para una realización particular de la muestra ( x1 , x2 ,..., xn ) se obtiene un valor específico del
estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por
19
17025:2005
 = g ( x1 , x2 ,..., xn )
Vemos pues que existe diferencia entre estimador y estimación. El estimador es un estadístico y,
por tanto, una variable aleatoria y el valor de esta variable para una muestra concreta
( x1 , x2 ,..., xn ) será la estimación puntual. El estimador θ tendrá su distribución muestral.
En la tabla 2.1 expresamos diferentes parámetros poblacionales, sus estimadores y sus

estimaciones.
Parámetro
Estimador Estimación
poblacional
n n
Media   Xi x i
̂  X  i 1
x i 1
n n
1 n

1 n

 xi  x 
2
Varianza 2 ̂ 2  S 2  ( X i  X )2 s2 
n  1 i 1 n  1 i 1
X númeroéxit os x
Proporción p pˆ   pˆ 
n númeropruebas n
TABLA 2.1 Parámetros poblacionales, estimadores y estimaciones.
Para la elección de estos estimadores puntuales nos hemos basado, principalmente en la intuición
y en la posible analogía de los parámetros poblacionales con sus correspondientes valores
muestrales, pero éste no será el método más adecuado para la obtención de estimadores
puntuales, aunque en este caso se obtienen estimadores satisfactorios para los parámetros
poblacionales. En general, el problema de obtener estimadores puntuales no será tan sencillo, por
ello tenemos que dar propiedades que serían deseables que se cumplieran por los diferentes
estimadores puntuales obtenidos, aunque no existe un mecanismo o método único que nos
permita obtener el mejor estimador puntual en todas las circunstancias.
Nuestro objetivo ahora será dar algunas propiedades deseables de los estimadores puntuales, con
el fin de poder conocer la bondad de los mismos, pues cuantas más propiedades verifiquen los
estimadores puntuales mejores serán.
* PROPIEDADES DESEABLES DE LOS ESTIMADORES PUNTUALES
a) Estimador insesgado
Si tenemos un gran número de muestras de tamaño n y obtenemos el valor del estimador en cada
una de ellas, sería deseable que la media de todas estas estimaciones coincidiera con el valor de μ
, Se dice que un estimador es insesgado si su esperanza matemática coincide con el valor del
parámetro a estimar.
b) Estimador eficiente
20
17025:2005
Se dice que los estimadores son eficientes cuando generan una distribución muestral con el
mínimo error estándar ,es decir, entre dos estimadores insesgados de un parámetro dado es más
eficiente el de menor varianza.
c) Estimador consistente
Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor del parámetro a
medida que aumenta el tamaño de la muestra. Es decir, la probabilidad de que la estimación sea el
verdadero valor del parámetro tiende a 1.
d) Estimador suficiente
Se dice de un estimador que es suficiente cuando es capaz de extraer de los datos toda la
información importante sobre el parámetro.
3. ESTIMACIÓN POR INTERVALOS
La estimación puntual es poco útil, pues solo obtenemos un valor como aproximación al que
tratamos de estimar. Es mucho más interesante obtener un intervalo dentro del cual se tiene una
cierta confianza de que se encuentre el parámetro que tratamos de estimar.
El objetivo que se pretende con los intervalos de confianza es obtener un intervalo de poca
amplitud y con una alta probabilidad de que el parámetro θ se encuentre en su interior. Así pues,
elegiremos probabilidades cercanas a la unidad, que se representan por 1-α y cuyos valores más
frecuentes suelen ser 0'90, 0'95 y 0'99.
Luego si deseamos obtener una estimación por intervalo del parámetro poblacional θ
desconocido, tendremos que obtener dos estadísticos   X1 , X 2 ,..., X n  y   X1 , X 2 ,..., X n 
que nos darán los valores extremos del intervalo, tales que
P   X1 , X 2 ,..., X n       X1 , X 2 ,..., X n   1  
Al valor 1-α se le llama coeficiente de confianza, y

Al valor 100(1-α) % se le llama nivel de confianza.
a) Intervalo de confianza para la proporción poblacional.
Si p representa la proporción de éxitos en una muestra aleatoria de tamaño n suficientemente

grande y q=1-p, entonces un intervalo de confianza aproximado para la proporción poblacional p
al nivel de confianza del 100(1-α) % viene dado por:
 pˆ qˆ pˆ qˆ 
 pˆ  z  , pˆ  z  
 2
n 2
n 
en donde z / 2 es tal que
21
17025:2005

P[Z> z / 2 ]=
2
y la variable aleatoria Z sigue una distribución N(0,1).
b) Intervalo de confianza para la media de una población normal, siendo σ conocida
Supongamos que tenemos una muestra aleatoria de n observaciones de una distribución N(μ, σ).
Si σ es conocida, y la media muestral observada es x , entonces el intervalo de confianza para la
media poblacional μ, al nivel de confianza del 100(1-α)% viene dado por:
   
 x  z / 2 , x  z / 2 
 n n
donde z / 2 es tal que

P( Z  z / 2 ) 
2
y la variable aleatoria Z→N(0,1).
Ejemplo 1: Queremos saber la media de km recorridos por los taxistas de cierta población.
Sabemos por estudios anteriores que  = 2.250 km. Para ello, elegimos una muestra de 100
taxistas y obtenemos una media muestral x =15.200 km.
a) Determina el intervalo de confianza al 99% para  .
b) ¿Cuál ha de ser el tamaño mínimo de la muestra para que el error no supere los 500
km con la misma confianza del 99%?
Solución:
 2.250 
Puesto que n=100 (30), sabemos que X  N   ,   N   , 225  .
 100 
L L
a) P(15.200  L  X  15.200  L)  0,99  P( Z  )  0,99
225 225
L L
 P( Z  )  0,995   2,575 (ver tabla)  L  579,
225 225
con lo que el int ervalo de confianza para  , al 99%, y según esta muestra, es [14.621;15.779]
 2.250 
b) Si el I.C. ha de ser [ x -500, x +500], entonces, como X  N   , ,
 n 
22
17025:2005
 
 500 500 
P ( x  500  X  x  500)  0, 99  P Z  0, 99
 2.250 2250 
 
 n n
500 n 500 n
P( Z  )  0, 995   2, 575 (ver tabla)
2.250 2.250
2, 575  2.250
 n  11, 59  n  134, 32  n  135
500
Ejemplo 2: De una población Normal de media desconocida y desviación típica  = 6, se extrae la

siguiente muestra: 82, 78, 90, 89, 92, 85, 79, 63, 71.
c) Determina el intervalo de confianza al 98% para  .

d) Determina el tamaño muestral para que, con la misma confianza, el intervalo de
confianza tenga una amplitud igual a 4,66.
Solución:
a) Como la población de partida es Normal, independientemente de cual sea el tamaño de la

 6 
muestra (en este caso, n=9), sabemos que X  N   ,   N   , 2 .
 9
La media de la muestra resulta ser x =81. Ha de suceder que
P ( x  L  X  x  L )  0, 98  P (81  L  X  81  L)  0, 98
 81  L  81 81  L  81   L L
 P Z    0, 98  P   Z    0, 98
 2 2   2 2
 L L
 P  Z    0, 99   2, 33 (ver tabla )  L  4, 66
 2 2
 el int ervalo pedido es [81- 4, 66 ; 81  4, 66]  [76, 34 ; 85, 66]
 6  4, 66
b) Ahora X  N   ,  y L  2  2,33 . Hemos de determinar n para que
 n
   
L
P   0, 98  P  Z    0, 98 
L L
Z 
 6 6   6 
   
 n n   n 
L n 2, 33· n
P( Z  )  0, 99  P ( Z  )  0, 99 
6 6
2, 33· n
 2, 33 (ver tabla )  n  6  n  36
6
23
17025:2005
Nota: Para el mismo nivel de confianza, si queremos que el intervalo de confianza sea el doble de
estrecho (rebajar el error hasta la mitad), hemos de tomar un tamaño muestral 4 veces mayor.
Ejemplo 3: Un fabricante de pilas alcalinas sabe que la duración (horas) de estas sigue una
Normal de media desconocida y varianza  2 =3.600 h.
Con una muestra de su producción, elegida al azar, y un nivel de confianza del 95 %, ha obtenido,
para  , el intervalo de confianza [372,6 ; 392,2].
e) ¿Cuál fue el valor que obtuvo para la media de la muestra? ¿Cuál fue el tamaño
muestral utilizado?
f) ¿Cuál sería el error (L) de su estimación, si hubiese utilizado una muestra de tamaño
225 y un nivel de confianza del 86,9%?
Solución:
a) Sabemos que x es el centro del intervalo [372,6 ; 392,2], o sea, x =382,4 h.
Como la población de partida es Normal, independientemente de cual sea el tamaño de la muestra,

 60 
sabemos que X  N   ,  . (Cuidado:   3.600  60 )
 n
 372, 6  382, 4 392, 2  382, 4 
P (372, 6  X  392, 2)  0, 95  P  Z   0, 95 
 n n 
 9,8  9,8
P Z    0, 975  =1,96 (ver tabla )  n  5  n  25
 n n
 60 
b) Si n=225, entonces, X  N   ,   N (  , 4) .
 225 
Para una confianza de 86,9%, ha de suceder que
 L L  L
P Z    0,869  P  Z    0, 9345
 4 4  4
L
 =1,51 (ver tabla )  L  6, 04
4
24
17025:2005
c) Intervalo de confianza para la media de una población normal, siendo σ desconocida y

n<30.
Supongamos que tenemos una muestra aleatoria de n<30 observaciones de una distribución
N(μ,σ). Si σ es desconocida, y la media y la desviación típica muestral observadas son x y s,
respectivamente, entonces el intervalo de confianza para la media poblacional μ, al nivel de
confianza del 100(1-α) % viene dado por:
 s s 
 x  t / 2 , x  t / 2 
 n n 
donde t / 2 es tal que

P tn 1  t / 2  
2
y la variable tn 1 sigue una distribución t-Student con n-1 grados de libertad.
d) Intervalo de confianza para la varianza de una población normal.
Supongamos una muestra aleatoria de n observaciones de una distribución N(μ,σ). Si σ es

2
desconocida y la varianza muestral observada es s entonces el intervalo de confianza para la
varianza poblacional 2 al nivel de confianza del 100(1-α)% viene dado por:
 (n  1) sˆ (n  1) sˆ 
 2 , 2 
  n 1, / 2  n 1,1 / 2 
donde  n21,1 / 2 es tal que:


P   n21   n21,1 / 2  
2
y  2
n 1, / 2 es tal que:

P   n21   n21, / 2   1 
2
y la variable aleatoria  n21 sigue una distribución 2 de Pearson con n-1 grados de libertad.
25
17025:2005
e) Intervalo de confianza para la diferencia de medias en poblaciones normales

independientes
Supongamos dos muestras independientes de tamaño nx y n y procedentes de poblaciones

normales.
N   x ,  x  y N   y ,  y  , respectivamente. Si las medias para las muestras observadas son x
e y , entonces un intervalo de confianza, al nivel de confianza del 100(1-α)%, para las diferencias
de medias poblacionales x   y viene dado por:
  x2  y
2
 x2  y 
2
( x  y )  z / 2  , ( x  y )  z / 2  
 nx n y nx n y 
 

en donde z / 2 es el número tal que: P  Z  z / 2   y la variable aleatoria Z sigue una N(0, 1).
2
4. ESTIMACIÓN DEL TAMAÑO MUESTRAL
Sabemos que si tomamos una muestra aleatoria simple de tamaño n procedente de una población
N(μ,σ), siendo σ conocida, el intervalo de confianza al nivel del 100(1-α)% para la media
poblacional μ venía dado por:
   
I    x  z / 2 , x  z / 2 
 n n
Siendo la amplitud del intervalo

  
L  ( x  z / 2 )  ( x  z / 2 )  2 z / 2 (*)
n n n
Si, previamente, se fija la longitud del intervalo L y deseamos conocer el tamaño de la muestra
para obtener ese intervalo al nivel de confianza del 100(1-α)%, bastará despejar n de la
expresión (*), pues L, z / 2 y σ son conocidos, y tendremos que el tamaño de la muestra será:
2
n  4 z2 / 2
L2
el cual nos permitirá construir un intervalo al nivel de confianza del 100(1-α)% y de amplitud L
para la media de una población normal con σ conocida.
26
17025:2005
También podríamos hacer el siguiente razonamiento cuando σ sea conocido, si la media μ fuera
el valor central del intervalo, entonces x estimaría puntualmente a μ sin error alguno,
x μ
|---------------------------|----------------|---------------------------|
← error →
 
x  z / 2 x  z / 2
n n
Pero generalmente x no será exactamente igual a μ y entonces se comete un error, E=| x -μ|,
que como máximo será:

E= z / 2
n
entonces si queremos determinar el tamaño de muestra necesario para obtener un intervalo de
confianza para la media poblacional μ, admitiendo un error E, tendremos que despejando de la
expresión anterior:
2
n  z / 2
2
E2
z2 / 2 pˆ qˆ z2 / 2 pˆ qˆ
Igualmente se tendría para una proporción: n=4 =
L2 E2
27
17025:2005
LA DISTRIBUCION NORMAL
La distribución normal es una de las distribuciones más usadas e importantes. Se ha desenvuelto

como una herramienta indispensable en cualquier rama de la ciencia, la industria y el comercio.
Muchos eventos reales y naturales tienen una distribución de frecuencias cuya forma es muy
parecida a la distribución normal.
La distribución normal es llamada también campana de Gauss por su forma acampanada.
 X
Propiedades de la distribución normal
 La distribución normal tiene forma de campana.

 La distribución normal es una distribución de probabilidad que tiene media  = 0 y desviación
estándar  = 1.
 El área bajo la curva o la probabilidad desde menos infinito a más infinito vale 1.
 La distribución normal es simétrica, es decir cada mitad de curva tiene un área de 0.5.
 La escala horizontal de la curva se mide en desviaciones estándar.
 La forma y la posición de una distribución normal dependen de los parámetros  y  , en
consecuencia hay un número infinito de distribuciones normales.
Existe una relación del porcentaje de población a la desviación estándar. En la figura observamos
por ejemplo que el área bajo la curva para  1 tiene un porcentaje de 68.26%,  2 = 95.46% y
 3  99.73%
28
17025:2005
-3s -2s -1s +1s +2s +3s
68.26%
95.46%
99.73%
La población incluye todos los datos, la muestra es una porción de la población.
La desviación estándar
sigma representa la
distancia de la media al
punto de inflexión de la
curva normal
X
x-3 x-2 x- x x+ x+2 x+3
z
-3 -2 -1 0 1 2 3
29
17025:2005
Población Muestra
X
      
x-3s x-2s x-s x x+s x+2s x+3s
La distribución normal estándar
El valor de z
Determina el número de desviaciones estándar  entre algún valor X y la media de la población 

. Para calcular el valor de Z usamos la siguiente fórmula.
X 
Z

La distribución de probabilidad f (Z) es una distribución normal con media 0 y desviación estándar
1; esto es Z se distribuye normalmente con media cero y desviación estándar = 1 Z~N(0,1): La
gráfica de densidad de probabilidad se muestra en la figura.
30
17025:2005
F(z)
  1
La distribución f (Z) se encuentra tabulada en la tabla de distribución normal estándar. En esta

tabla podemos determinar los valores de Z o la probabilidad de determinado valor Z.
Ejemplo 1 : El gerente de personal de una gran compañía requiere que los solicitantes a un
puesto efectúen cierta prueba y alcancen una calificación de 500. Si las calificaciones de la prueba
se distribuyen normalmente con media   485 y desviación estándar   30 ¿Qué porcentaje
de los solicitantes pasará la prueba?
Calculando el valor de Z obtenemos:
X  500  485
Z =  0.5
 30
Buscamos el valor correspondiente Z en las tabla de distribución normal. Z 0.5 = .69146 = 69.146%.
siendo esta la probabilidad de que la calificación sea menor a 500 P (X<500). Dado que el
porcentaje pedido es P( X  500) la solución es 1-.69146 =.3085 , 30.85% de los participantes
pasarán la prueba.
485
30.85%
Z.05
Ejemplo 2:
Encuentre las probabilidades siguientes usando la tabla Z.
31
17025:2005
a) P(-1.23 < Z > 0)
-1.23 Z
Solución: Buscamos el valor Z 1..23 en las tablas siendo este = .89065. restando .89065-.05 =
.3905, este valor es la probabilidad de 0 a 1.23 que es exactamente la misma de –1.23 a 0 por
simetría. Por lo tanto la probabilidad es .3905
Uso de la distribución normal en Excel
 Para calcular la probabilidad dado un valor Z procedemos de la siguiente manera:
En la barra de herramientas seleccione el icono de funciones

fx>Estadísticas>Distr.Norm.Estand. OK
Seleccione la celda que contiene el valor de Z, que en este caso es Z= 1.3 , de

clic en aceptar y aparecerá la probabilidad buscada f(z)= .903199
32
17025:2005
 Para calcular Z dada una probabilidad f(z)

fx>Estadísticas>Distr.Norm.Estand.inv OK
De clic en aceptar. Procedemos de la misma manera que en el caso anterior, pero en esta
ocasión seleccionamos la probabilidad .93319
El valor Z = 1.4999
33
17025:2005
 Cuando no tenemos valores de Z ni probabilidad.
Ejemplo 3: Suponga que una distribución normal dada tiene una media de 20 y una desviación
estándar de 4. calcule la probabilidad P (X > 24).

fx>Estadísticas>Distr.Norm.Estand. OK
El sistema muestra la siguiente ventana, en la cual llenamos los siguientes datos:
34
17025:2005
El resultado de la fórmula = .97724. , dado que esta es la probabilidad P(X  24), la probabilidad
buscada
P (X > 24) = 1-.8413= .1587
35
17025:2005
Uso de la tabla de la distribución normal típica
Sea Z una variable aleatoria con distribución normal típica
1) Busca de la función de distribución de un número positivo.
Supongamos que queremos calcular P{ Z  0,92}. Dicha probabilidad está representada por el área
sombreada en la figura 1.
figura 1
Obtendremos la respuesta buscando en la tabla normal (para ello buscamos la fila correspondiente al número
truncado en su primera cifra decimal (es decir 0,9) y la columna correspondiente a la segunda cifra decimal
(es decir 0,02). La intersección de esa fila y esa columna nos indicará el número buscado).
36
17025:2005
Por lo tanto P{ Z  0,92}= 0,8212.
2) Cálculo de la función de distribución de un número negativo.
Supongamos que queremos calcular P{ Z  -1,53}. Dicha probabilidad está representada por el área
figura 3
El número -1,53 no figura en la tabla, pero eso no nos impide calcular la probabilidad en cuestión.
Simplemente hay que tener en cuenta que, por la simetría de la campana de Gauss se tiene:
P{ Z  -1,53}= P{ Z >1,53}
37
17025:2005
La probabilidad que figura en el segundo miembro de la ecuación está representada en el área sombreada en
la figura 4:
figura 4
Dicha probabilidad es la complementaria de la probabilidad P{ Z  1,53}, representada en la figura 5.
figura 5
Es decir: P{ Z  1,53}+ P{ Z > 1,53}= 1. Para hallar P{ Z  1,53} simplemente vamos a la tabla y
procedemos como en el caso 1:
38
17025:2005
De aquí obtenemos P{ Z  1,53} = 0,9370 y, por lo tanto:
P{ Z  -1,53}= P{ Z > 1,53} = 1 - P{ Z  1,53}= 1- 0,9370 = 0,0630
3) Cálculo de la probabilidad de que la normal típica caiga entre dos valores dados.
Supongamos que queremos calcular P{0,41 < Z  1,62}. Esta probabilidad está representada por el área
39
17025:2005
figura 7
Dicha probabilidad se puede calcular como
P{ 0,41 < Z  1,62}.= P{ Z  1,62}- P{Z  0,41}.
El minuendo y el sustraendo están representados por las áreas sombreadas en las figuras 8 y 9,
respectivamente.
figura 8
40
17025:2005
figura 9
La busca en la tabla nos da los valores:
P{ Z  1,62} = 0,9474, y P{Z  0,41} = 0,6591 .
Por lo tanto:
P{ 0,41 < Z  1,62}.= 0,9474 - 0,6591= 0,2883.
4) Cálculo de la probabilidad de que un normal con parámetros cualesquiera caiga entre dos valores
dados.
Supongamos que queremos calcular P{2,3 < X  3,7}. Donde X es una variable aleatoria normal con
parámetros =1,5 y =2 Esta probabilidad está representada por el área sombreada en la figura 10.
.
figura 10
Para calcular esta probabilidad, llevamos la variable X a una normal típica, restando  y
dividiendo entre :
41
17025:2005
P{2,3 < X  3,7} = P{(2,3) / < (X) /  (3,7) / }=
P{(2,31,5) /2 < (X1,5) /2  (3,71,5) /2 }= P{0,4< (X) /  1,1 }
la variable Z= (X) / tiene distribución normal típica. La probabilidad que se quiere calcular es igual al
área sombreada en la figura 11:
figura 11
La resolución del problema se reduce entonces a lo explicado en la parte 3.
P{2,3 < X  3,7} = P{0,4< Z  1,1 }= P{ Z  1,1 } P{ Z  0,4 } = 0,8643  0,6554 = 0,2089
42
17025:2005
43
17025:2005
CONTRASTE DE HIPÓTESIS PARÁMETRICO
0. INTRODUCCIÓN
Continuando dentro del contexto general de la inferencia estadística, vamos a exponer el contraste
o test de hipótesis estadísticas que aparece muy relacionado con la estimación por intervalos,
desarrollada en el capítulo anterior. Los intervalos de confianza se utilizan para estimar
parámetros y los contrastes o test de hipótesis para tomar decisiones acerca de características
poblacionales.
La teoría del contraste de hipótesis estadísticas fue introducida inicialmente por Fisher y
desarrollada por Neyman y Pearson, siendo considerablemente extendida y generalizada en los
últimos años.
Una hipótesis estadística es cualquier afirmación, verdadera o falsa, sobre alguna característica
desconocida de la población. Si la hipótesis se refiere al valor de un parámetro desconocido θ de la
población, diremos que se trata de un contraste paramétrico, pero si la hipótesis se refiere a la
forma que tiene la función de cuantía o de densidad f(x; θ) de la población, entonces hablaremos
de contraste no paramétrico.
Así pues, supongamos una población que sigue una distribución N(5, σ), en donde el parámetro σ
es desconocido y hacemos una hipótesis acerca del posible valor del parámetro desconocido,
desviación típica, σ=2; entonces estaríamos en un contraste paramétrico. Sin embargo, si no
conocemos la forma de la población, o sea, no sabemos si sigue una distribución normal, binomial,
exponencial, etc. entonces formularíamos la hipótesis de que esa población tiene una distribución
de tipo normal, binomial, exponencial, etc. diciendo por tanto que se trata de un contraste no
paramétrico.
En este capítulo nos vamos a referir a contrastes paramétricos y dejaremos los contrastes no
paramétricos para un capítulo posterior. Por ello admitimos que es conocida la forma funcional de
la función de cuantía o de densidad de la población, f(x; θ), en donde θ es un parámetro
desconocido, que toma valores dentro del espacio paramétrico Ω, el cual contiene, al menos dos
puntos.
Para el planteamiento general del contraste de hipótesis paramétrico, partimos de una población
cuya función de cuantía o de densidad f(x; θ) depende de un parámetro θ desconocido, que toma
valores dentro de un espacio paramétrico Ω. Formulamos una hipótesis que consiste en hacer
θ=  0 y con la ayuda de una muestra aleatoria ( X1 , X 2 ,..., X n ) procedente de la población,
obtenemos el estimador puntual θ( X1 , X 2 ,..., X n ) que es utilizado para inferir o determinar si la
hipótesis formulada, que el valor θ=  0 , es aceptada.
44
17025:2005
1. TIPOS DE HIPÓTESIS
En el apartado anterior hablábamos en general de hipótesis estadísticas, pero como aquí nos
vamos a referir sólo a los contrastes paramétricos podemos precisar más y las llamamos hipótesis
paramétricas, que son afirmaciones verdaderas o falsas, sobre el valor del parámetro θ
desconocido.
Consideremos dos tipos de hipótesis:
* Hipótesis simples.
* Hipótesis compuestas.
Diremos que una hipótesis es simple si se refiere a un solo valor del parámetro, es decir a un solo
punto del espacio paramétrico, quedando totalmente especificada la forma de la función de cuantía
o de densidad de la población al conocer ese valor del parámetro.
Si la hipótesis no se refiere a un punto del espacio paramétrico o valor del parámetro, sino que se
refiere a una región del espacio paramétrico, diremos que se trata de una hipótesis compuesta.
En el contraste de hipótesis estadísticas siempre se acepta, provisionalmente, una hipótesis como

verdadera, que es la hipótesis nula H 0 , y que es sometida a comprobación experimental frente a
otra hipótesis complementaria que llamaremos hipótesis alternativa H1 . Como consecuencia de la
comprobación experimental, la hipótesis nula H 0 podrá seguir siendo aceptada como verdadera o,
por el contrario, tendremos que rechazarla y aceptar como verdadera la hipótesis alternativa H1 .
La especificación apropiada de la hipótesis nula y alternativa depende de la naturaleza propia del

problema en cuestión, así pues, las formas básicas de establecer las hipótesis sobre el parámetro
θ son las siguientes:
H o :   0
I
H1 :   0
H o :   0
II
H1 :   0
H o :   0
III
H1 :   0
IV H o : 1    2
45
17025:2005
H1 :   1 ó  >2
Las hipótesis deben ser formuladas de tal manera que sean mutuamente excluyentes y
complementarias.
Los contrastes de la formas I y IV son de dos colas o bilaterales y los contrastes de las formas II y
III son de una sola cola o unilaterales, pues las hipótesis alternativas correspondientes están
formuladas por ambos lados o por uno solamente.
2. REGIÓN CRÍTICA Y REGIÓN DE ACEPTACIÓN
La región crítica está constituida por el conjunto de muestras para las cuales se rechaza la
hipótesis nula H0 .
La región de aceptación está constituida por el conjunto de muestras para las cuales se acepta la
hipótesis nula H0 .
El valor o valores que separan la región crítica de la región de aceptación reciben el nombre de
valor o valores críticos.
Cuando el contraste es de la forma I o IV, o sea, bilateral, estas regiones serán del tipo de las
indicadas en el siguiente gráfico:
Región crítica Región de aceptación Región crítica

(Rechazar H 0 ) (Aceptar H 0 ) (Rechazar H 0 )
C C C
← |---------------------------|-----------------------------------------------------|---------------------------|→
↑ ↑
|----- - - - - --Valores críticos---------------|
Si el contraste es de forma II, es decir, unilateral a la izquierda, estas regiones serán del tipo de
las indicadas en el siguiente gráfico:
Región crítica Región de aceptación

(Rechazar H 0 ) (Aceptar H 0 )
C C
← |---------------------------------------|--------------------------------------------------------------------| →
↑
Valor crítico
Análogamente, si el contraste es de forma III, es decir, unilateral a la derecha, entonces las

regiones son del tipo a las indicadas en el gráfico siguiente:
46
17025:2005
Región de aceptación Región crítica

(Aceptar H0 ) (Rechazar H0 )
C C
←|------------------------------------------------------------------------|---------------------------------|→
↑
Valor crítico
Luego un contraste o test de hipótesis será un método que selecciona una región crítica C y que
es capaz de averiguar si la muestra ( x1 , x2 , x3 ,..., xn ) está o no en C.
3. ERRORES DE TIPO I, DE TIPO II Y POTENCIA DEL CONTRASTE.
En todo problema de decisión, cuando tenemos que elegir entre varias alternativas o decisiones
existe la posibilidad o riesgo de equivocarnos cometiendo los correspondientes errores. Así pues,
en el contraste de hipótesis, basándonos en la información proporcionada por la muestra, tenemos
que decidir si aceptamos la hipótesis nula H 0 o si la rechazamos. La decisión siempre la hacemos
sobre la hipótesis nula, existiendo un riesgo de equivocarnos que nos llevará a los errores de tipo I
y de tipo II.
Existen cuatro resultados posibles de nuestra decisión sobre la hipótesis nula, dos de ellos no nos
llevan a ningún tipo de error y los otros dos dan lugar a los errores de tipo I y de tipo II. En efecto,
la tabla siguiente nos muestra los cuatro posibles resultados:
Estados de la naturaleza
Decisión H 0 es verdadera H 0 es falsa

Decisión correcta Error de tipo II
Aceptamos H0
No hay error 
Error de tipo I Decisión correcta
Rechazamos H0
 No hay error
Si la hipótesis nula H 0 es verdadera (columna 1), podemos aceptar H 0 o rechazar H 0

basándonos en la información proporcionada por la muestra. Si aceptamos H 0 cuando es
verdadera, la decisión es correcta y no hay error. Si rechazamos H 0 cuando es verdadera, hemos
cometido un error, que se llama error de tipo I.
47
17025:2005
Si la hipótesis nula H 0 es falsa (columna 2), podemos aceptar H 0 o rechazar H 0 basándonos en

la información muestral. Si aceptamos H 0 cuando es falsa, hemos cometido un error, que se llama
error de tipo II. Si rechazamos la hipótesis nula H 0 cuando es falsa, la decisión es correcta y no
hay error.
Es necesario dar una medida de la posibilidad o del riesgo de cometer estos dos tipos de errores.
Estas medidas son probabilidades y las notaremos por α y β, siendo:
 = Riesgo de error de tipo I = P (Error de tipo I) = P (Rechazar H 0 / H 0 es cierta)
 =Riesgo de error de tipo II = P (Error de tipo II)=P (Aceptar H 0 / H 0 es falsa)
Si los errores de tipo I y de tipo II son nulos, α=β=0, entonces decimos que el test o contraste es
ideal.
Cuando estudiamos los intervalos de confianza, decíamos que 1-α era el nivel de confianza, y
ahora podemos decir que representa el complemento de la P(error de tipo I), siempre y cuando el
test sea bilateral, es decir:
Nivel de confianza = 1-α =1-P(error de tipo I)=P(aceptar H 0 / H 0 es cierta)
Otro concepto fundamental es el de potencia del test o del contraste: 1-β, que indica el poder o
potencia que tiene el contraste para reconocer correctamente que la hipótesis nula es falsa y por
tanto sería rechazada.
Así pues, siempre desearemos un contraste con una potencia grande , próxima a la unidad, o lo
que es igual, un valor de β muy pequeño cuando H 0 es falsa.
La relación entre α y β según la decisión de aceptar o rechazar la hipótesis nula H 0 , viene dada
en la siguiente tabla, que representa el mismo problema de decisión que la anterior, con la única
diferencia de que aquí identificamos la probabilidad asociada a cada una de las cuatro casillas de
la tabla:
Estados de la naturaleza
Decisión H 0 es verdadera H 0 es falsa

1- 
Aceptamos H0 
Nivel de confianza
1- 
Rechazamos H0  Potencia del
contraste
48
17025:2005
4. FASES A REALIZAR EN UN CONTRASTE O TEST DE HIPÓTESIS
En un contraste de hipótesis nos podemos encontrar con varios parámetros poblacionales, con
diferentes maneras de formular las hipótesis, con muchos tests estadísticos diferentes y diversas
distribuciones de probabilidad que pueden ser incluidas en un contraste de hipótesis, no siendo
fácil el catalogar todos los posibles contrastes. Sin embargo sí existe un procedimiento, similar,
aplicables a las diferentes situaciones. Este procedimiento se resume en los siguientes pasos:
A. Formular la hipótesis nula H 0 y la hipótesis alternativa H1 en términos estadísticos.
En todo problema de contraste de hipótesis se deben especificar claramente las dos hipótesis. En
la práctica, generalmente, conviene formular la hipótesis nula como una hipótesis simple y la
hipótesis alternativa como una hipótesis compuesta, aunque no es necesario hacerlo así, pues
también se pueden formular las hipótesis de cualquiera de las maneras que ya conocemos. En
cualquiera de los casos las hipótesis deben ser mutuamente excluyentes, y deben ser formuladas
de tal manera que el verdadero valor del parámetro poblacional esté incluido en la hipótesis
alternativa, no siendo posible que no esté incluido en ninguna y ambas hipótesis sean falsas.
B. Determinar el test estadístico o estadístico de prueba apropiado.

En este caso se ha de obtener un estadístico apropiado que se utilizará para rechazar o aceptar
la hipótesis nula H 0 y que recibe el nombre de test estadístico o estadístico de prueba.
El test estadístico seleccionado debe satisfacer las siguientes condiciones:
- Su función de probabilidad debe ser conocida cuando se supone que la hipótesis nula es
cierta.
- Debe contener el valor del parámetro que está siendo contrastado.
- Los restantes términos que intervienen deben ser conocidos o se pueden calcular a partir de
la muestra.
C. Seleccionar el nivel de significación α.

Es deseable que α tome el menor valor posible para tener una menor probabilidad de rechazar una
hipótesis nula H 0 cuando es cierta.
El valor del nivel de significación α, indica la importancia o significado que el investigador atribuye a
las consecuencias asociadas rechazando incorrectamente la hipótesis nula H0 .
D. Determinar la región crítica o región de rechazo

El conocimiento de la región crítica nos permitirá decidir si se acepta o rechaza la hipótesis nula
H 0 , en función del valor del estadístico de prueba elegido y del valor de significación α fijado. Así
pues, es importante especificar, antes de seleccionar la muestra, cual será el valor exacto del test
estadístico que nos llevará a aceptar o rechazar la hipótesis nula H 0 ; determinando así la región
crítica o región de rechazo y la región de aceptación.
49
17025:2005
E. Seleccionar aleatoriamente la muestra y calcular el valor del estadístico de prueba o

test estadístico.
Después de seleccionada, de manera aleatoria, la muestra, se ha de ver si la muestra obtenida cae
en la región crítica o en la región de aceptación. Es decir, a partir de las observaciones se calcula
el valor del test estadístico o estadístico de prueba y se vería si el valor de este estadístico cae en
la región crítica o en la región de aceptación.
F. Dar la regla de decisión y su interpretación.
Si el valor calculado del test estadístico o estadístico de prueba cae dentro de la región crítica,
entonces la hipótesis nula H 0 se rechaza, y si el valor calculado cae dentro de la región de
aceptación, entonces se acepta la hipótesis nula H0 .
Por último, hay que resumir e interpretar la decisión, de aceptar o rechazar H 0 en términos del
problema original, es decir, utilizando el lenguaje del planteamiento del problema, pues los
resultados de los contrastes de hipótesis en el mundo de la economía, de la empresa o de las
ciencias sociales en general, frecuentemente se presentan para ser utilizados por personas con
pocos conocimientos estadísticos.
5. CONTRASTES SOBRE LA MEDIA DE UNA POBLACIÓN N(μ,σ) CON σ CONOCIDA
Supongamos una población N(μ,σ), en donde σ es conocida, y mediante una muestra

aleatoria simple de tamaño n, ( x1 , x2 , x3 ,..., xn ) , y un nivel de significación α dado, queremos
realizar los siguientes contrastes:
 H 0 :   0 
1.  
 H1 :    0 
 H 0 :   0 
2.  
 H1 :    0 
 H 0 :   0 
3.  
 H1 :    0 
 H 0 :   0 
1. Contraste de  
 H1 :    0 
50
17025:2005
La regla de decisión será:
x  0 x  0
- Rechazamos H 0 si: zexp  <  z / 2 ó zexp  >  z / 2
 
n n
- Aceptamos H 0 si :  z / 2  zexp  z / 2
La regla de decisión también la podemos formular en función de la región crítica o de la región de

aceptación, así pues, si calculamos la media x correspondiente a la muestra aleatoria de tamaño
n, entonces:
   
Si x   0  z / 2 , 0  z / 2  aceptamos H 0 .
 n n
   
Si x   0  z / 2 , 0  z / 2  rechazamos H 0 .
 n n
 H 0 :   0 
 H1 :    0 
x  0
- Rechazamos H 0 si: zexp  > z / 2

n
x  0
- Aceptamos H 0 si: zexp   z / 2

n
51
17025:2005
 H 0 :   0 
 H1 :    0 
x  0
- Rechazamos H 0 si: zexp  <- z / 2

n
x  0
- Aceptamos H 0 si: zexp   - z / 2

n
6. CONTRASTES SOBRE LA MEDIA DE UNA POBLACIÓN N(μ,σ) CON σ DESCONOCIDA
En esta sección, consideramos de nuevo el problema de una muestra aleatoria simple

( x1 , x2 , x3 ,..., xn ) procedente de una población N(μ,σ), en donde σ es desconocida y, con un nivel
de significación α dado, queremos realizar los siguientes contrastes:
 H 0 :   0 
1.  
 H1 :    0 
 H 0 :   0 
2.  
 H1 :    0 
 H 0 :   0 
3.  
 H1 :    0 
x  0
Utilizando el estadístico de prueba: texp  se tendrán los siguientes contrastes:
s
n
 H 0 :   0 
1) Contraste de  
 H1 :    0 
52
17025:2005
- Se rechaza H 0 si: texp  t / 2 ó texp  t / 2

- Se acepta H 0 si: t / 2  texp  t / 2
 H 0 :   0 
 H1 :    0 
- Se rechaza H 0 si: texp  t

- Se acepta H 0 si: texp  t
 H 0 :   0 
 H1 :    0 
- Se rechaza H 0 si: texp  t

- Se acepta H 0 si: texp  t
G. CONTRASTES SOBRE LA PROPORCIÓN POBLACIONAL
p  p0
Utilizando el estadístico z zexp  , se pueden formular los siguientes contrastes:
p0 1  p0  / n
 H 0 : p  p0 
1. Contraste de:  
 H1 : p  p0 
Se acepta H 0 si:  z / 2  zexp  z / 2

 H 0 : p  p0 
 H1 : p  p0 
Se acepta H 0 si: zexp   z
53
17025:2005
 H 0 : p  p0 
 H1 : p  p0 
Se acepta H 0 si: zexp  z

siendo z P  Z  z    ó P  Z  z   1  
H. CONTRASTES SOBRE LA VARIANZA DE UNA POBLACIÓN N(μ,σ)
Sea una muestra aleatoria simple de tamaño n procedente de una población N(μ,σ) en donde μ
es desconocida y, con un nivel de significación α dado , deseamos realizar los siguientes
contrastes:
H0 :    0 
 2 2

1. 
2
 H1 :    0 
2

H0 :    0 
 2 2

2. 
2
 H1 :    0 
2

H0 :    0 
 2 2

3. 
2 
 H1 :    0 

2

Utilizando el estadístico  
2  n  1 s 2
se tendrán los siguientes contrastes:
exp 2
0
 H 0 :  2   02 
 
1. Contraste de 
2
 H1 :    0 

2

Se acepta H 0 si: n21,1 / 2  exp

2
  n21, / 2
H0 :    0 
 2 2

2. Contraste de 
2
 H1 :    0 
2

54
17025:2005
Se acepta H 0 si: exp

2
  n21,
H0 :    0 
 2 2

3. Contraste de 
2 
 H1 :    0 
2

Se acepta H 0 si: exp

2
  n21,1
I. CONTRASTES DE DIFERENCIAS ENTRE MEDIAS POBLACIONALES.
Sean dos poblaciones normales N   x ,  x  y N   y ,  y  con  x y  y conocidas, de las

cuales se extraen dos muestras aleatorias e independientes de tamaño nx y n y
respectivamente. Con un nivel de significación α dado, queremos realizar los siguientes
contrastes:
 H 0 :  x   y  d0 
 
1.  
 H1 :  x   y  d 0 
 
 H 0 :  x   y  d0 
 
2.  
 H1 :  x   y  d 0 
 
 H 0 :  x   y  d0 
 
3.  
 H1 :  x   y  d 0 
 
El caso más frecuente es cuando d0  0 .
x  y  d0
Utilizando el estadístico zexp  se tienen los siguientes contrastes:
 x2  y2

nx ny
55
17025:2005
 H 0 :  x   y  d0 
 
 H1 :  x   y  d 0 
 
Se acepta H 0 si:  z / 2  zexp  z / 2
 H 0 :  x   y  d0 
 
 H1 :  x   y  d 0 
 
Se acepta H 0 si: zexp  z
 H 0 :  x   y  d0 
 
 H1 :  x   y  d 0 
 
Se acepta H 0 si: zexp   z
56
17025:2005
ANÁLISIS DE VARIANZA
Cuando es necesario hacer comparaciones entre tres o más medias muestrales para determinar si
provienen de poblaciones iguales utilizamos la técnica de análisis de varianza. Esta técnica se
realiza utilizando la distribución de probabilidad F vista anteriormente. Para el uso de esta técnica
es necesario seguir los siguientes supuestos:
1) Las poblaciones siguen una Distribución de Probabilidad Normal

2) Las poblaciones tienen desviaciones estándar (σ) iguales
3) Las muestras se seleccionan de modo independiente
La técnica del análisis de varianza descompone la variación total en dos componentes de

variación llamados variación debida a los tratamientos y variación aleatoria.
Cuando estamos frente a un problema de análisis de varianza lo primero que debemos hacer es
identificar en términos del problema lo siguiente:
Variable dependiente o variable respuesta: Es la variable que nos interesa medir o respuesta
que se va a estudiar para determinar el efecto que tiene sobre ella la variable independiente.
Variable independiente o factor: Es la variable o factor que puede influenciar en la variabilidad de

la respuesta o variable dependiente.
Nivel o tratamiento del factor: Es un valor o condición del factor bajo el cual se observa la
respuesta medible.
Unidad experimental: Es el objeto (persona, animal o cosa) donde se aplica un determinado

tratamiento, para obtener una medición de la variable respuesta.
Error experimental: Es la variación que no se puede atribuir a un cambio de tratamiento; es decir,

la que se produce por los factores extraños que pueden influir en la respuesta y que deben ser
eliminados o controlados por el investigador.
Aleatorización: Consiste en asignar en forma aleatoria los tratamientos a las unidades

experimentales con el propósito de remover los posibles sesgos sistemáticos y neutralizar los
efectos de todos aquellos factores externos que no se encuentran bajo el control del investigador,
pero pueden estar presentes en el experimento.
Nosotros estudiaremos el diseño Completamente Aleatorizado con un solo factor o unifactorial.
Este modelo es apropiado en aquellas situaciones donde se tiene un solo factor o variable
independiente con “c” niveles o tratamientos. En este diseño nos interesa probar las siguientes
hipótesis:
H0: Las medias de las c poblaciones son iguales

H1: No todas las medias de las c poblaciones son iguales
Otra forma de platear las hipótesis es:
H0: μ1 = μ2 = μ3 = …= μc
H1: Alguna de las medias difiere
57
17025:2005
También se puede plantear la hipótesis en función de los efectos de los tratamientos asi:
H0: Los tratamientos no producen efecto

H1: Alguno de los tratamientos produce efecto
H0: 1 = 2 = 3 = …= c
H1: Algún  es diferente
Para probar esta hipótesis se toma una muestra aleatoria de cada una de las c poblaciones y se
examina la cantidad de variación dentro de cada una de estas muestras en relación con la cantidad
de variación entre las muestras.
Si no se rechaza H0 entonces las medias de las c poblaciones son iguales; es decir, no existe
ningún efecto de los tratamientos sobre la variable respuesta.
Para realizar un contraste de hipótesis de este tipo debemos seguir los siguientes pasos:
1) Planteamiento de hipótesis
Se pueden plantear en cualquiera de estas formas
H0: μ1 = μ2 = μ3 = …= μc
H1: Alguna de las medias difiere
H0: Los tratamientos no producen efecto

H1: Alguno de los tratamientos produce efecto
H0: 1 = 2 = 3 = …= c
H1: Algún  es diferente
2) Se realizan los siguientes cálculos para obtener la tabla ANOVA
TRATAMIENTO O NIVELES DEL FACTOR

1 2 … j … C
Y11 Y12 … Y1j … Y1c
Y21 Y22 … Y2j … Y2c
     
Yi1 Yi2 … Yij … Yic
     
Yn11 Yn22 … Ynjj … Yncc
T.1 T.2 … T.j … T.c
n1 n2 … nj … Nc
Y .1 Y .2 … Y. j … Y.c
Donde:
T.j son los totales de los tratamientos

58
17025:2005
nj son los tamaños muestrales

Y. j son las medias muestrales
c
n  nj
j 1
c
T ..   T. j
j 1
 c nj
SCT   Yij   
2 T ..2
 j 1 i 1  n
 c T. j 2  T ..2
SCTr   
 j 1 n 
j  n
SCE  SCT  SCTr

3) Se fija la región crítica
Para un análisis de varianza vamos a considerar las pruebas de cola derecha utilizando
una distribución F con grados de libertad 1  (c  1) y  2  (n  c)
4) Se completa la Tabla ANOVA y se obtiene el estadístico de prueba
TABLA ANOVA
Grados de Suma de Cuadrados
Fuente de Variación Fc
Libertad Cuadrados Medios
SCTr
Tratamientos c-1 SCTr CMTr 
c 1 CMTr
SCE Fc 
Error n-c SCE CME  CME
nc
Total n-1 SCT
5) Se toma la decisión contrastando el estadístico de prueba con el valor crítico

Una vez que se ha completado la tabla y se ha calculado el estadístico de prueba, se
compara el Fc con el Ft.
Si Fc > que Ft rechazo H0, lo que indica que alguna de las medias difiere o que alguno de
los tratamientos está produciendo algún efecto .
59
17025:2005
ANALISIS DE VARIANZA DE DOS VÍAS o DIRECCIONES

(ANOVA 2 VIAS)
En este caso las fórmulas son parecidas a la del ANOVA de una vía pero ahora agregando el
cálculo por renglones adicional al de columnas donde se incluye la variable de bloqueo.
Ejemplo con Minitab o Excel del Texto de Montgomery, Análisis y diseño de experimentos.
Problema 4.1
Un químico quiere probar el efecto de 4 agentes químicos sobre la resistencia de un tipo particular
de tela. Debido a que podría haber variabilidad de un rollo de tela a otro, el químico decide usar un
diseño de bloques aleatorizados, con los rollos de tela considerados como bloques. Selecciona 5
rollos y aplica los 4 agentes químicos de manera aleatoria a cada rollo. A continuación se
presentan las resistencias a la tención resultantes. Analizar los datos de este experimento (utilizar
α=0.05) y sacar las conclusiones apropiadas.
Rollo
Agente
Químico 1 2 3 4 5
1 73 68 74 71 67
2 73 67 75 72 70
3 75 68 78 73 68
4 73 71 75 75 69
Solución
Rollo Y (gran
Yi.
Agente promedio)
Químico 1 2 3 4 5
1 73 68 74 71 67 70.6 71.75
2 73 67 75 72 70 71.4
3 75 68 78 73 68 72.4
4 73 71 75 75 69 72.6
Y.j 73.5 68.5 75.5 72.75 68.5
Yijestimada (FITS)
72.35 67.35 74.35 71.6 67.35
73.15 68.15 75.15 72.4 68.15
74.15 69.15 76.15 73.4 69.15
74.35 69.35 76.35 73.6 69.35
Residuos (Eij)
0.65 0.65 -0.35 -0.6 -0.35
-0.15 -1.15 -0.15 -0.4 1.85
0.85 -1.15 1.85 -0.4 -1.15
-1.35 1.65 -1.35 1.4 -0.35
60
17025:2005
Análisis de varianza de dos factores con una sola muestra

por grupo
RESUMEN Cuenta Suma Promedio Varianza

Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1
Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.916666667
Columna 5 4 274 68.5 1.666666667
Origen de Suma de Grados Promedio F Probabilidad Valor
las cuadrados de de los crítico
variaciones libertad cuadrados para F
Filas 12.95 3 4.31666667 2.376146789 0.12114447 3.4902948
Columnas 157 4 39.25 21.60550459 2.05918E-05 3.2591667
Error 21.8 12 1.81666667
Total 191.75 19
Para el caso de los agentes químicos que son los renglones:
La Ho. No se rechaza debido a que el valor de tablas de f esta en 3.49 y el valor Fc calculado es
de 2.37 por lo tanto no cae en la zona de rechazo.
Calculo del valor P 0.12114447
Por otro lado el valor P = 0.1211 es mayor a 0.05 de alfa por lo tanto confirma el no rechazo.
Para el caso de los rollos que son las columnas:
La Ho. se rechaza debido a que el valor de tablas de f esta en 3.25 y el valor Fc calculado es 21.60
por lo tanto cae en la zona de rechazo.
Calculo del valor P 3.96618E-05
Por otro lado el valor P = 0.00003 es menor a 0.05 de alfa por lo tanto confirma el rechazo.
61
17025:2005
Procedimiento en Excel:
 En el menú herramientas seleccione la opción análisis de datos, en funciones para

análisis seleccione análisis de varianza de dos factores con una sola muestra por grupo.
 En Rango de entrada seleccionar la matriz de datos.
 Alfa = 0.05
 En Rango de salida indicar la celda donde se iniciará la presentación de resultados.
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN Cuenta Suma Promedio Varianza

Fila 1 5 353 70.6 9.3
Fila 2 5 357 71.4 9.3
Fila 3 5 362 72.4 19.3
Fila 4 5 363 72.6 6.8
Columna 1 4 294 73.5 1

Columna 2 4 274 68.5 3
Columna 3 4 302 75.5 3
Columna 4 4 291 72.75 2.92
Columna 5 4 274 68.5 1.67
Grados F
Fuente de Suma de de Cuadrados Fc Probabilidad tablas
variación Cuadrados libertad medios Valor P
Filas 12.95 3 4.32 2.38 0.12 3.49
Columnas 157 4 39.25 21.61 2.06E-05 3.26
Error 21.8 12 1.82
Total 191.75 19
Total 231 24
En la tabla observamos que el estadístico de prueba Fc es menor al valor crítico para F

2.38<3.49, por lo cual no rechazamos al Hipótesis nula H 0. No tenemos evidencia estadística para
afirmar que el agente químico tenga influencia en la respuesta.
Sin embargo observamos que el rollo si tiene influenza significativa en la respuesta (P<0.05).
62
17025:2005
63
17025:2005
ANEXO
FORMULAS DE INTERVALOS DE CONFIANZA
Considerando para la distribución Normal la Tabla del Area entre 0 y z
Intervalos de Confianza para la Media Poblacional
1. Población Desconocida – Desvío poblacional Conocido – n>30

z2   2
    0.5 
IC  x  z  m x z    1    n 2
 0.5 
2 n 0.5 
2 n 2
2. Población Desconocida – Desvío poblacional Desconocido – n>30

z2   S 2
 S  0.5 
 1   
S
IC  x  z   m xz   n 2
1
 0.5 
2 n 1 0.5 
2 n 1   2
3. Población Normal – Desvío poblacional Conocido

z2   2
    0.5 
IC  x  z  m x z    1    n 2
 0.5 
2 n 0.5 
2 n 2
4. Población Normal – Desvío poblacional Desconocido

z2  S2
  0.5 
  1   
S S
IC  x  t n1  m  x  t n1 n 2
1
 1
2 n 1 1
2 n 1 2
Intervalo de Confianza para la Proporción Poblacional

z2  p  1  p 

IC  p  z 
p  1 p 
 p pz 

p  1 p 
  1    n
0.5 

2
 0.5 
2
n 0.5 
2
n  2
Factor de Finitud y Ajuste de Tamaño de Muestra para Población Finita
N n
n
N 1 n 
n 1
1
N
Intervalos de Confianza para la Varianza y el Desvío Poblacional
   
 nS2 nS2   nS2 n S2 
IC  2   2
2
1 IC     1
 X 1 n  1 X  n  1  X 1 n  1
2
X 2 n  1 
 2 2   2 2 
64
17025:2005
Intervalos de Confianza para la Diferencia de Medias Poblacionales
1. Poblaciones Desconocidas – Desvíos Poblacionales Conocidos

  x2  y  x2  y 
   
2 2
IC  x  y  z    m x  m y   x  y  z     1
 0.5  nx n y 0.5  nx n y 
 2 2

2. Poblaciones Desconocidas – Desvíos Poblacionales Desconocidos
 S2 

IC  x  y  z  S x2
 y  mx  my   x  y  z 
S2
nx  1 ny  1
 
S x2
 y   1
nx  1 ny  1 
 0.5 
2
0.5 
2 
3. Poblaciones Normales – Desvíos Poblacionales Conocidos

  x2  y  x2  y 
   
2 2
IC  x  y  z    m x  m y   x  y  z     1
 0.5  nx n y 0.5  nx n y 
 2 2

4. Poblaciones Normales – Desvíos Poblacionales Desconocidos

 1  1 
  n  n  2  nx  S x  n y  S y
  n  S x2  n y  S y2
2 2
IC  x  y  t x y   1   mx  m y   x  y  t n x  n y  2  x   1 
 n  n 
nx  n y  2 nx  n y  2  x n y  


1
2  x ny  1
2
Intervalo de Confianza para la Diferencia de Proporciones Poblacionales


IC  p x  p y  z  
px  1  px

 
py  1  py  
  px  p y   px  p y  z   
px  1  px

 
py  1  py 
 1

 0.5  nx ny 0.5  nx ny 
 2 2

65
17025:2005
FORMULAS DE TEST DE HIPOTESIS

Parám./Distrib. Hipótesis Gráfico Teórico Empírico Acepto Ho
Media Poblacional-  conocido - Población desconocida - n > 30
zt   z  zt ze zt
H 0 : m  m0 H 1 : m  m0 0 .5 
2
x  m
   z  0
x  N  m;  H 0 : m  m0 H1 : m  m0 z t  z 0 .5  e
 ze  zt
 n
n
H0 : m  m0 H1 : m  m0 zt   z0.5  z e  z t
Media Poblacional-  desconocido - Población desconocida - n > 30
H 0 : m  m0 H 1 : m  m0 zt   z
0 .5 
 zt ze zt
2
x  m
z  0

x  N  m;
S 

H 0 : m  m0 H1 : m  m0 z t  z 0 .5  e
S ze  zt
 n 1 
n  1
H0 : m  m0 H1 : m  m0
zt   z0.5  z e  z t
Media Poblacional-  conocido - Población Normal

H 0 : m  m0 H 1 : m  m0 zt   z
0 .5 
x  m
2
H 0 : m  m0 H1 : m  m0 z t  z 0 .5  z  0
ze  zt

x  N  m;
 

e

 n
n
zt   z0.5  z e  z t
H0 : m  m0 H1 : m  m0
Poblacional-  desconocido - Población

H 0Media
:m  m0 H 1 : m  m0 t t   t  n Normal
1

tt te tt
1
2
xm x  m
t t  t 1 n  1 
H 0 : m  m0 H1 : m  m0
 t n  1 t e  te  tt
S S
n 1 n  1
t t   t 1 n 1  t e  t t
H0 : m  m0 H1 : m  m0
H 0 : p  p0  p0
H 1 : pProporción zt   z
Poblacional
0 .5 
2
H 0 : p  p0 H 1 : p  p0
 p  1  p   z t  z 0 .5  p  p0 ze  zt
p  N  p;  ze 
n  p 0  1  p 0 
 
zt   z0.5  n z e  z t
H 0 : p  p0 H1 : p  p0
Varianza Poblacional
X 12  X 2 n  1 X 12  X e  X 22
H0 :   
2 2
0 H1 :    02
2
2
X 222  X 22  n  1 n  S 2
X t  X 112 n  1 X 2


e 2
H 0 :  2   02 H1 :  2   02 0
n S 2
 X 2 n  1 H 0 :  2   02 H1 :  2   02 X  X 2
2
e t
Xt2  X2n 1  X 2

X e t
En el caso de distribución normal, si se desea trabajar con función de distribución en lugar de utilizar la
tabla de probabilidad acumulada entre 0 y z. Reemplace z  por z  y z 0.5 por z1
0.5  1
2 2
66
17025:2005
Diferencia de Medias Poblacionales -  conocidos - Poblaciones desconocidas - nx > 30 y ny >30

zt   z
H0 : mx  my  k H1 : mx  my  k 0.5 
x  y  m 
2
 my
  x2  y2   x
x  y  N  m x  m y ; 
H 0 : mx  my  k H1 : mx  m y  k z t  z 0.5 ze
 x2  2 ze  zt
nx ny   y
  nx ny
H 0 : mx  my  k H1 : mx  m y  k zt   z0.5 z e  z t
Diferencia de Medias Poblacionales -  desconocidos - Poblaciones desconocidas - nx > 30 y ny >30
zt   z
H0 : mx  my  k H1 : mx  my  k  zt ze zt
x  y  m
0.5 
 my
2
ze 
x
 S y2 

x  y  N mx  my ;
S x2

H 0 : mx  my  k H1 : mx  m y  k z t  z 0.5 S x2 Sy 2
ze  zt
nx 1 ny 1  
  nx  1 ny 1
Diferencia de Medias Poblacionales -  conocidos - Poblaciones Normales
zt   z
H0 : mx  my  k H1 : mx  my  k 0.5 
x  y  m 
2
 my
  x2  y2   x

x  y  N mx  my ; 
H 0 : mx  my  k H1 : mx  m y  k z t  z 0.5 ze
 x2  2 ze  zt
nx ny   y
  nx ny
Diferencia de Medias Poblacionales -  desconocidos e iguales - Poblaciones Normales
n x  n y  2 
H0 : mx  my  k H1 : mx  my  k tt   t  tt te tt
x  y m  m 
1
2
x  y m  my 
 t nx  n y  2 n  n  2  te 
x y
te  tt
x
H 0 : mx  my  k H1 : mx  m y  k tt t 1x y nx  Sx2  ny  S 2y  1 1 
nx  S x  n y  S y  1 1   
2 2
 
nx  n y  2  nx n y  nx  ny  2  nx ny 
n n 2
H 0 : mx  my  k H1 : mx  m y  k
tt   t1x y t e  t t
Comparación de Varianzas Poblacionales
F1  F nx 1; ny 1
nx  S
2
F1 Fe F2
x
n x  S x2
2
 H0 ::  x2   y2 H1 :  x2   2y
F2 F  nx 1; ny 1
2
x
nx  1 nx 1
 F n x  1; n y  1
1
2
Fe
ny  S y n y  S y2
2
H0 ::  2
 2
H1 :  2
 2
Ft F  nx 1; ny 1 Fe  Ft
 y2 x y x y 1
ny 1
ny  1 Ft F nx 1;ny 1
H0 ::  x2   2y H1 :  x2   y2 Fe  Ft
Diferencia de Proporciones Poblacionales
H0 : p x  p y  k H1 : p x  p y  k zt   z0.5  z ze zt

p  p p  p  t

2
p 1 px  py 1 py  H : p  p  k H : p  p  k

x y x y
 ze 
px  py  N px  py; x
 nx

ny 
0 x y 1 x y z t  z 0.5
1 p  p  
p  1 p  z e
 zt
  x
 x y y
H0 : p x  p y  k H1 : px  p y  k zt   z0.5 nx ny
z e  z t
En el caso de distribución normal, si se desea trabajar con función de distribución en lugar de utilizar la
tabla de probabilidad acumulada entre 0 y z. Reemplace z  por z  y z 0.5 por z1
0.5  1
2 2
67
17025:2005
En el caso de diferencia de medias – poblaciones normales - con desvíos poblacionales desconocidos

la fórmula expuesta es válida siempre y cuando los desvíos poblacionales sean iguales o pueda
probarse que lo son mediante un test de comparación de varianzas.
68
17025:2005
FÓRMULAS – PRUEBAS ANOVA

1. ANOVA CLÁSICO
gl SC CM Fe Ft
Q1 SCT
Ft  F1 r  1, n  r 
r
Ti 2 SCT Q r 1 r 1
SCT  
r- CMT
Tratamiento  CM CMT   1  
1 i 1 n i r 1 r 1 Q2 SCE CME
nr nr
n- SCE Q
Error SCE = SCTotal- CME   2
r
SCT nr nr
ni
T2 r r
Total
n- SCTotal  n X 2  CM
 i CM  siendo n   ni Ti   X ij T   Ti
1 i 1 n i 1 j 1 i 1
 CME CME 
IC  X i  t   mi  X i  t    1
 ni 
1 ni 1
2 2
 1  1 
IC ( X i  X j )  t 
 1
 CME    1   mi  m j  ( X i  X j )  t 
n n  1
 CME    1    1
 n n 
 2  i j  2  i j 

2. ANOVA BLOQUES ALEATORIZADOS
gl SC CM Fe Ft
r SCT
Tratamientos r-1 T
j 1
J
2
CMT 
SCT r 1 
CMT
Ft  F1 r  1, n  r  b  1
 CM r 1 SCE CME
b n  r  b 1
b SCB
Bloques b-1 B i
2
CMB 
SCB b 1 
CMB
Ft  F1 b  1, n  r  b  1
i 1
 CM b 1 SCE CME
r n  r  b 1
n- SCE
Errores b- SCTotal  SCT  SCB CME 
r+1 n  r  b 1
r b b r b r
Totales n-1  X ij2  CM CM 
T2 T   Bi   T j   X ij
j 1 i 1 n i 1 j 1 i 1 j 1
Intervalo de Confianza para la Diferencia de Medias de Tratamientos

  2 
IC ( X i  X j )  t   CME  2
   mi  m j  ( X i  X j )  t   CME     1

1
2 b 1
2  b  
Intervalo de Confianza para la Diferencia de Medias de Bloques
69
17025:2005
  2 
IC ( X i  X j )  t   CME  2
   mi  m j  ( X i  X j )  t   CME     1
 1
2 r 1
2  r  
b  1CMB  br  1CME

Coeficiente de Eficiencia Relativa: ER 
n  1CME
3. ANOVA DOS CRITERIOS DE CLASIFICACIÓN CON REPLICAS
gl SC CM Fe Ft
Fuente
a SCA
a-1 A i
2
SCA a  1  CMA
Ft  F1 a  1, abr  1
A i 1
 CM a 1 SCE CME
br abr  1
b SCB
B b-1 B
j 1
2
j SCB b  1  CMB
Ft  F1 b  1, abr  1
 CM b 1 SCE CME
ar abr  1
SCI
(a- a b  AB ij2 SCI a  1b  1  CMI
Ft  F1 a  1b  1, abr  1
AB
interac.
1)(b-  r
 SCA  SCB  CM
a  1b  1 SCE CME
1) i 1 j 1
abr  1
ab(r- SCE
Error SCTotal - SCA – SCB – SCI
1) abr  1
a b r
T2 a b r
Total
abr- SCTotal   X ijk2  CM CM  T   X ijk
1 i 1 j 1 k 1 n i 1 j 1 k 1
Intervalo de Confianza para la Media de un Tratamiento
  CME   CME  
IC  X ij  t     mij  X ij  t     1
2 

1 r  1
2 
r  
Intervalos de Confianza para la Diferencia entre las Medias de dos Tratamientos
  2 
IC ( X ij  X lj )  t   CME  2
   mij  mlj  ( X ij  X lj )  t   CME     1

1
2 r 1
2  r  
  2 
IC ( X ij  X il )  t   CME  2
   mij  mil  ( X ij  X il )  t   CME     1

1
2 r 1
2  r  
70
17025:2005
FORMULAS MATRICIALES DEL MODELO DE REGRESION LINEAL MÚLTIPLE
Bˆ   X X   X Y 
1
Recta de regresión muestral
 Y 
 n

X 1 X 2  X k
  
  X1   X 1Y 

X 1
2
X X 1 2  X X1 k

  
 X X    X 2
 X X X 2
 X X   X Y    X 2Y 

1 2 2 2 k
  
         
   
 X 2   X Y
 k X X X1 k 2 Xk   Xk   k 
(k  1)  (k  1) (k  1)  1
 
 X X 1  Adj  X X 
X X
Varianza Estimada de los Residuos – Matriz de Varianzas y Covarianzas Estimada

uˆ uˆ
VAˆ RBˆ   ˆ 2  X X 
1
ˆ 2 
n  k 1
Variabilidad Total – Variabilidad Explicada – Variabilidad no Explicada
 Y  Y     Y  Yˆ 
n n n
  Yî  Y
2 2 2
VT ( SCT )  VE ( SCE )  VNE ( SCR) i i i
i 1 i 1 i 1
VNE (SCR)  Uˆ Uˆ  Y Y  Bˆ  X Y  VE (SCE )  Bˆ  X Y   nY

2 2
VT (SCT )  Y Y  nY
Coeficiente de Determinación y Coeficiente de Determinación Ajustado
71
17025:2005
VE ( SCE ) VNE ( SCR)

R2   1
VT ( SCT ) VT ( SCT )
VNE ( SCR)
n  1 VNE ( SCR) n 1
R  1  n  k 1  1   1  R ² 
2
  1
VT ( SCT ) n  k  1 VT ( SCT ) n  k 1
n 1
Coeficientes de Correlación Simple, Múltiple y Parcial
n
 n   n 
n Yi X i    Yi     X i  COV  X , Y 
R   R2 
ry ; x  y ; x  
i 1  i 1   i 1 
 XY
 n 2  n    n 2  n  
2 2
n X i    X i    n Yi    Yi  
 i 1  i 1    i 1  i 1  
rX i ; X j  rX i ; X k  rX j ; X k
rX i ; X j  X k 
1  r ² Xi ;Xk  1  r ² X j ;Xk 
Intervalo de Confianza para los Parámetros de la Regresión

1
 
1

IC bî  t  n  k  1ˆ bî  bi  bî  t  n  k  1ˆ bî   
 2 2 
Test de Significación Parcial
H 0 : bi  0 H 1 : bi  0 Te 
bˆ  b  Tt   t n  k  1
ˆ bˆ 
i i

1
2
bˆ  b 
i
H 0 : bi  0 H 1 : bi  0 T  Tt  t1 n  k  1
ˆ bˆ 
i i
e
bˆ  b 
i
H 0 : bi  0 H 1 : bi  0 T  Tt   t1 n  k  1
ˆ bˆ 
i i
e
i
Intervalo de Predicción
72
17025:2005

1 1

IC Yˆ  t  n  k  1ˆ Yˆ   Y  Yˆ  t  n  k  1ˆ Yˆ   
ˆ Yˆ  ˆ u2 1  X f  X X 1 X f 
 2 2 
 1 
 
 x1;0 
 
 x2;0 
Xf   
 x3;0 
 
  
 
x 
 k ;0 
Test de Significación Global H 0 : b1  b2    bk  0 H 1 :  bi  0

H0 : R2  0 H1 : R 2  0
Variabilidad g.l. SC CM Fe Ft
 yˆ 
Debida a la n
2 SCE
regresión k i y SCE
k CME
Ft  F1 k , n  k  1
(SCE) i 1 k
Fe  
n SCR CMR
 y  yˆ i 
Debida a los 2 SCR
residuos n-k-1
i 1
i
n  k 1 n  k 1
(SCR)
Otra forma de calcular:
R2
 y 
n
2
Total (SCT) n-1 i y Fe  k
i 1 1 R2
n  k 1
73
Diplomado: ESTUDIO EN GESTIÓN DE LA CALIDAD EN LABORATORIOS DE ENSAYO ISO/IEC 17025:2005
PRUEBAS NO PARAMETRICAS
PRUEBA DE LOS SIGNOS
Contra Distinto Contra Mayor Contra Menor
  0.5 0.5  0.5 0.5

Muestras Probab. Si n+ < n/2 n n
P  P( X  n )  
n x
P  P( X  n )  n x n x n x
 0.5 0.5
Chicas n x
P  2 P( X  n  )  2
x
n x n x x  n x 0
P x
x 0
Si n+ > n/2
 0.5 0.5
n
P  2 P( X  n  )  2  n
x
x n x
x  n
Acepto H0
Muestras Empírico  p  1  p    0.5  0.5  n
Grandes p  N  p;   N  0.5;
 


p
 n   n  n
Ze 
p p

p  0.5 Otra forma de construcción: Z e  n   E ( X )  n   n  0.5
p  1  p  0.5  0.5  (X ) n  0.5  0.5
n n
Teórico
Z t  Z Z t  Z 0.5 Z t  Z 0.5

0.5 
2
Acepto H0  Zt  Z e  Zt Z e  Zt Z e  Zt
TABLAS DE CONTINGENCIAS
Empírico Teórico Acepto H0

r nnij  ñij 2  
2 2
r 1 n 1  e2   t2
 e2  
t 1
i 1 j 1 ñij
109
n A n A  1 n B n B  1
PRUEBA DE U-MANN WHITNEY U A  n A nB   RA U B  n A nB   RB
2 2
H 1 : m A  mB H 1 : m A  mB ó H 1 : mB  m A H 1 : m A  mB ó
H 1 : mB  m A
Muestras Empírico Ue=Menor (UA;UB) Ue=UA Ue=UB
Chicas Teórico U t  U  (n A ; n B ) U t  U  (n A ; n B ) U t  U  (n A ; n B )
Acepto H0 Ue  Ut Ue  Ut Ue  Ut
Muestras Empírico n n n n n  n B  1  U  E (U )
Grandes U  N E U ,  U   N  A B , A B A  Ze 
nA >10  2 12   (U )
nB > 10 El valor de U a reemplazar en el Z empírico dependerá del tipo de ensayo
U= UA ó U=UB U=UA U=UB U=UA U=UB
Teórico Z t  Z 0.5 Zt  Z0.5 Zt  Z0.5 Z t  Z 0.5

Z t  Z 
0.5 
2
Acepto H0  Zt  Z e  Zt Z e  Zt Z e  Zt Z e  Zt Z e  Zt
PRUEBA DE KOLMOGOROV-SMIRNOV

Dn  máx Fe xi   F0 xi  Dt  D(n; ) De  Dt
PRUEBA DE BONDAD DE AJUSTE

r nnij  ñij 2  
2 2
r  k  1  e2   t2
 e2  
t 1
i 1 j 1 ñij
110
PRUEBA H DE KRUSKAL-WALLIS
Cuando no existen empates    t2   12 (r  1) H   t2
r 2 r
Ri
  3n  1 n   ni
12
H 
nn  1  i 1 ni  i 1
Cuando existen empates 12  Ri   t2   12 (r  1) H   t2

r 2
   3n  1
nn  1  i 1 ni  Factor Corrección: 1  T
Hc  donde T  t 3  t
T n3  n
1 3
n n
PRUEBA DE CORRELACION DE RANGOS DE SPEARMAN

Muestras Empírico n
Chicas 6  d i
2
rˆs  1  i 1
d i  X i  Yi

n  n 2 1 
Teórico r1  r (n; ) r2  r (n; ) r1  r (n;2 ) r1  r (n;2 )
Acepto H0 r1  rˆs  r2 rˆs  r1 rˆs  r1
Muestras Empírico n
Grandes rˆs  0 6   d i2
Ze  rˆs  1  i 1
n >30
1 
n  n 2 1 
n 1
Teórico
Z t  Z Z t  Z 0.5 Z t  Z 0.5

0.5 
2
Acepto H0  Zt  Z e  Zt Z e  Zt Z e  Zt
111
Diplomado: Estudio en Gestión de la calidad en Laboratorios de Ensayo y/o Calibración ISO/IEC
17025:2005
PRUEBA DE CORRIDAS O RACHAS
Contra Distinto Contra Menor

Muestras Empírico Cantidad de rachas ( r )
Chicas
Teórico  
r1  r  n1; n2 ; 
 
r2  r  n1; n2 ;1   rt  r n1; n2 ; 
 2  2
Acepto H0 r1  r  r2 r  rt
Muestras Empírico r  ur 2n1 n 2 2n1 n 2 2n1 n 2  n 
Grandes Z  N 0;1 donde u r  1 y r 
n >20
r n n 2 n  1
Teórico
Z t  Z Z t  Z 0.5

0.5 
2
Acepto H0  Zt  Z e  Zt Z e  Zt
INSTITUTO PARA LA CALIDAD © 2014 –Prohibida su reproducción total o parcial sin permiso del
autor del Instituto para la calidad de la pontificia Universidad Católica del Perú
112
Diplomado: Estudio en Gestión de la calidad en Laboratorios de Ensayo y/o Calibración ISO/IEC
17025:2005
TABLA DE LA DISTRIBUCION tStudent
c  t1, r
La tabla da áreas 1   y valores , donde, P[T  c]  1   , y donde T tiene
distribución t-Student con r grados de libertad..
1
r 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925
3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
INSTITUTO PARA LA CALIDAD © 2014 –Prohibida su reproducción total o parcial sin permiso del
autor del Instituto para la calidad de la pontificia Universidad Católica del Perú
113

Material Bibliografico Curso Principios de Estadistica PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Material Bibliografico Curso Principios de Estadistica PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Diplomado: ESTUDIO EN GESTIÓN DE LA CALIDAD EN LABORATORIOS DE ENSAYO ISO/IEC

Si buscamos en el Diccionario de la Real Academia Española de la Lengua (DRAE) el vocablo

1. Estudio de los datos cuantitativos de la población, de los recursos naturales e industriales,

2. Conjunto de estos datos.

En Estadística se estudian fenómenos aleatorios, que son aquellos cuyo resultado no es

 Población: es el conjunto de todos los elementos a los que se somete a un estudio

 Individuo: es cada uno de los elementos que componen la población.

 Muestra: es un conjunto representativo de la población de referencia, el número de

 Muestreo: es la reunión de datos que se desea estudiar, obtenidos de una proporción

Las variables estadísticas pueden ser cualitativas y cuantitativas.

Las variables cualitativas pueden ser:

Las variables cuantitativas pueden ser:

5. TIPOS DE REPRESENTACIONES ESTADÍSTICAS

 Distribución de frecuencias: La distribución de frecuencias o tabla de frecuencias es

 Diagrama de barras: Un diagrama de barras se utiliza para de presentar datos

Son representaciones aplicables a tablas de frecuencias de datos en agrupamiento

Se muestran diagramas de barras de la variable Grado de afección y de la variable

diagrama de barras Diagrama de barras

 Polígonos de frecuencias: Un polígono de frecuencias se forma uniendo los extremos

Aplicables a variables numéricas, aunque también se pueden trazar sobre cualitativas

 Histograma. Un histograma es una representación gráfica de una variable en forma de

Aplicables a tablas de frecuencias de datos agrupados en clases. Consiste en llevar sobre

A continuación se muestran histogramas de la variable Diámetro.

Histograma de frecuencias Histograma de frecuencias acumuladas

acumulada por unidad de

 Diagramas de sectores o de tarta:

6. DEFINICION DE PARAMETRO ESTADISTICO

7. TIPOS DE PARAMETROS ESTADISTICOS

MEDIDAS DE POSICIÓN CENTRAL

La moda puede no ser única, y hablamos de distribuciones de frecuencias bimodales, trimodales,

Si el número de datos N es impar la mediana se calcula de modo inmediato, si el número de datos

Datos ordenados Mediana

Nº de ramas primarias 0 0 1 1 1 2 2 2 3 4 1.5

Para 10 datos, N/2=5

Intervalo mediano: el 2º, pues es el primero en que se supera la cantidad 5 en la columna

La media de la variable Nº de ramas primarias es:

0  0  1  1  1  2  2  2  3  4 0* 2  1*3  2*3  3*1  4*1 16

esta última calculada a partir de la tabla de frecuencias es:

2.85*3  3.55*3  4.25*3  4.95*1 8.55  10.65  12.75  4.95 36.9

Medidas de Posición no central

Si se divide la lista de datos ordenados correspondiente a la variable Nº de ramas primarias por el

Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4

La mediana de la primera mitad es el dato (5+1)/2 = 3º, por tanto

aquí se considera que el intervalo que contiene al primer cuartil es el j-ésimo.

3.2  2.5 0.7

Segundo cuartil: Q2 es la mediana.

Respecto de la variable Nº de ramas primarias, la mediana de la segunda mitad es el dato

Nº de ramas primarias 0 0 1 1 1 mediana 2 2 2 3 4

mientras que de los datos originales como si fuesen discretos, Q3=4.3

p25 = Q1; p50 = Q2 = me ; p75 = Q3

Si se desea calcular el percentil p

Para la variable Nº de ramas primarias, el cálculo de la varianza es:

Tratándolos como datos y frecuencias:

y por la fórmula reducida:

Desviación típica, es la raíz cuadrada positiva de la varianza,

La desviación típica de la variable Nº de ramas primarias es : s  1.44  1.2

De modo similar a la desviación típica, se define:

Cuasi desviación típica: s  s2

y la cuasidesviación típica: s  s 2  1.6  1.265

No obstante, la presencia de los posibles outliers ha intervenido en el cálculo de la media y de la

xi es un outlier por defecto, si: Q1  xi  1.5RI

xi es un outlier por exceso, si: xi  Q3  1.5RI

Medidas de asimetría y de forma:

0  0  1  1  1  2  2  2  3  4 0* 2  13  23  31  41 16

2.853  3.553  4.253  4.951 8.55  10.65  12.75  4.95 36.9