Você está na página 1de 17

DISTRIBUCIÓN NORMAL, PRUEBA DE

NORMALIDAD Y TRANSFORMACIÓN
DE DATOS

Página 1 de 17
CONTENIDO

1. Distribución normal

2. Estandarización de valores

3. Prueba de normalidad

4. Transformación de datos

5. Ajuste de datos con otras distribuciones de probabilidad

Página 2 de 17
LA DISTRIBUCIÓN NORMAL, PRUEBA DE
NORMALIDAD, TRANSFORMACIÓN Y AJUSTE DE DATOS

1. DISTRIBUCIÓN NORMAL
Un proceso opera en condiciones normales, si tiene los materiales dentro de de
especificaciones y del mismo lote, un método consistente, un medio ambiente
adecuado, el operador capacitado, y el equipo ajustado correctamente, si se
toman mediciones en alguna característica del producto, mostrará el siguiente
comportamiento:

Distribuci ón
– La

Fig. 1 Construcción de la distribución normal LAS PIEZAS VA


La distribución normal es una de las distribuciones más usadas e importantes.
Se ha desenvuelto como una herramienta indispensable en cualquier rama de
la ciencia, la industria y el comercio.

Muchos eventos reales y naturales tienen una distribución de frecuencias cuya


TAMA
forma es muy parecida a la distribución ÑO
normal. La distribución normal es TAMA
llamada también campana de Gauss por su forma acampanada.
Pero ellas forman un patr ón, ta

Página 3 de 17 SIZE
Cuando se incluyen todos los datos de un proceso o población, sus parámetros
se indican con letras griegas, tales como: promedio o media = µ (mu), y
desviación estándar (indicador de la dispersión de los datos) = σ (sigma).

Para el caso de estadísticos de una muestra se tiene media = X y desv. est.= s.

Propiedades de la distribución normal estándar

• La distribución normal estándar tiene media µ = 0 y desviación estándar σ


=1. La media, Mediana y Moda coinciden, son iguales y se localizan en el
pico.

Fig. 2 Propiedades de la distribución normal

• El área bajo la curva o probabilidad de menos infinito a más infinito vale 1.


• La distribución normal es simétrica, la mitad de curva tiene un área de 0.5.
• La escala horizontal de la curva se mide en desviaciones estándar.
• La forma y la posición de una distribución normal dependen de los
parámetros µ , σ , por lo que hay un número infinito de distribuciones

x-3σ
normales.
x-2σ x-σ

-3 -2
Página 4 de 17
-1
C
Cuu
rvaa
rvssNNoormrm aalesscc
le
DDee
ssvvia cc
ia ionn
io ee
s

Límite inferior de especs. Límite superior de especificaciones


Fig. 3 Distribuciones normales con varias desv. estándar

Noo
N rm
rmaa
le
l
D
Dee
ss
vv
iacc
iaionn
io ee
sse

LIE LSE
Fig. 4 Distribuciones normales con varias medias y
desviaciones estándar

Página 5 de 17
Existe una relación del porcentaje de probabilidad o área bajo la curva normal
a la desviación estándar. En la figura observamos por ejemplo que el área bajo
la curva para ±1σ tiene un porcentaje de 68.26%, ± 2σ = 95.46% y
± 3σ = 99.73% .

-3s -2s -1s +1s +2s +3s

68.26%
95.46%

99.73%
Fig. 5 Área bajo la curva de Distribución normal

Lo anterior se puede calcular con la Tabla de distribución normal o con Excel


(Fx =distr.norm.estand(Z) proporciona el área desde menos infinito hasta Z).

En la tabla normal, se busca el valor de Z y se encuentra el área bajo la curva.

La primera tabla sirve para determinar el área o probabilidad que se encuentra


fuera de los límites de especificaciones. La segunda tabla proporciona valores
de área bajo la curva para Z’s mayores a cero. En cada una se muestran
ejemplos de su uso.

Página 6 de 17
Página 7 de 17
Ejemplo 1
a) Determinar el área bajo la curva de menos infinito a Z = - 1.
P(Z<= -1) = 0.1587

b) Determinar el área bajo la curva de menos infinito a Z = - 2.


P(Z<= - 2) = 0.0228
c) Determinar el área bajo la curva entre Z >= -2. hasta Z <= -1
P(- 2 <= Z<= -1) = 0.1259

Página 8 de 17
Página 9 de 17
Ejemplo 2
a) Determinar el área bajo la curva de menos infinito a Z = 1.
P(Z <= 1) = 0.8413

b) Determinar el área bajo la curva de menos infinito a Z = 2.


P(Z <= 2) = 0.9772 8
c) Determinar el área bajo la curva de menos Z = 1 a Z = 2
P(1 <= Z <= 2) = 0.9772 – 0.8413 = 0.1369

Página 10 de 17
EJERCICIO 1:
¿Qué porcentaje del área bajo la curva normal estándar o probabilidad está
incluido dentro de los siguientes rangos?
a) P(1.2 <= Z <= 2.2) = P(Z <= 2.2) – P(Z <= 1.2) =
b) P(-2.1 <= Z <= -0.4) = P(Z <= - 0.4) – P(Z <= -2.1) =
c) P( -1.3 <= Z <= 2.7) = P(Z <= 2.7) – P(Z <= -1.3) =
d) P( Z >= 2.4) = P(Z <= -2.4) =
e) P( Z<=-2.9) + P(Z>= 3.1) = P(Z <= -2.9) + P(Z <= -3.1) =
f) P(Z>= 1.9) = P(Z <= -1.9) =

2. Estandarización de valores reales


En la práctica, se tienen valores reales de promedio diferentes de cero y con
desviación estándar diferentes de uno, para determinar la probabilidad o área
bajo la curva, se determina el número de desviaciones estándar Z σ entre
algún valor X y la media de la población µ o de la muestra X como sigue:

X −µ
Z= sí se consideran los datos completos del proceso.
σ

X −X
Z= sí se consideran sólo los datos de una muestra.
s

Ejemplo 3 El departamento de personal de una empresa requiere que los


solicitantes a un puesto en cierta prueba alcancen una calificación de 500. Si
las calificaciones de la prueba se distribuyen normalmente con media µ = 485
y desviación estándar σ = 30 ¿Qué porcentaje de los solicitantes pasará la
prueba?

Calculando el valor de Z obtenemos:


X − µ 500 − 485
Z = = = 0.5
σ 30
Buscamos el valor correspondiente Z en las tablas de distribución normal
estándar o por medio de Excel =distr.norm.estand(0.5). Z0.5 = 0.69146 =

Página 11 de 17
69.146%. donde la probabilidad de que la calificación sea menor a 500 es P (X
<= 500). Dado que el porcentaje pedido es P( X ≥ 500 ) la solución es 1-
0.69146 =0.3085, por tanto sólo 30.85% de los participantes pasarán la prueba.
Otra forma es tomando la Z como negativa con P(Z <= -0.5) = 0.3085.

4 8 5

3 0 . 8 5 %

Z 0. 5
Fig. 6 Área bajo la curva de Distribución normal

Ejemplo 1.4 Suponga que un proceso tiene una distribución normal dada tiene
una media de 20 y una desviación estándar de 4. Calcule la probabilidad
P (X >=24) = 1 – P(X <= 24) =

En la barra de herramientas seleccione el icono de funciones


fx>Estadísticas>Distr.Norm.Estand. OK. El sistema muestra la siguiente
ventana, en la cual llenamos los siguientes datos:

Fig. 7 Cálculo del área bajo la curva normal sin requerir Z

El resultado de la fórmula = 0.8413. , dado que esta es la probabilidad P(X ≤


24), la probabilidad buscada es: P(X > 24) = 1 - 0.8413= 0.1587

Página 12 de 17
EJERCICIO 2:

Un producto tiene un peso promedio de 75 Kgs. con una desviación estándar


de 10Kgs.

a) ¿Cuál es la probabilidad de que un producto pese más de 85Kgs.?


b) ¿Cuál es la probabilidad de que un producto pese menos de 55Kgs.?
c) ¿Cuál es la probabilidad de que el producto pese entre 60 y 80 Kgs.?.
d) ¿Cuál es la probabilidad de que el producto pese entre 55 y 70 Kgs.?
e) ¿Cuál es la probabilidad de que el producto pese entre 85 y 100Kgs.?

3. PRUEBA DE NORMALIDAD
Para probar normalidad de datos, se pueden utilizar los métodos de Anderson
Darling o Ryan, y la gráfica de probabilidad normal.

a) En el método de Anderson Darling o Ryan Joiner, si el valor de probabilidad


P de la prueba es mayor a 0.05, se considera que los datos son normales.
Seguir los siguientes pasos:

Generar 100 datos aleatorios en Minitab con Media = 264.6 y Desviación


estándar S = 32.02 con:
1. Calc > Random data > Normal
2. Generate 100 Store in columns C1 Mean 264.06 Estandar deviation 32.02
OK

Nos aseguramos que los datos se distribuyan normalmente con la prueba de


Anderson Darling o Ryanjoiner como sigue:

1. Stat > Basic statistics > Normality Test


2. Variable C1 Seleccionar Ryan Joiner test OK

El P value debe ser mayor a 0.05 para que los datos se distribuyan
normalmente

Página 13 de 17
Probability Plot of Datos
Normal
99.9
Mean 269.3
StDev 30.72
99
N 100
RJ 0.994
95 P-Value >0.100
90
80
70
Percent

60
50
40
30
20
10
5

0.1
150 200 250 300 350
Datos

Fig. 8 Gráfica de probabilidad de un proceso normal

b) Otra opción por medio de una gráfica de probabilidad normal, se tiene:


3. Graph > Probability plot > Normal
4. Graph Variable C1
5. Distribution Normal OK
Los puntos deben quedar dentro del intervalo de confianza para indicar que es
normal la distribución.

Probability Plot of Datos


Normal - 95% CI
99.9
Mean 269.3
StDev 30.72
99
N 100
AD 0.317
95 P-Value 0.533
90
80
70
Percent

60
50
40
30
20
10
5

0.1
150 200 250 300 350 400
Datos

Fig. 9 Gráfica de probabilidad normal con Int.de confianza

Página 14 de 17
4. TRANSFORMACIÓN DE DATOS
Si los datos no son normales, se pueden tratar de transformar con alguna
función para normalizarlos utilizando el Método de Box Cox, que encuentra un
exponente lamda al que se deben elevar los datos:

Por ejemplo los datos del archivo Tiles.Mtw de Minitab:

Probability Plot of Torcedura


Normal
99.9
Mean 2.923
StDev 1.786
99 N 100
AD 1.028
95 P-Value 0.010
90
80
70
Percent

60
50
40
30
20
10
5

0.1
-4 -2 0 2 4 6 8 10
Torcedura
Fig. 10 Gráfica de probabilidad de un proceso no normal

Para tratar de normalizarlos con el Método de Box Cox se tiene:

1. File > Open worksheet Tiles.mtw

2. Stat > Control Charts > Box Cox transformation

3. All observations in a column Torcedura (Warpness) Subgroup size 1

4. Options: Store transformed data in: TorceduraTransf

5. OK

Si no se encuentra un intervalo de confianza (rayas rojas), indica que los datos


no son transformables por este método.

Página 15 de 17
Box-Cox Plot of Torcedura
Lower CL Upper CL
Lambda
20
(using 95.0% confidence)
Estimate 0.345504

Lower CL 0.052120
15 Upper CL 0.642093

Best Value 0.500000


StDev

10

Limit
0
-2 -1 0 1 2 3 4 5
Lambda
Fig. 11 Determinación del exponente Lambda de Box Cox

Aquí indica que para normalizar los datos, se deben elevar a la 0.5 (raíz
cuadrada), al probar la normalidad de los datos transformados se tiene:

Probability Plot of TorceduraTransf


Normal
99.9
Mean 1.624
StDev 0.5380
99 N 100
AD 0.301
95 P-Value 0.574
90
80
70
Percent

60
50
40
30
20
10
5

0.1
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
TorceduraTransf
Fig. 12 Gráfica de probabilidad del proceso normalizado

5. AJUSTE DE DATOS CON OTRAS DISTRIBUCIONES DE


PROB.

Si los datos no son transformables, se puede identificar una función a la que se


ajusten los datos, para que con esta se determine la capacidad del proceso:

1. File > Open worksheet Tiles.mtw

Página 16 de 17
2. Stat > Reliability / Survival > Distribution Analysis (right sensoring) >
Distribution ID Plot
3. Variables Torcedura
4. Seleccionar Use all distributions
5. OK
Los resultados se muestran a continuación, se indica el valor del coeficiente de
correlación, se puede seleccionar la distribución que tenga el mayor, o el
menor valor de Anderson Darling:

Goodness-of-Fit
Anderson-Darling Correlation
Distribution (adj) Coefficient
Weibull 0.379 0.994
Lognormal 1.566 0.978
Exponential 11.735 *
Loglogistic 1.852 0.974
3-Parameter Weibull 0.400 0.997
3-Parameter Lognormal 0.515 0.994
2-Parameter Exponential 7.325 *
3-Parameter Loglogistic 0.944 0.985
Smallest Extreme Value 7.609 0.909
Normal 1.170 0.978
Logistic 1.330 0.973

Las gráficas resultantes son:


Probability Plot for Torcedura
LSXY Estimates-Complete Data
Correlation Coefficient
Weibull Lognormal
Weibull
99.9 99.9
0.994
90 99 Lognormal
50 90 0.978
Exponential
Percent

Percent

10 50 *
Loglogistic
1 10 0.974

1
0.1 0.1
0.1 1.0 10.0 0.1 1.0 10.0
Torcedura Torcedura

Exponential Loglogistic
99.9 99.9
90
99
50
90
Percent

Percent

10 50

10
1
1

0.1 0.1
0.001 0.010 0.100 1.000 10.000 0.1 1.0 10.0 100.0
Torcedura Torcedura
Fig. 13 Gráficas de varias distribuciones de probabilidad

Página 17 de 17

Você também pode gostar