Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTADSTICA DESCRIPTIVA
Conceptos Bsicos
Poblacin
Una poblacin la podemos definir como un conjunto de elementos acotados en un tiempo y
en un espacio determinados, ligados entre s por una caracterstica comn observable y/o
medible. Por ejemplo: las plantas de durazno de un monte frutal que en el mes de setiembre
estn en flor, etc.
2
Estadstica Descriptiva
_____________________________________________________________________________________________
Tamao poblacional
Si la poblacin es finita diremos que el tamao poblacional es el nmero de elementos de la
misma, y la denotaremos como N. En el ejemplo anterior de poblacin sera el nmero de
plantas de duraznos en flor.
Muestra
Generalmente es imposible y/o impracticable examinar toda la poblacin, por lo que se
examina una parte de ella (muestra). Por lo tanto podemos definir a una muestra como un
subconjunto de elementos de la poblacin, a partir de la cual describiremos las
caractersticas ms importantes de la misma.
Unidad muestral
La unidad muestral es el elemento o entidad sobre la cual relevaremos la informacin de
inters. (la planta de durazno)
Tamao muestral
Se entiende por tamao muestral el nmero de elementos que conforman la muestra, y lo
denotaremos como n.
Variable
Una variable es una caracterstica, propiedad o atributo, con respecto a la cual los
elementos de una poblacin difieren. En general para denotar el conjunto de posibles
valores que puede presentar una cierta variable se utiliza una letra mayscula (X), y con la
misma letra en minscula (x) se hace referencia a un valor particular observable en un
elemento de la poblacin (dato). Por ejemplo: Si tenemos un grupo de cajas de petri cada
una con 4 semillas y luego de un periodo de tiempo observamos las semillas germinadas,
podremos denotar al nmero de semillas germinas en un caja de petri como X (variable
observable), mientras x (dato) denotar el nmero de semillas germinadas en cada una de
la cajas de petri.
Variable aleatoria
Vamos a definir a una variable aleatoria como un conjunto de mediciones u observaciones
sobre unidades muestrales, cuyos posibles valores son azarosos, es decir no se puede
prever con exactitud, existiendo sobre l un cierto grado de incertidumbre.
Tipo de variables
En la concepcin moderna, los valores que puede asumir una variable pueden ser
numricos o atributos; si son nmeros, la variable se denomina cuantitativa; mientras que si
son atributos se denomina cualitativa. Una variable cuantitativa puede ser continua (si entre
dos valores cualesquiera de su dominio existe un nmero infinito de posibles valores) o
discreta ( si entre dos valores cualesquiera de su dominio existe un nmero finito de posibles
valores). Por otro lado una variable cualitativa tambin es conocida como variable categrica
ya que dichas variables van a estar definidas por las clases o categoras que la componen.
Son algunos ejemplos de variables:
3
Estadstica Descriptiva
_____________________________________________________________________________________________
Mtodo de muestreo
El mtodo o diseo de muestreo puede definirse como el conjunto de procedimientos que se
realizan para obtener una muestra lo ms representativa posible de la poblacin. Existen
varios procedimientos de muestreo que presentan diferentes caractersticas y son
apropiados en distintas situaciones, con dependencia entre otros aspectos de los datos
disponibles, el costo de muestreo y la precisin requerida en las estimaciones. Los mtodos
bsicos de muestreo son: el Muestreo Aleatorio Simple, el Muestreo Estratificado y el
Muestreo por conglomerados.
Parmetro y Estimador
El parmetro es una constante que caracteriza a una poblacin. Si por ejemplo
consideramos que nuestra poblacin esta formada por los datos (observaciones) del
dimetro a la altura del pecho (DAP) de todos los rboles que hay en un monte forestal, el
dimetro medio de todos los rboles () es un parmetro; como tambin lo ser la varianza
de esos dimetros (2). Pero si el estudio de la poblacin lo hacemos a travs de una
muestra extrada de la misma poblacin, el dimetro medio ( X ) como la varianza (S2)
obtenidos a partir de dicha muestra sern variables y se denominarn estimadores. Si
consideramos que de una poblacin se pueden tomar ms de una muestra, dispondremos
entonces de tantos estimadores como muestras, razn por la cual debemos tener en cuenta
que los estimadores son variables aleatorias con todas las caractersticas propias de las
mismas.
4
Estadstica Descriptiva
_____________________________________________________________________________________________
Medidas de Posicin
X =
x i
(x
i =1
i - x) = 0
Mediana: es el valor que divide a las observaciones, previa ordenacin de las mismas, en
dos subconjuntos de igual probabilidad, es decir que deja el mismo nmero de
observaciones por debajo que por encima de ella. La mediana la calculamos ordenando los
valores en orden creciente y tomando el valor central. Si hay un nmero impar de datos, la
mediana viene dada por el valor medio, si el nmero de datos es par, la mediana viene
dada por la semisuma de los valores medios. La posicin de la mediana viene dada por
(n+1)/2. Por ejemplo:
5
Estadstica Descriptiva
_____________________________________________________________________________________________
Moda: es el valor ms frecuente, el que se repite mayor nmero de veces. Como se ver
luego si la distribucin de los valores es unimodal (una sola moda) y tiende a ser simtrica
entonces la mediana, la moda y la media tendern a coincidir. Podemos tener distribuciones
con 2 o ms modas, en este caso las distribuciones se denominarn bimodales o
multimodales respectivamente.
Cuantiles: se obtienen de las series ordenadas de menor a mayor, los cuantiles pueden
dividir a la serie en cuatro (cuartiles), diez (deciles) cien (percentiles) grupos iguales. Los
cuantiles representan valores de la variables asociados con una determinada probabilidad
Percentiles: valores que dividen el conjunto de datos ordenados en cien partes iguales:
P1, P2, ..., P99. Por ejemplo: P8 = 14 mm/da, indica que hay un 8% de probabilidad que
la precipitacin sea menor o igual a 14 mm/da y un 92 % de probabilidad de superar
dicho registro. El percentil 50 coincide con la mediana ya que sera el nivel que divide a
la serie en dos grupos iguales, ambos con un 50% probabilidad.
Deciles: valores que dividen el conjunto de datos ordenados en diez partes iguales: D1,
D2, ..., D9. Por ejemplo: D1 = 2000 kg/ha, indica que hay un 10 % de probabilidad que el
rendimiento sea menor o igual a 2000 kg/ha.
Cuartiles: valores que dividen el conjunto de datos ordenados en cuatro partes iguales.
En este caso el Q2 coincide con la mediana. Por otro lado el Q1 (o cuartil inferior) y el Q3
(o cuartil superior) coinciden con el P25 y P75 respectivamente.
Medidas de dispersin
Miden cun esparcidos, dispersos, se encuentran los datos; es decir permiten saber
que tan grandes son los alejamientos respecto de las medidas de posicin. Las ms usadas
son la varianza, el desvi estndar, el error estndar de la media, el coeficiente de variacin,
etc.
6
Estadstica Descriptiva
_____________________________________________________________________________________________
Si bien esta es una medida de la variabilidad entre medias de diferentes muestras, puede
estimarse a partir de una sola muestra
Rango: El rango es la diferencia entre el valor mas alto (mximo) y el mas bajo (mnimo) del
conjunto de datos bajo anlisis. Cuanto mayor es la variabilidad de los datos mayor es el
rango.
Rango intercuartlico: es la diferencia entre el cuartil superior (Q3) y el inferior (Q1). Abarca
el 50 % central de los datos. Es una medida resistente a la presencia de valores atpicos.
S
CV = 100
X
Generalmente podemos considerar valores de CV < al 5% como muy bajos, entre 5-15%
bajos, entre 15-30 altos y > 30% muy altos.
Medidas de forma
Asimetra: si la distribucin de frecuencias de los datos tiene una "cola" ms larga hacia la
izquierda que hacia la derecha con respecto al mximo central, se dice que la distribucin
7
Estadstica Descriptiva
_____________________________________________________________________________________________
est sesgada a la izquierda o que tiene asimetra negativa. Si por el contrario la distribucin
de frecuencias tiene una "cola" ms larga hacia la derecha que hacia la izquierda con
respecto al mximo central, se dice que la distribucin est sesgada a la derecha o que
tiene asimetra positiva. A las distribuciones de sesgo nulo se las denomina simtricas o con
asimetra cero y en este caso la media, la mediana y la moda sern iguales.(Ver figura 1).
Cuando realizamos un estudio descriptivo es altamente improbable que la distribucin de
frecuencias sea totalmente simtrica. En la prctica diremos que la distribucin de
frecuencias es simtrica si lo es de un modo aproximado. Por otro lado, an observando
cuidadosamente la grfica, podemos no ver claro de qu lado estn las frecuencias ms
altas. Conviene definir entonces unos estadsticos que ayuden a interpretar la asimetra, a
los que llamaremos coeficientes de asimetra. Una de las formas (hay otras que no
presentaremos) de calcular la Asimetra es a travs del coeficiente del momento de
asimetra:
n
m3
(x
i =1
i X ) 3
As = =
S3 n S3
Figura 1
x - Mo
As =
s
Curtosis: mide cun puntiaguda (aguda) es una distribucin con un solo mximo (unimodal),
con respecto a una distribucin Mesocrtica. El alejamiento de este "modelo" determina dos
tipos ms de distribuciones. Aquellas que presentan frecuencias mayores, que la
mesocrtica, en el centro de la distribucin y menores en los extremos se llaman
Leptocrticas (distribucin ms aguda que la mesocrtica), mientras que si las frecuencias
mayores se dan en los extremos y las menores en el centro se llaman Platocrticas
(distribucin ms aplanada que la mesocrtica) (Ver figura 2). Para calcular la curtosis se
8
Estadstica Descriptiva
_____________________________________________________________________________________________
m4
(x
i =1
i X ) 4
Kur = 3 = 3
S4 n S4
Fr Leptocurtica
Curtosis (+)
Mesocurtica
Curtosis (0)
Platocurtica
Curtosis (-)
Figura 2
Tablas de frecuencia
Las tablas de frecuencia nos permiten agrupar los datos en clases de extensin
predeterminada y observar rpidamente la frecuencia absoluta, es decir el nmero de
observaciones de cada clase (para variables continuas) o bien el nmero de veces que se
repite cada valor de la variable (para variables discretas) . Generalmente en una tabla de
frecuencias no slo se muestran las frecuencias absolutas, sino tambin se incluyen las
frecuencias relativas y las frecuencias acumuladas (absolutas y relativas). Por otro lado la
confeccin de una tabla de frecuencias puede ser necesario como paso previo para la
realizacin de una serie de grficos como son el histograma de frecuencias, el polgono de
frecuencias, entre otros. (ver tabla 1).
9
Estadstica Descriptiva
_____________________________________________________________________________________________
a) Primero se deben seleccionar las clases, para ello pueden seguirse los siguientes criterios
en funcin del tipo de variable que estudiemos:
Cuando se trate de variables cualitativas, las clases sern de tipo nominal;
En el caso de variables cuantitativas, existen dos posibilidades:
- Si la variable es discreta, las clases sern valores numricos.
- Si la variable es continua las clases vendrn definidas mediante lo que denominaremos
intervalos. En este caso, cada intervalo o clase contendr todos los valores numricos
comprendidos en cada uno de los mismos.
Para determinar la amplitud del intervalo primero se debe calcular el rango (diferencia
entre el valor mximo y mnimo del conjunto de datos) y luego dividir este por el nmero de
clases que se quieren tomar. Es decir:
Definidas la cantidad y amplitud de las clases se deben determinar los lmites inferiores
y superiores de cada clase. Para ello a partir del valor mnimo (limite inferior de la primer clase)
sumamos la amplitud del intervalo y obtenemos el limite superior de la primer clase, el cual ser
tambin el limite inferior de la segunda clase y nuevamente volvemos a sumar la amplitud del
intervalo a dicho valor y obtenemos el limite superior de la segunda clase, y as continuamos
hasta formar las clases fijadas anteriormente. El valor promedio entre los limites del intervalo se
llama punto medio del intervalo. Por ejemplo: si tenemos una amplitud del intervalo de 8 cm, un
valor mnimo de 10 cm, las dos primeras clases tendrn los siguientes limites:
10
Estadstica Descriptiva
_____________________________________________________________________________________________
Planteados los limites de esta forma si tenemos una observacin con un valor de 18 no
sabremos a que clase pertenece. Para salvar est situacin podemos trabajar con un decimal
ms que los datos o bien trabajar con limites semiabiertos (incluye uno de los limites el inferior
o el superior).
f i
hi =
n
Obsrvese que hi es el tanto por uno de observaciones que estn en la clase i. Multiplicado por
100 representa el porcentaje de la poblacin que comprende esa clase.
F i
h
i
Hi = = j
n j =1
11
Estadstica Descriptiva
_____________________________________________________________________________________________
X =
f i Xi
S 2
=
(X i X ) 2
f i
n n 1
siendo X i el punto medio de cada clase.
Representaciones grficas
En el eje y se pueden graficar tanto las frecuencia absolutas, las relativas, como
las acumuladas absolutas o relativas. Si unimos los puntos medios de cada barra del
histograma obtenemos el Polgono de Frecuencias.
7
6
5
4
3
2
1
0
620 720 820 920 1020 1120 1220
Precipitacion Media Anual
12
Estadstica Descriptiva
_____________________________________________________________________________________________
Diagrama de caja (Box Plot o Box and Whisker Plot): es un tipo de grfico utilizado para
representar datos cuantitativos. Permiten visualizar la Asimetra de la distribucin e
incorpora medidas de posicin y dispersin con el objeto de estudiar, tambin, la
variabilidad de los datos y la concentracin de los mismos. Las medidas de variacin estn
dadas por el largo de la caja (rango intercuartilico) y por el largo de las barras externas a las
cajas (rango), mientras las de posicin por el signo suma (media) y por la lnea vertical
dentro de la caja (mediana). (figura 5).
Box-and-Whisker Plot
13
Estadstica Descriptiva
_____________________________________________________________________________________________
VARIABLES BIDIMENSIONALES
Un cuadro en dos dimensiones que represente las frecuencias asociadas a este caso es el
siguiente:
y1 y2 ... yj ... yk X
x1 f11 f12 ... f1j ... f1k f1.
x2 f21 f22 ... f2j ... f2k f2.
. . . ... . ... . .
. . . ... . ... . .
. . . ... . ... . .
xi fi1 fi2 ... fij ... fik fi.
. . . ... . ... . .
. . . ... . ... . .
. . . ... . ... . .
xm fm1 fm2 ... fmj ... fmk fm.
Y f.1 f.2 ... f.j ... f.k f.. = n
Covariancia y correlacin:
Existen numerosos coeficiente que cuantifican la relacin entre dos variables, un primer coefi-
ciente es el de covariacia. Se lo defiene como la esperanza de los productos de los desvos de
las variables respecto de sus valores esperados.
14
Estadstica Descriptiva
_____________________________________________________________________________________________
II I
_
y Figura 6
III IV
_ X
x
en l observamos cuatro regiones. Los puntos que pertenecen a la regin I, verifican las
siguientes relaciones:
_ _ _ _
(xi - x ) > 0 ; (yi - y ) > 0 luego (xi - x ) . (yi - y ) > 0
y con igual razonamiento tendremos que en la regin II y regin IV este producto es menor que
cero, y en la regin III al igual que en la I mayor que cero.
Y Y
X X
Fig. 7 Fig. 8
El inconveniente de este coeficiente es que depende del sistema de unidades elegido y que no es
acotado. Para lograr un coeficiente que subsane estas desventajas se define el coeficiente de
correlacin lineal que no es otra cosa que la covariancia dividida por los desvos estndar de las
variables.
15
Estadstica Descriptiva
_____________________________________________________________________________________________
xy n
x y
rXY =
2 2
x ( x ) y ( y )
2 2
n n
Fig. 9
16
Distribuciones de Probabilidad
_____________________________________________________________________________________________
PROBABILIDADES
Hay muchos fenmenos reales que se comportan de una manera tan regular que
son absolutamente predecibles (muchas leyes fsicas), sin embargo existen fenmenos
(fenmenos aleatorios) en los cuales los resultados no pueden predecirse con certeza, lo que
lleva por lo tanto a un estado de incertidumbre.
Conceptos bsicos
17
Distribuciones de Probabilidad
_____________________________________________________________________________________________
evento
espacio muestral (caracterstica comn dos semillas afectadas)
Otros ejemplos:
a) Arrojar una moneda
b) Arrojar un dado
c) Extraer elementos de un lote que contiene elementos defectuosos(D) y no defectuosos( D )
d) Extraer dentro de los nmeros naturales los menores de 1000
e) Los sucesos al observar tres pariciones en ovejas, donde M significa macho y H hembra.
a) 1 = {C , S }
b) 2 = {1, 2, 3, 4, 5, 6 }
c) 3 = {D , D }
d) 4 = {0, 1, 2, ... }
e) 5 = MMM , MMH , MHM , HMM , MHH , HMH , HHM , HHH .
Todos los ejemplos vistos hasta ahora tienen espacios muestrales discretos. Un
ejemplo de un espacio muestral continuo puede estar dado por la produccin de una
determinada droga (x), la cual vara entre un valor mnimo "a" y otro mximo "b". El espacio
muestral (
)que se genera al observar la produccin en diversos instantes, es continuo, en
smbolos:
18
Distribuciones de Probabilidad
_____________________________________________________________________________________________
= { x / a x b }
Hemos llamado evento a un subconjunto del espacio muestral. Si
Consideramos, en el ejemplo e) el evento al menos dos machos (evento D), lo podemos
representar como:
D 5 si x D / x 5
Concepto de probabilidad
Ejemplos:
19
Distribuciones de Probabilidad
_____________________________________________________________________________________________
2) Realizo una llamada telefnica y me olvido una cifra y la marco al azar. Cul es la
probabilidad de que marque el nmero correcto?
Anlisis Combinatorio
n !
n Pr =
( n r )!
P n = n!
Si tenemos n elementos indicados como A1, A2, ..., An donde cada uno de ellos aparecen
r1, r2, ..., rk veces, los distintos grupos que pueden formarse con esos n elementos se
llaman permutaciones repetidas de forma que:
20
Distribuciones de Probabilidad
_____________________________________________________________________________________________
n!
n Pr r rk =
! r 2! r !
1 2
r 1 k
4) Combinaciones
n n !
C rn = =
r r ! ( n r )!
Ejemplo:
4 2
P 2 = 4 = 4 4 = 16 (16 son los arreglos posibles)
(EC, CE, EH, HE, EA, AE, CH, HC, CA, AC, HA, AH, EE, CC, HH, AA)
b) Idem al inciso a pero sin reposicin del novillo extrado en primer instancia y
considerando que dos arreglos con los mismos elementos en orden diferentes son
distintos.
Tenemos: n = 4 y r = 2, entonces:
4 ! 4 3 2 1
P = = = 12 (en este caso 12 son los arreglos posibles)
( 4 2 )!
4 2
21
21
Distribuciones de Probabilidad
_____________________________________________________________________________________________
(EC, CE, EH, HE, EA, AE, CH, HC, CA, AC, HA, AH)
4! 4!
C 24 = = = 6 (6 son los arreglos posibles)
2 ! ( 4 2) ! 2! 2!
(EC, EH, EA, CH, CA, HA)
5!
P 3, 2 = = 10 (10 son los arreglos posibles)
3! 2 !
5
(GGGSS, GGSGS, GSGGS, SGGGS, SGGSG, SGSGG, SSGGG, GSSGG, GGSSG, GSGSG)
5! 5!
C 35 = = = 10
3 ! ( 5 3) ! 3! 2 !
22
Distribuciones de Probabilidad
_____________________________________________________________________________________________
fC ( n )
P(C) = lim = lim h(C )
n n n
Sea S un espacio muestral diremos que P( . ) es la funcin que asigna a cada evento ( R ) del
espacio muestral ( S ) un nmero real entre ( 0 , 1) que llamaremos probabilidad, si satisface
los tres axiomas siguientes:
2) P(S) = 1.
Adicin de eventos
A B= = conjunto vaco.
Por lo tanto
P(A B) = P(A) + P(B)
A B
y
P(A B) = P(A) + P(B) P(A B)
23
Distribuciones de Probabilidad
_____________________________________________________________________________________________
En este caso P(A B) se resta para evitar el doble conteo. Esto se puede ver en el siguiente
diagrama
Entonces:
P(LL TE) = 0.25 + 0.08 - 0.04 = 0.29
Ejemplo:
Supongamos una empresa agrcola que cuenta con personal de sexo masculino
y femenino, los que se encuentran realizando tareas en el rea administrativa, tcnica y de
mantenimiento, distribuidos de la siguiente manera:
- Dos eventos excluyentes son personal Administrativos (A) y de Mantenimiento (M), por lo
tanto se debe cumplir:
AM=
24
Distribuciones de Probabilidad
_____________________________________________________________________________________________
- Dos eventos no excluyentes son personal Administrativos (A) y Varones (V), por lo tanto se
debe cumplir:
AM
Administrativos A = { 10 elementos} ; Varones V = { 17 elementos}
Multiplicacin de eventos
P (C D) = P (C) x P (D)
Donde P(C/D) y P(D/C) se definen como probabilidad condicional . Para el caso P(C/D)
como probabilidad condicional del evento C habiendo ocurrido D y puede expresarse
como:
P (C D)
P ( C / D )=
P (D )
25
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Ejemplo:
En el ejemplo anterior nos podemos preguntar:
Problemas de Aplicacin:
Arboles de probabilidades
Por ejemplo se extraen 3 bolillas de una urna que contiene 6 bolillas negras y 4
blancas, el rbol correspondiente resulta:
26
Distribuciones de Probabilidad
_____________________________________________________________________________________________
El espacio muestral representado es: = { NNN, NNB, NBN, NBB, BNN, BNB,
BBN, BBB}. Para asignar las probabilidades a cada rama, debemos completar la informacin en el
sentido de que si las bolillas extradas y observadas, son devueltas o no a la urna para la
extraccin siguiente (modelo con o sin reposicin). En el primer caso la probabilidad de una
extraccin no depende de las anteriores, en cambio en el otro si. Esto se relaciona con la
independencia o no de los sucesos, deducida de la independencia o no de los experimentos
simples.
27
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Variable aleatoria
X ( N de respuestas correctas): 0 1 2 3 4 5 6 7
Las probabilidades que se asignan a cada valor que asume la variable aleatoria
X se obtienen a travs de la denominada funcin de cuanta [ f ( x ) ] la cual puede ser una
expresin matemtica o reducirse solamente a una tabla de valores. Por ejemplo: Si tenemos
una urna que contiene 3 bolillas negras, 2 rojas y 5 amarillas, y codificamos los colores con los
nmeros 1, 2 y 3 respectivamente, las probabilidades para cada valor que sume la variable en
estudio puede ser obtenida sin necesidad de construir una expresin matemtica, solamente
limitndonos a tabular la funcin obtendremos dichos valores.
para contestar deberemos definir una nueva funcin llamada funcin acumulativa de
probabilidades F( x )
F( x ) = f( xi )
Discreta: Se dice que una variable aleatoria es discreta cuando toma un nmero finito o
infinito numerable de valores en el eje x . Por ejemplo : Nmero de insectos, recuento de
maleza en un ensayo , semillas por fruto, etc.
Ejemplo: Si tenemos 4 semillas que pueden estar sanas o enfermas, la variable aleatoria
semillas sanas asumir los siguientes valores:
X (N de semillas sanas): 0 1 2 3 4
28
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Continua: se dice que X es una variable aleatoria continua si asume infinito valores dentro
de un intervalo, en el caso de variables discretas podemos asignar a cada valor de la variable
su correspondiente probabilidad, en cambio en variables continuas esto no es posible.
Abordando esta dificultad podemos considerar intervalos en lugar de puntos (ver figura)
En smbolos:
P(X3 < X < X3 + X ) = f(X3)X
29
Distribuciones de Probabilidad
_____________________________________________________________________________________________
dp = f(x) dx para x X x + dx
Ahora elegimos un valor "t ", para hallar la probabilidad de que la variable asuma
un valor menor que t, para a x b y f(x) = 0 para todo x fuera del intervalo [a , b]. Para ello,
introducimos el concepto de funcin acumulativa de distribucin de probabilidades F(t):
t
F(t) = f ( x ) dx = P(X t)
a
y:
F(a) = P(X a) = 0 F(b) = P(X b) = 1
por lo que F(x) es la primitiva de f(x). Para que f(x) sea una funcin densidad deber cumplir
los siguientes requisitos:
2)
f(x) dx = 1
Ejemplo: Siendo la funcin densidad f(x) = 1/4 para todo -1 x 3. Qu valor asume la
funcin densidad para x -1 y para x 3? . Cunto vale la funcin de distribucin de
probabilidades? Cul ser la probabilidad de que la variable asuma valores entre 1 y 1,5?
Entonces:
30
Distribuciones de Probabilidad
_____________________________________________________________________________________________
= 0 para toda x 1
1
f(x) = para toda 1 x 3
4
= 0 para toda x 3
y, por ltimo:
1 .5
1 x2
1 .5
1 1 . 25
P ( 1 x 1,5 ) =
4 x dx =
4 2
=
8
= 15 .6 %
1 1
Se la calcula como la suma de los productos de todos los valores que asume la
variable por sus respectivas probabilidades. De esta definicin , se desprende que la
esperanza matemtica de una variable aleatoria discreta es una magnitud no aleatoria
(parmetro) que se puede obtener a partir de la siguiente expresin:
N
E ( X ) = x i . pi =
i =1
Ejemplo:
X (N de nacimientos hembras) : 0 1 2 3
p(x) : 1/8 3/8 3/8 1/8
31
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Entonces:
E(x) = 0 . (1/8) + 1 . (3/8) + 2 . (3/8) + 3 . (1/8) = (12/8) = 1,5
2) Hallar la esperanza matemtica del nmero de veces que ocurre el suceso A en una prueba,
si su probabilidad de ocurrencia vale "p" y la de no ocurrencia vale q .
E ( x ) = 1* p + 0 * q = p
Cuando la prueba tiene slo dos maneras de presentarse como en este ejemplo,
la esperanza matemtica del nmero de apariciones de un suceso es igual a la probabilidad de
ocurrencia de ese suceso.
Propiedades de la esperanza
2) E(cx) = c . E(x) "La esperanza de una constante multiplicada por una variable es la
constante por la esperanza de la variable".
3) E(x . y) = E(x) . E(y) "La esperanza del producto de dos variables aleatorias independientes
es el producto de sus respectivas esperanzas".
4) E(x + y) = E(x) + E(y) "La esperanza de la suma de dos variables aleatorias independientes
es la suma de sus respectivas esperanzas".
5) E[x-E(x)] = 0 "La esperanza matemtica de los desvos de las observaciones respecto del
valor medio es 0".
32
Distribuciones de Probabilidad
_____________________________________________________________________________________________
E(x) = n . p
Sea X el nmero total de apariciones del suceso A en las n pruebas, entonces, ser igual a la
suma de las apariciones de l en las pruebas individuales.
X = x1 + x2 + . . . + xn
E(X) = E ( x1 + x2 + . . . + xn )
Luego: E(x) = n . p
Ejemplo:
33
Distribuciones de Probabilidad
_____________________________________________________________________________________________
V ( X ) = E [ x E ( X )] 2
Determinamos E(x):
E(x) = 1 . 0,3 + 3 . 0,5 + 5 . 0,2 = 2,80.
Calculamos los desvos cuadrticos:
Propiedades de la varianza
2) V(c . x) = c2 V(x) "La varianza de una constante multiplicada por una variable es el cuadrado
de la primera por la varianza de la segunda".
3) V(x + y)= V(x) + V(y) "La varianza de la suma de dos variables aleatorias independientes es
igual a la suma de sus respectivas varianzas".
34
Distribuciones de Probabilidad
_____________________________________________________________________________________________
4) V(x - y)= V(x) + V(y) "La varianza de la diferencia de dos variables aleatorias independientes
es igual a la suma de sus respectivas varianzas".
V(x) = n . p . q
X = x1 + x2 + . . . + xn
Por la propiedad 3:
Entonces:
V(x1) = p - p2 = p. (1 - p) = p . q
V(X) = n . p . q
35
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Problema de aplicacin:
En smbolos:
xi . f ( xi ) . x
b
a
x i . f ( x i ) . dx
E(x ) =
x i . f ( x i ) . dx
b 2
V ( x )= a
[ x - E ( x ) ] . f ( x ).d x
V (x) =
b
a
x 2 . f ( x ) . dx [ b
a
x . f ( x ) . dx ] 2
36
Distribuciones de Probabilidad
_____________________________________________________________________________________________
( x )= V ( x )
Covarianza :
Se define como:
Si, para construir nuestra curva, en vez de frecuencias absolutas (fi ), utilizamos
frecuencias relativas (h i) la curva se transforma en una curva de probabilidad, y la frecuencia
relativa (hi) nos indica la probabilidad de que un individuo de la distribucin pertenezca a la
clase i .
La construccin de una curva de probabilidad en base a los datos observados
presenta muchas dificultades, sobre todo porque, para tener una curva que se aproxime a la
realidad (que sea confiable), necesitamos un gran nmero de observaciones o, lo que es lo
mismo, disponer de toda la poblacin, cosa a menudo imposible. Una curva basada en una
parte de la poblacin (la muestreada), estar siempre expuesta a la llamada "fluctuacin de la
muestra" (debemos suponer que dicha muestra es representativa de la poblacin).
37
Distribuciones de Probabilidad
_____________________________________________________________________________________________
simplemente, formulando una hiptesis acerca de estas causas, podemos deducir cmo
"deberan distribuirse" los datos reales si nuestra hiptesis se cumpliera rigurosamente, dando
lugar a las llamadas distribuciones de probabilidades tericas, que no se obtienen de la
realidad, sino de hiptesis y deducciones, es decir que a diferencia de las distribuciones de
frecuencias una distribucin de probabilidad es un listado de las probabilidades de todos los
posibles resultados que podran obtenerse si el experimento se lleva a cabo.
Distribucin Binomial
1) se cumple que el resultado de cada ensayo (observar cada insecto) tiene dos resultados
posibles y mutuamente excluyentes como son insecto infectado (xito) o insecto no
infectado (fracaso)
2) los ensayos son independientes: es decir que un insecto este infectado o no no influye
en que el siguiente lo este o viceversa.
38
Distribuciones de Probabilidad
_____________________________________________________________________________________________
3) se supone que la poblacin es tan grande que el muestreo sea con o sin reposicin no
es importante para los fines prcticos, por lo tanto podemos considerar a la probabilidad
constante.
La variable aleatoria usual asigna un valor igual a 1 para los xitos y 0 para los
fracasos:
Ejemplo:
1) Si arrojamos una moneda y asignamos X=0 si sale ceca y X=1 si sale cara, la ecuacin ser
de la forma:
P ( X = x ) = 0,5 con x = 0 , 1.
Puede leerse as: "La probabilidad de que la variable aleatoria X tome el valor
particular x es 0,5 para x = 0 y para x =1". Esto constituye la distribucin de probabilidad.
2 3
P(X = 0,0,1,1,0) = (1 p) (1 p) pp (1 p) = p (1 p ) = p 2 q 3
. p . q
n x nx
P( X = x ) = C x
n
Donde, el termino C x representa el nmero de arreglos (combinaciones) posibles al lanzar 5
veces una moneda, y, en este caso en particular p = 0,5; q = ( 1 p ) = 0,5 y n = 5.
39
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Como puede observarse, este trmino surge del desarrollo del binomio:
( p+q ) n
donde cada trmino particular determina la probabilidad de ocurrencia de los distintos sucesos
posibles en un orden natural siendo x = 0,1,2,3,...,n.
Adems, si bien una distribucin queda caracterizada por sus parmetros, que
en este caso son n y p, es importante conocer cul es la media y la varianza de la
distribucin.
y la varianza: 2= n . p . q
Distribucin de Poisson
e . x
x!
x =0
=1
e . x
x=0
x.
x!
= = E ( x) =
e . x
x=0
x . 2
x!
[E(x)] 2
= = V (x )
40
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Aplicaciones
X =
x .f
f
29
X = = 1,93
15
41
Distribuciones de Probabilidad
_____________________________________________________________________________________________
p =
X
=
x .f
n ( f ) . n
1,93
p= = 0,096
20
. p . q
n x n x
P( X = x ) = C x
f. terica ( x ) = P( x ) . N
Estas son las frecuencias que deberan observarse si la variable en estudio tiene
una distribucin binomial. Esto puede cumplirse o no dependiendo de la naturaleza del
fenmeno estudiado.
Todos los casos en los que se trabaja con la distribucin binomial debe estar
bien definido el numero total de casos n sobre el cual se observa el estado de la variable. En el
ejemplo el numero de casos por muestra fue n =20 semillas y el estado de la variable fue x= 0,
1, 2.... semillas atacadas.
42
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Numero de Numero de
insectos en la planta muestras ( x . frecuencia)
(x) (frecuencia)
10 2 20
11 3 33
12 5 60
13 4 52
14 1 14
15 0 0
Total 15 179
El nmero medio de insectos por planta se calcula igual que antes como la
sumatoria de los productos del valor de la variable x (numero de insectos por planta)
multiplicado por la frecuencia (numero de plantas con ese valor).
El numero medio de insectos por planta se denomina lambda (). En este caso
su valor es de 11,93 ; lo que indica que hay en promedio aproximadamente 12 insectos por
planta.
-
e . x
P (X =x) =
x!
43
Distribuciones de Probabilidad
_____________________________________________________________________________________________
Distribucin Normal
Se dice que una variable aleatoria continua tiene distribucin normal con media
() y varianza (2 ), si su funcin de densidad est dada por:
( x )2
1
f (x) = e 22
< x <
2
0,2
0,16
0,12
0,08
0,04
0
0 2 4 6 8 10 12 14 16 18 20
x
Figura 1: Curva con = 10 y = 2
44
Distribuciones de Probabilidad
_____________________________________________________________________________________________
En el eje x del grfico 1 van los posibles valores que puede tomar la variable
aleatoria X y en el eje y los valores de la funcin densidad normal.
1.- Si determinamos el valor de la derivada primera en el punto 0 vemos que su valor es:
f ( ) = 0
lo que indica la existencia de un extremo relativo en ese punto. La derivada segunda vale:
f()
f" ( ) = 2
lo que nos indica, finalmente que nuestra curva de distribucin normal tiene un mximo
relativo en .. Es decir que el valor mximo de f (x) se presenta en x =
si (x ) =
f" (x) = 0
(o sea en x = )
lo que nos permite afirmar que la curva de distribucin normal tiene dos puntos de inflexin en:
x1 = +
x2 =
f ( + k ) = f ( k )
siendo k cualquier valor. Esto significa que la media, la mediana y la moda son coincidentes.
f (x) dx = 1
5.- Por la propiedad 3 (funcin simtrica con respecto a la media) existe una probabilidad de un
50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
45
Distribuciones de Probabilidad
_____________________________________________________________________________________________
6.- El rea bajo la curva comprendido entre los valores situados aproximadamente a una
desviacin estndar y a dos desviaciones estndar de la media es aproximadamente de 0.68 y
0.95 respectivamente. Es decir:
P ( - X + ) = 0.68
P ( - 2 X + 2 ) = 0.95
7.- Se trata de una funcin mesocrtica, definida a partir del coeficiente de curtosis y, a partir
de l hemos definido el grado de achatamiento o aguzamiento de las distribuciones respecto de
la curva normal. (ver Estadstica Descriptiva coeficiente de curtosis)
46
Distribuciones de Probabilidad
_____________________________________________________________________________________________
0,8
Curva C
0,6
0,2
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
x
Figura 3: Curva A ( = 4 ; = 1); Curva B ( = 8 ; = 1); Curva C ( = 8 ; = 0,5)
Por lo visto hasta aqu la distribucin de una variable aleatoria continua que
presenta distribucin normal quedar completamente determinada por los parmetros, media
() y desvi estndar ().
Cuando una variable tiene distribucin normal se la suele indicar con una letra N,
mayscula de imprenta, y, entre parntesis, la media y la varianza. Esto es:
X ~ N ( ; 2 )
F ( x ) = P( X x ) = f ( x ) . dx
x
47
Distribuciones de Probabilidad
_____________________________________________________________________________________________
x2
P ( x1 X x 2 ) = f ( x ) . dx
x1
Estandarizacin
( x )
Z =
Con esta transformacin, nuestros datos, independientemente de sus valores
numricos, adquieren varianza 1 y media 0. Por lo tanto la funcin de densidad normal de est
nueva variable es:
Z2
1
f (z) = e 2
< Z <
2
P ( z > 1,5) = f (z)
1,5
dz = 0,0663
48
Distribuciones de Probabilidad
_____________________________________________________________________________________________
normal, con una media de 80 Kg y una desviacin estndar de 10 Kg. Podremos saber cul
es la probabilidad de que un cerdo, elegido al azar, tenga un peso superior a 100 Kg?
Z =
( x )
=
( 100 80 ) = 2
10
Z =
( x )
=
( 50 80 ) = 3
10
La probabilidad que se desea calcular ser:
P (X < 50 ) = P (Z < 3)
P (Z < 3) = P (Z > 3)
Por lo tanto
Por la propiedad 4 el rea total bajo la curva es igual a 1, por lo tanto se puede
deducir que:
P ( 50 < X < 100) = 1 [ P (Z < 3) + P (Z > 2)]
P ( 50 < X < 100) = 1 [ 0.0013 + 0.0228] = 0.9759
49
Distribuciones de Probabilidad
_____________________________________________________________________________________________
50
Estimacin de Parmetros
_____________________________________________________________________________________________
Inferencia Estadstica
En muchas aplicaciones prcticas a veces solo nos interesa estimar los valores
de los parmetros de una distribucin (media y varianza). Por ejemplo: saber cual es el
rendimiento de una nueva variedad de trigo obtenida por mejoramiento gentico.
1. Estimacin de Parmetros
2. Pruebas de Hiptesis
- ESTIMACION DE PARAMETROS
a) Estimacin Puntual
51
Estimacin de Parmetros
_____________________________________________________________________________________________
Debe quedar claro que todo estimador es una variable aleatoria, por lo cual
pueden haber varios estimadores posibles para un parmetro. Si deseamos estimar la media
de una variable aleatoria, podemos tomar, por ejemplo, tres muestras o considerar una funcin
de la muestra que brinde al mejor estimador del parmetro.
9
f ( 2 )
6
3
f ( 3 )
0
-200 -100 0 100
200 300 400
- Propiedades de un estimador
1. Insesgado
52
Estimacin de Parmetros
_____________________________________________________________________________________________
Entonces:
n
Xi 1 n 1 n n
E ( X ) = E i =1 = E Xi = E (Xi ) = =
n n i =1 n i =1 n
2. Consistente
Lm n P [
n < ]= 1
En otras palabras, un estimador consistente es el que est, desde un punto
de vista probabilistico, ms cerca del parmetro a medida que crece el tamao de la
muestra.
3. Eficiente
Existen varios mtodos de estimacin puntual de los que slo citaremos algunos:
53
Estimacin de Parmetros
_____________________________________________________________________________________________
b) Estimacin a Intervalo
Siendo X1, X2, ..., Xn una muestra aleatoria de una poblacin X cuya distribucin
de probabilidades es f(x; ), donde 1 y 2 son dos valores del parmetro , tal que 1 < 2,
entonces, puede determinarse la probabilidad de que:
P [1 < < 2] = = 1 -
en la cual:
- 1 es el lmite inferior del intervalo de confianza para .
- 2 es el lmite superior del intervalo de confianza para .
- es el coeficiente de confianza del intervalo.
- es el nivel de significancia.
P [1 < ] = = 1 -
o bien
P [ < 2] = = 1 -
- Ejemplo:
54
Estimacin de Parmetros
_____________________________________________________________________________________________
2
X ~ N ,
n
4. Transformar la variable (estandarizarla) para llevarla a una distribucin
N(0;1).
X
Z =
n
/2 1-= /2
- Z0 0 Z0
Si vale 0,95 entonces valdr 0,05 ; por lo tanto /2 ser 0,025, luego:
P ( Z0 < Z < Z0 ) =
X
P ( Z0 < < Z0 ) =
n
P Z0 < X < Z0 =
n n
P X Z 0 < < X + Z0 =
n n
P X Z0 < < X + Z0 =
n n
55
Estimacin de Parmetros
_____________________________________________________________________________________________
De donde se obtienen:
l 1 = X Z 0 l 2 = X + Z0
n n
que son los lmites inferior (1) y superior ( 2) de un intervalo que tiene un 95%
de probabilidad de contener al verdadero valor de .
Ntese que aqu para hacer una estimacin del parmetro poblacional ,
necesitamos del valor de otro parmetro poblacional, el desvo estndar . En la prctica,
generalmente es desconocido, por lo que se deber recurrir a otra distribucin que considere
esta situacin.
Distribucin de t
X -
z=
Esta nueva variable genera una distribucin que se origina en la relacin entre
una diferencia de medias y el error estndar. Esta diferencia puede ser entre una media
muestral y su correspondiente media poblacional o entre dos medias muestrales. Para el
primer caso, diferencia entre una media muestral y su correspondiente media poblacional,
tenemos:
X -
t= (1)
sx
56
Estimacin de Parmetros
_____________________________________________________________________________________________
X A XB (2)
t=
S x A xB
Su clculo depender de s:
1. Las dos poblaciones tienen una varianza comn (varianzas iguales) o no.
2. Las dos muestras son del mismo tamao o no.
1 1
S x A - xB
= Sp2 +
nA nB
57
Estimacin de Parmetros
_____________________________________________________________________________________________
SP2 =
(n A 1)S A2 + (nB 1)SB2
(n A 1) + (nB 1)
Los grados de libertad (gl.) para este caso se calculan como:
- Caso 2 (nA = nB = n)
2 S2
S x A - xB
=
n
S A2 + SB2
S2 =
2
gl. = 2 (n 1)
2 2
S x A - xB
= S A + SB
n A nB
2
s12 s12
n +n
= 2 1 2
2
(s1 / n1 ) 2 (s 22 / n 2 ) 2
+
n1 + 1 n2 + 1
58
Estimacin de Parmetros
_____________________________________________________________________________________________
Aplicaciones:
Ejemplo:
En un monte de lamos ubicado en el Delta del Ro Paran, se midieron
los dimetros a la altura del pecho (DAP) de 20 rboles, obtenindose los siguientes
estadsticos: media muestral 23,8 cm. y desvi estndar muestral 4,5 cm. Asumiendo que la
variable DAP presenta distribucin aproximadamente normal, se desea obtener un Intervalo de
confianza para la media poblacional () con un coeficiente de confianza () del 95 %.
Resolucin:
(X t S x
X +t S x
)
Constituyendo (X t S x ) el limite inferior y (X + t S x
) el limite superior del intervalo
de confianza para la media poblacional.
S
El error estndar de la media se obtiene aplicando , para este caso su valor es
n
de 1.006.
Finalmente tenemos:
(21.69 25.9)
59
Estimacin de Parmetros
_____________________________________________________________________________________________
Distribucin de Chi-cuadrado ( 2 )
=k y 2 = 2k
Como vemos esta distribucin esta caracterizada por un nico parmetro, los
grados de libertad, por lo tanto habr una distribucin de Chi-cuadrado para cada nmero de
grados de libertad.
Por otra parte sea X1, X2, ... , Xk una muestra aleatoria de tamao k de una
poblacin normal con media y varianza 2 y sean X y S 2 la media muestral y la varianza
muestral respectivamente, se puede demostrar por un teorema que:
k
2
(x
i =1
i x ) 2
(n 1) S 2 Con k =n-1 grados de libertad
= 2
= 2
( n - 1 ) . S2
2 = 2
contenga. Es decir:
60
Estimacin de Parmetros
_____________________________________________________________________________________________
(n 1 ) S 2 2 (n 1) S 2
P 2
=
( / 2 ) (21 / 2 )
/2
/2
Se debe tener en cuenta que al no ser una distribucin simtrica, los valores de Chi-
cuadrado que limitan el intervalo deben ser calculados independientemente.
Para el clculo de los limites de confianza del desvo estndar () slo hay que
aplicarles las races cuadradas a los limites de confianza calculados para la varianza.
Ejemplo:
Dada una muestra de 10 observaciones provenientes de una poblacin con
distribucin normal. Calcular el intervalo para su varianza y su desvo estndar con un
coeficiente de confianza ( ) del 90%?.
Resolucin:
Si queremos un intervalo del 0.9, implica que debemos dejar /2 a cada lado de
la curva, en este caso un 5% del rea. Como la tabla de Chi-cuadrado que presentamos en
este escrito siempre indica el valor de probabilidad acumulada, debemos buscar el valor para el
61
Estimacin de Parmetros
_____________________________________________________________________________________________
5%, el cual utilizaremos para el lmite inferior y el valor para el 95% que utilizaremos para el
lmite superior. En este caso y para 9 grados de libertad tenemos:
(10 1) 8 . 01 2 (10 1) 8 . 01
16 . 9 3 . 33
( 4 . 26 2
21 . 68 )
Que constituye el intervalo de confianza para la varianza.
( 2 . 06 4 . 65 )
Que constituye el intervalo de confianza para el desvo estndar
62
Pruebas de Hiptesis
_____________________________________________________________________________________________
PRUEBAS DE HIPOTESIS
Por ejemplo: que la ganancia promedio de peso en novillos con una determinada
racin es significativamente superior a las raciones que se estaban utilizando, o que la
produccin promedio de tablas en un aserradero aumenta significativamente con la
incorporacin de una sierra sinfin adicional y que, por ejemplo, el costo promedio mensual de
su funcionamiento no es significativamente diferente respecto a los costos antes de adquirir la
sierra.
63
Pruebas de Hiptesis
_____________________________________________________________________________________________
sospecha que el parmetro no es igual al valor postulado, siendo todos los dems valores
posibles. Por otro lado las pruebas unilaterales, llamadas de una cola, se emplean, en
problemas, en que se tiene algn indicio que el valor del parmetro es menor o mayor al
postulado, en el primer caso hablariamos de pruebas unilaterales a la izquierda y en el
segundo de pruebas unilaterales a la derecha.
- Prueba Bilateral para una poblacin - Pruebas Unilaterales para una poblacin
H0 : = k H0 : k H0 : k
H1 : k H1 : > k H1 : < k
Unilateral a la derecha Unilateral a la izquierda
- Prueba Bilateral para dos poblaciones - Pruebas Unilaterales para dos poblaciones
H0 : 1 = 2 H0 : 1 2 H0 : 1 2
H1 : 1 2 H1 : 1 > 2 H1 : 1 < 2
Unilateral a la derecha Unilateral a la izquierda
1. Planteo de la hiptesis
2. Planificacin del experimento o del esquema muestral conducente a obtener datos que
permitan la validacin o no de la hiptesis sometida a prueba.
3. Seleccionar el Estadstico de prueba adecuado
4. Establecer el nivel de significancia
5. Fijar la o las regiones de rechazo y no rechazo.
6. Realizar el ensayo o muestreo definido en el paso 2.
7. Calcular el valor del estadstico postulado y determinar si cae dentro o fuera de la regin de
rechazo.
Se mencion ms arriba que las pruebas de hiptesis nos permiten afirmar, con
cierto grado de probabilidad que una cosa es igual, mayor, menor, diferente, superior, etc. que
otra. Esta decisin que uno toma al poner a prueba una hiptesis est sujeta a dos tipos de
errores. Por un lado podemos rechazar la H0 cuando, en realidad, es verdadera, o bien aceptar
H0 cuando es falsa y alguna hiptesis alternativa es verdadera. Estos errores se llaman errores
de TIPO I y de TIPO II, respectivamente. Las dos opciones para la hiptesis nula (verdadera o
falsa) junto con las dos decisiones que puede tener el experimentador, forman la tabla de
decisiones.
- Tabla de decisiones
Hiptesis Nula
Decisin Verdadera Falsa
Rechazar H0 Error tipo I Decisin correcta
64
Pruebas de Hiptesis
_____________________________________________________________________________________________
Resumiendo:
= P (Error Tipo I) = P (Rechazar H0 / H0 es verdadera)
= P (Error Tipo II) = P (No Rechazar H0 / H0 es falsa)
Es obvio que, quien toma las decisiones, quiera reducir al mximo las
probabilidades de cometer cualquiera de estos dos errores. La probabilidad de cometer el
error tipo I se la simboliza con la letra griega y su valor se fija de antemano y est de
acuerdo con la importancia del problema, tomando usualmente valores entre un 5% y un 1%.
En cambio la probabilidad de cometer el error tipo II se la simboliza con la letra griega y su
clculo es bastante complejo dependiendo del valor del parmetro.
- Figura a n2
n1 - Distribucin en la
hiptesis nula
H0 : = 0
0
Punto critico C - Distribucin en la
hiptesis alternativa
- Figura b
1- H1 : > 0
1
Zona de No rechazo Zona de Rechazo
65
Pruebas de Hiptesis
_____________________________________________________________________________________________
Ejemplo:
Se analiza el contenido de vitamina C en 8 frutos de tomate y se hallan los
siguientes contenidos en mg.:
66
Pruebas de Hiptesis
_____________________________________________________________________________________________
Resolucin:
H0 : = 300 mg.
H1 : 300 mg.
x- 259 . 4 300
t= = = 7 . 20
Sx 5 . 637
- gl = n 1 = 8 1 = 7
- nivel de significancia () = 0.05
- t tabulado = 2.365
Conclusiones
Como el valor del t calculado supera al valor del t tabulado para un nivel de
significancia del 0,05; la hiptesis nula es rechazada, es decir que existe evidencia
estadsticamente significativa para suponer que estos frutos no provienen de una poblacin con
media de 300 mg. de vitamina C.
Ejemplo:
Se desea comparar la ganancia de peso de novillos Aberdeen Angus sometidos
a dos dietas diferentes. Un grupo de novillos fue alimentado con la racin A y otro grupo con la
racin B, ambos grupos fueron seleccionados al azar. Los aumentos de peso en gramos fueron
de:
67
Pruebas de Hiptesis
_____________________________________________________________________________________________
Racin A 175 218 200 234 187 248 179 132 151 219 149 123 206 206
Racin B 142 337 302 253 236 211 249 311 262 195 199 216 176 214
Resolucin:
SP2 =
(n A 1)S 2A + (nB 1)SB2 1 1
= 2.199 ,2 y S - xB = Sp2 + = 17.72
(n A 1) + (nB 1) xA
n A nB
- t tabulado = 2.056
68
Pruebas de Hiptesis
_____________________________________________________________________________________________
Conclusiones
Como el valor del t calculado supera al valor del t tabulado para un nivel de
significancia del 0,05; la hiptesis nula es rechazada, es decir que existe evidencia
estadsticamente significativa para suponer que la ganancia de peso difiere de una racin a
otra.
D0
t=
SD
gl = n 1
69
Pruebas de Hiptesis
_____________________________________________________________________________________________
Pares 1 2 3 4 5 6 7 8 9 10
Racin A 26 25 12 25 20 16 18 21 11 8
Racin B 23 22 16 29 24 15 24 25 16 14
Di 3 3 -4 -4 -4 1 -6 -4 -5 -6
H0 : D i = 0
H1 : D i < 0
D0 2 .6
t = t = = 2,326
SD 1,117
- t tabulado = 1.833
Conclusiones
70
Pruebas de Hiptesis
_____________________________________________________________________________________________
Como el valor del t calculado supera al valor del t tabulado para un nivel de
significancia del 0,05; la hiptesis nula es rechazada, es decir que existe evidencia
estadsticamente significativa para suponer que la ganancia de peso de la racin B es mayor
que la de la A.
2
2 (n 1) S obs
obs = 2
o
Esta prueba se realiza mediante el test F que compara dos variancias a los
efectos de comprobar si las muestras en estudio pertenecen a una misma poblacin de
variancia 2 .
12
2
H0 : =
1
2
2
H0 : =1
22
H1 : 12 22
s12
F0 =
s 22
Este valor calculado se compara con un valor terico de F para diferentes niveles
de probabilidad 5 o 1%.
71
Pruebas de Hiptesis
_____________________________________________________________________________________________
=
2 (observados calculados )2
calculados
Esto implica la definicin de una hiptesis previa que nos permitir calcular
valores tericos y compararlos con los observados en la muestra.
72
Pruebas de Hiptesis
_____________________________________________________________________________________________
Ejemplo:
En ciertos casos de herencia del color de la aleurona del maz interviene slo un
par de genes:
P = Aleurona de color prpura.
p = Aleurona de color blanco.
Cuando se cruza una planta de maz de aleurona prpura con otra de aleurona
blanca, todas las plantas de la primera generacin tienen granos con aleurona prpura. Si se
autofecunda la descendencia, deben aparecer en la segunda generacin, de acuerdo a las
leyes de la herencia, plantas con granos prpuras y blancos en la proporcin 3 a 1 (3:1).
Resolucin:
H0: La proporcin de maces con aleurona color prpura respecto a los que tienen aleurona
color blanco es 3 a 1
H1: La proporcin de maces con aleurona color prpura respecto a los que tienen aleurona
color blanco es distinta de 3 a 1
Para ello debemos construir una tabla que nos ayudar a su calculo:
73
Pruebas de Hiptesis
_____________________________________________________________________________________________
Para la obtencin del 2 tabulado necesitamos saber los grados de libertad apropiados para la
prueba y el nivel de significancia ()
4.- Conclusin:
Este tipo de datos se suelen registrar en una tabla de doble entrada, las que se
denominan tablas de contingencia.
Va Columna
Total
A B
1 A1 B1 1
Va Fila
2 A2 B2 2
Total A B N
Una tabla de contingencia de dos vas (dos criterios de clasificacin) consta de:
Ejemplo:
"La tabla de contingencia de 2 x 2 que se muestra a continuacin, clasifica 708 vacas segn
sean de raza Aberdeen Angus (1) o Hereford (2) con pariciones normales (A) o con abortos
(B). Se desea saber si hay asociacin entre los criterios de clasificacin, es decir si los
abortos son ms frecuentes en una de las razas (hay asociacin o dependencia) o s la
frecuencia de aborto no tiene relacin con la raza (son independientes).
Pariciones
H0: Que la paricin sea normal o con aborto es independiente de la raza del animal
H1: Que la paricin sea normal o con aborto depende de la raza del animal
Las frecuencias esperadas o calculadas se obtienen para cada clase. Por ejemplo para
la clase A1 (Aberdeen Angus y Pariciones Normales) se tiene la siguiente frecuencia calculada:
75
Pruebas de Hiptesis
_____________________________________________________________________________________________
Los grados de libertad: Se puede ver que basta calcular la frecuencia esperada de una celda y
las dems frecuencias se obtienen por diferencia. En consecuencia, para la prueba de
independencia de 2 x 2 como la estudiada, existe slo un grado de libertad. En general para
tablas de contingencia, los grados de libertad se calculan como:
gl = ( f 1) . (c 1) = 1
4.- Conclusin:
76
Pruebas de Hiptesis
_____________________________________________________________________________________________
Los grados de libertad se calculan como el nmero de clases menos uno (1)
menos el nmero de parmetros estimados para el clculo de las frecuencias esperadas,
nmero que depende de la distribucin a la que estamos ajustando. Por lo tanto:
Ejemplo:
Totales 80 80
H0: la variable nmero de virus por cm3 sigue una distribucin de Poisson.
77
Pruebas de Hiptesis
_____________________________________________________________________________________________
Debido a que las ltimas clases tienen una frecuencia menor a 3, se las agrupa en una
sola clase de la siguiente forma
2 2
Clases F Obs. F cal. O-C (O - C) (O - C) /C
4.- Conclusin:
78
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
Anlisis de Regresin
79
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
Y = f(x) +
80
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
E (Y / X ) = Y = 0 + 1 .X
Siendo:
E (Y/X) el valor terico (esperado) de Y para un valor dado de X.
0 y 1 Parmetros desconocidos los cuales se deben estimar.
0 el intercepto u ordenada al origen (valor que asume Y cuando la recta corta a la
ordenada)
1 el coeficiente de regresin o pendiente de la recta.
Y i = a + b X i + e i
Donde:
Yi valor estimado de Yi.
a el estimador de 0
b el estimador de 1
ei residuo o error aleatorio con distribucin N ( 0, 2 ) y Cov (ei, ej) = 0.
o la expresin equivalente
n
S.C.RES. = (Y
i =1
i a b X i ) 2 : [mn]
a n + b X i = Yi
a X i + b X i = X i Yi
2
n n
Yi b X i
i =1 i =1
a= =Y b X
n
y:
81
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
n n
n n X Y n
i =1
x y XY
i =1
i =1
n
i =1
[(X X ) . (Y
i =1
Y )] Cov ( X ,Y )
by / x = = 2
= =
n n
S x2
(X X )
2
n
2
x
n
X
i =1
i =1 i =1
X
i =1
2
(Y ) 2
SCT = i Y = SCExp . + SC Re s.
(Y ) 2
SCExp . = i Y
SC Re s. = Yi Yi ( ) 2
R 2 =
(Yi Y ) 2
=
SCExp.
(Yi Y ) 2 SCT
82
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
Este coeficiente puede tomar valores entre cero y uno, su valor se acerca a 0
cuando no existe relacin entre las variables o bien la misma es muy debil y tiende a 1 a
medida que aumenta la intensidad de la asociacin.
2
H0 :R = 0
2
H1 : R 0
Yi
(Yi Y )
Yi (Yi Y )
Yi
Y
X Xi
Donde:
83
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
CM Exp
Explicada por la glExp.= k CM Exp. =
SCExp
F=
SCExp. gl Exp CM Res
regresin
SCRes.
glRes. = n k 1 CMRes. =
Error SCRes. glRes.
Planteo de hiptesis
H0 : 0 = 0
H1 : 0 0
a
ta =
Sa
Siendo: Sa el error estandr de la ordenada al origen, el cual se puede calcular a partir de la
siguiente expresin:
84
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
1 X2
Sa = S a2 = + CM
n Re s
(X ) 2
i X
Planteo de hiptesis
H0 : 1 = 0
H1 : 1 0
b
tb =
Sb
Siendo: Sb el error estandr de la pendiente, el cual se puede calcular a partir de la siguiente
expresin:
CMRe s.
S b = S b2 =
(
Xi X ) 2
4.- "+ b" es el promedio de los incrementos de "y" debido a aumentos unitarios en "x" y "-
b"
es el promedio de disminuciones de "y" debido a aumentos unitarios en "x".
1.- Los valores estimados por la recta son ms confiables dentro de los valores
observados de x.
4.- El sentido de la recta de regresin est determinado por el signo del coeficiente de
regresin.
Ejemplo de aplicacin
Diagrama de dispersin
0,23
Nitrogeno en planta (ppm)
0,21
0,19
0,17
0,15
0,13
0,41 0,51 0,61 0,71 0,81 0,91 1,01 1,11 1,21
Nitrogeno en Suelo (ppm)
86
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
X Y = 1,5588
X = 8,28 X = 0,69
Y = 2,22 Y = 0,185
X = 6,0728
2
n n
n n XY
8,28 2,22
x y X Y i =1
n
i =1
1,5588
12
b y/x = i =1
= i =1
2
= = 0,159
n
n 8,28 2
2
x
n
X 6,0728
12
i =1
i =1
X i =1
2
Y = 0,076 + 0,159 X
R2 = (Y Y )i
2
=
SCExp. 0.009
= = 0,9473
(Y Y ) i
2
SCT 0.0095
87
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
2
H0 :R = 0
2
H1 : R 0
Explicada por la
0.009 1 0.009 180
regresin
Total 0.0095 11
Planteo de hiptesis
H0 : 0 = 0
H1 : 0 0
Clculo del t a
1 X2 1 0,69 2
Sa = S a2 = + CM 0,00005 = 0,00839
Re s = +
n
(X ) 2
i X 12 0,3596
a 0,076
ta = = = 9,06
Sa 0.00839
88
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
Planteo de hiptesis
H0 : 1 = 0
H1 : 1 0
Clculo del t b
CM Re s . 0,00005
Sb = S b2 = = = 0,0118
( Xi X ) 2
0,3596
b 0,159
tb = = = 13,48
Sb 0,0118
Las hiptesis nula, tanto para la ordenada al origen como para la pendiente son
rechazadas ya que los valores de ta y tb son mayores que el valor de t tabulado, por lo tanto
podemos concluir que la recta no pasa por el origen y que las variables X e Y (nitrogeno en
suelo y nitrogeno en planta) presentan una relacin lineal positiva y significativamente diferente
de cero.
2) Relaciones no lineales
2200
1600
Peso (kg)
1000
400
-200
-10 0 10 20 30 40 50 60 70
DAP (cm)
89
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
y = 0,38 + 1,78 * x
5
LOG (Peso)
-1
-0.5 0.5 1.5 2.5 3.5 4.5
LOG (DAP)
log (y) y log (x) son la nueva variable dependiente e independiente respectivamente, log (a) es
la ordenada al origen y b es la pendiente de la recta.
y = a . e b. x
90
70
Nmero de individuos
50
y = 1,2 * exp(0,3 * x)
30
10
-10
0 2 4 6 8 10 12 14 16
Tiempo (das) 90
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
5.5
4.5
2.5
1.5
0.5
-0.5
0 2 4 6 8 10 12 14 16
Tiempo (das)
1.2
1.0
0.8
Peso Remanente
0.6
0.4
0.2
0.0
-20 20 60 100 140 180 220 260 300
Tiempo (das)
y = a + b log(x)
91
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
430
y=42.4+107.2*log(x)
Productividad (Mg/ha.ao)
380
330
280
100 300 500 700 900 1100
Precipitacin (mm/ao)
380
360
Productividad (Mg/ha.ao)
y=42.4+46.5*x
340
320
300
280
5.0 5.4 5.8 6.2 6.6 7.0 7.4
Log Precipitacin
92
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
Y = a + b1. X1 + b2. X2
-1 r 1
93
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
r = - 1 : Perfecta relacin lineal inversa entre las variables. Todos los puntos
pertenecen a una recta de pendiente negativa.
r = 1 : Perfecta relacin lineal directa entre las variables. Todos los puntos
pertenecen a una recta de pendiente positiva
r = 0 : No hay relacin lineal entre las variables. Ya sea porque, las variables no
estn asociadas, o porque la relacin entre ellas no es lineal
x y Cov ( x , y ) Cov ( X , Y )
= = =
x .y V( x ) . V( y ) S x . Sy
n n
n n x y i i
i =1
x y x
i =1
i yi - i =1
n
i =1
r= =
x y
2 2
n
2
n
2
n x i n y i
i =1 i =1
x i - . y i -
2 2
n n
i =1 i =1
r= by / x . bx / y
Siendo:
n
n
xy x y
i =1 i =1
b y/x = b x/y =
n n
x2 y
2
i =1 i =1
94
Anlisis de Regresin y Correlacin
_____________________________________________________________________________________________
Planteo de hiptesis
H0 : = 0
H1 : 0
Expresin de clculo de t r
r
tr =
Sr
Siendo: Sr el error estandr del coeficiente de correlacin, el cual se puede calcular a partir de
la siguiente expresin:
1 r 2
Sr =
n2
95
EXPERIMENTACION
Hay situaciones donde los datos fueron obtenidos descuidando ciertos principios
bsicos, que, de haberse atendido, con el mismo costo se hubiera logrado una mayor eficiencia
en el anlisis de la informacin.
Hiptesis Estadstica: Suposicin que se verifica slo por mtodos estadsticos. Ya sea sobre
un tipo de distribucin o sobre los parmetros de distribuciones desconocidas.
Ejemplo:"Tal conjunto de datos est distribuido segn la Distribucin de Poisson" (Se supone
sobre el tipo de la distribucin desconocida); "Las varianzas de dos distribuciones son iguales"
(sobre los parmetros de dos distribuciones desconocidas).
Anlisis de la Varianza: Es una tcnica estadstica que sirve para analizar la variacin total de
los resultados de un experimento montado en un diseo particular, descomponindolo en
fuentes de variacin independientes atribuibles a cada uno de los efectos en que se constituye
el experimento.
Se presenta cuando los tratamientos son fijados por el investigador; es decir, no se efecta una
eleccin aleatoria. En estos casos las conclusiones del anlisis de varianza solamente son
vlidas para los tratamientos usados en el experimento. En este apunte solo consideraremos el
caso de modelo de efectos fijos, por ser el que se presenta con mayor frecuencia en la
experimentacin agropecuaria.
Se presenta cuando los tratamientos que intervienen en un experimento son elegidos al azar
de una poblacin. En estos casos las conclusiones del anlisis de varianza son vlidos, tanto
para los tratamientos usados, as como para toda la poblacin de tratamientos.
Este modelo es la combinacin de los dos anteriores y se presenta cuando algunos factores
son fijados y otros son elegidos al azar. En estos casos las conclusiones del anlisis de
97
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
varianza sern vlidas para toda la poblacin de factores cuando estos son elegidos al azar, y
solamente para los factores usados cuando estos son fijados.
Efecto de Borde: En los experimentos pecuarios la unidad experimental por lo general esta
conformada por un animal (novillo, cerdo, etc.), en los experimentos forestales la unidad
experimental en la mayora de los casos esta conformado por un rbol, mientras en los
experimentos agrcolas, la unidad experimental es una parcela de tierra; es en este ltimo caso
con frecuencia se presenta lo que se llama efecto de borde.
- Vecindad de las parcelas reas no cultivadas, que hace que las plantas en los permetros
tengan menor competencia de luz y nutrientes.
Error Experimental: Es una medida de la variacin existente entre parcelas tratadas en forma
similar. Dicha variacin puede provenir de dos fuentes principales: (1) de la variabilidad
inherente al material experimental al cual se aplican los tratamientos; (2) de una variacin
resultante de cualquier falta de uniformidad en la realizacin fsica del experimento.
.
98
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Ejemplo: Si a 50 gallinas se las enjaula juntas y se las alimenta con la misma racin, la unidad
experimental es una parcela de 50 gallinas. Se necesitan otras jaulas de 50 gallinas antes de
poder medir la variacin entre unidades tratadas en forma semejante. Por otra parte cada
gallina ser genticamente diferente de las otras (variabilidad inherente al material) y tambin
las jaulas podrn estarn expuestas a diferentes condiciones de luz, humedad, temperatura,
etc. (falta de uniformidad).
El tipo de suelo.
99
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
La clase de cultivo.
100
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Repeticin:
Estas dos indicaciones, pueden ser dejadas de lado en algunos casos. Esto
puede ocurrir en experimentos de gran precisin (ensayos fsicos, qumicos, etc.) donde se
requiere disminuir el error experimental y por ende un aumento en el nmero de repeticiones, o
bien cuando tenemos un necesidad de realizar un grupo numeroso de ensayos que sern
estudiados en conjunto, teniendo en vista nicamente resultados generales, se puede disminuir
el numero de repeticiones en cada ensayo individual, afn de, con los recursos disponibles,
aumentar el nmero de ensayos.
Aleatorizacin:
101
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
1 1 1 1 2
2 1 2 2 2
1 2 2 1 2
2 1 1 2 1
BLOQUE I II III IV V
Por otro lado, los bloques no necesariamente deben estar uno al lado del otro,
pueden estar distribuidos por todo el campo experimental.
102
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Anlisis de la Varianza
H 0 : 1 = 2 = L = t H 0 : 1 = 2 = L = t = 0
H 1 : Hay al menos una diferencia
1) ADITIVIDAD: Los factores que participan en el modelo son aditivos. Cualquier observacin
es un buen ejemplo de aditividad. En estadstica, un modelo corriente que describa la
naturaleza de una observacin consta de una media ms un error. Este es un modelo
lineal aditivo.
Yi = + i
El modelo ms simple es de la forma:
es decir, "la observacin i-sima es una observacin de la media (), pero est sujeta a un
error de muestreo (i) que acta en forma aditiva sobre ella.
103
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Test de Tukey:
S
% = q%
r
Donde "q" es la "amplitud total estudentizada", obtenida de tabla (pagina 93) en funcin del
nivel de significancia, los grados de libertad del error y el nmero de tratamientos; "S" es el
error estndar o raz cuadrada del cuadrado medio del error; "r" el nmero de repeticiones en
un DCA o el nmero de bloques en un DBCA.
104
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
identificar la significancia es indicar ambas medias con una cruz en una misma columna
cuando no difieren significativamente y en distinta columna si s difieren.
Test de Duncan:
S
D% = Z%
r
Donde "z" es el valor de la amplitud total estudentizada obtenido de tabla (pagina 94) en
funcin del nivel de significancia, del nmero de medias que abarca el contraste (comparacin)
y los grados de libertad del error.
Prueba de Scheff:
Donde: F = es el valor obtenido por tablas (paginas 90 a 92) al nivel del 5 o del 1% de
probabilidad, es funcin de los grados de libertad de tratamientos y los grados de libertad del
error.
105
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Prueba de Dunnet:
Donde "S" es el error estndar o raz cuadrada del cuadrado medio del error y
X g la media general del ensayo.
Experimentos simples
Y ij = + t i + ij
106
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Ventajas:
El nmero de grados de libertad para estimar el error experimental es mximo; esto mejora
la precisin y es importante con experimentos pequeos, por ello se recomienda que todo
experimento no deba tener menos de 20 parcelas y que los grados de libertad del error no sean
menores que 12.
Desventajas:
El error experimental incluye toda la variacin entre las unidades experimentales excepto la
debida a los tratamientos, por ello frecuentemente es muy grande. Como alternativa podemos
agrupar las unidades experimentales de manera de disminuir esa variacin y aumentar la
eficiencia del ensayo.
107
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
DentroError SCD
SCD = SCT - SCE gld = t x ( r -1) CMD =
Experimental gld
Tabla 1
(Donde: t = nmero de tratamientos; r = nmero de repeticiones;
N = nmero de observaciones totales = t x r)
i, j i,j N
Y12 + L + Yt 2
SCE = C
r
Siendo: Y1 hasta Yt los totales de los tratamiento, desde el tratamiento 1 hasta el tratamiento t.
108
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Ejemplo de Aplicacin:
RACIONES (tratamientos)
A B C D Totales
35 40 39 27 141
19 35 23 12 89
31 46 20 13 110
15 41 29 28 113
30 33 45 30 138
Totales 130 195 156 110 591
1) Planteo de Hiptesis a probar: "Las medias por tratamiento son iguales". (Consideramos as,
que el efecto de las raciones es nulo).
SCT = Y
i, j
2
i j C = ( 35 2 + ... + 30 2 + ... + 27 2 + ... + 30 2 ) 17464 ,05 = 1960 ,95
Y 12 + L + Y t 2 130 2
+ ... + 110 2
SCE = C = 17464 ,05 = 808 ,15
r 5
109
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Suma de Cuadrados
Fuentes de Variacin gl F Calculado
cuadrados Medios
Dentro
1152,8 16 72,05
Error Experimental
Total 1960,95 19
4) Conclusin parcial: Como el valor que corresponde al F calculado (3,74) es mayor que el
correspondiente al F tabulado (3,24) , la hiptesis nula es rechazada, por lo tanto podemos
concluir que existen diferencias significativas entre medias. Para detectar cuales difieren
significativamente y cuales solo por el azar aplicaremos el Test de Tukey y el de Duncan para
detectar tales diferencias.
Recordar que este test nos permite comparar las medias tomadas dos a dos, es
decir de a pares. Como punto de partida debemos calcular la diferencia mnima significativa
(d.m.s) como:
S 72,05
d. m.s5% = 5% = q5% = 4,05 = 15,374
r 5
Donde: q se obtiene de la tabla de la pagina 93 en funcin del nivel de significancia (5%), del
nmero de tratamientos (4 en este caso) y de los grados de libertad del error (para este caso
gld =16).
Previo a las conclusiones por este test, para facilitar las comparaciones se
ordenan los tratamientos segn sus medias, de menor a mayor.
110
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
A diferencia del test de Tukey este test compara medias de a grupos. Por lo
tanto para este caso que contamos con 4 medias necesitamos calcular 3 d.m.s. (una para
comparar grupos de dos medias, otra para comparar grupos de tres medias y la ltima para
comparar grupos de 4 medias). La expresin general para el clculo de las d.m.s es:
S
d .m.s.5% = D5% = Z 5%
r
Donde: Z se obtiene de la tabla de la pagina 94 en funcin del nivel de significancia (5%), del
nmero de tratamientos que forman el grupo (2, 3 o 4 segn corresponda) y de los grados de
libertad del error (para este caso gld =16).
Los valores de las d.m.s. para esta prueba se resumen en la siguiente tabla:
111
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Nota: Como se puede ver al comparar el test de Tukey con el de Duncan, este ltimo es menos
riguroso, esto es, da diferencias significativas con ms facilidad que el primero.
6) Conclusin final:
Para el test de Duncan las raciones B y C son las que producen el mayor
aumento de peso, siendo la diferencia entre ellas debido al azar.
Y ij = + t i + b j + ij
112
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
C F D D E B
A B E F C A
E D F D F A
B C A C E B
B 12 + L + B r2
SCB = C
t
Siendo: B1 hasta Br los totales de los bloques, desde el bloque 1 hasta el bloque r.
113
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
SCB
Bloques CMB =
SCB glb = r 1 glb
Ejemplo de Aplicacin:
Bloques Totales
Variedades 1 2 3 4 Variedad
114
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
1) Planteo de Hiptesis a probar: "Los rendimientos medios de las variedades son iguales".
(Consideramos as, que el efecto de las variedades es nulo).
2
Yi j
( 631,8 ) 2
C =
i, j
= = 12474,10
N 84
SCT = Y
i, j
2
i j C = (9,2 2 + ... + 13,4 2 + ... + 112 + ... + 9,2 2 + ... + 24,6 2 ) 12474 ,10 = 1153 ,46
Y 12 + L + Y t 2 42 ,8 2 + ... + 91,2 2
SCE = C = 12474 ,10 = 930 ,61
r 4
SCD = SCT SCE SCB = 1153 ,46 930 ,61 46 ,72 = 176 ,13
Suma de Cuadrados
Fuentes de Variacin gl F Calculado
cuadrados Medios
Dentro
176,13 21 8,39
Error Experimental
Total 1153,46 31
4) Conclusin parcial: Como el valor que corresponde al F calculado (15,85) es mayor que el
correspondiente al F tabulado (2,49) , la hiptesis nula es rechazada, por lo tanto podemos
concluir que existen diferencias significativas entre medias. Para detectar cuales difieren
significativamente y cuales solo por el azar aplicaremos el Test de Tukey para detectar tales
diferencias.
115
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
S 8,39
d . m. s 5% = 5% = q 5% = 4,745 = 6,87
r 4
Donde: q se obtiene de la tabla de la pagina 93 en funcin del nivel de significancia (5%), del
nmero de tratamientos (8 en este caso) y de los grados de libertad del error (para este caso
gld =21).
6) Conclusin final:
116
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Yijk = + t i + c j + hk + ij
117
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Experimentos Factoriales
118
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
principal del factor. Por ejemplo, considrense los datos de la Tabla 1 que corresponden al
rendimiento de dos variedades de un cultivo sometido a dos pocas de siembra.
Factor B (poca)
Factor A (variedad) B1 B2
A1 20 30
A2 50 10
Tabla 1: Considerar A1 y A2 niveles del factor variedad y, B1 y B2 niveles del factor poca
50 + 10 20 + 30
A= =5
2 2
Esto es, cambiar el factor A del nivel 1 al nivel 2 (cambiar la variedad A1 por la A2) provoca un
incremento de 5 unidades en el rendimiento promedio del cultivo. De manera semejante, el
efecto principal de B es:
30 + 10 20 + 50
B= = 15
2 2
En este caso, cambiar el factor B del nivel 1 al nivel 2 (cambiar la poca B1 por la B2) provoca
una disminucin de 15 unidades en el rendimiento promedio del cultivo
Si la diferencia en respuesta entre los niveles de un factor no es la misma en todos los niveles
del otro factor, se dice que existe interaccin entre los factores. Por ejemplo, analizando los
datos de la Tabla 1, vemos que en el primer nivel del factor A (A1) el efecto de B es
B = 30 20 = 10
B = 10 50 = 40
Puesto que el efecto de B depende del nivel seleccionado para el factor A, se dice que existe
interaccin entre A y B. Es decir que el efecto de la poca de siembra sobre el rendimiento del
cultivo no es el mismo para las variedades A1 y A2, mientras que con la variedad A1 se produce
un aumento promedio de 10 unidades en el rendimiento, con la variedad A2 se produce una
disminucin promedio de 40 unidades en el mismo.
Veamos ahora una situacin hipottica en donde no hay interaccin entre los
factores. Para ello analicemos los datos de la Tabla 2
119
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Factor B (poca)
Factor A (variedad) B1 B2
Tabla 2
A1 20 30
A2 50 60
B = 30 20 = 10
B = 60 50 = 10
Puesto que el efecto de B no depende del nivel seleccionado para el factor A, se dice que no
existe interaccin entre A y B. Es decir que el efecto de la poca de siembra sobre el
rendimiento del cultivo es el mismo para ambas variedades.
Rend. Rend.
A2
60 - 60 -
A2
50 - 50 - A2
40 - 40 -
A1 A1
30 - 30 -
A1 A1
20 - 20 -
10 - A2 10 -
0
l l l l
B1 B2 0 B1 B2
120
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
y el diseo en bloques completos al azar (DBCA), hasta diseos ms complejos como son en
parcela dividida (DPD), diseos en franja (DF) o en bloque divididos (DBD), etc.
Eleccin de factores
Factores cuantitativos: presentan la caracterstica que sus niveles son cantidades numricas
de una variable cuantitativa. Estos factores son frecuentes en qumica, agricultura, medicina,
fsica, etc. Ejemplos: dosis crecientes de nitrgeno, temperaturas crecientes, presiones,
cantidades crecientes en la concentracin de un reactivo, etc.
Factores cualitativos: no presentan un orden natural establecido y cada nivel tiene un inters
intrnseco. Por ejemplo: variedades de trigo, tcnicas en la poda de rboles, etc. Tambin
pertenecen a este grupo los factores constituidos por categoras, por ejemplo: diferentes
clases de lana, diferentes laboratorios que participan en ensayos cada uno con sus equipos,
material, personal, etc.
Permite el estudio de los efectos principales, los de interaccin, y los efectos simples.
Permite que todas las unidades intervengan en la determinacin de los efectos
principales y en la interaccin de los factores.
El nmero de grados de libertad del error es elevado contribuyendo a disminuir la
varianza del error y aumentando la precisin del ensayo.
121
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
uno con cuatro niveles, las combinaciones entre los niveles de un factor con cada nivel
de los restantes factores generan 64 tratamientos; si el ensayo tuviese 4 repeticiones
tendremos 256 parcelas.
En los ensayos factoriales completos se deben combinar todos los niveles de cada
factor entre si a los efectos que el anlisis sea balanceado, el resultado es que a veces
algunas combinaciones no tienen ningn inters prctico, como se observa en el
siguiente ejemplo: tenemos el factor labranza, sin labranza ( labranza 0), con una
labranza ( labranza 1), con dos labranzas (labranza 2) y el factor encalado, testigo (0
tn), 4 tn y 8 tn. Las combinaciones correspondientes a encalado sin labranza no tienen
ningn inters prctico ya que la cal quedara sin enterrar.
Y ijk = + i + j + ( ) ij + ijk
Donde:
Yijk = Observacin bajo el i-simo nivel del factor A, j-simo nivel del factor B, repeticin k.
= Media general del ensayo.
i = Efecto del tratamiento A.
j = Efecto del tratamiento B .
( )ij = Efecto de la interaccin (A x B).
ijk = Error experimental (factores no controlados).
122
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
SC A CM A
SCA CM A = F=
Factor A glA = a 1 gl A CMD
SCB CM B
SCB CMB = F=
Factor B glB = b 1 gl B CMD
Error SCD
SCD glE = ab (r 1) CMD =
Experimental gl E
Tabla 3: (Donde: a = niveles del factor A; b = niveles del factor B; r = nmero de repeticiones)
Siendo: Yij k Observacin bajo el i-simo nivel del factor A, i = 1,2, , a; j-simo nivel del
factor B, j = 1,2, , b; repeticin k-sima, k = 1,2, , r.
C = termino corrector o factor de correccin.
Y12 + L + Ya2
SC A = C
rb
Siendo: Y1 hasta Ya los totales de los niveles del factor A desde el nivel 1 hasta el nivel a.
123
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Y12 + L + Yb2
SCB = C
ra
Siendo: Y1 hasta Yb los totales de los niveles del factor B desde el nivel 1 hasta el nivel b.
Y112 + L + Yab2
SCE = C
r
Siendo: Y11 hasta Yab los totales de las combinaciones (tratamientos), desde la combinacin
11 hasta la combinacin ab.
124
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Y ijk = + k + i + j + ( ) ij + ijk
Donde:
SCB
SCB glb = r 1 CMB =
Bloque glb
SC A CM A
SCA glA = a 1 CM A = F=
Factor A gl A CMD
SCB CM B
SCB glB = b 1 CM B = F=
Factor B gl B CMD
CMAB
Interaccin SCAxB glAB =(a 1) (b 1) CMAB =
SCAB F=
glAB CMD
(A x B)
Error CMD =
SCD
SCD glE = (ab -1) (r 1) gl E
Experimental
Tabla 4: (Donde: a = niveles del factor A; b = niveles del factor B; r = nmero de bloques)
Los clculos de las sumas de cuadrado para el total, para los factores (A y B) y
para la interaccin (AxB) son similares que para un DCA. Para la Suma de cuadrado de bloque
(SCB) podemos utilizar la siguiente expresin:
B 12 + L + B r2
SCB = C
ab
125
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Siendo: B1 hasta Br los totales de los bloques, desde el bloque 1 hasta el bloque r.
Test de Tukey
Cuando los efectos principales son independientes (es decir, no hay interaccin
significativa entre los factores) y la prueba de F fuera significativa para algunos de los factores
o para ambos, debemos analizar el efecto que producen los distintos niveles del factor o de los
factores, respectivamente, sobre la variable analizada. En estos casos la forma que toma la
expresin del clculo de la d.m.s para la prueba de Tukey es la siguiente:
S
= q( ;glE ;a ) .
rb
S
= q( ;gl E ;b ) .
ra
Donde: q se obtiene de la tabla de la pagina 93 en funcin del nivel de significancia
(generalmente 5%), del nmero de niveles del factor B y de los grados de libertad del error.
Por otro lado cuando los efectos principales no son independientes (es decir, hay
interaccin significativa entre los factores) el anlisis de los efectos principales no corresponde.
En su lugar una forma posible de analizar los datos es comparar todos los tratamientos de a
pares por el Test de Tukey mediante la siguiente expresin:
S
= q( ;gl E ;ab ) .
r
Donde: q se obtiene de la tabla de la correspondiente en funcin del nivel de significancia
(generalmente 5%), del nmero de tratamientos y de los grados de libertad del error.
126
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Tratamientos Totales de
Bloques
N0P0 N1P0 N0P1 N1P1 Bloque
Hiptesis 1: No hay diferencias de rendimiento entre los dos niveles de nitrgeno ( N0 = N1)
Hiptesis 2: No hay diferencias de rendimiento entre los dos niveles de fsforo ( P0 = P1)
Hiptesis 3: No hay interaccin entre los factores (independencia).
2
Yi j k
( 63 ,3 ) 2
C =
i , j ,k
= = 200,3445
N 2x2x5
( )
SCT = Yi 2j k C = 1,00 2 + L + 1,50 2 + L + 3,20 2 + L + 3,80 2 200,3445 = 69,6855
i , j ,k
127
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Para facilitar los clculos posteriores creamos una tabla de doble entrada como
la siguiente:
N0 N1 Totales
P0 6,40 7,90 14,30
P1 23,20 25,80 49,00
Totales 29,60 33,70 63,30
SC A =
Y12 + L + Ya2
C =
(
29,60 2 + 33,70 2 )
200,3445 = 0,8405
rb 5x2
SC B =
Y12 + L + Yb2
C =
(
14,30 2 + 49,00 2 )
200,3445 = 60,2045
ra 5x2
SCE =
Y112 + L + Yab2
C =
(
6,4 2 + 7,90 2 + 23,20 2 + 25,80 2 )
200,3445 = 61,1055
r 5
SCB =
B12 + L + B r2
C =
(
9,5 2 + 13 ,40 2 + 13 ,90 2 + 14 ,40 2 + 12,10 2 )
200 ,3445 = 3,853
ab 2x2
SCD = SCT SCB SC A SC B SC AxB = 69,6855 3,853 0,8405 60,2045 0,0605 = 4,727
Suma de Cuadrados
Fuentes de Variacin gl F Calculado
cuadrados Medios
Total 69,6855 19
128
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
5) Grfico de Interaccin
6
P1
5
4
Rend.
3
2 P0
1
0
0 1
N
129
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Donde: q se obtiene de la tabla de la pagina 93 en funcin del nivel de significancia (5%), del
nmero de niveles del factor Fsforo (2 en este caso) y de los grados de libertad del error (para
este caso gld =12).
Para facilitar las comparaciones se ordenan los tratamientos segn sus medias,
de menor a mayor.
Como se puede ver de la aplicacin del Test de Tukey surgen las mismas conclusiones que las
obtenidas a partir de la prueba de F, es decir que el fsforo en la dosis 1 es el que maximiza el
rendimiento.
130
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
Hiptesis 1: No hay diferencias de rendimiento entre los dos niveles de nitrgeno ( N0 = N1)
Hiptesis 2: No hay diferencias de rendimiento entre los dos niveles de fsforo ( P0 = P1)
Hiptesis 3: No hay interaccin entre los factores (independencia).
Suma de Cuadrados
Fuentes de Variacin Gl F Calculado
cuadrados Medios
Dentro
15.911 12 1.32592
Error Experimental
Total 207.992 19
La interaccin significa que el efecto del nitrgeno no es el mismo para los diferentes niveles de
fsforo o viceversa.
131
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
5) Grfico de Interaccin
6
5
4
P1
Rend.
3
2 P0
1
0
0 1
N
Donde: q se obtiene de la tabla de la pagina 93 en funcin del nivel de significancia (5%), del
nmero de tratamientos (4 en este caso) y de los grados de libertad del error (para este caso
gld =12).
Previo a las conclusiones por este test, para facilitar las comparaciones se
ordenan los tratamientos segn sus medias, de menor a mayor.
132
Anlisis de la Variancia y Diseo de Experimentos
_____________________________________________________________________________________________
133