Escolar Documentos
Profissional Documentos
Cultura Documentos
En teora de probabilidad, la varianza (que suele representarse como ) de una variable aleatoria es una medida de dispersin definida como la esperanza del cuadrado de la desviacin de dicha variable respecto a su media. Est medida en unidades distintas de las de la variable. Por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La desviacin estndar, es la raz cuadrada de la varianza, es una medida de dispersin alternativa expresada en las mismas unidades de los datos de la variable objeto de estudio. La varianza tiene como valor mnimo 0. Hay que tener en cuenta que la varianza puede verse muy influida por los valores atpicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersin ms robustas. El trmino varianza fue acuado por Ronald Fisher en un artculo de 1918 titulado The Correlation Between Relatives on the Supposition of Mendelian Inheritance (La correlacin entre los parientes en la suposicin de la herencia mendeliana.).
Definicin
Dada una variable aleatoria X con media = E(X), se define su varianza, Var(X) (tambin representada como o, simplemente 2), como
Si una distribucin no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su ndice k satisface 1 < k 2.
Caso continuo
Donde
Caso discreto
Donde
La distribucin exponencial de parmetro es una distribucin continua con soporte en el intervalo [0, ) y funcin de densidad
Es decir, 2 = 2.
Dado perfecto
Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a 1/6. El valor esperado es (1+2+3+4+5+6)/6 = 3,5. Por lo tanto, su varianza es:
Propiedades de la varianza
Siendo a y b nmeros reales cualesquiera. De esta propiedad se deduce que la varianza de una constante es cero, es decir, , donde Cov(X,Y) es la covarianza de X e Y. , donde Cov(X,Y) es la covarianza de X e Y.
Varianza muestral
En muchas situaciones es preciso estimar la varianza de una poblacin a partir de una muestra. Si se toma una muestra con reemplazamiento de n valores de ella, de entre todos los estimadores posibles de la varianza de la poblacin de partida, existen dos de uso corriente:
A los dos (cuando est dividido por n y cuando lo est por n-1) se los denomina varianza muestral. Difieren ligeramente y, para valores grandes de n, la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la poblacin y el segundo es un estimador insesgado de la varianza de la poblacin. De hecho,
Mientras que
Propiedades de la varianza muestral Como consecuencia de la igualdad, s2 es un estadstico insesgado de . Adems, si se cumplen las condiciones necesarias para la ley de los grandes nmeros, s2 es un estimador consistente de Ms an, cuando las muestras siguen una distribucin normal, por el teorema de Cochran, Tiene la distribucin chi-cuadrado:
El coeficiente de correlacin
El coeficiente de correlacin sirve para medir la correlacin entre 2 variables. La ventaja que tiene este coeficiente sobre otras herramientas para medir la correlacin, como puede ser la covarianza, es que los resultados del coeficiente de correlacin estn acotados entre -1 y +1. Esta caracterstica nos permite comparar diferentes correlaciones de una manera ms estandarizada. El coeficiente de correlacin se puede calcular con Excel mediante el comando COEF.DE.CORREL. Tambin se puede calcular mediante la frmula:
Siendo Cov (X,Y) la covarianza entre las series temporales X e Y, y X e Y las desviaciones estndar de X e Y. Interpretacin Como he mencionado antes, el coeficiente de correlacin tiene un valor acotado entre -1 y +1. Los valores cercanos a cero indican que no hay asociacin entre las variables. Valores cercanos a uno indican una asociacin fuerte, mientras que los valores cercanos a menos uno indican una asociacin fuerte pero inversa. Por ejemplo, si el coeficiente de correlacin entre dos activos financieros es mayor que 0,70, podemos decir que estn muy correlacionados positivamente. Por el contrario, si el valor de este coeficiente est entre -0,20 y +0,20, la correlacin ser baja. Por ltimo, si el coeficiente de correlacin es menor que -0,70 existir una gran correlacin, pero negativa.
El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables. El coeficiente de correlacin lineal se expresa mediante la letra r.
Propiedades del coeficiente de correlacin 1 . El c o e f i c i e n t e d e c o r r e l a c i n no vara al hacerlo la escala de medicin. Es decir, si expresamos la altura en metros o en centmetros el coeficiente de correlacin no vara. 2 . El signo del c o e f i c i e n t e d e c o r r e l a c i n es el mismo que el de la c o v a r i a n z a . Si la covarianza es positiva, la correlacin es directa. Si la covarianza es negativa, la correlacin es inversa. Si la covarianza es nula, no existe correlacin. 3 . El c o e f i c i e n t e d e c o r r e l a c i n l i n e a l es un nmero real comprendido entre 1 y 1. 1 r 1 4. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte e inversa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 5. Si el coeficiente de correlacin lineal toma valores cercanos a 1 la correlacin es fuerte y directa, y ser tanto ms fuerte cuanto ms se aproxime r a 1. 6. Si el coeficiente de correlacin lineal toma valores cercanos a 0, la correlacin es dbil. 7 . Si r = 1 1, los puntos de la nube estn sobre la recta creciente o decreciente. Entre ambas variables hay d e p e n d e n c i a f u n c i o n a l .
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes: Matemticas Fsica 2 1 3 3 4 2 4 4 xi yi 2 9 8 16 20 24 36 28 42 56 90 100 431 5 4 6 4 6 6 7 4 7 6 8 7 10 9 10 10
Hallar el c o e f i c i e n t e d e c o r r e l a c i n de la distribucin e interpretarlo. xi 2 3 4 4 5 6 6 7 7 8 10 10 72 yi 1 3 2 4 4 4 6 4 6 7 9 10 60 xi2 4 9 16 16 25 36 36 49 49 64 100 100 504 yi2 1 9 4 16 16 16 36 16 36 49 81 100 380
1 Hallamos las m e d i a s a r i t m t i c a s .
2 Calculamos la c o v a r i a n z a .
3 Calculamos las d e s v i a c i o n e s t p i c a s .
Al ser el c o e f i c i e n t e d e c o r r e l a c i n positivo, la correlacin es directa. Como c o e f i c i e n t e d e c o r r e l a c i n est muy prximo a 1 la correlacin es muy fuerte.
1 2 3
Al ser el c o e f i c i e n t e d e c o r r e l a c i n negativo, la correlacin es inversa. Como c o e f i c i e n t e d e c o r r e l a c i n est muy prximo a 0 la correlacin es muy dbil.
Su cuadrado, R2, denominado coeficiente de determinacin mltiple, puede interpretarse como el porcentaje de variabilidad de Y explicada o debida a la recta de regresin, en tanto que puede comprobarse que
Cuando todos los puntos se encuentran sobre la recta de regresin estimada, es decir, "el ajuste es perfecto", la suma de cuadrados de residuos, SSE, toma el valor cero y , por tanto, R2 = 1. El denominador de la ltima expresin es una medida de la variabilidad total de las n observaciones de la variable respuesta.