Escolar Documentos
Profissional Documentos
Cultura Documentos
No obstante, puede que exista una relacin que no sea lineal, sino exponencial, parablica, etc. En estos casos, el coeficiente de correlacin lineal medira mal la intensidad de la relacin las variables, por lo que convendra utilizar otro tipo de coeficiente ms apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlacin lineal, lo mejor es representar los pares de valores en un grfico y ver que forma describen. El coeficiente de correlacin lineal se calcula aplicando la siguiente frmula:
Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamao de la muestra. Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raz cuadrada. Los valores que puede tomar el coeficiente de correlacin "r" son: -1 < r < 1 Si "r" > 0, la correlacin lineal es positiva (si sube el valor de una variable sube el de la otra). La correlacin es tanto ms fuerte cuanto ms se aproxime a 1. Por ejemplo: altura y peso: los alumnos ms altos suelen pesar ms.
r=
Coeficiente de correlacin mltiple. En el contexto del anlisis de la regresin lineal simple el coeficiente de correlacin mltiple establece una medida del grado de asociacin lineal entre la variable respuesta y la variable predictora, concretamente entre la variable respuesta y la recta de regresin estimada. Se define, a partir de los n pares de observaciones, mediante
Cuando todos los puntos se encuentran sobre la recta de regresin estimada, es decir, "el ajuste es perfecto", la suma de cuadrados de residuos, SSE, toma el valor cero y , por tanto, R2 = 1. El denominador de la ltima expresin es una medida de la variabilidad total de las n observaciones de la variable respuesta.
2. Coeficiente de determinacin
Ajuste ordinario por mnimos cuadrados. Mientras los puntos no disten mucho de la lnea de la regresin, el coeficiente de determinacin adoptar valores altos. En estadstica, el coeficiente de determinacin, denominado R2 y pronunciado R cuadrado, es un estadstico usado en el contexto de un modelo estadstico cuyo principal propsito es predecir futuros resultados o testear una hiptesis. El coeficiente determina la calidad del modelo para replicar los resultados, y la proporcin de variacin de los resultados que puede explicarse por el modelo. Hay varias definiciones diferentes para R2 que son algunas veces equivalentes. Las ms comunes se refieren a la regresin lineal. En este caso, el R2 es simplemente el cuadrado del coeficiente de correlacin de Pearson, lo cual es slo cierto para la regresin lineal simple. Si existe varios resultados para una nica variable, es decir, para una X existe una Y, Z... el coeficiente de determinacin resulta del cuadrado del coeficiente de determinacin mltiple. En ambos casos el R2 adquiere valores entre 0 y 1. Existen casos dentro de la definicin computacional de R2 donde este valor puede tomar valores negativos . Clculo Caso general: Un modelo estadstico se construye para explicar una variable aleatoria que llamaremos dependiente a travs de otras variables aleatorias a las que llamaremos factores. Dado que podemos predecir una variable aleatoria mediante su media y que, en este caso, el error cuadrtico medio es su varianza, el mximo error cuadrtico medio que podemos aceptar en un modelo para una variable aleatoria que posea los dos primeros momentos es la varianza. Para estimar el modelo haremos varias observaciones de la variable a predecir y de los factores. A la diferencia entre el valor observado de la variable y el valor predicho la llamaremos residuo. La media cuadrtica de los residuos es la varianza residual. Si representamos por la varianza de la variable dependiente y la varianza residual por determinacin viene dado por la siguiente ecuacin: , el coeficiente de
Donde:
es la covarianza de es la desviacin tpica de la variable es la desviacin tpica de la variable En un modelo lineal, la variable dependiente se explica mediante la ecuacin
Modelo lineal
. Si observamos veces tanto la variable aleatoria como los factores, podemos ordenar nuestras observaciones de la variable dependiente en una matriz mientras que colocaremos las de los factores en la matriz de regresin . Cada observacin corresponder a una coordenada de y a una fila de . Cada columna de la matriz de regresin corresponde a las observaciones de un factor. En cada
observacin el modelo cometer un error: Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.
es la parte de la variacin de explicada por el modelo lineal. que no explica el modelo lineal. Sumando estas dos partes, obtenemos .
es la parte de la variacin de
Problema: El valor del coeficiente de determinacin siempre aumenta cuando incluimos nuevas variables en el modelo, incluso cuando stas son poco significativas o tienen poca correlacin con la variable dependiente. Para resolverlo tenemos el coeficiente de determinacin corregido. Bibliografa http://www.aulafacil.com/CursoEstadistica/Lecc-12-est.htm http://dm.udc.es/asignaturas/estadistica2/sec6_8.html