Escolar Documentos
Profissional Documentos
Cultura Documentos
html
Correlacin de Spearman La correlacin de Spearman (rs) es una medida de relacin lineal entre dos variables. Se diferencia de la correlacin de Pearson en que utiliza valores medidos a nivel de una escala ordinal. Si alguna de las variables est medida a nivel de escala de intervalo/razn deber procederse antes de operar el estadstico a su conversin en forma ordinal. Por ejemplo, si tenemos las siguientes variables: X 7 5 8 9 Y 4 7 9 8
El primer valor de X (en este caso 7) se convierte en 2 porque el 7 es el segundo valor ms pequeo de X. El valor en X de 5 se convierte en 1 porque es el ms pequeo.
La formula clsica suele expresarse como: Obteniendose las diferencias de rangos en primer lugar: di di2 -------2-1 1
Nota: La correlacin de Spearman puede ser calculada con la formula de de Pearson si antes hemos transformado las puntuaciones en rangos. Por ejemplo, utilizando la formula de Pearson para tpicas: Zx Zy Zx*Zy
---------------------------.38730 -1.16190 .45 -1.16190 -.38730 .45 .38730 1.16190 .45 1.16190 .38730 .45 -------1.80
El coeficiente de correlacin de Spearman es menos sensible que el de Pearson para los valores muy lejos de lo esperado. En este ejemplo: Pearson = 0.30706 Spearman = 0.76270 En estadstica, el coeficiente de correlacin de Spearman, (ro) es una medida de la correlacin (la asociacin o interdependencia) entre dos variables aleatorias continuas. Para calcular , los datos son ordenados y reemplazados por su respectivo orden. El estadstico viene dado por la expresin:
donde D es la diferencia entre los correspondientes estadsticos de orden de x - y. N es el nmero de parejas. Se tiene que considerar la existencia de datos idnticos a la hora de ordenarlos, aunque si stos son pocos, se puede ignorar tal circunstancia Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximacin a la distribucin t de Student
de Pearson. Oscila entre -1 y +1, indicndonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlacin pero no independencia. La tau de Kendall es un coeficiente de correlacin por rangos, inversiones entre dos ordenaciones de una distribucin normal bivariante.
Contenido
[ocultar]
[editar] Ejemplo
Los datos brutos usados en este ejemplo se ven debajo. CI Horas de TV a la semana 106 7 86 0 100 28 100 50 99 28 103 28 97 20 113 12 113 7 110 17 El primer paso es ordenar los datos de la primera columna. Despus, se crean dos columnas ms. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Despus se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2". Esta ltima es slo la columna "d" al cuadrado. Despus de realizar todo esto con los datos del ejemplo, se debera acabar con algo como lo siguiente:
CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2 86 0 1 1 0 0 97 20 2 6 4 16 99 28 3 8 5 25 100 50 4.5 10 5.5 30.25 100 28 4.5 8 3.5 12.25 103 28 6 8 2 4 106 7 7 2.5 4.5 20.25 110 17 8 5 3 9 113 7 9.5 2.5 7 49 113 12 9.5 4 5.5 30.25 Ntese como el nmero de orden de los valores que son idnticos es la media de los nmeros de orden que les corresponderan si no lo fueran. Los valores de la columna d2 pueden ser sumados para averiguar de n es 10. As que esos valores pueden ser sustitudos en la frmula. . El valor
De lo que resulta
determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Ms abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los aos se han usado complicados trucos matemticos para generar tablas para tamaos de muestra cada vez mayores, de modo que no es prctico para la mayora extender las tablas existentes. Una aproximacin alternativa para tamaos de muestra suficientemente grandes es una aproximacin a la distribucin t de Student. Para tamaos de muestra ms grandes que unos 20 individuos, la variable
tiene una distribucin t de Student en el caso nulo (correlacin cero). En el caso no nulo (ej: para averiguar si un observado es significativamente diferente a un valor terico o si dos s observados difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribucin t. Una generalizacin del coeficiente de Spearman es til en la situacin en la cual hay tres o ms condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrn un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorar de intento en intento. Un test de la significacin de la tendencia entre las condiciones en esta situacin fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.
Ejemplo de una regresin lineal con una variable dependiente y una variable independiente.
En estadstica la regresin lineal o ajuste lineal es un mtodo matemtico que modeliza la relacin entre una variable dependiente Y, las variables independientes Xi y un trmino aleatorio . Este modelo puede ser expresado como:
: variable dependiente, explicada o regresando. : variables explicativas, independientes o regresores. : parmetros, miden la influencia que las variables explicativas tienen sobre el regresando. donde es la interseccin o trmino "constante", las son los parmetros respectivos a cada variable independiente, y es el nmero de parmetros independientes a
tener en cuenta en la regresin. La regresin lineal puede ser contrastada con la regresin no lineal.
Contenido
[ocultar]
1 Historia o 1.1 Etimologa 2 El modelo de regresin lineal 3 Hiptesis modelo de regresin lineal clsico 4 Supuestos del modelo de regresin lineal 5 Tipos de modelos de regresin lineal o 5.1 Regresin lineal simple 5.1.1 Anlisis o 5.2 Regresin lineal mltiple 6 Rectas de regresin 7 Aplicaciones de la regresin lineal o 7.1 Lneas de tendencia o 7.2 Medicina 8 Vase tambin 9 Referencias 10 Bibliografa 11 Enlaces externos
[editar] Historia
La primera forma de regresiones lineales documentada fue el mtodo de los mnimos cuadrados, el cual fue publicado por Legendre en 1805,1 y en dnde se inclua una versin del teorema de Gauss-Mrkov.
[editar] Etimologa
El trmino regresin se utiliz por primera vez en el estudio de variables antropomtricas: al comparar la estatura de padres e hijos, result que los hijos cuyos padres tenan una estatura muy superior al valor medio tendan a igualarse a ste, mientras que aquellos cuyos padres eran muy bajos tendan a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.2 La constatacin emprica de esta propiedad se vio reforzada ms tarde con la justificacin terica de ese fenmeno. El trmino lineal se emplea para distinguirlo del resto de tcnicas de regresin, que emplean modelos basados en cualquier clase de funcin matemtica. Los modelos lineales son una explicacin simplificada de la realidad, mucho ms gil y con un soporte terico por parte de la matemtica y la estadstica mucho ms extenso.
Pero bien, como se ha dicho, podemos usar el trmino lineal para distinguir modelos basados en cualquier clase de aplicacin.
Para cada valor de X la perturbacin tomar distintos valores de forma aleatoria, pero no tomar sistemticamente valores positivos o negativos, sino que se supone que tomar
algunos valores mayores que cero y otros menores, de tal forma que su valor esperado sea cero. 2. Homocedasticidad para todo t Todos los trminos de la perturbacin tienen la misma varianza que es desconocida. La dispersin de cada en torno a su valor esperado es siempre la misma. 3. Incorrelacin. con t distinto de s para todo t,s
Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no estn correlacionadas o autocorrelacionadas. Esto implica que el valor de la perturbacin para cualquier observacin muestral no viene influenciado por los valores de la perturbacin correspondientes a otras observaciones muestrales. 4. Regresores no estocsticos. 5. No existen relaciones lineales exactas entre los regresores. 6. Suponemos que no existen errores de especificacin en el modelo ni errores de medida en las variables explicativas 7. Normalidad de las perturbaciones
Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son de la forma:4 (6) donde es el error asociado a la medicin del valor y siguen los supuestos de modo que y con ).
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene:5 (7)
Derivando respecto a
(9)
(10) Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:4
(11)
La regresion lineal nos permite trabajar con una variable a nivel de intervalo o razn, as tambin se puede comprender la relacin de dos o ms variables y nos permitir relacionar mediante ecuaciones, una variable en relacin a otras variables llamndose Regresin mltiple. Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de alguna manera estn relacionados entre si, por lo que es posible que una de las variables puedan relacionarse matemticamente en funcin de otra u otras variables. Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la forma:6 (13) donde que es el error asociado a la medicin del valor y siguen los supuestos de modo y con ).
(14)
(15) La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1, el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.
Una lnea de tendencia representa una tendencia en una serie de datos obtenidos a travs de un largo perodo. Este tipo de lneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PBI, el precio del petrleo o el valor de las acciones) han aumentado o decrementado en un determinado perodo.8 Se puede dibujar una lnea de tendencia a simple vista fcilmente a partir de un grupo de puntos, pero su posicin y pendiente se calcula de manera ms precisa utilizando tcnicas estadsticas como las regresiones lineales. Las lneas de tendencia son generalmente lneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la lnea.
[editar] Medicina
En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco9 vinieron de estudios que utilizaban la regresin lineal. Los investigadores incluyen una gran cantidad de variables en su anlisis de regresin en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias. En el caso del tabaquismo, los investigadores incluyeron el estado socio-econmico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacin o posicin econmica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresin.10 11 En el ejemplo del tabaquismo, un hipottico gen podra aumentar la mortalidad y aumentar la propensin a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razn, en la actualidad las pruebas controladas aleatorias son consideradas mucho ms confiables que los anlisis de regresin. Reflexin acerca de la regresin lineal y sus aplicaciones La regresin lineal es una tcnica estadstica desarrollada durante el siglo XVII, en la que se pretenda encontrar relacin entre las caractersticas de pares e hijos, as mismo predecir los comportamientos de los cuerpos celestes del sistema solar. El concepto que presenta la regresin se basa en encontrar la relacin que puede existir entre una o varias variables independientes con una dependiente, este fenmeno se prueba a travs de la tcnica de mnimos cuadrados. Dicha tcnica se basa en encontrar la distancia mnima entre los puntos reales obtenidos de mediciones histricas y una recta estimada que represente todos los puntos.
Con la evolucin de las empresas y de su entorno, la regresin lineal ha cobrado importancia dadas las aplicaciones que se encuentran para ella en la industria.
Una de las principales aplicaciones encontradas para la regresin lineal en el mundo empresarial es la capacidad que tiene de analizar tendencias de datos histricos para poder predecir comportamientos futuros de variables tan decisivas como las ventas, la produccin o los costos.
La regresin lineal como mtodo de pronstico brinda a los gerentes una visin sobre el comportamiento de sus negocios, la tendencia que tiene la informacin y permite establecer una planeacin pensando en sobrellevar de la mejor forma la organizacin. Otra de las aplicaciones es la relacin experimental que se puede conocer entre 2 o ms variables. En este aspecto, la regresin da una herramienta para a travs de cambios controlados en una variable, poder inferir en el resultado de otra. Por ejemplo se puede establecer que en la industria de alimentos, la temperatura tiene una relacin directa con el tiempo de coccin de los productos, de este modo realizando cambios controlados de temperatura, se puede predecir el tiempo de coccin del alimento. Sin embargo la regresin lineal es una espada de doble filo para las organizaciones. Si bien es una herramienta de gran utilidad para simplificar la complejidad del mundo y poderlo modelar de forma sencilla, generalmente desprecia informacin asociada a la aleatoriedad o a la correlacin, esta informacin puede definir comportamientos no predecibles en los modelos de regresin. La regresin permite analizar tendencias basados en datos histricos, sin embargo no tiene en cuenta informacin del futuro, por lo que puede generar grandes desviaciones al no tener en cuenta fenmenos que se estn presentando y que puedan afectar la empresa. Confiar de forma ciega en un modelo de regresin, puede llevar al fracaso a una organizacin, para complementar la informacin que arroja una regresin es necesario realizar anlisis de ciclicidad, de estacionalidad y de prospectiva cualitativa, que permitan a los decisores tener un mayor espectro de informacin que permita tomar acciones acertadas y disminuir la incertidumbre hacia los cambios a futuro.
Debes poner la bibliografa de donde tomaste la aportacin, de otra forma te pueden acusar de plagio. En cuanto lo tengas le sacas un copy page a la pgina y esa es la aportacin.
Ing. Nstor Cordero Senz. Reflexin acerca de la regresin lineal y sus aplicaciones. Disponible en: http://ingenierias.usergioarboleda.edu.co/index.php?option=com_k2&view=it em&id=237:reflexi%C3%B3n-acerca-de-la-regresi%C3%B3n-lineal-y-susaplicaciones&Itemid=237 Consultada el 5 de junio 2012, 20:30h)
La
recta
de
regresin
pasa
por
el
punto
llamado
centro
de
gravedad.
La recta de regresin de Y sobre X se utiliza para estimar los valores de la Y a partir de los de la X.
La recta de regresin de X sobre Y se utiliza para estimar los valores de la X a partir de los de la Y.
Si
la
correlacin
es
nula,
0,
las
rectas
de
regresin
son
y =
x =
Ejemplo
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemtic 2 as 3 4 4 5 6 6 7 7 8
1 0
1 0 1
Fsica
9 0
xi xi yi yi 2 1 2
xi2
yi2
16
16
16
16
20
25
16
24
36
16
36
36
36
28
49
16
42
49
36
56
64
49
10
90
100
81
10
10
100
100
100
72
60
431
504
380
2 Calculamos la covarianza.
http://www.vitutor.com/estadistica/bi/correlacion.html
La correlacin trata de establecer la relacin o dependencia que existe entre las dos variables que intervienen en una distribucin bidimensional .
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables estn correlacionadas o que hay correlacin entre ellas.
Tipos de correlacin
1 Correlacin directa
2 Correlacin inversa
3 Correlacin nula
ningn tipo
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Grado de correlacin
El grado de correlacin indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:
1. Correlacin fuerte
2. Correlacin dbil
3. Correlacin nula
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html
El coeficiente de correlacin lineal es el cociente entre la covarianza y el producto de las desviaciones tpicas de ambas variables.
Es
decir,
si
expresamos
la
altura
en
metros
en
centmetros
el
1 r 1
aproxime r a 1.
Ejemplos
Las notas de 12 alumnos de una clase en Matemticas y Fsica son las siguientes:
Matemtic 2 as 3 4 4 5 6 6 7 7 8
1 0
1 0 1
Fsica
9 0
xi xi yi yi
xi2
yi2
16
16
16
16
20
25
16
24
36
16
36
36
36
28
49
16
42
49
36
56
64
49
10
90
100
81
10
10
100
100
100
72
60
431
504
380
2 Calculamos la covarianza.
Los siguiente:
valores
de
dos
variables
se
distribuyen
segn
la
tabla
Y/X 1 2 3
0 2 1 2
2 1 4 5
4 3 2 0
xi xi xi yi fi fi fi fi fi fi 0 1 2 0 0 2 2 0 yi yi2 yi
xi2
18
16
16
16
10
20
15
45
30
12
48
12
32
16
20
40
120
41
97
76
Al inversa.
ser
el
coeficiente
de
correlacin
negativo,
la
correlacin
es
Correlacin
De Wikipedia, la enciclopedia libre Saltar a: navegacin, bsqueda Para otros usos de este trmino, vase Correlacin (desambiguacin).
En probabilidad y estadstica, la correlacin indica la fuerza y la direccin de una relacin lineal y proporcionalidad entre dos variables estadsticas. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad (Vase cum hoc ergo propter hoc).
Contenido
[ocultar]
1 Fuerza, sentido y forma de la correlacin 2 Coeficientes de correlacin o 2.1 Interpretacin geomtrica o 2.2 Distribucin del coeficiente de correlacin 3 Referencias 4 Enlaces externos
La fuerza extrema segn el caso, mide el grado en que la lnea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una lnea recta, lo que indica que la relacin es fuerte; si la nube de puntos tiene una tendencia elptica o circular, la relacin es dbil. El sentido mide la variacin de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relacin es positiva; si al crecer los valores de A disminuyen los de B, la relacin es negativa. La forma establece el tipo de lnea que define el mejor ajuste: la lnea recta, la curva monotnica o la curva no monotnica.
, que pueden ser consideradas como vectores en un espacio a n dimensiones, puden construirse los "vectores centrados" como: e .
El coseno del ngulo alfa entre estos vectores es dada por la frmula siguiente:
Pues es el coeficiente de correlacin muestral de Pearson. El coeficiente de correlacin es el coseno entre ambos vectores centrados:
, ambos vectores son colineales (paralelos). , ambos vectores son ortogonales. , ambos vectores son colineales de direccin opuesto.
Ms generalmente:
Por supuesto, del punto vista geomtrica, no hablamos de correlacin lineal: el coeficiente de correlacin tiene siempre un sentido, cualquiera si que sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, que sobre su distancia angular en la hiperesfera a n dimensiones.
La Iconografa de las correlaciones es un mtodo de anlisis multidimensional que reposa en esta idea. La correlacion lineal se da cuando en una nube de puntos estos se encuentran o se distribuyen alrededor de una recta.
[editar] Distribucin del coeficiente de correlacin
El coeficiente de correlacin muestral de una muestra es de hecho una varible aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrn valores diferentes y por tanto el coeficiente de correlacin muestral calculado a partir de ellas tendr valores ligeramente diferentes. Para muestras grandes la variacin en dicho coeficiente ser menor que para muestras pequeas. R. A. Fisher fue el primero en determinar la distribucin de probabilidad para el coeficiente de correlacin. Si las dos variables aleatorias que trata de relacionarse proceden de una distribucin gaussiana bivariante entonces el coeficiente de correlacin r sigue una distribucin de probabilidad dada por:1 2
donde:
es la distribucin gamma es la funcin gaussiana hipergeomtrica.
Ntese que
es subptima. Se puede obtener un estimador sesgado con mnima varianza para grandes valores de n, con sesgo de orden buscando el mximo de la expresin:
, i.e. En el caso especial de que , la distribucin original puede ser reescrita como:
donde
es la funcin beta.