Você está na página 1de 11

Regresin lineal simple

Slo se maneja una variable independiente, por lo que slo cuenta con dos parmetros. Son
de la forma:

donde es el error asociado a la medicin del valor y siguen los supuestos de modo
que (media cero, varianza constante e igual a un y con ).

Anlisis

Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y,
se obtiene:

Derivando respecto a y e igualando a cero, se obtiene:

Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la


siguiente solucin para ambos parmetros:4

La interpretacin del parmetro es que un incremento en Xi de una unidad, Yi


incrementar en
Regresin lineal mltiple
La regresin lineal permite trabajar con una variable a nivel de intervalo o razn. De la misma
manera, es posible analizar la relacin entre dos o ms variables a travs de ecuaciones, lo
que se denomina regresin mltiple o regresin lineal mltiple.

Constantemente en la prctica de la investigacin estadstica, se encuentran variables que de


alguna manera estn relacionadas entre s, por lo que es posible que una de las variables
puedan relacionarse matemticamente en funcin de otra u otras variables.

Maneja varias variables independientes. Cuenta con varios parmetros. Se expresan de la


forma

donde es el error asociado a la medicin del valor y siguen los supuestos de modo
que (media cero, varianza constante e igual a un y con ).

Rectas de regresin

Las rectas de regresin son las rectas que mejor se ajustan a la nube de puntos (o tambin
llamado diagrama de dispersin) generada por una distribucin binomial. Matemticamente,
son posibles dos rectas de mximo ajuste

La recta de regresin de Y sobre X:

La recta de regresin de X sobre Y:

La correlacin ("r") de las rectas determinar la calidad del ajuste. Si r es cercano o igual a 1,
el ajuste ser bueno y las predicciones realizadas a partir del modelo obtenido sern muy
fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0,
se tratar de un ajuste malo en el que las predicciones que se realicen a partir del modelo
obtenido no sern fiables (el modelo obtenido no resulta representativo de la realidad). Ambas
rectas de regresin se intersecan en un punto llamado centro de gravedad de la distribucin.
Prueba de independencia (Chi-cuadrado)
La prueba de independencia Chi-cuadrado, nos permite determinar si existe una
relacin entre dos variables categricas. Es necesario resaltar que
esta prueba nos indica si existe o no una relacin entre las variables, pero no
indica el grado o el tipo de relacin; es decir, no indica el porcentaje de influencia
de una variable sobre la otra o la variable que causa la influencia.

Figura 8-99

La prueba de independencia del Chi-cuadrado, parte de la hiptesis que las


variables (Estado civil y Gnero) son independientes; es decir, que no existe
ninguna relacin entre ellas y por lo tanto ninguna ejerce influencia sobre la otra.
El objetivo de esta prueba es comprobar la hiptesis mediante el nivel de
significacin, por lo que s el valor de la significacin es mayor o igual que
el Alfa(0.05), se acepta la hiptesis, pero si es menor se rechaza.

1. REGRESIN LOGSTICA MULTINOMIAL


Regresin logstica multinomial generaliza el mtodo de regresin logstica para
problemas multiclase, es decir, con ms de dos posibles resultados discretos.1 Es decir, se
trata de un modelo que se utiliza para predecir las probabilidades de los diferentes
resultados posibles de una distribucin categrica como variable dependiente, dado un
conjunto de variables independientes (que pueden ser de valor real, valor binario,
categrico-valorado, etc.)

EJEMPLO

2. REGRESION LOGISTA BINARIA


la regresin logstica es un tipo de anlisis de regresin utilizado para predecir el resultado
de una variable categrica (una variable que puede adoptar un nmero limitado de
categoras) en funcin de las variables independientes o predictoras.
Los modelos de regresin logstica binaria pueden ajustarse mediante el uso del
procedimiento de Regresin logstica o del procedimiento de Regresin logstica
multinomial. Cada uno de estos dos procedimientos contiene opciones que no estn
disponibles en el otro. Existe entre ambos una distincin terica importante: el
procedimiento de Regresin logstica genera todas las predicciones, residuos, estadsticos
de inuencia y pruebas de bondad de ajuste utilizando los datos a nivel de los casos
individuales, independientemente de la forma en que los datos hayan sido introducidos y de
si el nmero de patrones en las covariables es o no menor que el nmero total de casos; el
procedimiento de Regresin logstica multinomial, por su parte, agrega los casos de manera
interna para formar subpoblaciones con patrones en las covariables idnticos para las
variables predictoras, generando predicciones, residuos y pruebas de bondad de ajuste
basadas en las citadas subpoblaciones. Si todas las variables predictoras son categricas, o
si alguna variable predictora continua toma slo un nmero limitado de valores (de manera
que haya varios casos para cada patrn en las covariables), la aproximacin mediante
subpoblaciones puede generar pruebas de bondad de ajuste vlidas y residuos que sean
informativos, mientras que el mtodo a nivel de los casos individuales no lo permite.

EJEMPLO.

Supongamos que la probabilidad de que un alumno adquiera excelentes notas (suceso


xito) viene determinada por su nivel de estudios segn la expresin

3. REGRESIN LOGSTICA ORDINAL


Es un mtodo matemtico que modeliza la relacin entre una variable dependiente Y, las
variables independientes X. Desde la perspectiva de una escala ordinal.

Ejemplos:

Un claro ejemplo de lo que significa esto es La clasificacin de calidad, Clasificaciones de


los equipos de un torneo, Clase socioeconmica y Condicin laboral.

4. T DE STUDENT
En estadstica, una prueba t de Student, prueba t-Student, o Test-T es cualquier prueba en la
que el estadstico utilizado tiene una distribucin t de Student si la hiptesis nula es cierta.
Se aplica cuando la poblacin estudiada sigue una distribucin normal pero el tamao
muestral es demasiado pequeo como para que el estadstico en el que est basada la
inferencia est normalmente distribuido, utilizndose una estimacin de la desviacin tpica
en lugar del valor real. Es utilizado en anlisis discriminante.
Formula:

La mayor parte de las pruebas estadsticas t tienen la forma , donde Z y s son


funciones de los datos estudiados. Tpicamente, Z se disea de forma tal que resulte
sensible a la hiptesis alternativa (p.ej. que su magnitud tienda a ser mayor cuando la
hiptesis alternativa es verdadera), mientras que s es un parmetro de escala que permite
que la distribucin de T pueda ser determinada.

5. ANLISIS DE LA VARIANZA
En estadstica, el anlisis de la varianza (ANOVA, ANalysis Of VAriance, segn
terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos
asociados, en el cual la varianza est particionada en ciertos componentes debidos a
diferentes variables explicativas.ANOVA con un factor

Ejemplo:

El anlisis de la varianza parte de los conceptos de regresin lineal.


El primer concepto fundamental es que todo valor observado puede expresarse mediante la
siguiente funcin:

Donde Y sera el valor observado (variable dependiente), y X el valor que toma la variable
independiente.
sera una constante que en la recta de regresin equivale a la ordenada en el
origen, es otra constante que equivale a la pendiente de la recta, y es una variable
aleatoria que aade a la funcin cierto error que desva la puntuacin observada de la
puntuacin pronosticada.
Por tanto, a la funcin de pronstico la podemos llamar "Y prima":

Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas,
ms el error aleatorio:
(1.1)
Sabiendo este concepto, podemos operar con esta ecuacin de la siguiente forma:
1) Restamos a ambos lados de la ecuacin (para mantener la igualdad) la media de la
variable dependiente:
2) Substituimos el error por la ecuacin resultante de despejar la ecuacin 1.1:

Por tanto...

Y reorganizando la ecuacin:

Ahora hay que tener en cuenta que la media de las puntuaciones observadas es exactamente
igual que la media de las puntuaciones pronosticadas:

Por tanto:

Podemos ver que nos han quedado 3 puntuaciones diferenciales. Ahora las elevamos al
cuadrado para que posteriormente, al hacer el sumatorio, no se anulen:

Y desarrollamos el cuadrado:

Podemos ver que tenemos los numeradores de las varianzas, pero al no estar divididas por
el nmero de casos (n), las llamamos Sumas de Cuadrados., excepto en el ltimo trmino,
que es una Suma Cruzada de Cuadrados (el numerador de la covarianza), y la covarianza en
este caso es cero (por las propiedades de la regresin lineal, la covarianza entre el error y la
variable independiente es cero).
Por tanto:

6. ANLISIS FACTORIAL
Anlisis factorial es una tcnica estadstica de reduccin de datos usada para explicar las
correlaciones entre las variables observadas en trminos de un nmero menor de variables
no observadas llamadas factores. Las variables observadas se modelan como
combinaciones lineales de factores ms expresiones de error. El anlisis factorial se origin
en psicometra, y se usa en las ciencias del comportamiento tales como ciencias sociales,
marketing, gestin de productos, investigacin de operaciones y otras ciencias aplicadas
que tratan con grandes cantidades de datos.
Ejemplo:

Supngase que un psiclogo propone una teora segn la cual hay dos tipos de inteligencia,
inteligencia verbal e inteligencia matemtica. Ntese que estas son inherentemente
inobservables. Se busca evidencia para la teora en las notas de los exmenes, en 10 temas
acadmicos, a 1000 estudiantes. Si cada estudiante es seleccionado al azar de una poblacin
grande, luego, las 10 notas de cada estudiante son variables aleatorias. La teora de los
psiclogos dira que por cada una de las diez materias el promedio de todos los estudiantes
que comparten un par de valores para la inteligencias verbal y matemtica es constante
multiplicada por el nivel de inteligencia verbal ms otra constante multiplicada por el nivel
de inteligencia matemtica, es decir, que hay una combinacin lineal de estos dos factores.
Los nmeros, para este caso particular, mediante el cual los dos tipos de inteligencia se
multiplican para obtener una nota determinada, se postulan tericamente que son similares
para todos los pares obtenidos, lo mismo que el peso de los factores para este tema. Por
ejemplo, la teora podra sostener que la aptitud promedio del estudiante en la materia de
anfibologa es

{10 x inteligencia verbal} + {6 x inteligencia matemtica}

Los nmeros 10 y 6 son los pesos de los factores asociados a anfibologa. Otras materias
tendrn diferentes pesos. Dos estudiante que obtengan el mismo grado de inteligencia
verbal e idntica inteligencia matemtica podran tener aptitudes diferentes en anfibologa
porque las aptitudes individuales son diferentes de las aptitudes promedio. La diferencia se
denomina error, un trmino estadstico para designar la diferencia que hay entre la nota
de un individuo y el promedio para su nivel de inteligencia.

Los datos observables que van en el anlisis factorial seran las 10 notas de cada uno de los
1000 estudiantes, un total de 10.000 valores. Los pesos de y los niveles de los factores de
las dos clases de inteligencia de cada estudiante se deben derivar de estos datos, as como
tambin el nmero de factores.

7. ANLISIS DE CLUSTER CONGLOMERADOS


El Anlisis Cluster, conocido como Anlisis de Conglomerados, es una tcnica estadstica

multivariante que busca agrupar elementos (o variables) tratando de lograr la mxima

homogeneidad en cada grupo y la mayor diferencia entre los grupos.

El Anlisis Cluster, tambin conocido como Anlisis de Conglomerados, Taxonoma


Numrica o Reconocimiento de Patrones, es una tcnica estadstica multivariante cuya
finalidad es dividir un conjunto de objetos en grupos (cluster en ingls) de forma que los
perfiles de los objetos en un mismo grupo sean muy similares entre s (cohesin interna del
grupo) y los de los objetos de clusters diferentes sean distintos (aislamiento externo del
grupo).

8. U DE MANN-WHITNEY
En estadstica la prueba U de Mann-Whitney (tambin llamada de Mann-Whitney-
Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-Whitney) es
una prueba no paramtrica aplicada a dos muestras independientes. Es, de hecho, la versin
no paramtrica de la habitual prueba t de Student.

La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras


ordinales. El planteamiento de partida es:

Las observaciones de ambos grupos son independientes

Las observaciones son variables ordinales o continuas.

Bajo la hiptesis nula, la distribucin de partida de ambos grupos es la misma y,

Bajo la hiptesis alternativa, los valores de una de las muestras tienden a exceder a los de la
otra: P(X > Y) + 0.05 P(X = Y) > 0.05.

Formula:

Para calcular el estadstico U se asigna a cada uno de los valores de las dos muestras su
rango para construir

donde n1 y n2 son los tamaos respectivos de cada muestra; R1 y R2 es la suma de los


rangos de las observaciones de las muestras 1 y 2 respectivamente.
El estadstico U se define como el mnimo de U1 y U2.
Los clculos tienen que tener en cuenta la presencia de observaciones idnticas a la
hora de ordenarlas. No obstante, si su nmero es pequeo, se puede ignorar esa
circunstancia.
9. WILCOXON
La prueba de los rangos con signo de Wilcoxon es una prueba no paramtrica para
comparar la mediana de dos muestras relacionadas y determinar si existen diferencias entre
ellas. Se utiliza como alternativa a la prueba t de Student cuando no se puede suponer la
normalidad de dichas muestras.

Formula:

La hiptesis nula es : . Retrotrayendo dicha hiptesis a los


valores originales, sta vendra a decir que son en cierto sentido del mismo tamao.
Para verificar la hiptesis, en primer lugar, se ordenan los valores
absolutos y se les asigna su rango . Entonces, el estadstico de la prueba
de los signos de Wilcoxon, , es

es decir, la suma de los rangos correspondientes a los valores positivos de .


La distribucin del estadstico puede consultarse en tablas para determinar si se acepta
o no la hiptesis nula.
En ocasiones, esta prueba se usa para comparar las diferencias entre dos muestras de datos
tomados antes y despus del tratamiento, cuyo valor central se espera que sea cero. Las
diferencias iguales a cero son eliminadas y el valor absoluto de las desviaciones con
respecto al valor central son ordenadas de menor a mayor. A los datos idnticos se les
asigna el lugar medio en la serie. La suma de los rangos se hace por separado para los
signos positivos y los negativos. S representa la menor de esas dos sumas.
Comparamos S con el valor proporcionado por las tablas estadsticas al efecto para
determinar si rechazamos o no la hiptesis nula, segn el nivel de significacin elegido.

10. KRUSKAL-WALLIS
En estadstica, la prueba de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un
mtodo no paramtrico para probar si un grupo de datos proviene de la misma poblacin.
Intuitivamente, es idntico al ANOVA con los datos reemplazados por categoras. Es una
extensin de la prueba de la U de Mann-Whitney para 3 o ms grupos.

Ya que es una prueba no paramtrica, la prueba de Kruskal-Wallis no asume normalidad en


los datos, en oposicin al tradicional ANOVA. S asume, bajo la hiptesis nula, que los
datos vienen de la misma distribucin. Una forma comn en que se viola este supuesto es
con datos heterocedsticos.
Formula:

1. El estadstico est dado por: , donde:


es el nmero de observaciones en el grupo

es el rango (entre todas las observaciones) de la observacin en el


grupo
es el nmero total de observaciones entre todos los grupos

,
es el promedio de .

Note que el denominador de la expresin para es

exactamente .

Luego .

2. Se puede realizar una correccin para los valores repetidos

dividiendo por , donde es el nmero de grupos de


diferentes rangos repetidos, y es el nmero de observaciones repetidas dentro del
grupo que tiene observaciones repetidas para un determinado valor. Esta
correccin hace cambiar a muy poco al menos que existan un gran nmero de
observaciones repetidas.
3. Finalmente, el p-value es aproximado por . Si algn es
pequeo ( ) la distribucin de puede ser distinta de la chi-cuadrado.

11. DISTRIBUCIN
En estadstica, la distribucin de Pearson, llamada tambin ji cuadrado o chi
cuadrado () es unadistribucin de probabilidad continua con un parmetro que
representa los grados de libertad de la variable aleatoria
Donde son variables aleatorias normales independientes de media cero y varianza uno.
El que la variable aleatoria tenga esta distribucin se representa habitualmente
as: .