Você está na página 1de 92

GUIA DE ESTUDIO PARA

ESTADISTICA

CONTENIDO
UNIDAD I. ESTADISTICA DESCRIPTIVA Y DISTRIBUCIONES

MUESTRALES
UNIDAD II.ESTIMACIN DE PARMETROS
UNIDAD III. PRUEBAS DE HIPOTESS
UNIDAD IV. ANLISIS DE REGRESIN Y CORELACIN

1. Estadstica Descriptiva y
Distribuciones Muestrales

Muestreo
Existen dos clases de muestreo el probabilstico y no probabilstico, el
muestreo probabilstico es aquel mtodo en el que por medio de una tcnica
de muestreo es posible definir el nmero de muestras que se pueden formar
con n elementos u observaciones cada una, para luego elegir una de ellas
segn una funcin de probabilidad. Por otra parte, el muestreo no
probabilstico es aquel cuyas muestras se seleccionan por conveniencia o
bajo algn criterio para que los resultados favorezcan a un grupo, persona,
empresa o contexto.

El muestreo aleatorio puede llevarse a cabo con reemplazamiento y sin


reemplazamiento; el primero hace referencia a tomar una observacin para
formar una muestra y devolverla a la poblacin de modo que puede ser
elegida de nuevo, y la segunda indica que se toma una observacin y no se
regresa a la poblacin de tal modo que slo aparecer una vez en la muestra.

Muestreo Aleatorio Simple


Existen diversas tcnicas para elegir una muestra aleatoria de la

poblacin, recordemos que una muestra debe ser lo suficientemente


representativa porque en ella se estimarn parmetros de la
poblacin; el mtodo ms utilizado es el muestreo aleatorio simple.

Finito
Puede ser:

Infinito

Muestreo Aleatorio Finito e Infinito

Una muestra aleatoria simple para una poblacin finita es aquella en la


que todas las muestras de tamao tienen la misma probabilidad de ser
seleccionadas. Una muestra aleatoria simple para una poblacin infinita
es aquella en la que cada elemento seleccionado para conformarla se
toma de la misma poblacin y de forma independiente.

Distribuciones Muestrales
Una distribucin muestral es una distribucin de probabilidad de un

estadstico muestral calculado a partir de todas las muestras posibles


de tamao n, elegidas al azar en una poblacin determinada.
En trminos generales estamos interesados en conocer una o ms
de las siguientes caractersticas:

Su forma funcional
Su Media
Su Desviacin Estndar

Distribucin Muestral para la Media


A partir de las distribuciones muestrales es importante diferenciar si

estamos hablando de elementos de la poblacin o de la muestra y


esto lo haremos teniendo en cuenta la siguiente notacin.

Ejemplo
Consideremos una poblacin conformada por 5 personas (N=5). La

variable de inters es el mensual en transporte (en miles de pesos).


Los datos de la poblacin son {78, 67, 83, 56 } y vamos a responder
a cada literal teniendo en cuenta la notacin utilizada. a. Calcular la
media y la .desviacin estndar de la poblacin.
La media poblacional se obtiene con

Y la desviacin estndar es

b. De la poblacin vamos a seleccionar todas las muestras posibles


de tamao n =2 sin repeticin. Cuntas muestras de dos
elementos de la poblacin pueden formarse?

Como hay 4 elementos en la poblacin y queremos formar grupos de

2 sin importar su orden, tenemos que calcular una combinacin:

Es decir que podemos formar 6 grupos de dos elementos cada uno.


Observmoslos

c. Dichas muestras son de tipo aleatorio simple para poblacin finita

o infinita?
Como cada una de estas muestras tiene la misma probabilidad de
escoger una muestra estara dada por:

y por ende estamos en presencia de muestreo aleatorio


simple para poblacin finita

Como X es una variable aleatoria, vamos a calcular la media de cada

una de las muestras:

d. Ahora vamos a calcular la media de estas medias es decir

Calculamos ahora la desviacin estndar para las seis muestras

posibles

Observamos que la varianza poblacional es diferente a la


varianza de la muestra por lo tanto es necesario trabajar con
una varianza corregida, esto se logra de la siguiente forma:

Podemos decir entonces que si se seleccionan todas las muestras

posibles de tamao n de una poblacin dada entonces se tiene

e. Qu tipo de distribucin de probabilidad podra tener la variable

aleatoria media muestral?

Teorema del Lmite Central

Distribucin Muestral de la media


en una poblacin normal.

Si X es la media
de una muestra aleatoria de
tamao n sacada de una poblacin distribuida
normalmente con media y desviacin x= y la
estandarizacin de zx es:

Ejemplo
Se realiz una prueba a un grupo de 80 aspirantes al cargo de

administrador de cierta empresa y se obtuvo que las calificaciones


siguen una distribucin normal con calificacin promedio de 300
puntos y varianza muestral de 25 cuando se toma una muestra de 16
calificaciones de las pruebas.
a) Calcule el error tpico de la media de muestral.
b) Determine la probabilidad de que la media muestral sea superior a
280 puntos
c) Para que el error tpico fuera 6, qu tamao de muestra debera
seleccionarse?

Solucin.

La varianza muestral es luego el error tpico de la media muestral

es=5.
Con base al enunciado debemos calcular P( x y esto lo lograremos
estandarizando la variable aleatoria x
> )
Ahora procedemos a sustituir los datos en la formula:
P)
P=(z >-4)

Grficamente queda


Para poder determinar el tamao de muestra requerido para que el

error tpico sea 6 necesitamos el valor de la varianza poblacional que


podemos obtener al despejar a de la desviacin tpica o error tpico.
Como y el tamao muestra es de 16,por lo tanto tenemos que 5
por lo tanto =20.
Ahora calculemos el tamao de la muestra cuando y

Distribucin Muestral de la media cuando se


desconoce la distribucin de la poblacin

Ejemplo
La duracin de cierta marca de bombillas tiene una media de 900

horas y la desviacin estndar de 70 horas. Si se selecciona una


muestra de 36 bombillas, determine la probabilidad de que dure entre
870 y 925 horas.

Nota: Observe que no se hace ninguna mencin de la forma


funcional de la distribucin, pero como el tamao de muestra es
grande (n30), por el teorema del lmite central entonces la
distribucin es aproximadamente normal.

Solucin
X: tiempo de duracin de las bombillas
=900

= 70
P(870X 925)=P

n = 36

Distribucin Muestral de la media en una poblacin


normal con varianza desconocida

Es muy comn el hecho de que en la prctica de que


la varianza de la poblacin sea desconocida, en estos
casos se trabaja con la varianza de la muestra como
una estimacin de , dando lugar a la siguiente
formula:

t=

Distribucin t- student.

Distribucin de la proporcin de una muestra


Sea A el nmero total de elementos que presentan cierta caracterstica en una
poblacin, entonces la proporcin de aquellos que cumplen y no cumplen con
dicha caracterstica est dada por la expresin P= y 1-P= respectivamente.

Cada observacin de este experimento es de tipo Bernoulli xito


(cumple con la caracterstica) y fracaso (no cumple con la
caracterstica) y como se repite cierto numero de veces se convierte
en una Binomial para la cual el valor esperado de la variable
aleatoria proporcin de individuos con la caracterstica es P y la
varianza es P(1-P).

Si el tamao de muestra es grande por el teorema del


lmite central esta binomial puede aproximarse a una
normal con media P y varianza P(1-P).

Teorema

Si P es la variable aleatoria proporcin de individuos de


una poblacin que presentan determinada caracterstica,
entonces la proporcin muestral se distribuye de la
siguiente manera: donde es la proporcin poblacional y
es el error estndar de la poblacin.

Ejemplo
Se sabe que el 60%de los adultos de una zona del pas compran

determinado producto. Se obtiene una muestra de 150 adultos de


esta rea. Cul es la probabilidad de que la proporcin muestral
este entre el 50% y el 70%?.

0.04
Recordemos que como P es aproximadamente normal se requiere
estandarizar la variable aleatoria para poder utilizar las tablas de
probabilidades.

2. Estimacin de Parmetros

Qu es un estimador?

Estimador Puntual

Estimador Sesgado.

Estimador eficiente

Intervalo de Confianza

3. Pruebas de Hiptesis

Contrastando una hiptesis

Son
demasiados
...

Creo que la
edad media es
40 aos...

Gran
diferenci
a!

Muestra
aleatoria

X 20 aos
Bioestadstica.

Pruebas de hiptesis

Rechazo la
hiptesis
40

Qu es una hiptesis?
Una creencia sobre la poblacin,

principalmente sus parmetros:


Media
Varianza
Proporcin/Tasa
OJO: Si queremos contrastarla, debe

establecerse antes del anlisis.

Bioestadstica.

Pruebas de hiptesis

41

Identificacin de hiptesis
Hiptesis nula Ho
La que contrastamos
Los datos pueden refutarla

Hiptesis. Alternativa H1
Niega a H0
Los datos pueden mostrar evidencia a

favor

No debera ser rechazada sin una buena

razn.

No debera ser aceptada sin una gran

evidencia a favor.

H0 :

H1 :

p 0.5

p 0.5

, ,

Quin es H0?
Problema: La osteoporosis est relacionada con el

gnero?

Solucin:
Traducir a lenguaje estadstico:
Establecer su opuesto:
Seleccionar la hiptesis nula

H 0 : p 0.5

p 0.5
p 0.5

Quin es H0?
Problema: El colesterol medio para la dieta mediterrnea

es 6 mmol/l?

Solucin:
Traducir a lenguaje estadstico:
Establecer su opuesto:
Seleccionar la hiptesis nula

H0 : 6

Razonamiento bsico
Si supongo que H0 es cierta...
qu hace un
cientfico cuando su
teora no coincide
con sus
predicciones?

40
X 20

... el resultado del experimento sera improbable.


Sin embargo ocurri.
Bioestadstica.

Pruebas de hiptesis

45

Razonamiento bsico
Si supongo que H0 es cierta...

Rechazo que H0
sea cierta.

40
X 20

... el resultado del experimento sera improbable.


Sin embargo ocurri.
Bioestadstica.

Pruebas de hiptesis

46

Razonamiento bsico
Si supongo que H0 es cierta...
No hay evidencia contra H0
No se rechaza H0
El experimento no es
concluyente

Si una teora hace predicciones con


xito, queda probado que es cierta?

40
X 38

... el resultado del experimento es coherente.

El contraste no es
significativo

Regin crtica y nivel de significacin


Regin crtica
Valores improbables si...
Es conocida antes de realizar el
experimento: resultados
experimentales que refutaran H0

Nivel de significacin:
Nmero pequeo: 1% , 5%
Fijado de antemano por el
investigador
Es la probabilidad de rechazar H0
cuando es cierta

=0.05

=40

Reg. Crit.

Reg. Crit.

No
rechazo

Contrastes: unilateral y bilateral


La posicin de la regin crtica depende de la
hiptesis alternativa

H1: 40

Bilateral

Unilateral

Unilateral

H1: < 40
Bioestadstica.

Pruebas de hiptesis

49

H1: >40

Significacin: p

H0: = 40

Bioestadstica.

Pruebas de hiptesis

50

Significacin: p
No se rechaza
H0: = 40

H0: = 40

Bioestadstica.

Pruebas de hiptesis

X 43

51

Significacin: p
Es la probabilidad que tendra una regin crtica que comenzase
exactamente en el valor del estadstico obtenido de la muestra.
Es la probabilidad de tener una muestra que discrepe an ms que la
nuestra de H0.
Es la probabilidad de que por puro azar obtengamos una muestra
ms extraa que la obtenida.
p es conocido despus de realizar el experimento aleatorio
El contraste es no significativo cuando p>

No se
rechaza
H0: =40

Bioestadstica.

Pruebas de hiptesis

X 43

52

Significacin : p

Se rechaza
H0: =40
Se acepta
H1: >40
Bioestadstica.

X 50
Pruebas de hiptesis

53

Significacin : p
El contraste es estadsticamente significativo cuando p
<
Es decir, si el resultado experimental discrepa ms de lo
tolerado a priori.

Se rechaza
H0: =40
Se acepta
H1: >40
Bioestadstica.

X 50
Pruebas de hiptesis

54

Bioestadstica.

Pruebas de hiptesis

55

Resumen: , p y criterio de rechazo


Sobre
Es
nmero
pequeo,
preelegido al disear el
experimento

Sobre p
Es conocido tras realizar el
experimento

Conocido sabemos todo

Conocido p sabemos todo

sobre la regin crtica

sobre el resultado del


experimento

Sobre el criterio de rechazo

El contraste es significativo si p menor que

Resumen: , p y criterio de rechazo

Estadsticos de contrastea

U de Mann-Whitney
W de Wilcoxon
Z
Sig. asintt. (bilateral)

Edad del
encuestado
259753,500
462319,500
-2,317
,021

a. Variable de agrupacin: Sexo del encuestado

Sobre el criterio de rechazo

Contraste significativo = p menor que

Ejemplo
Problema: Est sesgada la moneda?

H0 :

H1 :

prob cruz 0.5


prob cruz 0.5

Experimento: Lanzar la moneda


repetidamente:

P=0.5

P=0.25

P=0.125

P=0.0625

P=0.03

P=0.015

Riesgos al tomar decisiones


Ejemplo 1: Se juzga a un individuo por la presunta comisin de un delito
Los datos pueden refutarla

H0: Hiptesis nula


Es inocente

La que se acepta si las pruebas no


indican lo contrario
Rechazarla por error tiene graves
consecuencias

H1: Hiptesis alternativa


Es culpable
No debera ser aceptada sin
una gran evidencia a favor.
Rechazarla por error tiene
consecuencias consideradas
menos graves que la
anterior

Riesgos al contrastar hiptesis


Ejemplo 2: Se cree que un nuevo tratamiento ofrece buenos resultados

Ejemplo 3: Parece que hay una incidencia de enfermedad ms alta de lo norma

No especulativa
H0: Hiptesis nula
(Ej.1) Es inocente
(Ej.2) El nuevo tratamiento no tiene efecto
(Ej.3) No hay nada que destacar

H1: Hiptesis alternativa


(Ej.1) Es culpable
(Ej.2) El nuevo tratamiento es til
(Ej. 3) Hay una situacin anormal

Especulativa

Tipos de error al tomar una decisin


Realidad

veredicto

Inocente

Inocente

Culpable

OK

Error
Menos grave

Culpable

Error
Muy grave

OK

Tipos de error al contrastar hiptesis


Realidad

No Rechazo H0

H0 cierta

H0 Falsa

Correcto

Error de tipo II

El tratamiento no tiene
efecto y as se decide.

El tratamiento si tiene efecto pero


no lo percibimos.
Probabilidad

Rechazo H0

Error de tipo I

Acepto H1

El tratamiento no tiene
efecto pero se decide
que s.
Probabilidad

Correcto
El tratamiento tiene efecto y el
experimento lo confirma.

No se puede tener todo

Recuerda
lo que pasaba
con sensibilidad
y especificidad

Para un tamao muestral fijo, no se pueden reducir a la vez ambos

tipos de error.
Para reducir , hay que aumentar el tamao muestral.

Bioestadstica.

Pruebas de hiptesis

62

Conclusiones
Las hiptesis no se plantean despus de observar los datos.
En ciencia, las hiptesis nula y alternativa no tienen el mismo papel:
H0 : Hiptesis cientficamente ms simple.
H1 : El peso de la prueba recae en ella.

debe ser pequeo


Rechazar una hiptesis consiste en observar si p <
Rechazar una hiptesis no prueba que sea falsa. Podemos cometer

error de tipo I

No rechazar una hiptesis no prueba que sea cierta. Podemos cometer

error de tipo II

Si decidimos rechazar una hiptesis debemos mostrar la probabilidad

de equivocarnos.

4. Anlisis de Regresin y
Correlacin

Estudio conjunto de dos variables

A la derecha tenemos una posible manera de recoger

los datos obtenido observando dos variables en varios


individuos de una muestra.
En cada fila tenemos los datos de un individuo
Cada columna representa los valores que toma una

variable sobre los mismos.

Las individuos no se muestran en ningn orden particular.

Dichas observaciones pueden ser representadas en un

diagrama de dispersin (scatterplot). En ellos, cada


individuos es un punto cuyas coordenadas son los
valores de las variables.

Altura Peso
en cm. en Kg.
162

61

154

60

180

78

158

62

171

66

169

60

166

54

176

84

163

68

...

...

Nuestro objetivo ser intentar reconocer a partir del

mismo si hay relacin entre las variables, de qu tipo, y


si es posible predecir el valor de una de ellas en
funcin de la otra.
Bioestadstica. U.
Tema 3: Estadstica
bivariante

65

Mlaga.

Diagramas de dispersin o nube de puntos


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

Pesa 50 kg.
Mide 161 cm.

Mide 187 cm.

Pesa 76 kg.

Relacin entre variables.


Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.

rec
a
P

ue
q
e

es
p
el

me
u
oa

co
a
nt

ra
u
t
l
aa
l
n

Prediccin de una variable en funcin de la otra


Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.

10 kg.
10 cm.

Relacin directa e inversa


330
280

Incorrelacin

230
180
130
80
30
140

150

160

170

180

190

200

Para valores de X por encima de la


media tenemos valores de Y por
encima y por debajo en proporciones
similares. Incorrelacin.

Para los valores de X


mayores que la media le
corresponden valores de Y
mayores tambin.
Para los valores de X
menores que la media le
corresponden valores de Y
menores tambin.

Tema 3: Estadstica
bivariante

69

Para los valores


dellama
X mayores
que la
Esto se
relacin
media le corresponden
valores de Y
directa.
menores. Esto es relacin inversa o
Bioestadstica. U.
decreciente.
Mlaga.

Cundo es bueno un modelo de regresin?

Bioestadstica. U.
Mlaga.

Tema 3: Estadstica bivariante

70

CovarianzadedosvariablesXeY

La covarianza entre dos variables, Sxy, nos indica si la posible relacin

entre dos variables es directa o inversa.


Directa: Sxy >0
Inversa: Sxy <0
Incorreladas: Sxy =0

El signo de la covarianza nos dice si el aspecto de la nube de

puntos es creciente o no, pero no nos dice nada sobre el grado de


relacin entre las variables.

1
S xy ( xi x )( yi y )
n i
Tema 3: Estadstica
bivariante

71

Bioestadstica. U.
Mlaga.

Coef. de correlacin lineal de Pearson

El coeficiente de correlacin lineal de Pearson

de dos variables, r, nos indica si los puntos


tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales
y verticales).

tiene el mismo signo que Sxy por tanto, de su

signo obtenemos el que la posible relacin sea


directa o inversa.

r es til para determinar si hay relacin lineal

entre dos variables, pero no servir para otro


tipo de relaciones (cuadrtica, logartmica,...)

Tema 3: Estadstica
bivariante

72

S xy
SxS y

Bioestadstica. U.
Mlaga.

Propiedadesder

Relacin
inversa
perfecta

-1

Tema 3: Estadstica
bivariante

Variables
incorreladas

73

Relacin
directa
casi
perfecta

+1

Bioestadstica. U.
Mlaga.

Correlaciones positivas

330
280
230
180
130
80
r=0,1
30
140 150 160 170 180 190 200

130
110
90
70
50

30
140 150 160 170 180 190 200

110

110

90

90

70

70

50

50

r=0,8

30
140 150 160 170 180 190 200
Tema 3: Estadstica
bivariante

74

r=0,4

r=0,99

30
140 150 160 170 180 190 200
Bioestadstica. U.
Mlaga.

Correlaciones negativas

80

80

60

60
40

40

20

20

r=-0,5

0
140 150 160 170 180 190 200

r=-0,7

0
140 150 160 170 180 190 200

80

80

60

60

40

40

20

20

r=-0,95

0
140 150 160 170 180 190 200

Tema 3: Estadstica
bivariante

75

r=-0,999

0
140 150 160 170 180 190 200
Bioestadstica. U.
Mlaga.

Evolucin de r y diagrama de dispersin

Regresin

Regresin

El ejemplo del estudio de la altura en grupos familiares de Pearson es

del tipo que desarrollaremos en el resto del tema.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 120cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Es decir, nos interesaremos por modelos de regresin lineal simple.

Modelo de regresin lineal simple

En el modelo de regresin lineal simple, dado dos variables


Y (dependiente)
X (independiente, explicativa, predictora)
buscamos encontrar una funcin de X muy simple (lineal) que nos

permita aproximar Y mediante


= b0 + b 1 X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el modelo de

regresin. A la cantidad
e=Y- se le denomina residuo o error residual.

En el ejemplo de Pearson y las alturas, l encontr:


= b0 + b1X
b0=85 cm (No interpretar como altura de un hijo cuyo padre mide

0 cm Extrapolacin salvaje!
b1=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)
180

b1=0,5

150
120
90
60

b0=85 cm

30
0

10
0

Tema 3: Estadstica
bivariante

30
20

50
40

70
60

80

90
80

110
100

130
150
170
190
210
120
140
160
180
200
220
Bioestadstica. U.
Mlaga.

La relacin entre las variables no es exacta. Es natural

preguntarse entonces:

Cul es la mejor recta que sirve para predecir los valores de Y en

funcin de los de X
Qu error cometemos con dicha aproximacin (residual).

180

b1=0,5

150
120
90
60

b0=85 cm

30
0

10
0

Tema 3: Estadstica
bivariante

30
20

50
40

70
60

81

90 110 130 150 170 190 210


80 100 120 140 160
180 200 220
Bioestadstica. U.
Mlaga.

El modelo lineal de regresin se construye utilizando la tcnica

de estimacin mnimo cuadrtica:


Buscar b0, b1 de tal manera que se minimice la cantidad
i ei2

Se comprueba que para lograr dicho resultado basta con elegir:

SY
b1 r
SX

b0 y b1 x

Se obtiene adems unas ventajas de regalo


El error residual medio es nulo
La varianza del error residual es mnima para dicha estimacin.
Traducido: En trmino medio no nos equivocamos. Cualquier otra

estimacin que no cometa error en trmino medio, si es de tipo lineal,


ser peor por presentar mayor variabilidad con respecto al error medio
(que es cero).
Bioestadstica. U.
Tema 3: Estadstica
bivariante

82

Mlaga.

Residuos del modelo de regresin

Que el error medio de las predicciones

sea nulo no quiere decir que las


predicciones sean buenas.

Cometi un
error de -30
en su ltima
prediccin

Hay

que encontrar un medio de


expresar la bondad del ajuste (bondad
de la prediccin)

No importa. Con los


dos ltimos clientes
me equivoqu en +10
y +20. En trmino
medio el error es
cero.
Tema 3: Estadstica
bivariante

84

Bioestadstica. U.
Mlaga.

Cmo medir la bondad de una regresin?

Imaginemos un diagrama de dispersin, y vamos


a tratar de comprender en primer lugar qu es
el error residual, su relacin con la varianza de Y,
y de ah, cmo medir la bondad de un ajuste.

Interpretacin de la variabilidad en Y

En primer lugar olvidemos que existe


la variable X. Veamos cul es la
variabilidad en el eje Y.
La franja sombreada indica la zona
donde varan los valores de Y.
Proyeccin sobre el eje Y = olvidar X

Interpretacin del residuo

Fijmonos ahora en los errores


de prediccin (lneas verticales).
Los proyectamos sobre el eje Y.
Se observa que los errores
de prediccin, residuos,
estn menos dispersos
que la variable Y original.
Cuanto menos dispersos
sean los residuos, mejor
ser la bondad del ajuste.

Tema 3: Estadstica bivariante

Bioestad
stica. U.
Mlaga.

88

Bondad de un ajuste
Resumiendo: La dispersin del error residual
ser una fraccin de la dispersin original de Y.
Cuanto menor sea la dispersin del error
residual mejor ser el ajuste de regresin. Eso
hace que definamos como medida de bondad
de un ajuste de regresin,
o coeficiente de determinacin a:

S
R 1
S
2

2
e
2
Y

S e2

SY2

Descomposicin de la varianza

Resumen sobre bondad de un ajuste


La bondad de un ajuste de un modelo de regresin se mide

usando el coeficiente de determinacin R2

R2 es una cantidad adimensional que slo puede tomar valores en

[0, 1]
Para el alumno astuto: por qu?

Cuando un ajuste es bueno, R2 ser cercano a uno.


por qu?
Cuando un ajuste es malo R2 ser cercano a cero.
por qu?
A R2 tambin se le denomina porcentaje de variabilidad explicado

por el modelo de regresin.


por qu? Difcil.

R2 puede ser pesado de calcular en modelos de regresin

general, pero en el modelo lineal simple, la expresin es de lo ms


sencilla:
R2=r2
Bioestadstica. U.
Tema
3: Estadstica
90
2
bivariante
Es coherente lo dicho entonces sobre los valores de RMlaga.
?

Otros modelos de regresin

Se pueden considerar
otros tipos de modelos, en
funcin del aspecto que
presente el diagrama de
dispersin (regresin no
lineal)

Tema 3: Estadstica
bivariante

91

Incluso se puede
considerar el que una
variable dependa de varias
(regresin mltiple).

Bioestadstica. U.
Mlaga.

Modelos de anlisis de regresin

Modelos de
regresin
Simple

Lineal

No lineal

1 variable explicativa

Mltiple

Lineal

No lineal

2+ variables explicativas

Você também pode gostar