Você está na página 1de 20

31/05/2017

Testes de hipteses

Professor Franz Costa

Elementos preliminares
Tipos de teste segundo a suposio de distribuio
1. Paramtricos: supem alguma distribuio de probabilidades, seja das
variveis operacionalizadas, seja de algum parmetro do modelo
2. No paramtricos: testes que dispensam suposies de distribuies de
probabilidades
Tipos de teste segundo o nmero de variveis ou amostras envolvidos
1. Testes univariados: anlises de medidas de uma s amostra
2. Testes de duas variveis ou amostras: envolvem a comparao de
medidas ou a associao entre duas variveis ou amostras. Podem ser:
1. Com amostras independentes
2. Com amostras (ou variveis) pareadas
3. Testes de mltiplas variveis ou amostras: envolvem a comparao de
medidas ou a associao entre vrias variveis ou amostras. Podem ser:
1. Com amostras independentes
2. Com amostras (ou variveis) pareadas

Testes paramtricos: uma varivel ou


amostra

1
31/05/2017

Teste de uma varivel para a mdia


Normalmente testamos se a mdia de uma populao de onde uma amostra foi
extrada tem um determinado valor, considerando duas opes:
A varincia da populao conhecida, ou
A varincia da populao desconhecida (caso mais comum)
Se a varincia conhecida e a distribuio de origem normal, usamos a
transformao em Z e depois calculamos ou o valor crtico ou o p-valor. Caso
contrrio, fazemos a transformao em T e fazemos o mesmo procedimento.
Exemplo: testemos se a populao de onde vem a amostra X=(10, 13, 8, 10, 16)
tem mdia 9, dado que tem varincia 4 .
Como n=5, temos ~N(9, 4/5), ou ento T~t(4), = ( 9) 4/5.
Como mean(X)=11,4, testemos : = 9; : > 9. No R temos:
> 1-pnorm(11.4, 9, (4/5)^.5)
[1] 0.003645179
Ou seja, a 5%, improvvel que uma populao com mdia 9 gere uma
amostra deste tamanho com mdia 11,4.

Teste de uma varivel para a mdia


Se no sabemos a varincia da populao de origem da amostra (o
que o caso mais comum) ou no sabemos a distribuio, usamos
uma estimativa no viciada pela varincia amostral, porm usamos
uma variao no teste, baseado na estatista t, conforme indicado:
( )
= = , e, portanto, ~( 1)

Neste caso, no R precisaremos sempre fazer a transformao em T e


em seguida calculamos o quantil ou p-valor com base na estatstica t
Para o quantil, usamos: qt(alpha, n-1)
Para o p-valor, usamos: pt(tcalc, n-1)

Procedimentos
1. Definimos as hipteses relativas mdia da populao de origem da amostra
que temos, nas seguintes opes.
Unilateral esquerda Unilateral direita Bilateral
: = : = : =
: < : > :
2. Calculamos a estatstica amostral de interesse (com base em Z ou em T, a
depender de conhecermos ou no a varincia populacional)
3. Definimos um nvel de significncia de referncia para a diferena entre a
estatstica amostral e o parmetro populacional
4. Extramos os delimitadores do teste pelo valor crtico:
No teste unilateral esquerda, fazemos: qt(alpha, n-1), ou
qnorm(alpha, media, desvio)
No teste unilateral direita, fazemos: qt(1-alpha, n-1), ou qnorm(1-
alpha, media, desvio)
No teste bilateral, fazemos: c(qt(alpha/2, n-1), qt(1-alpha/2, n-
1)), ou c(qnorm(alpha/2, media, desvio), qnorm(1-alpha/2,
media, desvio))

2
31/05/2017

Procedimentos
4. Ou extramos o p-valor:
No teste unilateral esquerda, fazemos: pt(tcalc, n-1), ou
qnorm(calculado, media, desvio)
No teste unilateral direita, fazemos: 1-pt(tcalc, n-1), ou 1-
qnorm(calculado, media, desvio)
No teste bilateral, fazemos: 2*min(pt(tcalc, n-1), 1-pt(tcalc, n-1)),
ou 2*min(pnorm(calculado, media, desvio),1-pnorm(calculado,
media, desvio))
5. Decidimos com base no valor crtico ou no p-valor.
6. Alternativamente, podemos construir um intervalo de confiana para e mdia
(aqui s com a varincia desconhecida; faam a outra opo).
No teste unilateral esquerda: , 1 = + , , ;

No teste unilateral direita: , 1 = ; + ,

No teste bilateral: , 1 = + ,
; + ( , )

Procedimento no R
No R, temos o teste implementado para o caso da varincia
desconhecida, com o seguinte argumento:
> a=c(DADOS)
> media=VALOR
> alpha=NVEL DE SIGNIFICNCIA
> t.test(a, alternative = c("two.sided", "less",
"greater"), mu = media, conf.level = alpha)
Exemplo: suponha que a varivel grau de dificuldade tenha
distribuio normal. Use a amostra global para testar a hiptese de
que a mdia diferente de 2,0, e depois se maior que 3.5

Testes duas amostras ou variveis


Os testes paramtricos de duas amostras ou variveis so os
seguintes:
Comparao de duas varincias
Comparao de duas mdias de amostras independentes
Comparao de duas mdias de amostras ou variveis pareadas

3
31/05/2017

Teste de comparao de varincias


Da teoria estatstica, sabe-se que, em variveis com distribuio normal,
( )
= ~( )

( )
= ~( )

E ainda que,

( )
= = ~( , )
( )

Onde ( , ) uma medida da distribuio F com 1 e 1


graus de liberdade. Agora observe que:

: = ; : , o mesmo que : = 1; : 1
Isto permite o uso da estatstica acima no teste da hiptese de igualdade
de duas varincias

Teste de comparao de varincias


Procedimentos
1. Lanamos a hiptese de interesse sobre as duas varincias das
populaes que deram origem s duas amostras
2. Calculamos a estatstica F a partir das amostras
3. Definimos o nvel de significncia para a hiptese
4. Indicamos os delimitadores de regio crtica
1. No teste unilateral esquerda: qf(alpha, n1-1, n2-1)
2. No teste unilateral direita: qf(1-alpha, n1-1, n2-1)
3. No teste bilateral: c(qf(alpha/2, n1-1, n2-1), qf(1-alpha/2, n1-
1, n2-1))
5. Indicamos o p-valor
1. No teste unilateral esquerda: pf(fcalc, n1-1, n2-2)
2. No teste unilateral direita: pf(1-fcalc, n1-1, n2-2)
3. No teste bilateral: 2*min(pf(falc, n1-1, n2-2), 1-pf(fcalc, n1-
1, n2-1))

Teste de comparao de varincias


6. Decidimos pelo critrio mais adequado
7. Alternativamente, podemos desenvolver o intervalo de confiana das
razo de varincias, assim:
No teste unilateral esquerda: ,1 = ;
( , , )

No R: LI=(1/qf(1-alpha, n1-1, n2-1)*var(a)/var(b)); LI

No teste unilateral direta: , 1 = 0;


[ ( , , )

No R: LS=(1/qf(alpha, n1-1, n2-1)*var(a)/var(b)); LS

No teste bilateral: ,1 = ;
( / , , ) [ ( / , , )

No R: IC=c((1/qf(1-alpha/2,n1-1, n2-1))*var(a)/var(b),
(1/qf(alpha/2, n1-1, n2-1))*(var(a)/var(b))); IC

4
31/05/2017

Procedimento no R
No R, temos o teste implementado, com o seguinte argumento:
> a=c(DADOS1); b=c(DADOS2)
> var.test(a, b, ratio = 1, alternative =c("two.sided",
"less", "greater"))

Exemplo: teste a hiptese de que as variveis dificuldade e


necessidade possuem a mesma varincia.
Teste ainda se h diferena de variao nas percepes de domnio entre homens
e mulheres

Exerccio
Simule no R
1. A gerao de 1000 amostras de duas variveis com distribuio normal,
de X~N(10, 4) com n1=100, e Y~N(12, 4), com n2=50
2. Defina uma varivel razao igual razo de varincia amostral de cada
amostra
3. Calcule a mdia da varivel razao e desenhe o histograma
4. Compare o histograma gerado para razao com o histograma de uma
varivel com distribuio D~F(n1-1, n2-1)
5. Analise o resultado da distribuio de razes de varincia de amostras
de variveis de com distribuio normal
6. Efetue o teste com outras distribuies

Exerccio
Simule no R
1. A gerao de 1000 amostras de duas variveis com distribuio normal,
de X~N(10, 4) com n1=100, e Y~N(10, 7), com n2=50
2. Defina uma varivel d igual diferena de mdias amostrais de cada
amostra
3. Calcule a mdia e a varincia da varivel d e desenhe o histograma
4. Compare o histograma gerado para d com o histograma de uma
varivel com distribuio D~N(0, [4/100+7/50])
5. Analise o resultado da distribuio de diferenas de mdias
6. Efetue o teste com outras distribuies

5
31/05/2017

Comparao de duas mdias de amostras


independentes
Da teoria estatstica, sabe-se que

Se ~ ; , ~ ; ,

ento ~ ; +
Agora veja que
: = ; : equivale a : = 0; : 0
Esta equivalncia permite utilizar o resultado acima para calcular as
hipteses de igualdade de mdias
Os dois testes so de dois tipos:
As varincias so conhecidas, iguais ou desiguais
As varincias no so conhecidas, iguais ou desiguais, e precisam ser estimadas.

Comparao de duas mdias de amostras


independentes varincias iguais e desconhecidas
Procedimentos
1. Definimos a hiptese sobre as mdias das duas populaes que deram origem s
amostras
2. Testamos a hiptese de igualdade de varincias
3. Calculamos as mdias amostrais e em seguida a estatstica amostral T, assim:
( )
= , ~( + 2)

( )
Em que = , a mdia ponderada das duas varincias amostrais
4. Definimos o nvel de significncia
5. Extramos os delimitadores do teste pelo valor crtico:
No teste unilateral esquerda, fazemos: qt(alpha, n1+n2-2)
No teste unilateral direita, fazemos: qt(1-alpha, n1+n2-2)
No teste bilateral, fazemos: c(qt(alpha/2, n1+n2-2), qt(1-alpha/2,
n1+n2-2))

Comparao de duas mdias de amostras


independentes varincias iguais e desconhecidas
4. Ou extramos o p-valor:
No teste unilateral esquerda, fazemos: pt(tcalc, n1+n2-2)
No teste unilateral direita, fazemos: 1-pt(tcalc, n1+n2-2)
No teste bilateral, fazemos: 2*min(pt(tcalc, n1+n2-2), 1-pt(tcalc,
n1+n2-2))
5. Decidimos com base no valor crtico ou no p-valor.
6. Alternativamente, podemos construir um intervalo de confiana para e mdia
No teste unilateral esquerda: , 1 = ( ) + , ; , n = n1 +
n2
No teste unilateral direita: , 1 = ;( ) + ,

No teste bilateral: , 1 = + ,
; + ( , )

6
31/05/2017

Procedimento no R
No R, temos o teste implementado para o caso da varincia
desconhecida, com o seguinte argumento:
> a=c(DADOS1); b=c(DADOS2)
> t.test(a, b, alternative = c("two.sided", "less",
"greater"), paired = FALSE, var.equal = TRUE)
Exemplo: teste a hiptese de que a varivel domnio tem diferena
de mdias entre homens e mulheres, supondo que as varincias so
iguais

Comparao de duas mdias de amostras independentes


varincias desiguais e desconhecidas
Procedimentos
1. Definimos a hiptese sobre as mdias das duas populaes que deram origem s
amostras
2. Testamos a hiptese de igualdade de varincias
3. Calculamos as mdias amostrais e em seguida a estatstica amostral T, assim:

)
=
(
, ~()


Em que = + + , o nmero de graus de
( ) ( )
liberdade (arredondar) corresponde ao n do nosso alfabeto, e chamara nu (ni)
4. Definimos o nvel de significncia

Comparao de duas mdias de amostras independentes


varincias desiguais e desconhecidas
4. Extramos os delimitadores do teste pelo valor crtico:
No teste unilateral esquerda, fazemos: qt(alpha, n)
No teste unilateral direita, fazemos: qt(1-alpha, n)
No teste bilateral, fazemos: c(qt(alpha/2, v), qt(1-alpha/2,
n))
5. Ou extramos o p-valor:
No teste unilateral esquerda, fazemos: pt(tcalc, n)
No teste unilateral direita, fazemos: 1-pt(tcalc, n)
No teste bilateral, fazemos: 2*min(pt(tcalc, n), 1-pt(tcalc,
n))
5. Decidimos com base no valor crtico ou no p-valor
6. Complementarmente, possvel construir um intervalo de confiana, que fica
como exerccio

7
31/05/2017

Procedimento no R
No R, temos o teste implementado para o caso da varincia
desconhecida, com o seguinte argumento:
> a=c(DADOS1); b=c(DADOS2)
> alpha=NVEL DE SIGNIFICNCIA
> t.test(a, b, alternative = c("two.sided", "less",
"greater"), paired = FALSE, var.equal = FALSE,
conf.level = alpha)
Exemplo: teste a hiptese de que a varivel domnio tem diferena
de mdias entre homens e mulheres, supondo que as varincias so
diferentes

Exerccio
Simule no R
1. A gerao de 1000 amostras de duas variveis com distribuio normal,
de X~N(10, 4) com n1=100, e Y~N(10, 7), com n2=100
2. Tome X e Y por pareados, e defina uma varivel d1 igual diferena de
valores das amostras
3. Calcule a mdia e a varincia da varivel d1 e desenhe o histograma
4. Compare o histograma gerado para d1 com o histograma de uma
varivel com distribuio D~N(0, 11)
5. Defina uma varivel d2 igual diferena de mdias de X e Y
6. Calcule a mdia e a varincia da varivel d2 e desenhe o histograma
7. Compare o histograma gerado para d1 com o histograma de uma
varivel com distribuio D~N(0, [4/100+7/100])
8. Analise o resultado da distribuio de diferenas de mdias
9. Efetue o teste com outras distribuies

Comparao de duas mdias de amostras pareadas


Neste caso temos duas variveis com medidas correspondentes, ou seja, =
{ , , , }, Y = { , , , }
Procedimentos
1. Definimos a hiptese sobre as mdias das duas populaes que deram origem
s amostras
2. Definimos = = . Logo,
1 1 1 1
= = = + =

Definimos ainda
1
=
1
3. Calculamos a estatstica amostral T, assim:

= , e ~( 1)

8
31/05/2017

Comparao de duas mdias de amostras pareadas


4. Extramos os delimitadores do teste pelo valor crtico:
No teste unilateral esquerda, fazemos: qt(alpha, n-1)
No teste unilateral direita, fazemos: qt(1-alpha, n-1)
No teste bilateral, fazemos: c(qt(alpha/2, n-1), qt(1-alpha/2,
n-1))
5. Ou extramos o p-valor:
No teste unilateral esquerda, fazemos: pt(tcalc, n-1)
No teste unilateral direita, fazemos: 1-pt(tcalc, n-1)
No teste bilateral, fazemos: 2*min(pt(tcalc, n-1), 1-pt(tcalc,
n-1))
5. Decidimos com base no valor crtico ou no p-valor
6. Complementarmente, possvel construir um intervalo de confiana,
que fica como exerccio

Procedimento no R
No R, temos o teste implementado para o caso da varincia
desconhecida, com o seguinte argumento:
> a=c(DADOS1); b=c(DADOS2)
> t.test(a, b, alternative = c("two.sided", "less",
"greater"), paired = TRUE)
Exemplo: suponho que as variveis percepo de domnio e de
necessidade de mtodos quantitativos tenham distribuio normal
teste a hiptese de que as mdias so iguais, tomando-as por
pareadas.

Testes e tcnicas de associao/previso

9
31/05/2017

Testes e tcnicas de associao/previso


A grande maioria dos problemas de pesquisa est associado ao
relacionamento entre duas ou mais variveis em procedimentos
pareados.
Algumas tcnicas testam associao, de forma limitada
J outras tcnicas, e as principais delas, buscam verificar previso
de uma varivel em outra
A associao/previso identificada na teoria encontra suporte
emprico na associao/previso de variveis, por meio de tcnicas as
mais diversas
Vejam bem: as medidas estatstica precisam refletir a relao prevista
em teorias
A grande maioria das dissertaes, das teses e dos artigos, so
baseados nesta verificao, qual seja, a da manifestao nos dados
do que suposto em teoria

Testes e tcnicas de associao/previso


A primeira verificao de determinadas tcnicas estatsticas justamente da
manifestao, ou no, da relao prevista para dois constructos em um
conjunto de dados
Isto facilitado pelas tcnicas e testes que supem a nulidade de algum parmetro
populacional
Ou seja, quase sempre o primeiro teste baseado na hiptese nula de que a
medida (ou parmetro) populacional igual a zero.
Alm disto, suposio de associao costuma identificar uma direo na
relao
Esta verificao segue sendo facilitada pela identificao de sinais (positivo
ou negativo) de medidas estatsticas amostrais
Para este curso, trs tcnicas so destacadas, para uma anlise preliminar e
parcial, mas j suficiente para grande parte das anlises
Anlise de correlao
Anlise de varincia
Anlise de regresso

Correlao paramtrica de Pearson

10
31/05/2017

Correlao parte paramtrica


Duas variveis aleatrias e tm sua medida de covarincia
(populacional) dada por:
Cov X; Y = E X E X Y E Y = Cov X; Y = E X Y ,
ou ainda Cov X; Y = E E X E Y
A covarincia uma medida de associao linear, valendo o seguinte:
Se Cov X; Y =0, no existe associao linear entre as duas variveis
Se Cov X; Y >0, existe associao linear positiva entre as duas variveis
Se Cov X; Y <0, existe associao linear negativa entre as duas variveis
Veja que Cov X; = E X E X X E X =E X E X , ou seja
Cov X; = Var(X)
Problema: a covarincia uma medida que varia ao longo de todo o
conjunto de nmeros reais; isto fez surgir o conceito de correlao

Correlao parte paramtrica


Duas variveis aleatrias e tm sua medida de correlao
(populacional) dada por:
Cov X; Y
Cor X; Y =
()

A em termos de medidas, o sentido o mesmo da varincia, ou seja,


Se Co X; Y =0, no existe associao linear entre as duas variveis
Se Co X; Y >0, existe associao linear positiva entre as duas variveis
Se Co X; Y <0, existe associao linear negativa entre as duas variveis
Vantagem: a correlao uma medida que varia entre -1 e 1, e quanto
mais prximo destes extremos, maior nvel de associao linear entre as
duas variveis aleatrias

Correlao parte paramtrica


Veja que anunciamos a correlao entre duas variveis aleatrias
(que representam duas populaes)
No entanto, na grande maioria dos problemas correntes temos
amostras que utilizamos para fazer inferncia sobre as populaes.
Nestes termos, temos a correlao de uma amostras (que estima a
correlao populacional) dada assim:
( )( )
Cor X; Y = = =
( ) ( )

Veja que, como temos uma amostra de tamanho n para estimar a


correlao populacional, em inferncia buscamos saber o quanto este
valor amostral nos d segurana quanto ao parmetro populacional

11
31/05/2017

Correlao parte paramtrica


A distribuio amostral do estimador de correlao populacional
delicada de exibir, porm temos uma estatstica amostral til, cuja
distribuio j foi devidamente estudada para a suposio de
nulidade da correlao populacional
Se X~N ; , e Y~N ; , podemos lanar as hipteses:
: = 0; : 0
Sob , r tem distribuio amostral com mdia 0 e varincia =
. Neste caso, teremos ainda que:

T= tem distribuio ( 2)

Obviamente, quanto maior o t calculado, menor a probabilidade de


que a correlao amostral seja oriunda de uma populao com
correlao nula.

Correlao parte paramtrica


No R temos:
> a=c(DADOS1)
> b=c(DADOS2)
> cor(a,b) # Calcula a correlao amostral entre a e b
> cor.test(a,b) # Apresenta detalhes do teste de hipteses da
nulidade entre a e b
O resultado do teste j traz a correlao estimada, alm do teste de
nulidade
Observe que tambm apresentado um intervalo de confiana no
teste, cuja construo fica como exerccio
Tarefa: na planilha sobre do estudo de conservadorismo, calcule as
correlaes amostrais entre as variveis quantitativas e analise os
resultados

Exerccio
Simule no R
1. A gerao de 1000 amostras de duas variveis com distribuio
normal, de X~N(10, 4) e Y~N(10, 7), com tamanhos 150
2. Tome X e Y por pareados, e defina uma varivel r igual
correlao amostral calculada no R

3. Calcule a mdia e a varincia da varivel e desenhe o


histograma
4. Compare o histograma da varivel gerado com o histograma de
uma varivel com distribuio D~t(148)
5. Analise o resultado das distribuies
6. Efetue o teste com outras distribuies e outros tamanhos de
amostra

12
31/05/2017

Correlao parte paramtrica


Complementos:
Se a correlao no nula dizemos que as variveis possuem variao
conjunta
Mas veja que a existncia de correlao no nula indica apenas que existe
associao linear, no sendo possvel afirmar pelos dados a origem
desta
Em geral, quando a correlao no nula, temos trs opes
A associao eventual, aleatria e nada indica em termos de
associao entre os constructos
Uma varivel influencia a outra
Existe uma terceira varivel que influencia a variao das outras
duas, ou seja
Co X; Y 0 (X Y) (Y X) (Z/Z X e Y)

Anlise de varincia de um fator

Anlise de varincia de um fator


Comumente, temos variveis especficas que so mensuradas em
diferentes grupos ou momentos, e nossa inteno verificar se as
medidas descritivas variam entre estes grupos ou momentos
Nos modelos paramtricos, um dos mais usados nesse sentido a
anlise de varincia, que analisa se a mdia de uma determinada
varivel igual ou distinta ao longo de diferentes fatores.
Normalmente, supomos a existncia de k grupos, cada um (em uma
primeira construo), com n observaes (as amostras podem ter
tamanhos distintos), e testamos a seguintes hipteses
: = = =
: , para algum i , , = 1, 2, ,

13
31/05/2017

Anlise de varincia de um fator


Para modelar, temos o seguinte:
1 ... ... n
... ...
... ...
... ... ... ... ... ...
... ...
... ... ... ... ... ...
Ak ... ...

= + +
Ou seja, cada observao oriunda da mdia global, mais o efeito do
fator, mais o efeito de um erros aleatrio

Anlise de varincia de um fator


So feitas suposies sobre o erro (o que torna a tcnica
paramtrica), indicadas a seguir:
~(0, )
Para quaisquer i e j, os erros so independentes
Veja que no sabemos os valores de erros, que so populacionais,
porm podemos buscar estimar estes erros, como veremos
posteriormente. Estas duas propriedades sero portanto analisadas
nos estimadores dos erros
Sem maiores justificativas, aceitaremos que as mdias amostrais dos
grupos sero os estimadores das suas mdias populacionais, ou seja,

=.= e = =

Anlise de varincia de um fator


Derivao do teste:
Soma total dos quadrados dos erros estimados pelos desvios totais:
= ( ) (h N observaes)

Soma dos quadrados ENTRE dos fatores, estimados pelos desvios nos
fatores:
= ( . ) (h N-k fatores)

Soma dos quadrados Dentro dos fatores, estimados pelos desvios nos
fatores:
= ( . ) (h ni-1 observaes por fator)

Com alguma lgebra, se v que: SQT=SQE+SQD

14
31/05/2017

Anlise de varincia de um fator


Derivao do teste:
SQ GL QM Razo F
SQE k-1 QME=SQE/(k-1)
SQD N-k QMD=SQD/(N-k) F=QME/QMD

SQT N-1 QMT=SQT/(N-1)

Demonstra-se que a estatstica F, que razo entre a varincia entre


os fatores e a varincia dentro dos fatores, segue uma distribuio F
com k-1 e N-k graus de liberdade.
Quanto maior for o valor de F, maior ser a razo entre a variao
entre os fatores, e a variao dentro dos fatores.
Ou seja, as medidas entre os fatores variam mais que dentro destes

Anlise de varincia de um fator


Derivao do teste:
Mas uma maior variao entre os fatores significa que suas mdias
variam muito, e que so, provavelmente, diferentes
Se supomos (na hiptese nula) que as mdias so iguais, uma
variao grande nas mdias entre os fatores significa que a hiptese
nula deve ser refutada.
Com isto temos a indicao de que um valor F elevado d indcios de
negao da hiptese nula.
Mas o tamanho da estatstica F depende dos graus de liberdade
Por isto, a melhor referncia de anlise o p-valor, que indica nesta
caso a probabilidade de populaes com mdias iguais gerarem
amostras com os tamanhos indicados com as mdias amostrais
encontradas.
Novamente, pequenos p-valores indicam rejeio da hiptese nula

Anlise de varincia de um fator


Procedimento computacional
No R, o procedimento o seguinte:
Dadas uma varivel categrica A, com categorias A1, ... Ak
Uma varivel B, com valores nas categorias de A, teremos
> is.factor(A) #Confirma se A categrico
> is.numeric(B) # Confirma se B quantitativo
> a=aov(B~A); summary(a) # Gera o teste da ANOVA
> tapply(B, A, mean) #Mostrar as medidas de B nas
categorias
> print(model.tables (a,"means"),digits=4) #Mostra as
medidas de B nas categorias
> boxplot(B~A) # Mostra o boxplot por categoria

COMPLEMENTO: comparaes mltiplas


> TukeyHSD(a, A") # Comparaes mltiplas

15
31/05/2017

Anlise de varincia de um fator


Procedimento computacional
Um diagnstico preliminar e visual
> r=a$resid # Isola os resduos
> f=fitted(a) # Isola os valores estimados
> hist(r) # Indica se h normalidade dos resduos
> qqnorm(r); qqline(r) # Outro indcio de
normalidade dos resduos
> plot(f, r) #D indcio de homoscedasticidade

Anlise de regresso simples

Anlise de regresso simples: fundamentos


A anlise de regresso uma das ferramentas mais usadas em toda a
teoria estatstica e nas aplicaes
A quantidade de estudos de regresso no caberia em um curso
completo de mtodos aplicados
Comumente, so estudados:
A regresso linear simples, em um primeiro nvel
A regresso linear mltipla, em um segundo nvel
Os modelos lineares mais gerais, para aplicaes especializadas
Os modelos especficos de cada rea de aplicao, nas reas especializadas
O pressuposto quase sempre o seguinte: verificamos se uma
determinada varivel pode ser predita a partir de uma ou de um
conjunto de outras variveis explicativas ou preditoras

16
31/05/2017

Anlise de regresso simples: fundamentos


Na anlise do modelo linear simples, temos uma varivel predita e uma
varivel preditoras, que prev a predita a partir do seguinte modelo:
= + +
Onde Y a varivel predita, X a varivel preditoras, um valor constante, e
o fator de influncia de X sobre Y e um termo de erro, que explica alm de .

Como no temos, na maioria das vezes, os valores populacionais das variveis


Y e X, utilizamos resultados amostrais
Neste caso, estimamos e a partir da amostra, gerando uma equao do
tipo:
= + + ( = , e = )

Temos dois problemas centrais:


Como proceder a estimao
Como testar quo bem os estimadores estimam os parmetros

Anlise de regresso simples: estimao


O processo de estimao:
Sem maiores detalhamentos, o que busca minimizar a soma
dos resduos ao quadrado, ou seja, minimizar

Isto gera o seguinte, aps uma srie de derivaes e


algebrismos:
=
( )
=

Anlise de regresso simples: avaliao coeficiente


de determinao
Anlise do modelo estimado:
Veja que, dados a e b, para cada encontraremos um valor ,
que estima , no necessariamente igual ao observado.
Temos, com alguns clculos, que:
( ) = ( ) + ( )
Chamemos de ( ) de variao total, ( ) de
variao explicada, e ( ) de variao residual
Obviamente, quanto melhor estima , mais estas duas medidas
de variao se aproximam.
A razo entre as duas variaes define, portanto, uma medida de
adequao do ajuste, e recebe a seguinte definio:
( )
=
( )

17
31/05/2017

Anlise de regresso simples: avaliao coeficiente


de determinao
Anlise do modelo estimado:
uma medida de correlao ao quadrado, e, portanto, varia sempre
ente 0 e 1. Analise as possibilidades....
Para analisar a consistncia dos estimadores, precisamos dos seguintes
pressupostos:
A relao entre X e Y linear (linearidade)
O valor esperado dos erros zero
Os erros do modelo tem distribuio normal (normalidade)
A varincia dos erros do modelo constantes (homoscedasticidade)
Os erros so aleatrios e independentes entre si (independncia)
Em geral, os resduos absolutos, ou alguma variao destes, so os
estimadores dos erros
ESTES PRESSUPOSTOS SO, COM EXCEO DO PRIMEIRO,
VERIFICADOS NOS RESDUOS

Anlise de regresso simples: avaliao ANOVA da


regresso
Anlise do modelo estimado:
Os pressupostos permitem a construo de um conjunto de testes
de hipteses sobre:
A consistncia global do modelo
Os valores parmetros e
Os pressupostos sobre os erros
Para a consistncia global, temos a tabela de ANOVA da regresso
SQ Medida GL QM Razo F
SQReg ( ). 1 QMReg=SQReg
QMReg
SQRes ( ). n-2 QMRes=SQRes/(N-2) =
QMRes
SQT ( ). n-1 QMT=SQT/(N-1)

Prova-se que, sob os pressupostos, F ~ F(1, n-2)

Anlise de regresso simples: avaliao anlise de


estimadores
Anlise do modelo estimado:
Assim como no caso da ANOVA, quanto maior F, mais seguro
estamos de que o modelo estimado explica mais a variao total
do que os resduos.
F suficientemente grandes (ou p-valores suficientemente
pequenos, indicam que h alguma explicao da variao de Y
oriunda do modelo
Especificamente para os parmetros de regresso, testaremos se
estes so iguais a zero ou no. Temos as seguintes hipteses:
1. : = 0; : 0
2. : = 0; : 0
A teoria da derivao das estatsticas do teste moderadamente
complexa, e fica como sugesto de estudo.

18
31/05/2017

Anlise de regresso simples: avaliao anlise de


estimadores
sabido que, sob a hiptese nula, ou seja, = 0, a distribuio
amostral de tal que
E =0
( )
Var = +
( )

Sob os pressupostos, demonstrvel que

Se T = =
( )
( )

Ento T~t(n-2)

Anlise de regresso simples: avaliao anlise de


estimadores
sabido que, sob a hiptese nula, ou seja, = 0, a distribuio
amostral de tal que
E =0
( )
Var =
( )

Sob os pressupostos, demonstrvel que

Se T = =
( )

Ento T~t(n-2)

Observe que, em ambos os estimadores, a varincia diminui com o


crescimento da amostra

Anlise de regresso simples: avaliao anlise de


estimadores
Naturalmente, quanto maior o valor de calculado, e quanto menor
for a varincia estimada, maior a estatstica T, e mais improvvel
que o valor populacional seja, de fato, nulo.
Como a estatstica T depende da varincia e esta do tamanho da
amostra, inadequado verificar a estatstica T por seu valor.
Por isto, normalmente remetemos anlise do p-valor
Quanto maior T, para um mesmo tamanho de n, menor o p-valor
Pequenos p-valores do indcios contrrios hiptese nula
Normalmente os softwares j indicam, para cada estimador:
A estimativa
Seu erro padro (raiz quadrada da varincia)
O valor da estatstica t
O p-valor

19
31/05/2017

Anlise de regresso simples: avaliao anlise de


resduos
Como dito, os resduos so estimadores dos erros do modelo
Analisamos nos resduos, portanto, sua:
Linearidade
Normalidade de distribuio
Homoscedasticidade (varincia constante ao longo do conjunto
de observaes)
Independncia
Normalmente fazemos esta avaliao:
Por meio grfico, em uma avaliao exploratria (de modo
semelhante ao feito na ANOVA)
Por meio de testes estatsticos, a maioria no paramtricos

20