Escolar Documentos
Profissional Documentos
Cultura Documentos
Tutorial ANOVA
Amanda C. Reiter, Ana M. Barreto, Clara R. Pires, Daniel Gonçalves-Souza, Danilo
S.S. Lima & Rafaela Lampa
24/10/2019
O que é ANOVA e para que serve?
Os testes de hipóteses estão classificados em duas categorias: paramétricos e não paramétricos. Testes
paramétricos são aqueles que utilizam os parâmetros da distribuição dos dados, ou uma estimativa destes,
para o cálculo de sua estatística. Exemplo: Média, desvio-padrão e proporção. Já os testes não paramétricos
não requerem tais pressupostos.
A Análise de Variância, ou ANOVA, é um teste paramétrico. Ela testa a hipótese de que a média de duas ou
mais populações são iguais. A ANOVA é uma ferramenta que auxilia o pesquisador a avaliar a importância de
um ou mais fatores, comparando as médias das variáveis resposta nos diferentes grupos.
Com 1 critério de classificação (1 variável categórica) (ex: diferentes locais influenciando na produção
de cortisol por macacos) -> One way;
Com 2 critérios de classificação (2 variáveis categóricas) (ex: tanto diferentes locais como os gêneros
dos macacos influenciando na produção de cortisol) -> Two way.
O princípio utilizado pela ANOVA para determinar a diferença entre médias é baseada na análise de dois
elementos da amostra: (i) a variação entre as médias dos grupos analisados; (ii) a variação em relação às
amostras dentro do mesmo grupo.
Temos que:
SQ(total) ou soma total de quadrados: é uma medida da variação total(em torno de x) em todos os dados
amostrais combinados;
Onde:
https://rpubs.com/dangs12/tutorial_anova 1/11
01/11/2022 10:17 Tutorial ANOVA
Onde:
Após calculados as somas dos quadrados, calcularemos os graus de liberdade (GL) da nossa amostra da
seguinte maneira:
GL(intra):
GL(entre):
Encontrados os nossos valores das somas dos quadrados, e os nossos graus de liberdade intra e entre
grupos, podemos calcular os nossos quadrados médios (QM). Para isso, calculamos da seguinte maneira:
QM(intra) = SQ(intra)/GL(intra)
QM(entre) = SQ(entre)/GL(entre)
Após isso, podemos calcular o nosso valor de F, que diz respeito ao valor de poder que nos prediz quanto da
fração é explicado pelo tratamento.
Onde:
É importante salientar que, para aplicarmos a ANOVA, os dados devem respeitar as seguintes premissas:
Amostras independentes;
Homogeneidade das variâncias entre os grupos (homocedásticos);
Resíduos com distribuição normal.
https://rpubs.com/dangs12/tutorial_anova 2/11
01/11/2022 10:17 Tutorial ANOVA
Hipótese Nula: não existem diferenças entre as médias dos grupos, ou seja:
μ A = μB = μC = μD
Caso o resultado seja estatisticamente significativo, aplica-se testes a posteriori para comparações múltiplas
entre médias. Esses testes, chamados de post hoc, permitem identificar quais as populações são diferentes
entre si, mantendo controlado o nível de significância do teste.
Delineamento amostral
Um pesquisador piauiense desenvolve junto ao Nuevo um estudo com bem-estar de macacos-prego (Sapajus
libidinosus). Uma das suas perguntas de pesquisa é se há diferença nos níveis de estresse do macacos-
prego nas diferentes áreas de seu trabalho, visto que o estresse afeta diretamente o bem-estar animal. Após
consultar a literatura, ele decidiu utilizar os níveis de cortisol presente nas fezes dos macacos como variável
preditora de estresse. Para isso, ele coletou as fezes de diferentes animais dos diferentes locais para verificar
a quantidade de cortisol presente.
Assim, uma planilha que continha alguns tipos de erros, como os destacados em vermelho da imagem a
seguir:
https://rpubs.com/dangs12/tutorial_anova 3/11
01/11/2022 10:17 Tutorial ANOVA
Após certificar-se que a planilha encontra-se apropriada, salve-a em formato .csv ou em formato .txt, para
começarmos a trabalhar com os dados.
https://rpubs.com/dangs12/tutorial_anova 4/11
01/11/2022 10:17 Tutorial ANOVA
setwd("/home/daniel/Dados")
# Lendo a planilha
# Caso a configuração do seu computador esteja com separador decimal como ",", chame a tabela
da seguinte maneira no R:
View(macacos)
Aplicando a ANOVA
A função do R que executa a ANOVA é a aov. Nessa função temos como argumentos nossa a variável
resposta(cortisol), variável preditora (local) e nossa planilha de dados:
## Call:
## aov(formula = Cortisol ~ Local, data = macacos)
##
## Terms:
## Local Residuals
## Sum of Squares 6248447 324986
## Deg. of Freedom 3 116
##
## Residual standard error: 52.93016
## Estimated effects may be unbalanced
summary(model)
A partir da estatística F e seu valor-p abaixo de 0.05 podemos temos embasamento estatístico para afirmar
com grande confiança que as médias de Cortisol dos macacos difere entre os locais analisado.
library(car)
leveneTest(Cortisol ~ Local, data = macacos)
A hipótese nula do Teste de Levene é de que não há diferença entre as variâncias dos grupos. O valor-p
maior do que 0.05 nos dá uma confiança estatística para afirmar que as variâncias são de fato iguais e
portanto nossos dados são homogêneos.
shapiro.test(resid(model))
##
## Shapiro-Wilk normality test
##
## data: resid(model)
## W = 0.98995, p-value = 0.5294
https://rpubs.com/dangs12/tutorial_anova 6/11
01/11/2022 10:17 Tutorial ANOVA
A hipótese nula do Teste de Shapiro-Wilk é de que não há diferença entre a nossa distribuição dos dados e a
distribuição normal. O valor-p maior do que 0.05 nos dá uma confiança estatística para afirmar que as
distribuição dos nossos resíduos não difere da distribuição normal.
Dessa forma nossos dados satisfazem todas as premissas da ANOVA e portanto, o resultado da nossa
ANOVA são válidos.
TukeyHSD(model)
A função retorna uma tabela onde as linhas são referentes à comparação par-a-par entre os grupos:
No nosso exemplo temos que todas as médias de cortisol diferem entre todos os locais, exceto entre Teresina
e Baixa Grande.
Gráficos
É importante também exibirmos graficamente a distribuição dos nossos dados, uma vez que esta é uma
ferramenta que facilita o entendimento do comportamento dos dados.
Histograma
Os gráficos de histograma nos mostram como os dados estão distribuídos. Com esse tipo de gráfico é
possível estimar onde os valores estão concentrados, quais são os extremos e se existem lacunas ou valores
incomuns. Eles também são úteis ao fornecer uma visão aproximada da distribuição de probabilidade.
https://rpubs.com/dangs12/tutorial_anova 7/11
01/11/2022 10:17 Tutorial ANOVA
library(ggplot2)
ggplot(macacos, aes(x = Cortisol,fill = Local)) +
geom_histogram(color = "black", binwidth = 50)+
facet_grid(Local ~ .) +
labs(y = 'Frequência') +
scale_fill_manual(values=c("#0f8bf7", "#f7830f", "#ff12d0", "#2a8008"))+
theme(panel.grid.major = element_blank(), panel.grid.minor = element_blank(),
panel.background = element_blank(), legend.position = 'top',
axis.line = element_line(colour = "black"))
Boxplot
O boxplot, assim como o histograma, mostra a distribuição do dados, porém exibindo-a através de quartis. Os
3 segmentos que formam o “box” equivalem ao 1º quartil, 2º quartil (ou mediana) e 3º quartil. As linhas
verticais mostram os limites mínimos e máximos dos valores da amostra. O boxplot também exibe os outliers
(representados pelos pontos), que são amostras que divergem muito da distribuição do restante das
amostras.
library(ggpubr)
ggboxplot(macacos, x = "Local", y = "Cortisol",
fill = "Local", palette = c("#0f8bf7", "#f7830f", "#ff12d0", "#2a8008"),
order = c("Baixa Grande","Pedra Furada", "Recife", "Teresina"),
ylab = "Níveis de cortisol", xlab = "Locais de estudo")
https://rpubs.com/dangs12/tutorial_anova 8/11
01/11/2022 10:17 Tutorial ANOVA
Gráfico Violino
O gráfico de violino, ou como também é chamado beanplot, é similar ao boxplot. É usado para visualizar a
distribuição dos dados e a densidade de probabilidade. O gráfico é uma combinação do boxplot e gráfico de
densidade, que é girado na vertical e espelhado, para mostrar a distribuição dos dados.
library(ggpubr)
ggviolin (macacos, x = "Local", y = "Cortisol", fill = "Local",
palette = c("#0f8bf7", "#f7830f", "#ff12d0", "#2a8008"),
order = c("Baixa Grande","Pedra Furada", "Recife", "Teresina"),
add = "boxplot", add.params = list(fill = "white"),
ylab = "Níveis de cortisol", xlab = "Locais de estudo")
https://rpubs.com/dangs12/tutorial_anova 9/11
01/11/2022 10:17 Tutorial ANOVA
Barplot
O barplot representa as médias dos grupos e seu respectivo intervalo de confiança
https://rpubs.com/dangs12/tutorial_anova 10/11
01/11/2022 10:17 Tutorial ANOVA
#Plotando o barplot
library(ggplot2)
ggplot(data.bp) +
geom_bar(aes(x = Local, y = media, fill = Local), stat = "identity") +
O eixo x indica os locais. O eixo y as médias de cortisol na fezes dos macacos em cada um dos locais. As
linha horizontais acima das barras indicam os valores mínimos e máximos do intervalo de confiança da média
de cortisol.
https://rpubs.com/dangs12/tutorial_anova 11/11