Apostila Estatística Experimental No R

1
Sumário
1. Estatística descritiva .......................................................................................................... 3
1.1. Média ........................................................................................................................... 3
1.2. Mediana ....................................................................................................................... 4
1.3. Moda ............................................................................................................................ 5
1.4. Variância ..................................................................................................................... 7
1.5. Desvio padrão .............................................................................................................. 8
1.6. Amplitude total ........................................................................................................... 8
1.7. Erro padrão da média ................................................................................................ 8
1.8. Coeficiente de variação .............................................................................................. 9
1.9. Covariância e correlação............................................................................................ 9
2. Teste de Normalidade e homogeneidade de variâncias ................................................... 10
3. ANOVA ................................................................................................................................ 14
3.1. Delineamento inteiramente casualizado ..................................................................... 15
3.2. Delineamento em blocos casualizado .......................................................................... 20
3.3. Delineamento em quadrado latino .............................................................................. 25
3.4. Esperimento fatorial .................................................................................................... 31
3.5. Experimento hierárquico ............................................................................................. 35
4. Regressão ............................................................................................................................. 39
Experimental Analytics Corporation – leoazevedop@gmail.com - +55 31 99502 4915

2
4.1. Regressão linear simples .............................................................................................. 39
4.2. Regressão linear múltipla ............................................................................................ 44
4.3. Seleção de modelos ....................................................................................................... 46
4.4. Remoção de outlier ....................................................................................................... 47
5. Teste de média ..................................................................................................................... 49
5.1. Teste de Tukey .............................................................................................................. 49
5.2. Teste SNK...................................................................................................................... 57
5.3. Teste de Duncan ........................................................................................................... 63
5.4. Teste de Scheffe ............................................................................................................ 69
5.5. Teste de Dunnett ........................................................................................................... 72
5.6. Teste de Scott-knott...................................................................................................... 74
6. Pacote ExpDes ..................................................................................................................... 75
7. Pacote EASY ANOVA – ANOVA desbalanceada ........................................................... 76
8. Rbio ...................................................................................................................................... 80

3
1. Estatística descritiva
Estatística descritiva é a parte da Estatística que apenas descreve e avalia certo grupo de dados,
seja ele população, seja amostra. No caso de estarmos trabalhando com amostras, o simples uso
de estatísticas descritivas não nos permite tirar quaisquer conclusões ou inferências sobre um grupo
maior.
Para estabelecimento de inferências ou conclusões sobre um grupo maior (a população)
precisaríamos usar algo além do que será visto em Estatística Descritiva. Na verdade, esse “algo
mais” seria uso de métodos estatísticos que caracteriza a área da Estatística conhecida como
“Estatística Indutiva” ou “Inferência Estatística”.
Na estatística descritiva existem dois métodos que podem ser usados para a apresentação dos
dados: métodos gráficos (envolvendo apresentação gráfica e, ou, tubular) e métodos numéricos
(envolvendo apresentações de medidas de posição e, ou, dispersão, entre outras).
Medidas de posição, como o próprio termo indica, visam a resumir um conjunto de dados em geral
numa única medida em algum lugar geométrico entre os extremos observados do conjunto
(mínimo e máximo). Temos como as principais medidas de posição a média, a mediana e a moda
e veremos cada uma delas separadamente abaixo.
1.1.Média
A média é a medida de posição mais conhecida. A definição de média de um conjunto de dados
quantitativos já é conhecida desde o Ensino Fundamental e, consiste na soma dos valores do
conjunto dividida pelo número de observações da seguinte forma:
∑𝑛𝑖=1 𝑥𝑖
𝑚=
𝑛
Sendo i o valor de cada observação e n o número de observações.

4
Vamos fazer um exemplo para fixação. Suponhamos que estamos avaliando altura em humanos
adultos e que obtivemos os seguintes resultados em centímetros: 175, 166, 173, 182, 165, 172 e
194. Para calcular a média devemos aplicar a fórmula acima da seguinte maneira:
175 + 166 + 173 + 182 + 165 + 172 + 194

𝑚
̂= = 175,29𝑐𝑚
7
Desta forma, a média de altura de adultos para a população estudada é de 175,29cm.
A média pode ser facilmente obtida no R pelo comando mean(). Veja:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
analytics corporation\\Short course\\Experimental stattistics in
R")
dados<-read.table("dados.txt", h=T)
mean(dados) #obtendo a média
colMeans(dados) #obtendo a média
1.2.Mediana
Uma estatística utilizada para indicar o centro de um conjunto de dados é a mediana amostral, que
pode ser definida, de maneira simplificada, como o valor intermediário do conjunto de dados, cujos
valores são dispostos ordenadamente.
A mediana é uma medida de posição (tendência central) indicada quando o conjunto de dados
possui valores extremos discrepantes dos demais, o que pode comprometer a discussão dos dados
baseados simplesmente na média. A medida é obtida no conjunto de dados quando este se encontra
ordenado, não importando se crescente ou decrescente. Porém o R já realiza automaticamente a
ordenação, sem a necessidade de o usuário ordenar manualmente os dados antes de executar o
comando que retorna o valor da mediana.

5
Para calcular a mediana precisamos seguir alguns passos como segue:
1. Ordenar o conjunto de dados em ordem crescente;
2. Se o número de elementos for par, então a mediana é a média dos 2 valores centrais, ou
seja, soma-se os 2 valores centrais e dividi o resultado por 2;
3. Se o número de elementos for ímpar, então a mediana é o valor central.
194. Para calcular a mediana devemos seguir os passos acima:
1. Ordenar os valores da seguinte forma: 165, 166, 172, 173, 175, 182 e 194.
2. Como o número de elementos é ímpar (temos 7 elementos) a mediana é o valor central, ou
seja, a mediana é igual a 173 cm.
Agora veja como fazer o cálculo da mediana no software R:
median(dados[,3]) #obtendo a mediana
median(dados[,4]) #obtendo a mediana
1.3.Moda
A moda é outra medida utilizada para indicar a tendência central de um conjunto de observações.
A moda é o valor que aparece com mais frequência em um conjunto de dados, ou seja, o valor que
aparece mais vezes. Um conjunto de dados pode ser amodal quando nenhum valor do conjunto
pode ser considerado moda; unimodal, quando o conjunto possui apenas um valor modal; bimodal,
quando o conjunto possui dois valores de moda; e multimodal, quando o conjunto de dados possui
mais de dois valores modais.

6
A Moda é especialmente útil quando os valores ou as observações não são numéricos, casos em
que a média e a mediana não podem ser definidas. Por exemplo, a moda da amostra {maçã, banana,
laranja, laranja, laranja, pêssego} é laranja.
194. Para calcular a moda basta verificarmos o valor que aparece mais vezes que neste caso é 172
cm, pois este valor aparece 2 vezes no nosso banco de dados.
A moda pode ser obtida da seguinte forma no R. Como não existe uma função para calcular a moda
no R nós desenvolvemos uma. Veja:
moda<-function(x)
if((is.numeric(x)==TRUE) && (is.list(x)==FALSE))
xx<-table(x)
valores<-which(xx==max(xx))
vmodal<-0
for(i in 1:(length(valores)))
if(i==1) vmodal<-as.numeric(names(valores[i]))
else
vmodal<-c(vmodal, as.numeric(names(valores[i])))
if(length(vmodal)==length(xx))
print("conjunto sem valor modal")
else return(vmodal)

7
else print("o parâmetro deve ser um vetor ou uma matriz")
moda(dados[,3]) #obtendo a moda
moda(dados[,4]) #obtendo a moda
1.4.Variância
A variância nada mais que é o quão seus dados estão dispersos ao redor da média. Ela pode ser
facilmente obtida sendo o erro ao quadrado dividido pelo número de observações menos 1 como
será mostrado abaixo. Desta forma podemos observar que a unidade da variância será a unidade
da variável ao quadrado, como por exemplo: 𝑚2 , 𝐾𝑔2 , etc.
A variância amostral de um conjunto de dados, x1, x2,...,xn é assim definida:
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆𝑄𝐷𝑠
𝑠2 = =
𝑛−1 𝑛−1
Em que 𝑆𝑄𝐷𝑠 corresponde à soma de quadrados dos desvios de X.
194. Para calcular a variância devemos aplicar a fórmula acima da seguinte maneira:
(175 − 175,29)2 + (166 − 175,29)2 + ⋯ + (194 − 175,29)2 603,43

2
𝑠 = = = 100,57𝑐𝑚2
7−1 6
Desta forma, podemos concluir que a variância amostral do meu experimento é 100,57𝑐𝑚2 .
Com apenas um comando podemos obter a variância amostral usando o R. Veja:
var(dados) ##obtendo a variância de dados

8
1.5.Desvio padrão
O desvio padrão é definido como a raiz quadrada positiva da variância, o desvio padrão exerce
grande vantagem sobre a variância, já que é apresentado na mesma unidade de medida dos dados
brutos. O desvio padrão pode assim obtido no R:
sd(dados[,3]) #calculando o desvio padrão
sd(dados[,4]) #calculando o desvio padrão
1.6.Amplitude total
A amplitude total é a diferença entre o maior (máximo) e o menor (mínimo) valor de um conjunto
de dados. Tem a vantagem de ser calculada de forma rápida e fácil, porém, fornece número (índice)
grosseiro da variabilidade de uma distribuição, por levar em conta apenas dois valores de um
conjunto.
A amplitude total pode ser obtida de forma indireta no R fazendo a subtração do máximo valor de
um conjunto de dados pelo mínimo. Veja:
range(dados[,3]) #mostrando o valor mínimo e máximo
max(dados[,3])-min(dados[,3]) #amplitude total obtida
indiretamente
range(dados[,4]) #mostrando o valor mínimo e máximo
max(dados[,4])-min(dados[,4]) #amplitude total obtida
indiretamente
1.7.Erro padrão da média
O erro padrão da média mede a precisão da média. Ele é obtido da seguinte forma:

9
𝑠𝑥2 𝑠𝑥
𝑠(𝑋̅) = √𝑉(𝑋̅) = √ =
𝑛 √𝑛
Médias com menor erro padrão são consideradas mais precisas. Veja:
sd(dados[,3])/sqrt(nrow(dados)) #obtendo o erro padrão da média
sd(dados[,4])/sqrt(nrow(dados)) #obtendo o erro padrão da média
1.8.Coeficiente de variação
O coeficiente de variação é uma medida de dispersão relativa, e é útil para comparar, em termos
relativos, o grau de concentração em torno da média, dos dados. Por ser um número adimensional,
permite a comparação de variáveis de unidades diferentes. O coeficiente de variação é estimado
da seguinte forma:
𝑠𝑥
𝐶𝑉(%) = 100
𝑋̅
Amostras com menos CV são ditas mais homogêneas. Veja:
(sd(dados[,3])/mean(dados[,3]))*100 #Obtendo o CV de x
1.9.Covariância e correlação
Covariância e correlação são utilizados no estudo do comportamento conjunto de duas variáveis
quantitativas. Medem a variação conjunta (covariância) ou o grau de associação (correlação) entre
duas variáveis aleatórias X e Y.
Sejam duas amostras relativas as variáveis X e Y organizadas em pares de valores (Xi, Yi), para
i=1,2,...,n. O coeficiente de correlação entre as variáveis X e Y é dado por:
𝑆𝑃𝐷𝑋𝑌
𝐶𝑂̂𝑉(𝑋, 𝑌) 𝑛−1 𝑆𝑃𝐷𝑋𝑌
𝑟𝑋𝑌 = = =
√𝑆𝑄𝐷𝑋 𝑥 𝑆𝑄𝐷𝑌 √𝑆𝑄𝐷𝑋 𝑥 𝑆𝑄𝐷𝑌 √𝑆𝑄𝐷𝑋 𝑥𝑆𝑄𝐷𝑌
𝑛−1 𝑛−1 𝑛−1 𝑛−1

10
No R, a covariância e a correlação entre dois conjuntos de dados quaisquer podem ser obtidos
pelos comandos cov(x,y) e cor(x,y), respectivamente. Veja:
cov(dados[,3],dados[,4]) #obtendo a covariância entre x e y
cor(dados[,3],dados[,4]) #obtendo a correlação entre x e y
Se tivermos uma matriz “dados” com seis colunas e n linhas, onde cada coluna representa os
valores de cada variável tomadas em cada indivíduo i (linha da matriz de dados, i=1, ..., n), os
comandos cov(dados) e cor(dados) fornecerão, respectivamente, a matriz de covariâncias
e a matriz de correlações das seis variáveis tomadas nos n indivíduos.
2. Teste de Normalidade e homogeneidade de variâncias
A não normalidade dos dados e dos erros é restritiva apenas em situações muito drásticas,
especialmente quando o teorema central do limite não se aplica, ou seja, quando a distribuição da
média dos dados não converge para a distribuição normal, com o aumento do tamanho da amostra.
Quando a distribuição dos erros é muito assimétrica (coeficiente de assimetria muito diferente de
zero) e platicúrtica (coeficiente de curtose muito negativo), a não normalidade afeta o nível
nominal de significância dos testes estatísticos, de forma que o nível escolhido pelo pesquisador
não é assegurado na prática, usualmente sendo maior que o nominal, podendo ser constatadas
diferenças significativas entre tratamentos que, em realidade, não são diferentes.
De maneira prática, o teste F de Snedecor é robusto a pequenos desvios da normalidade dos erros
fornecendo resultados satisfatórios quando se verificam distribuições aproximadamente normais.
Na presença de grandes desvios da normalidade e de dados com estrutura não linear, a plaicação
direta dos modelos lineares sobre os dados observados torna-se imprópia. Neste caso, há duas
opções: 1) a transformação de dados de forma que se tornem adequados ( ou se moldem) ao modelo

11
linear; 2) a modelagem dos modelso aos dados. A abordagem 2 é preferida e se caracteriza por ser
técnicas pertencentes as classes dos modelos lineares geenralizados.
Existem vários procedimentos para avaliar a normalidade dos dados. Dentre eles destacan-se os
testes não paramétricos de kolmogorov-Smirnov, de Shapiro-Wilk e de aderência do qui-quadrado,
que são os mais utilizados. Os testes de assimetria e curtose também permitem inferir sobre a
normalidade.
O teste de Shapiro-Wilk (W) varia de 0 a 1, sendo que valores pequenos de W revelam que os
dados não se adequam à distribuição normal, conduzindo a rejeição da hipótese H0.
O teste de Komogorov-Smirnov compara as distribuições dos dados observados com a dos dados
esperados sobre suposição de normalidade padrão. Este teste baseia-se na maior diferença D entre
as frequências acumuladas observadas e esperadas e tende a ser mais poderoso que o teste do χ2,
sobretudo no caso de peqeunas amostras. A estatística do teste D é comparada com valores críticos
tabelados.
Constatando-se grande desvios de normalidade e não se optando pelo uso das técnicas pertencentes
á classe dos modelos lineares generalizados, resta realizar a transformação dos dados. Persistindo
o problema, devem ser empregadas as provas de livre distribuição, ou seja, os proce3diemntos não
paramétricos. Os testes não paramétricos devem ser usados como último recurso, vistoq ue os
testes paramétricos têm melhores propriedades estatísticas.
Para realizar os testes de assimetria, curtose e normalidade no R vamos utilizar o seguinte exemplo:
R")

12
##Calculando assimetria e curtose no R
## Tipos de curtose:
## C=3 - mesocurtica
## C>3 - platicúrtica
## C<3 - leptocúrtica
## Tipos de assimetria
## AS=0 - Média, moda e mediana coincidem
## AS>0 - cauda da distribuição do lado direito do gráfico
## AS<0 - cauda da distribuição do lado esquerdo do gráfico
require(e1071)
kurtosis(dados[,3], na.rm = TRUE,type=3)
kurtosis(dados[,4], na.rm = TRUE,type=3)
skewness(dados[,3],type=1)
skewness(dados[,4],type=1)
library(fBasics)
basicStats(dados[,3])
basicStats(dados[,4])
##Rodando o teste de Kolmogorov-Smirnov
ks.test(dados[,3],"pnorm")
ks.test(dados[,4],"pnorm")

13
##Rodando o teste de Shapiro-wilk
shapiro.test(dados[,3])
shapiro.test(dados[,4])
A homocedástica ou homogeneidade de variância dos erros associados aos váriso tratamentos é
muito importante no contexto de comparação de médias, visto que os testes de comparação
múltipla baseam-se em diferenças mínimas significativas, dependente de uma variação residual
comum a todos os tratamentos. Assim, os erros contribuidos pelos vários tratamentos devem,
todos, ser estimativa de uma variância populacional comum.
A violação de qualquer outra suposição da análise de variância pode conduzir a heterogeneidade
de variãncias dos erros. A violação da suposição de homogeneidade de variância é grave quando
a distribuição dos erros é leptocúrtica (curtose positiva) ou quando existe assimetria, e no caso de
distribuição leptocúrtica, o teste F tende a não rejeitar a hipótese de nulidade (H0) quando ela é
falsa.
Existem vários testes para inferência sobre a existência ou não de homogeneidade de variâncias,
como o de Bartlet, o de Hartley e o de Levene. O teste de Bartlet para comparação de variâncias é
muito sensível à falta de normalidade dos erros, sendo por isto muito criticado. O teste de Hartley
ou teste de F máximo tem como estatística de teste:

2
𝜎𝑚𝑎𝑥
𝐹𝑚𝑎𝑥 = 2
𝜎𝑚𝑖𝑛
2 2
Com t e (b-t) graus de liberdade, em que 𝜎𝑚𝑎𝑥 e 𝜎𝑚𝑖𝑛 referem-se a maior e a menor estiamtiva das
variâncias residual (ou dentro dos tratamentos) dos tratamentos ou amostras, t refere-se ao número
de tratamentos ou amostras e b, ao número de observações (ou blocos) por tratamento.

14
O valor calculado do 𝐹𝑚𝑎𝑥 é comparado com o valor tabelado da distribuição de 𝐹𝑚𝑎𝑥 de Hartley.
Como regra prática, tem sido aceito que quando 𝐹𝑚𝑎𝑥 calculado é menor que 3, a heterogeenidade
de variância não é problemática. Exemplo:
## Calculando teste de Bartlet
bartlett.test(dados$Var_1~dados$Trat, dados)
bartlett.test(dados$Var_2~dados$Trat, dados)
3. ANOVA
Estudos estatísticos contemplam a análise de variância como um procedimento que permite
identificar e quantificar as variações corridas em um experimento, discriminando as partes das
variações associadas ao modelo pelo qual o experimento foi procedido, da variação que se dá ao
acaso.
No R são encontrados os diversos procedimentos para se executar a ANOVA. Entretanto o usuário
deve estar atento ao escolher e realizar a análise, pois alguns erros são frequentes, por exemplo,
não especificar algum fator ou esquecer sinal no módulo.
Na tabela a seguir são mostrados alguns modelos e suas usuais formulações.
Modelo Fórmula Comentários

DIC y~t Em que t é uma variável categórica
DBC y~t+b Em que t e b são variáveis categóricas
DQL y~t+l+c Em que t, l e c são variáveis categóricas
Fatorial DIC y~N*P Igual a N+P+N:P
Fatorial DBC y~b+N*P Igual a b+N+P+N:P
DIC – delineamento inteiramente casualizado; DBC – delineamento em blocos casualizados; DQL
– delineamento em quadrado latino; t – tratamentos; b – blocos; l – linhas; c – colunas; N –
número de tratamentos 1; P – número de tratamentos 2.

15
Os comandos utilizados para realizar o procedimento de ANOVA no R são aov() utilizada para
modelos com erros normais e independentes, e glm() utilizada modelos com estrutura de erros
independentes.
3.1.Delineamento inteiramente casualizado
O delineamento inteiramente casualizado (DIC) trata-se de experimentos em que os dados não são
pré-separados ou classificados em categorias (blocos). Ou seja, neste delineamento como o próprio
nome indica, os tratamentos são distribuídos aleatoriamente nas unidades experimentais (parcelas).
Ele é recomendado para experimentos conduzidos sob condições controladas e homogêneas.
As principais características do DIC são:
• Leva em conta apenas os princípios de repetição e casualização;
• Os tratamentos são divididos em parcelas de forma inteiramente casual;
• Exige que o material experimental seja semelhante e que as condições de estudo sejam
completamente uniformes;
• Os aspectos que devem ser considerados na semelhança entre as unidades experimentais
são aqueles que interferem nas respostas das mesmas aos tratamentos;
• Ele geralmente é mais utilizado em experimentos nos quais as condições experimentais
podem ser bastante controladas (por exemplo em laboratórios);
• Esse delineamento também é recomendado em situações onde se corre risco de perder
repetições durante o experimento.
As principais vantagens do DIC são:
• O número de graus de liberdade para o erro experimental é máximo;

16
• O número de tratamentos e de repetições depende apenas do número de parcelas
experimentais disponíveis;
• É o delineamento mais simples de ser instalado e conduzido.
As principais desvantagens do DIC são:
• Exige homogeneidade total das condições experimentais.
• Pode-se obter uma estimativa da variância devido ao erro experimental bastante alta,
quando não utilizado corretamente, pois, uma vez que não se considera o princípio do
controle local, todas as variações exceto as devidas aos tratamentos, são consideradas como
variação ao acaso.
O modelo estatístico para este tipo de delineamento é:
𝑦 = 𝜇+𝑡+𝜖
Em que y é valor da variável, 𝜇 é a média experimental, t é o efeito de tratamento, e 𝜖 é o erro.
Suponhamos um experimento (fictício) de produtividade em soja em que se avaliaram 3 variedades
de soja (A, B e C) com 2 repetições distribuídos na área experimental em DIC. Os dados referentes
a produtividade são apresentados na tabela abaixo:
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64

17
Como temos 3 tratamentos, o grau de liberdade para tratamentos é 3 – 1 = 2. E temos 6 parcelas
experimentais no experimento o que remete a 5 graus de liberdade total (6 – 1 = 5). Desta forma,
o número de graus de liberdade do resíduo são: GLtotal – GLtrat = 5 – 2 = 3.
Quanto às diversas somas de quadrados, são obtidas assim:
Correção (C):
2
(∑ 𝑥𝑖𝑗 ) (70 + 63 + 68 + 75 + 61 + 64)2
𝐶= = = 26800,17
𝑁 6
Soma de quadrado total (SQtotal):
2
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗 − 𝐶 = (702 + 632 + 682 + 752 + 612 + 642 ) − 26800,17 = 134,83
Soma de quadrado de tratamento (SQtrat):
1 1
𝑆𝑄𝑇𝑟𝑎𝑡 = ( ∑ 𝑥𝑖.2 ) − 𝐶 = ( (1452 + 1242 + 1322 )) − 26800,17 = 112,33
𝑟 2
Soma de quadrado do resíduo (SQres):
𝑆𝑄𝑟𝑒𝑠 = 𝑆𝑄𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑄𝑡𝑟𝑎𝑡 = 134,82 − 112,33 = 22,49
O quadrado médio é calculado como mostrado abaixo.
Quadrado médio de tratamento (QMtrat):
𝑆𝑄𝑇𝑟𝑎𝑡 112,33
𝑄𝑀𝑇𝑟𝑎𝑡 = = = 56,16
𝐺𝐿𝑇𝑟𝑎𝑡 2
Quadrado médio do resíduo (QMres):
𝑆𝑄𝑅𝑒𝑠 22,49
𝑄𝑀𝑅𝑒𝑠 = = = 7,50
𝐺𝐿𝑅𝑒𝑠 3
O teste F é calculado da seguinte forma:
𝑄𝑀𝑇𝑟𝑎𝑡 56,16
𝐹= = = 7,48
𝑄𝑀𝑅𝑒𝑠 7,50

18
Desta forma, o quadro da análise de variância é:
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
tratamento; Res: resíduo.
O F tabelado para 2 e 3 graus de liberdade é 9,55. Portanto, F calculado é menor que F tabelado,
ou seja, não rejeita-se a hipótese H0, ou seja, as médias de tratamentos são estatisticamente iguais.
OBS: Provavelmente este fato aconteceu porque nosso experimento é muito pequeno e possui
menos que 10 graus de liberdade para o resíduo. Em experimentos reais recomenda-se que exista
pelo menos 10 GL do resíduo, sendo que o ideal é acima de 20. Aqui como nosso objetivo é fazer
os cálculos manualmente nós optamos por um experimento bem pequeno.
Agora vamos fazer um exemplo real no software R:
R")
Agora devemos transformar a coluna dos tratamentos em fatores como segue:
Trat<-as.factor(dados$Trat)
Agora é só fazer o procedimento de ANOVA utilizando a função aov().

19
resultado<-aov(dados[,3]~Trat)
Exibindo o resultado da ANOVA:
anova(resultado)
ou
summary(resultado)
Df Sum Sq Mean Sq F value Pr(>F)
Trat 4 553.7 138.43 13.48 0.000488 ***
Residuals 10 102.7 10.27
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Alguns gráficos informativos da análise podem ser assim obtidos:
par(mfrow=c(2,2)) #divide a janela gráfica em quatro subjanelas
plot(resultado) #plota os gráficos para análise do resíduo

20
Obs: Em todos os tipos de análise de variância, para todas as variáveis qualitativas, devem ser
criados fatores e não vetores, ou seja, o objeto que contêm os nomes(ou números) dos tratamentos,
dos blocos, entre outros, devem ser fatores e não vetores. Para criar fatores e para conversão de
um vetor em um fator podemos usar as funções factor() ou as.factor().
3.2.Delineamento em blocos casualizado
O delineamento de blocos casualizado (DBC) trata-se de experimentos em que o controle local é
realizado, pois há restrição na aleatorização dos tratamentos. Como é praticamente impossível,
especialmente em nível de campo, obter uma área experimental que seja homogênea em toda sua
extensão, procura-se que ela seja homogênea pelo menos dentro da repetição-bloco, isto é, para
que esse delineamento seja eficiente, os blocos que irão receber todos os tratamentos deverão ser
os mais uniformes possíveis. Considerando que a área experimental é heterogênea, diferenças entre
os blocos são esperados, e podem ser atenuadas com este tipo de delineamento.
As principais características do DBC são:
➢ Leva em conta os princípios de repetição, casualização e controle local;
➢ Os tratamentos são divididos dentro de cada bloco de forma inteiramente casual;
➢ Ele geralmente é mais utilizado em experimentos de campo onde não conseguimos ter áreas
homogêneas para montagem de um DIC;
➢ A área experimental pode ser homogênea, porém dentro de cada bloco precisa ser
heterogênea.
As principais vantagens do DBC são:
➢ Controla as diferenças que ocorrem nas condições ambientais, de um bloco para outro;

21
➢ Conduz a uma estimativa mais exata para a variância residual, uma vez que a variação
ambiental entre blocos é isolada.
As principais desvantagens do DBC são:
➢ Pela utilização do princípio do controle local, há uma redução no número de graus de
liberdade do resíduo;
➢ A exigência de homogeneidade das parcelas dentro de cada bloco limita o número de
tratamentos, que não pode ser muito elevado.
𝑦 = 𝜇+𝑏+𝑡+𝜖
Em que y é valor da variável, 𝜇 é a média experimental, b é o efeito de bloco, t é o efeito de
tratamento, e 𝜖 é o erro.
de soja (A, B e C) com 2 blocos distribuídos na área experimental em DBC. Os dados referentes a
produtividade são apresentados na tabela abaixo:
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
Como temos 3 tratamentos, o grau de liberdade para tratamentos é 3 – 1 = 2. Da mesma maneira,
temos 2 blocos, assim o grau de liberdade para blocos é 2 – 1 = 1. E temos 6 parcelas experimentais
no experimento o que remete a 5 graus de liberdade total (6 – 1 = 5). Desta forma, o número de
graus de liberdade do resíduo são: GLtotal – GLtrat = 5 – 2 - 1= 2.

22
Correção (C):
2
(∑ 𝑥𝑖𝑗 ) (70 + 63 + 68 + 75 + 61 + 64)2
𝐶= = = 26800,17
𝑁 6
2
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗 − 𝐶 = (702 + 632 + 682 + 752 + 612 + 642 ) − 26800,17 = 134,83
1 1
𝑆𝑄𝑇𝑟𝑎𝑡 = ( ∑ 𝑥𝑖.2 ) − 𝐶 = ( (1452 + 1242 + 1322 )) − 26800,17 = 112,33
𝑟 2
Soma de quadro de blocos (SQblocos):
1 1
𝑆𝑄𝑏𝑙𝑜𝑐𝑜𝑠 = ( ∑ 𝑥.𝑗2 ) − 𝐶 = ( (2012 + 2002 )) − 26800,17 = 0,1633
𝑡 3
𝑆𝑄𝑟𝑒𝑠 = 𝑆𝑄𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑄𝑡𝑟𝑎𝑡 − 𝑆𝑄𝑏𝑙𝑜𝑐𝑜𝑠 = 134,82 − 112,33 − 0,1633 = 22,32
𝑄𝑀𝑇𝑟𝑎𝑡 = = = 56,16
Quadrado médio de blocos (QMblocos):
𝑆𝑄𝑏𝑙𝑜𝑐𝑜𝑠 0,1633
𝑄𝑀𝑏𝑙𝑜𝑐𝑜𝑠 = = = 0,1633
𝐺𝐿𝑏𝑙𝑜𝑐𝑜𝑠 1
𝑄𝑀𝑅𝑒𝑠 = = = 11,16

23
𝐹𝑡𝑟𝑎𝑡 = = = 5,03
𝑄𝑀𝑏𝑙𝑜𝑐𝑜𝑠 0,16
𝐹𝑏𝑙𝑜𝑐𝑜𝑠 = = = 0,01
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
Trat 2 112,33 56,16 5,03
Res 2 22,32 11,16
Total 5 134,83
Conclusão para o efeito de tratamento: O F tabelado para 2 e 2 graus de liberdade é 19,00. Portanto,
F calculado é menor que F tabelado, ou seja, não rejeita-se a hipótese H0, ou seja, as médias de
tratamentos são estatisticamente iguais.
Conclusão para o efeito de bloco: O F tabelado para 1 e 2 graus de liberdade é 18,51. Portanto, F
calculado é menor que F tabelado, ou seja, não rejeita-se H0. Podemos ter duas conclusões quando
isto acontece: a área é homogênea e o experimento deveria ter sido conduzido em DIC, ou os
blocos foram montados paralelo a heterogeneidade do terreno e desta forma os blocos não ficaram
homogêneos.
OBS: Provavelmente este fato aconteceu porque nosso experimento é muito pequeno e possui
menos que 10 graus de liberdade para o resíduo. Em experimentos reais recomenda-se que exista
pelo menos 10 GL do resíduo, sendo que o ideal é acima de 20. Aqui como nosso objetivo é fazer
os cálculos manualmente nós optamos por um experimento bem pequeno.

24
Exemplo:
R")
Agora devemos transformar a coluna dos tratamentos e dos blocos em fatores como segue:
Bloc<-as.factor(dados$Rep)
resultado<-aov(dados[,3]~Trat+Bloc)
anova(resultado)
ou
summary(resultado)
Trat 4 553.7 138.43 11.363 0.00221 **
Bloc 2 5.2 2.60 0.213 0.81228
Residuals 8 97.5 12.18
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

25
3.3.Delineamento em quadrado latino
O delineamento em quadrado latino (DQL) é mais restritivo que o de blocos ao acaso, pois há
controle local tanto no sentido das linhas como de colunas. Neste delineamento, o número de
parcelas é sempre o quadrado do número de delineamentos e o número de repetições deve ser
sempre igual ao número de tratamentos.
As principais características do DQL são:
➢ O número de blocos para cada fator controlado deve ser igual ao número de tratamentos.
➢ Uma vez formados os blocos, distribui-se os tratamentos ao acaso com a restrição que cada
tratamento seja designado uma única vez em cada um dos blocos dos dois fatores
controlados.
➢ A grande restrição dos ensaios em quadrados latinos é que para 2, 3 ou 4 tratamentos
teremos apenas 0, 2 ou 6 GL, respectivamente, para o resíduo.

26
➢ Por outro lado, com 9 ou mais tratamentos, o quadrado latino fica muito grande, trazendo
dificuldades na instalação, pois, para 9 tratamentos, teremos 81 parcelas.
➢ Por isso, os quadrados latinos mais usados são os de 5 x 5, 6 x 6, 7 x 7 e 8 x 8.
As principais vantagens do DQL são:
➢ Controla a heterogeneidade do ambiente onde será conduzido;
➢ Conduz a estimativa menos elevada do erro experimental.
As principais desvantagens do DQL são:
➢ A análise estatística é mais demorada;
➢ Exige que os blocos fiquem num mesmo local da área experimental;
➢ Exige que o número de tratamentos seja igual ao número de repetições;
➢ Apresenta o número menor de grau de liberdade para o resíduo;
➢ Exige que o quadro auxiliar da analise de variância esteja completo para poder efetuar a
análise estatística.
𝑦 = 𝜇+𝑙+𝑐+𝑡+𝜖
Em que y é valor da variável, 𝜇 é a média experimental, c é o efeito de colunas, l é o efeito de
linhas, t é o efeito de tratamento, e 𝜖 é o erro.

27
de soja (A, B e C) com 3 repetições distribuídos na área experimental em DQL. Os dados referentes
Coluna 1 Coluna 2 Coluna 3

Linha 1 A (70) B (63) C(68)
Linha 2 C (64) A (75) B (61)
Linha 3 B (67) C (67) A(73)
Como temos 3 tratamentos, o grau de liberdade para tratamentos é 3 – 1 = 2. No caso das linhas e
colunas, como nós temos 3 repetições o grau de liberdade para linhas é igual ao grau de liberdade
para colunas que é 3 – 1 = 2. E temos 6 parcelas experimentais no experimento o que remete a 5
graus de liberdade total (9 – 1 = 8). Desta forma, o número de graus de liberdade do resíduo são:
GLtotal – GLtrat = 8 – 2 – 2 - 2= 2.
Correção (C):
2
(∑ 𝑥𝑖𝑗𝑘 ) (70 + 63 + 68 + 75 + 61 + 64 + 73 + 67 + 67)2
𝐶= = = 41073,78
𝑁 9
2
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗𝑘 −𝐶
= (702 + 632 + 682 + 752 + 612 + 642 + 732 + 672 + 672 ) − 41073,78
= 168,22
1 2
1
𝑆𝑄𝑇𝑟𝑎𝑡 = ( ∑ 𝑥𝑖.. ) − 𝐶 = ( (2182 + 1912 + 1992 )) − 41073,78 = 128,22
𝑟 3
Soma de quadrado das linhas (SQlinhas):

28
1 2
1
𝑆𝑄𝑙𝑖𝑛ℎ𝑎𝑠 = ( ∑ 𝑥.𝑗. ) − 𝐶 = ( (2012 + 2002 + 2072 )) − 41073,78 = 9,55
𝑟 3
Soma de quadrado das colunas (SQcolunas):
1 2
1
𝑆𝑄𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = ( ∑ 𝑥..𝑘 ) − 𝐶 = ( (2012 + 2052 + 2022 )) − 41073,78 = 2,89
𝑟 3
𝑆𝑄𝑟𝑒𝑠 = 𝑆𝑄𝑡𝑜𝑡𝑎𝑙 − 𝑆𝑄𝑡𝑟𝑎𝑡 − 𝑆𝑄𝑙𝑖𝑛ℎ𝑎𝑠 − 𝑆𝑄𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = 168,22 − 128,22 − 9,55 − 2,89
= 27,56
𝑄𝑀𝑇𝑟𝑎𝑡 = = = 64,11
Quadrado médio das linhas (QMlinhas):
𝑆𝑄𝑙𝑖𝑛ℎ𝑎𝑠 9,55
𝑄𝑀𝑙𝑖𝑛ℎ𝑎𝑠 = = = 4,77
𝐺𝐿𝑙𝑖𝑛ℎ𝑎𝑠 2
Quadrado médio das colunas (QMcolunas):
𝑆𝑄𝑐𝑜𝑙𝑢𝑛𝑎𝑠 2,89
𝑄𝑀𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = = = 1,44
𝐺𝐿𝑐𝑜𝑙𝑢𝑛𝑎𝑠 2
𝑄𝑀𝑅𝑒𝑠 = = = 13,78
𝐹𝑡𝑟𝑎𝑡 = = = 4,65
𝑄𝑀𝑙𝑖𝑛ℎ𝑎𝑠 4,77
𝐹𝑙𝑖𝑛ℎ𝑎𝑠 = = = 0,35

29
𝑄𝑀𝑐𝑜𝑙𝑢𝑛𝑎𝑠 1,44
𝐹𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = = = 0,10
FV GL SQ QM F
Linhas 2 9,55 4,77 0,35
Colunas 2 2,89 1,44 0,10
Trat 2 128,22 64,11 4,65
Res 2 27,56 13,78
Total 8 168,22
Conclusão para o efeito de tratamento: O F tabelado para 2 e 2 graus de liberdade é 19,00. Portanto,
F calculado é menor que F tabelado, ou seja, não rejeita-se a hipótese H0, ou seja, as médias de
tratamentos são estatisticamente iguais.
Conclusão para o efeito das linhas e das colunas: O F tabelado para 2 e 2 graus de liberdade é
19,00. Portanto, F calculado é menor que F tabelado para as duas fontes de variação, ou seja, não
rejeita-se H0. Neste caso podemos concluir que a área é homogênea e o experimento deveria ter
sido conduzido em DIC.
OBS: Provavelmente O F de tratamento foi não significativo porque o experimento é muito
pequeno e possui menos de 10 graus de liberdade para o resíduo. Em experimentos reais
recomenda-se que exista pelo menos 10 GL do resíduo, sendo que o ideal é acima de 20. Aqui
como nosso objetivo é fazer os cálculos manualmente nós optamos por um experimento bem
pequeno.

30
Agora vamos aprender como fazer uma análise de variância para DQL utilizando o software
R:
R")
dados<-read.table("dados_DQL.txt", h=T)
Agora devemos transformar a coluna dos tratamentos, das linhas e das colunas em fatores como
segue:
Col<-as.factor(dados$Col)
Lin<-as.factor(dados$Lin)
resultado<-aov(dados[,4]~Trat+Col+Lin)
anova(resultado)
ou
summary(resultado)
Trat 4 117.0 29.24 2.846 0.0716 .

Col 4 793.8 198.44 19.316 3.66e-05 ***
Lin 4 27.0 6.74 0.656 0.6339
Residuals 12 123.3 10.27

---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

31
3.4.Experimento fatorial
O experimento fatorial é aquele que mais de um fator esta envolvido na análise. Este experimento
pode ser tanto em DIC quanto em DBC. Os faotres envolvidos neste tipo de experimento pode ser
o mais variável possível tais como: níveis de K e N, avaliação de vários genótipos dentro de vários
ambientes (locais ou anos), avaliação de doses de P em diferentes solos, etc. Assim, além da análise
de cada fator separadamente, também é realizado a análise da interação destes fatores, ou seja
como estes fatores interagem de forma a influenciar a característica em estudo.
O modelo estatístico para este tipo de experimento é:

32
𝑦 = 𝜇 + 𝐴 + 𝐵 + 𝐴 ∗ 𝐵 + 𝜖 – DIC
𝑦 = 𝜇 + 𝑏 + 𝐴 + 𝐵 + 𝐴 ∗ 𝐵 + 𝜖 - DBC
Em que y é valor da variável, 𝜇 é a média experimental, b é o efeito de bloco, A é o efeito do fator
A, B é o efeito do fator B, A*B é o efeito da interação A*B, e 𝜖 é o erro.
Exemplo:
Considerando um experimento em DIC:
R")
dados<-read.table("dados_fatorial.txt", h=T)
Agora devemos transformar as colunas do fator A e do fator B em fatores como segue:
Fator_A<-as.factor(dados$Fator_A)
Fator_B<-as.factor(dados$Fator_B)
resultado<-aov(dados[,4]~Fator_A+Fator_B+Fator_A*Fator_B)
anova(resultado)
ou
summary(resultado)
Fator_A 3 86.5 28.82 2.283 0.118165
Fator_B 1 260.0 260.04 20.597 0.000336 ***

Fator_A:Fator_B 3 593.5 197.82 15.669 5.08e-05 ***
Residuals 16 202.0 12.62

33
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Considerando um experimento em DBC:
Agora devemos transformar as colunas do fator A, do fator B e dos blocos em fatores como segue:
Bloc<-as.factor(dados$Rep)
resultado<-aov(dados[,4]~Bloc+Fator_A+Fator_B+Fator_A*Fator_B)

34
anova(resultado)
ou
summary(resultado)
Bloc 2 56.3 28.17 2.707 0.101406

Fator_A 3 86.5 28.82 2.770 0.080639 .
Fator_B 1 260.0 260.04 24.993 0.000195 ***
Fator_A:Fator_B 3 593.5 197.82 19.012 3.3e-05 ***

Residuals 14 145.7 10.40
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

35
3.5.Experimento hierárquico
O experimento hierárquico é aquele que mais de um fator está envolvido na análise, porém os
efeitos do fator A são analisados em diferentes doses do fator B não sendo possível estabelecer o
efeito da interação entre os dois fatores. Este experimento pode ser tanto em DIC quanto em DBC.
Os fatores envolvidos neste tipo de experimento podem ser o mais variável possível tais como:
níveis de K dentro de níveis de N, avaliação de vários genótipos dentro de vários ambientes (locais
ou anos), avaliação de doses de P em diferentes solos, etc. Assim, além da análise de cada fator
separadamente, também é realizado a análise da interação destes fatores, ou seja como estes fatores
interagem de forma a influenciar a característica em estudo.
O modelo estatístico para este tipo de experimento é:
𝑦 = 𝜇 + 𝐴 + 𝐵(𝐴) + 𝜖 – DIC
𝑦 = 𝜇 + 𝑏 + 𝐴 + 𝐵(𝐴) + 𝜖 - DBC

36
Em que y é valor da variável, 𝜇 é a média experimental, b é o efeito de bloco, A é o efeito do fator
A, B(A) é o efeito do fator B dentro de cada efeito do fator A, e 𝜖 é o erro.
Exemplo:
Considerando um experimento em DIC:
R")
dados<-read.table("dados_hierarquico.txt", h=T)
Agora devemos transformar as colunas do fator A e do fator B em fatores como segue:
resultado<-aov(dados[,4]~Fator_A+Fator_B/Fator_A)
anova(resultado)
ou
summary(resultado)
Fator_A 3 86.5 28.82 2.283 0.118
Fator_B 4 853.5 213.38 16.901 1.34e-05 ***

Residuals 16 202.0 12.62
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

37
Considerando um experimento em DBC:
Agora devemos transformar as colunas do fator A, do fator B e dos blocos em fatores como segue:
Bloc<- as.factor(dados$Rep)
resultado<-aov(dados[,4]~Bloc+Fator_A+Fator_B/Fator_A)
anova(resultado)
ou

38
summary(resultado)

Bloc 2 56.3 28.17 2.707 0.1014
Fator_A 3 86.5 28.82 2.770 0.0806 .
Fator_B 4 853.5 213.38 20.507 9.77e-06 ***

Residuals 14 145.7 10.40
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

39
4. Regressão
A análise de regressão consiste em uma análise estatística com o objetivo de verificar a existência
de uma relação funcional entre uma variável dependente com uma ou mais variáveis
independentes. Em outras palavras, consiste na obtenção de uma equação que tenta explicar a
variação da variável dependente pela variação dos níveis das variáveis independentes.
4.1.Regressão linear simples
Quando o diagrama de dispersão apresenta os pontos agrupados em torno de uma reta imaginária,
provavelmente existe uma relação de linearidade entre as variáveis envolvidas. A essa relação dá-
se o nome de regressão linear simples.
Exemplo:
Um engenheiro civil coleta dados em um laboratório estudando a dilatação de um pilar de concreto
segundo a temperatura ambiente no local onde está o pilar. Os dados estão descritos na tabela
abaixo.
T (ºC) 18 16 25 22 20 21 23 19 17
Dilatação linear (mm) 5 3 10 8 6 7 9 6 5
Posso realizar um estudo de regressão nestes dados? Qual modelo usar? Como montar a equação
que relaciona a temperatura com a dilatação neste estudo? A temperatura realmente exerce
influência na dilatação do pilar? Posso quantificar essa relação?
Essas são as perguntas que podemos fazer ao nos depararmos com os dados acima apresentados.
Suas respostas podem ser encontradas fazendo uma análise de regressão.
Primeiro entraremos com os dados da tabela no R, criando dois objetos: um que conterá os valores
de temperatura e outro da dilatação, na ordem em que foram apresentados. Veja:
temp<-c(18,16,25,22,20,21,23,19,17)

40
dilat<-c(5,3,10,8,6,7,9,6,5)
Inicialmente o estudo de regressão pode ser feito com a definição do modelo. Para auxiliar na
escolha deste, visualizaremos os pontos em um diagrama de dispersão:
plot(temp,dilat) #variável independente deve vir primeiro
O diagrama sugere uma tendência linear dos dados. Montaremos, portanto, um modelo de
regressão linear simples (simples pois existe apenas uma variável independente “temp”
relacionada a variação da variável dependente “dilat”. Assim, o modelo pode ser montado da
seguinte forma:
reglin<-lm(dilat~temp)
reglin

41
Call:
lm(formula = dilat ~ temp)
Coefficients:
(Intercept) temp
-8.1710 0.7323
Com base neste modelo, teremos duas informações: o valor do intercepto (valor onde a reta da
regressão intercepta o eixo das ordenadas, que muitas vezes, não tem interpretação prática, como
seria o caso neste exemplo) e o valor que representa um coeficiente de relação entre a dilatação e
a temperatura, ou seja, quanto a dilatação irá variar para cada variação unitária da temperatura.
Esses valores são comumente representados pelos estatísticos como β0 e β1 respectivamente.
Logo, podemos concluir que o modelo de regressão ajustado seria:
𝑦̂ = 𝛽̂0 + 𝛽̂1 . 𝑋
Assim:
̂ = −8.1710 + 0.7323. 𝑡𝑒𝑚𝑝

𝑑𝑖𝑙𝑎𝑡
Em que a temperatura é dada em ºC e a dilatação em mm. Podemos obter os valores estimados
(preditos) pelos valores tabelados de “temp” da função com o comando:
predict(reglin)
1 2 3 4 5 6 7 8 9
5.009677 3.545161 10.135484 7.938710 6.474194 7.206452 8.670968 5.741935 4.277419
O primeiro valor, ou seja, 5,009677, representa o valor predito para a dilatação quando a
temperatura é 18ºC (primeiro valor do objeto “temp”, e assim sucessivamente até o último valor
de “temp”, gerando nove valores.

42
Assim vamos plotar novamente os dados e acrescentar a função encontrada no diagrama:
plot(temp,dilat) #diagrama de dispersão
abline(reglin) #reta da regressão ajustada
Podemos também realizar análise de variância da regressão da seguinte forma:
anova(reglin)
Analysis of Variance Table
Response: dilat
temp 1 36.938 36.938 201.4 2.048e-06 ***

Residuals 7 1.284 0.183

43
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Com base nesta análise podemos verificar que o coeficiente β1 é significativo (a temperatura
influencia significativamente a dilatação, uma vez que o p-value encontrado foi na ordem de 10-6,
ou seja, muito pequeno. Adicionalmente, podemos obter muitas outras informações:
summary(reglin)
Call:
lm(formula = dilat ~ temp)
Residuals:
Min 1Q Median 3Q Max
-0.54516 -0.20645 -0.00968 0.25806 0.72258
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -8.1710 1.0475 -7.801 0.000107 ***
temp 0.7323 0.0516 14.191 2.05e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.4283 on 7 degrees of freedom
Multiple R-squared: 0.9664, Adjusted R-squared: 0.9616
F-statistic: 201.4 on 1 and 7 DF, p-value: 2.048e-06

44
Veja o valor do coeficiente de determinação (R2) destacado (Multiple R-Squared: 0.9664). Ele
representa o quanto da variação da dilatação linear pode ser explicada pela variação da temperatura
neste experimento. Uma vez que o valor encontrado foi quase 97% há indicação de que o modelo
escolhido (linear) foi bem ajustado.
4.2.Regressão linear múltipla
#------------------------------------------------------------------------------------------
# importando dados
dap <- read.table("http://www.leg.ufpr.br/~walmes/cursoR/dap.txt", header=TRUE, sep="\t")
str(dap)
names(dap) <- c("d","h")
#------------------------------------------------------------------------------------------
# criando novas variáveis regressoras
dap$d2 <- dap$d^2
dap <- transform(dap, d2=d^2, d3=d^3, dr=sqrt(d), dl=log(d), di=1/d, di2=1/d^2)
str(dap)
pairs(dap)
dap <- dap[order(dap$d),]
dapcc <- dap[complete.cases(dap),]
rownames(dapcc) <- NULL
head(dapcc)
str(dapcc)

45
#------------------------------------------------------------------------------------------
# ajuste do modelo quadrático
m1 <- lm(h~d+d2, data=dapcc) # ou lm(h~d+I(d^2), data=dapcc)
summary(m1)
layout(matrix(c(1,1,2,3,4,5),2,3))
plot(h~d, dapcc)
lines(fitted(m1)~d, dapcc)
plot(m1)
#------------------------------------------------------------------------------------------
# modelo cúbico
m2 <- lm(h~d+d2+d3, data=dapcc) # ou lm(h~d+I(d^2)+I(d^3), data=dapcc)
summary(m2)
plot(h~d, dapcc)
lines(fitted(m2)~d, dapcc)
plot(m2)
#------------------------------------------------------------------------------------------
# modelo recíproco
m3 <- lm(h~d+di, data=dapcc)
summary(m3)
plot(h~d, dapcc); lines(fitted(m3)~d, dapcc); plot(m3)

46
#------------------------------------------------------------------------------------------
# modelo quadrado do recíproco
m4 <- lm(h~d+di2, data=dapcc)
summary(m4)
#------------------------------------------------------------------------------------------
# modelo raíz quadrada
m5 <- lm(h~d+dr, data=dapcc)
summary(m5)
#------------------------------------------------------------------------------------------
# modelo logarítmo
m6 <- lm(h~d+dl, data=dapcc)
summary(m6)
#------------------------------------------------------------------------------------------
4.3.Seleção de modelos
#------------------------------------------------------------------------------------------
# modelo com todas as variáveis

47
m7 <- lm(h~., data=dapcc)
summary(m7)
#------------------------------------------------------------------------------------------
# seleção de modelos/variáveis
step(m7, direction="both")
step(m7, direction="both", k=log(nrow(dapcc)))
#------------------------------------------------------------------------------------------
# modelo m5 foi escolhido pelo critério AIC
summary(m5)
anova(m5)
#------------------------------------------------------------------------------------------
4.4.Remoção de outlier
#------------------------------------------------------------------------------------------
# identificar/remover os pontos discrepantes/influentes
layout(1)
plot(residuals(m5)~d, dapcc)
id <- identify(dapcc$d, residuals(m5))

48
id
#------------------------------------------------------------------------------------------
# análise com os pontos removidos
dapcc2 <- dapcc[-c(15,41,209),]
str(dapcc2)
m5b <- lm(h~d+dr, data=dapcc2)
summary(m5b)
layout(matrix(c(1,1,2,3,4,5),2,3))
plot(h~d, dapcc2); lines(fitted(m5b)~d, dapcc2); plot(m5b)
#------------------------------------------------------------------------------------------
# e se tentarmos tranformar?
require(MASS)
layout(1)
bc <- boxcox(m5b, lambda=seq(0.5,2,l=100))
bc
str(bc)
bc$x[which.max(bc$y)]
#------------------------------------------------------------------------------------------
# usando a resposta transformada
m5c <- lm(h^(1.2)~d+dr, data=dapcc2)
summary(m5c)

49
layout(matrix(c(1,1,2,3,4,5),2,3))
plot(h~d, dapcc2); lines(fitted(m5c)^(1/1.2)~d, dapcc2); plot(m5c)
shapiro.test(rstudent(m5c))
ks.test(rstudent(m5c), "pnorm")
shapiro.test(rstudent(m5))
ks.test(rstudent(m5), "pnorm")
#------------------------------------------------------------------------------------------
5. Teste de média
Existe vários testes de comparação múltipla disponíveis na literatura. Muitos deles se encontram
também no R tais como teste de Tukey, Dunnet, Sheffe, Duncan, SNK e Scott-knott.
5.1.Teste de Tukey
O Teste proposto por Tukey (1953) é também conhecido como teste de Tukey da diferença
honestamente significativa (honestly significant difference)(HSD) e teste de Tukey da diferença
totalmente significativa (wholly significant difference)(WSD). É um teste exato em que, para a
família de todas as comparações duas a duas, a taxa de erro da família dos testes
(FWER) é exatamente (e o intervalo de confiança é exatamente 1- ). O teste de Tukey tem sido
mostrado analiticamente ótimo, no sentido que, entre todos os procedimentos que resultam em
intervalos de confiança com mesmo tamanho para todas diferenças duas a duas com coeficiente
de confiança da família de pelo menos , o teste de Tukey resulta em intervalos menores. Isso
quer dizer que, se a família consiste em todas comparações duas a duas e o teste de Tukey pode
ser usado, ele resultará em intervalos menores que qualquer outro método de comparação múltipla
de uma etapa.

50
A estratégia de Tukey consiste em definir a menor diferença significativa. Tal procedimento utiliza
a amplitude da distribuição studentizada.
Suponhamos que temos observações independentes, Y1,...,Yk, de uma distribuição normal com
média μ e variância σ2. Seja a amplitude para esse conjunto de observações, assim
Suponhamos que temos uma estimativa s2 da variância σ2, que é baseada nos graus de
liberdade e é independente de Yi, em que é o número total de observações. Dessa forma, a
razão é chamada amplitude studentizada e é denotada por , em que é um
valor tabelado (ver Tabela do Teste de Tukey).
Para tamanhos de amostras iguais (dados balanceados), o teste de Tukey declara duas médias
significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
em que é o número de réplicas do nível. Em outras palavras, rejeitamos a igualdade da média de

dois níveis se .
Um intervalo de confiança de 100(1-α)% para a diferença entre todos os pares das médias é dado
como
Vejamos agora como realizar o teste de Tukey para o um experimento em DIC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DIC como segue abaixo.
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64

51
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
Primeiramente precisamos calcular o valor de q que é tabelado baseado no número de tratamento

e no número de graus de liberdade do resíduo. No nosso caso o valor de q para 3 tratamentos e 3
graus de liberdade do resíduo é 5,91.
Assim o DMS pode ser calculado sendo:
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆 = 𝑞 √ = 5,91√ = 11,44
𝑟 2
Ou seja, todo contraste de médias do tipo:

𝑦 = 𝑚1 − 𝑚2
Cada estimativa exceder 11,44 será significativo ao nível de 5% de probabilidade pelo teste de
Tukey. Agora vamos calcular todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5𝑛𝑠
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Verificamos que todos os contraentes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância.
Assim a tabela do teste de Tukey fica da seguinte forma:
Tratamentos Médias
1 72,5 a

52
3 66,0 a
2 62,0 a
Vejamos agora como realizar o teste de Tukey para o um experimento em DBC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DBC como segue abaixo.
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
Trat 2 112,33 56,16 5,03
Res 2 22,32 11,16
Total 5 134,83
Primeiramente precisamos calcular o valor de q que é tabelado baseado no número de tratamento

e no número de graus de liberdade do resíduo. No nosso caso o valor de q para 3 tratamentos e 2
graus de liberdade do resíduo é 8,33.
𝑄𝑀𝑅 11,16
𝐷𝑀𝑆 = 𝑞√ = 8,33√ = 19,68
𝑟 2

𝑦 = 𝑚1 − 𝑚2

53
Cada estimativa exceder 19,68 será significativo ao nível de 5% de probabilidade pelo teste de
Tukey. Agora vamos calcular todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5𝑛𝑠
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Verificamos que todos os contraentes foram ns (não significativo), como já era esperado pelo teste
Assim a tabela do teste de Tukey fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Exemplo no software R:
dados<-
c(30,25,46,35,28,19,40,38,33,28,49,45,35,30,48,42,35,20,42,37)
trat<-factor(rep(paste("tr",1:4,sep=""),5))
tabela<-data.frame(trat=trat,dados=dados)
ANOVA<-aov(dados~trat, tabela)
install.packages("agricolae")
library(agricolae)
result<-HSD.test(ANOVA,"trat", group=TRUE,console=TRUE)
Study: ANOVA ~ "trat"

54
HSD Test for dados
Mean Square Error: 16.075
trat, means
dados std r Min Max
tr1 32.2 3.114482 5 28 35
tr2 24.4 4.827007 5 19 30
tr3 45.0 3.872983 5 40 49
tr4 39.4 4.037326 5 35 45
Alpha: 0.05 ; DF Error: 16
Critical Value of Studentized Range: 4.046093
Minimun Significant Difference: 7.254815
Treatments with the same letter are not significantly different.
dados groups
tr3 45.0 a
tr4 39.4 ab
tr1 32.2 b
tr2 24.4 c
Você também pode verificar os resultados graficamente através de:

55
bar.group(result$groups,ylim=c(0,(max(dados)*1.25)),
density=4,border="blue")
text((nrow(result$groups[2]))/2,max(dados)*1.20,"Teste de Media
para o Fator A")
O nível de confiança padrão do R para este comando é de 0.95 (95%) e pode ser alterado com o
parâmetro alpha=.
result<-HSD.test(ANOVA,"trat", group=TRUE, console=TRUE,
alpha=0.01)
HSD Test for dados

56
trat, means
dados std r Min Max
tr1 32.2 3.114482 5 28 35
tr2 24.4 4.827007 5 19 30
tr3 45.0 3.872983 5 40 49
tr4 39.4 4.037326 5 35 45
Critical Value of Studentized Range: 5.191898
Minimun Significant Difference: 9.309292
Treatments with the same letter are not significantly different.
dados groups
tr3 45.0 a
tr4 39.4 ab
tr1 32.2 bc
tr2 24.4 c
bar.group(result$groups,ylim=c(0,(max(dados)*1.25)),
text((nrow(result$groups[2]))/2,max(dados)*1.20,"Teste de Media
para o Fator A")

57
5.2.Teste SNK
Este teste “a posteriori”, procura contornar os inconvenientes do teste t de Student, quando mais
de dois tratamentos estão envolvidos no experimento. O teste SNK (Student-Newman-
Keuls) procura ajustar o valor de t de acordo com as distâncias entre as médias ordenadas dos
tratamentos.
Em uma relação decrescente de t médias, duas delas (x1 e x2) apresentarão significância se o valor
calculado em módulo para tsnk for maior ou igual ao valor tabelado para o nível de significância α
com GL (graus de liberdade) para resíduo e uma distância i entre as médias i = p + 2 (sendo p =
número de médias existente entre as duas médias comparadas na relação decrescente).
(𝑥1 − 𝑥2 ) − (𝑀é𝑑𝑖𝑎1 − 𝑀é𝑑𝑖𝑎2)
𝑡𝑆𝑁𝐾 =
√𝑄𝑀𝑟𝑒𝑠
2
Supondo Média1 – Média2 = 0 e tsnk = q(i;gl), a expressão acima pode ser descrita como:

58
𝑄𝑀𝑟𝑒𝑠
𝑥1 − 𝑥2 = 𝑞 √ = 𝐷𝑀𝑆
2
Vejamos agora como realizar o teste de SNK para o um experimento em DIC. Vamos utilizar
o mesmo exemplo de quando falamos sobre DIC como segue abaixo.
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
Primeiramente precisamos calcular o valor de q que é tabelado baseado no número de médias

envolvidas no contraste e no número de graus de liberdade do resíduo. No nosso caso o valor de q
para 3 médias e 3 graus de liberdade do resíduo é 5,91 e para 2 médias e 3 graus de liberdade do
resíduo é 4,50.
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆1 = 𝑞√ = 5,91√ = 11,44
𝑟 2
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆2 = 𝑞 √ = 4,50√ = 8,71
𝑟 2

59

𝑦 = 𝑚1 − 𝑚2
Se a estimativa entre a maior e a menor média exceder 11,44 será significativo ao nível de 5% de
probabilidade pelo teste de SNK e se a estimativa entre a segunda maior e a menor média exceder
8,71 será significativo ao nível de 5% de probabilidade pelo teste de SNK. Agora vamos calcular
todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5𝑛𝑠
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Verificamos que todos os contrastes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância. Assim a tabela do teste SNK é apresentada abaixo:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Vejamos agora como realizar o teste de Duncan para o um experimento em DBC. Vamos
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64

60
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
Trat 2 112,33 56,16 5,03
Res 2 22,32 11,16
Total 5 134,83
Primeiramente precisamos calcular o valor de q que é tabelado baseado no número de médias

envolvidas no contraste e no número de graus de liberdade do resíduo. No nosso caso o valor de q
para 3 médias e 2 graus de liberdade do resíduo é 8,33 e para 2 médias e 2 graus de liberdade do
resíduo é 6,09.
𝑄𝑀𝑅 11,16
𝐷𝑀𝑆1 = 𝑞 √ = 8,33√ = 19,68
𝑟 2
𝑄𝑀𝑅 11,16
𝐷𝑀𝑆2 = 𝑞 √ = 6,09√ = 14,38
𝑟 2

𝑦 = 𝑚1 − 𝑚2
probabilidade pelo teste de SNK e se a estimativa entre a segunda maior e a menor média exceder
14,38 será significativo ao nível de 5% de probabilidade pelo teste de SNK. Agora vamos calcular
todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5𝑛𝑠
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠

61
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Assim a tabela do teste de SNK fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
library(agricolae)
out<-SNK.test(ANOVA,"trat", group=TRUE,console=TRUE)
Student Newman Keuls Test

for dados
trat, means
dados std r Min Max
tr1 32.2 3.114482 5 28 35

tr2 24.4 4.827007 5 19 30

62
tr3 45.0 3.872983 5 40 49
tr4 39.4 4.037326 5 35 45
Critical Range
2 3 4
5.375538 6.543060 7.254815
Means with the same letter are not significantly different.
dados groups
tr3 45.0 a
tr4 39.4 b
tr1 32.2 c
tr2 24.4 d
bar.group(out$groups,ylim=c(0,(max(dados)*1.25)),
text((nrow(out$groups[2]))/2,max(dados)*1.20,"Teste de Media para
o Fator A");
text((nrow(out$groups[2]))/2,max(dados)*1.10,colnames(dados))

63
5.3.Teste de Duncan
Este teste é baseado na mesma argumentação do teste SNK, porém como no teste SNK a
comparação das médias mais afastadas cria uma oportunidade maior para o aparecimento do erro
tipo I (atribuir diferenças entre as médias que não existem). O teste de Duncan procura as DMS
impostas pelas comparações de médias mais afastadas, sendo, portanto um teste menos rigoroso
que o SNK.
O valor do DMS para o teste de Duncan é obtido pela seguinte expressão:
𝑄𝑀𝑟𝑒𝑠
𝐷𝑀𝑆𝐷𝑢𝑛𝑐𝑎𝑛 = 𝑧𝛼(𝑖;𝑔𝑙) √
𝑟
Sendo que: i = p + 2, sendo p o número de médias existente entre as duas médias comparadas na
relação decrescente. Após a ordenação das médias, qualquer diferença entre pares maior do que
respectiva diferença mínima significativa (DMS(Duncan)) resultará em um valor significativo no
nível de significância α.
Vejamos agora como realizar o teste de Tukey para o um experimento em DIC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DIC como segue abaixo.

64
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
Primeiramente precisamos calcular o valor de z que é tabelado baseado no número de tratamento

e no número de graus de liberdade do resíduo. No nosso caso o valor de z para 3 médias e 3 graus
de liberdade do resíduo é 4,50 e para 2 médias e 3 graus de liberdade do resíduo é 4,50.
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆1 = 𝑧√ = 4,50√ = 8,71
𝑟 2
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆2 = 𝑧√ = 4,50√ = 8,71
𝑟 2

𝑦 = 𝑚1 − 𝑚2
probabilidade pelo teste de Duncan e se a estimativa entre a segunda maior e a menor média

65
exceder 8,71 será significativo ao nível de 5% de probabilidade pelo teste de Duncan. Agora vamos
calcular todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5 ∗
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Verificamos que o contraste entre T1 e T2 foi significativo, divergindo do teste F da análise de

variância. Isso mostra que o teste de Duncan é menor poderoso comparado ao F e ao Tukey.
Assim a tabela do teste de Duncan fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 ab
2 62,0 b
Vejamos agora como realizar o teste de Duncan para o um experimento em DBC. Vamos
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01

66
Trat 2 112,33 56,16 5,03

Res 2 22,32 11,16
Total 5 134,83
Primeiramente precisamos calcular o valor de z que é tabelado baseado no número de tratamento

e no número de graus de liberdade do resíduo. No nosso caso o valor de z para 3 médias e 2 graus
de liberdade do resíduo é 6,09 e para 2 médias e 2 graus de liberdade do resíduo é 6,09.
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆1 = 𝑧√ = 6,09√ = 11,79
𝑟 2
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆2 = 𝑧√ = 6,09√ = 11,79
𝑟 2

𝑦 = 𝑚1 − 𝑚2
probabilidade pelo teste de Duncan e se a estimativa entre a segunda maior e a menor média
exceder 11,79 será significativo ao nível de 5% de probabilidade pelo teste de Duncan. Agora
vamos calcular todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5𝑛𝑠
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Assim a tabela do teste de Duncan fica da seguinte forma:

67
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
library(agricolae)
out<-duncan.test(ANOVA,"trat", group=TRUE,console=TRUE)
Duncan's new multiple range test
for dados
trat, means
dados std r Min Max
tr1 32.2 3.114482 5 28 35
tr2 24.4 4.827007 5 19 30
tr3 45.0 3.872983 5 40 49
tr4 39.4 4.037326 5 35 45

68
Critical Range
2 3 4
5.375538 5.636970 5.800392
dados groups
tr3 45.0 a
tr4 39.4 b
tr1 32.2 c
tr2 24.4 d
bar.group(out$groups,ylim=c(0,(max(dados)*1.25)),
o Fator A");

69
5.4.Teste de Scheffe
O método proposto por Scheffe (1959) é também conhecido como teste de Scheffe da diferença
completamente significativa (fully significant difference (FSD)) e como teste de Scheffe da
diferença globalmente significativa (globally significant difference(GSD)). É um método exato no
sentido em que, para as famílias (finitas) envolvendo todos os contrastes das médias, a FWER é
exatamente .
O Teste de Scheffe pode ser usado quando as comparações são selecionadas depois de olhar para
os dados e incluem os contrastes, que nem todos são aos pares. Também pode ser utilizado
quando um grande número de contrastes, nem todos aos pares, são especificados antes de coletar
os dados.
Dada uma FWER de valor , o intervalo de confiança para o contraste é calculado utilizando a
seguinte fórmula

70
em que o quantil é da distribuição com parâmetros e (ver Tabela do Teste de

Scheffe). A margem de erro da expressão anterior não depende do número de contrastes, mas sim
do número de médias no contraste.
O método de Sheffe também pode ser usado para a família de todas as comparações duas a duas,
mas quase sempre resultará em intervalos de confiança maiores que os métodos estudados
anteriormente (Tukey, Tukey-Kramer, Fisher e Bonferroni). Dado uma FWER de , o intervalo
de confiança para é calculado usando a seguinte expressão
Dessa forma, temos que o Teste de Scheffe considera duas médias significativamente diferentes
se o valor absoluto de suas diferenças amostrais ultrapassar
Em outras palavras, rejeitamos a igualdade da média de dois níveis se
Uma observação trazida por alguns autores é que, pelo fato desse procedimento ser extremamente
conservador, quando o interesse está apenas na comparação duas a duas, o teste de Scheffe não é
adequado. Recomendam ainda que se o número de contrastes utilizados no estudo não é
consideravelmente maior que o número de grupos, e os contrastes não foram sugeridos pelos
dados, o procedimento de Bonferroni, provavelmente será mais poderoso que Scheffe. Contudo,
se os contrastes forem sugeridos pelos dados, o método de Scheffe deve ser empregado ao invés
de Bonferroni, desde que todos os contrastes possíveis tenham sido considerados implicitamente.
Exemplo:
library(agricolae)
out<-scheffe.test(ANOVA,"trat", group=TRUE,console=TRUE)

71
Scheffe Test for dados
Mean Square Error : 16.075
trat, means
dados std r Min Max
tr1 32.2 3.114482 5 28 35
tr2 24.4 4.827007 5 19 30
tr3 45.0 3.872983 5 40 49
tr4 39.4 4.037326 5 35 45
Critical Value of F: 3.238872
Minimum Significant Difference: 7.904292
dados groups
tr3 45.0 a
tr4 39.4 ab
tr1 32.2 bc
tr2 24.4 c
bar.group(out$groups,ylim=c(0,(max(dados)*1.25)),density=4,borde
r="blue")

72
o Fator A");
5.5.Teste de Dunnett
Dunnett (1955) foi pioneiro no conceito de que, quando um controle está presente, as comparações
de interesse preliminar podem ser as comparações de cada novo tratamento com o controle. Por
exemplo, o controle pode ser um placebo, um tratamento "padrão", ou qualquer outro tratamento
específico (como uma nova droga). Suponhamos que μ1,...,μj-1 são as médias dos novos
tratamentos e μj é a média do controle. Quando realizamos comparações múltiplas com um
controle, os parâmetros de interesse primários são μi-μj para , a diferença entre
cada nova média de tratamento μi e a média do controle μj, ou seja, queremos testar as hipóteses
O método de Dunnett é uma modificação do teste usual. A menor diferença significativa neste
caso é dada por

73
em que é um valor tabelado proposto por Dunnet (ver Tabela do Teste de Dunnett),
que depende do número de níveis (k) e dos graus de liberdade dos erros (N-k).
Se tomarmos o nível como controle, rejeitamos a igualdade entre a média do nível e a média
do nível se:
Exemplo:
install.packages("multcomp")
library(multcomp)
Dun = glht(ANOVA, linfct = mcp(trat = "Dunnett"))
print(summary(Dun))
print(confint(Dun))
Simultaneous Tests for General Linear Hypotheses
Multiple Comparisons of Means: Dunnett Contrasts
Fit: aov(formula = dados ~ trat, data = tabela)
Linear Hypotheses:
Estimate Std. Error t value Pr(>|t|)
tr2 - tr1 == 0 -7.800 2.536 -3.076 0.0192
tr3 - tr1 == 0 12.800 2.536 5.048 <0.001

tr4 - tr1 == 0 7.200 2.536 2.839 0.0306

74
tr2 - tr1 == 0 *
tr3 - tr1 == 0 ***
tr4 - tr1 == 0 *
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)
5.6.Teste de Scott-knott
Exemplo:
install.packages("ScottKnott")
library(ScottKnott)
sk <- SK(ANOVA, which='trat', dispersion='se', sig.level=0.05)
summary(sk)
Levels Means SK(5%)
tr3 45.0 a
tr4 39.4 b
tr1 32.2 c
tr2 24.4 d
plot(sk, col=rainbow(max(sk$groups)), rl=FALSE, id.las=2,
title='Tratamento/variavel i')

75
6. Pacote ExpDes
Pacote destinado a analise de delineamentos experimentais simples (DIC, DBC e DQL),
experimentos em esquema de fatorial duplo (em DIC e DBC), experimentos em esquema de
parcelas subdivididas no tempo (em DIC e DBC), experimentos em esquema de fatorial duplo com
um tratamento adicional (em DIC e DBC), experimentos em esquema de fatorial triplo (em DIC e
DBC) e experimentos em esquema de fatorial triplo com um tratamento adicional (em DIC e
DBC); realizando a analise de variância e comparação de médias pelo ajuste de modelos de
regressão até o terceiro grau (tratamentos quantitativos) ou por testes de comparação múltipla:
teste de Tukey, teste de Student-Newman-Keuls (SNK), teste de Scott-Knott, teste de Duncan,
teste t (LSD), teste t de Bonferroni (LSD protegido) e teste Bootstrap - tratamentos qualitativos.
Agora vamos acessar ao pacote no seguinte link https://cran.r-
project.org/web/packages/ExpDes.pt/ExpDes.pt.pdf.

76
7. Pacote EASY ANOVA – ANOVA desbalanceada
Este pacote tem como função prícipal realizar análise de variância para dados desbalanceados
através da utilização da função eal().
install.packages("easyanova")
library(easyanova)
# Kaps and Lamberson(2009)
data(data1)
data(data2)
data(data3)
data(data4)
# analysis in completely randomized design
r1<-ea1(data1, design=1)
names(r1)
r1
# analysis in randomized block design
# analysis in latin square design
# analysis in several latin squares design

77
# analysis in unbalanced randomized block design
response<-ifelse(data2$Gain>850, NA, data2$Gain)
ndata<-data.frame(data2[-3],response)
ndata
r5<-ea1(ndata, design=2 )
r5
# multivariable response (list argument = TRUE)
t<-c('a','a','a','b','b','b','c','c','c')
r1<-c(10,12,12.8,4,6,8,14,15,16)
r2<-c(102,105,106,125,123,124,99,95,96)
r3<-c(560,589,590,658,678,629,369,389,378)
d<-data.frame(t,r1,r2,r3)
results=ea1(d, design=1, list=TRUE)
names(results)
results
results[1][[1]]
names(results[1][[1]])
# analysis with a covariate
# Kaps and Lamberson (2009)
data(data10)
# analysis in completely randomized design

78
r6<-ea1(data10[-3], design=5)
r6
# incomplete blocks type I and II
# Pimentel Gomes and Garcia (2002)
data(data11)
data(data12)
r7<-ea1(data11,design=7)
r8<-ea1(data12,design=7)
# incomplete blocks type III or augmented blocks
# Cruz and Carneiro (2006)
data(data13)
r9
# incomplete blocks type III in animal experiments
# Sampaio (2010)
data(data14)
r10
# lattice
# Pimentel Gomes and Garcia (2002)
data(data15)

79
r11<-ea1(data15, design=10) # intra-block analysis
r12<-ea1(data15, design=11) # inter-block analysis
r11
r12
# switchback design
# Sampaio (2010)
data(data16)
r13
# switchback design in blocks
# Sanders and Gaynor (1987)
data(data17)
r14
#Kruskal-Wallis Rank Sum Test
r15
#Friedman Rank Sum Test

80
r16
8. Rbio
O software Rbio é um software desenvolvido pelo Prof. Leonardo Lopes Bhering
(http://lattes.cnpq.br/0174372765974716) da Universidade Federal de Viçosa (UFV). Teve seu
início em agosto de 2016 e sua primeira versão lançada em outubro de 2016. Quaisquer dúvidas e
questionamentos podem ser tirados junto ao e-mail: leonardo.bhering@ufv.br.
Trata-se de um software gratuito, portanto, sua distribuição e instalação podem ser realizadas por
qualquer pessoa, sem necessidade de autorização prévia para isso, desde que tenham o Sistema
Operacional Windows em seu computador.
É um software que utiliza o software R como núcleo, necessitando deste instalado no computador
para que as análises do Rbio sejam processadas. Sendo assim, a maioria dos scripts internos do
Rbio, são rotinas que utilizam o R para processamento. O software R por sua vez é um software
código fonte aberto e gratuito. Portanto o conjunto Rbio + R podem ser usados por todos usuários
que possuam sistema operacional Windows.
O download e atualização do Rbio são feitas via site www.biometria.ufv.br, que é o site do
laboratório de biometria da UFV onde, em parceria com demais laboratórios pertencentes a rede
Biodata (http://www.ufv.br/dbg/biodata.htm), foi desenvolvido o aplicativo.
O software é de fácil utilização, contendo exemplos para todas as análises que são possíveis de
serem realizadas. Além disso, o usuário tem a opção de ver os Scripts utilizados, fazendo com que
seja possível editar os scripts do programa obtendo assim um script personalizado para cada
usuário, tornando-o um programa diferente, sendo uma excelente ferramenta para ensino de
programação no R, uma vez que várias funções, loops, carregamentos de pacote, impressão de

81
textos e outras estratégias são usadas para os procedimentos. Realiza ainda análises biométricas
úteis em programas de melhoramento, ecologia, e outras áreas das ciências agrárias e biológicas.
O download do Rbio (aproximadamente 2.5mb) é realizado através do link:
http://www.biometria.ufv.br/wp-content/uploads/Rbio.rar. O usuário baixará o arquivo Rbio.rar ,
que deverá ter seus arquivos extraídos após o download. Uma vez extraído existirão os seguintes
arquivos:
Após download, o usuário deverá clicar no arquivo “setup” mostrado na imagem anterior. O
processo de instalação é rápido. O usuário deverá ainda copiar para o “c:\” a pasta: _Rbio. Desta

82
forma ficará: Esta pasta _Rbio contém os arquivos exemplos que o software usará, além de uma
pasta “Output” que estará vazia, mas o usuário não deve deletá-la pois esta receberá arquivos
durante o processamento das análises.

Apostila Estatística Experimental No R

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Estatística Experimental No R

Enviado por

Direitos autorais:

Formatos disponíveis

1

1. Estatística descritiva .......................................................................................................... 3

1.1. Média ........................................................................................................................... 3

1.2. Mediana ....................................................................................................................... 4

1.3. Moda ............................................................................................................................ 5

1.4. Variância ..................................................................................................................... 7

1.5. Desvio padrão .............................................................................................................. 8

1.6. Amplitude total ........................................................................................................... 8

1.7. Erro padrão da média ................................................................................................ 8

1.8. Coeficiente de variação .............................................................................................. 9

1.9. Covariância e correlação............................................................................................ 9

2. Teste de Normalidade e homogeneidade de variâncias ................................................... 10

3.1. Delineamento inteiramente casualizado ..................................................................... 15

3.2. Delineamento em blocos casualizado .......................................................................... 20

3.3. Delineamento em quadrado latino .............................................................................. 25

3.4. Esperimento fatorial .................................................................................................... 31

3.5. Experimento hierárquico ............................................................................................. 35

Experimental Analytics Corporation – leoazevedop@gmail.com - +55 31 99502 4915

4.1. Regressão linear simples .............................................................................................. 39

4.2. Regressão linear múltipla ............................................................................................ 44

4.3. Seleção de modelos ....................................................................................................... 46

4.4. Remoção de outlier ....................................................................................................... 47

5. Teste de média ..................................................................................................................... 49

5.1. Teste de Tukey .............................................................................................................. 49

5.2. Teste SNK...................................................................................................................... 57

5.3. Teste de Duncan ........................................................................................................... 63

5.4. Teste de Scheffe ............................................................................................................ 69

5.5. Teste de Dunnett ........................................................................................................... 72

5.6. Teste de Scott-knott...................................................................................................... 74

6. Pacote ExpDes ..................................................................................................................... 75

7. Pacote EASY ANOVA – ANOVA desbalanceada ........................................................... 76

Experimental Analytics Corporation – leoazevedop@gmail.com - +55 31 99502 4915

Para estabelecimento de inferências ou conclusões sobre um grupo maior (a população)

“Estatística Indutiva” ou “Inferência Estatística”.

(envolvendo apresentações de medidas de posição e, ou, dispersão, entre outras).

e veremos cada uma delas separadamente abaixo.

A média é a medida de posição mais conhecida. A definição de média de um conjunto de dados

quantitativos já é conhecida desde o Ensino Fundamental e, consiste na soma dos valores do

conjunto dividida pelo número de observações da seguinte forma:

Sendo i o valor de cada observação e n o número de observações.

Experimental Analytics Corporation – leoazevedop@gmail.com - +55 31 99502 4915

175 + 166 + 173 + 182 + 165 + 172 + 194

Desta forma, a média de altura de adultos para a população estudada é de 175,29cm.

A média pode ser facilmente obtida no R pelo comando mean(). Veja:

analytics corporation\\Short course\\Experimental stattistics in

mean(dados) #obtendo a média

colMeans(dados) #obtendo a média

valores são dispostos ordenadamente.

ordenado, não importando se crescente ou decrescente. Porém o R já realiza automaticamente a

ordenação, sem a necessidade de o usuário ordenar manualmente os dados antes de executar o

comando que retorna o valor da mediana.

Experimental Analytics Corporation – leoazevedop@gmail.com - +55 31 99502 4915

Para calcular a mediana precisamos seguir alguns passos como segue:

1. Ordenar o conjunto de dados em ordem crescente;

seja, soma-se os 2 valores centrais e dividi o resultado por 2;

3. Se o número de elementos for ímpar, então a mediana é o valor central.

194. Para calcular a mediana devemos seguir os passos acima:

2. Como o número de elementos é ímpar (temos 7 elementos) a mediana é o valor central, ou

seja, a mediana é igual a 173 cm.

Agora veja como fazer o cálculo da mediana no software R:

median(dados[,3]) #obtendo a mediana

median(dados[,4]) #obtendo a mediana

mais de dois valores modais.

Experimental Analytics Corporation – leoazevedop@gmail.com - +55 31 99502 4915