Escolar Documentos
Profissional Documentos
Cultura Documentos
Sumário
3. ANOVA ................................................................................................................................ 14
4. Regressão ............................................................................................................................. 39
8. Rbio ...................................................................................................................................... 80
1. Estatística descritiva
Estatística descritiva é a parte da Estatística que apenas descreve e avalia certo grupo de dados,
seja ele população, seja amostra. No caso de estarmos trabalhando com amostras, o simples uso
de estatísticas descritivas não nos permite tirar quaisquer conclusões ou inferências sobre um grupo
maior.
precisaríamos usar algo além do que será visto em Estatística Descritiva. Na verdade, esse “algo
mais” seria uso de métodos estatísticos que caracteriza a área da Estatística conhecida como
Na estatística descritiva existem dois métodos que podem ser usados para a apresentação dos
dados: métodos gráficos (envolvendo apresentação gráfica e, ou, tubular) e métodos numéricos
Medidas de posição, como o próprio termo indica, visam a resumir um conjunto de dados em geral
numa única medida em algum lugar geométrico entre os extremos observados do conjunto
(mínimo e máximo). Temos como as principais medidas de posição a média, a mediana e a moda
1.1.Média
∑𝑛𝑖=1 𝑥𝑖
𝑚=
𝑛
Vamos fazer um exemplo para fixação. Suponhamos que estamos avaliando altura em humanos
adultos e que obtivemos os seguintes resultados em centímetros: 175, 166, 173, 182, 165, 172 e
194. Para calcular a média devemos aplicar a fórmula acima da seguinte maneira:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados.txt", h=T)
1.2.Mediana
Uma estatística utilizada para indicar o centro de um conjunto de dados é a mediana amostral, que
pode ser definida, de maneira simplificada, como o valor intermediário do conjunto de dados, cujos
A mediana é uma medida de posição (tendência central) indicada quando o conjunto de dados
possui valores extremos discrepantes dos demais, o que pode comprometer a discussão dos dados
baseados simplesmente na média. A medida é obtida no conjunto de dados quando este se encontra
2. Se o número de elementos for par, então a mediana é a média dos 2 valores centrais, ou
Vamos fazer um exemplo para fixação. Suponhamos que estamos avaliando altura em humanos
adultos e que obtivemos os seguintes resultados em centímetros: 175, 166, 173, 182, 165, 172 e
1. Ordenar os valores da seguinte forma: 165, 166, 172, 173, 175, 182 e 194.
1.3.Moda
A moda é outra medida utilizada para indicar a tendência central de um conjunto de observações.
A moda é o valor que aparece com mais frequência em um conjunto de dados, ou seja, o valor que
aparece mais vezes. Um conjunto de dados pode ser amodal quando nenhum valor do conjunto
pode ser considerado moda; unimodal, quando o conjunto possui apenas um valor modal; bimodal,
quando o conjunto possui dois valores de moda; e multimodal, quando o conjunto de dados possui
A Moda é especialmente útil quando os valores ou as observações não são numéricos, casos em
que a média e a mediana não podem ser definidas. Por exemplo, a moda da amostra {maçã, banana,
Vamos fazer um exemplo para fixação. Suponhamos que estamos avaliando altura em humanos
adultos e que obtivemos os seguintes resultados em centímetros: 175, 166, 172, 182, 165, 172 e
194. Para calcular a moda basta verificarmos o valor que aparece mais vezes que neste caso é 172
A moda pode ser obtida da seguinte forma no R. Como não existe uma função para calcular a moda
moda<-function(x)
xx<-table(x)
valores<-which(xx==max(xx))
vmodal<-0
for(i in 1:(length(valores)))
if(i==1) vmodal<-as.numeric(names(valores[i]))
else
vmodal<-c(vmodal, as.numeric(names(valores[i])))
if(length(vmodal)==length(xx))
else return(vmodal)
1.4.Variância
A variância nada mais que é o quão seus dados estão dispersos ao redor da média. Ela pode ser
facilmente obtida sendo o erro ao quadrado dividido pelo número de observações menos 1 como
será mostrado abaixo. Desta forma podemos observar que a unidade da variância será a unidade
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆𝑄𝐷𝑠
𝑠2 = =
𝑛−1 𝑛−1
Vamos fazer um exemplo para fixação. Suponhamos que estamos avaliando altura em humanos
adultos e que obtivemos os seguintes resultados em centímetros: 175, 166, 173, 182, 165, 172 e
194. Para calcular a variância devemos aplicar a fórmula acima da seguinte maneira:
Desta forma, podemos concluir que a variância amostral do meu experimento é 100,57𝑐𝑚2 .
1.5.Desvio padrão
O desvio padrão é definido como a raiz quadrada positiva da variância, o desvio padrão exerce
grande vantagem sobre a variância, já que é apresentado na mesma unidade de medida dos dados
1.6.Amplitude total
A amplitude total é a diferença entre o maior (máximo) e o menor (mínimo) valor de um conjunto
de dados. Tem a vantagem de ser calculada de forma rápida e fácil, porém, fornece número (índice)
grosseiro da variabilidade de uma distribuição, por levar em conta apenas dois valores de um
conjunto.
A amplitude total pode ser obtida de forma indireta no R fazendo a subtração do máximo valor de
indiretamente
indiretamente
O erro padrão da média mede a precisão da média. Ele é obtido da seguinte forma:
𝑠𝑥2 𝑠𝑥
𝑠(𝑋̅) = √𝑉(𝑋̅) = √ =
𝑛 √𝑛
Médias com menor erro padrão são consideradas mais precisas. Veja:
1.8.Coeficiente de variação
O coeficiente de variação é uma medida de dispersão relativa, e é útil para comparar, em termos
relativos, o grau de concentração em torno da média, dos dados. Por ser um número adimensional,
da seguinte forma:
𝑠𝑥
𝐶𝑉(%) = 100
𝑋̅
(sd(dados[,3])/mean(dados[,3]))*100 #Obtendo o CV de x
1.9.Covariância e correlação
Sejam duas amostras relativas as variáveis X e Y organizadas em pares de valores (Xi, Yi), para
𝑆𝑃𝐷𝑋𝑌
𝐶𝑂̂𝑉(𝑋, 𝑌) 𝑛−1 𝑆𝑃𝐷𝑋𝑌
𝑟𝑋𝑌 = = =
√𝑆𝑄𝐷𝑋 𝑥 𝑆𝑄𝐷𝑌 √𝑆𝑄𝐷𝑋 𝑥 𝑆𝑄𝐷𝑌 √𝑆𝑄𝐷𝑋 𝑥𝑆𝑄𝐷𝑌
𝑛−1 𝑛−1 𝑛−1 𝑛−1
No R, a covariância e a correlação entre dois conjuntos de dados quaisquer podem ser obtidos
Se tivermos uma matriz “dados” com seis colunas e n linhas, onde cada coluna representa os
valores de cada variável tomadas em cada indivíduo i (linha da matriz de dados, i=1, ..., n), os
A não normalidade dos dados e dos erros é restritiva apenas em situações muito drásticas,
especialmente quando o teorema central do limite não se aplica, ou seja, quando a distribuição da
média dos dados não converge para a distribuição normal, com o aumento do tamanho da amostra.
Quando a distribuição dos erros é muito assimétrica (coeficiente de assimetria muito diferente de
zero) e platicúrtica (coeficiente de curtose muito negativo), a não normalidade afeta o nível
nominal de significância dos testes estatísticos, de forma que o nível escolhido pelo pesquisador
não é assegurado na prática, usualmente sendo maior que o nominal, podendo ser constatadas
De maneira prática, o teste F de Snedecor é robusto a pequenos desvios da normalidade dos erros
Na presença de grandes desvios da normalidade e de dados com estrutura não linear, a plaicação
direta dos modelos lineares sobre os dados observados torna-se imprópia. Neste caso, há duas
linear; 2) a modelagem dos modelso aos dados. A abordagem 2 é preferida e se caracteriza por ser
Existem vários procedimentos para avaliar a normalidade dos dados. Dentre eles destacan-se os
que são os mais utilizados. Os testes de assimetria e curtose também permitem inferir sobre a
normalidade.
O teste de Shapiro-Wilk (W) varia de 0 a 1, sendo que valores pequenos de W revelam que os
O teste de Komogorov-Smirnov compara as distribuições dos dados observados com a dos dados
esperados sobre suposição de normalidade padrão. Este teste baseia-se na maior diferença D entre
as frequências acumuladas observadas e esperadas e tende a ser mais poderoso que o teste do χ2,
sobretudo no caso de peqeunas amostras. A estatística do teste D é comparada com valores críticos
tabelados.
Constatando-se grande desvios de normalidade e não se optando pelo uso das técnicas pertencentes
á classe dos modelos lineares generalizados, resta realizar a transformação dos dados. Persistindo
o problema, devem ser empregadas as provas de livre distribuição, ou seja, os proce3diemntos não
paramétricos. Os testes não paramétricos devem ser usados como último recurso, vistoq ue os
Para realizar os testes de assimetria, curtose e normalidade no R vamos utilizar o seguinte exemplo:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados.txt", h=T)
## Tipos de curtose:
## C=3 - mesocurtica
## C>3 - platicúrtica
## C<3 - leptocúrtica
## Tipos de assimetria
require(e1071)
skewness(dados[,3],type=1)
skewness(dados[,4],type=1)
library(fBasics)
basicStats(dados[,3])
basicStats(dados[,4])
ks.test(dados[,3],"pnorm")
ks.test(dados[,4],"pnorm")
shapiro.test(dados[,3])
shapiro.test(dados[,4])
comum a todos os tratamentos. Assim, os erros contribuidos pelos vários tratamentos devem,
a distribuição dos erros é leptocúrtica (curtose positiva) ou quando existe assimetria, e no caso de
distribuição leptocúrtica, o teste F tende a não rejeitar a hipótese de nulidade (H0) quando ela é
falsa.
Existem vários testes para inferência sobre a existência ou não de homogeneidade de variâncias,
muito sensível à falta de normalidade dos erros, sendo por isto muito criticado. O teste de Hartley
2 2
Com t e (b-t) graus de liberdade, em que 𝜎𝑚𝑎𝑥 e 𝜎𝑚𝑖𝑛 referem-se a maior e a menor estiamtiva das
variâncias residual (ou dentro dos tratamentos) dos tratamentos ou amostras, t refere-se ao número
O valor calculado do 𝐹𝑚𝑎𝑥 é comparado com o valor tabelado da distribuição de 𝐹𝑚𝑎𝑥 de Hartley.
Como regra prática, tem sido aceito que quando 𝐹𝑚𝑎𝑥 calculado é menor que 3, a heterogeenidade
bartlett.test(dados$Var_1~dados$Trat, dados)
bartlett.test(dados$Var_2~dados$Trat, dados)
3. ANOVA
variações associadas ao modelo pelo qual o experimento foi procedido, da variação que se dá ao
acaso.
deve estar atento ao escolher e realizar a análise, pois alguns erros são frequentes, por exemplo,
Os comandos utilizados para realizar o procedimento de ANOVA no R são aov() utilizada para
modelos com erros normais e independentes, e glm() utilizada modelos com estrutura de erros
independentes.
O delineamento inteiramente casualizado (DIC) trata-se de experimentos em que os dados não são
nome indica, os tratamentos são distribuídos aleatoriamente nas unidades experimentais (parcelas).
• Exige que o material experimental seja semelhante e que as condições de estudo sejam
completamente uniformes;
são aqueles que interferem nas respostas das mesmas aos tratamentos;
experimentais disponíveis;
• Pode-se obter uma estimativa da variância devido ao erro experimental bastante alta,
quando não utilizado corretamente, pois, uma vez que não se considera o princípio do
controle local, todas as variações exceto as devidas aos tratamentos, são consideradas como
variação ao acaso.
𝑦 = 𝜇+𝑡+𝜖
de soja (A, B e C) com 2 repetições distribuídos na área experimental em DIC. Os dados referentes
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
experimentais no experimento o que remete a 5 graus de liberdade total (6 – 1 = 5). Desta forma,
Correção (C):
2
(∑ 𝑥𝑖𝑗 ) (70 + 63 + 68 + 75 + 61 + 64)2
𝐶= = = 26800,17
𝑁 6
2
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗 − 𝐶 = (702 + 632 + 682 + 752 + 612 + 642 ) − 26800,17 = 134,83
1 1
𝑆𝑄𝑇𝑟𝑎𝑡 = ( ∑ 𝑥𝑖.2 ) − 𝐶 = ( (1452 + 1242 + 1322 )) − 26800,17 = 112,33
𝑟 2
𝑆𝑄𝑇𝑟𝑎𝑡 112,33
𝑄𝑀𝑇𝑟𝑎𝑡 = = = 56,16
𝐺𝐿𝑇𝑟𝑎𝑡 2
𝑆𝑄𝑅𝑒𝑠 22,49
𝑄𝑀𝑅𝑒𝑠 = = = 7,50
𝐺𝐿𝑅𝑒𝑠 3
𝑄𝑀𝑇𝑟𝑎𝑡 56,16
𝐹= = = 7,48
𝑄𝑀𝑅𝑒𝑠 7,50
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
O F tabelado para 2 e 3 graus de liberdade é 9,55. Portanto, F calculado é menor que F tabelado,
ou seja, não rejeita-se a hipótese H0, ou seja, as médias de tratamentos são estatisticamente iguais.
OBS: Provavelmente este fato aconteceu porque nosso experimento é muito pequeno e possui
menos que 10 graus de liberdade para o resíduo. Em experimentos reais recomenda-se que exista
pelo menos 10 GL do resíduo, sendo que o ideal é acima de 20. Aqui como nosso objetivo é fazer
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados.txt", h=T)
Trat<-as.factor(dados$Trat)
resultado<-aov(dados[,3]~Trat)
anova(resultado)
ou
summary(resultado)
---
Signif. codes:
Obs: Em todos os tipos de análise de variância, para todas as variáveis qualitativas, devem ser
criados fatores e não vetores, ou seja, o objeto que contêm os nomes(ou números) dos tratamentos,
dos blocos, entre outros, devem ser fatores e não vetores. Para criar fatores e para conversão de
especialmente em nível de campo, obter uma área experimental que seja homogênea em toda sua
extensão, procura-se que ela seja homogênea pelo menos dentro da repetição-bloco, isto é, para
que esse delineamento seja eficiente, os blocos que irão receber todos os tratamentos deverão ser
os mais uniformes possíveis. Considerando que a área experimental é heterogênea, diferenças entre
os blocos são esperados, e podem ser atenuadas com este tipo de delineamento.
➢ Ele geralmente é mais utilizado em experimentos de campo onde não conseguimos ter áreas
➢ A área experimental pode ser homogênea, porém dentro de cada bloco precisa ser
heterogênea.
➢ Controla as diferenças que ocorrem nas condições ambientais, de um bloco para outro;
➢ Conduz a uma estimativa mais exata para a variância residual, uma vez que a variação
liberdade do resíduo;
𝑦 = 𝜇+𝑏+𝑡+𝜖
tratamento, e 𝜖 é o erro.
de soja (A, B e C) com 2 blocos distribuídos na área experimental em DBC. Os dados referentes a
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
temos 2 blocos, assim o grau de liberdade para blocos é 2 – 1 = 1. E temos 6 parcelas experimentais
no experimento o que remete a 5 graus de liberdade total (6 – 1 = 5). Desta forma, o número de
Correção (C):
2
(∑ 𝑥𝑖𝑗 ) (70 + 63 + 68 + 75 + 61 + 64)2
𝐶= = = 26800,17
𝑁 6
2
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗 − 𝐶 = (702 + 632 + 682 + 752 + 612 + 642 ) − 26800,17 = 134,83
1 1
𝑆𝑄𝑇𝑟𝑎𝑡 = ( ∑ 𝑥𝑖.2 ) − 𝐶 = ( (1452 + 1242 + 1322 )) − 26800,17 = 112,33
𝑟 2
1 1
𝑆𝑄𝑏𝑙𝑜𝑐𝑜𝑠 = ( ∑ 𝑥.𝑗2 ) − 𝐶 = ( (2012 + 2002 )) − 26800,17 = 0,1633
𝑡 3
𝑆𝑄𝑇𝑟𝑎𝑡 112,33
𝑄𝑀𝑇𝑟𝑎𝑡 = = = 56,16
𝐺𝐿𝑇𝑟𝑎𝑡 2
𝑆𝑄𝑏𝑙𝑜𝑐𝑜𝑠 0,1633
𝑄𝑀𝑏𝑙𝑜𝑐𝑜𝑠 = = = 0,1633
𝐺𝐿𝑏𝑙𝑜𝑐𝑜𝑠 1
𝑆𝑄𝑅𝑒𝑠 22,32
𝑄𝑀𝑅𝑒𝑠 = = = 11,16
𝐺𝐿𝑅𝑒𝑠 2
𝑄𝑀𝑇𝑟𝑎𝑡 56,16
𝐹𝑡𝑟𝑎𝑡 = = = 5,03
𝑄𝑀𝑅𝑒𝑠 11,16
𝑄𝑀𝑏𝑙𝑜𝑐𝑜𝑠 0,16
𝐹𝑏𝑙𝑜𝑐𝑜𝑠 = = = 0,01
𝑄𝑀𝑅𝑒𝑠 11,16
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
Trat 2 112,33 56,16 5,03
Res 2 22,32 11,16
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
Conclusão para o efeito de tratamento: O F tabelado para 2 e 2 graus de liberdade é 19,00. Portanto,
F calculado é menor que F tabelado, ou seja, não rejeita-se a hipótese H0, ou seja, as médias de
Conclusão para o efeito de bloco: O F tabelado para 1 e 2 graus de liberdade é 18,51. Portanto, F
calculado é menor que F tabelado, ou seja, não rejeita-se H0. Podemos ter duas conclusões quando
isto acontece: a área é homogênea e o experimento deveria ter sido conduzido em DIC, ou os
blocos foram montados paralelo a heterogeneidade do terreno e desta forma os blocos não ficaram
homogêneos.
OBS: Provavelmente este fato aconteceu porque nosso experimento é muito pequeno e possui
menos que 10 graus de liberdade para o resíduo. Em experimentos reais recomenda-se que exista
pelo menos 10 GL do resíduo, sendo que o ideal é acima de 20. Aqui como nosso objetivo é fazer
Exemplo:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados.txt", h=T)
Agora devemos transformar a coluna dos tratamentos e dos blocos em fatores como segue:
Trat<-as.factor(dados$Trat)
Bloc<-as.factor(dados$Rep)
resultado<-aov(dados[,3]~Trat+Bloc)
anova(resultado)
ou
summary(resultado)
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
O delineamento em quadrado latino (DQL) é mais restritivo que o de blocos ao acaso, pois há
controle local tanto no sentido das linhas como de colunas. Neste delineamento, o número de
➢ O número de blocos para cada fator controlado deve ser igual ao número de tratamentos.
➢ Uma vez formados os blocos, distribui-se os tratamentos ao acaso com a restrição que cada
tratamento seja designado uma única vez em cada um dos blocos dos dois fatores
controlados.
➢ Por outro lado, com 9 ou mais tratamentos, o quadrado latino fica muito grande, trazendo
➢ Exige que o quadro auxiliar da analise de variância esteja completo para poder efetuar a
análise estatística.
𝑦 = 𝜇+𝑙+𝑐+𝑡+𝜖
de soja (A, B e C) com 3 repetições distribuídos na área experimental em DQL. Os dados referentes
Como temos 3 tratamentos, o grau de liberdade para tratamentos é 3 – 1 = 2. No caso das linhas e
colunas, como nós temos 3 repetições o grau de liberdade para linhas é igual ao grau de liberdade
graus de liberdade total (9 – 1 = 8). Desta forma, o número de graus de liberdade do resíduo são:
GLtotal – GLtrat = 8 – 2 – 2 - 2= 2.
Correção (C):
2
(∑ 𝑥𝑖𝑗𝑘 ) (70 + 63 + 68 + 75 + 61 + 64 + 73 + 67 + 67)2
𝐶= = = 41073,78
𝑁 9
2
𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = ∑ 𝑥𝑖𝑗𝑘 −𝐶
= (702 + 632 + 682 + 752 + 612 + 642 + 732 + 672 + 672 ) − 41073,78
= 168,22
1 2
1
𝑆𝑄𝑇𝑟𝑎𝑡 = ( ∑ 𝑥𝑖.. ) − 𝐶 = ( (2182 + 1912 + 1992 )) − 41073,78 = 128,22
𝑟 3
1 2
1
𝑆𝑄𝑙𝑖𝑛ℎ𝑎𝑠 = ( ∑ 𝑥.𝑗. ) − 𝐶 = ( (2012 + 2002 + 2072 )) − 41073,78 = 9,55
𝑟 3
1 2
1
𝑆𝑄𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = ( ∑ 𝑥..𝑘 ) − 𝐶 = ( (2012 + 2052 + 2022 )) − 41073,78 = 2,89
𝑟 3
= 27,56
𝑆𝑄𝑇𝑟𝑎𝑡 128,22
𝑄𝑀𝑇𝑟𝑎𝑡 = = = 64,11
𝐺𝐿𝑇𝑟𝑎𝑡 2
𝑆𝑄𝑙𝑖𝑛ℎ𝑎𝑠 9,55
𝑄𝑀𝑙𝑖𝑛ℎ𝑎𝑠 = = = 4,77
𝐺𝐿𝑙𝑖𝑛ℎ𝑎𝑠 2
𝑆𝑄𝑐𝑜𝑙𝑢𝑛𝑎𝑠 2,89
𝑄𝑀𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = = = 1,44
𝐺𝐿𝑐𝑜𝑙𝑢𝑛𝑎𝑠 2
𝑆𝑄𝑅𝑒𝑠 27,56
𝑄𝑀𝑅𝑒𝑠 = = = 13,78
𝐺𝐿𝑅𝑒𝑠 2
𝑄𝑀𝑇𝑟𝑎𝑡 64,11
𝐹𝑡𝑟𝑎𝑡 = = = 4,65
𝑄𝑀𝑅𝑒𝑠 13,78
𝑄𝑀𝑙𝑖𝑛ℎ𝑎𝑠 4,77
𝐹𝑙𝑖𝑛ℎ𝑎𝑠 = = = 0,35
𝑄𝑀𝑅𝑒𝑠 13,78
𝑄𝑀𝑐𝑜𝑙𝑢𝑛𝑎𝑠 1,44
𝐹𝑐𝑜𝑙𝑢𝑛𝑎𝑠 = = = 0,10
𝑄𝑀𝑅𝑒𝑠 13,78
FV GL SQ QM F
Linhas 2 9,55 4,77 0,35
Colunas 2 2,89 1,44 0,10
Trat 2 128,22 64,11 4,65
Res 2 27,56 13,78
Total 8 168,22
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
Conclusão para o efeito de tratamento: O F tabelado para 2 e 2 graus de liberdade é 19,00. Portanto,
F calculado é menor que F tabelado, ou seja, não rejeita-se a hipótese H0, ou seja, as médias de
Conclusão para o efeito das linhas e das colunas: O F tabelado para 2 e 2 graus de liberdade é
19,00. Portanto, F calculado é menor que F tabelado para as duas fontes de variação, ou seja, não
rejeita-se H0. Neste caso podemos concluir que a área é homogênea e o experimento deveria ter
recomenda-se que exista pelo menos 10 GL do resíduo, sendo que o ideal é acima de 20. Aqui
como nosso objetivo é fazer os cálculos manualmente nós optamos por um experimento bem
pequeno.
Agora vamos aprender como fazer uma análise de variância para DQL utilizando o software
R:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados_DQL.txt", h=T)
Agora devemos transformar a coluna dos tratamentos, das linhas e das colunas em fatores como
segue:
Trat<-as.factor(dados$Trat)
Col<-as.factor(dados$Col)
Lin<-as.factor(dados$Lin)
resultado<-aov(dados[,4]~Trat+Col+Lin)
anova(resultado)
ou
summary(resultado)
Signif. codes:
3.4.Experimento fatorial
O experimento fatorial é aquele que mais de um fator esta envolvido na análise. Este experimento
pode ser tanto em DIC quanto em DBC. Os faotres envolvidos neste tipo de experimento pode ser
o mais variável possível tais como: níveis de K e N, avaliação de vários genótipos dentro de vários
ambientes (locais ou anos), avaliação de doses de P em diferentes solos, etc. Assim, além da análise
de cada fator separadamente, também é realizado a análise da interação destes fatores, ou seja
𝑦 = 𝜇 + 𝐴 + 𝐵 + 𝐴 ∗ 𝐵 + 𝜖 – DIC
𝑦 = 𝜇 + 𝑏 + 𝐴 + 𝐵 + 𝐴 ∗ 𝐵 + 𝜖 - DBC
Exemplo:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados_fatorial.txt", h=T)
Fator_A<-as.factor(dados$Fator_A)
Fator_B<-as.factor(dados$Fator_B)
resultado<-aov(dados[,4]~Fator_A+Fator_B+Fator_A*Fator_B)
anova(resultado)
ou
summary(resultado)
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Agora devemos transformar as colunas do fator A, do fator B e dos blocos em fatores como segue:
Fator_A<-as.factor(dados$Fator_A)
Fator_B<-as.factor(dados$Fator_B)
Bloc<-as.factor(dados$Rep)
resultado<-aov(dados[,4]~Bloc+Fator_A+Fator_B+Fator_A*Fator_B)
anova(resultado)
ou
summary(resultado)
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
3.5.Experimento hierárquico
O experimento hierárquico é aquele que mais de um fator está envolvido na análise, porém os
efeitos do fator A são analisados em diferentes doses do fator B não sendo possível estabelecer o
efeito da interação entre os dois fatores. Este experimento pode ser tanto em DIC quanto em DBC.
Os fatores envolvidos neste tipo de experimento podem ser o mais variável possível tais como:
níveis de K dentro de níveis de N, avaliação de vários genótipos dentro de vários ambientes (locais
ou anos), avaliação de doses de P em diferentes solos, etc. Assim, além da análise de cada fator
separadamente, também é realizado a análise da interação destes fatores, ou seja como estes fatores
𝑦 = 𝜇 + 𝐴 + 𝐵(𝐴) + 𝜖 – DIC
𝑦 = 𝜇 + 𝑏 + 𝐴 + 𝐵(𝐴) + 𝜖 - DBC
Exemplo:
setwd("C:\\Users\\Leonardo\\Documents\\MEGA\\Experimental
R")
dados<-read.table("dados_hierarquico.txt", h=T)
Fator_A<-as.factor(dados$Fator_A)
Fator_B<-as.factor(dados$Fator_B)
resultado<-aov(dados[,4]~Fator_A+Fator_B/Fator_A)
anova(resultado)
ou
summary(resultado)
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Agora devemos transformar as colunas do fator A, do fator B e dos blocos em fatores como segue:
Fator_A<-as.factor(dados$Fator_A)
Fator_B<-as.factor(dados$Fator_B)
Bloc<- as.factor(dados$Rep)
resultado<-aov(dados[,4]~Bloc+Fator_A+Fator_B/Fator_A)
anova(resultado)
ou
summary(resultado)
---
Signif. codes:
4. Regressão
A análise de regressão consiste em uma análise estatística com o objetivo de verificar a existência
de uma relação funcional entre uma variável dependente com uma ou mais variáveis
independentes. Em outras palavras, consiste na obtenção de uma equação que tenta explicar a
variação da variável dependente pela variação dos níveis das variáveis independentes.
Quando o diagrama de dispersão apresenta os pontos agrupados em torno de uma reta imaginária,
provavelmente existe uma relação de linearidade entre as variáveis envolvidas. A essa relação dá-
Exemplo:
segundo a temperatura ambiente no local onde está o pilar. Os dados estão descritos na tabela
abaixo.
T (ºC) 18 16 25 22 20 21 23 19 17
Dilatação linear (mm) 5 3 10 8 6 7 9 6 5
Posso realizar um estudo de regressão nestes dados? Qual modelo usar? Como montar a equação
que relaciona a temperatura com a dilatação neste estudo? A temperatura realmente exerce
Essas são as perguntas que podemos fazer ao nos depararmos com os dados acima apresentados.
Primeiro entraremos com os dados da tabela no R, criando dois objetos: um que conterá os valores
temp<-c(18,16,25,22,20,21,23,19,17)
dilat<-c(5,3,10,8,6,7,9,6,5)
Inicialmente o estudo de regressão pode ser feito com a definição do modelo. Para auxiliar na
O diagrama sugere uma tendência linear dos dados. Montaremos, portanto, um modelo de
regressão linear simples (simples pois existe apenas uma variável independente “temp”
relacionada a variação da variável dependente “dilat”. Assim, o modelo pode ser montado da
seguinte forma:
reglin<-lm(dilat~temp)
reglin
Call:
Coefficients:
(Intercept) temp
-8.1710 0.7323
Com base neste modelo, teremos duas informações: o valor do intercepto (valor onde a reta da
regressão intercepta o eixo das ordenadas, que muitas vezes, não tem interpretação prática, como
seria o caso neste exemplo) e o valor que representa um coeficiente de relação entre a dilatação e
a temperatura, ou seja, quanto a dilatação irá variar para cada variação unitária da temperatura.
𝑦̂ = 𝛽̂0 + 𝛽̂1 . 𝑋
Assim:
predict(reglin)
1 2 3 4 5 6 7 8 9
O primeiro valor, ou seja, 5,009677, representa o valor predito para a dilatação quando a
temperatura é 18ºC (primeiro valor do objeto “temp”, e assim sucessivamente até o último valor
anova(reglin)
Response: dilat
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Com base nesta análise podemos verificar que o coeficiente β1 é significativo (a temperatura
influencia significativamente a dilatação, uma vez que o p-value encontrado foi na ordem de 10-6,
summary(reglin)
Call:
lm(formula = dilat ~ temp)
Residuals:
Coefficients:
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Veja o valor do coeficiente de determinação (R2) destacado (Multiple R-Squared: 0.9664). Ele
representa o quanto da variação da dilatação linear pode ser explicada pela variação da temperatura
neste experimento. Uma vez que o valor encontrado foi quase 97% há indicação de que o modelo
#------------------------------------------------------------------------------------------
# importando dados
str(dap)
#------------------------------------------------------------------------------------------
str(dap)
pairs(dap)
head(dapcc)
str(dapcc)
#------------------------------------------------------------------------------------------
summary(m1)
layout(matrix(c(1,1,2,3,4,5),2,3))
plot(h~d, dapcc)
lines(fitted(m1)~d, dapcc)
plot(m1)
#------------------------------------------------------------------------------------------
# modelo cúbico
summary(m2)
plot(h~d, dapcc)
lines(fitted(m2)~d, dapcc)
plot(m2)
#------------------------------------------------------------------------------------------
# modelo recíproco
summary(m3)
#------------------------------------------------------------------------------------------
summary(m4)
#------------------------------------------------------------------------------------------
summary(m5)
#------------------------------------------------------------------------------------------
# modelo logarítmo
summary(m6)
#------------------------------------------------------------------------------------------
4.3.Seleção de modelos
#------------------------------------------------------------------------------------------
summary(m7)
#------------------------------------------------------------------------------------------
# seleção de modelos/variáveis
step(m7, direction="both")
#------------------------------------------------------------------------------------------
summary(m5)
anova(m5)
#------------------------------------------------------------------------------------------
4.4.Remoção de outlier
#------------------------------------------------------------------------------------------
layout(1)
plot(residuals(m5)~d, dapcc)
id
#------------------------------------------------------------------------------------------
str(dapcc2)
summary(m5b)
layout(matrix(c(1,1,2,3,4,5),2,3))
#------------------------------------------------------------------------------------------
# e se tentarmos tranformar?
require(MASS)
layout(1)
bc
str(bc)
bc$x[which.max(bc$y)]
#------------------------------------------------------------------------------------------
summary(m5c)
layout(matrix(c(1,1,2,3,4,5),2,3))
shapiro.test(rstudent(m5c))
ks.test(rstudent(m5c), "pnorm")
shapiro.test(rstudent(m5))
ks.test(rstudent(m5), "pnorm")
#------------------------------------------------------------------------------------------
5. Teste de média
Existe vários testes de comparação múltipla disponíveis na literatura. Muitos deles se encontram
também no R tais como teste de Tukey, Dunnet, Sheffe, Duncan, SNK e Scott-knott.
5.1.Teste de Tukey
O Teste proposto por Tukey (1953) é também conhecido como teste de Tukey da diferença
honestamente significativa (honestly significant difference)(HSD) e teste de Tukey da diferença
totalmente significativa (wholly significant difference)(WSD). É um teste exato em que, para a
família de todas as comparações duas a duas, a taxa de erro da família dos testes
(FWER) é exatamente (e o intervalo de confiança é exatamente 1- ). O teste de Tukey tem sido
mostrado analiticamente ótimo, no sentido que, entre todos os procedimentos que resultam em
intervalos de confiança com mesmo tamanho para todas diferenças duas a duas com coeficiente
de confiança da família de pelo menos , o teste de Tukey resulta em intervalos menores. Isso
quer dizer que, se a família consiste em todas comparações duas a duas e o teste de Tukey pode
ser usado, ele resultará em intervalos menores que qualquer outro método de comparação múltipla
de uma etapa.
A estratégia de Tukey consiste em definir a menor diferença significativa. Tal procedimento utiliza
a amplitude da distribuição studentizada.
Suponhamos que temos observações independentes, Y1,...,Yk, de uma distribuição normal com
média μ e variância σ2. Seja a amplitude para esse conjunto de observações, assim
Suponhamos que temos uma estimativa s2 da variância σ2, que é baseada nos graus de
liberdade e é independente de Yi, em que é o número total de observações. Dessa forma, a
razão é chamada amplitude studentizada e é denotada por , em que é um
valor tabelado (ver Tabela do Teste de Tukey).
Para tamanhos de amostras iguais (dados balanceados), o teste de Tukey declara duas médias
significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
Vejamos agora como realizar o teste de Tukey para o um experimento em DIC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DIC como segue abaixo.
Suponhamos um experimento (fictício) de produtividade em soja em que se avaliaram 3 variedades
de soja (A, B e C) com 2 repetições distribuídos na área experimental em DIC. Os dados referentes
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆 = 𝑞 √ = 5,91√ = 11,44
𝑟 2
Verificamos que todos os contraentes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância.
Assim a tabela do teste de Tukey fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Vejamos agora como realizar o teste de Tukey para o um experimento em DBC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DBC como segue abaixo.
Suponhamos um experimento (fictício) de produtividade em soja em que se avaliaram 3 variedades
de soja (A, B e C) com 2 blocos distribuídos na área experimental em DBC. Os dados referentes a
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
Trat 2 112,33 56,16 5,03
Res 2 22,32 11,16
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
𝑄𝑀𝑅 11,16
𝐷𝑀𝑆 = 𝑞√ = 8,33√ = 19,68
𝑟 2
Cada estimativa exceder 19,68 será significativo ao nível de 5% de probabilidade pelo teste de
Tukey. Agora vamos calcular todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5𝑛𝑠
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Verificamos que todos os contraentes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância.
Assim a tabela do teste de Tukey fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Exemplo no software R:
dados<-
c(30,25,46,35,28,19,40,38,33,28,49,45,35,30,48,42,35,20,42,37)
trat<-factor(rep(paste("tr",1:4,sep=""),5))
tabela<-data.frame(trat=trat,dados=dados)
ANOVA<-aov(dados~trat, tabela)
install.packages("agricolae")
library(agricolae)
result<-HSD.test(ANOVA,"trat", group=TRUE,console=TRUE)
trat, means
dados groups
tr3 45.0 a
tr4 39.4 ab
tr1 32.2 b
tr2 24.4 c
bar.group(result$groups,ylim=c(0,(max(dados)*1.25)),
density=4,border="blue")
text((nrow(result$groups[2]))/2,max(dados)*1.20,"Teste de Media
O nível de confiança padrão do R para este comando é de 0.95 (95%) e pode ser alterado com o
parâmetro alpha=.
alpha=0.01)
trat, means
dados groups
tr3 45.0 a
tr4 39.4 ab
tr1 32.2 bc
tr2 24.4 c
bar.group(result$groups,ylim=c(0,(max(dados)*1.25)),
density=4,border="blue")
text((nrow(result$groups[2]))/2,max(dados)*1.20,"Teste de Media
5.2.Teste SNK
Este teste “a posteriori”, procura contornar os inconvenientes do teste t de Student, quando mais
de dois tratamentos estão envolvidos no experimento. O teste SNK (Student-Newman-
Keuls) procura ajustar o valor de t de acordo com as distâncias entre as médias ordenadas dos
tratamentos.
Em uma relação decrescente de t médias, duas delas (x1 e x2) apresentarão significância se o valor
calculado em módulo para tsnk for maior ou igual ao valor tabelado para o nível de significância α
com GL (graus de liberdade) para resíduo e uma distância i entre as médias i = p + 2 (sendo p =
número de médias existente entre as duas médias comparadas na relação decrescente).
(𝑥1 − 𝑥2 ) − (𝑀é𝑑𝑖𝑎1 − 𝑀é𝑑𝑖𝑎2)
𝑡𝑆𝑁𝐾 =
√𝑄𝑀𝑟𝑒𝑠
2
Supondo Média1 – Média2 = 0 e tsnk = q(i;gl), a expressão acima pode ser descrita como:
𝑄𝑀𝑟𝑒𝑠
𝑥1 − 𝑥2 = 𝑞 √ = 𝐷𝑀𝑆
2
Vejamos agora como realizar o teste de SNK para o um experimento em DIC. Vamos utilizar
o mesmo exemplo de quando falamos sobre DIC como segue abaixo.
Suponhamos um experimento (fictício) de produtividade em soja em que se avaliaram 3 variedades
de soja (A, B e C) com 2 repetições distribuídos na área experimental em DIC. Os dados referentes
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆1 = 𝑞√ = 5,91√ = 11,44
𝑟 2
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆2 = 𝑞 √ = 4,50√ = 8,71
𝑟 2
Verificamos que todos os contrastes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância. Assim a tabela do teste SNK é apresentada abaixo:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Vejamos agora como realizar o teste de Duncan para o um experimento em DBC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DBC como segue abaixo.
Suponhamos um experimento (fictício) de produtividade em soja em que se avaliaram 3 variedades
de soja (A, B e C) com 2 blocos distribuídos na área experimental em DBC. Os dados referentes a
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
Trat 2 112,33 56,16 5,03
Res 2 22,32 11,16
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
𝑄𝑀𝑅 11,16
𝐷𝑀𝑆1 = 𝑞 √ = 8,33√ = 19,68
𝑟 2
𝑄𝑀𝑅 11,16
𝐷𝑀𝑆2 = 𝑞 √ = 6,09√ = 14,38
𝑟 2
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Verificamos que todos os contrastes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância.
Assim a tabela do teste de SNK fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Exemplo no software R:
install.packages("agricolae")
library(agricolae)
out<-SNK.test(ANOVA,"trat", group=TRUE,console=TRUE)
trat, means
Critical Range
2 3 4
dados groups
tr3 45.0 a
tr4 39.4 b
tr1 32.2 c
tr2 24.4 d
bar.group(out$groups,ylim=c(0,(max(dados)*1.25)),
density=4,border="blue")
o Fator A");
text((nrow(out$groups[2]))/2,max(dados)*1.10,colnames(dados))
5.3.Teste de Duncan
Este teste é baseado na mesma argumentação do teste SNK, porém como no teste SNK a
comparação das médias mais afastadas cria uma oportunidade maior para o aparecimento do erro
tipo I (atribuir diferenças entre as médias que não existem). O teste de Duncan procura as DMS
impostas pelas comparações de médias mais afastadas, sendo, portanto um teste menos rigoroso
que o SNK.
O valor do DMS para o teste de Duncan é obtido pela seguinte expressão:
𝑄𝑀𝑟𝑒𝑠
𝐷𝑀𝑆𝐷𝑢𝑛𝑐𝑎𝑛 = 𝑧𝛼(𝑖;𝑔𝑙) √
𝑟
Sendo que: i = p + 2, sendo p o número de médias existente entre as duas médias comparadas na
relação decrescente. Após a ordenação das médias, qualquer diferença entre pares maior do que
respectiva diferença mínima significativa (DMS(Duncan)) resultará em um valor significativo no
nível de significância α.
Vejamos agora como realizar o teste de Tukey para o um experimento em DIC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DIC como segue abaixo.
de soja (A, B e C) com 2 repetições distribuídos na área experimental em DIC. Os dados referentes
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Trat 2 112,33 56,16 7,48
Res 3 22,49 7,50
Total 5 134,83
FV: fonte de variação; GL: grau de liberdade; SQ: soma de quadrado; QM: quadrado médio; Trat:
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆1 = 𝑧√ = 4,50√ = 8,71
𝑟 2
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆2 = 𝑧√ = 4,50√ = 8,71
𝑟 2
exceder 8,71 será significativo ao nível de 5% de probabilidade pelo teste de Duncan. Agora vamos
calcular todos os contrastes.
T1 com T2:
𝑦12 = 𝑚1 − 𝑚2 = 72,5 − 62 = 10,5 ∗
T1 com T3:
𝑦13 = 𝑚1 − 𝑚3 = 72,5 − 66 = 6,5𝑛𝑠
T3 com T2:
𝑦32 = 𝑚3 − 𝑚2 = 66 − 62 = 4𝑛𝑠
Vejamos agora como realizar o teste de Duncan para o um experimento em DBC. Vamos
utilizar o mesmo exemplo de quando falamos sobre DBC como segue abaixo.
Suponhamos um experimento (fictício) de produtividade em soja em que se avaliaram 3 variedades
de soja (A, B e C) com 2 blocos distribuídos na área experimental em DBC. Os dados referentes a
Repetição
Variedade
1 2
A 70 75
B 63 61
C 68 64
FV GL SQ QM F
Blocos 1 0,16 0,16 0,01
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆1 = 𝑧√ = 6,09√ = 11,79
𝑟 2
𝑄𝑀𝑅 7,50
𝐷𝑀𝑆2 = 𝑧√ = 6,09√ = 11,79
𝑟 2
Verificamos que todos os contrastes foram ns (não significativo), como já era esperado pelo teste
F da análise de variância.
Assim a tabela do teste de Duncan fica da seguinte forma:
Tratamentos Médias
1 72,5 a
3 66,0 a
2 62,0 a
Exemplo no software R:
install.packages("agricolae")
library(agricolae)
out<-duncan.test(ANOVA,"trat", group=TRUE,console=TRUE)
for dados
trat, means
Critical Range
2 3 4
dados groups
tr3 45.0 a
tr4 39.4 b
tr1 32.2 c
tr2 24.4 d
bar.group(out$groups,ylim=c(0,(max(dados)*1.25)),
density=4,border="blue")
o Fator A");
text((nrow(out$groups[2]))/2,max(dados)*1.10,colnames(dados))
5.4.Teste de Scheffe
O método proposto por Scheffe (1959) é também conhecido como teste de Scheffe da diferença
completamente significativa (fully significant difference (FSD)) e como teste de Scheffe da
diferença globalmente significativa (globally significant difference(GSD)). É um método exato no
sentido em que, para as famílias (finitas) envolvendo todos os contrastes das médias, a FWER é
exatamente .
O Teste de Scheffe pode ser usado quando as comparações são selecionadas depois de olhar para
os dados e incluem os contrastes, que nem todos são aos pares. Também pode ser utilizado
quando um grande número de contrastes, nem todos aos pares, são especificados antes de coletar
os dados.
Dada uma FWER de valor , o intervalo de confiança para o contraste é calculado utilizando a
seguinte fórmula
Dessa forma, temos que o Teste de Scheffe considera duas médias significativamente diferentes
se o valor absoluto de suas diferenças amostrais ultrapassar
Uma observação trazida por alguns autores é que, pelo fato desse procedimento ser extremamente
conservador, quando o interesse está apenas na comparação duas a duas, o teste de Scheffe não é
adequado. Recomendam ainda que se o número de contrastes utilizados no estudo não é
consideravelmente maior que o número de grupos, e os contrastes não foram sugeridos pelos
dados, o procedimento de Bonferroni, provavelmente será mais poderoso que Scheffe. Contudo,
se os contrastes forem sugeridos pelos dados, o método de Scheffe deve ser empregado ao invés
de Bonferroni, desde que todos os contrastes possíveis tenham sido considerados implicitamente.
Exemplo:
install.packages("agricolae")
library(agricolae)
out<-scheffe.test(ANOVA,"trat", group=TRUE,console=TRUE)
trat, means
dados groups
tr3 45.0 a
tr4 39.4 ab
tr1 32.2 bc
tr2 24.4 c
bar.group(out$groups,ylim=c(0,(max(dados)*1.25)),density=4,borde
r="blue")
o Fator A");
text((nrow(out$groups[2]))/2,max(dados)*1.10,colnames(dados))
5.5.Teste de Dunnett
Dunnett (1955) foi pioneiro no conceito de que, quando um controle está presente, as comparações
de interesse preliminar podem ser as comparações de cada novo tratamento com o controle. Por
exemplo, o controle pode ser um placebo, um tratamento "padrão", ou qualquer outro tratamento
específico (como uma nova droga). Suponhamos que μ1,...,μj-1 são as médias dos novos
tratamentos e μj é a média do controle. Quando realizamos comparações múltiplas com um
controle, os parâmetros de interesse primários são μi-μj para , a diferença entre
cada nova média de tratamento μi e a média do controle μj, ou seja, queremos testar as hipóteses
O método de Dunnett é uma modificação do teste usual. A menor diferença significativa neste
caso é dada por
em que é um valor tabelado proposto por Dunnet (ver Tabela do Teste de Dunnett),
que depende do número de níveis (k) e dos graus de liberdade dos erros (N-k).
Se tomarmos o nível como controle, rejeitamos a igualdade entre a média do nível e a média
do nível se:
Exemplo:
install.packages("multcomp")
library(multcomp)
print(summary(Dun))
print(confint(Dun))
Linear Hypotheses:
tr2 - tr1 == 0 *
tr4 - tr1 == 0 *
---
Signif. codes:
5.6.Teste de Scott-knott
Exemplo:
install.packages("ScottKnott")
library(ScottKnott)
summary(sk)
tr3 45.0 a
tr4 39.4 b
tr1 32.2 c
tr2 24.4 d
title='Tratamento/variavel i')
6. Pacote ExpDes
parcelas subdivididas no tempo (em DIC e DBC), experimentos em esquema de fatorial duplo com
um tratamento adicional (em DIC e DBC), experimentos em esquema de fatorial triplo (em DIC e
DBC) e experimentos em esquema de fatorial triplo com um tratamento adicional (em DIC e
regressão até o terceiro grau (tratamentos quantitativos) ou por testes de comparação múltipla:
teste t (LSD), teste t de Bonferroni (LSD protegido) e teste Bootstrap - tratamentos qualitativos.
project.org/web/packages/ExpDes.pt/ExpDes.pt.pdf.
Este pacote tem como função prícipal realizar análise de variância para dados desbalanceados
install.packages("easyanova")
library(easyanova)
data(data1)
data(data2)
data(data3)
data(data4)
r1<-ea1(data1, design=1)
names(r1)
r1
r2<-ea1(data2, design=2)
r3<-ea1(data3, design=3)
r4<-ea1(data4, design=4)
ndata<-data.frame(data2[-3],response)
ndata
r5<-ea1(ndata, design=2 )
r5
t<-c('a','a','a','b','b','b','c','c','c')
r1<-c(10,12,12.8,4,6,8,14,15,16)
r2<-c(102,105,106,125,123,124,99,95,96)
r3<-c(560,589,590,658,678,629,369,389,378)
d<-data.frame(t,r1,r2,r3)
names(results)
results
results[1][[1]]
names(results[1][[1]])
data(data10)
r6<-ea1(data10[-3], design=5)
r6
data(data11)
data(data12)
r7<-ea1(data11,design=7)
r8<-ea1(data12,design=7)
data(data13)
r9<-ea1(data13, design=8)
r9
# Sampaio (2010)
data(data14)
r10<-ea1(data14, design=9)
r10
# lattice
data(data15)
r11
r12
# switchback design
# Sampaio (2010)
data(data16)
r13<-ea1(data16, design=12)
r13
data(data17)
r14<-ea1(data17, design=13)
r14
r15<-ea1(data1, design=14)
r15
r16<-ea1(data2, design=15)
r16
8. Rbio
início em agosto de 2016 e sua primeira versão lançada em outubro de 2016. Quaisquer dúvidas e
Trata-se de um software gratuito, portanto, sua distribuição e instalação podem ser realizadas por
qualquer pessoa, sem necessidade de autorização prévia para isso, desde que tenham o Sistema
É um software que utiliza o software R como núcleo, necessitando deste instalado no computador
para que as análises do Rbio sejam processadas. Sendo assim, a maioria dos scripts internos do
Rbio, são rotinas que utilizam o R para processamento. O software R por sua vez é um software
código fonte aberto e gratuito. Portanto o conjunto Rbio + R podem ser usados por todos usuários
O download e atualização do Rbio são feitas via site www.biometria.ufv.br, que é o site do
laboratório de biometria da UFV onde, em parceria com demais laboratórios pertencentes a rede
O software é de fácil utilização, contendo exemplos para todas as análises que são possíveis de
serem realizadas. Além disso, o usuário tem a opção de ver os Scripts utilizados, fazendo com que
seja possível editar os scripts do programa obtendo assim um script personalizado para cada
usuário, tornando-o um programa diferente, sendo uma excelente ferramenta para ensino de
programação no R, uma vez que várias funções, loops, carregamentos de pacote, impressão de
textos e outras estratégias são usadas para os procedimentos. Realiza ainda análises biométricas
úteis em programas de melhoramento, ecologia, e outras áreas das ciências agrárias e biológicas.
que deverá ter seus arquivos extraídos após o download. Uma vez extraído existirão os seguintes
arquivos:
Após download, o usuário deverá clicar no arquivo “setup” mostrado na imagem anterior. O
processo de instalação é rápido. O usuário deverá ainda copiar para o “c:\” a pasta: _Rbio. Desta
forma ficará: Esta pasta _Rbio contém os arquivos exemplos que o software usará, além de uma
pasta “Output” que estará vazia, mas o usuário não deve deletá-la pois esta receberá arquivos