Você está na página 1de 68

Apostila de estatística experimental

Escola de Medicina Veterinária da UFMG


Profa. Dra. Ângela Maria Quintão Lana

Escola de Medicina Veterinária e Zootecnia da UFT


Prof. Dr. Luciano Fernandes Sousa

1
1 Definição de conceitos:
1.1 Unidade experimental (UE)
É a menor unidade de um experimento na qual é aplicado um tratamento, em
experimentos de campo as unidades experimentais são denominadas parcelas. As
parcelas irão depender no número de tratamentos e o número de repetições dos
tratamentos.
A unidade experimental, experimentação animal é representada geralmente por
um indivíduo (ser humano ou animal). Quando uma resposta for medida em grupo
(mesma baia), como por exemplo, o consumo total da baia, um animal será a unidade
experimental para medidas individuais de peso, mas a baia será a unidade experimental
para medidas de consumo e de conversão alimentar, pois não será possível ter acesso ao
consumo e conversão individuais.

1.2 Tratamento
Tratamento é qualquer procedimento ou conjunto de procedimentos cujo efeito
deverá ser avaliado e comparado com outros

1.3 Experimento
No método científico (mais especificamente no método experimental), uma
experiência científica ou experimento consiste na montagem de uma estratégia
concreta a partir da qual se organizam diversas ações observáveis direta ou
indiretamente, de forma a provar a plausibilidade ou falsidade de uma dada hipótese ou
de forma a estabelecer relações de causa/efeito entre fenômenos.
A experiência científica é uma das pedras angulares da abordagem empirista ao
conhecimento humano.

1.4 Experimentador
Agente que planeja, executa e analisa as informações obtidas no experimento.

1.5 Erro tipo I, erro tipo II


Em testes de hipóteses, na Estatística, um erro de tipo I consiste em rejeitar
uma hipótese nula que é verdadeira, por outras palavras, chegar a um resultado que tem
significância estatística quando na verdade ele aconteceu por acidente.
Um teste com alta especificidade terá menores erros do tipo I. O símbolo para a
probabilidade de um erro de tipo I é a (alpha) e é por vezes descrito como o tamanho
do teste.
Já um erro de tipo II consiste em falhar na rejeição (ou seja, na aceitação) de
uma hipótese nula inválida (ou seja, aceitar, como inválida, uma hipótese que na
verdade é válida).
O símbolo para a probabilidade de um erro de tipo II é ß (beta). O poder de um
teste estatístico é definido como 1 - ß. Um teste com alta sensitividade terá menos erros
do tipo II. No entanto, à medida que a probabilidade do erro de tipo II diminui, aumenta
a susceptibilidade da ocorrência do erro de tipo I

1.6 Experimentos cegos e duplamente cegos


Experimentos cegos - Quando as UE são objetos, plantas, animal ou material
provindo de plantas ou animais – como folhas de árvores ou peças anatômicas –, é

2
importante que o pesquisador pese, meça ou observe cada unidade sem saber a que
grupo pertence essa unidade.
Isto evita a tendenciosidade. Nessa fase do experimento, o pesquisador ou
experimentador não pode trabalhar sozinho – precisa trabalhar com outro técnico.
Experimentos duplamente cegos - São os experimentos feitos com pessoas, em
que se recomendam ainda outros cuidados.
1. Não se deve informar à pessoa (unidade experimental) o grupo para o qual foi
designada;
2. Devem ser mantidos alheios ao resultado do sorteio a todos os profissionais
envolvidos no trato dessas pessoas, para não afetar o moral delas;
O pesquisador que faz as observações ou medições deve fazê- lo sem saber a que
grupo pertence à pessoa que examina.

1.7 Dados discrepantes (outliers)


Dados que possuem valores extremos, atípicos ou com características bastante
distintas dos demais registros no experimento.
Normalmente registros que contêm valores outliers são descartados da amostra,
porém isto só deve ocorrer quando o dado representar um erro de observação, de
medida ou algum outro problema similar.
O dado deve ser cuidadosamente analisado antes da exclusão, pois embora
atípico, o valor pode ser verdadeiro. Outliers podem representar, por exemplo, um
comportamento não usua l, uma tendência ou ainda transações fraudulentas. Encontrar
estes valores é, muitas vezes, os objetivos da obtenção de dados.

1.8 Dados binários


Dados nominais com apenas duas categorias. Tais dados podem ser codificados
e armazenados através da combinação (seqüencial) de dois dígitos (binário), o “0” e o
“1”.
Dados binários ou dicotômicos são comuns em muitas áreas das ciências, nas
quais, muitas vezes, há interesse em registrar a ocorrência, ou não, de um evento
particular.

1.9 Nível de significância


É denotado por e indica a probabilidade de cometer um erro tipo-I. Na maioria
dos softwares, a significância estatística é expressa pelo nível descritivo (p-valor). Os
níveis de significância mais utilizados são 5%, 0.1%, 1% e 10%. Sendo 5% o nível
recomendado para experimentação animal.

1.10 Testes paramétricos


Processos estatísticos baseados em parâmetros populacionais para testar
hipóteses ou estimar parâmetros.
São testes que incidem explicitamente sobre um parâmetro de uma ou mais
populações e a distribuição da estatística de teste pressupõe uma forma particular da(s)
distribuição(ões) populacional(ais) (por exemplo, a normalidade).

1.11 Testes não paramétricos


Processos estatísticos para testar hipóteses ou estimar parâmetros, quando não há
suposições formuladas sobre a natureza ou a forma das distribuições populacionais;
chamados também testes livres de distribuição.

3
Se os dados não satisfazem as suposições feitas pelas técnicas tradicionais
(exemplo normalidade), métodos não paramétricos de inferência estatística devem ser
usados.

1.12 Qual teste usar, sejam paramétricos ou não-paramétricos?

4
2 Princípios Básicos da Experimentação
Os princípios básicos da experimentação são:
• Repetição (n amostral)
• Casualização (repetições ao acaso)
• Uniformidade da unidade experimental (repetições homogêneas)
• Uniformidade de meio (controle do ambiente e do tempo)
• Uniformidade de aplicação do tratamento (intervenções padronizadas)

2.1 Repetição
Tratamento 1 Tratamento 2
Animal 1
Animal 2
Animal 3
Média X1 X2
Variância S1 2 S2 2

A repetição (tamanho amostral) possibilita estimar:


• média para cada tratamento
• variância dentro do tratamento

Variação entre tratamentos


F=
Variação intra tratamento

A distribuição F é a distribuição da razão de duas estimativas de variância. É


usada para calcular valores de probabilidade na análise de variância.
Uma amostra muito pequena reduz a significância estatística do estudo, pois o efeito
observado pode ser atribuído não somente ao tratamento instituído, mas também ao
acaso.

2.2 Casualização
Tem o objetivo de validar a estimativa da variância dentro do grupo experimental

2.3 Uniformidade da unidade experimental


A unidade experimental deve ser homogênea quanto a:
• Idade
• Peso
• Sexo
• Grau de sangue (raça)

Quando uma determinada variável representa fator de variação que influi no resultado,
essa influência pode interferir na variância intra tratamento. Se for necessário utilizar

5
mais de um ambiente ou períodos diferentes, os fatores ambiente e tempo devem ser
removidos através da análise estatística. Para isso, deve haver repetição de todos os
tratamentos em cada ambiente ou tempo.

2.4 Uniformidade de meio


O ambiente ou o tempo em que ocorre o experimento deve ser homogêneo para cada
tratamento que será comparado.

2.5 Uniformidade da aplicação do tratamento


Quando o tratamento é aplicado de forma injetável, o placebo também deve ser injetado
de forma a uniformizar o fator estressante.

6
3 Estatística comparativa (contraste)

3.1 Comparação de pares (teste t)


No caso de amostras dependentes ou pareadas, quando a mesma amostra é
submetida a dois tratamentos diferentes, são comparadas as médias obtidas entre as
amostras (ou alíquotas, ou réplicas).
Exemplo:
O sangue coletado de animais pode ser dividido em 2 alíquotas que serão
submetidas a tratamentos diferentes, os quais serão comparados. Nesse caso, o
pareamento é muito eficiente, pois as alíquotas são derivadas dos mesmos animais.
Quando o pareamento é possível, há uma eficiência do experimento muito alta. Quando
trabalha-se com animais diferentes, por mais bem controlada seja a escolha dos pares, a
eficiência é perdida, e este estudo é considerado amostra independente para efeito de
utilização de testes estatísticos.
Os testes estatísticos são feitos para avaliar a variabilidade entre- indivíduos e
não intra- indivíduos.
Univitelinos, lotes, antes e depois (quando o tempo não for suficiente para influir
na resposta) são considerados pareamentos.

Exemplo:
Dosagem de Anticorpos
⇒ soro de 11 bovinos inoculados com a mesma carga patogênica
A hipótese é substituir o título in vivo pelo ensaio (ELISA).

ANIMAL ELISA Título in vivo Diferença


1 230,00 300,00 -70,00
2 300,00 550,00 -250,00
3 550,00 700,00 -150,00
4 320,00 300,00 20,00
5 1.300,00 1.100,00 200,00
6 1.550,00 1.100,00 450,00
7 510,00 500,00 10,00
8 800,00 520,00 280,00
9 620,00 480,00 140,00
10 2.600,00 2.400,00 200,00
11 400,00 380,00 20,00
Médias 834,55 757,27 77,2727

dif =
∑ dif =
850
= 77,2727
11 11

7
IC = dif ± tα , gl × (dif )
S
n

Para obter o desvio-padrão dos indivíduos (da diferença)

 (∑ dif i )  
2

  702 + 250 2 + (− 20)2 − (− 850) 


( ) 
2
 ∑ dif i −
2

 n  
S 2( dif ) = 
11 
= = 40.561,8182
n −1 10

S = 40.561,8182 = 201,3996

Para determinar o intervalo de confiança da média da diferença na amostra:

201,3996
IC = 77,2727 ± t 5%,10 × (na tabela, t = 2,228)
11
dms ( ? )
IC = 77,2727 ± 135,2937

IC ⇒ de -58,02 a 212,57

à Se o IC inclui o ZERO, significa que a média da diferença pode ser ZERO. Se a


diferença entre os dois testes pode ser ZERO, então os métodos não diferem, isto é,
podem ser IGUAIS.
⇒ H0 à t1 – t2 = 0
t1 = t2
CONCLUSÃO : Os dois métodos (ELISA e in vivo) não diferem (p>0,05)
t > ⇒ é a não diferença
t < ⇒ é a diferença

Há prejuízo na confiabilidade porque a variância da amostra é grande e porque o


valor de t para o erro (a) e gl é grande.

DMS ⇒ DIFERENÇA MÍNIMA SIGNIFICATIVA (Teste-t)

O valor da variação do intervalo de confiança é a diferença mínima significativa


(dms), ou teste t.

É o valor que o desvio tem que superar para ser significativo. A importância do
dms é saber, com antecedência, o valor abaixo do qual as médias obtidas seriam
consideradas não significativamente diferentes quando comparam-se mais de dois
grupos.
⇒ Se o módulo da média for maior que o dms (? ) à o IC não inclui o ZERO

Pareamento

8
Nos casos de pareamento, os desvios internos são calculados (diferença para cada
repetição) e o controle de variância é maior. O pareamento apresenta alta eficiência.

Comparação de grupos experimentais quando o pareamento não é possível.


Quando não é possível fazer o pareamento, deve-se procurar controlar as variáveis de
forma que as amostras sejam as mais homogêneas o quanto possível. No caso de
amostras independentes, seria calculada a média para cada grupo e o desvio entre as
médias externas é que seria verificado.

(Quando são realizados mais de 3 tratamentos, a comparação de pares pode ser


realizada. Utilizando-se o teste t, há uma perda, pois, no caso de 10 animais, a
comparação é feita par a par. Assim, os pares teriam, cada um, 20 observações.
Se os três tratamentos forem comparados simultaneamente (com ANOVA, por
exemplo), ganha-se com o aumento para 30 respostas.)

Exemplo:
Transplante isolado de rim e duplo rim + pâncreas. Avaliação de um ano após em
relação a triglicérides (indivíduos do sexo masculino, com 35 a 50 anos, 15 pacientes
por grupo).

repetição isolado duplo Desvio


1 46,00 78,00
2 92,00 109,00
3 137,00 269,00
4 95,00 89,00
5 64,00 95,00
6 65,00 117,00
7 80,00 199,00
8 280,00 214,00
9 62,00 102,00
10 92,00 256,00
11 137,00 115,00
12 95,00 136,00
13 64,00 83,00
14 80,00 239,00
15 62,00 90,00
Média 96,73 146,07 49,3333
Variância 3255,50 4721,21
S 57,06 68,71
Razão entre as variâncias (a maior sobre a menor)
1,45022775
⇒ deve ser menor que 7 para ser homogênea

S12 S22
IC = X D − X I ± tα , gl × +
n1 n2

9
3255,49 4721,21
IC = 146,07 − 96,73 ± t 5%, 28 × + (t = 2,048)
dms 15 15

IC = 49,44 ± 47,23 ⇒ 2,11 a 96,57 mg/dl

X D − X I > dms ⇒ há diferença estatística entre os grupos (p<0,05)

Conclusão:
O IC não inclui o ZERO. Logo, o transplante duplo não apresenta taxa de
triglicérides semelhante ao (é diferente do) isolado (p< 0,05). Foi significativo, embora
o IC seja muito amplo, sugerindo que a amostra foi insuficiente (n=15). Entretanto, o
resultado sendo significativo poderia ser publicado sem problemas pois, mesmo com o
erro superestimado, a diferença entre as médias não foi mascarada.
O problema seria se o resultado fosse não significativo com uma amostra
pequena. Poderia significar que seria possível a diferença existir mas ter sido mascarada
pela super-estimativa do erro.

Precisão do experimento
A precisão do experimento é dada pelo coeficiente de variação da amostra (deve
envolver os 30 resultados):
Do exemplo anterior:
Grupo isolado Grupo duplo Médias (geral)
Média 96,73 146,07 121,40
Variância 3255,50 4721,21 3988,3526
S 57,06 68,71 63,1534
CV 52,01

S 63,1534
CV = × 100 = × 100 = 52,01 %
X geral 121,40

96,73 + 146,07
X (geral ) = = 121,40
2
S12 + S 22
S 2( média) = = 3988,3526
2
à ou usando o S, já que ambas amostras apresentam o mesmo n
S1 + S 2
⇒ S( média) = = 63,1534
2
⇒ O CV alto encontrado pode ser devido a uma amostra inadequada.

Como houve diferença significativa, pode-se confiar, mesmo tendo encontrado CV alto.
Uma adequação amostral e conseqüente redução no CV aumentariam a capacidade do
teste, comprovando uma diferença ainda maior.

10
Se não tivesse sido encontrada a diferença, nesse caso poderia-se pensar na
possibilidade do resultado ser diferente se o CV fosse menor.

Calcular o tamanho amostral com erros de 5% e de 10% da média.

?
S
X ± tα ,gl ×
n
erro de 5% da média (121,4 × 5/100) = 6,07 ⇒ variação à ?
S
∆ = tα , gl ×
n
63,1534
6,07 = 2,048 ×
n
129,3382
n= = 21,31∴ n = 454 pessoas
6,07
para erro de 10% da média (121,4 × 10/100) ⇒ ? = 12,14
à n = 114 pessoas

ANOVA

Consiste em pegar um conjunto de dados de um experimentos (por exemplo, 30


indivíduos dos dois grupos – obs. exemplo anterior) e calcular a variância total e fazer
uma partição da mesma. O total de variação pode ser atribuído à variação de grupos
experimentais e ao erro, considerando que não há outra fonte de variação. Nesse caso,
as variáveis sexo, idade e outras são uniformes.
Em outros estudos pode haver outras fontes de variação: tratamentos, sexo, idade, peso,
linhagem, galpão utilizado, etc.
(∑ X ) 2

∑X −
2 i
30 pacientes i
n
2
Stotal =
gl

à grupos
à erro

Toda fonte de variação não percebida e não descontada na variação total, vai ser
atribuída ao erro. O erro sendo superestimado, fica mais difícil estabelecer as diferenças
entre os grupos.

11
DELINEAMENTO INTEIRAMENTE CASUALIZADO
(∑ X ) 2

∑X −
2 i
i
2
Stotal = n
gl

QUADRO DA ANÁLISE DE VARIÂNCIA


Quadrado médio
Fonte de Variação gl Soma de Quadrados (variância do erro
experimental)
Total (n-1) 29 SQt = ∑ X i2 −
(∑ X ) i
2

n
Grupos (g-1) 1 SQg =
∑g i
2


(∑ X ) i
2

(variação entre grupos) r n


Erro (Total – Grupos) 28 SQe = SQt – SQg SQe
QMe =
(variação intra-grupo) (Obtido por diferença) gl

Fator de

SQtotal = ∑ X i2 −
(∑ X ) i
2

SQgrupos = ∑g 2
i

(∑ X )i
2
correção
n r n
Para o exemplo anterior dos transplantes simples e duplos:

SQtotal = 46 + 92 + ... + 239 + 90


2 2 2 2

( 46 + 92 + ... + 239 + 90 )2
30
SQtotal = 129.927,23
FC = G2/n
SQgrupos =
g 2
isolado
+
2
g duplo

(46 + 92 + ... + 90 ) 2
G: total geral
n: tamanho da amostra
15 15 30
SQgrupos = 18.253,33
SQe = SQt – SQg ⇒ SQe = 111.673,90
SQe
QMe = ⇒ QMe = 3.988,35 (QMe à quadrado médio do
gl
erro)

QUADRO DA ANÁLISE DE VARIÂNCIA


Fonte de Variação gl Soma de Quadrado médio (variância do
Quadrados erro experimental)
Total (n-1) 29 129.927,23
Grupos (g-1) 1 18.253,33
(variação entre grupos)
Erro (gl t – gl g ) 28 111.673,90 3.988,35
(variação intra-grupo)

QMe QMe
dms = t5 %,28 × +
r1 r2

12
Nesse caso, como os QMe e r também são coincidentes, pode ser simplificado como
abaixo:
2 × 3988,35
dms = 2,048 × = 47,23
15
X D − X I = 49,34 ⇒ o módulo da diferenç a das médias > dms

O IC não inclui o ZERO. As médias apresentam diferença significativa


(p<0,05).

O teste t foi utilizado, em vez do F, pois é muito sensível. Porém, t só deve ser
utilizado quando é recomendado. O teste t só pode ser utilizado até para 5
grupos e se a estabilidade é alta. Se há instabilidade, deve ser utilizado outro
teste.
Situação experimental
Tratamentos:
a) Ração tradicional à base de milho e soja
b) 95% da ração tradicional + 5% de farelo de trigo
c) 95% da ração tradicional + 5% de farelo de cacau
Linhagem das aves: mesma linhagem
Resposta: produção de ovos em % (ovos produzidos por total de galinhas) ⇒ numérica
contínua de fluxo descontinuado (se a avaliação for longa; mas se for avaliada,
como nesse caso, em períodos curtos pode ser classificada como continuada);
estabilidade não conhecida mas na avicultura as respostas são muito instáveis;
distribuição normal.
O total de ovos produzido no galinheiro a cada dia é dividido pelo total de galinhas
do galinheiro ×100.
Unidade experimental: galinheiro com 40 galinhas, 15 galinheiros no mesmo galpão
Cada galinheiro é uma unidade experimental. Três grupos (trataemtnos) com 5
galinheiros cada.
Início do ensaio: 32 semanas + 8 semanas de adaptação
Tempo de avaliação: durante um mês (contagem diária)
Repetições: 5 repetições / tratamento
Delineamento: inteiramente casualizado
Desenho do estudo
r A B C
1 72,4 71,8 66,8
2 74,8 67,8 64,2
3 70,1 72,1 67,2
4 75,5 70,1 62,7
5 68,1 66,6 68,9
Total 360,9 348,4 329,8
média 72,18 69,68 65,96

13
Só há variação entre os grupos (hipótese do estudo) e entre os indivíduos dentro
dos grupos (intra-grupo). Nesse caso será feito o sorteio dos tratamentos entre
os grupos.

Pré-Requisitos para fazer ANOVA:


• Grupos homogêneos
• Distribuição normal

Fontes de variação: tratamentos e erro experimental

Vantagens desse delineamento:


à delineamento simples
àse houver perda de unidade experimental (parecela perdida), a média dos grupos não
seria alterada. Média de 5 galinheiros é o mesmo que média de 4 galinheiros.

Desvantagem desse delineamento:


àa não percepção de fonte de variação superestima o erro experimental. Esse
delineamento é o que mais sofre esse efeito. Para evitar a superestimação, as fontes
de variação devem ser detectadas e o ambiente deve ser blocado.

QUADRO DA ANÁLISE DE VARIÂNCIA


Fonte de gl Soma de Quadrado médio
Variação Quadrados (variância do erro
experimental)
Total (n-1) 14 185,029
Grupos (g-1) 2 97,96
(variação entre grupos)
Erro (gl t – gl g ) 12 87,069 7,2558
(variação intra-grupo)

TOTAL

SQtotal = 72,4 + 74,8 + ... + 62,7 + 68,9


2 2 2 2

(72,4 + 74,8 + ... + 68,9 )2
15
SQtotal = 185,029

GRUPOS
g A2 g 2B g C2 360,9 2 348,4 2 329,8 2 (72,4 + ... + 68,9 )2
SQ grupos = + + − FC = + + −
5 5 5 5 5 5 15
SQ grupos = 97,96

ERRO

SQerro = SQt − SQg ⇒ SQe = 185,029 – 97,96 = 87,069

14
QMe = 87,069/12 = 7,2558

DMS

à como a comparação é sempre entre 2 médias, o dms é calculado com


2QMe/5. Se os 3 grupos tivessem r diferentes, teria que voltar à fórmula original
( dms= t α, gl × QMe+ QMe ) e calcular o dms para cada um dos 3 pares de médias.
r1 r2

2QMe
dms = t5%, gl ×
5
2 × 7,2558
dms = 2,179 × = 3,41
5
X A − X B = 2,5 à menor que dms ⇒ IC inclui ZERO, A = B
X B − X C = 3,72 à maior que dms ⇒ IC não inclui ZERO, B ? C
X A − X C = 6,22 à maior que dms ⇒ IC não inclui ZERO, A ? C

Tratamento Médias
A 72,18 A
Consideradas iguais
B 69,68 A
C 65,96 B
Médias seguidas de letras distintas
diferem pelo teste t (p<0,05)

Se, por exemplo B fosse igual a C e, ao mesmo


tempo igual a A enquanto C é diferente de A,
seria acrescentada outra letra no tratamento B
para mostrar essa relação. Ficaria assim:
Trat Médias Comparação
A XA A
B XB AB
C XC B
Conclusão:
⇒ Do ponto de vista da produtividade, não vale a pena utilizar 5% de farelo de cacau
misturado à ração tradicional, pois a média de produção de ovos é menor com o
farelo de cacau, com diferença significativa em relação às outras duas formulações
(tradicional puro e acrescido de 5% de trigo). Não há diferença significativa em se
utilizar as formulações do farelo tradicional ou acrescido de 5% de trigo sobre a
produtividade de ovos.

15
4 DELINEAMENTO EM BLOCOS CASUALIZADOS

Situação experimental
Tratamento: 4 dietas com diferentes níveis de proteína
Resposta: ganho de peso em kg aos 90 dias
Cálculo amostral: 5 repetições para cada grupo experimental (para cada tratamento)
Local: os grupos serão tratados no mesmo local
Animal: suínos machos desmamados com peso uniforme
Granja fornece: à 10 animais na 1a . entrega de animais
à 8 animais, 15 dias após a primeira entrega
à 8 animais 15 dias após a segunda entrega
Classificação da variável: numérica (quantitativa), contínua, fluxo descontinuado (por
que a idade foi definida), instabilidade não é muito alta. Podem ser feitos:
ANOVA (teste de média), análise de regressão.
Desenho do estudo:
1a . entrada: 8 animais (escolher, pois não é possível usar 10)à 2 animais por
dieta (sortear)
2a . entrada: 8 animais à 2 animais por dieta (sortear)
3a . entrada: 8 animais (poderia usar 4, pelo cálculo amostral) à 2 animais por
dieta (sortear)

FORMAÇÃO DOS BLOCOS

Fornecimento / Entradas D1 D2 D3 D4

1a Entrada ⇒ 10 animais à escolher 8 1 2 3 4


BLOCO 1 (a escolha tem o objetivo de formar um
grupo mais uniforme) 5 6 7 8

BLOCO 2 9 10 11 12
2 Entrada ⇒ 8 animais à usar 8
a

13 14 15 16

BLOCO 3 17 18 19 20
3a Entrada ⇒ 8 animais (4 seriam
suficientes para completar n)à usar 8
21 22 23 24

Este experimento será classificado como: Delineamento em blocos


casualizados.

Cada entrada é um estrato, sendo que os animais foram sorteados por dieta em
cada bloco, sendo portanto 3 sorteios. Cada estrato (bloco) recebe todos os
tratamentos. Cada entrada tem condição ambiental diferente, mas essa
diferença ambiental afetará igualmente todos os tratamentos, pois todos os
tratamentos são distribuídos com igual chance para os animais de cada bloco.
São testadas as diferenças entre as médias dos pesos obtidos por cada dieta,
através de todos os blocos.

16
Quando o desenho é de delineamento em blocos casualizados, há o efeito das entradas
(blocos) no quadro da ANOVA, mesmo que supostamente haja a mesma condição de
efeito. Isso, porque foi feito um sorteio para cada bloco.

A realização de 3 sorteios implica na forma condução do experimento. Nesse


caso exemplificado, o experimento foi realizado em cada bloco em intervalos
curtos, sendo possível que assim não haja efeito da condição ambiental (clima,
tempo, estação do ano). Ao realizar a ANOVA, os efeitos das entradas devem
ser retirados. Há casos em que se observa que não há efeito de bloco (variação
não significativa), faz-se a ANOVA com delineamento inteiramente casualizado,
retirando-se do quadro da ANOVA as entradas dos blocos. Porém isso não pode
ser feito por que, quando o desenho é em blocos casualizados, o sorteio é
realizado o número de vezes correspondente ao número de blocos. E isso tem
impicação no numero de restrições do modelo para gerar aqueles resultados. As
entradas, mesmo não significativas, devem ser mantidas no quadro da ANOVA.

Quando o ambiente pode não ser uniforme como, por exemplo, um galpão com 3 áreas
não uniformes. Esses blocos formados devem ser considerados na ANOVA.

No caso de entradas no tempo, é imprevisível. Pode-se observar que em 30 dias,


por exemplo, não houv e diferença, porém devem ser bolcados. Com relação a
local, um galpão, por exemplo, áreas diferentes devem ser blocadas de forma
que cada área receba animais com todos os tratamentos realizados.

Se um bloco for perdido (água contaminada, por exemplo) ele pode ser repetido caso o
fator tempo não acarrete uma influência no resultado.

Se um animal for perdido durante o tratamento, deve ser analisado a causa da


perda. Se a perda (morte, por exemplo) for efeito do tratamento, não é parcela
perdida, mas sim resultado e deve ser discutido, pois pode ser um fato muito
importante. Se a causa da perda for outra, deve-se estimar a parcela perdida.
Por exemplo, se determinada entrada for favorável ao ganho de peso. Se num
dos grupos de dieta morre um animal proveniente daquela entrada que
favorecia o ganho de peso, a média para essa dieta ficará prejudicada em
relação às demais. Assim a parcela perdida deve ser estimada e esse valor
utilizado.

Há dois casos de blocagem: tempo e espaço físico. Mas há casos em que pode-
se blocar o animal.

Exemplo
Tratamento: 3 diluentes
Material: sêmen
Resposta: % de motilidade
⇒ quantitativa (pode ser qualitativa em alguns casos em que a avaliação é
subjetiva)
⇒ instável

17
No caso de respostas instáveis, é desejável blocar o animal. Por exemplo: motilidade de
sêmen do mesmo animal, divididos em 3 alíquotas para testar 3 diferentes diluentes e
seu efeito sobre a motilidade.

Alíquotas iguais de uma mesma coleta de cada animal são sorteadas para cada
tratamento. Pode-se assim reduzir o número de animais necessários para o
experimento. Dessa forma, o animal é controlado, pois tira-se uma repetição
para cada tratamento, por exemplo, com 5 animais poderia-se concluir o
experimento com 15 repetições. Não podem ser retiradas 2 amostras de um
mesmo animal e dividi-la em outras 3 alíquotas, pois isso seria uma réplica.
Teria que pegar outro animal. Mesmo ejaculados diferentes de um mesmo
animal não é indicado, pois a estatística é para indivíduos diferentes. Embora
nesse caso em que a resposta é muito instável pode ser considerada a
possibilidade de utilizar 2 ejaculados de um mesmo animal. Na possibilidade de
usar vários ejaculados de cada animal, pode-se fazer a média das alíquotas de
cada tratamento para representar cada animal. Mas não justifica pegar 2
amostras por animal, pois seria feita a média das duas (para as alíquotas de
cada tratamento). Como animal já está sendo controlado e o CV seria muito
baixo, pois há alta precisão experimental com apenas 1 amostra por animal
(variação do indivíduo seria controlada e a comparação dos 3 diluentes seria
feita em alíquotas homogêneas), não há porque pegar 2 amostras. Da mesma
forma, poderiam ser blocados leite, queijo, produtos de supermercado dos quais
seriam retiradas alíquotas.
De volta ao experimento de 4 dietas em 24 porcos desmamados:

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl
Total (n-1) 23
Entrada 2
Dieta 3
Erro (variação intra-grupo) 18

O método é encontrar uma soma de quadrados (variação total dos 20 animais) e


fazer a partição. Foram usados 24 animais (mais 4 animais fora aproveitados),
sendo 6 repetições para cada dieta. As fontes de variação são: a entrada (gl =
2), a dieta (gl = 3) e o erro experimental (gl = diferençaà 23 – 5 = 18).

⇒ O valor do gl do erro não deve ser inferior a 10, senão o valor tabelado
aumenta muito.

Na condução do experimento deve-se ter habilidade para controlar os fatores,


ajustar a amostra para levar a uma precisão experimental mais alta.

Experimento:
Amostra: Sêmen resfriado a 4º C mantidos por 36 horas, em 4 alíquotas para cada um
de 5 animais
Tratamentos: gema, leite, coco e citrato
Resposta: % de motilidade

18
DESENHO DO ESTUDO
Jumento gema leite coco citrato TOTAL
1 80 76 77 65 298
2 72 65 60 50 247
3 63 55 53 48 219
4 83 75 73 64 295
5 76 70 69 57 272
TOTAL 374 341 332 284 1331

Bloco: todos os 4 tratamentos passam por cada bloco


Casualizado: os tratamentos são sorteados dentro de cada bloco

Se fosse inteiramente casualizado, o sorteio dos tratamentos seria realizado


para as 20 amostras. A realização de um único sorteio, um único animal
poderia ficar com 2 tratamentos diferentes. Quando o sorteio é feito por bloco,
cada tratamento tem uma repetição num determinado animal.

Nesse caso não pode haver 2 repetições dentro de um mesmo bloco, pois o bloco
é o animal. Se houvesse mais de uma repetição no mesmo bloco seria réplica.
Quando o espaço físico é blocado, é possível ter mais de uma repetição por
bloco.

Quando o indivíduo (pessoa ou animal) é blocado e o tratamento é o tempo, não


há como sortear o tempo, pois é seqüencial. Mesmo assim e um delineamento
em blocos casualizados. Desenhos com tratamentos dependentes de tempo será
discutido em “parcela subdividida”. O que caracteriza o delineamento em bloco
não é o sorteio, mas o fato de cada estrato receber todos os tipos de tratamento.
Uma pessoa sendo analisada sobre perda de peso aos 7, 14 e 21 dias é um
bloco, pois ela tem uma informação de cada tratamento (tempo) [no caso de
bloco por espaço físico pode ser mais de uma informação, mas deve ser em
igual número].
QUADRO DE ANÁLISE DE VARIÂNCIA
Fonte de Variação gl Soma de Quadrado médio
Quadrados (variância do erro
experimental)
Total (n-1) 19 1.992,95
Animal 4 1.117,70
Diluente 3 829,35
Erro
(variação intra-grupo) 12 45,90 3,825

SQ TOTAL (o método baseia-se em partir essa variação total)

SQtotal = 80 + ... + 57
2 2

(1331)2
20
SQtotal = 90.571 − 88.578,05 = 1.992,95

19
SQ ANIMAL
298 2 247 2 219 2 2952 272 2 (1331)
2
a2 a2 a 2 a2 a2
SQanimal = 1 + 2 + 3 + 4 + 5 − FC = + + + + −
4 4 4 4 4 4 4 4 4 4 20

SQanimal = 89.695,75 − 88 .578,05 = 1 .117 ,70


a motilidade é uma resposta muito instável: de uma variação total de 1.992,95,
1.117,70 é atribuída ao animal. Indica que é conveniente blocar o animal,
senão, toda essa variação do animal seria atribuída ao erro, ficando muito
difícil assim mostrar as diferenças entre as médias.

SQ DILUENTE
d12 d 22 d 32 d 42 3742 3412 3322 2842 (1331)2
SQdiluente = + + + − FC = + + + −
5 5 5 5 5 5 5 5 20
SQdiluente = 89.407,40 − 88 .578,05 = 829,35

SQ ERRO
Obtido pela diferença:
SQe = SQt – SQa – SQd = 45,90

QMe (S2 )
SQe 45,9
QMe = = = 3,825
gl 12

CV
S 3,825
CV = × 100 = × 100 = 2,94 ⇒ tamanho do erro experimental (muito bom, abaixo
X geral 66 ,55
de 5%)

A média geral pode ser a média das médias dos quatro tratamentos ou 1.331/20.
A variável apresenta grande instabilidade, porém o delineamento em bloco
utilizando alíquotas permitiu que o ensaio obtivesse uma alta precisão
experimental (CV = 2,94). A comparação será feita com alta confiança. Se o
resultado for igual é porque é igual mesmo. Se o CV fosse alto, um resultado de
igualdade não teria confiança, pois a estimativa seria feita com o erro
superestimado.

CV muito baixo, deveria adotar o teste de Tuckey, portanto vamos usar o t para
seguir uma seqüência didática até o tópico “escolha de testes”.
DMS (teste t)
2QMe
dms = t5%,12 ×
r

20
2 × 3,825
dms = 2,179 × = 2,70% ⇒ diferença menor que 2,7% não é
5
significativa.

Uma diferença entre duas médias que seja menor que a dms é considerada uma
diferença casual, aleatória. Uma diferença superior indica que há um efeito
significativo do diluente na motilidade do sêmen.

Colocar as médias em ordem facilita a comparação.

QUADRO DE COMPARAÇÃO
diluente média Classif.
Gema 74,8 A
Leite 68,4 B
Coco 66,4 B
Citrato 56,8 C
Médias seguidas de letras distintas
diferem pelo teste t (p < 0,05).
⇒ quando é diferente, p<

Não cabe a um programa recomendar delineamentos. Há duas questões:


escolha do teste e escolha do delineamento.
Há dois critérios para escolher o teste: o número de tratamentos utilizado e a
instabilidade da resposta (CV). Quanto menor o erro (QMe), deve-se utilizar
testes mais rigorosos. Quanto maior o erro, usa-se um teste menos rigoroso,
mais sensível, que evidencia o efeito. Para o delineamento, depende da forma de
comparação das variáveis. É circunstancial e ligado ao controle local e de
tempo.

21
5 DELINEAMENTO EM QUADRADO LATINO

Situação experimental:
Resposta: quantidade de aflatoxina em cinco produtos à base de milho
Tratamentos: cinco métodos de detecção de aflotoxina
• Há 7 laboratoristas
• Cada laboratorista faz um exame por dia

Nesse caso, vamos escolher o método que detecta maior quantidade de


aflotoxina.

QUADRADO LATINO (5X5)


Prod 1 Prod 2 Prod 3 Prod 4 Prod 5
Lab 1 M2 M3 M4 M5 M1
Lab 2 M3 M4 M2 M1 M5
Lab 3 M1 M2 M5 M4 M3
Lab 4 M5 M1 M3 M2 M4
Lab 5 M4 M5 M1 M3 M2

Blocos foram formados nas linhas e colunas. O sorteio dos métodos pode ser
feito com sorteio sistematizado, de forma que não haja repetição de métodos por
laboratorista ou produto.

Sorteio sistematizado

O sorteio sistematizado é realizado em três etapas: distribuição de métodos, de linhas e


de colunas. As letras correspondem ao método. O preenchimento começa com a letra A
e cada linha subseqüente começa uma coluna deslocada à direita (em negrito). As
colunas à esquerda, deixadas em branco são completadas na seqüência (em vermelho)

Distribuição de métodos
C1 C2 C3 C4 C5
L1 A B C D E
L2 E A B C D
L3 D E A B C
L4 C D E A B
L5 B C D E A

Quadrado latino 5 X 5 ⇒ 25 unidades experimentais

22
Sorteio de linhas (L4, L3, L2, L1, L5 )
P1 P2 P3 P4 P5
L4 C D E A B
L3 D E A B C
L2 E A B C D
L1 A B C D E
L5 B C D E A

Sorteio de colunas (P2, P3, P5, P1, P4 )


Croquis final do ensaio
P2 P3 P5 P1 P4
L4 D E B C A
L3 E A C D B
L2 A B D E C
L1 B C E A D
L5 C D A B E

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl
Total (n-1) 24
laboratorista 4
produto 4
método 4
Erro (variação intra-grupo) 12

Se um laboratorista faltasse um dia, poderia-se estimar a parcela perdida, mas


com o inconveniente de perder em gl do erro e aumento de variância. Uma
melhor alternativa seria adiar de forma que todos os laboratoristas pudessem
fazer o exame num outro dia.

VARIAÇÕES NO DELINEAMENTO

E se fosse possível que o laboratorista pudesse fazer mais de um teste por dia? Dois
exames por dia, por exemplo?
QUADRADO LATINO 5 × 5
C1 C2 C3 C4 C5
L1 A B C D E
L1 E A B C D
L2 D E A B C
L2 C D E A B
L3 B C D E A

Daria para usar apenas 3 laboratoristas, ganhando nos gl.

23
QUADRO DE ANÁLISE DE VARIÂNCIA
Fonte de Variação gl
Total (n-1) 24
laboratorista 2
produto 4
método 4
Erro (variação intra-grupo) 14
Se fossem 4 métodos a serem testados, usaríamos 4 laboratoristas

QUADRADO LATINO 4 X 4
C1 C2 C3 C4
L1 A B C D
L2 D A B C
L3 C D A B
L4 B C D A
⇒ 16 unidades experimentais

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl
Total (n-1) 15
laboratorista 3
produto 3
método 3
Erro (variação intra-grupo) 6
Nesse caso, o número de gl é extremamente baixo, fazendo com que a confiabilidade
seja perdida e impossibilitando a condução do experimento.

Para solucionar esse problema, de forma a viabilizar a realização do experimento


poderia-se fazer 2 quadrados latinos 4 × 4, resulatando em 32 unidades experimentais.
Porém com o cuidado de não utilizar réplicas. Usar amostras diferentes, podendo usar
os mesmos laboratoristas, não sendo assim considerado réplica porque a medida não é
avaliada neles. No total seriam 8 produtos sendo analisados. Faz-se um segundo
quadrado latino após o encerramento do primeiro.
Com a execução de dois quadrados latinos aparece uma nova fonte de variação. Entre
um quadrado e outro há variação.

QUADRO DE ANÁLISE DE VARIÂNCIA (para 2 quadrados latinos 4 × 4)


Fonte de Variação gl
Total (n-1) 31
Quadrado Latino 1
laboratorista 3
produto (4-1)+(4-1) 6
método 3
Erro (variação intra-grupo) 18

24
Agora esse experimento pode ser realizado com confiabilidade aceitável.
Poderiam ser utilizados novos 4 laboratoristas, mas se os mesmos 4
laboratoristas puderem fazer o segundo quadrado latino é melhor para gl. Com 4
novos laboratoristas haveria 6 gl para laboratorista e 15 gl para o erro, ainda
confiável.

Os sorteios do primeiro e do segundo quadrados são independentes, pois se


houve alguma tendência, mesmo que casual, no primeiro sorteio, sendo o
segundo sorteio realizado de forma independente, dá-se a chance dessa
tendência não se manifestar.

Situação Experimental
Ensaio de competição de 5 variedades de cana-de-açúcar (variação de fertilidade no
terreno em declive) Declive

Resposta: produção em quilos por parcela


Repetições: 5 variedades A (CO-290); B (CO-421); C (CO-419);
D (POJ-2878); E (CP-36-13)
Terreno foi dividido em 25 lotes (5 × 5)
Colunas: bloco
Linhas: bloco
QUADRADO LATINO 5 × 5

C1 C2 C3 C4 C5 Total Total de cada variedade (nome da variedade em parênteses)


D A B C E
L1 A (CO-290) = 518+524+420+486+515=2.463
432 518 458 583 331 2.322
C E A B D
L2 B (CO-421) = 458+550+384+494+318=2.204
724 478 524 550 400 2.676
E B C D A
L3 C (CO-419) = 583+724+556+501+660=3.024
489 384 556 297 420 2.146
B D E A C
L4 D (POJ-2878) = 432+400+297+500+438=2.067
494 500 313 486 501 2.294
A C D E B
L5
515 660 438 394 318 2.325
E (CP-36-13) = 331+478+489+313+394=2.005
2.654 2.540 2.289 2.310 1.970
Total Geral 11.763

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl SQ QM
Total (n-1) 24 257,724
Linha 4 30,48
Coluna 4 55,64
Variedades 4 137,49
Erro (variação intra- 12 34,12 2,84 kg2
grupo)
Os meus resultados foram iguais aos apresentados na aula (anotados acima),
porém × 1.000

25
É possível afirmar que a variação entre as colunas é maior do entre as linhas. Significa
que o solo varia mais no sentido “horizontal” do que no “vertical”, considerando o
esquema do quadrado latino.
A variação entre linhas ou entre colunas também poderia ser verificada da mesma forma
em que é verificada para as variedades, mas nesse estudo, o objetivo não é esse. No caso
de um galpão onde são realizados vários experimentos pode ser interessante verificar a
variação dos locais em seu interior.
Nesse experimento, mesmo que não seja encontrada diferenças entre colunas e/ou
linhas, a estrutura de quadrado latino deve ser seguida, pois o sorteio já foi realizado de
forma que alterar o delineamento posteriormente ao sorteio implica em alteração dos
resultados.

SQ total (obs. resultados 1000 vezes maior que os apresentados na aula)

SQtotal = 4322 + ... + 3182 −


(11.763)2 = 5.792.451 − 5.534.726,76 = 257.724,24
25

SQ linha (obs. resultados 1000 vezes maior que os apresentados na aula)


2.322 2 2.676 2 2.146 2 2.294 2 2.3252
SQlinha = + + + + − FC
5 5 5 5 5
SQlinha = 5.565.207,40 − 5.534.726,76 = 30.480,64

SQ coluna (obs. resultados 1000 vezes maior que os apresentados na aula)


2.654 2 2.540 2 2.289 2 2.310 2 1.970 2
SQcoluna = + + + + − FC
5 5 5 5 5
SQcoluna = 5.590.367, 40 − 5.534.726,76 = 55.640,64

SQ variedade (obs. resultados 1000 vezes maior que os apresentados na aula)


2.4632 2.204 2 3.024 2 2.067 2 2.005 2
SQvar iedade = + + + + − FC
5 5 5 5 5
SQvar iedade = 5.672.215 − 5.534.726,76 = 137.488,24

SQ erro (obs. resultados 1000 vezes maior que os apresentados na aula)


SQe = SQt – SQl – SQc – SQv = 34.114,72

QMe (S2 , erro experimental) (obs. resultados 1000 vezes maior que os apresentados na
aula)
SQe 34.114,72
QMe = = = 2.842,893
gl 12

CV
S 2.842,893
CV = × 100 = × 100 = 11,332%
X geral 470 ,52
(na aula o valor encontrado foi 0,36%) ⇒ extremamente confiável, tornando o
teste muito sensível para detectar igualdade entre médias.

26
O quadrado latino é um delineamento que apresenta um alto controle de
variação.

São pré-requisitos, para realização do quadro da ANOVA: a distribuição normal,


variâncias homogêneas, num modelo aditivo, no qual cada repetição é a soma do efeito
médio geral, mais o da sua coluna, mais o da sua linha, mais o da sua variedade mais o
erro aleatório. Os efeitos têm que ser somados, e não multiplicados. Se os efeitos são
multiplicados, pode-se notar pela perda da homogeneidade e da conformidade. Nesse
caso, uma transformação logarítmica pode resolver tornando os efeitos aditivos.

Comparação das 5 médias, que é o objetivo do ensaio:

DMS (teste t)
2 × 2,84 2 × 2,84
dms = t5%, 12 × = 2,179 × = 2,32 ⇒ resultado apresentado na
5 5
aula

2 × 2.842,893 5.685,787
dms = t5%,12 × = 2,179 × = 2,179 × 33,72 = 73,480
5 5

QUADRO DE COMPARAÇÃO
variedades média Classif. Classif. (aula)
C 604,8 A A
A 492,6 B B
B 440,8 BC C
D 413,4 C D
E 401,0 C E
Médias seguidas de letras distintas diferem pelo teste t
(p < 0,05).
(diferenças menores do que dms são atribuídas ao
erro aleatório)
Se gl for menor que 10, não há confiabilidade. O experimento deve ser criticado e
sugere-se

Exemplo: situação experimental à quadrado latino 4 × 4


Resposta: quantidade de aflatoxina em produtos à base de milho
Tratamentos: 4 métodos de detecção de aflatoxina
• Há 10 laboratoristas
• Cada laboratorista faz 2 exames por dia

Nesse caso, vamos escolher o método que detecta maior quantidade de


aflotoxina.

Detalhes do experimento:
Devem ser blocados os laboratoristas e os produtos. Os métodos são o objetivo do
experimento.

27
Laboratorista: Às vezes não é necessário usar todas as pessoas disponíveis. Usar
4 laboratoristas fazendo 2 exames por dia (3 gl) é mais eficiente do que 8, pois
aumenta gl (6 gl) para os laboratoristas, reduzindo assim os gl do erro.
Métodos: sorteio sistematizado.
Produto à base de milho: O produto é um lote. Só podem ser retiradas 4
alíquotas de cada produto (lote), uma repetição para cada método. Não podem
ser usadas réplicas. Deve usar 4 produtos num quadrado e 4 em outro.

P1 à saco de 50kg de farinha


P2 à saco de 50 kg de fubá
P3 à saco de 50 kg de farinha de milho
P4 à saco de 50 kg de fubá de marca ou lote diferente

DOIS QUADRADOS LATINOS 4 × 4


primeiro quadrado latino 4 x 4 para aflatoxina segundo quadrado latino 4 x 4 para aflatoxina
Dia 1 Dia 2 Dia 3 Dia 4
P1 P2 P3 P4 P5 P6 P7 P8
L1 M2 M3 M4 M1 L1
L2 M1 M2 M3 M4 L2 Outro sorteio sistematizado
L3 M3 M4 Sorteio L3
sistematizado
L4 M4 M1 L4

O sorteio sistematizado deve ser feito novamente para o segundo quadrado latino.
Sempre que possível, o sorteio deve ser independente. O objetivo do delineamento é
controlar as fontes de variação. No caso de usar só um laboratorista não haveria o
fator de variação do laboratorista, mas ele teria qua fazer 4 experimentos em um único
dia. Se ele fizesse 2 exames por dia, o dia já seria um fator de variação que teria que
ser blocado. Na necessidade de blocar o dia, é necessário que todos os experimentos
sejam realizados num dia.
A estratégia de blocar apresenta vantagem, pois é muito mais confiável blocar uma
possível fonte de variação do que supor que a variação não existe ao confiar num teste
de concordância. A variação interexaminadores (a maior variação existente) é anulada
pelo delineamento.

DOIS QUADRADOS LATINOS 4 X 4


PARA AFLATOXINA P5 P6 P7 P8 TOTAL
P1 P2 P3 P4 TOTAL D A B C
C B A D L1 271 264 284 264 1083
L1 288 288 276 300 1152 A B C D
D C B A L2 252 288 234 302 1076
L2 272 256 284 272 1084 B C D A
A D C B L3 283 255 290 275 1103
L3 240 296 236 300 1072 C D A B
B A D C L4 288 296 269 303 1156
L4 272 264 292 264 1092 1094 1103 1077 1144 4418
1072 1104 1088 1136 4400 Total Geral 8818

28
Observa-se variação entre os laboratoristas, entre produtos e entre os
quadrados.
QUADRO DE ANÁLISE DE VARIÂNCIA
Fonte de Variação gl SQ QM
Total (n-1) 31 11.331,87
Repetição do 1 10,125
delineamento Quadrados Latinos
Laboratoristas 3 709,125
delineamento
Produtos [(4-1)+(4-1)] 6 1.167,25
Métodos 3 5.681,625
Erro (variação intra-grupo) 18 3.763,75 209,0972

A soma de quadrados total é realizada para o ensaio como um todo. No livro, aparece
para Produtos gl = 7, mas não aparece 1 gl para Quadrados latinos. É preferível listar
separadamente para não confundir, pois laboratoristas e produtos fazer parte da fonte de
variação do delineamento, mas o delineamento é repetido, surgindo a nova fonte de
variação que é a repetição do delineamento. Métodos são o objeto de estudo.

SQ Total

SQtotal = (288) + (288) + ... + (269 ) + (303 ) −


2 2 2 (8.818 )22
= 11.331,87
32
SQ Quadrado Latino

SQQL =
( 4.400 )2 + (4.418 )2 (8.818 )2
− = 10,125
16 32
SQ Laboratóristas
Totais de Laboratoristas
1 = 1152+1083
2 = 1084+1076
3 = 1072+1103
4 = 1092+1156

SQlaboratório =
(1152 + 1083)2 + (1084 + 1076)2 + ... +
(1092 + 1156)2 − FC = 709,125
8 8 8

SQ Produto
Os produtos que estão no primeiro quadrado latino não são os mesmos dos que
estão no segundo quadrado.

SQproduto =
(1.072) (1.104 )
2
+
2
+ ... +
(1.077) (1.144)
2
+
2
− FC = 1.167, 25
4 4 4 4

29
SQ Método
Métodos:
A = 276+272+240+264+264+252+275+269 = 2.112
B = 2.302
C = 2.085
D = 2.319

SQmétodo =
(2.112 ) + ... + (2.319 )
2 2
− FC = 5.681,625
8

SQ ERRO

SQe = SQt – SQa – SQd = 3.763,75

QMe (S2 )
SQe 3. 763,75
QMe = = = 209,0972
gl 18

CV
S 209,0972
CV = × 100 = ×100 = 5,25%
X geral 275, 5625

CV baixo indica alta precisão. Intervalo de confiança estreito e é fácil detectar


diferenças. Se o resultado mostrar igualdade entre métodos é porque eles
realmente o são.

Comparação dos métodos

DMS (teste t)
2 × 209,0972
dms = t 5%,18 × = 15,19 ⇒ r no denominador é o número sobre o qual
8
foram calculadas as médias as serem
comparadas.

QUADRO DE COMPARAÇÃO
MÉTODO média MÉTODO média Classif.
1 264,00 4 289,875 a
2 287,75 2 287,75 a
3 260,625 1 264,00 b
4 289,875 3 260,625 b
Médias seguidas de letras distintas diferem pelo teste t (p < 0,05). [a = 0,05 é o
mesmo que (p < 0,05)]

30
INTERAÇÃO ENTRE FATORES
Até agora estudamos tratamentos com apenas um fator. Porém na experimentação
muitas vezes vários fatores são estudados ao mesmo tempo. Por exemplo, no estudo de
dietas, pode ser interessante estudar o efeito de níveis diferentes de proteína combinado
a diferentes níveis calóricos, definindo qual é a melhor combinação.
O mais comum é estudar a interação entre 2, 3 ou até 4 fatores. A interação de mais
fatores tornam a interpretação mais complexa.

Arranjo Fatorial
Situação experimental:
Estudo: dieta com 3 níveis de proteína e com 2 níveis de energia (caloria).
Resposta: ganho de peso
Repetições: 6 repetições por tratamento à 30 unidades experimentais

A interação entre os níveis de proteína com os de energia resultam num fatorial 3 × 2.


No caso desse experimento, será denominado “arranjo fatorial”. Cada nível de
proteína será combinado com cada um dos níveis de energia, gerando 6 tratamentos. O
arranjo do tratamento não tem nada a ver com delineamento. O delineamento vai
depender do local e dos animais utilizados (fontes de variação a serem controladas). O
arranjo fatorial é a forma de combinar os tratamentos analisados e compreender o efeito
de cada combinação sobre o resultado medido. Esse tipo de estudo é muito vantajoso
pois tem uma quantidade de informação muito maior: o efeito de cada um dos fatores e
o da combinação entre eles.

ARRANJO FATORIAL 3 × 2
E1
P1
E2
E1
P2 6 tratamentos
E2
E1
P3
E2

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl gl (adequado à interação) SQ QM
Total (n-1) 29 29
Proteína (P) à 2 (P – 1)
tratamento 5 Energia (E) à 1 (E – 1)
P×E à 2 (P – 1) × (E – 1)
Erro 24 24

Os graus de liberdade do tratamento são divididos. A interação é o produto dos graus de


liberdade dos fatores isolados (P × E). Os fatores isolados são estudados quando a
interação é não-significativa. Em alguns casos, o resultado mostra que só justifica
utilizar um fator se este for combinado com o outro, ou seja, isoladamente esse fator não
tem efeito significativo.

31
Exemplo: situação experimental
Qualidade de ovos em relação ao armazenamento em 2 temperaturas (4o C e 18o C)
combinado à utilização de 2 tipos de embalagem (papelão e filme PVC) e medida nos
tempos de estocagem de 5, 10, 15, 20 dias.

Arranjo fatorial ⇒ 2 × 2 × 4 = 16 tratamentos

Se fosse usar o modelo de ANOVA sem partição dos tratamentos:

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl
Total (n-1)
tratamento 15
Erro

Dividindo os graus de liberdade pelos tratamentos:

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl
Total (n-1)
Temperatura (T) 1
Embalagem (E) 1
Estocagem (Es) 3
T×E 1 15
Interações de 1a.ordem
(2 fatores) T×Es 3
E×Es 3
Interação de 2a.ordem T×E×Es
(3 fatores) 3
Erro

Os gl do tratamento foram divididos. Com o cálculo das somas de quadrado separadas


para cada um dos fatores e suas combinações, é possível verificar qual fator exerce
maior influência no resultado.
Quando o número de tratamentos é aumentado, isso permite diminuir o número de
repetições. Supondo um delineamento inteiramente casualizado, para conseguir 10 gl
para o erro, 2 repetições seriam suficientes, ficando n=32 e gl do erro = 17. Há duas
coisas a serem consideradas na experimentação: a estimativa do erro experimental e o
cálculo da média. A estimativa do erro experimental, que deve ser igual à populacional
(a verdadeira) e isso teoricamente é garantido se há um grande número de respostas
sendo 10 gl suficientes. O cálculo da média é outro aspecto que às vezes fica esquecido,
pois a média deve ser representativa do grupo e uma estimativa da variância
individual. Mas com 2 repetições, as médias seriam calculadas sobre apenas 2
repetições. Nesse caso, se houver valor atípico, esse valor alteraria demais a média,
pois nesse caso, cada parcela representa 50% de peso no cálculo da média. No caso de
perda, também seria problemático, pois uma só repetição impede o cálculo de média,
sendo então perdida uma das combinações possíveis de tratamento. Recomenda-se
então um cálculo amostral que forneça uma sobra. Com pelo menos 4 repetições, o
peso de cada parcela é de 25% no cálcuo da média.

32
4 repetições × 16 tratamentos ⇒ n= 64 à gl do erro = 48
É possível estimar o cálculo amostral através dos gl. É uma forma prática com
fundamentação estatística, mas quando a resposta é muito instável, é melhor calcular
através do desvio-padrão da resposta. Às vezes 10 gl não é suficiente para variáveis
instáveis.

P.: Quando se usa análise de covariância?


R.: Quando há um fator que entra na análise que não é o fator de estudo nem um
fator desejado. Mas ele surge e é um problema que tem que ser contornado. Ele
pode entrar como co-variavel. Essa covariável, apesar de não ser objeto de
estudo, deve ser medida e colocada na análise de forma a determinar a influência
da mesma sobre o resultado.

Situação experimental:
Um pesquisador estudou o efeito de vitamina B12 (0 e 50mg) e antibiótico (0, 250mg)
em fêmeas de Pastor Alemão da desmama à puberdade. Delineamento inteiramente
casualizado.
Resposta: ganho de peso médio diário (em gramas) da genitália

Experimento
Antibiótico 0 250
Resposta
Vitamina 0 50 0 50
1 1,30 1,19 1,05 1,56
2 1,08 1,26 1,05 1,55
3 1,19 1,21 1,00 1,52
4 1,19 1,22 0,98 1,53
Total 4,76 4,88 4,08 6,16
Média 1,19 1,22 1,02 1,54

⇒ Fatorial 2 × 2

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl SQ QM
Total (n-1) 15 0,60
Antibiótico (A) 1 0,02
Vit B12 (V) 1 0,30
A+V 1 0,25
Erro 12 0,03 0,0025

SQ TOTAL

SQtotal = (1,3) + ... + (1,53) −


2 2 (19,88 )2
= 0,60
16

33
SQ ANTIBIÓTICO

SQ A =
(9,64 )2 + (10,24 )2
− FC = 0,02
8
SQ VITAMINA

SQV =
(8,84) + (11,04 )
2 2
− FC = 0,30
8

SQ TRATAMENTO (só os três: A, V e interação)

SQTRAT =
(4,76)2 + ... + (6,16)2 − FC = 0,57
4

SQ A × V
SQA×V = SQtrat − SQant − SQvit

SQ ERRO
Obtido pela diferença:
SQe = SQT – SQA – SQV– SQA × V = 0,03

QMe (S2 )
SQe 0,03
QMe = = = 0,0025
gl 12

CV
S 0,0025
CV = ×100 = ×100 = 4,03%
X geral 1,24

DMS (teste t)
2 × 0,0025
dms = t5%,12 × = 0,072
4

Antibiótico
Média
Vitamina 0 250 dif geral
0 1,19 aA 1,02 bB 0,17 1,10
50 1,22 bA 1,54 aA -0,32 1,38
dif -0,03 -0,52
Média geral 1,20 1,28
Médias seguidas de letras distintas, minúsculas na linha e maiúsculas na coluna,
diferem pelo teste t (p < 0,05)
(as médias não têm valor nesse caso, pois são utilizadas só quando não há
interação entre os fatores.)

34
Exemplo com letras caracterizando ausência de interação (nesse caso, não são
apresentadas as letras dentro do quadro:
0 250
0 aB bB B
50 aA bA A
a b

GRÁFICO PARA MOSTRAR INTERAÇÃO

1,60
250
antibiótico
1,54

1,4
0
1,22 antibiótico
1,2

1,1

0 vitamina

Quando as retas são paralelas, a interação é não significativa.


Situação experimental:

Ração enriquecida com 2 concentrações de cálcio e três de fósforo Deseja-se saber qual
a combinação de concentração desses nutrientes leva ao maior ganho de peso em
frangos de corte.
Ca (2 e 4,5%) P (0,2; 0,5 e 0,8%) ⇒ (2 × 3)
Resposta: peso aos 45 dias em kg
Galpão com 6 lotes de 200 frangos
4 galpões em diferentes localizações
Unidade experimental: peso médio de 20 frangos

Delineamento:
Blocos casualizados, utilizando 4 galpões (blocos) com 6 repetições em cada bloco.
Cada lote receberá um tratamento. Como cada lote tem 200 frangos, a medida será
realizada só em 20 frangos cuja média é a unidade experimental.

Galpões Total Total


P Ca I II II IV Total (Ca=2,0) (Ca=4,5)
0,2 2,0 1,3 1,2 1,7 1,4 5,6 5,6
0,2 4,5 2,0 1,8 2,1 1,9 7,8 7,8
0,5 2,0 2,9 2,4 2,7 2,6 10,6 10,6
0,5 4,5 2,9 2,7 3,5 3,1 12,2 12,2
0,8 2,0 3,3 3,1 3,4 3,3 13,1 13,1
0,8 4,5 1,9 1,5 2,5 1,7 7,6 7,6
Total 14,3 12,7 15,9 14,0 56,9 29,3 27,6

35
QUADRO DE ANÁLISE DE VARIÂNCIA
Fonte de Variação gl SQ QM
Total (n-1) 23 12,0696
Galpão 3 0,8646
Cálcio (Ca) 1 0,121
Fósforo (P) 2 6,086
Ca × P 2 4,585
Erro 15 0,4129 0,0275

SQT = (1,3)2 +...+(1,7)2 – G2 /24


SQgalpão = (Bl1 )2 + ... + (Bl4 )2 – FC
SQCa = [(29,3)2 +(27,3)2 ]/12 – (56,9)2 /24
SQP = [(13,4)2 +(22,8)2 +(20,7)2 ]/8 – (56,9)2 /24
SQtrat = [(5,6)2 + ... +(7,6)2 ]/4 – FC = 10,792
SQCa × P = SQtrat – SQca – SQP
0,0275
CV = × 100 = 6,99 %
2 ,37
2 × 0,0275
dms = t5%,15 × = 0,25
4

QUADRO DE COMPARAÇÃO
Fósforo
Cálcio 0,2 0,5 3,28
2 1,4 cB 2,65 b B 3,28 aA
4,5 1,95 bA 3,05 a A 1,9 bB
Médias seguidas de letras distintas, minúsculas
na linha e maiúsculas na coluna, diferem pelo
teste t (p < 0,05)

36
Interação entre fatores (continuação)
Os tratamentos estatísticos, quando há interação entre fatores, estão combinados de
forma em que todos os níveis de um fator estão presentes em todos os níveis de outro
fator.

Arranjo em parcela subdividida


Tanto o arranjo fatorial quanto o arranjo em parcelas subdivididas são formas de
compor o tratamento estatístico, que estão dentro de um delineamento. O delineamento
é decorrente quase sempre de uma restrição (uniformidade de ambiente, amostra) que
leva à formação de blocos.

Situação experimental
Carga parasitária de esquistossomose no volume globular em coelhos aos 7, 14 e 21 dias
pós infecção.
Tratamentos:
• Ausência de carga (controle) ⇒ 7, 14 e 21 dias
• Carga de 103 ⇒ 7, 14 e 21 dias
• Carga de 106 ⇒ 7, 14 e 21 dias
Resposta: volume globular (fluxo continuado, medido aos 7, 14 e 21 dias)
Unidades experimentais: 15 Coelhos (grupo homogêneo)

Há interação entre fatores, pois queremos estudar 3 cargas em 3 dias para cada fator. A
interação é 3 × 3, mas diferentemente do arranjo fatorial, cada animal gera 3
informações. Nesse caso, um animal foi alocado ao tratamento (carga do parasita)
através de sorteio. Porém, as avaliações nos dias 7, 14 e 21 são realizadas num mesmo
animal. O fator carga é subdividido, sendo que cada unidade experimental gera 3
resultados. Quando dentro de um fator várias respostas são geradas, configura-se um
tipo de arranjo em parcelas subdivididas (split plot). Esse ensaio apresenta um
delineamento inteiramente casualizado com carga na parcela e tempo na subparcela. É
comum que o tempo, num experimento, seja subparcela num arrajno em parcela
subdividida. Porém deve-se estar atento porque nem sempre esse é o caso.
É necessário que a resposta seja de fluxo continuado. Se o animal tiver que ser
sacrificado, não é possível reutilizar a parcela. Daí, torna-se necessário usar o arranjo
fatorial.
Exemplo:
Experimento para verificar produção de matéria seca em variedades de
sorgo nas 4 estações do ano. A variedade de sorgo será a parcela. As
respostas para cada estação do ano serão medidas em cada variedade.

37
Situação experimental
O sêmen é estocado em uma temperatura constante e quando é descongelado, há um
tempo do retorno à condição de utilização. Sêmen eqüino em três tempos de estocagem
(12, 24 e 48 hs) × velocidade de retorno (A, B).
O ejaculado de um animal é dividida em 3 amostras (A1, A2 e A3). As 3 amostras serão
sorteadas para tempo de estocagem T12, T24 e T48. Cada uma das amostras será
dividida em 2 alíquotas, as quais serão sorteadas para as velocidades de retorno (VA e
VB). Esse procedimento é realizado em todas as repetições do experimento (animais).

Resposta: porcentagem de defeitos no acrossoma.


Blocos: os animais são blocados
(vantagem para o controle de variação nesse caso em que a resposta é muito
instável e é possível obter alíquotas de material proveniente de animais difíceis
de serem obtidos em quantidade)

Alíquota 1
Amostra 1 (sorteado p/ Vel B)
(sorteado p/ 48hs) Alíquota 1
(sorteado p/ Vel A)
Alíquota 1
Animal ⇒ 1 ejaculado Amostra 2 (sorteado p/ Vel A)
(1 repetição = 1 animal) (sorteado p/ 12 hs) Alíquota 1
(sorteado p/ Vel B)
Alíquota 1
Amostra 3 (sorteado p/ Vel A)
(sorteado p/ 24 hs) Alíquota 1
(sorteado p/ Vel B)

Tempo de estocagem × Velocidade de retorno


3 × 2 = 6 tratamentos à t1 : 48, VB
à t2 : 48, VA
à t1 : 12, VA
à t1 : 12, VB
à t1 : 24, VA
à t1 : 24, VB

Delineamento em blocos casualizados e arranjo em parcelas subdivididas com tempo de


estocagem na parcela e velocidade de retorno na subparcela
(nem sempre o tempo é subparcela)

Situação experimental
Estudar 5 anestésicos em cães. Há limitação para obtenção de animais uniformes e
espaço no hospital.
Resposta: freqüência cardíaca em 3 tempos (fluxo continuado).

38
Repetições: 5 cães (serão utilizados apenas 5 cães)
Arranjo fatorial: 5 × 3 = 15 (5 anestésicos em 3 tempos)

Delineamento em quadrado latino e arranjo em parcela subdividida 5 × 3,


sendo os anestésicos as parcelas e os tempos de avaliação as subparcelas

Sem. 1 Sem. 2 Sem. 3 Sem.4 Sem. 5


10 min 10 min 10 min 10 min 10 min
Cão 1 B 20 min D 20 min E 20 min C 20 min A 20 min
30 min 30 min 30 min 30 min 30 min
10 min 10 min 10 min 10 min 10 min
Cão 2 C 20 min B 20 min A 20 min E 20 min D 20 min
30 min 30 min 30 min 30 min 30 min
10 min 10 min 10 min 10 min 10 min
Cão 3 D 20 min A 20 min C 20 min B 20 min E 20 min
30 min 30 min 30 min 30 min 30 min
10 min 10 min 10 min 10 min 10 min
Cão 4 A 20 min E 20 min B 20 min D 20 min C 20 min
30 min 30 min 30 min 30 min 30 min
10 min 10 min 10 min 10 min 10 min
Cão 5 E 20 min C 20 min D 20 min A 20 min B 20 min
30 min 30 min 30 min 30 min 30 min

à B (10, 20, 30 min) ⇒ parcela (soma das 5 repetições)


à B (10 min) ⇒ subparcela (soma das 5 repetições)

Todos os 5 cães serão subemtidos aos 5 anestésicos e todos os anestésicos serão


testados em todas as semanas. As respostas serão medidas em 3 tempos para cada
anestésico. O estudo deverá ser realizado num prazo de 5 semanas, dando um tempo de
recuperação (wash-out) do efeito residual do tratamento anterior antes de proceder o
seguinte. Delineamento em quadrado latino e arranjo em parcelas subdivididas com
anestésico na parcela e os tempos de avaliação na subparcela.

Nos delineamentos estudados anteriormente, o quadro da ANOVA apresentava


somente um tipo de erro. Nos arranjos em parcela subdividida há dois tipos de
erro: erro a e erro b.

Erros a e b
Erro a ⇒ variação individual atribuída à parcela
Erro b ⇒ variação individual atribuída à subparcela

Na comparação das médias, ora é utilizado o erro a, ora o erro b e outras vezes os dois
erros são utilizados com ponderação. Portanto as análises com dms serão realizadas três
vezes: a, b e ponderada.
O valor da resposta de cada uma das 5 combinações do tratamento com o anestésico B,
medida aos 10 minutos (B-10) é uma subparcela. Os valores dessas 5 subparcelas
apresentam variação individual. Essa variação que ocorre dentro de uma mesma
subparcela será chamada de erro b: erro da subparcela. O mesmo ocorre com as
combinações B-20, B-30, A-10, A-20, A-30 e assim por diante, gerando também uma

39
variação individual para essas subparcelas. A média dessas variações individuais das
subparcelas vai gerar o erro b.
Quando é considerado o resultado de cada anestésico, esse é a soma das suas respectivas
subparcelas, gerando o resultado da parcela. A soma de B-10, B-20 e B-30 nas 5
repetições resulta na resposta da parcela B. Os resultados de cada uma das 5 parcelas
também apresentam variação. A média das variações das parcelas é chamada de erro
a.
Da mesma forma que no arranjo fatorial, o arranjo em parcelas subdivididas
tem o objetivo de avaliar qual a melhor combinação de tratamentos. Pela forma
de condução do experimento, quando um fator está incluído no outro,
configura-se uma forma específica de arranjo fatorial denominada parcela
subdividida.
Não é raro o pesquisador dividir um experimento cuja resposta é avaliada por
tempo. Isso gera um prejuízo devido ao efeito do tamanho amostral.
Considerando esse experimento como exemplo, há 75 repetições. Quando o
experimento é dividido em 3 ensaios, um para cada um dos tempos de
avaliação, cada experimento resultante teria n = 25. Outra limitação da divisão
é que no estudo dividido não podem ser feitas comparações entre os tempos, ao
contrário do ensaio completo no qual pode-se avaliar a evolução da resposta
nos 3 tempos, inferindo a partir das comparações entre resultados obtidos nos
diferentes tempos. A divisão do estudo leva a duas perdas: informação e
precisão experimental.

Exemplo:
Suplementação na dieta de frangos com duas concentrações de Cálcio, e outra de
Fósforo com três níveis de concentração. A resposta será medida em 45 e 90
dias.
As parcelas são o arranjo fatorial 2 × 3, mais um terceiro fator (tempo) que é a
subparcela. As subparcelas são os tempos de avaliação para cada parcela (2 × 3
× 2).
No caso do animal for abatido (resposta descontinuada) o mesmo estudo deverá
ser reconfigurado apenas em arranjo fatorial, havendo necessidade de dobrar a
amostra para avaliar o fator tempo.

Ca P Tempo
45d
0,2
90d
45d
2,0 0,5
90d
45d
0,8
90d
45d
0,2
90d
45d
4,5 0,5
90d
45d
0,8
90d

40
Nesse caso, há um arranjo fatorial na parcela composta por 2 fatores, mais um
terceiro fator na subparcela. Se a resposta não fosse continuada, caso o animal
tivesse que ser abatido, não seria parcela subdividida, mas somente arranjo
fatorial. Haveria dessa forma necessidade de compensar o tamanho amostral
aumentando o número de repetições.
Continuação da situação experimental anterior, porém com tempos de estocagem de
12, 24, 36.
O sêmen é estocado em uma temperatura constante e quando é descongelado, há
um tempo do retorno à condição de utilização. Sêmen eqüino em três tempos de
estocagem (12, 24 e 36 hs) × velocidade de retorno (A, B).
O ejaculado de um animal é dividida em 3 amostras (A1, A2 e A3). As 3
amostras serão sorteadas para tempo de estocagem T12, T24 e T36. Cada uma
das amostras será dividida em 2 alíquotas, as quais serão sorteadas para as
velocidades de retorno (VA e VB). Esse procedimento é realizado em todas as
repetições do experimento (animais).
Resposta: porcentagem de defeitos no acrossoma.
Blocos: os animais são blocados
Repetições: 10 animais produzindo 60 alíquotas de sêmen

Delineamento em blocos casualizados e arranjo em parcelas


subdivididas com tempo de estocagem na parcela e velocidade de
retorno na subparcela
Totais das parcelas
Tempo de estocagem Totais 12 24 36
Vel. 12 24 36 sub A sub B Animais
Animal 1 20 25 35
Animal 1 A 8 10 16 34
80
B 12 15 19 46
Animal 2 9 19 29
Animal 2 A 3 7 11 21
57
B 6 12 18 36
Animal 3 25 30 43
Animal 3 A 10 13 20 43
98
B 15 17 23 55
Animal 4 10 16 30
Animal 4 A 4 6 13 23
56
B 6 10 17 33
Animal 5 23 30 43
Animal 5 A 9 12 19 40
96
B 14 18 24 56
Animal 6 16 21 33
Animal 6 A 5 6 11 22
70
B 11 15 22 48
Animal 7 17 28 38
Animal 7 A 7 10 15 32
83
B 10 18 23 51
Animal 8 14 25 36
Animal 8 A 5 9 13 27
75
B 9 16 23 48
Animal 9 30 36 50
Animal 9 A 13 14 21 48
116
B 17 22 29 68
Animal 10 13 21 29
Animal 10 A 4 8 9 21
63
B 9 13 20 42
TOTAIS 177 251 366 311 483 794

10 animais × 3 estocagens × 2 velocidades


10 × 3 × 2 = 60 observações ou U.E. (cada unidade é uma subparcela)

41
Quando se tem tempo 12 e velocidade A, dentro dessa parcela 12 e desse mesmo
nível do fator de subparcela (A), a variação entre 8, 3, 10, ...,13, 4) é a variação
individual entre subparcelas, ou erro b. A parcela é composta pelos valores das
subparcelas. Quando é observado o valor total da parcela do nível 12, esse é
formado pela soma de 10 parcelas (8+12=20; 3+6=9; ...; 13+17=30; 4+9=13),
a variação individual entre essas parcelas é denominada erro a, ou variação
atribuída à parcela.
tempo de estocagem = parcela à erro a = variação entre estocagens
velocidade = subparcela à erro b = variação entre
velocidades
⇒ 30 parcelas e 60 subparcelas

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl SQ QM
Total (parcelas) (30-1) 29 1.496,7333
Delineamento Animal (blocos) (10-1) 9 566,7333
Fator da parcela Tempo de estocagem (T) (3-1) 2 907,0333
Erro a à obtido por diferença 18 22,9667 1,2759

Total (subparcelas) (60-1) 59 2.076,7333


Fator da subparcela Velocidade (2-1) 1 493,0667
Interação T × V (2 × 1) 2 22,0333
Sub-blocos (30-1) (parcelas) 29 1.496,7333
Erro b (59-1-2-29) 27 64,8999 2,4037

* erro a à [efeitos de animal e tempo]


erro b à [efeitos de animal, tempo e velocidade]
Se o delineamento fosse inteiramente casualizado, não haveria controle de fonte
de variação pela formação de blocos (animal). Para encontrar a SQerro a, é
calculado o SQtotal das parcelas – SQanimal – Sqtempo. O SQerro b é
calculado pela SQtotal de subparcelas – SQde todas as fontes de variação à
SQtotal de subparcelas – SQvelocidade – SQinteração – SQsub-blocos. Não é
necessário colocar sub-blocos no quadro, mas é bom colocar para não esquecer
de subtrair seu valor para o cálculo do erro b.
Sub-bloco pode ser entendido como divisão das subparcelas. Para velocidade,
que é o fator que está sendo dividido dentro do outro fator, tempo de estocagem
comporta-se como um bloco. Há 2 velocidades, A e B, sendo que as duas
passam pelo fator tempo de estocagem, da mesma forma em que os blocos no
delineamento.
Nesse experiento há o fatorial 3 × 2 = 6 tratamentos. Os gl de tratamento são 5,
desdobrados em velocidade (1), tempo de estocagem (2) e interação (2).

SQ parcelas (total) à denominador = 2 ⇒ duas repetições por parcela

SQ parcelas =
( 20 )2 + (25 )2 ... + (29 )2 (794 )2
− = 1.496,7333
2 60
Total de subparcelas na parcela

42
SQ animal

SQanimal =
(80 )2 + (57 )2 + ... + (63 )2 (794 )2
− = 566,7333
6 60
Total de repetições por animal
SQ tempo

SQtempo =
(177 ) + (251) + (366) (794)
2 2 2

2
= 907,0333
20 60
Total de repetições por tempo de estocagem

O total para cada tempo é calculado a partir de 20 observações (10 animais × 2


velocidades).

SQ erroa

SQea = 1.496,7333 – 566,7333 – 907,0333 = 22,9667

22,9667
⇒ QMe a = = 1,2759
18

SQ subparcelas à denominador = 1 ⇒ uma repetição por subparcela

SQsubparcelas = (8) + (12 ) + ... + (20) −


2 2 2 (794 )2 = 2.076,7333
60
1
Total de repetições por subparcela

SQ velocidade

SQvelocidade =
V A2 VB2
+ − FC =
(311) + (483) − FC = 493,0667
2 2

30 30 30
Total de repetições por velocidade

SQ interação

SQ (v × t) = SQtrat – SQt – SQvel

SQ tratamento (necessário para calcular a SQinteração)

A interação é um fator que envolve a parcela e a subparcela, e será


estudada na subparcela. A SQtratamento = SQtempo + SQvelocidade +
SQinteração. Tempo de estocagem foi colocada na primeira parte do
quadro da ANOVA porque é parcela. A velocidade é subparcela,
colocada na segunda parte do quadro, pois está dentro da parcela.
Conforme um critério de ordem de apresentação dos dados, a interação,
que é a combinação dos fatores, é apresentada após a apresentação dos
fatores isolados (fatores principais). Nessa situação, calcular somente o
SQtratamento não é indicado, pois haveria perda de informação no
sentido em que se deseja saber os efeitos dos fatores e suas combinações.

43
Tratamentos à fatorial 2 × 3 = 6
T12A = 68 T24A = 95 T36A = 148
T12B = 109 T24B = 156 T36B = 218

SQtratamento =
(68)2 + (109 )2 + ... + (218)2 − FC = 1.422,1333
10
Total de repetições por tratamento

SQ (v × t) = SQtratamento – SQtempo – SQvelocidade

⇒ SQ (v × t) = 1.422,1333 – 907,0333 – 493,0667 = 22,0333

SQ errob

SQeb = 2.076,7333 – 493,0667 – 22,0333 – 1.496,7333 = 64,8999

64,8999
⇒ QMe a = = 2,4037
27

Continuação: parcela subdividida

Comparação de médias
Tempos Média
Velocidades 12 24 36 velocides
A 6,8 9,5 14,8 10,37
B 10,9 15,6 21,8 16,10
Média tempos 8,85 12,55 18,30

QM para erros:
QMea = 1,2759 (com 18 gl)
QMeb = 2,4037 (com 27 gl)

O erro b é o erro que envolve todas as subparcelas, ou seja, todas as unidades


experimentais. É o erro do experimento para o cálculo do CV.

CV:
QM errob
CV = × 100 à média geral: X = G = 794 = 13,23
X 60 60

2,4037
CV = × 100 = 11,72%
13,23

44
dms
parcela à tempo de estocagem
subparcela à velocidade de retorno

1a.comparação:
S/P
níveis da subparcela / fixando a parcela

VA – VB / 12 à comparam-se as velocidades A e B para tempo 12


VA – VB / 24 à comparam-se as velocidades A e B para tempo 24
VA – VB / 36 à comparam-se as velocidades A e B para tempo 36

à Quando compara subparcelas dentro de uma parcela (a parcela é fixa portanto


há erro de parcela) devo usar o QMe b (que é o erro da subparcela) ⇒ não há
variação causada por parcela

2a.comparação: P/S

níveis de parcela / fixando a subparcela

12 – 24 – 36 / vel A à comparam-se os tempos 12, 24 e 36 para


velocidade A
12 – 24 – 36 / vel B à comparam-se os tempos 12, 24 e 36 para
velocidade B

à Quando comparo parcelas dentro de uma subparcela, tenho o fator parcela +


o fator subparcela (variação de parcela e subparcela) ⇒ devo combinar o
erro a e o erro b com média aritmética ponderada.

1. S/P

dms para subparcela/parcelas


2QMeb
dms = tα ,glerrob × ⇒ r à número de repetições para
r
calcular as médias

2. P/S

dms para parcela/subparcelas


2QMe ponderado
dms = t ponderado×
r

45
QMea + (b − 1)QMeb
QMe ponderado = ⇒ b = número de
b
níveis do fator da
subparcela

ta × QMea + tb × (b − 1) × QMeb
t ponderado = ⇒ ta à t 5%, gl erro a
QMea + (b − 1) × QMeb
⇒ tb à t 5%, gl erro b
1. S/P

dms para velocidade/tempo de estocagem


2 × 2,4037
dms = tα ,27 × = 1,42
10

P/S
2.
dms para tempo/velocidade

1,2729 + (2 − 1) × 2, 4037
QMe ponderado = = 1,8398
2
2,101 × 1,2729 + 2, 052 × (2 − 1) × 2, 4037
t ponderado = = 2,0690
1, 2729 + (2 − 1)× 2,4037

2 × 1,8398
dms = 2,0690 × = 1,26
10
Comparação de médias
Tempos Média
Velocidades 12 24 36 velocidades
A 6,8 a A 9,5 b A 14,8 c A 10,37
B 10,9 a B 15,6 b B 21,8 c B 16,10
Média tempos 8,85 12,55 18,30

à Em qualquer tempo, a velocidade A é melhor que a velocidade B


à A porcentagem de defeitos aumenta com o tempo, tanto na
velocidade A como na B.

⇒ RECOMENDAÇÃO: velocidade A, tempo 12

à Como o comportamento é o mesmo dentro da velocidade e dentro do tempo

Linhas = igual à todas na seqüência abc não há


Colunas = igual à sempre na ordem AB interação

46
Comparação relatadas através das médias, nas margens da tabela
Tempos Média
Velocidades 12 24 36 velocidades
A 10,37 A
B 16,10 B
Média tempos 8,85 a 12,55 b 18,30 c

Vel A

Vel B

Reta vel A abaixo de vel B, pois apresenta menor % de defeito.

47
ASSOCIAÇÃO DE VARIÁVEIS QUANTITATIVAS
• Correlação de Pearson
• Regressão linear

Correlação à medida de associação entre variáveis (respostas) não dependentes


Regressão linear à condição de dependência entre variáveis

Correlação
A correlação de Pearson mede a associação entre respostas independentes (variáveis
quantitativas). Para que a correlação seja utilizada, é pré-requisito que haja variação em
ambas as respostas. Se não houver variação em uma das respostas, a correlação será não
significativa.

Coeficiente de correlação de Pearson (r(x,y)), mede a “intensidade”da variância entre


duas variáveis x e y.

Para as análises de correlação e regressão linear, a “amplitude”do intervalo


das variáveis deve ser pequena.

(∑ x)(∑ y )
Soma de produtos
de X e Y
∑ xy − n ⇒ r(x, y) =
SPXY
r( x, y ) = SQ X × SQY
( x)2   ( y )2 
∑ x2 − ∑  ∑ y 2 − ∑ 

Numerador Numerador
 n   n  da S2X da S2Y

Após o cálculo do coeficiente, há necessidade de verificar a significância


estatística.

Exemplo:

Situação experimental: ganho de peso em novilhos em 5 meses


n = 12
Reprodutor Confinados (x) Campo (y) x ×y x2 y2
1 73 64 4.672 5.329 4.096
1 71 62 4.402 5.041 3.844
1 72 66 4.752 5.184 4.356
2 64 55 3.520 4.096 3.025
2 65 59 3.835 4.225 3.481
2 66 65 4.290 4.356 4.225
2 70 65 4.550 4.900 4.225
3 71 69 4.899 5.041 4.761
3 68 64 4.352 4.624 4.096
3 70 65 4.550 4.900 4.225
3 67 63 4.221 4.489 3.969
66 62 4.092 4.356 3.844
Total 823 759 52.135 56.541 48.147

48
Sx = 823 Sy = 759 Sxy = 52.135
Sx 2 = 56.541 Sy2 = 48.147

O ganho de peso nos confinados não interfere no ganho de peso do campo e


vice-versa. Entretanto, o ganho de peso de confinados se correlaciona com o
ganho em campo?

Aplicando-se a fórmula:

823 × 759
52.135 −
r(x, y) = 12
 823  
2
759 2 
 − −
12   12 
56 .541 48. 147

r(x, y ) = 0,688 à para 10 gl (12 – 2)

⇒ r(x,y) = 68,8%

Na tabela (Tabela A-4), o coeficiente para 10 gl é 0,58. como o r calculado


(0,688) é maior que o r tabelado (0,58), a corrrelação é significativa (p < 0,05).
A correlação encontrada é positiva.

Intervalo de confiança para o Coeficiente de Correlação

Os limites do intervalo de confiança devem abranger 95% dos resultados de estudos de


duas populações independentes e correlacionadas.
Quando - 0,70 < r < 0,70, os valores de r podem estar distribuídos livremente entre –1 e
+ 1 seguindo uma distribuição próxima à normal. Quando r está próximo dos limites de
–1 ou +1, a distribuição se dá de forma assimétrica. Para compensar essa alteração na
forma da distribuição, Fisher propôs uma transformação matemática da curva
assimétrica para uma curva aproximadamente normal (Z).

 (1 + r )
IC (x,y) Z = 1 log e  
2  (1 − r )

Aplicando a fórmula aos dados do exemplo:

 (1 + 0,688 ) log e (5,410 ) 1,688 ⇒ no MS Excel à


Z = 1 log e  = = = 0,844
2  (1 − 0,688 ) 2 2
“=LN(5,410)”

assim, para um r = 0,688, temos Z = 0,844

O desvio padrão em termos de Z:

1
SZ =
n −3

49
1 1
SZ = = SZ = desvio Z = 0,33
12 − 3 9

O intervalo será:

IC = X ± 1,96 × S Z

0,844 ± 1,96 × 0,33 Z1 = 0,191

Z2 = 1,497

Com os valores máximo e mínimo do Z referente ao r, calculamos o ICr(x,y)

Valores tabelados (Tabela A-5):


Z1 (0,191) = 0,187 à r1 = 18,7%
Z2 (1,497) = 0,904 à r2 = 90,4%

Logo, o r(x,y) = 68,8% (18,7% a 90,4%)

0,191 1 1,497
Z

r
0,187 0,688 0,904

Exercício

Altura de filhos:
meninos (x) meninas (y) x ×y x2 y2
1 71 69 4.899 5.041 4.761
2 68 64 4.352 4.624 4.096
3 66 65 4.290 4.356 4.225
4 67 63 4.221 4.489 3.969
5 70 65 4.550 4.900 4.225
6 71 62 4.402 5.041 3.844
7 70 65 4.550 4.900 4.225
8 73 64 4.672 5.329 4.096
9 72 66 4.752 5.184 4.356
10 65 59 3.835 4.225 3.481
11 66 62 4.092 4.356 3.844
Total 759 704 48.615 52.445 45.122
( )2 576.081 495.616

Sx = 759 Sy = 704 Sxy = 48.615


Sx 2 = 52.445 Sy2 = 45.122 (Sx)2 = 576.081 (Sx)2 =
495.616

1. Calcular r(x,y)

50
2. Avaliar se há significância pelo valor tabelado

3. Calcular o IC (xy) e avaliar se há significância

759 × 704
48.615 − 48.615 − 48 .576 39 39
r(x, y) = 11 = = = = 0,55805
 576.081   495.616  74 × 66 4.884 69,8856
52.445 − 11   45 .122 − 11 

O valor tabelado de r para 9 gl (11–2) = 0,60 como o r calculado (55,8%) é


menor que o r tabelado (60%), a correlação não é significativa.

Cálculo do IC

 (1 + 0,558 ) 1  1,558  1
 = 2 log e (3,525 ) =
1,26
Z = 1 log e   = log e  = 0,629
2  (1 − 0,588 ) 2  0,442  2

assim, para um r = 0,55805, temos Z = 0,629

1 à 1 1 1
SZ = SZ = = = = 0,353 SZ = desvio Z = 0,33
n −3 11 − 3 8 2,83

O intervalo de 95% será:

IC = Z ± 1,96 × S Z à 0,629 ± 1,96 × 0,353 à 0,629 ± 0,692

Os valores tabelados (Tabela A-5) de r em termos de Z:

Z1 = - 0,063 ⇒ r1 = -0,063
Z2 = + 1,321 ⇒ r2 = +0,86
Aula 18 – 15/05
Após o estudo de delineamentos, estudamos estudos de associação de variáveis
qualitativas. Nos delineamentos os estudos de associação são para resposta
qualitativa em relação a tratamentos, para as quais pode ser feita contagem
(binomial ou multinomial). Pode ser feiro estudo de associação com grupos
experimentais com variável qualitativa (freqüência de prenhez resultante de
determinado tratamento). Para respostas qualitativas dicotômicas (binomiais),
pode-se fazer a contagem de indivíduos positivos e negativos. A contagem de
freqüências também pode ser feita para variáveis qualitativas multinomiais
(categóricas ordinais). Os estudos de associação pode ser feito para comparar
tratamentos ou levantamentos, sendo que para esses últimos as exigências
amostrais são maiores.
O índice de afastamento do ?2 é um estudo para verificar se a distribuição da
freqüência entre dois grupos. Para o ?2 as respostas são qualitativas para o
estudo de dispersão de freqüências entre dois grupos. É um tópico da estatística
não-paramétrica.

51
Correlação linear simples (Pearson)
Quando deseja-se verificar a associação entre variáveis quantitativas, não
dependentes, com o objetivo de conhecer tendências de respostas, estudos de
associação podem ser feitos com variáveis quantitativas, sendo que as duas
variáveis são respostas e não uma ssociação entre tratamento e resposta. Nesse
caso é realizada a correlação de Pearson(r). A correlação verifica a associação
entre resposta avaliada e outra resposta. As variáveis são independentes, ou
seja, alterar uma variável não implica na resposta de alteração na outra.

Exemplo: estudo para aumento da produção de leite e contagem de células


somáticas, ou porcentagem de gordura. A correlação pode ser positiva ou
negativa.

r+ r-

A inclinação mostra se a correlação é positiva ou negativa. O ga sto com medicamento


aumenta à medida em que a idade aumenta à correlação positiva.
O valor é a magnitude da correlação entre 0 e 100%
Após obter o valor da correlação , deve ser feito o teste de significância da correlação,
que verifica se a correlação é igual a ZERO (H0 ) ou se é diferente de ZERO (H1 ).

Teste de significância:
H0 : correlação = 0
H1 : não H0

Uma correlação diferente de ZERO pode ser fraca, embora significativamente


diferente de ZERO. Portanto, a associação pode existir (significativamente
diferente de ZERO), e porém ser considerada fraca (abaixo de 75%).

Força de associação:
Acima de 75% é alta a correlação
Abaixo de 75% é fraca a associação

Há outros tipos de correlação: correlação múltipla, correlação não- linear

Análise de Regressão Linear Simples


Estudo de associação entre duas respostas, sendo que uma delas é a aplicação de
tratamento (independente) e a outra é o resultado (dependente). A regressão é o estudo
de associação com grupo experimental. O tratamento é sempre quantitativo, sendo
sua origem (tipo ou composição do tratamento) a mesma, e a variação ocorre em sua
quantidade. Em relação à comparação de médias (delineamentos) a composição dos
tratamentos pode ser variável (gema, coco, etc...). Na análise de regressão, a

52
composição das variáveis é a mesma, o que muda é a quantidade (dose, concentração,
peso, etc). É um estudo em que uma variável varia em função da outra. Uma variável
pode ser determinada em função da outra, com relação de causa e efeito. A análise de
regressão pode ser realizada em todos os delineamentos, em tratamentos simples ou
quando há combinação de fatores.

Exemplo:
Tratamento àNíveis de fibra na dieta (7, 9, 11, e 13%) ⇒ variável
independente
Resposta à Ganho de peso do animal ⇒ variável dependente

O ganho de peso depende do nível de fibras, mas o nível de fibras não depende
do ganho de peso.

Modelo de regressão linear simples (Y é função de X)

a
Y = a + bX

⇒ Y à estimativa da variável dependente


⇒ a à coeficiente linear (intercepto) à a é o valor
populacional
⇒ b à coeficiente de regressão amostral ou inclinação à ß é o valor
populacional
⇒ X à variável independente

Os pressupostos são os mesmos da ANOVA


• Distribuição normal dos erros
• Variâncias homogêneas

Critérios de escolha para a análise de regressão


• Explicação biológica
• Significância de ß

A análise de regressão apresenta uma estrutura de delineamento. Devem ser estimados o


a (intercepto) e o b (coeficiente de regressão amostral). O a é o valor de Y quando X =
0, enquanto b é a inclinação da reta da regressão, que aumenta quando a relação entre X

53
e Y é maior. O a, muitas vezes não tem valor biológico, mas o mais importante na
regressão é saber a taxa de variação de Y em relação a b.
A cada uma unidade da variável independente (X), b é a quantidade de unidades que
varia na variável dependente (Y). A grande vantagem da regressão é poder estimar
qualquer valor para Y, dentro do intervalo, a partir de valores de X. A extrapolação, ou
inferência de valores fora do intervalo estudados, deve ser vista com cautela, desde que
haja respaldo teórico sobre o comportamento das variáveis e até mesmo evitada, pois a
função linear pode não se manter constante para valores de X fora do intervalo. O
melhor é fazer um planejamento adequado para evitar extrapolação.
Após a regressão deve-se verificar se b (inclinação) é significativamente diferente de
zero ou se ela afasta de zero aleatoriamente. Esta verificação é realizada através de uma
dms. A inclinação zero (horizontal) significa que não há associação. Os níveis de
tratamento devem ter pelo menos 4 pontos diferentes, pois um dos pontos é perdido nos
graus de liberdade. Se há apenas 3 níveis de variação, a associação será sempre linear
com 2 pontos e portanto, nesse caso, há estatísticos que recomendam o teste de médias
em vez da regressão.
Se for o caso de verificar se três coeficientes de regressão são iguais, deve ser feito o
teste t entre eles.

Julgamentos para verificar se o modelo (linear, quadrático) vai ou não ser


utilizado
• Significado biológico
• Significância do coeficiente de regressão (deve ser estatisticamente
significativo, ou diferente de ZERO)
• Coeficiente de determinação (R2 ) (quanto mais próximo de 100%, melhor o
poder de previsão)
• Se há dois ou três modelos que empataram, com R2 muito próximos, é eleito
o modelo mais simples.

Exemplo: situação experimental (exemplo anterior)

Tratamentos: 4 níveis de fibra, na dieta, que serão oferecidas a coelhos


repetições: 5 (n= 20)
resposta: ganho de peso em kg

A condução será realizada numa estrutura de delineamento inteiramente


casualizado.

54
Se fosse feito o quadro da ANOVA:

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl gl
Total 19 19
1 Estudo da regressão linear
Fibra (tratamento) 3 2 Desvios da regresão (falta de
ajuste)
Erro 16 16

Como a fibra é variável quantitativa, os 3gl do tratamento devem ser


desdobrados: parte para regressão, e outra para desvios (erro) da regressão.
Na regressão linear somente um coeficente ß é estimado, atribuindo emtão 1 gl
para o estudo da regressão linear e o restante dos tratamentos será designado
para os desvios da regressão. Se o modelo fosse quadrático, a equação seria
Y=a+bX+cX2 para estimar 2 coeficientes, atribuindo assim 2 gl para a
regressão.
O exeperimento seria exeqüível em relação aos graus de liberdade.

Se os resultados sugerirem uma relação linear, a participação dos desvios da


regressão será pequena em relação à SQ da ANOVA. Se o valor da SQdesvios for
alto, provavelmente o modelo não será linear. Outro modelos deverá ser testado.
Um gráfico de dispersão XY deverá sugerir o tipo de relação existente.

A reta da regressão é dada por Y = a + bX e representa todos os valores


potenciais de Y para cada valor possível de X dentro do intervalo estudado. Os
pontos da variável dependente (Y) observados no experimento para cada valor de
X estão dispersos em torno de cada ponto de Y sobre a reta. A distância entre
esses pontos observados e Y são o erro da estimativa (ei = YOBSERVADOi – Yi). Se
a reta estiver centrada em cada grupo de pontos (referentes a cada nível de X),
haverá erros positivos e negativos. A soma desses erros será ZERO, a não ser
que os erros sejam elevados ao quadrado, ou seja: a soma dos quadrados dos
erros (Sei2 ). O critério matemático para determinar a melhor reta possível
(estimar os valores de a e de b) é aquele que resultará no menor valor para a
soma dos quadrados dos erros: o método dos mínimos quadrados.

ei = Y OBSERVADOi – Yi e1
Desvios de cada
e2 ponto em relação
Sei =S(Y OBSERVADOi – Yi )= ZERO e3 à equação

Sei2 ? ZERO e4
Sei2 = S (Y OBSERVADOi – Yi)2
Sei2 = S [Y OBSERVADOi – (a + bXi)]2

⇒ método dos mínimos quadrados: derivar a expressão acima em relação às


incógnitas a e b separadamente e igualá- las a zero.

55
∂ ∑ e i2
a ,b

∑ X × ∑Y
∑ XY − n à SPXY àsoma de produtos X e Y
b=
(∑ X )2 SQ X àsoma de quadrados de X
∑X
2

n

• numerador: a soma de produto de XY mede a


associação entre as duas respostas, a
correlação. Soma de produto é a relação de
uma variável com a outra.

• denominador: a soma de quadrados de X,


∑ XX − ∑ ∑
X× X utilizada no cálculo da variância; a fórmula
n do denominador é um caso específico da
fórmula do numerador. Soma de quadrado a
relação da variável com ela mesma, que vai
gerar a variância.

a = y −bx para estimar o a, é necessário calcular


primeiro o valor de b

Assim, chega-se à equação: Y = a + bX à adotando os valores de a, e b


calculados conforme as
expressões acima.

Situação experimental:

5 bodes Saanem
à estudo do aumento de temperatura na bolsa escrotal após insulação com tecido de lã
por 5 dias. As avaliações, em várias respostas medidas no ejaculado, são realizadas a
partir de 7 dias.
Resposta: frutose medida em mg/100ml aos 7, 14, 21 e 28 dias.
Delineamento: blocos casualizados

CONCENTRAÇÃO DE FRUTOSE EM MG/100ML


AOS 7, 14, 21 E 28 DIAS
Bodes Tratamentos
Totais
(blocos) 7 14 21 28
1 531 430 278 175 1.414
2 502 390 318 160 1.370
3 562 450 330 230 1.572
4 525 404 350 190 1.469
5 498 370 270 200 1.338
Totais 2.618 2.044 1.546 955 7.163

56
Y = a + bX à estimar uma
Bodes X (dias) Y (frutose) XY X2 função nesse modelo
1 7 531 3.717 49
Y = variável dependente ⇒ frutose
2 7 502 3.514 49

3 7 562 3.934 49
X = variável independente ⇒ número de
4 7 525 3.675 49
dias
5 7 498 3.486 49 n = 20
1 14 430 6.020 196

∑ xy − ∑ n ∑
x× y
⇒ SPXY
2 14 390 5.460 196

b=
( x) SQ X
3 14 450 6.300 196

∑x − ∑
2
2
4 14 404 5.656 196

5 14 370 5.180 196


n
1 21 278 5.838 441
350 × 7.163
2 21 318 6.678 441 106.148 −
b= 20 = −15,68
3 21 330 6.930 441
7.350 −
(350 )
2

4 21 350 7.350 441 20


5 21 270 5.670 441
1 28 175 4.900 784
a = y −bx

− (− 15,68)×
7 .163 350
a=
2 28 160 4.480 784

3 28 230 6.440 784 20 20


4 28 190 5.320 784
a = 632,86
5 28 200 5.600 784

Total 350 7.163 106.148 7.350 Y = 632,86 – 15,68X


( )2 122.500

⇒ aos 7 dias à Y = 632,86 – 15,68 × 7 =


523,1
⇒ aos 8 dias à Y = 632,86 – 15,68 × 8 =
507,42

Aos 7 dias, a equação estima que Y = 523,1


⇒ O bode 1, aos 7 dias, apresenta um erro de 531- 523,1 = + 7,9
⇒ O bode 2, aos 7 dias, apresenta um erro de 502- 523,1 = - 21,1

Aos 8 dias, a equação estima que Y = 507,42


Para verificar se a diferença entre os dias é estatisticamente significativa, ela
pode ser verificada através da dms. Se, por exemplo, a dms for igual a 17,2, a
diferença de um dia (-15,68) não é estatisticamente significativa, mas a diferença
entre 2 dias (31,36) passa a ser significativa.

Aula 19 – 17/05
Continuação do exemplo dos bodes...
A equação da regressão foi obtida: Y = 632,86 – 15,68X. Deve ser verificado então se a
equação pode ser utilizada para explicar a quantidade de frutose em relação aos dias de
avaliação após a insulação da bolsa escrotal.
No quadro da ANOVA os gl e a SQ para tratamento são colocados entre parênteses
porque são desdobrados, indo uma parte para o coeficiente e o restante para os desvios
da regressão.
Os desvios da regressão (falta de ajuste) são a diferença entre o valor estimado e o
valor médio do grupo.

57
O erro experimental é a variação entre os indivíduos (variação individual), ou seja, as
repetições dentro do mesmo grupo de tratamento.
Se esse modelo é adequado para explicar a quantidade de frutose em relação aos dias de
avaliação, grande parte da SQ será atribuída à regressão. Se o modelo não for adequado,
uma pequena fração da SQ será atribuída à regressão e uma parte maior ficará para os
desvios da regressão.

Para a tomada da decisão sobre a adequação do modelo, são realizados 2 testes de


hipóteses:
• Testar a regressão linear (coeficiente)
o H0 ⇒ Coeficiente = 0
o H1 ⇒ não H0 significativa à para aceitar o modelo, rejeitar H0 e ficar
com H1
• Testar a falta de ajuste (desvios da regressão)
o H0 ⇒ Desvios = 0 não-significativa à para aceitar o modelo, aceitar H0
o H1 ⇒ não H0
Significa que grande parte da SQ está na regressão, portanto ela é significativa, ou seja,
o coeficiente é estatisticamente significativo diferente de ZERO. O que sobra na falta de
ajuste é não-significativo, ou seja, é uma contribuição irrelevante, pois é casual e não
tem efeito significativo.
Se o resultado para o teste da regressão for não-significativo, o modelo linear não serve.
Algumas vezes pode ocorrer que a regressão é significativa e a falta de ajuste também é
significativa. Isso porque há uma divisão equilibrada de SQ no tratamento de forma que
os dois testes dão resultados significativos. Isso significa que a regressão linear é
significativa, mas existe um outro modelo que não o linear que pode dar um resultado
ou poder de previsão melhor. Devem então ser testados outros modelos e aquele que
tiver o melhor resultado é o mais adequado. Quando os resultados de vários modelos
forem equivalentes, o mais adequado é o modelo mais simples.

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl SQ QM (SQ/gl) F
Total 19 315.558,55
Bode (blocos) 4 8.492,80
Tratamentos (a ser desdobrado) (3) (301.371,75)
Regressão linear (coeficiente 1 301.071,69 301.071,69 634,50*
angular)
Desvios da regressão (falta de ajuste) 2 300,06 150,03 0,32ns
Erro (variação individual) 12 5.694,00 474,5

Teste F: * (p < 0,05) e ns (p


> 0,05)

Soma de quadrados total à S (ue)2 - FC

(7.163)2
SQtotal = (531) + (430 ) + ... + (200 ) − = 315 .558,55
2 2 2

20

Soma de quadrados de blocos (bodes) à [S(total de cada bloco)2 / num. de unidades] -FC

58
(1.414 )2 + (1.370 )2 + ... + (1.338)2 (7.163)2
SQbodes = − = 8.492,80
4 20

Soma de quadrados de tratamentos à [S(total de cada tratamento)2 / num. de unidades] -FC

(2.618 )2 + (2.044 )2 + ...+ (955)2 (7.163)2


SQtratam = − = 301 .371,75
5 20

Como o tratamento é quantitativo, a SQtratamentos deve ser desdobrada. Foi feito o ajuste
para a equação de regressão. Será calculada a parcela da SQtratamentos que será atribuída à
regressão, sendo o restante referente aos desvios da regressão (falta de ajuste).

SQregr = ∑ Yˆi 2 −
(∑ Yˆ )i
2

 (∑ X )× (∑ Y ) 2

(SP( ) ) 2  ∑ XY − 
⇒ SQregr = XY
à  n 
SQregr =
SQ X (∑ X ) 2

∑X2 − n
ou

⇒ SQregr = b × SP( XY ) à

SQregr = b ×  ∑ XY −
(∑ X )× (∑ Y )

 n 

 350 × 7.163 
SQregr = −15,68 × 106 .148 −  = 301.071,69
(= 301.070,87)
 20
à na aula

É possível, antes mesmo de aplicar o teste, já definir que o modelo é bom, pois a
maior parte das SQ de tratamento está na regressão e somente uma pequena
fração restante será atribuída aos desvios.

Soma de quadrados de desvios

SQdesv = SQtrat – Sqregr

SQdesv = 301.371,75 – 301.071,69 = 300,06

Soma de quadrados de erro

SQerro = SQ total – SQ bode – SQ trat

SQerro = 315.558,55 – 8.492,80 – 301.371,75 = 5.694,00

Coeficiente de Variação

59
S 474, 5 à S2 = QMe = SQe/gl
CV = ×100 = × 100 = 6, 08%
X GERAL 358 ,15

Testes de hipóteses para significância da regressão e dos desvios


A equação de regressão Y = 632,86 – 15,58X deve ter sua variância testada. A análise de
variância da regressão é feita com o teste F de Fisher, que é baseado na divisão de
multivariâncias. No modelo fixo, a variância da fonte a ser testada (S2 da regressão) é
dividida pela variânc ia do erro (S2 dos desvios), resultando no valor de Fcaculado .
O valor da estatística do teste (Fcalculado ) deve ser comparado à distribuição de
probabilidade correspondente de Fisher, semelhante à de ?2 , porém com nível de
significância, gl da fonte testada (numerador) e gl do erro (denominador).

Há 2 testes a serem feitos

Significância da regressão (coeficiente angular da regressão)


H0 : ß = 0 REJEITAR H0
H1 : ß? 0

Significância dos desvios da regressão


H0 : desvios da regressão = 0 ACEITAR H0
H1 : não H0

Para que o modelo seja recomendado,


a regressão deve ser significativa, e os desvios não significativos.
Teste F (Fisher) (a raiz quadrada de F = t)

QM fonte_ testada
Fcal =
QM erro 5%, gl da fonte testada, e gl do erro

Teste para significância da regressão (deve ser significativo)


H0 : ß = 0
H1 : ß? 0

301. 070,87
Fcal = = 634 ,5 ⇒ Ftab (dms)= 5%; 1; 12 = 4,7472
474,5
à no MS Excel: “=INVF(0,05;1;12)”

O valore de Fcalculado (634,5) é altamente significativo, pois é muito


superior à diferença mínima. Na razão de variâncias, deveria superar
4,7472. O coeficiente da regressão (ß) é estatisticamente diferente de
ZERO.

60
Teste para significância dos desvios (deve ser não significativo)
O desvio da regressão deve ser não seignificativo, porque se for significativo
quer dizer que a soma de quadrados dos desvios é relevante e outros modelos de
regressão devem ser testados para verificar se algum outro modelo é capaz de
incorporar essa soma de quadrados de desvios nesse modelo.

H0 : desvios da regressão = 0
H1 : não H0

150 ,44
Fcal = = 0,32 ⇒ Ftab = 5%; 2; 12 = 3,88
474,5

O valore de Fcalculado (634,5) é não significativo, pois é inferior à


diferença mínima. A soma de quadrados (variação) do desvio, igual a
300,06, é estatisticamente igual a ZERO. Isso quer dizer que o modelo
apresenta um bom ajuste, pois o afastamento dos dados observados
em relação à função estimada é muito pequeno, considerado casual,
pois é estatisticamente igual a ZERO.

Resultado: Teste F: (para regressão) à (p < 0,05)


(para desvios) àns (p > 0,05)

Coeficiente de determinação (R2)


Há duas formas de calcular o coeficiente de determinação, que mede o poder de
previsão do modelo. O valor de R2 reflete o percentual dos dados que podem ser
explicados numa população através da equação de regressão. No seu cálculo, pode ser
considerada a variação total (SQtotal) que é composta pela variação do delineamento e
também inclui o erro. Nos casos em que a resposta é muito instável, o erro é elevado,
refletindo no cálculo de R2 . Nesse caso, a interpretação depende do CV.

SQregressã o
R2 =
SQtotal

301. 070,87
no exemplo à R2 = × 100 = 95,5%
315 .558,55

Quando o cálculo é baseado na soma de quadrado total, o julgamento deve ser


feito com o CV ( o CV é calculado sobre o SQtotal, que contém variação
individual junto com a variação da regressão). Se a variação individual
representa grande participação no SQtotal, vai influir reduzindo o valor de R2 .

Outra forma de calcular para situações de delineamento, mais comum, removendo a


instabilidade da resposta, pode ser avaliado diretamente, sem observar o CV.

SQregressã o
R2 = à R2 = r
SQtratamen tos

61
301 .070,87
no exemplo à R2 = × 100 = 99,9%
301 .371,75

Há também o R2 ajustado para graus de liberdade. Quando o número de gl é baixo,


deve ser usado o R2 ajustado.

Foram verificados: coeficiente angular (ß), desvios da regressão o R2 .


à agora deve ser verificado o IC
Intervalo de Confiança (pode ser feito com o teste F):

Para 1gl ⇒ t gl=1 = F

b ± t a, gl × S(b)

QMerro
b ± tα , gl ×
SQx

474,5
− 15,68 ± 2,179 × ⇒ -17,04 a -14,32 mg/100ml
1 .225
(redução)

Para interpretar a significância de b através do intervalo de confiança, conclui-se que


o IC não inclui o ZERO, portanto é significativo.

Outro exemplo de regressão:

pares de observações (diferente da situação anterior que tem grupo experimental). Pode
ser feita quando há uma observação dependente em relação a outra independente.

Peso ao nascer (x) e peso à desmama de 6 bezerros da raça guzerá (em kgs).
X Y XY X2 Y2
25,3 48,4 1.225 640 2.343
26,8 49,7 1.332 718 2.470
26,5 49,2 1.304 702 2.421
27,4 50,0 1.370 751 2.500
27,9 50,6 1.412 778 2.560
25,9 48,7 1.261 671 2.372
S 159,8 296,6 7.903,35 4.260,56 14.665
média

Sxy = 7.903,35 Sx2 = 4.260,76


Sx =159,8 Sy2 = 14.665,33
Sy =296,6 n=6

62
∑ xy − ∑ n ∑
x× y
b=
( x)
∑x − ∑
2
2

296,6 × 159,8
7.903,45 −
b= 6 = 0,8221kg
4.260,76 −
(159,8)2
6
a = y −bx
296 ,6 159,8
a= − 0,8221 ×
6 6
a = 27

Y = 27 + 0,8221X

QUADRO DE ANÁLISE DE VARIÂNCIA


Fonte de Variação gl SQ QM (SQ/gl) F
Total 5 3,4033
regressão 1 3,29 3,29 117,5*
Desvios da regressão 4 0,1133 0,028

Teste F. * (p < 0,05)


ns (p > 0,05)

SQtotal = 48,42 + ..+ 48,72 – (296,6)2 /6 = 3,4033

SQregr = SPxy = b × SP(xy) = 0,8221 × 4,0033 ⇒


SQx

Significância do coeficiente da regressão

H0 : ß = 0
H1 : ß? 0

QM
Fcal = fonte_ testada

QMdesv _ regr

3,29
Fcal = = 117 ,5
0,028

Coeficiente de determinação

SQregressã o
R2 =
SQtotal

3,29
R2 = × 100 = 96,7 %
3,40

63
Escolha de testes de hipóteses e tipos de erro

Estudo de testes estatísticos. Até agora, somente foi utilizado o teste t de Student, apesar de
não ser o mais adequado para todas as situações. Todo teste de hipóteses apresenta 2
hipóteses:
• H0 à X tratamento1 = X tratamento2
• H1 à não H0
O teste bilateral iniclui a diferença sendo uma maior ou menor que a outra. Quando o teste
de hipótese tem como H1 como: X tratamento1 > X tratamento2 ou X tratamento1 <
X tratamento2 ; o teste é denominado unilateral

Realidade
H0 verdadeira H1 falsa
Aceitar H0 Decisão correta Erro tipo II ou ß
Rejeitar H0 Erro tipo I ou a Decisão correta

ß a

ß a

Para diminuir os erros a e ß, ⇒ aumentar o tamanho amostral

Escolha do teste de hipótese à objetivo: reduzir erros tipo I e tipo II


Instabilidade (CV) à S2 grande à CV grande à instável ⇒ mais erro tipo II
Número de tratamentos à maior número de tratamentos à aumenta as distâncias
entre as médias do maior e do menor tratamento (extremos) exige ⇒ mais erro tipo
(?)

Quando é exigida uma grande dms para detctar diferenças significativas, é


necessário um teste mais rigoroso e conservador. (exige muito para rejeitar H0) à
Tuckey. O teste t considera diferenças pequenas como suficientes para determinar
diferenças.

64
Teste F de Fisher
• H0 à os tratamentos são iguais
• H1 à existe pelo menos um tratamento diferente dos demais

6 repetições × 2 tratamentos
Fontes de variação gl SQ QM Fcalculado No. 3 gl
Total 11 SQtotal 17
Tratamento 1 SQtratamento SQtrat QM trat 2
QM trat =
gltrat QM erro
erro 10 SQerro SQerro 15
QM erro =
glerro
Ftab(a, gl trat , gl erro)
t= F

Contraste = comparação
Y=1m1 – 1m2 ⇒ contraste Sci = zero
S ci = 1 – 1 = zero

3 tratamentos (m1, m2, m3)


Y 1=1m1 – 1m2 ⇒ S c1 = zero
Y 2=1m1 – 1m3 ⇒ S c2 = zero
Y 3=1m2 – 1m3 ⇒ S c3 = zero

Y 1=m1 – m2 – 0m3 Contrastes


Y 2=m1 + m2 - 2m3 ortogonais
S cij= +1 – 1 + 0 = zero

S ci . cj = zero

Teste t (Student)
m1 − m 2
tcal =
2QMe
r
⇒ Favorece erro tipo I ou a (aumenta erro tipo I, diminui erro
tipo II)
⇒ Pouco conservador
⇒ Uso: para respostas muito instáveis (CV > 30%); t = 4.

65
Teste Student Newman Keuls (SNK)
Devido à preocupação em reduzir a taxa de erro tipo I, foi proposto esse teste. No teste t, a
dms não considera as distâncias entre as médias à medida em que o número de tratamentos
aumenta. Quando há maior distância entre as médias, o teste SNK determina dms maior
para que seja mais exigente para determinar as diferenças.
1 1 2QMe
dms (SNK ) = qα nn '× V (Y ) = qα nn'× ×
2 2 r

QMe
dms (SNK ) = qα nn '× n à número de médias envolvidas na
r
comparação
n’ à gl de liberdade do erro
V(Y) = m1 – m2
S12 S 22 QMe QMe 2QMe
V (Y ) = + = + =
r r r r r
Exemplo
QMe
Trat1 dms 5 = q0, 05 5,12 ×
r
QMe
Trat2 dms 4 = q0 ,05 4,12 ×
r

Trat3 QMe
dms 3 = q 0, 05 3,12 ×
r
Trat4 QMe
dms 2 = q0 ,05 2,12 ×
r
Trat5

⇒ Favorece erro tipo II ou ß (aumenta erro tipo II, diminui erro


tipo I)

Teste de Tuckey
Preocupado com o trabalho de calcular várias dms, Tuckey passou a utilizar somente a dms
dos extremos, tornando o teste muito mais exigente, principalmente para as médias
adjacentes e mais próximas. A tabela de distribuição é a mesma de SNK.

QMe
dms (Tuckey ) = qα nn '×
r

n à número de tratamentos
n’ à gl do erro
⇒ Favorece erro tipo II ou ß (aumenta erro tipo II, diminui erro
tipo I)

⇒ Uso: CV < 15%

66
Teste de Duncan
O teste t exagera no erro tipo I, enquanto SNK e Tukey exageram no erro tipo II. Duncan
pegou o procedimento do SNK (várias dms) e usou uma distribuição de probabilidade
menos exigente. É mais rigoroso que teste t (controla mais o erro tipo I) e não erra tanto
no erro tipo II quanto o SNK e Tukey.

QMe
dms (Duncan ) = qα nn '×
r

n à número de médias envolvidas na comparação


n’ à gl do erro
⇒ Erra menos no erro tipo II ou ß eu Tukey e SNK(

⇒ Uso:

Comparação de médias, 2 a 2 em contrastes não ortogonais, do mais para o menos


rigoroso
⇒ Tukey – SNK – Dunnett – Duncan – t

Quadro de indicação de testes


Resultados Testes
CV t Tukey SNK Duncan t Scheffé
t>4 × × ×
CV < 15%
t=4 × ×
t>4 × ×
15% < CV < 30%
t=4 × ×
t>4 ×
CV > 30%
t=4 ×

Teste de Dunnett

Trat1 = controle
2.QMe
dms (Dunnett ) = D × à tabela A12
r
Trat2
n à gl do tratamento
n’ à gl do erro
Trat3

Trat4

Trat5

67
Teste de Scheffé

2.QMe
dms (Scheffé) = (t − 1).F .
r

Onde:
t = n° de tratamentos
F = F tabelado com n graus de liberdade do erro e n’ graus de liberdade da fonte testada
QMe = Quadrado Médio do erro na análise de variância
r = n° de repetições por tratamento

68

Você também pode gostar