Você está na página 1de 70

ndice

Pgina

I Introduo................................................................................................................. 1
1 Populao e amostra......................................................................................................... 2 2 Intervalo de confiana da mdia da populao ................................................................ 4 3 Comparao das mdias de duas amostras Teste t ........................................................ 6 4 Testes normalidade da distribuio e homogeneidade das varincias........................ 9 5 Teste t para amostras relacionadas (emparelhadas) ...................................................... 10 6 Testes a variveis no paramtricas Teste de ajustamento do Qui-Quadrado ............ 12 7 Teste de independncia (Pearson) do Qui-Quadrado. Tabelas de contingncia ............ 14

II Anlise de varincia .............................................................................................. 17


8 Delineamento experimental completamente casualizado. ............................................. 17 9 Anlise de varincia de 1 factor (One-way Anova) ....................................................... 17 10 Teste F .......................................................................................................................... 18 11 Teste de Duncan e testes de Tukey .............................................................................. 22 12 Delineamento experimental de blocos casualizados .................................................... 24 13 Estrutura factorial Anova de dois factores ................................................................ 27 14 Anova de trs factores Interaces de 1 e 2 ordem................................................. 32 15 Mtodo dos talhes subdivididos (Split-plot) .............................................................. 33

III Anlise de regresso ............................................................................................ 39


16 Regresso linear ........................................................................................................... 39 17 Regresso no linear..................................................................................................... 43 18 Transformaes matemticas dos resultados ............................................................... 46 19 Regresso mltipla ....................................................................................................... 48 20 - Modelos de regresso.................................................................................................... 51

IV Anlise multivariada............................................................................................ 57
21 Anlise factorial de componentes principais................................................................ 57 22 Anlise de clusters........................................................................................................ 62

Bibliografia .................................................................................................................. 69

I Introduo
1 Populao e amostra
A estatstica uma cincia que recorre a tcnicas quantitativas para avaliar e estudar as incertezas e os seus efeitos no planeamento e interpretao de experincias e de observaes de fenmenos da natureza e da sociedade. Estatstica descritiva. Captulo da estatstica em que se utiliza um conjunto de tcnicas analticas que tem por objectivo resumir os dados recolhidos numa dada investigao a relativamente poucos nmeros e grficos. Estatstica indutiva. Captulo da estatstica que tem como objectivo averiguar at que ponto se podem generalizar e validar os resultados encontrados numa amostra relativa a uma populao. (Inferncia estatstica). Biometria. Desenvolvimento e aplicao dos mtodos estatsticos ao delineamento, anlise e interpretao, das experincias de agricultura e biologia.

Populao

Amostra

Estatstica descritiva

Caracterstica da populao:

Estatstica indutiva

Caractersticas da amostra:

Estudo da amostra: - Tabelas; grficos; etc.

Amostra de uma populao com distribuio normal Uma populao com distribuio normal pode ser caracterizada pela mdia e pela varincia: N (, 2). A amostra, ao acaso, dessa populao pode-se caracterizar por N ( x , s2). Considerando uma amostra proveniente de uma populao com distribuio normal: Populao Amostra Mdia Desvio padro Varincia Erro padro Coeficiente de varincia Exerccio 1 Considerando N (15,4) calcular a probabilidade de x 11 Z 2 / n (/) *100

x
s s2 = ( x - x )2/(n-1) s/n (s/ x ) *100

(11-15) /2 -2

logo

P=0,5-0,4772=0,0228=2,28%

Tabela Padro da Distribuio Normal (z)

z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4

0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.2580 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.4990 0.4993 0.4995 0.4997

0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2611 0.2910 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4987 0.4991 0.4993 0.4995 0.4997

0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.4991 0.4994 0.4995 0.4997

0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2969 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.4991 0.4994 0.4996 0.4997

0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 0.4992 0.4994 0.4996 0.4997

0.05 0.0190 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3513 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4989 0.4992 0.4994 0.4996 0.4997

0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.4992 0.4994 0.4996 0.4997

0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.4992 0.4995 0.4996 0.4997

0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2517 0.2823 0.3106 0.3365 0.3529 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4990 0.4993 0.4995 0.4996 0.4997

0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.4990 0.4993 0.4995 0.4997 0.4998

2 Intervalo de confiana da mdia da populao


Exerccio 2 Considere a amostra de % de protena: 12,9 13,4 12,4 12,8 13 12,7 12.4 13,5 13,9 Calcule o intervalo de confiana de 95% para mdia da % de protena deste alimento. Inferncia estatstica: assume-se que os dados resultam de uma amostra ao acaso de uma populao com uma distribuio normal e com uma mdia e uma varincia 2 que so desconhecidas e utilizam-se os valores da mdia e da varincia da amostra para estimar os da populao.

x = 13

n=9

Graus de Liberdade (GL) = n-1 = 8


0,26 / 9 = 0,17

s2 = ( x - x )2/(n-1) = 0,26

Erro Padro (Se) = s/n =

Para GL = 8 e P0,05 ( tabela Student* t, para bi caudal) resulta t(8) = 2,306 I.C.(95%) = x t * Se = 13 2,306 * 0,17 = 13 0,392 12,61 a 13,39 Existe uma forte probabilidade da mdia da % da protena deste alimento se situar entre 12,6% e 13,4% Excel / Exerccio 2 Ferramentas - Anlise de dados - Estatstica descritiva - Nvel de confiana 95%

se no aparecer anlise de dados nas ferramentas v aos suplementos

* STUDENT Pseudnimo de William Gosset

SPSS / Exerccio 2 Anlise Estatstica descritiva - Explore Estatstica Intervalo de confiana 95%

Grfico Interactivo Barra do erro Intervalo de confiana 95%

Barra do erro Revela o IC 95%

3 Comparao das mdias de duas amostras Teste t


Exerccio 3 Considere as seguintes produes (t/ha) de uma experincia com duas variedades de couve: Variedade A: 22,9 19,8 24,4 27,9 23,1 25,7 28,2 25,6 26,2 28,7 31,5 37 Variedade B: 13,7 18,2 17,5 15,1 21,6 19,2 21,6 24,8 25,2 27,8 25,2 34 Hiptese nula XA N-(1, 12) H0: (1 - 2) = 0 ou H0: 1 = 2 XB N-(2, 22) XA e XB so independentes ento:

XA - XB tem uma mdia igual a x1 x2 e uma varincia igual a 12/n1+ 22/n2 A estimativa de 1 - 2 baseia-se em x1 x2 Hiptese nula, H0: 1 = 2 Varincia ponderada Hiptese alternativa, H1: 1 2 (aceite se P <0,05) Sp2 =

(n1 1) s1 + (n2 1) s2 n1 + n2 2

Valor de t

t=

x1 x 2 sp (
2

Diferena entre as mdias Erro padro para comparao entre as mdias GL = (12-1) + (12-1) = (24-2) = 22

1 1 + ) n1 n2 Sp2 = 26,58

x1 = 26,75

x2 =21,99

Teste t

t(22) = 2,26 implica P < 0,05 logo, h evidncia para rejeitar H0 e aceitar H1

Logo, existe evidncia para sugerir que a variedade A mais produtiva que a variedade B. Com um intervalo de confiana de 95% pode-se estimar que a variedade A ser mais produtiva entre 0,40 e 9,12 t/ha do que a variedade B.
x1 x2 t(22)

s p (1 / n1 + 1 / n2 )

(26,75-21,99) 2,074 * 2,1 = 4,76 4,36 = 0,40 e 9,12 O intervalo de confiana de 99% j conteria o zero, ou seja, o ponto em que x1 = x2 A diferena significativa mnima (LSD - Least Significant Difference) (P <0,05) entre as mdias das duas variedades igual ao erro padro multiplicado pelo valor de t para 22 graus de liberdade e o valor de P = 5%, isto , 2,1*2,074 = 4,36 t/ha. Assume-se a normalidade da distribuio. (Normalidade) Assume-se que as varincias das duas populaes so iguais. (Homogeneidade da varincia)
6

Excel / Exerccio 3 Ferramentas Analisar dados Teste T duas amostras com varincias iguais

SPSS / Exerccio 3 Anlise Comparar mdias Teste T para amostras independentes definir grupos

Tabela da distribuio de t (Student t table)


Mono caudal Bi caudal GL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.324920 0.288675 0.276671 0.270722 0.267181 0.264835 0.263167 0.261921 0.260955 0.260185 0.259556 0.259033 0.258591 0.258213 0.257885 0.257599 0.257347 0.257123 0.256923 0.256743 0.256580 0.256432 0.256297 0.256173 0.256060 0.255955 0.255858 0.255768 0.255684 0.255605 1.000000 0.816497 0.764892 0.740697 0.726687 0.717558 0.711142 0.706387 0.702722 0.699812 0.697445 0.695483 0.693829 0.692417 0.691197 0.690132 0.689195 0.688364 0.687621 0.686954 0.686352 0.685805 0.685306 0.684850 0.684430 0.684043 0.683685 0.683353 0.683044 0.682756 3.077684 1.885618 1.637744 1.533206 1.475884 1.439756 1.414924 1.396815 1.383029 1.372184 1.363430 1.356217 1.350171 1.345030 1.340606 1.336757 1.333379 1.330391 1.327728 1.325341 1.323188 1.321237 1.319460 1.317836 1.316345 1.314972 1.313703 1.312527 1.311434 1.310415 6.313752 2.919986 2.353363 2.131847 2.015048 1.943180 1.894579 1.859548 1.833113 1.812461 1.795885 1.782288 1.770933 1.761310 1.753050 1.745884 1.739607 1.734064 1.729133 1.724718 1.720743 1.717144 1.713872 1.710882 1.708141 1.705618 1.703288 1.701131 1.699127 1.697261 0.40 0,80 0.25 0,50 0.10 0,20 0.05 0,10

0.025 0,05 *

0.01 0,02

0.005 0,01
**

0.0005 0,001 ***

12.70620 31.82052 4.30265 3.18245 2.77645 2.57058 2.44691 2.36462 2.30600 2.26216 2.22814 2.20099 2.17881 2.16037 2.14479 2.13145 2.11991 2.10982 2.10092 2.09302 2.08596 2.07961 2.07387 2.06866 2.06390 2.05954 2.05553 2.05183 2.04841 2.04523 2.04227
6.96456 4.54070 3.74695 3.36493 3.14267 2.99795 2.89646 2.82144 2.76377 2.71808 2.68100 2.65031 2.62449 2.60248 2.58349 2.56693 2.55238 2.53948 2.52798 2.51765 2.50832 2.49987 2.49216 2.48511 2.47863 2.47266 2.46714 2.46202 2.45726

63.65674 636.6192 9.92484 5.84091 4.60409 4.03214 3.70743 3.49948 3.35539 3.24984 3.16927 3.10581 3.05454 3.01228 2.97684 2.94671 2.92078 2.89823 2.87844 2.86093 2.84534 2.83136 2.81876 2.80734 2.79694 2.78744 2.77871 2.77068 2.76326 2.75639 2.75000 31.5991 12.9240 8.6103 6.8688 5.9588 5.4079 5.0413 4.7809 4.5869 4.4370 4.3178 4.2208 4.1405 4.0728 4.0150 3.9651 3.9216 3.8834 3.8495 3.8193 3.7921 3.7676 3.7454 3.7251 3.7066 3.6896 3.6739 3.6594 3.6460

4 Testes normalidade da distribuio e homogeneidade das varincias


SPSS Teste normalidade da distribuio (testes de Kolmogorov-Smirnov-Lilliefors e de Shapiro-Wilk, para n <50). Anlise Estatstica descritiva Explore L.Dependente & L Factor Plots Normality plots with tests

Assimetria Desvio vertical

H0: existe normalidade n < 50

No se rejeita H0 porque P>0,05 Ver Boxplot / Stem and leaf

SPSS Teste homogeneidade das varincias (teste de Levene) Anlise Comparar mdias One-Way ANOVA Opes Teste homogeneidade

H0: existe homogeneidade

No se rejeita H0 porque P>0,05

Teste t

Teste t - aceita-se H1: x A xB porque P <0,05

5 Teste t para amostras relacionadas (emparelhadas)


Exemplos: estudos com gmeos; formao de pares de observaes, antes e depois de um tratamento; ou com um individuo tratado e outro no, emparelhados pela idade ou sexo. A hiptese nula diz que no h diferena entre os valores mdios para os membros de um par na populao, ou que a diferena entre as mdias da populao zero. Se a correlao entre os dois grupos pequena deve-se considerar as amostras independentes para aumentar o nmero de graus de liberdade.
Exerccio 4

Considere que os dados das variedades de couve A e B referidas no exerccio anterior estavam emparelhados porque cada par de dados era proveniente de um campo diferente. Neste teste a hiptese nula H0: (1 - 2) = 0 ou H0: 1 = 2 enunciada como: H0: D = 0 em que D representa a diferena entre os dois valores de cada par. D sD n
2

Valor de t

t (n-1) =

Mdia das diferenas ou diferena mdia Erro padro da diferena

t (11) =

4,75 = 4,24 15,105 12

logo, P <0,01

Verifica-se que a evidncia de que a variedade A mais produtiva do que a variedade B mais forte quando as amostras so tratadas como emparelhadas (P <0,01) do que quando as amostras foram tratadas como independentes (P <0,05) apesar da reduo de 22 para 11 no nmero de graus de liberdade. Com um intervalo de confiana de 95% pode-se estimar que a variedade A ser mais produtiva entre 2,29 e 7,22 t/ha do que a variedade B.
xD t(11)

s D / n logo, 4,75 2,2 * 1,122 = 2,29 e 7,22

A diferena significativa mnima (LSD) para comparao entre as mdias das duas variedades seria 2,2 * 1,122 = 2,47 t/ha

10

Excel / Exerccio 4 Ferramentas Analisar dados Teste T duas amostras emparelhadas para mdias

SPSS / Exerccio 4 Anlise Comparar mdias Teste T para amostras emparelhadas Seleccionar o par de variveis para a lista de variveis pares.

11

6 Testes a variveis no paramtricas Teste de ajustamento do Qui-Quadrado


Os dados das variveis podem ser discretos (ex. numero de folhas numa planta) ou contnuos (ex. produo) e neste caso so avaliadas por testes paramtricos como o teste t. No entanto, existem dados que podem ser distribudos por categorias como nas classificaes e que tm de ser analisados atravs de testes no paramtricos como o teste do Qui-Quadrado. Estes dados no obedecem distribuio normal. O teste de ajustamento (goodness of fit) do Qui-Quadrado ( 2 ) compara as frequncias dos valores observados com as frequncias dos valores esperados, das diferentes categorias de uma varivel aleatria. A hiptese nula afirma que os valores observados se ajustam aos valores esperados.
Exerccio 5 Teste a frequncias hipotticas

No transporte de tomate para a indstria utilizaram-se novas embalagens para verificar se o nmero de frutos que resistiam intactos ao transporte aumentava relativamente relao de trs tomates resistentes para cada tomate danificado, como era habitual. Numa amostra colhida ao acaso de 300 tomates verificaram-se que 85 foram danificados ficando 215 intactos. Testar a hiptese nula da relao entre frutos resistentes e frutos danificados ser 3:1. Clculo do Qui-Quadrado

2 =

(Observado Esperado) 2 Esperado Esperado 225 75 300 (O-E) -10 +10 0 (O-E)2 / E 0,44 1,33 1,77

Classe Resistente Danificado Total

Observado 215 85 300

2 = 1,77 (n.s.)

G.L. = n de classes -1 = 2-1 = 1

ou, (2-1) *(2-1) = 1*1 = 1

Como se verifica pela tabela do Qui-Quadrado no h evidncia para rejeitar a hiptese nula e aceitar que as novas embalagens sejam mais resistentes do que as anteriores.
Exerccio 6

Num teste ao sabor de mas assadas numa forma tradicional (T) ou num novo mtodo (N) foram entregues a cada participante trs maas, das quais, 2T e 1N, e solicitou-se que identificassem a maa que diferia das outras duas. Dos 60 participantes, 28 seleccionaram a maa correcta. Ser que este teste suporta a hiptese nula (H0) de que os dois grupos de maa so indistinguveis pelo sabor? Ou haver evidncia para aceitar a hiptese alternativa (H1). Classe T N Total Observado 32 28 60 Esperado 40 20 60 (O-E) -8 +8 0 (O-E)2 / E 1,6 3,2

2 = 4,8* Aceita-se H1

12

SPSS / Exerccio 5 Data Weight cases Frequency variable Anlise Testes no paramtricos chi-square Valores esperados

SPSS / Exerccio 6

13

7 Teste de independncia (Pearson) do Qui-Quadrado. Tabelas de contingncia


O teste de independncia do Qui-Quadrado (X2 de Pearson) permite averiguar se as variveis esto relacionadas. A hiptese nula afirma que as variveis so independentes. (O E ) 2 assumindo a independncia das variveis. E

Valor de 2 =

Utilizam-se tabelas de consistncia. Os valores esperados resultam do valor = (Total da linha * Total da coluna) / Total global
Exerccio 7

Para testar a hiptese que afirma que o aparecimento de lceras gstricas ou cancros do estmago independente do consumo de cerveja, vinho ou gua, analisaram-se 8766 indivduos, ao acaso, e obtiveram-se os seguintes resultados:

Tabela de contingncia 3X3 lcera Cerveja Vinho gua Total da coluna 983 679 134 1796 Cancro 383 416 84 883 Saudvel 2892 2625 570 6087 Total da linha 4258 3720 788 Total global 8766

Frequncias esperadas 872,4 428,9 2956,7 762,2 374,7 2583,1 161,4 79,4 547,2

Desvios (O-E) 110,6 -45,9 -64,7 -83,2 41,3 -27,4 4,6 41,9 22,8

(O-E)2 / E 14,02 4,91 9,08 4,65 4,55 0,27 1,42 0,68 0,95

40,53***

G.L. = (3-1)*(3-1) = 2*2 = 4 Aceita-se H1: Existe associao entre as doenas referidas e o tipo de bebidas consumidas.

14

SPSS / Exerccio 7 Data Weight cases Frequency variable Anlise Estatstica descritiva Crosstabs Statistics Chi-square (Cells Counts: observed, expected; Residuals: unstandardized)

15

Probabilidade acumulada (Tabela do X2) D. F. 0.005


1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 40 45 0.39E-4 0.0100 0.0717 0.207 0.412 0.676 0.989 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.5 11.2 11.8 12.5 13.1 13.8 14.5 15.1 15.8 16.5 17.2 20.7 24.3

0.010
0.00016 0.0201 0.115 0.297 0.554 0.872 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54 10.2 10.9 11.5 12.2 12.9 13.6 14.3 15.0 15.7 16.4 17.1 17.8 18.5 22.2 25.9

0.025
0.00098 0.0506 0.216 0.484 0.831 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.3 11.0 11.7 12.4 13.1 13.8 14.6 15.3 16.0 16.8 17.5 18.3 19.0 19.8 20.6 24.4 28.4

0.05
0.0039 0.103 0.352 0.711 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.1 10.9 11.6 12.3 13.1 13.8 14.6 15.4 16.2 16.9 17.7 18.5 19.3 20.1 20.9 21.7 22.5 26.5 30.6

0.10
0.0158 0.211 0.584 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.1 10.9 11.7 12.4 13.2 14.0 14.8 15.7 16.5 17.3 18.1 18.9 19.8 20.6 21.4 22.3 23.1 24.0 24.8 29.1 33.4

0.25 0.50 0.75


0.102 0.575 1.21 1.92 2.67 3.45 4.25 5.07 5.9 6.74 7.58 8.44 9.3 10.2 11.0 11.9 12.8 13.7 14.6 15.5 16.3 17.2 18.1 19.0 19.9 20.8 21.7 22.7 23.6 24.5 25.4 26.3 27.2 28.1 29.1 33.7 38.3 0.455 1.39 2.37 3.36 4.35 5.35 6.35 7.34 8.34 9.34 10.3 11.3 12.3 13.3 14.3 15.3 16.3 17.3 18.3 19.3 20.3 21.3 22.3 23.3 24.3 25.3 26.3 27.3 28.3 29.3 30.3 31.3 32.3 33.3 34.3 39.3 44.3 1.32 2.77 4.11 5.39 6.63 7.84 9.04 10.2 11.4 12.5 13.7 14.8 16.0 17.1 18.2 19.4 20.5 21.6 22.7 23.8 24.9 26.0 27.1 28.2 29.3 30.4 31.5 32.6 33.7 34.8 35.9 37.0 38.1 39.1 40.2 45.6 51.0

0.95
3.84 5.99 7.81 9.49 11.1 12.6 14.1 15.5 16.9 18.3 19.7 21.0 22.4 23.7 25.0 26.3 27.6 28.9 30.1 31.4 32.7 33.9 35.2 36.4 37.7 38.9 40.1 41.3 42.6 43.8 45.0 46.2 47.4 48.6 49.8 55.8 61.7

0.99 0.995
6.63 9.21 11.3 13.3 15.1 16.8 18.5 20.1 21.7 23.2 24.7 26.2 27.7 29.1 30.6 32.0 33.4 34.8 36.2 37.6 38.9 40.3 41.6 43.0 44.3 45.6 47.0 48.3 49.6 50.9 52.2 53.5 54.8 56.1 57.3 63.7 70.0 7.88 10.6 12.8 14.9 16.7 18.5 20.3 22.0 23.6 25.2 26.8 28.3 29.8 31.3 32.8 34.3 35.7 37.2 38.6 40.0 41.4 42.8 44.2 45.6 46.9 48.3 49.6 51.0 52.3 53.7 55.0 56.3 57.6 59.0 60.3 66.8 73.2

16

II Anlise de varincia
8 Delineamento experimental completamente casualizado.
A colocao aleatria (ao acaso) dos tratamentos nos talhes experimentais e a repetio dos tratamentos so requisitos para uma boa experincia. A casualizao dos tratamentos aumenta a preciso porque diminui o erro padro para comparao entre as respectivas mdias. No delineamento experimental completamente casualizado (completely randomized design) os talhes so distribudos para cada repetio de cada tratamento completamente ao acaso.

9 Anlise de varincia de 1 factor (One-way Anova)


ANOVA Anlise de varincia Origem da variao GL (df) Entre tratamentos Residual (do erro, ou dentro dos tratamentos)
Variao total
t = n de tratamentos Exerccio 8 ss soma dos quadrados ms = ss/df = mdia dos quadrados

t-1

[(x1 )]2 + ... + [(xt )]2 (x )2


r tr
2 2 [ (x1 )] + ... + [( xt )] (x ) 2

t(r-1)

sp2

tr-1

2 ( x ) )

r = n de repeties

n n = tr = n de talhes

Numa experincia para comparar 4 variedades de melo utilizaram-se 6 talhes (6 repeties) para cada variedade. Os tratamentos localizaram-se, aleatoriamente, nos 24 talhes. Pretendese testar se as produtividades das 4 variedades so iguais, e caso sejam diferentes avaliar essas diferenas, assumindo que os dados provm de populaes com distribuies normais e com varincias idnticas. Os resultados da produo (t/ha) foram os seguintes: Variedade A 25,12 17,25 26,42 16,08 22,15 15,92 B 40,25 35,25 31,98 36,52 43,32 37,1 C 18,3 22,6 25,9 15,05 11,42 23,68 D 28,05 28,55 23,20 31,68 30,32 37,58 179,38 (643,69) 5475,33 (19010,77) 29,90 22,49 22,49) / 4 = 22,76 (Total)

Produo

(x 2 ) x s2 Sp2

122,94 224,42 116,95 2629,23 8472,09 2434,12 20,49 37,4 19,49 22,04 15,61 30,91 = (22,04 + 15,61 + 30,91 +

17

Soma dos quadrados Variao total = 19010,77 - (643,69)2/24 = 1746,74 Variao entre tratamentos = [ (122,942 ++ 179,382) ]/6 (643,69)2/24 = 1291,48 Variao residual = 1746,74 - 1291,48 = 455,26 ANOVA Origem da variao Entre tratamentos Residual Variao total

gl

ss

ms

4 1 = 03 4 (6-1) = 20 24 - 1 = 23

1291,48 455,26 1746,74

430,49 22,76

Erro padro da mdia para cada variedade =

s2 = n

22,76 = 1,95 6

Erro padro para comparao entre mdias =

1 1 s2 n + n = 2 1

2s 2 = 6

22,76 = 2,75 3

10 Teste F
Para um teste global sobre se as variedades deram produtividades iguais pode-se calcular o valor de F pelo quociente entre a mdia quadrtica dos tratamentos e a mdia quadrtica do erro (varincia do erro). O valor de F obtido pode ser testado recorrendo tabela F para o nmero de graus de liberdade dos tratamentos (horizontal) e os graus de liberdade do erro (vertical). H0: 1= 2= 3= 4 Tabela F H1: As mdias no so iguais logo, P<0,001

F(3,20) = 430,49 / 22,76 = 18,9 ***

Existe forte evidncia para aceitar que existem diferenas de produtividade entre as variedades testadas. Tabela das mdias Variedade Produtividade (t/ha) A 20,5 B 37,4 C 19,5 D 29,9

Erro padro para comparao entre duas mdias = 2,75 t/ha LSD = 2,09 * 2,75 = 5,75 t/ha Evidncia sobre as mdias de produtividade: A=C < D < B 18

Tabela F Ponto P=0,05 1 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60


7.71 6.61 5.99 5.59 5.32 5.12 4.96 4.84 4.75 4.54 4.35 4.17 4.08 4.03 4.00

10

11

12

15

20

30

40

50

10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 8.70 8.66 8.62 8.59 8.58 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 5.91 5.86 5.80 5.75 5.72 5.70 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 4.74 4.70 4.68 4.62 4.56 4.50 4.46 4.44 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 3.94 3.87 3.81 3.77 3.75 4.74 4.35 4.12 3.97 3.87 3.79 3.73 3.68 3.64 3.60 3.57 3.51 3.44 3.38 3.34 3.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 3.35 3.31 3.28 3.22 3.15 3.08 3.04 3.02 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 3.14 3.10 3.07 3.01 2.94 2.86 2.83 2.80 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 2.98 2.94 2.91 2.85 2.77 2.70 2.66 2.64 3.98 3.59 3.36 3.20 3.09 3.01 2.95 2.90 2.85 2.82 2.79 2.72 2.65 2.57 2.53 2.51 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 2.75 2.72 2.69 2.62 2.54 2.47 2.43 2.40 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.51 2.48 2.40 2.33 2.25 2.20 2.18 3.49 3.10 2.87 2.71 2.60 2.51 2.45 2.39 2.35 2.31 2.28 2.20 2.12 2.04 1.99 1.97 3.32 2.92 2.69 2.53 2.42 2.33 2.27 2.21 2.16 2.13 2.09 2.01 1.93 1.84 1.79 1.76 3.23 2.84 2.61 2.45 2.34 2.25 2.18 2.12 2.08 2.04 2.00 1.92 1.84 1.74 1.69 1.66 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 2.03 1.99 1.95 1.87 1.78 1.69 1.63 1.60 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 1.99 1.95 1.92 1.84 1.75 1.65 1.59 1.56

~ Tabela F Ponto P=0,01 1 3 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60 2 3 4 5 6 7 8 9 10 12 15 20 30 40 50

34.12 30.82 29.46 28.71 28.24 27.91 27.67 27.49 27.35 27.23 27.05 26.87 26.69 26.50 26.41 26.35 21.20 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 14.55 14.37 14.20 14.02 13.84 13.75 13.69 16.26 13.27 12.06 11.39 10.97 10.67 10.46 10.29 10.16 10.05 9.89 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 7.72 9.72 7.56 9.55 7.40 9.38 7.23 9.29 7.14 9.24 7.09

12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 6.62 6.47 6.31 6.16 5.99 5.91 5.86 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 5.81 5.67 5.52 5.36 5.20 5.12 5.07 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 5.26 5.11 4.96 4.81 4.65 4.57 4.52 10.04 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.71 4.56 4.41 4.25 4.17 4.12

9.65 7.21 6.22 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.40 4.25 4.10 3.94 3.86 3.81 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.16 4.01 3.86 3.70 3.62 3.57 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 3.67 3.52 3.37 3.21 3.13 3.08 8.10 5.85 4.94 4.43 4.10 3.87 3.70 3.56 3.46 3.37 3.23 3.09 2.94 2.78 2.69 2.64 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.84 2.70 2.55 2.39 2.30 2.25 7.31 5.18 4.31 3.83 3.51 3.29 3.12 2.99 2.89 2.80 2.66 2.52 2.37 2.20 2.11 2.06 7.17 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.79 2.70 2.56 2.42 2.27 2.10 2.01 1.95 7.08 4.98 4.13 3.65 3.34 3.12 2.95 2.82 2.72 2.63 2.50 2.35 2.20 2.03 1.94 1.88

19

Tabela F Ponto P=0,001 1 4 5 6 7 8 9 10 11 12 15 20 30 40 50 60


74.14 47.18 35.51 29.25 25.42 22.86 21.04 19.69 18.64 16.59 14.82 13.29 12.61 12.22 11.97

2
61.25 37.12 27.00 21.69 18.49 16.39 14.91 13.81 12.97 11.34

3
56.18 33.20 23.70 18.77 15.83 13.90 12.55 11.56 10.80

4
53.44 31.09 21.92 17.20 14.39 12.56 11.28 10.35

5
51.71 29.75 20.80 16.21 13.49 11.71 10.48

6
50.53 28.84 20.03 15.52 12.86 11.13

7
49.66 28.16 19.46 15.02 12.40 10.70

8
49.00 27.65 19.03 14.63 12.05 10.37

9
48.48 27.25 18.69 14.33 11.77 10.11

10
48.05 26.92 18.41 14.08 11.54

15
46.76 25.91 17.56 13.32 10.84

20
46.10 25.40 17.12 12.93 10.48

30
45.43 24.87 16.67 12.53 10.11

50
44.88 24.44 16.31 12.20

9.80 8.26 7.19 6.42 5.83 4.70 3.77 2.98 2.64 2.44 2.32

9.89 8.75 7.92 7.29 6.08 5.08 4.24 3.87 3.67 3.54

9.24 8.13 7.32 6.71 5.54 4.56 3.75 3.40 3.20 3.08

8.90 7.80 7.01 6.41 5.25 4.29 3.49 3.15 2.95 2.83

8.55 7.47 6.68 6.09 4.95 4.01 3.22 2.87 2.68 2.56

9.93 9.05 8.38 7.09 6.02 5.12 4.73 4.51 4.37

9.52 8.66 8.00 6.74 5.69 4.82 4.44 4.22 4.09

9.20 8.36 7.71 6.47 5.44 4.58 4.21 4.00 3.87

8.96 8.12 7.48 6.26 5.24 4.39 4.02 3.82 3.69

9.58 8.89 7.57 6.46 5.53 5.13 4.90 4.76

9.63 8.25 7.10 6.13 5.70 5.46 5.31

9.34 8.10 7.05 6.60 6.34 6.17

9.95 8.77 8.25 7.96 7.77

Excel / Exerccio 8 Ferramentas Analisar dados ANOVA: Factor nico Seleccionar o intervalo

20

SPSS / Exerccio 8 Anlise Comparar mdias One-way ANOVA Seleccionar a varivel e o factor

SPSS / Exerccio 8 Anlise Comparar mdias One-way ANOVA PHM comparisons - LSD

21

11 Teste de Duncan e testes de Tukey


SPSS / Exerccio 8 Anlise Comparar mdias One-way ANOVA PHM comparisons Duncan

(Exerccio 8:

A=C < D < B)

SPSS / Exerccio 8 Anlise Comparar mdias One-way ANOVA PHM comparisons Tukey B, Tukey HSD

22

SPSS / Exerccio 8 Grfico Interactivo - Boxplot

SPSS / Exerccio 8 Grfico Interactivo Error Bar

23

12 Delineamento experimental de blocos casualizados


Quando existe variao no ambiente de uma experincia podem-se constituir blocos. Cada bloco tem uma repetio de cada tratamento colocada aleatoriamente no bloco. Assim possvel diminuir a variao residual e aumentar a preciso da experincia. A variao no delineamento experimental de blocos casualizados (randomized block design) distribui-se pela variao entre blocos, variao entre tratamentos, e variao residual. Considerando: t o n de tratamentos; b o n de blocos; n o n de talhes; T1 a soma de todos os resultados do tratamento 1; B1 a soma de todos os resultados do bloco 1.

Origem da variao Blocos Tratamentos

gl
2 2

ss

ms
2 2

b-1 t-1

(x ) B1 + B2 + ... + Bb t n
2 2 2

msB/s2
2

(x ) T1 + T2 + ... + Tb b n
Por subtraco x
2 2 ( x )

msT/s2 sp2

Residual (erro) Total

(b-1)(t-1) n-1

Exerccio 9

Efeito da temperatura e da humidade relativa na perda de peso de uma salada de quarta gama. Experincia com um factor e trs nveis (tratamentos) de factor. Factor: Controlo ambiental; Tratamentos: Frio (F), Humidade (H), Frio e Humidade (FH). Delineamento experimental de blocos casualizados (4 blocos * 3 tratamentos). Resultados: Perda de peso (g) de 20 embalagens em 8 dias. Tratamento/Bloco F H FH Total 1 359 372 330 1061 2 337 340 288 965 3 373 343 295 1011 4 302 341 313 956 Total 1371 1396 1226 3993

24

SS total = (3592++3132) - 39932/12 SS residual = SS total - (SS bloc. + SS trat.) ANOVA Origem da variao Blocos Tratamentos Residual Total gl 3 2 6 11

SS blocos = (10612++9562)/3 - 39932/12 SS tratam = (13712++12262)/4 - 39932/12

ss 2330 4212 2322 8864

ms 2106 387

F 5,44*

Hiptese nula: As perdas de peso so iguais com qualquer dos tratamentos. Como F corresponde a um valor de P <0,05 rejeita-se H0 e aceita-se que as perdas de peso possam diferir com os tratamentos. Mdia geral = 3993/12 = 332,8 Coeficiente de varincia =

387 / 332,8 *100 = 5,9%

O coeficiente de varincia uma medida de preciso relativa. Normalmente, esperam-se valores de coeficientes de varincia da ordem dos 5% ou menos quando o ambiente controlado, 10% em culturas de campo e 20% ou mais em grandes experincias com animais. Tabela das mdias Tratamento Perdas de peso (g) F 343 H 349 FH 306
2 * 387 = 13,9 g 4

Erro padro para comparao entre mdias: Se =

Teste t entre a mdia do tratamento F e a mdia do tratamento FH: t = (343-306)/13,9 = 2,66 logo P <0,05 o que implica que as perdas de peso tenham sido menores com o tratamento FH do que com o tratamento F. LSD = t(6) * 13,9 = 2,447 * 13,9 = 34 g Teste de Waller-Duncan: F=H > FH ou F(a), H(a), FH(b)

Concluso: No h diferenas significativas entre as perdas de peso da salada de quarta gama com os tratamentos F ou H, mas existe evidncia (P <0,05) de que o tratamento FH resulta em perdas de peso menores do que qualquer dos outros tratamentos.

25

SPSS / Exerccio 9 Anlise General linear model Univariate Colocar a varivel dependente e os factores Modelo- Custom All 2-way colocar os factores no modelo

Options: Seleccionar observed power (que deve ser >0,8 para se rejeitar H0 com certeza) SPSS / Exerccio 9 Anlise General linear model Univariate Post Hoc Waller-Duncan

26

13 Estrutura factorial Anova de dois factores


O efeito de um nvel de um factor pode depender do nvel de outro factor. Por exemplo, o efeito de diferentes variedades de alface na produo desta cultura pode depender do nvel de azoto mineral no solo. Uma variedade pode produzir mais do que outra em solos ricos, mas menos em solos pobres. Por esta razo, pode ser conveniente incluir na experincia os talhes necessrios para analisar os efeitos principais dos factores (ex. variedades e fertilizao), mas tambm, as possveis interaces entre os factores. Considerando o factor variedade com dois nveis (A e B) e o factor fertilizao com trs nveis (100, 200 e 300), existem seis tratamentos possveis (A100, A200, A300, B100, B200, B300) que resultam da multiplicao de duas variedades por trs nveis de fertilizao. Neste caso, a experincia fica com estrutura factorial dos tratamentos. Considere-se este exemplo com dois factores: 1 variedade com dois nveis, 2 fertilizao com trs nveis. Na aproximao por um factor teramos de decidir um determinado nvel de fertilizao e procurar, para essa dose, a melhor variedade, ou decidir sobre a variedade a utilizar e procurar, para essa variedade, a melhor dose de azoto. No entanto, este tipo de anlise tem riscos, porque pode existir uma interaco entre a variedade e a fertilizao.
Interpretao dos resultados da experincia factorial

Existe interaco entre dois factores quando a aco de um no permanece constante para qualquer nvel do outro factor e vice-versa. Assim se a interaco for significativa os resultados de um factor dependem do nvel do outro factor. Produo Var. A Var. B

Nvel de N Var. B Var. A (melhor variedade depende do nvel de N)

A forma como se interpretam os resultados de uma experincia factorial depende da existncia ou no de uma interaco significativa e neste caso, da interaco ser muito menor, ou no, do que os efeitos principais: 1 Se no existir interaco significativa as concluses baseiam-se directamente nas mdias dos efeitos principais. Assim, suficiente comparar as mdias dos nveis de cada factor. 2 Se existir interaco significativa mas o valor F da interaco for muito inferior ao valor F dos efeitos principais as concluses devero basear-se na comparao entre as mdias dos efeitos principais e na comparao entre as mdias de tratamentos de cada nvel de factor. 3 Se a interaco for significativa e com um valor de F semelhante, ou superior, do que o valor F dos efeitos principais as concluses baseiam-se apenas na comparao entre mdias dos tratamentos j que aqui os efeitos principais de cada factor so de menor importncia.

27

Anlise de varincia de uma experincia com estrutura factorial de tratamentos


Exerccio 10

Conduziu-se uma experincia com morangueiros em estufim para investigar a produo de 4 variedades e 3 datas de cobertura. Utilizou-se um delineamento experimental de blocos casualizados, com estrutura factorial de tratamentos e com 4 blocos. Os resultados encontram-se expressos em toneladas de morango por 3000m2 de estufim. Data de cobertura Fevereiro Variedade I V R F G V R F G V R F G 10,2 11,1 6,8 5,3 8,0 9,7 8,6 3,4 2,0 10,9 2,2 2,1 80,3 II 10,1 9,8 9,5 7,5 9,7 7,9 9,6 4,2 6,1 8,4 4,9 0,9 88,6 Blocos III 12,1 8,6 9,5 4,6 12,0 10,3 9,5 7,3 4,8 6,5 4,4 3,4 93,0 IV 12,3 9,4 10,3 7,3 7,8 11,2 10,0 7,6 6,7 9,2 3,6 2,3 97,7 Total 44,7 38,9 36,1 24,7 37,5 39,1 37,7 22,5 19,6 35,0 15,1 8,7 359,6

Maro

Abril

Total

ANOVA Inicial Ignorando a estrutura factorial e tratando a experincia como um factor com 12 tratamentos. SPSS - Anlise General linear model Univariate Colocar a varivel dependente e os factores Modelo- Custom All 2-way colocar os factores no modelo (igual ao exerccio 9)
Dependent Variable: PRODUO Origem BLOCO TRATAMEN Error ss 13,692 356,012 69,453 df 3 11 33 ms 4,564 32,365 2,105 F 15,378 Sig. ,000

Pode-se rejeitar H0: as mdias dos tratamentos so iguais, e aceitar que existem diferenas significativas entre os tratamentos. Neste caso procede-se a uma anlise de varincia mais detalhada.

28

Considerando: A = Factor A; B = Factor B; a = n de nveis de A; b = n de nveis de B A1 = nvel 1 do factor A; TA1 a soma de todos os resultados do tratamento A1 t o n de tratamentos (a*b); r o n de (repeties) blocos; n o n de talhes ANOVA mais detalhada Origem Blocos (a-1) Tratamentos (b-1) (a-1)(b-1) Residual (erro) Total (T A1 + T A2 + ...) (x )2 rb n
2 2

gl

ss

Efeito principal do factor A Efeito principal do factor B Efeito da interaco AB

TB1 + TB 2 + ... (x )2 ra n
2 2

Por subtraco

Tabela interaco nos dois sentidos Data de cobertura V Fevereiro Maro Abril Total 44,7 37,5 19,6 101,8 R 38,9 39,1 35 113,0 Variedades F 36,1 37,7 15,1 88,9 G 24,7 22,5 8,7 55,9 Total 144,4 136,8 78,4 359,6

FC = Factor de correco = (x ) / rt = 359,62/48 = 2694


2

Clculo da soma dos quadrados dos efeitos principais 101,82 + ... + 55,92 2694 SS variedades = 12 Clculo da soma dos quadrados da interaco SS tratamentos = SS variedades + SS coberturas + SS interaco SS interaco = 356,02 152,69 163,01 = 40,32 144,42 + ... + 78,42 SS coberturas = 2694 16

29

ANOVA Origem Blocos Variedades Coberturas Var.*Cob. Erro Total gl 3 3 2 6 33 47 ss 13,69 152,69 163,01 40,32 69,45 439,16 ms 4,57 50,90 81,50 6,72 2,10 F 24,2 38,7 3,2 P <0,001*** <0,001*** <0,05*

Rejeitam-se as hipteses de que as variedades ou as datas de cobertura no influenciam as produes de morango, mas tambm, que no exista interaco entre os dois factores. Os resultados apresentam-se, ento, numa tabela de mdias dos tratamentos nos dois sentidos. Tabela das mdias dos tratamentos (t morango / 3000m2 de estufim) Data de cobertura V Fevereiro Maro Abril Mdia 11,2 9,4 4,9 8,5 R 9,7 9,8 8,8 9,4 Variedades F 9,0 9,4 3,8 7,4 G 6,2 5,6 2,2 4,7 Mdia 9,0 8,5 4,9 7,5

Erro padro para comparao entre duas mdias e diferenas significativas mnimas: Variedades Datas de cobertura Tratamentos Sumrio dos resultados: A produo de morangos de cada variedade no variou significativamente entre as datas de cobertura de Fevereiro e Maro mas, com a excepo da variedade R, diminuiu com a data de cobertura de Abril. A variedade R foi a mais produtiva quando os morangueiros foram cobertos em Abril, e a variedade G foi a menos produtiva nas datas de cobertura de Fevereiro e Maro. (Todas as afirmaes esto baseadas num nvel de significncia em que P<0,05).
2 s 2 / 12 = 0,59 2 s 2 / 16 = 0,51

LSD = t(33) * Se = 2,04 * 0,59 = 1,2 LSD = t(33) * Se = 2,04 * 0,51 = 1,04 LSD = t(33) * Se = 2,04 * 1,03 = 2,1

2s 2 / 4 = 1,03

30

SPSS / Exerccio 10 Anlise General linear model Univariate Colocar a varivel dependente e os factores. Construir o Modelo - Custom colocar os blocos, factores e interaco no modelo. Construir o grfico das mdias com o respectivo intervalo de confiana 95%

Tests of Between-Subjects Effects Dependent Variable: PRODUO Source Model BLOCO VARIEDAD COBERTUR VARIEDAD * COBERTUR Error Total Type III Sum of Squares 3063,707a 13,692 152,685 163,007 40,320 69,453 3133,160 df 15 3 3 2 6 33 48 Mean Square 204,247 4,564 50,895 81,503 6,720 2,105 F 97,046 2,168 24,182 38,725 3,193 Sig. ,000 ,110 ,000 ,000 ,014

a. R Squared = ,978 (Adjusted R Squared = ,968)

31

14 Anova de trs factores Interaces de 1 e 2 ordem


As experincias com dois factores permitem verificar os efeitos principais e a interaco de 1 ordem. As experincias com trs factores permitem verificar os efeitos principais, as interaces de 1 ordem entre cada dois factores, e a interaco de 2 ordem entre os trs factores. Quando o nmero de factores numa experincia aumenta o nmero de interaces tambm aumenta, e pode tornar-se difcil a anlise dos efeitos principais e das interaces que se estabelecem.
Exerccio 11

Delineamento experimental de blocos casualizados com estrutura factorial (3 factores) Factores: N, P, K Nveis de factor: 1 e 2 Tratamentos = 23 = 8 Tratamentos: N1P1K1, N1P1K2, N1P2K1, N1P2K2, N2P1K1, N2P1K2, N2P2K1, N2P2K2 Considere os seguintes resultados de produo de alface (t/ha) N 1 1 1 1 2 2 2 2 P 1 1 2 2 1 1 2 2 K 1 2 1 2 1 2 1 2 B1 15,20 17,10 16,20 18,40 19,10 19,40 18,70 36,30 B2 15,90 16,30 22,20 17,20 22,10 27,70 28,30 32,20 B3 17,20 17,30 17,60 19,30 24,30 22,50 23,10 33,20 B4 21,40 21,20 23,00 22,10 25,00 27,10 26,90 34,50

Anlise General linear model Univariate Colocar a varivel e os factores. Construir o Modelo - Custom colocar os blocos, factores e interaces.

32

Tests of Between-Subjects Effects Dependent Variable: PRODUO Source BLOCO N P K N*P N*K P*K N*P*K Error Type III Sum of Squares 108,307 471,245 114,005 64,980 31,205 63,845 25,920 43,245 108,782 df 3 1 1 1 1 1 1 1 21 Mean Square 36,102 471,245 114,005 64,980 31,205 63,845 25,920 43,245 5,180 F 6,969 90,972 22,008 12,544 6,024 12,325 5,004 8,348 Sig. ,002 ,000 ,000 ,002 ,023 ,002 ,036 ,009

15 Mtodo dos talhes subdivididos (Split-plot)


Existem experincias em que no possvel utilizar determinados tratamentos, por razes prticas, em talhes pequenos. Por exemplo, se pretendermos testar o mtodo de lavoura e variedades, podemos aplicar o mtodo de lavoura em talhes grandes, dentro dos quais se colocam os talhes para as variedades.
Exerccio 12

A resposta de 6 variedades de alface a 3 formas de mobilizao do solo foi investigada atravs de um delineamento experimental do tipo split-plot com 4 blocos. Os talhes principais corresponderam s formas de mobilizao (X, Y, Z), e cada talho principal foi dividido em 6 pequenos talhes correspondentes s 6 variedades (A, B, C, D, E, F). Os resultados expressos em t/ha foram os seguintes: Mobilizao Variedade
A B C D E F A B C D E F A B C D E F I 11,8 8,3 9,2 15,6 16,2 9,9 71,0 9,7 5,4 12,1 13,2 16,5 12,5 69,4 7,0 5,7 3,3 12,6 12,6 10,2 51,4 II 7,5 8,4 10,6 10,8 11,2 10,8 59,3 8,8 12,9 15,7 11,3 11,1 14,3 74,1 9,1 8,4 6,9 15,4 12,3 11,6 63,7

Blocos
III 9,7 11,8 11,4 10,3 14,0 4,8 62,0 12,5 11,2 7,6 11,0 10,8 15,9 69,0 7,1 6,1 1,0 14,2 14,4 10,4 53,2 IV 6,4 8,5 7,2 14,7 11,5 9,8 58,1 9,4 7,8, 9,4 10,7 8,5 7,5 53,3, 6,3 8,8 2,6 11,3 14,1 12,2 55,3 Total 35,4 37,0 38,4 51,4 52,9 35,3 40,4 37,3 44,8 46,2 46,9 50,2 29,5 29,0 13,8 53,5 53,4 44,4

Total de X Y

Total de Y Z

Total de Z

33

Anlise dos talhes principais Mobilizao X Y Z Total I 71,0 69,4 51,4 191,8 II 59,3 74,1 63,7 197,1 Blocos III 62,0 69,0 53,2 184,2 IV 58,1 53,3 55,3 166,7 Total 250,4 265,8 223,6 739,8

Considerando: A = Factor A (main-plot); B = Factor B (split-plot); a = n de nveis de A; b = n de nveis de B A1 = nvel 1 do factor A; TA1 a soma de todos os resultados do tratamento A1 t o n de tratamentos (a*b); r o n de (repeties) blocos; n o n de talhes Y = Resultados dos talhes principais; y = Resultados dos talhes pequenos ANOVA Talhes principais Origem gl
2 2

ss B1 + B2 + ... (x ) ab n
2 2 2

ms

Blocos Efeito principal, A Erro (a) Total

(r-1) (a-1) (a-1)(r-1)

(TA1 + TA 2 + ...) (x ) rb n Por subtraco Y1 + Y2 + ... (x ) b n


2 2 2

sa2

FC =

(x )2
n

739,82 = 7601,44 72

ANOVA Talhes principais Origem gl Blocos Efeito principal A


Erro (a)

ss 191,82 + 197,12 + ... 7601,44 = 29,35 3* 6

ms

(4-1)=3 (3-1)=2 2*3=6 11

(250,42 + 265,82 + ...) 7601,44 = 38,01 4*6 Por subtraco 43,56

19,00
7,26

2,62

Total

712 + 69,42 + ... + 55,32 7601,44 = 110,92 6

34

Anlise dos pequenos talhes Variedade A B C D E F Total X 35,4 37,0 38,4 51,4 52,9 35,3 250,4 Mobilizao Y 40,4 37,3 44,8 46,2 46,9 50,2 265,8 Z 29,5 29,0 13,8 53,5 53,4 44,4 223,6 Total 105,3 103,3 97,0 151,1 153,2 129,9 739,8

ANOVA Pequenos talhes Origem gl Grandes talhes Efeito principal, B Interaco AB Erro (b) Total (b-1)
2

ss

ms

(TB1 + TB 2 + ...) (x ) ra n
2 2 2 2

(a-1)(b-1) (r-1)a(b-1) rab-1

(T11 + T12 + ...) (x ) ss ( A) ss ( B) n r Por subtraco y


2 2 ( x )

sb2

ANOVA Pequenos talhes Origem gl Grandes 11 talhes Efeito principal B Interaco AB


Erro (b)

ss
110,92

ms

5 10 45 71

(105,32 + 103,32 + ...) 7601,44 = 260,51 4*3


(35,4 2 + 37,0 2 + ...) 7601,44 38,01 260,51 = 163,70 4

52,10 10,32*** 16,37


5,05

3,24**

227,27

Total

11,8 + 8,3 + ... + 12,2 7601,44 = 762,40


2 2 2

35

Tabela das mdias Variedade A B C D E F Mdia X 8,8 9,2 9,6 12,8 13,2 8,8 10,4 Mobilizao Y 10,1 9,3 11,2 11,6 11,7 12,6 11,1 Z 7,4 7,2 3,4 13,4 13,4 11,1 9,3 Mdia 8,8 8,6 8,1 12,6 12,8 10,8 10,3

Erros padro para comparao entre duas mdias Se Mobilizao Variedade 2 variedades para a mesma mobilizao 2 variedades de diferentes mobilizaes 2 sa / 24 = 0,78 2 sb / 12 = 0,91 2 sb / 4 = 1,59 2 sb / 4 = 1,59
2 2 2 2

gl 6 45 45 45
2 2

t 2,45 2,02 2,02 2,02

LSD 1,93 1,84 3,21 3,21

2 mobilizaes para a mesma ou diferentes variedades Frmula geral: 2(( 1)sb + sa ) / r *


2 2

2(5sb + sa ) / 4 * 6 = 1,65

em que r o nmero de blocos e o nmero de

nveis do factor correspondente aos talhes pequenos. Neste caso, no se podem efectuar testes t exactos porque as mdias quadrticas de ambos os erros esto envolvidas.

Sumrio dos resultados: (i) A ANOVA dos talhes principais no evidenciou a existncia de diferenas significativas na produo de alface em funo dos tipos de mobilizao experimentados. A ANOVA dos pequenos talhes revela que existem diferenas significativas na produo entre as diferentes variedades. As diferenas entre as variedades dependeram do tipo de mobilizao utilizado porque a interaco entre as variedades e os tipos de mobilizao foi significativa. Para o tipo de mobilizao X as melhores variedades foram a D e E; as diferenas entre variedades com a mobilizao Y foram pequenas; para a mobilizao Z as variedades D, E e F produziram mais do que as variedades A, B e C.

(ii) (iii) (iv)

36

SPSS / Exerccio 12 Proceder anlise de varincia com blocos e dois factores (= exerccio 10): Anlise - General linear model Univariate Colocar a produo na varivel dependente, e colocar os blocos e os factores (mobilizao e variedades) nos factores fixos. Construir o modelo. Posteriormente seleccionar Paste e acrescentar:
/TEST = mobiliza VS bloco*mobiliza uma linha antes de /DESIGN .

Nesta ltima linha incluir bloco*mobiliza no texto, na ordem em que pretenda que aparea no output. Finalmente seleccionar Run para obter o Output.

UNIA NOVA produo BY bloco mobiliza variedad /METHOD = SSTYPE(3) /INTERCEP T = INCLUDE /CRITE RIA = ALPHA (.05)

/TEST = mobiliza VS bloco*mobiliza /DESIGN = bloco mobiliza bloco*mobiliza variedad mobiliza*variedad .

Run (All) => Output

37

Test Results Dependent Variable: PRODUO Source Contrast Errora Sum of Squares 38,003 43,566 df 2 6 Mean Square 19,002 7,261 F 2,617 Sig. ,152

a. BLOCO * MOBILIZA
Dependent Variable: PRODUO Source Efeito principal A Erro (a) df 2 6 Mean Square F Sig. ,152

2,617 7,261

Tests of Between-Subjects Effects Dependent Variable: PRODUO Source Corrected Model Intercept BLOCO MOBILIZA BLOCO * MOBILIZA VARIEDAD MOBILIZA * VARIEDAD Error Total Corrected Total Type III Sum of Squares 535,118a 7601,445 29,343 38,003 43,566 260,508 163,698 227,277 8363,840 762,395 df 26 1 3 2 6 5 10 45 72 71 Mean Square 20,581 7601,445 9,781 19,002 7,261 52,102 16,370 5,051 F 4,075 1505,060 1,937 3,762 1,438 10,316 3,241 Sig. ,000 ,000 ,137 ,031 ,222 ,000 ,003

a. R Squared = ,702 (Adjusted R Squared = ,530)

Tests of Between-Subjects Effects Dependent Variable: PRODUO Source Type III Sum of Squares 260,508 163,698 227,277 762,395 df 5 10 45 71 Mean Square 52,102 16,370 F Sig. ,000 ,003

Efeito principal B Interaco AB Erro (b)


Corrected Total

10,316 3,241

5,051

38

III Anlise de regresso


16 Regresso linear
Chama-se equao de regresso de uma varivel (dependente) y em funo das variveis (independentes ou factores) x1, x2, equao: y = + 1 x1 + 2 x2 Nesta equao um parmetro que representa a ordenada na origem, e 1, 2 so os coeficientes de regresso parciais que representam a variao mdia de y por unidade de variao de x1, x2,
Regresso linear simples: y = a + b x

b=

[( x x )( y y )] Sxy = 2 Sxx ( x x )

xy n = (x )2 x 2 n ( xy )

a = y bx =

y (bx ) n

n = n de pares (x, y)

Teste recta de regresso H0: (=0)

ou

H0: y no depende de x

ANOVA Origem Regresso Residual Total

gl 1 n-2 n-1

ss

ms

F F = t2

(Sxy )2 / Sxx
Por subtraco

Syy = y 2 (y ) / n
2

( )

Coeficiente de correlao (r) e coeficiente de determinao (r2)

r2 = SS regresso / SS total = (Sxy ) / Sxx.Syy


2

r2 = Coeficiente de determinao (proporo da varincia explicada pela regresso) (1 - r2) = variabilidade no explicada pela regresso

Previso utilizando a recta

a + bx t * Se
1 ( x x )2 s2 + Sxx n 1 ( x x )2 s 2 1 + + Sxx n

Erro padro para previso e um valor:

Mdio

Isolado

39

Coeficiente de correlao (r)

Graus de liberdade (n -2) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Probabilidade P 0.05 0.997 0.950 0.878 0.811 0.755 0.707 0.666 0.632 0.602 0.576 0.553 0.532 0.514 0.497 0.482 0.01 1.000 0.990 0.959 0.917 0.875 0.834 0.798 0.765 0.735 0.708 0.684 0.661 0.641 0.623 0.606 0.001 1.000 0.999 0.991 0.974 0.951 0.925 0.898 0.872 0.847 0.823 0.801 0.780 0.760 0.742 0.725

raus de liberdade gl 16 17 18 19 20 25 30 35 40 45 50 60 70 80 100

Probabilidade P 0.05 0.468 0.456 0.444 0.433 0.423 0.381 0.349 0.325 0.304 0.288 0.273 0.250 0.232 0.217 0.195 0.01 0.590 0.575 0.561 0.549 0.457 0.487 0.449 0.418 0.393 0.372 0.354 0.325 0.302 0.283 0.254 0.001 0.708 0.693 0.679 0.665 0.652 0.597 0.554 0.519 0.490 0.465 0.443 0.408 0.380 0.357 0.321

Exerccio 13

Considere que o avano em dias (y) no amadurecimento de maas foi avaliado para doses crescentes de etileno (x) obtendo-se os seguintes resultados: y 6 9 13 12 14 18 x 1 2 3 4 5 6 Teste se o amadurecimento dependeu da dose de etileno. Estime a respectiva regresso linear. n=6

(x) = 21 (y) = 72

(x2) = 91 (y2) = 950

Sxx = 91 212/6 = 17,5 Sxy = 289 [(72*21)/6] = 37

(xy) = 289

SS total = Syy = 950 722 / 6 = 86

SS residual = 86 78,23 = 7,77

SS regresso = (Sxy)2 / Sxx = 372 / 17,5 = 78,23 b = 37 / 17,5 = 2,114 a = [72 (21*2,114)] / 6 = 4,6 y = 4,6 + 2,114 x

F = MS regresso / MS residual = (78,23/1) / (7,77/4) = 40,27 R2 = SS regresso / SS total = 78,23 / 86 = 0,91 Resultado: O amadurecimento (y) dependeu (P <0,01) da dose de etileno (x). Mais de 90% da varincia no amadurecimento explicada atravs da recta de regresso y = 4,6 + 2,114 x

40

Excel / Exerccio 13 Ferramentas Anlise de dados Regresso. Preencher intervalos de y e x.

Inserir Grfico Disperso Intervalo de dados (x, y) Adicionar linha de tendncia Linear. Opes: Mostrar equao e mostrar valor de r2.

41

SPSS / Exerccio 13 Anlise Regresso Linear. Colocar variveis: dependente (y) e independente (x) Statistics: Estimates, model fit.

Grfico Interactivo Scatter plot. Colocar variveis x e y Fit regression

42

17 Regresso no linear
Exemplo de curvas: quadrtica, cbica, exponencial, logstica, hiperblica, etc.
Exerccio 14 (Equao quadrtica)

Considere que o avano em dias (y) no amadurecimento de maas foi avaliado para doses crescentes de etileno (x) obtendo-se os seguintes resultados: y x 2 1 8 2 13 3 17 4 19 5 21 6 22 7 23 8 23 9

Teste se o amadurecimento dependeu da dose de etileno. Compare a regresso linear com a regresso quadrtica. Excel / Exerccio 14 Inserir Grfico Disperso Intervalo de dados (x, y) Adicionar linha de tendncia Linear. Opes: Mostrar equao e mostrar valor de r2.

Formatar linha de tendncia Tipo: Polinomial 2 ordem Opes: equao e r2


30 Avano (dias) no amadurecimento 25 20 15 10 5 0 0 2 4 6 8 Dose de etileno
Avano (dias) no amadurecimento

y = 2,5167x + 3,8611 R = 0,8712


2

25 20 15 10 5 0 0 2 y = -0,421x + 6,7266x - 3,8571 2 R = 0,9963


2

10

10

Dose de etileno

Note-se que igualando a zero a primeira derivada da curva obtm-se o valor de x correspondente ao mximo valor de y. SPSS / Exerccio 14 Anlise Regresso Linear. Colocar variveis: dependente (y) e independente (x) Statistics: Estimates, model fit.
ANOVA Sum of Squares 380,017 56,206 436,222

Model 1

df 1 7 8

Regression Residual Total

Mean Square 380,017 8,029

F 47,328

Sig. ,000

43

Anlise Regresso Curve estimation. Colocar variveis: (y) e (x), o modelo quadrtico e a ANOVA

Anlise Regresso no linear. Colocar varivel (y), os parmetros e o modelo. Opes: Mtodo de Levenber - Marquardt

44

Exerccio 15 (Equao exponencial)

Considere o peso de bactrias (y) em funo do tempo (x) y 1 2 4 8 16 32 64 128 x 1 2 3 4 5 6 7 8 Verifique se a equao exponencial se adapta a estes resultados. Efectue a transformao logartmica dos resultados e teste a regresso linear nos resultados obtidos.

Inserir grfico de disperso, adicionar linha de tendncia, incluir equao e r2 Formatar linha de tendncia para uma equao do tipo exponencial e para polinmios de 2 e 3 ordens (equaes quadrtica e cbica).

Transformao logartmica dos resultados

y 1 ln(y) 0 x 1

2 0,7 2

4 1,4 3

8 2,1 4

16 2,8 5

32 3,5 6

64 128 4,2 4,9 7 8

Verifica-se que os aumentos exponenciais aps a transformao logartmica ficam constantes.


Peso das bactrias (g)

ln peso das bactrias (g)

160 120 80 40 0 0 2 4
Dias

5 4 3 2 1 0 -1 0 2 4
Dias

R =1

R =1

10

10

45

18 Transformaes matemticas dos resultados


As transformaes matemticas dos resultados podem realizar-se para homogeneizar as varincias e/ou normalizar as variveis. As hipteses so testadas nas variveis transformadas (atravs de testes no paramtricos) mas, se no for conveniente apresentar os dados na nova varivel transformada, as mdias podem ser transformadas de volta para a medida original. Entre as transformaes desenvolvidas para homogeneizar as varincias (e que podem tambm conduzir normalizao da varivel) incluem-se: Transformao:
y y + y +1 Log ( y ) Log ( y + 1)

Aplicar quando:

yi forem contagens de nmeros pequenos yi forem contagens e alguns yi forem iguais a zero
a disperso dos yi elevada, e as varincias proporcionais s mdias a disperso dos yi elevada e alguns yi forem iguais a zero Os yi forem muito prximos de zero Os yi forem propores ou percentagens dispersas

1 y +1
arcsen

( y)

Outras transformaes para normalizar a varivel incluem: Transformao:


Log [(1 + y ) / (1 y )]

Aplicar quando: -1 y 1

(1 y )1 / 2 1 (1 y )3 / 2
3

0y1

46

A transformao matemtica de variveis pode ser realizada numa folha de clculo aplicando a frmula que se pretende para a transformao. No SPSS pode ser feita atravs do menu
Transform seguido de Compute.

47

19 Regresso mltipla
A anlise de regresso mltipla baseia-se no modelo: y = B0 + B1 x1 + B2 x2 ++ Bm xm + e e relaciona o comportamento da varivel y com a funo linear constituda pelo grupo B0 + B1 x1 + B2 x2 ++ Bm xm Os valores de Bj so parmetros que especificam a natureza da relao sendo e o erro casual.
Exerccio 16

Considere que se pretendia investigar se o consumo de gua (y) dependia do consumo de alimento (x1), do exerccio fsico (x2), ou de ambos, e que os resultados do consumo de gua (ml), do consumo de alimentos (g) e do caminho percorrido a p (km), registados para 12 indivduos num determinado perodo de tempo, eram os seguintes: gua (ml) Alimento (g) Km 175 342 252 362 284 219 229 260 90 2 150 114 152 122 117 114 117 5 6 9 6 7 4 6 88 55 0 132 254 199 72 0 106 2 93 0

SPSS / Exerccio 16 Quando se efectua a regresso linear simples (y = a + bx) do consumo de gua em relao ao consumo de alimento (F=218,5***), ou em relao ao percurso percorrido (F=16,6**), verifica-se que o consumo de gua dependeria quer de um factor quer do outro.

48

No entanto, quando se efectua a regresso linear mltipla (y = a + bx1 + cx2), colocando a varivel dependente e ambas as variveis independentes (factores) no modelo e utilizando o mtodo ENTER verifica-se que o valor de c no significativo.
Coefficientsa Unstandardized Coefficients B Std. Error -83,077 28,141 3,031 ,345 -3,257 3,187 Standardized Coefficients Beta 1,084 -,126

Model 1

(Constant) ALIMENTO KM

t -2,952 8,786 -1,022

Sig. ,016 ,000 ,333

a. Dependent Variable: GUA

Anlise regresso linear colocar varivel dependente e variveis independentes Grfico interactivo scatter plot 3D colocar variveis

49

Quando se utiliza o mtodo STEPWISE, a varivel que se refere ao percurso percorrido logo excluda do modelo. Isto porque apesar desta ter um efeito significativo sobre o consumo de gua quando o modelo no inclui o efeito do consumo de alimento, no tem um efeito significativo quando a modelo j est a incluir o consumo de alimento.
Coefficientsa Unstandardized Coefficients B Std. Error -63,513 20,671 2,733 ,185 Standardized Coefficients Beta ,978

Model 1

(Constant) ALIMENTO

t -3,073 14,784

Sig. ,012 ,000

a. Dependent Variable: GUA


b Excluded Variables

Model 1

KM

Beta In -,126a

t -1,022

Sig. ,333

Partial Correlation -,322

Collinearity Statistics Tolerance ,286

a. Predictors in the Model: (Constant), ALIMENTO b. Dependent Variable: GUA

Acontece que existe uma elevada correlao entre estes dois factores (consumo de alimento e percurso percorrido) e que a aparente dependncia do consumo de gua do percurso percorrido se atribui a esta correlao. Donde se conclui que o consumo de gua dependeu apenas do consumo de alimento, expressando-se essa relao atravs da equao: Consumo de gua (ml) = -63,5 + 2,73 (consumo de alimento, g)***

A interaco entre as variveis independentes x1 e x2 pode ser avaliada atravs da incluso no modelo do produto entre os factores, por exemplo, atravs de um modelo que se expresse por: y = a + bx1 + cx2 + d x1x2 No presente exerccio a interaco entre os dois factores seria, tambm, excluda, por no ter um efeito significativo no consumo de gua.
Excluded Variables Collinearity Statistics Tolerance ,286 ,229

Model 1

KM INTERAC

Beta In -,126 -,099

t -1,022 -,699

Sig. ,333 ,502

Partial Correlation -,322 -,227

A regresso mltipla pode ser resolvida, tambm, atravs de regresso no linear no SPSS, escrevendo o modelo (aps identificar os parmetros) no mdulo de regresso no linear, dentro da anlise de regresso.

50

20 - Modelos de regresso
Introduo modelao

A matemtica um instrumento indispensvel para a compreenso dos fenmenos. utilizada para analisar as partes de um sistema ou as interaces entre essas partes. tambm utilizada para auxiliar a efectuar a sntese das partes ou previses quantitativas sobre o comportamento do sistema em diferentes condies, ambientais ou scio-econmicas, nomeadamente, pelo recurso a modelos de simulao. Os modelos matemticos conceptuais ou tericos distinguem-se dos modelos empricos ou estatsticos, uma vez que estes so desenvolvidos para descrever os resultados da experimentao, ou para testar hipteses cientficas, enquanto que aqueles pretendem simular o comportamento do sistema com base em referncias cientficas consideradas como verdadeiras. A anlise estatstica no prova nada. No entanto, oferece-nos um meio para avaliar o nvel de probalidade das nossas hipteses (formalizadas em equaes matemticas) serem verdadeiras ou falsas, ou para avaliar o nvel de probabilidade das nossas equaes de regresso serem consideradas verdadeiras para descrever os resultados, ou no. No entanto, a anlise estatstica relaciona-se apenas com as hipteses que levantamos, as quais, podem no ser as mais indicadas. Por isso, necessrio definir correctamente os objectivos antes de se comear a investigar.
A utilizao de relaes empricas em modelos de simulao.

Se conseguirmos construir um modelo que descreva de forma razovel o sistema que pretendemos representar, descrio essa que se concretiza por equaes matemticas correspondentes aos anunciados das premissas que consideramos verdadeiras sobre sistema, ento deveremos conseguir simular o comportamento do sistema sob a aco de diferentes condies ambientais. Os modelos de simulao do crescimento vegetal, por exemplo, desenvolvidos com diversos objectivos, tais como, previso de produes, escolha de cultivares, planeamento de prticas culturais ou melhoramento vegetal, utilizam frequentemente relaes empricas entre o crescimento vegetal e os factores ambientais. Nestas relaes empricas utiliza-se com frequncia a acumulao trmica com base em registos metereolgicos; a disponibilidade de azoto mineral; ou a precipitao e a evapotranspirao para calcular as necessidades de rega. No entanto, geralmente difcil distinguir o papel das interaces entre os vrios factores, o que implica a construo destes modelos com vrios factores. Por outro lado, estabelecem-se vulgarmente relaes empricas entre os factores ambientais e a produo comercial sem que, no entanto, se estabeleam quaisquer relaes entre esses factores ambientais e os fenmenos biolgicos, tais como, a fotossntese, o metabolismo, a translocao e a distribuio dos assimilados, ou sobre a respirao ou a regulao hormonal, processos que determinam a produo. Por isso, difcil optimizar estes modelos com vrios factores ambientais ou aplic-los de forma alargada e grandes reas geogrficas.
Anlise de crescimento

Crescimento o aumento de tamanho do indivduo ou o aumento no nmero de indivduos e, est quase sempre associado com um aumento na complexidade com que o indivduo, ou a comunidade de indivduos, est organizada. Imagine que inocula um meio de cultura com uma nica bactria que acabou de resultar de uma diviso bacteriana, e que quando uma desta bactrias se divide, cada bactria resultante 51

alcana o peso da progenitora. Se considerarmos o peso w da progenitora, obtm-se o peso 2w. Consideremos ainda que o aumento de peso em cada gerao linear. Assim, o tempo que levou a passar do peso w para 2w, ser igual aquele que necessrio para passar de 2w para 4w, e assim sucessivamente. A este tipo de crescimento chamamos exponencial e pode ser representado atravs da seguinte equao matemtica: W = w exp (t) em que, W o peso da cultura no tempo t, w o peso da primeira clula e a constante de crescimento. Se aplicarmos os logaritmos a ambas as partes da equao obtm-se uma relao simples: ln (W)= ln (w) + t At agora considerou-se apenas a situao em que os nutrientes, bem como as restantes condies ambientais, no implicam qualquer restrio ao crescimento bacteriano. Obviamente, o crescimento no pode continuar indeterminadamente. Ou as bactrias esgotaro os nutrientes disponveis no meio, ou produziro suficientes produtos txicos que provocaro o abrandamento do crescimento. Em organismos mais complexos como as plantas e os animais, o nmero de clulas capazes de crescer e de se dividirem diminui com o tempo assim que as clulas se diferenciam e as suas funes biolgicas se tornam mais especficas e restritas. Normalmente, o crescimento das plantas e dos animais diminui assim que o seu tamanho aumenta at, eventualmente, parar o crescimento quando amadurecem. Existem vrias formas de descrever este crescimento. Podemos observar a equao matemtica que descreve as variaes no peso das plantas ou animais com o tempo, sem considerar o sentido biolgico da equao. Por exemplo, podemos descrever estas variaes atravs de um polinmio do tipo: W= a+ bt + ct sem se atribuir qualquer sentido biolgico s constantes a, b, c. Esta descrio emprica do crescimento pode ter vrias utilizaes ao oferecer-nos uma descrio antecipada dos acontecimentos. No entanto, nada nos diz sobre o porqu dos acontecimentos. Podemos, em contrapartida, observar a equao que relaciona, por exemplo, as variaes nas taxas de crescimento da planta ou animal com o seu peso, e, posteriormente tentar perceber as implicaes biolgicas da equao ento utilizada. Neste caso chamamos crescimento relativo. A taxa de crescimento relativo de uma planta ou animal a taxa de crescimento dividida pelo seu peso. Isto , a taxa de crescimento por unidade de peso. Quando uma planta cresce exponencialmente, o peso da planta em qualquer tempo t, Wt, pode ser relacionado com o seu peso inicial no tempo t=0, correspondendo a W0, e a constante de crescimento , da seguinte forma: Wt = W0 exp(t) A taxa de crescimento da planta em qualquer tempo t, dW/dt, pode ser obtida atravs da derivada da equao de crescimento em relao ao tempo da seguinte forma: dW/dt = W0 exp(t) multiplicando ambos os lados da equao por (1/Wt) obtm-se: (dW/dt) / Wt = [W0 exp(t)] / [W0 exp(t)] = A constante de crescimento igual taxa de crescimento relativo da planta. Durante o crescimento exponencial a taxa de crescimento relativo da planta , portanto, constante, mas uma das caractersticas das plantas que quantos maiores so, menores se tornam as suas taxas de crescimento relativo.

52

No estudo da mineralizao do azoto podem-se aplicar modelos como: Nm = N0 (1 e-kt) Em que N0 representa o azoto potencialmente mineralizvel no tempo zero, Nm o azoto mineralizado no tempo t, e k a constante de mineralizao. Este modelo, explica a mineralizao lquida mas no explica a imobilizao (ou mineralizao negativa). Contudo, se expandirmos o modelo para: Nm = N0 [1 exp(-k1t -k2t2)] torna-se possvel prever a mineralizao, mas tambm, quantificar o tempo necessrio para a mineralizao liquida ocorrer, quando exista um fase inicial de imobilizao do azoto, porque s ocorre mineralizao liquida quando Nm positivo, isto , quando: [1 exp(-k1t -k2t2)] > 0 (-k1t -k2t2) < 0

exp(-k1t -k2t2) > -1

exp(-k1t -k2t2) < 1

t(-k1 -k2t) < 0 (-k1 -k2t) < 0 (porque t positivo)

para k1 negativo, k2 positivo, e o valor absoluto de k1 superior ao valor absoluto de k2, (-k1 -k2t) < 0 -k2t < k1
t > -k1 / k2

Assim, ao contrrio das equaes quadrticas ou parablicas, neste caso, este modelo diz-nos algo mais sobre o funcionamento deste processo.

Neste exemplo, em que t representa o tempo em semanas e n o azoto mineralizado no tempo t verifica-se que so necessrias 4,5 semanas para se passar da imobilizao para a mineralizao lquida.

53

Existem diversas funes que podem ser utilizadas em estudos de crescimento relacionados com variaes de factores ambientais. Milthorpe e Morby (1979) referem algumas das que so mais frequentemente utilizadas, nomeadamente:

54

55

56 53

IV Anlise multivariada
21 Anlise factorial de componentes principais
A anlise de componentes principais, um mtodo estatstico multivariado que permite transformar um conjunto de variveis quantitativas iniciais correlacionadas entre si (x1, x2,, xp), noutro conjunto com um menor numero de variveis no correlacionadas (ortogonais) e designadas por componentes principais (y1, y2,,yp), que resultam de combinaes lineares das variveis iniciais, reduzindo a complexidade de interpretao dos dados. As componentes principais so calculadas por ordem decrescente de importncia, isto , a primeira explica a mxima varincia dos dados, a segunda a mxima varincia ainda no explicada pela primeira, e assim sucessivamente. A ltima componente ser a que menos contribui para a explicao da varincia total dos dados.
Exerccio 17

Considere os seguintes dados fictcios. Efectue a anlise factorial dos componentes principais. Profisso Contabilistas Arquitectos Autores Dentistas Professores Universitrios Qumicos Advogados Padres Mdicos Trabalhadores Sociais Professores do Liceu Industriais Comerciantes Carpinteiros Seguros Vendedores Maquinistas Mecnicos Electricistas Guardas Cozinheiros Camionistas Barbeiros Criadas Recepcionistas Porteiros Polcias Marceneiros Canalizadores Engenheiros Pintores Prestgio 83,00 91,00 77,00 90,00 93,00 90,00 89,00 90,00 98,00 58,00 74,00 81,00 46,00 39,00 40,00 17,00 54,00 27,00 30,00 11,00 18,00 13,00 20,00 6,00 16,00 7,00 41,00 35,00 24,00 68,00 14,00 57 Suicdio 23,90 33,90 36,10 20,80 14,10 45,20 31,60 24,90 31,50 15,20 17,10 64,90 47,30 22,30 33,40 23,60 31,70 25,00 28,30 13,80 19,00 16,40 30,40 22,50 45,40 19,60 49,50 16,80 16,10 34,80 40,00 Rendimento 3967,00 5450,00 4327,00 4109,00 4458,00 6498,00 4993,00 6352,00 9010,00 3189,00 3476,00 4700,00 3785,00 2901,00 3872,00 2597,00 3477,00 2730,00 3390,00 1851,00 3369,00 2509,00 2268,00 1938,00 2239,00 1872,00 2996,00 3622,00 2972,00 4691,00 2303,00 Educao 14,30 16,80 15,50 16,80 17,00 15,80 16,00 16,50 17,00 15,80 16,00 12,20 11,00 12,60 12,60 12,20 11,20 9,30 9,20 10,40 9,20 9,50 8,70 9,80 8,60 7,90 10,50 12,30 9,70 8,90 8,00

Para obter uma figura com os 4 grficos tipo boxplot das variveis, e verificar se existe algum valor aberrante (outlet), estandardizam-se as variveis porque as unidades de medida so diferentes. O estudo da simetria e da normalidade feito usando o comando Explore.
Anlise Estatstica descritiva Descriptives: variveis & standardized values

Descriptive Statistics N PRESTIGI SUICDIO RENDIMEN EDUCAO Valid N (listwise) 31 31 31 31 31 Mean 49,6774 28,8742 3739,0645 12,3000 Std. Deviation 31,72737 12,29615 1557,61300 3,18078

Anlise Estatstica descritiva Explore. Coloque as variveis com a inicial Z; Plots em Dependents together, e normality plots with tests

9
12

12

-1

-2
N= 31 31 31 31

Zscore(PRESTIGI)

Zscore(RENDIMEN) Zscore(EDUCAO)

Zscore(SUICDIO)

58

Anlise factorial Anlise Data reduction Factor: Colocar variveis. Descriptives: Univariate descritives;Inicial solution; Coefficients; Significance levels; KMO and Bartletts test of sphericity. Extraction: Method principal components; Analyse correlation matrix; Display unrotated factor solution; Scree plot; Eigenvalues over 1. Rotation: Method Varimax; Rotated solution; Loading plots. Scores: Save as variables: Regression; Display factor score coefficient matrix. Options: Exclude cases listwise; Sorted by size.

59

A matriz das correlaes mede a associao linear entre as variveis atravs do coeficiente de correlao de Pearson. A taxa de suicdio no est correlacionada com as restantes variveis.
Correlation Matrix PRESTIGI 1,000 ,208 ,831 ,868 ,130 ,000 ,000 SUICDIO ,208 1,000 ,255 -,088 ,130 ,083 ,319 RENDIMEN ,831 ,255 1,000 ,702 ,000 ,083 ,000 EDUCAO ,868 -,088 ,702 1,000 ,000 ,319 ,000

Correlation

Sig. (1-tailed)

PRESTIGI SUICDIO RENDIMEN EDUCAO PRESTIGI SUICDIO RENDIMEN EDUCAO

KMO = 0,602 => Continua-se a anlise factorial porque considerada razovel.


KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity Approx. Chi-Square df Sig. ,602 83,642 6 ,000

KMO: Muito Boa Boa Mdia Razovel M Inaceitvel

1-0,9 0,8-0,9 0,7-0,8 0,6-0,7 0,5-0,6 <0,5.

Todas as variveis tm forte relao com os factores retidos (>0,6)


Communalities Initial 1,000 1,000 1,000 1,000 Extraction ,942 ,982 ,847 ,917

PRESTIGI SUICDIO RENDIMEN EDUCAO

Extraction Method: Principal Component Analysis.

Mais de 90% da varincia explicada pelos dois factores retidos que tm valores prprios (Eigenvalues) superiores a 1.
Total Variance Explained Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Component Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative % 1 2,632 65,810 65,810 2,632 65,810 65,810 2,593 64,837 64,837 2 1,056 26,406 92,216 1,056 26,406 92,216 1,095 27,378 92,216 3 ,236 5,896 98,111 4 7,554E-02 1,889 100,000 Extraction Method: Principal Component Analysis.

60

A maior inclinao da recta ou maior afastamento entre os valores prprios corrobora a reteno dos dois primeiros factores.
Scree Plot
3,0

Prestgio, rendimento e educao esto associados com o factor 1 e suicdio est associado com o factor 2.

2,5

Component Matrix a Component

2,0

1 PRESTIGI RENDIMEN EDUCAO SUICDIO ,971 ,915 ,898 ,218

1,5

1,0

2 -7,90E-03 ,105 -,333 ,967

Eigenvalue

,5

Extraction Method: Principal Component Analysis. a. 2 components extracted.


1 2 3 4

0,0

Component Number

Os resultados do grfico component plot in rotated space resultam dos valores do quadro rotated component matrix.

Component Plot in Rotated Space


1,0

a Rotated Component Matrix

,5 rendimen prestigi 0,0 educao

Component 1 2 PRESTIGI ,960 ,145 EDUCAO ,939 -,188 RENDIMEN ,887 ,247 SUICDIO 6,366E-02 ,989 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization. a. Rotation converged in 3 iterations.

Component 2

-,5

-1,0 -1,0 -,5 0,0 ,5 1,0

Component 1

A associao de trs das variveis (rendimento, prestgio e educao) positiva, constituindo um grupo associado ao factor 1. A varivel suicdio identifica-se com o factor 2. As variveis nos extremos das linhas (horizontal ou vertical) tm pesos elevados apenas num factor. Se estivessem perto da intercepo no estariam associadas a qualquer factor. Se as variveis se distribussem por extremos opostos, estariam negativamente associadas entre si.

61

Identificao de casos aberrantes (outlets). As profisses cujos valores estandardizados so superiores a 2 em valor absoluto so consideradas outliers.
Grfico Scatter Simple; Define:Y axis Factor 2 (fact2_1); X axis factor 1 (fact1_1). Label cases by profisso; Options: Exclude case listwise; Display with case labels.
3 industriais

REGR factor score 2 for analysis

polcias comerciantes recepcionistas 1 pintores engenheiros

qumicos

seguros maquinistas barbeiros electicistas 0 mecanicos

mdicos autores arquitectos advogados

padres contabilistas criadas vendedores cozinheiros porteiros carpinteiros canalizadores dentistas camionistas marceneiros guardas prof.liceal trab-sociais prof.universitarios

-1

-2 -2 -1 0 1 2 3

REGR factor score 1 for analysis

22 Anlise de clusters
A anlise de grupos ou de clusters, uma anlise multivariada que permite agrupar variveis ou casos em grupos homogneos, relativamente a uma ou mais caractersticas comuns. A anlise de clusters de casos pode ser realizada no SPSS pelo mtodo de anlise de cluster hierrquica, onde os clusters so constitudos com base nos pares de casos mais prximos de acordo com uma medida de distncia escolhida. A medida de distncia mais frequentemente utilizada o quadrado da distncia Euclideana. O mtodo designado hierrquico porque uma vez que dois casos sejam unidos, permanecem assim ao longo das sucessivas etapas de 62

agregao. Isto , um cluster formado numa etapa posterior inclui clusters da etapa anterior e assim sucessivamente. Quando as variveis tm escalas diferentes deve-se estandardizar cada varivel para ter a mesma varincia antes de se calcularem as distncias. O mtodo hierrquico tem sete procedimentos para a ligao dos clusters: 1. Menor distncia, ou vizinho mais prximo (nearest neighbor ou single linkage); 2. Maior distancia, ou vizinho mais afastado (furthest neighbor ou complete linkage); 3. Distncia mdia entre clusters, ou entre grupos (between groups); 4. Distncia mdia dentro dos clusters, ou dentro dos grupos (within groups); 5. Distncia mediana (median cluster); 6. Centride (centroide clustering); 7. Ward. Os trs primeiros procedimentos so os mais utilizados. O procedimento da menor distncia tende a criar um menor nmero de clusters maximizando a conectividade entre os clusters. Pelo contrrio o procedimento da menor distncia tende a minimizar a distncia entre clusters e a produzir clusters mais compactos. Os restantes mtodos abordados tendem a apresentar caractersticas intermdias entre estes dois mtodos extremos. recomendvel a utilizao de vrios procedimentos de ligao de clusters. Se os resultados da agregao diferirem muito com o procedimento pouco provvel que os dados tenham clusters naturais distintos.
Exerccio 18

Considere os resultados do quadro seguinte relativos a uma anlise sensorial de 10 variedades de maa, sujeitas a idntico tratamento ps-colheita, em que se classificaram 4 atributos (consistncia, aroma, doura, e persistncia do sabor) de 0 a 100, para criar grupos homogneos de variedades de maa.

Variedade Consistncia Aroma Doura P. Sabor

1 25 20 40 30

2 65 75 40 30

3 55 40 50 50

4 65 65 80 45

5 45 50 45 30

6 35 25 50 5

7 50 45 45 40

8 35 10 30 20

9 60 70 70 20

10 55 50 45 40

63

SPSS / Exerccio 21 Anlise Classify Hierachical cluster Seleccione as variveis (atributos); Label case by variedade (definida como string). Para agrupar as variedades seleccione cases na rea cluster, e na rea display seleccione statistics e plots. Statistics Aglomeration schedule. Cluster membership range of solutions from 2 through 4 clusters (no incio pode no utilizar a opo cluster membership). Plots Dendogram. Method nearest neighbor (fazer depois com furthest neighbor e between groups). Interval Squared Euclidean Distance. Transform values Standardized none se as variveis tiverem amplitudes semelhantes, ou Z scores se as amplitudes no forem semelhantes. Existem ainda outras opes em funo do tipo de amplitude das variveis. Save Range of solutions from 2 through 4 clusters.

64

O quadro de aglomerao identifica os clusters que so combinados em cada etapa. Primeiro agregou-se o 7 ao 10, uma vez a sua distncia Euclideana (50) que aparece na coluna coeficientes a menor da tabela. Depois agregou-se o 5 ao cluster do 7 e 10, e assim sucessivamente.
Agglomeration Schedule Stage Cluster First Appears Cluster 1 Cluster 2 0 0 0 1 0 2 0 0 0 0 4 0 0 3 7 5 6 8

Stage 1 2 3 4 5 6 7 8 9

Cluster Combined Cluster 1 Cluster 2 7 10 5 7 3 5 1 8 4 9 1 6 2 3 2 4 1 2

Coefficients 50,000 150,000 175,000 400,000 775,000 850,000 850,000 1050,000 1325,000

Next Stage 2 3 7 6 8 9 8 9 0

No quadro seguinte apresenta-se a constituio dos clusters. Quando se consideram 3 clusters verifica-se que o primeiro constitudo pelas variedades 1, 6 e 8, o segundo pelas variedades 2, 3, 5, 7 e 10, e o terceiro pelas variedades 4 e 9. Utilizando qualquer outro dos primeiros quatro mtodos ou procedimentos referidos para a anlise hierrquica verifica-se que no existe qualquer diferena na constituio destes 3 clusters.
Cluster Membership Case 1:V1 2:V2 3:V3 4:V4 5:V5 6:V6 7:V7 8:V8 9:V9 10:V10 4 Clusters 1 2 3 4 3 1 3 1 4 3 3 Clusters 1 2 2 3 2 1 2 1 3 2 2 Clusters 1 2 2 2 2 1 2 1 2 2

65

O dendograma representa graficamente o esquema apresentado no quadro de agregao em que as distncias (ou coeficientes) foram reescalonadas numa escala de 0 a 25 e no de 0 a 1325 como se encontra no quadro de aglomerao.

Dendrogram using Single Linkage


Rescaled Distance Cluster Combine C A S E Label Num V7 V10 V5 V3 V2 V4 V9 V1 V8 V6 7 10 5 3 2 4 9 1 8 6 0 5 10 15 20 25 +---------+---------+---------+---------+---------+

A anlise deste dendograma revela que existem dois clusters bem distintos formados pelas variedades (1, 8 e 6) e (9, 4, 2, 3, 5, 10, 7). Neste ltimo cluster parece clara a diviso entre as variedades 4 e 9 e as restantes. Entre as restantes a variedade 2 afasta-se contudo das variedades 3, 5, 7 e 10. A distncia entre clusters e o critrio do R quadrado podem ser utilizados para avaliar o nmero de clusters que se devem reter. Se a distncia entre dois clusters pequena, estes devem ser agregados, pelo contrrio se a distncia grande os dois clusters devem manter-se separados. Isto pode-se verificar pelos coeficientes do quadro de aglomerao, ou pelo declive da recta que une os dois clusters quando estes so representados em grfico no eixo horizontal relativamente s distncias no eixo vertical. O R quadrado uma medida da percentagem da variabilidade total que retida em cada uma das solues dos clusters. O que se pretende alcanar uma percentagem elevada da variabilidade (e.g. > 80%) com um nmero reduzido de clusters. Estes clculos podem ser realizados com o auxlio da Anova one-way do SPSS. Para isso a anlise hierrquica de clusters realiza-se com o registo do cluster membership para um range of solutions de 2 a 9.

66

Anlise Classify Hierachical cluster. Save Range of solutions from 2 through 9 clusters.

As novas variveis, da clu9_1 clu2_1, indicam a constituio dos clusters para cada nmero de clusters considerado, desde o mximo de 9 clusters at ao mnimo de 2 clusters. Estas novas variveis podem ser utilizadas para efectuar uma Anova one-way (anlise / compare /
one way Anova) para as 4 variveis (atributos das maas).

67

A adio das somas dos quadrados entre grupos (1677,5 + 4237,2 + 1972,5 + 1640) a dividir pela adio das somas dos quadrados totais (1690 + 4250 + 1972,2 + 1640) resulta no valor do R quadrado (0,997) para 9 clusters.
ANOVA Sum of Squares 1677,500 12,500 1690,000 4237,500 12,500 4250,000 1972,500 ,000 1972,500 1640,000 ,000 1640,000

df 8 1 9 8 1 9 8 1 9 8 1 9

CONSIST

AROMA

DOURA

P.SABOR

Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total

Mean Square 209,688 12,500 529,688 12,500 246,563 ,000 205,000 ,000

F 16,775

Sig. ,187

42,375

,118

Procedendo de forma idntica para as outras solues de clusters resulta: N de clusters R- quadrado 1 0 2 0,566 3 0,752 4 0,848 5 0,901 6 0,941 7 0,962 8 0,986 9 0,997

Para explicar mais de 75% da variabilidade total seriam necessrios apenas 3 clusters. Para explicar mais de 80% da variabilidade seriam necessrios 4 clusters.

68

Bibliografia
Carvalho M 1988. A estatstica aplicada experimentao agrcola. Coleco Nova Agricultura n 2. Edies Afrontamento. Maroco J 2003. Anlise estatstica Com utilizao do SPSS. Edies Slabo, Lda Mead R & Curnow R 1987. Statistical methods in agriculture and experimental biology. University of Reading. Chapman and Hall. London. Milthorpe F L & Moorby J 1979. An introduction to crop physiology. 2nd ed. Cambridge University Press, pp.224-227. Pereira A 2003. SPSS - Guia prtico de utilizao. 4ed. Edies Slabo, Lda. Pestana H P & Gageiro J N 2000. Anlise de dados para cincias sociais. A complementaridade do SPSS. 2 ed. Edies Slabo, Lda.

69

70

Você também pode gostar