Escolar Documentos
Profissional Documentos
Cultura Documentos
STATISTICA
6.0
Prof. Paulo Jos Ogliari, Dr. Eng. Juliano Anderson Pacheco, MSc.
SUMRIO 1. INTRODUO .....................................................................................................................3 2. GERENCIAMENTO DE ARQUIVOS ...............................................................................5 2.1. CRIAR UM NOVO ARQUIVO ................................................................................................6 2.2. IMPORTAO DE ARQUIVOS DO EXCEL ...........................................................................10 3. ANLISE EXPLORATRIA DE DADOS .....................................................................13 3.1. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUALITATIVAS ......................................13 3.1.1. Unidimensional .......................................................................................................13 3.1.2. Bidimensional .........................................................................................................23 3.2. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUANTITATIVAS ....................................35 3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta ........36 3.2.2. Representaes Grficas de Variveis Quantitativas Discretas ............................38 3.2.3. Dados Agrupados em Classes.................................................................................40 3.2.4. O Modelo Normal ...................................................................................................44 3.3. ESTATSTICAS DESCRITIVAS ...........................................................................................51 3.3.1. Medidas de Tendncia Central e Disperso ...........................................................51 3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal .............................................56 3.3.3. Desenho Esquemtico (Box Plot) ...........................................................................59 3.3.4. Diagrama de Disperso ..........................................................................................62 3.3.5. Coeficiente de Correlao ......................................................................................64 3.3.6. Ajuste da Equao de uma Reta .............................................................................66 4. OPES GRFICAS ........................................................................................................74 5. TESTES ESTATSTICOS PARA COMPARAO DE DUAS MDIAS ...................81 5.1. TESTE DE DUAS MDIAS POPULACIONAIS COM VARINCIAS DESCONHECIDAS ..............81 5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas ........................81 5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas ..................87 5.1.3. Amostras Dependentes (Dados Pareados) .............................................................91 5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados Pareados.....................................................................................................................................95 6. TESTE PARA DUAS OU MAIS PROPORES ..........................................................98 6.1. O TESTE DO QUI-QUADRADO (CHI-SQUARE) ...............................................................98 7. ANLISE DE VARINCIA ............................................................................................117 7.1. DELINEAMENTO INTEIRAMENTE CASUALIZADO............................................................118 7.2. EXEMPLO ......................................................................................................................118 7.3. ANLISE ESTATSTICA ..................................................................................................120 7.3.1. Anlise de Varincia .............................................................................................122 7.3.2. Comparaes Mltiplas de Mdias ......................................................................124 7.3.3. Contrastes Ortogonais ..........................................................................................126 7.3.4. Diagnstico do Modelo .........................................................................................129
Cap. 1 Introduo
1. INTRODUO
O software STATISTICA um programa integrado para gerenciar Anlise Estatstica e Bases de Dados, caracterizando uma ampla seleo do processo analtico, do bsico ao avanado, para as mais diversas reas - Cincias Biomdicas, Biolgicas, Engenharias, Cincias Sociais, Agrrias - permitindo a realizao de Data Mining (Minerao de Dados). O sistema no inclui somente procedimentos estatsticos e grficos gerais, mas, tambm, mdulos especializados (Anlise de Regresso, Anlise de Sobrevivncia, Sries Temporais, Anlise Fatorial, Anlise Discriminante e diversos outros mdulos). Dificilmente, o usurio necessitar de todos os mdulos oferecidos pelo STATISTICA para a anlise do seu trabalho, e ser, a partir de sua criatividade e conhecimento terico, que chegar as respostas dos seus objetivos. Neste trabalho, foram desenvolvidos trs assuntos: a) Anlise exploratria de dados, b) Alguns testes de hipteses sobre mdias e propores e c) Anlise de varincia com um fator (one-way ANOVA). Esta apostila foi elaborada com o propsito de auxiliar os estudantes de graduao e ps-graduao e demais interessados, na iniciao do uso de um programa estatstico. Escolheu-se o programa STATISTICA, por apresentar uma plataforma interativa com o usurio e, tambm, por ser ele dos programas mais completos da rea existente na atualidade. Pede-se que qualquer problema encontrado na apostila, entrar em contato preferencialmente para jap@inf.ufsc.br ou para ogliari@inf.ufsc.br.
Cap. 1 Introduo
2. GERENCIAMENTO DE ARQUIVOS
O STATISTICA trabalha com variveis categorizadas, qualitativas e quantitativas, permitindo a formao de grupos que sero analisados. Ou seja, utiliza uma tcnica mais apropriada para resumir as informaes, adaptando qualquer tipo de varivel ao caso estudado e armazena as variveis mediante notao dupla, isto , utiliza os valores da varivel de forma categorizada (texto) e na forma de nmeros, que podem ser valores codificados (numricos). Por exemplo, a varivel Ferrugem, apresentada no Quadro 1.1, foi dividida em categorias (quatro nveis): resistente (r), susceptvel (s), moderadamente susceptvel (ms) e moderadamente resistente (mr). O STATISTICA usar os cdigos numricos internamente, mas o usurio pode sempre referenciar a ferrugem usando os textos respectivos, conforme apresentado na figura 2.1.
Feita a coleta de dados, atravs de censos, de levantamentos por amostragem ou de experimentos, geralmente estes dados se apresentam de maneira desorganizada, ainda sem valor informativo sobre o fenmeno em estudo. Portanto, os mesmos devem ser organizados para possibilitarem a anlise. A matriz de dados pode ser criada ou importada. A seguir esto os procedimentos para criar um novo arquivo e importar uma planilha do Excel.
2.1. Criar um novo arquivo (1) Abra o programa STATISTICA; (2) Surgir um arquivo de dados vazio com 10 colunas (ou variveis) e 10 linhas (ou casos), conforme apresentado na Figura 2.2:
(3) Geralmente necessrio alterar esse arquivo inicial, com relao ao nmero de variveis ou de casos para permitir a digitao dos dados coletados (4) Esse arquivo ser alterado para possibilitar a entrada dos dados apresentados no Quadro 1.1, logo necessrio excluir 3 variveis e incluir mais 22 casos, gerando uma tabela com 7 colunas e 32 linhas (5) Para excluir as 3 colunas, selecione as trs ltimas colunas, clique com o boto direito do mouse e escolha a opo [DELETE VARIABLES], proceder conforme apresentado nas Figuras 2.3 e 2.4:
(6) Para incluir os 22 casos, selecione a ltima linha, clique com o boto direito do mouse e escolha a opo [ADD CASES], proceder conforme apresentado nas Figuras 2.5 e 2.6:
(7) o arquivo deve ser salvo, para isso no menu [FILE], escolha a opo [SAVE] e defina o nome do arquivo, conforme apresentado na Figura 2.7:
(8) Neste momento dispomos de uma tabela possvel para inserir os dados apresentados no Quadro 1.1, mas primeiramente necessrio definir os nomes das variveis e os tipo de dados a serem inseridos (9) Clique duas vezes em cima da primeira coluna e aparecer a janela apresentada na Figura 2.8:
onde: Name: corresponde ao nome da varivel Type: corresponde ao tipo da varivel, onde os valores possveis so: Double (valores com decimais), Integer (valores inteiros), Text (texto) e Byte (valores inteiros entre 0 e 255) Display format: formato de apresentao dos dados Observao: Para acessar a janela da Figura 2.1 e digitar os respectivos textos da varivel Ferrugem, basta clicar no boto [Text Labels] da janela apresentada na Figura 2.8. (10) No Quadro 2.1 esto as possveis definies das 7 variveis apresentadas no Quadro 1.1:
Quadro 2.1. Definies das Varivel Name Cultivar Cultivar Rendimento mdio (kg/ h) Rendimento Ciclo Ciclo (dias) Altura planta (cm) Altura_planta Altura espiga (cm) Altura_espiga Tipo de gro Tipo_grao Ferrugem Ferrugem (escala) variveis Type Display Format Byte Number Integer Number Byte Number Integer Number Integer Number Text Text -
2.2. Importao de Arquivos do Excel Existem duas maneiras de importar arquivos no formato Excel. A primeira que ser descrita ideal no caso de planilhas pequenas, pois fcil selecionar a matriz de dados usando somente o mouse. No caso de grandes arquivos, utilize a segunda opo. 1 Opo: (1) Abra o aplicativo Excel (2) Carregue o arquivo de dados que se deseja transferir para o STATISTICA e copie para a rea de transferncia a regio da planilha que contm os dados, conforme apresentado na Figura 2.10:
(3) No STATISTICA , crie um novo arquivo com o mesmo tamanho que a regio dos dados no Excel (mesmo nmero de colunas e linhas), o item 2.1 ensina como criar um novo arquivo (4) Criado o arquivo, selecione a primeira clula cole os dados da rea de transferncia, atravs do menu [EDIT], opo [PASTE] e o resultado est apresentado na Figura 2.11:
10
(5) Salve o novo arquivo criado, atravs desse processo. 2 Opo: (1) Abrir o programa STATISTICA; (2) No menu [FILE], escolher a opo [Open], aparecer a janela apresentada na Figura 2.12, onde o formato a ser escolhido ser Excel files (*.xls)
(3) Selecione a planilha a ser importada (4) Ser apresentada a janela mostrada na Figura 2.13, que representa um resumo da tabela de dados a ser importada;
11
onde: Range Columns: representa o nmero de variveis existentes na tabela de dados Range Rows: representa o nmero de casos existentes na tabela de dados Get case names from first column: atribui nomes aos casos conforme a primeira coluna da tabela de dados Get variable names from first row: atribui nomes s variveis conforme a primeira linha da tabela de dados Import cell formatting: importa a tabela mantendo a formatao existente no Excel (5) O resumo deve ser verificado quanto ao nmero de variveis e casos existentes na tabela de dados, se o mesmo diferir dos valores corretos, deve-se fazer o seguinte processo: copiar a rea dos dados, juntamente com os nomes das variveis e casos se existirem, para um novo arquivo do Excel, salvar e repetir todos os itens anteriores (6) Se o quadro resumo estiver correto, prossiga e o resultado est apresentado na Figura 2.14:
13
(4) Clique no boto [Variables] e selecione a varivel Ferrugem, conforme apresentado na Figura 3.3. Se for mantido o boto esquerdo do mouse apertado, com o movimento de subida e descida possvel selecionar vrias variveis ao mesmo tempo, para pular alguma, mantenha apertado a tecla CTRL do teclado e com o boto esquerdo do mouse clique na varivel de interesse:
14
(6) Clique na aba [Options] e defina as opes conforme apresentado na figura 3.5. Para desativar, basta clicar na opo correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:
15
Concluso: a freqncia (ocorrncia) da varivel resistncia ferrugem na anlise de 32 hbridos : 10 resistentes (r) ferrugem = 31,250% 7 susceptveis (s) ferrugem = 21,875% 9 moderadamente susceptveis (ms) ferrugem = 28,125% 6 moderadamente resistentes (mr) ferrugem = 18,750% Importante: a forma como o STATISTICA organiza as janelas durante a anlise a seguinte: h o arquivo de dados com extenso .sta os resultados so gerados no workbook, estes podem ser gravados num arquivo com extenso .stw. No caso da Figura 3.6 foi gravado o arquivo Capitulo3.stw. aps os resultados serem apresentados no workbook, a janela da anlise minimizada no canto inferior esquerdo. No caso da Figura 3.6 v-se que a anlise atual Frequency Tables. 3.1.1.2. Tabela de Distribuio de Freqncia Unidimensional com fator estratificado Conforme pode ser visto direita embaixo da janela apresentada na Figura 3.5, existe o boto [Select Cases S] que permite filtrar os casos com base nas variveis disponveis. Abaixo esto dois exemplos da aplicao desse procedimento de filtragem. (1) Clique no boto [Select Cases S] da janela apresentada na Figura 3.5. Aparecer a janela apresentada na Figura 3.7:
16
(2) Como demonstrado na Figura 3.7, sero includos somente os casos que a varivel v6 (Tipo de gro) assume o valor dentado, que significar que a tabela construda mostrar somente a distribuio da resistncia ferrugem para tipo de gro dentados (3) Para isso, clique em Specific, selected by: By Expression, digite a condio: v6=dentado e clique no boto [OK] (4) Ao voltar para a janela da figura 3.5, clique novamente no boto [Summary] e o resultado est apresentado na Figura 3.8:
Figura 3.8 Resultado da distribuio da freqncia da varivel resistncia ferrugem para o tipo de gro dentado
(6) Para realizar um estudo para hbridos de ciclo curto, hbridos com ciclo da cultura entre 64 e 70 dias, altere a condio de filtragem conforme apresentado na Figura 3.9, onde a condio : v3>=64 and v3<=70
(7) Ao clicar no boto [OK] e voltar para a janela da figura 3.5, clique novamente no boto [Summary] e o resultado est apresentado na Figura 3.10:
17
Figura 3.10 Resultado da distribuio da freqncia da varivel resistncia ferrugem para hbridos de ciclo curto
3.1.1.3. Grfico de Colunas/Barras O STATISTICA um programa que permite integrar um grande potencial grfico com a anlise estatstica de dados num nico aplicativo. A editorao grfica facilitada por meios de opes do sistema. A construo de grficos est disponvel para qualquer mdulo do STATISTICA, visto que existe na barra do menu, a opo Graphs Clicando nela aparecem as opes grficas do aplicativo e cabe ao usurio conhecimento terico e intuitivo para que seja encontrada a melhor forma de representao do fenmeno. Sero construdos grficos em duas e trs dimenses, como 1 exemplo, um simples histograma de freqncia (grfico de colunas/barras). DICA: a compatibilidade do STATISTICA com o Windows plena, isto significa que todas as operaes comuns no Windows so reconhecidas e aceitas. Assim sendo, cortar e colar se combinam com Screen Catcher (Opo em Edit, na Barra de ferramentas do menu principal do STATISTICA que permite a captura da janela ou de um quadro), Alt + Print Screen (no teclado) que copia, trabalhando em conjunto com algum editor de figuras, como o Paint; e mais, h a possibilidade de salvar tudo o que foi feito em formato .rtf (rich text format) atravs do uso da opo Report, que permite criar relatrios internamente no programa, tornando o STATISTICA um editor de grficos bem completo. Exemplo: Construo do grfico de colunas para a varivel resistncia ferrugem. (1) No menu [Graphs], escolha a opo [Histograms], clique na aba [Advanced] e aparecer a janela apresentada na Figura 3.11:
18
(2) Selecione a varivel, clicando no boto [Variables] e depois na varivel que ser estudada, conforme apresentada na figura a seguir:
Figura 3.12 Janela que mostra as variveis que podem ser selecionadas
(3) Na janela da Figura 3.11, especifique: o tipo de grfico (Graph Type:) regular o tipo de ajuste (Fit Type:) off (sem) ativar o Breaks between Columns (para que haja espao entre as colunas) O resultado das especificaes est apresentado na figura a seguir:
19
(5) Para fazer um grfico de barras, na janela da Figura 3.13, clique na aba [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:
20
Nota: No captulo 4 sero apresentadas as opes grficas para modificao do layout dos grficos. Imagina-se que os cultivares de 1 a 11 sejam do municpio de Iara. Se desejarmos fazer um grfico para este municpio, ento: (6) Volte na janela da Figura 3.13, clique no boto [Select Cases] e crie o filtro apresentado na figura a seguir:
21
Figura 3.17 Grfico de barras da varivel resistncia ferrugem para o municpio de Iara
Observao: Existe mais de uma maneira de gerar um grfico, como o uso do menu flutuante (pop-up menu), para us-lo, selecione a coluna da varivel desejada e clique com boto direito do mouse. Aparecer uma janela onde deve selecionar a opo Graphs of Input Data a seguir escolha o grfico adequado, conforme apresentado na figura a seguir.
22
3.1.2. Bidimensional Com essa anlise possvel criar: - Distribuio da freqncia para duas variveis; - Tabelas de contingncia: independncia de variveis qualitativas, uso do: o o Coeficiente de contingncia de Pearson; Coeficiente de Cramr.
3.1.2.1. Tabela da Distribuio de Freqncia Bidimensional Exemplo: Anlise da distribuio de freqncia das variveis resistncia ferrugem e tipo de gro. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.19, onde a opo a ser escolhida ser Frequency Table:
(3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme apresentado na Figura 3.21. As variveis aparecero na List 1: e List 2:.
23
(4) Clique nos botes [OK] da janela anterior e da Figura 3.20 e aparecer a janela apresentada na Figura 3.22:
Figura 3.23 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo com a resistncia ferrugem e tipo de gro
A linha All Grps mostra as freqncias absolutas, ou seja, o total de hbridos para cada categoria do tipo de gro. Como os totais marginais so diferentes, dificuldades reais de interpretao so introduzidas.
24
Para uma melhor interpretao da tabela, o ideal selecionar que a tabela mostre os resultados em termos de propores, ou seja, podemos fixar o total de linhas e/ou o total de colunas e/ou o total geral. (6) Na janela da Figura 3.22, clique na aba [Options] e defina as opes conforme apresentado na figura 3.24. Para desativar, basta clicar na opo correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:
- Selecione Percentages of total count para a percentagem do total geral; ou - selecione Percentages of row counts para a percentagem do total das linhas; ou - selecione Percentages of column counts para a percentagem do total das colunas.
Quando fixar o total de linhas e/ou o total de colunas e/ou o total geral? A resposta deve ser de acordo com o objetivo da sua pesquisa. Fixe a varivel que voc quer dar mais nfase. No exemplo, se for a ferrugem, fixe somente o total de linhas. Se for o tipo de gro, fixe somente o total de colunas. (7) Escolha o tipo de percentagem e clique no boto [Summary]. Os resultados esto apresentados nas trs tabelas a seguir:
25
Concluso: observando a figura anterior, pode-se concluir que do total de hbridos, 5 ou 15,63% so resistentes e dentados.
Concluso: observando a figura anterior, pode-se concluir que 4 ou 40% dos resistentes so semi-dentados pois a soma na linha igual a 100%.
Concluso: observando a figura anterior, pode-se concluir que dos hbridos semi-dentados, 4 ou 36,36% so resistentes, ou ainda, semi-dentados e dentados tem maior porcentagem de resistncia (36,36% e 35,71%, respectivamente contra 14,29% dos semi-duros). As quatro figuras anteriores mostram o mesmo resultado, porm, repare que fixar os totais percentuais no modifica o resultado e sim, enfatiza que resistentes, so os semi-dentados e os dentados. 26
3.1.2.2. Grfico de Barras Mltiplas Para efetuar uma anlise comparativa de vrias distribuies, podemos construir um grfico de barras mltiplo. (1) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida [Histograms] e aparecer a janela apresentada na Figura 3.28:
(2) Selecione as variveis, clicando no boto [Variables] e depois escolha a varivel a ser estudada e a que ser a categoria, conforme apresentada na figura a seguir:
(3) Na janela da Figura 3.28, especifique: o tipo de grfico (Layout:) Overlaid O resultado das especificaes est apresentado na figura a seguir:
27
(5) Para fazer um grfico de barras, na janela da figura anterior, clique na aba [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:
Figura 3.31 Grfico de barras mltiplas, ferrugem (e seus quatro nveis: resistente, susceptvel, moderadamente susceptvel e moderadamente resistente) versus tipo de gro (e seus trs nveis:semi-duro, semi-dentado e dentado)
3.1.2.3. Tabelas de Contingncia: independncia de variveis As tabelas construdas at aqui, so denominadas tecnicamente de tabelas de contingncia e so teis para estudar a dependncia (ou independncia) entre
28
variveis. Vamos construir novamente a tabela bidimensional com as variveis ferrugem e tipo de gro, onde os totais de linhas foram fixados em 100%. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.32, onde a opo a ser escolhida ser Frequency Table:
(3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme apresentado na Figura 3.34. As variveis aparecero na List 1: e List 2:.
29
(4) Clique nos botes [OK] da janela anterior e da Figura 3.33 e aparecer a janela apresentada na Figura 3.35:
(5) Na janela da figura anterior, clique na aba [Options] e defina a opo percentagem do total das linhas (Percentages of row counts) conforme apresentado na Figura 3.36.
(6) Na janela da figura anterior, clique na aba [Advanced] e selecione a opo (Display selected %s in sep. tables) conforme apresentado na Figura 3.37. Essa opo separa as freqncias dos valores percentuais em tabelas distintas.
(7) Clique no boto [Summary] e os resultados esto apresentado nas figuras 3.38 e 3.39:
30
Figura 3.38 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo com a resistncia ferrugem e tipo de gro freqncias
Figura 3.39 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo com a resistncia ferrugem e tipo de gro - percentuais
Interpretao: se os semi-dentados fossem totalmente independentes da varivel resistncia a ferrugem, esperaramos 34,38% (All Grps) para as categoria r, s, ms e mr. Na tabela observamos que a categoria s apresenta 57,14%, valor este acima dos 34,38%. Da mesma forma, observamos tambm que a categoria mr, com 16,67%, esta abaixo dos 34,38%. Isto implica um distanciamento da independncia entre as variveis. Podemos deduzir que elas esto associadas. A determinao dos coeficientes de continncia de Pearson e Cramr, vo quantificar (forte, moderada ou fraca) a dependncia.
31
(7) Clicar em Crosstabulation Tables Resultados: hbridos (lado esquerdo, embaixo) Options Na janela da Figura 3.36 selecione a opo (Phi (2x2 tables) & Cramrs V & C) conforme apresentado na Figura 3.40.
(8) Na janela da figura anterior, clique na aba [Advanced] e no boto [Detailed two-way tables] e o resultado est apresentado na Figura 3.41:
Observao: O STATISTICA no corrige o coeficiente de contingncia (Contingency coefficient) = 0,4521588. A seguir est a frmula para correo:
C*
C (t - 1) t
0,4521588 (3 - 1) 3
0,5538
Como o coeficiente de contingncia est entre 0 e 1 (0 C* 1), temos uma associao moderada (mdia). Por outro lado, o coeficiente de Cramr (Cramrs V) - 0 V 1, indica uma associao fraca. 3.1.2.4. Grfico de Setores (Pie Charts) (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Pie Charts] e aparecer a janela apresentada na Figura 3.42:
32
(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel a ser estudada, conforme apresentada na figura a seguir:
(3) Na janela da Figura 3.42, clique na aba [Advanced] e especifique: o tipo de legenda (Pie legend): Text and Percent (mostra o texto (nveis) e as porcentagens) o tipo de visualizao (Type): 3D (tridimensional) a forma (Shape): Ellipse (elipse) O resultado das especificaes est apresentado na figura a seguir:
33
(4) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
(5) Para que os setores fiquem separados, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: Pie], ative o Exploded dos quatro setores, conforme apresentado na Figura 3.46:
34
(6) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
3.2. Distribuio de Freqncia de Variveis Quantitativas Varivel quantitativa aquela que apresenta como resultado, medidas e contagens. Podem ser contnuas e discretas. As contnuas, so todas as que, pelo menos em teoria, possam assumir qualquer valor dentro de um intervalo; enquanto as discretas, normalmente resultam de contagens, so nmeros inteiros e s assumem certos valores. Neste caso podemos estabelecer duas situaes: 35
1)
Observao: quando temos poucas observaes, at aproximadamente 25, a distribuio pode ser representada por meio de um diagrama de pontos. O programa STATISTICA no faz este diagrama. 2) Varivel discreta - distribuio de freqncia feita de maneira idntica s variveis qualitativas (categorizadas). Tambm pode ser representada por um diagrama de pontos. 3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta Se os resultados da varivel discreta no so muitos, podemos dar o mesmo enfoque dado as variveis qualitativas. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.50, onde a opo a ser escolhida ser Frequency Table:
36
(3) Clique no boto [Variables] e selecione a varivel Ciclo, conforme apresentado na Figura 3.52:
(5) Clique na aba [Options] e defina as opes conforme apresentado na figura 3.54:
3.2.2. Representaes Grficas de Variveis Quantitativas Discretas Os grficos de barras justapostas, conhecidos como histogramas, so indicados no caso de variveis contnuas. Podemos ento, construir um GRFICO DE ORDENADAS para o caso de uma varivel discreta, como por exemplo, a varivel ciclo da cultura. O procedimento no STATISTICA o mesmo que construir um grfico de barras j descrito anteriormente no item 3.1.1.3. Entretanto, o grfico de ordenadas ser construdo para a varivel Ciclo, portanto, siga os passos do exemplo das figuras 3.11 a 3.14, no esquecendo de alterar no item (2) para a varivel Ciclo. (1) O grfico resultante est apresentado na Figura 3.56:
Histogram (hibridos.sta 8v*32c) 6
No of obs
0 64 66 68 70 Ciclo 72 74 76
38
(2) Clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properties (All Options)). Na janela que abrir, clique na aba [Plot: Bars] e modifique a opo Type para Lines, conforme apresentado na Figura 3.57:
(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
Histogram (hibridos.sta 8v*32c) 6
No of obs
0 64 66 68 70 Ciclo 72 74 76
Quando temos muitas observaes de uma varivel em estudo (acima de 25), recomendvel a formao de intervalos de valores, isto , construir classes de ocorrncias.
39
O STATISTICA pode agrupar os dados em quantas classes quisermos, e a, construir tabelas e grficos em funo dos intervalos. Usar este artifcio uma maneira de encontrar uma melhor representao do fenmeno em estudo. Os intervalos ou so por ele agrupados (dados agrupados em classes), divididos de maneira igual conforme um n previamente estipulado (n of exact intervals), ou, o pesquisador define estas classes (amplitude de casas desiguais). 3.2.3. Dados Agrupados em Classes Quantos intervalos escolher? O nmero de classes deve ser o suficiente para nos dar uma boa idia do fenmeno, devendo por em evidncia a regularidade do fenmeno. O compromisso de cada pesquisador. Construindo sucessivamente diferentes histogramas, alterando o nmero de intervalos, possvel identificar a melhor opo, e assim, deve escolher o que melhor representa a distribuio do fenmeno por ele estudado. Recomenda-se que o nmero no seja muito grande (maior que 15) e nem muito pequeno (menor que 5) e tambm, sempre que for possvel, que as classes tenham a mesma amplitude. Procedimento: (1) Repetir os passos (1) a (5) do item 3.2.1 (Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta), porm altere a varivel para rendimento. (2) Clique na aba [Advanced] e defina a opo No. of exact intervals igual a 6, conforme apresentado na figura 3.59:
Iniciaremos o exemplo com um nmero de classes igual a 6. Posteriormente reduziremos para 5 e finalizaremos com 15 classes. O propsito baseado em uma verificao que vai possibilitar que visualizemos a realidade do fenmeno aonde certos grupos iro ento aparecer destacados. (3) Clique no boto [Summary] e o resultado est apresentado na Figura 3.60:
40
Figura 3.60 Tabela de Distribuio de Freqncia com 6 classes da varivel rendimento de gros
Observao: Neste caso, de dados agrupados em classes, repare que os intervalos de classes so de tamanhos iguais. (4) Clicar em Frequency Tables: hbridos (lado esquerdo, embaixo). Para a construo do histograma clique no boto [Histograms] da Figura 3.59. O resultado est apresentado a seguir:
Histogram: Rendimento Expected Normal 18 16 14 12
No. of obs.
10 8 6 4 2 0 3864 4347 4830 5313 5796 6279 6762 X <= Category Boundary
41
No. of obs.
(6) No ltimo grfico, a diviso em 15 classes permite que fiquem destacados os grupos de hbridos que possuem maior rendimento e o hbrido com baixo rendimento.
Histogram: Rendimento Expected Normal 7
No. of obs.
0 3967.5 4312.5 4657.5 5002.5 5347.5 5692.5 6037.5 6382.5 4140.0 4485.0 4830.0 5175.0 5520.0 5865.0 6210.0 6555.0 X <= Category Boundary
Note ainda que as linhas nos grficos representam o modelo normal (Karl Gauss) em forma de sino. Este aspecto terico representa a maioria dos fenmenos naturais e ser discutido mais adiante. Amplitude de classes desiguais Neste caso o STATISTICA no constri grficos (histogramas). Ele pode apenas construir uma tabela de freqncia com as classes definidas. Dando continuidade ao procedimento:
42
(7) Na janela da Figura 3.59, na aba [Advanced], defina a opo User-specified categories e digite os intervalos das classes de cada categoria conforme apresentado na figura a seguir:
Figura 3.65 Tabela de distribuio de freqncia usando categorias definidas pelo usurio
Observaes: A varivel deve ser indicada por seu nmero, ou por sua sigla. No exemplo, vamos trabalhar com a varivel Rendimento que pode ser identificada como v2 ou como RENDIMENTO.
43
3.2.4. Polgono de Freqncias Mtiplos Com esse tipo de grfico pode-se verificar mltiplas distribuies de freqncia num mesmo grfico. Segue a seqncia de passos para a construo do mesmo. (1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na Figura 3.66:
(2) Crie uma varivel aps a varivel Ferrugem, conforme definido na Figura 3.67 e clicar em OK:
(3) A nova varivel cCiclo corresponder a categorizao da varivel Ciclo, para isso basta posicionar o cursor na nova varivel e no menu [DATA], escolher a opo [Recode], conforme apresentado na Figura 3.68:
44
(4) A categorizao da varivel Ciclo ser feita conforme apresentado na Figura 3.69: clicar OK.
(5) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida [Histograms] e aparecer a janela apresentada na Figura 3.70:
45
(6) Selecione as variveis, clicando no boto [Variables] e depois escolha a varivel a ser estudada e a que ser a categoria, conforme apresentado na Figura 3.71:
(7) Na janela da Figura 3.70, especifique: o tipo de grfico (Layout:) Overlaid O resultado das especificaes est apresentado na Figura 3.72:
46
Figura 3.73 Grfico de colunas mltiplas, rendimento versus tipo de ciclo (precoce ou tardio)
(9) Para o grfico de freqncias mltiplas, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: General], ative o Multiple Lines conforme apresentado na Figura 3.74:
47
(10) Na janela da Figura 3.74, clique na aba [Plot: Bars], desative o Display Bars conforme apresentado na Figura 3.75:
48
Figura 3.76 Grfico polgono de freqncias mltiplas, rendimento versus tipo de ciclo (precoce ou tardio)
3.2.5. O Modelo Normal Uma distribuio de freqncia muito importante em estatstica surge quando os dados tendem a se concentrarem simetricamente em torno de um valor central. Essa distribuio conhecida como a distribuio normal ou Gaussiana e sua forma a de sino. A maioria dos fenmenos naturais tm esta distribuio, porm, apesar desta forma ser a mais esperada, o aspecto terico e cabe ao pesquisador estud-lo. O STATISTICA, por default, quando constri o histograma, tambm representa o modelo normal. Assim, o pesquisador pode ter uma idia se a sua amostra oriunda de uma distribuio aproximadamente normal. Normal Probability Plot (O Grfico Normal de Probabilidades) (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], a opo a ser escolhida ser Frequency Table. Selecione a varivel Rendimento. (2) Clique na aba [Descr.] conforme apresentado na Figura 3.77:
49
(3) Clique no boto [Normal probability plots (2)] e o resultado est apresentado na Figura 3.78:
Normal P-Plot: Rendimento 2.5 2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 3800 4000
4200 4400
4600 4800
5400 5600
5800 6000
6200 6400
6600
Interpretao: como os pontos esto dispostos prximos linha reta, conclui-se que a nossa amostra oriunda de uma distribuio aproximadamente normal.
50
3.3.1. Medidas de Tendncia Central e Disperso A varivel Rendimento adotada como exemplo para se obter as estatsticas descritivas. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.79, onde a opo a ser escolhida ser Descriptive statistics:
(3) Clique no boto [Variables] e selecione a varivel Rendimento. (4) Clique na aba [Advanced] conforme apresentado na Figura 3.81:
51
Na janela anterior, selecionou-se as estatsticas relevantes para o caso, conforme apresentado a seguir: Valid N - tamanho da amostra Mean mdia Sum soma Median mediana Standard Deviation - desvio padro Variance varincia Std. err. of mean - erro padro da mdia Skewness assimetria Minimum & maximum - mnimo e mximo Lower & upper quartiles - primeiro quartil (Q1) e terceiro quartil (Q3) Range amplitude Quartile range - desvio interquartlico (4) Clique no boto [Summary] e os resultados esto apresentados nas figuras 3.82 e 3.83:
52
Outro exemplo: Esta anlise ser baseada em um outro arquivo: bezerros.sta, que deve ser criado conforme dados apresentados no Quadro 3.1.
Quadro 3.1 - Resultado experimental do peso e comprimento, para duas raas de bezerros Raa Peso Comprimento (Kg) (cm) A 45 102 A 46 98 A 47 89 A 49 91 A 50 110 A 50 81 A 51 96 A 51 108 A 52 85 A 53 104 B 40 86 B 43 79 B 44 82 B 46 90 B 48 72 B 51 69 B 54 93 B 55 88 B 56 79 B 57 83
Como primeira anlise, sero determinadas as estatsticas bsicas da varivel Peso para cada tipo de raa de bezerros (A e B) apresentados no quadro anterior, para isso basta seguir o procedimento abaixo: (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.84, onde a opo a ser escolhida ser Breakdown & one-way ANOVA:
53
(3) Clique no boto [Variables] e selecione a varivel Peso como dependente (Dependent variables) e a varivel raa como agrupadora (Grouping variables), conforme apresentado na Figura 3.86.
(4) Clique nos botes [OK] das duas figuras anteriores e aparecer a janela apresentada na Figura 3.87, aps o clique na aba [Descriptives]:
54
Na janela anterior, selecionou-se as estatsticas relevantes para o caso, sendo que a mdia (mean) vem automaticamente, conforme apresentado a seguir: Standard Deviation - desvio padro Median & quartiles mediana, primeiro quartil (Q1) e terceiro quartil (Q3) (5) Clique no boto [Summary] e os resultados esto apresentados na Figura 3.88:
A anlise estatstica descritiva utilizada como uma descrio de um conjunto de valores. CUIDADO !!! A mdia e o desvio padro so afetados por valores extremos, altos ou baixos, e a estatstica torna-se irreal. A mdia (Mean) representar bem apenas em casos onde existe simetria, pois a mdia de um modelo assimtrico no reflete a realidade, e neste caso, a mediana (Median) torna-se uma melhor maneira de representao. O desvio padro (Standard deviation) e o erro padro da mdia (Std. err. of mean) so medidas calculadas em torno da mdia e a inteno quantificar a variabilidade dos dados em torno da mdia. Por ser, ento, uma medida relativa, deve existir uma referncia para que faamos a interpretao. Um pesquisador 55
com experincia j espera um determinado valor da variabilidade, caso contrrio, a anlise deve ser baseada em resultados de outros trabalhos. Nos quartis temos a distribuio dividida em quatro partes iguais.
25% 25% 25% 25%
3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal Nessa anlise, ser utilizada a ferramenta do STATISTICA de clculo de probabilidade, para isso basta seguir o procedimento abaixo: (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.89, onde a opo a ser escolhida ser Probability calculator:
(3) Na janela anterior, especificar: Distribution: Z (Normal) Two-tailed (bilateral) e Create Graph (criar o grfico) 56
(4) Clique no boto [Compute], aparecer o valor da probabilidade (p) e os grficos das funes densidade e distribuio de probabilidade, apresentados respectivamente nas figuras 3.92 e 3.93:
Observao: Para ter acesso ao grfico necessrio sair da janela de clculo de probabilidade, para isto clique no boto [Exit].
57
0.5 0.8
0.2 0.1
0.0 -3 -2 -1 0 1 2 3
0.0 -3 -2 -1 0 1 2 3
Figura 3.93 - Distribuio normal padro: mdia mais ou menos 1 desvio padro ( x 1s )
Interpretao: Observar na Figura 3.81, que no intervalo x 1s , temos exatamente 68,2689% dos valores (p=0,682689). (4) Repetir os itens (3) e (4) alterando o valor de X para 2 e 3. Os resultados esto apresentados nas figuras a seguir:
Probability Density Function y=normal(x;0;1) 0.6 1.0 Probability Distribution Function p=1-2*(1-inormal(0+abs(x-0);0;1))
0.5 0.8
0.2 0.1
0.0 -3 -2 -1 0 1 2 3
0.0 -3 -2 -1 0 1 2 3
Figura 3.94 - Distribuio normal padro: mdia mais ou menos 2 desvios padres ( x
2s )
58
0.5 0.8
0.2 0.1
0.0 -3 -2 -1 0 1 2 3
0.0 -3 -2 -1 0 1 2 3
Figura 3.95 - Distribuio normal padro: mdia mais ou menos 3 desvios padres ( x
3s )
Interpretao: Temos agora, 99,73% dos valores (p=0,9973). 3.3.3. Desenho Esquemtico (Box Plot) O uso da mediana, quartis e extremos importante para obtermos informaes sobre a forma, valor representativo, disperso e valores discrepantes da distribuio. A anlise ser realizada sobre o arquivo bezerros.sta. (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Box Plots] e aparecer a janela apresentada na Figura 3.96:
59
(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel Peso como a varivel a ser analisada (dependent variable), clique no boto [Ok] e aparecer a janela apresentada na figura a seguir:
(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
Box Plot (bezerros.sta 3v*20c) 58 56 54 52 50 48 46 44 42 40 38 Peso Median = 50 25%-75% = (46, 52.5) Non-Outlier Range = (40, 57)
Para saber se existe diferena na distribuio entre as duas raas, pode-se construir um grfico box plot categorizado, conforme apresentado no procedimento a seguir: (4) Na janela da Figura 3.97, clique na aba [Advanced] e especifique:
60
as variveis: independente (Independent variables): PESO e agrupadora (Grouping variables): RACA o tipo de grfico (Graph Type): Box Wiskers e Regular o intervalo de agrupamento (Grouping intervals): Integer mode o ajuste (FIT): off (sem linha) o ponto central (Middle Point): Value=Median e Style=Point a caixa (Box): Value=Percentiles e Coefficient=25 o limite (Whisker): Value=Non Outlier Range e Coefficient=1 (default) os pontos discrepantes (Outliers): Value=Outl & Extremes e Coefficient=1,5 O resultado das especificaes est apresentado na figura a seguir:
(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
61
Se diminuirmos o coeficiente para 0,4 vo aparecer outliers no desenho, conforme apresentado na Figura 3.101. O padro do STATISTICA e de muitos livros de estatstica usar o critrio coeficiente (Coefficient) igual a 1,5, porm, o pesquisador tem autonomia para alter-lo.
Box Plot (bezerros.sta 3v*20c) 58 56 54 52 50
Peso
48 46 44 42 40 38 A Raca B
Figura 3.101 Desenho esquemtico para as raas A e B, usando o coeficiente igual a 0,4
3.3.4. Diagrama de Disperso Para verificar o relacionamento entre duas variveis pode-se utilizar o diagrama de disperso. A anlise ser realizada sobre o arquivo hibridos.sta. (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Scatterplots] e aparecer a janela apresentada na Figura 3.102:
62
(2) Na janela da Figura anterior, especifique: as variveis: X: Altura_planta e Y: Altura_espiga o tipo de grfico (Graph Type): Regular o ajuste (Linear fit): sem seleo O resultado das especificaes est apresentado na figura a seguir:
(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
63
150
140
Altura_espiga
130
120
110
100 230
240
250
260 Altura_planta
270
280
290
Figura 3.104 Diagrama de disperso para as variveis quantitativas, altura de espiga e altura de planta.
Interpretao: de modo geral observamos uma tendncia linear nos dados, isto , quanto mais altas so as plantas, mais altas as alturas das espigas. 3.3.5. Coeficiente de Correlao (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.105, onde a opo a ser escolhida ser Correlation matrices:
64
(3) Clique no boto [Two lists (rect. matrix)] e selecione a varivel Altura_planta (First variable list) e a varivel Altura_espiga (Second variable list (optional)), conforme apresentado na Figura 3.107.
(5) Clique no boto [Summary] da figura anterior e o valor da correlao estar apresentado na Figura 3.109:
65
Interpretao: Podemos concluir que as variveis esto correlacionadas positivamente, ou seja, quanto maior a altura da planta maior a altura da espiga. 3.3.6. Ajuste da Equao de uma Reta O ajuste de um modelo linear simples da como resultado uma equao matemtica que descreve o relacionamento entre duas variveis. Para ajustar um modelo linear simples entre a altura da planta e altura da espiga, basta repetir o procedimento do item 3.3.4. habilitando o ajuste linear (Linear fit), conforme apresentado na Figura 3.110.
(1) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
66
150
140
Altura_espiga
130
120
110
100 230
240
250
260 Altura_planta
270
280
290
Interpretao: o aumento de 1 cm no valor da altura da planta faz com que a altura da espiga aumente em 0,753 cm. Anlise dos Resduos Essa anlise feita para a varivel dependente e permite verificar se o modelo ajustado adequado para os dados, se as varincias so homogneas, se existem valores discrepantes e se os erros podem ser assumidos como tendo aproximadamente uma distribuio normal. Os resduos consistem da diferena entre os valores observados e os estimados pelo modelo ajustado, conforme equao a seguir:
ei Yi Yi
onde: ei = resduo da i-sima observao Yi = valor observado da varivel resposta da i-sima observao
67
(2) Crie duas variveis aps a varivel Ferrugem, conforme apresentado na Figura 3.113:
(3) Defina as variveis, uma ser relativa aos valores estimados e a outra aos resduos, conforme apresentado nas figuras 3.114 e 3.115, respectivamente:
68
Observao: na janela anterior foi inserido o modelo linear ajustado (= -68.5699 + (0.753 * v4)), onde v4 corresponde varivel Altura_planta.
Observao: na janela anterior foi inserido o clculo dos resduos (ei) (= v5 - v8)), onde v5 corresponde varivel Altura_espiga e v8 Altura_espiga_est (valores estimados). (4) Para verificar se os resduos so normalmente distribudos, construdo o Grfico normal de probabilidade dos resduos, conforme apresentado na Figura 3.116, cujo resultado est apresentado na Figura 3.117:
69
Figura 3.116 Janela para a criao do grfico de probabilidade normal dos resduos
Normal Probability Plot of Altura_espiga_res (hibridos.sta 9v*32c) 2.5 2.0 1.5 1.0
Expected Normal Value
-20
-10
0 Observed Value
10
20
30
Interpretao: o grfico anterior indica que os resduos possuem uma distribuio normal. (5) Para verificar se os resduos possuem varincia constante, construdo um grfico de disperso (scatterplot) entre os resduos (ei) e a varivel independente ou preditora (Altura_planta), conforme apresentado na Figura 3.118, cujo resultado est apresentado na Figura 3.119:
70
Figura 3.118 Janela para a criao do grfico de disperso entre os resduos e a varivel independente ou preditora (Altura_planta)
20
10
Altura_espiga_res
-10
-20
-30 230
240
250
260 Altura_planta
270
280
290
Figura 3.119 Grfico de disperso entre os resduos e a varivel independente ou preditora (Altura_planta)
Interpretao: o grfico anterior indica que a distribuio dos resduos aleatria, o modelo linear adequado e que a varincia dos erros pode ser considerada constante.
71
(6) Para verificar se existe(m) valor(es) discrepante(s), construdo um grfico de disperso (scatterplot) entre os resduos padronizados e a varivel independente ou preditora (Altura_planta). Os resduos (erros) padronizados so calculados como:
zi
ei
n 2 i 1 i
e /n 2
No Statistica criar uma nova varivel nominada de resduos^2, ou seja, no programa statistica temos: resduos^2 = v9**2. V com o cursor em cima da varivel resduos^2, ou seja, em v10, clicar com o boto direito, selecionar statistics of block data blocks columns sums. Na ltima linha na planilha dos dados vai aparecer o total 3818,922ou seja, a soma dos quadrados dos erros ou resduos. Criar uma nova varivel nominada de resduos padronizados aps a varivel resduos^2, na planilha de dados. Esta varivel assume os valores dados por:
=v9/(sqrt(3818,922/(32-2))), onde sqrt a raz quadrada. Criar um grfico de disperso com as variveis: resduos padronizados e altura_planta. Temos o resultado:
Como os resduos padronizados esto na faixa de -3 a 3, no temos a presena de valores discrepantes (outliers). (7) Para verificar a qualidade do ajuste do modelo linear podemos calcular o coeficiente de determinao (R2). Matematicamente dado pelo coeficiente de correlao ao quadrado. 72
Para o nosso exemplo temos: R2 = (0,65)2 = 0,4244. Em porcentagem vale 42,44%, ou seja, temos que a incluso da varivel altura de planta no modelo explica 42,44% da altura de espiga.
73
4. OPES GRFICAS
Para editar o aspecto geral do grfico, basta clicar duas vezes com o boto esquerdo do mouse sobre a rea de fora do grfico propriamente dita (rea onde esto as palavras de legenda, ttulo e as escalas). Uma outra forma clicar com o boto direito do mouse e escolher a opo Graph Properties (All Options), conforme apresentado na Figura 4.1:
Ambos os procedimentos abrem a janela de edio geral do grfico apresentada na Figura 4.2, porm a segunda forma permite acessar outras opes, como por exemplo: copiar (Copy Graph) o grfico ou capturar uma regio do mesmo (Screen Catcher) para um editor de texto, imprimir (Print Graph).
74
Com a janela apresentada na Figura 4.2 possvel, por exemplo: - alterar as propriedades da janela (Graph Window), como a cor do fundo (Outside Background Color), a borda (Borders around the graph) e o tamanho (Size) do mesmo; - alterar o layout (Graph Layout) como a disposio dos eixos (Axis positions); - modificar ttulos e subttulos (Graph Titles/Text), como o tipo, tamanho e cor da letra; - editar os eixos (Axis Scaling), como os valores incio (Minimum), fim (Maximum) e o passo (Step Size) da escala. Existem outras opes que so especficas para cada tipo de grfico, como: - Plot: Bar grfico de barras; - Plot: Histogram histogramas; - Plot: Pies grfico de setores; - Plot: Point Labels grfico de disperso. Uma forma mais rpida para alterar a formatao de um grfico clicar duas vezes em cima do que se quer mudar e alterar conforme padro do trabalho que se est fazendo ou para traduzir textos para o Portugus, por exemplo. Para exemplificar, ser utilizado o grfico de colunas construdo para a varivel resistncia ferrugem reapresentado na Figura 4.1. A seguir, est uma seqncia de procedimentos que visa exemplificar o potencial grfico que est disponvel no programa STATISTICA .
75
(1) Clicar duas vezes em cima do ttulo do grfico, aparecer a janela apresentada na Figura 4.4:
(2) Alterar o ttulo, sua fonte, tamanho e cor, conforme seu padro adotado. Na Figura 4.5 est um exemplo:
(3) Clicar duas vezes em cima do fundo do grfico, cujo padro a cor amarela claro, trocando-se a cor conforme apresentado na Figura 4.6:
76
(4) Clicar duas vezes no ttulo do eixo que se deseja modificar, no exemplo o Y, apresentado na Figura 4.7:
77
(6) Para alterar o eixo X, basta alterar a caixa de texto da opo Axis na Figura 4.8 para X e modificar o ttulo deste, conforme apresentado na Figura 4.8:
(7) Para modificar o preenchimento (rea) e a cor das barras, clicar com o boto da direita em cima de uma das colunas, apresentado na Figura 4.10:
78
79
Observao: Ressalta-se que foram exploradas somente algumas das opes grficas disponveis no programa STATISTICA , cabendo ao leitor explorar as diversas formas de edio e possveis padronizaes de seus grficos.
80
5.1. Teste de Duas Mdias Populacionais com Varincias Desconhecidas a) Dados pareados ou amostras dependentes b) Dados no pareados ou amostras independentes b.1) Varincias homogneas (iguais) b.2) Varincias heterogneas (desiguais) O mtodo de anlise selecionado para o teste-t deve ser previamente estudado para que no implique em resultados falsos. Isto significa que precisamos testar a homogeneidade das varincias e verificar o planejamento da pesquisa, e baseado nesta concluso, aplicar ento o teste correto, que pode ser: 1. Amostras independentes - varincias homogneas - (T-Test for Independent Samples (Groups)) 2. Amostras independentes - varincias heterogneas - (T-Test for Independent Samples (Groups) aplicado o t-test with separate variances estimates) 3. Amostras dependentes (Correlacionadas) - (T-Test for Dependent (Correlated) Samples) 5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas Exemplo 1: Criar o arquivo solvente.sta conforme dados apresentados no Quadro 5.1.
Quadro 5.1 Resultados das absorbncias para dois tipos de solventes Tratamento Repetio Absorbncia 1 1 0,6286 1 2 0,6143 1 3 0,5826 1 4 0,7498 1 5 0,6060 2 1 0,4748 2 2 0,4321 2 3 0,4309 2 4 0,5010 2 5 0,4094
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.1, onde a opo a ser escolhida ser t-test, independent, by groups:
81
(3) Clique no boto [Variables] e selecione as variveis para a anlise (Grouping variable = Tratamento e Dependent variable = Absorbancia), conforme apresentado na Figura 5.3:
82
- Desvios padro amostrais: s1=0,06563 s2=0,03725 1) Teste de homogeneidade de varincias As hipteses a serem testadas esto apresentadas a seguir: H0: Ha:
21 21
= >
22 22
Tipo do teste: unilateral Importante: O STATISTICA sempre faz um teste bilateral. No exemplo, sendo um teste unilateral, deve-se dividir o valor p por dois. Assim, p=0,2983/2=0,1491. Sendo assim, no se pode rejeitar a hiptese nula e concluise que as varincias podem ser consideradas homogneas (p=0,1491).
83
2) Teste de igualdade de mdias As hipteses a serem testadas esto apresentadas a seguir: H0: 1 = 2 significa que no h diferena entre as mdias de absorbncia com relao ao tipo de solvente Ha: 1 significa que h diferena entre as mdias de absorbncia 2 com relao ao tipo de solvente Tipo do teste: bilateral Da Figura 5.5, t=5,5301 (p=0,0006), ou seja, a probabilidade de t 5,5301 ocorrer devido ao acaso. Sendo assim, rejeita-se a hiptese nula e conclui-se que existe diferena estatisticamente significativa entre as mdias ao nvel de significncia de 0,06% (0,0006 x 100). Outra maneira de calcular o valor p: (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.6, onde a opo a ser escolhida ser Probability calculator:
(2) Selecione as seguintes opes: Distribuition: t (Student); Two-tailed (teste bilateral); (1-Cumulative p); t=5,530084 (valor encontrado pelo t-test for Independent Samples) df = 8 (graus de liberdade) (3) Clique no boto [Compute] e o resultado est apresentado na Figura 5.7:
84
Note que encontra-se o valor p exatamente igual ao descrito pelo T-Test for Independent Samples, conforme apresentado na Figura 5.5. Diagrama de caixas (BOX PLOT ) (1) Na janela da Figura 5.4, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.8:
Interpretao: Pela Figura 5.8, pode-se considerar que h homogeneidade de varincia e que a mdia da absorbncia no solvente 1 maior com relao ao solvente 2. Grfico normal de probabilidades por tratamento (1) Na janela da Figura 5.4, clique na aba [Advanced], aparecer a janela apresentada na Figura 5.9:
85
(2) Na janela da Figura 5.9, clique no boto [Categorized normal plot] e o grfico resultante est apresentado na Figura 5.10:
86
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias Fonte: Box, Hunter & Hunter
(1) Repetir os cinco primeiros passos do Exemplo 1, porm selecionando as seguintes variveis para a anlise: Grouping variable = Tratamento e Dependent variable = Producao. O resultado do teste est apresentado na Figura 5.11:
Figura 5.11 Resultado do teste-t para a produo dos dois diferentes tipos de adubos
1) Teste de homogeneidade de varincias As hipteses a serem testadas esto apresentadas a seguir: H0: Ha:
21 21
= >
22 22
Tipo do teste: unilateral Da Figura 5.11, F=1,7792 (p=0,5400/2=0,2700) significa que no se pode rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas. 2) Teste de igualdade de mdias As hipteses a serem testadas esto apresentadas a seguir: H0: 1 = 2 significa que no h diferena entre as mdias de produo com relao ao tipo de adubo Ha: 2 > 1 significa que a mdia da produo do adubo tipo 1 menor que a mdia da produo do adubo tipo 2 Tipo do teste: unilateral Da Figura 5.5, F=3,1046 (p=0,6677/2=0,3339) significa que no se pode rejeitar a hiptese nula, ou seja, no existe diferena estatisticamente significativa entre as mdias. 5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas Exemplo 3: Criar o arquivo variedade.sta conforme dados apresentados no Quadro 5.3.
87
Quadro 5.3 Resultados do rendimento em kg/ha de duas variedades de milho Varied_A Varied_B 1300 1800 1350 1600 1250 1900 1400 1850 1200 1750 2500
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.12, onde a opo a ser escolhida ser t-test, independent, by variables:
(3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable (group) list - Varied_A e Second variable (group) list - Varied_B), conforme apresentado na Figura 5.14:
88
1) Teste de homogeneidade de varincias As hipteses a serem testadas esto apresentadas a seguir: H0: Ha:
2A 2B
= >
2B 2A
Da Figura 5.16, F=15,5200 (p=0,0200/2=0,0100) significa que rejeita-se a hiptese nula, ou seja, as varincias no podem ser consideradas homogneas. Neste caso, como as varincias so heterogneas, o teste-t deve ser calculado com varincias separadas. (6) Na janela da Figura 5.15, clique na aba [Options] e selecione a opo t-test with separate variance estimates, conforme apresentado na Figura 5.17:
Figura 5.18 Resultado do teste-t para as duas variedades com varincias desiguais
2) Teste de igualdade de mdias As hipteses a serem testadas esto apresentadas a seguir: H0: A = B significa que no h diferena entre as mdias de produo com relao ao tipo de variedade Ha: A significa que h diferena entre as mdias de produo com B relao ao tipo de variedade Tipo do teste: bilateral Da Figura 5.18, t=-4,5464 (p=0,0043), ou seja, rejeita-se a hiptese nula e conclui-se que existe diferena estatisticamente significativa entre as mdias de produo com relao ao tipo de variedade. (8) Na janela da Figura 5.15, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.19: 90
Interpretao: Pela Figura 5.19, visvel que a varincia da Variedade A menor que a da Variedade B e que a mdia na Variedade B maior com relao Variedade A. 5.1.3. Amostras Dependentes (Dados Pareados) Exemplo 4: Criar o arquivo solas.sta conforme dados apresentados no Quadro 5.4.
Quadro 5.4 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais Criana Material_A Material_B 1 13,2 14,0 2 8,2 8,8 3 10,9 11,2 4 14,3 14,2 5 10,7 11,8 6 6,6 6,4 7 9,5 9,8 8 10,8 11,3 9 8,8 9,3 10 13,3 13,6
Neste experimento, cada criana usou um tipo de material diferente de solado em cada um de seus sapatos, caracterizando a dependncia entre as medidas, pois numa mesma criana so realizadas duas medidas de desgaste nos dois tipos de materiais. As hipteses a serem testadas esto apresentadas a seguir: H0: A = B significa que no h diferena entre as mdias de desgaste com relao ao tipo de material
91
Ha: ]B > A significa que a mdia de desgaste do material A menor que a mdia de desgaste do material B Tipo do teste: unilateral (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.20, onde a opo a ser escolhida ser t-test, dependent samples:
(3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable list - Material_A e Second variable list (optional) - Material_B), conforme apresentado na Figura 5.22:
92
Concluso: Da Figura 5.24, t=-3,3489 (p=0,0085/2=0,0043), ou seja, rejeita-se a hiptese nula e conclui-se que a mdia de desgaste do material A menor que a mdia de desgaste do material B.
93
Selecionando o mtodo incorreto (1) Refazer o teste anterior da mesma forma que no Exemplo 3, escolhendo a opo para amostras independentes (t-test, independent, by variables). Selecione as variveis conforme mostrado na Figura 5.25:
1) Teste de homogeneidade de varincias Da Figura 5.26, F=1,0555 (p=0,9372/2=0,4686) significa que no se pode rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas. 2) Teste de igualdade de mdias Da Figura 5.26, t=-0,3689 (p=0,7165/2=0,3582) significa que no se pode rejeitar a hiptese nula, ou seja, a mdia de desgaste do material A no menor que a mdia de desgaste do material B. Sendo assim, no se rejeita a hiptese nula, s que, ESTA CONCLUSO NO VERDADEIRA. Por isto, estudamos anteriormente o delineamento da pesquisa.
94
A seguir, o grfico mostra como as mdias esto prximas, pois aqui no foi retirado o efeito de meninos. (3) Na janela da Figura 5.25, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.27:
5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados Pareados (1) Criar uma nova varivel (DifB_A) no arquivo solas.sta, que representa a diferena entre os valores de desgastes dos dois materiais. Para isso, clique com o boto da direita em cima da varivel Material_B, selecione a opo [Add variable] e defina a nova varivel conforme apresentado na Figura 5.28:
95
(2) Clique no boto [OK] e se aparecer a expresso Expression OK. Recalculate the variable now? clique no boto [SIM]. O arquivo resultante est apresentado no Quadro 5.5:
Quadro 5.5 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais Criana Material_A Material_B DifB_A 1 13,2 14,0 0,8 2 8,2 8,8 0,6 3 10,9 11,2 0,3 4 14,3 14,2 -0,1 5 10,7 11,8 1,1 6 6,6 6,4 -0,2 7 9,5 9,8 0,3 8 10,8 11,3 0,5 9 8,8 9,3 0,5 10 13,3 13,6 0,3
(3) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.29, onde a opo a ser escolhida ser Descriptive statistics:
(4) Clique no boto [OK], selecione a nova varivel criada (DifB_A) clicando no boto [Variables] e na aba [Advanced] selecione as opes conforme apresentado na Figura 5.30:
96
Interpretao: Da Figura 5.31 estimasse que a verdadeira diferena mdia do desgaste das solas entre os dois materiais est no intervalo 0,1330 0,6870
97
6.1. O Teste do Qui-Quadrado (CHI-SQUARE) O exemplo trata de um experimento fatorial 22 (dois fatores com dois nveis cada) que so: duas pocas de plantio (fora e na primavera) e duas formas de corte (longo e curto). A resposta a sobrevivncia dos enxertos dada em contagens. Exemplo 1: Criar o arquivo ameixeira.sta conforme dados apresentados no Quadro 6.1.
Quadro 6.1 Dados de sobrevivncia de enxertos de ameixeira poca Forma Sobrevive Observao Tratamento fora longo sim 156 fl fora curto sim 107 fc na longo sim 84 nl na curto sim 31 nc fora longo no 84 fl fora curto no 133 fc na longo no 156 nl na curto no 209 nc
Nesta seo realizaremos cinco anlises: 1) Verificar se existe diferena significativa entre os quatro tratamentos. Observao: Se for constatado que no existe diferena, encerra-se a anlise por aqui. Caso exista diferena, prosseguir com a seguinte anlise. 2) Testar se a interao significativa. Observao: Se a interao for significativa, far-se- o desdobramento da mesma. Caso contrrio, prosseguir com a seguinte anlise. 3) Testar se existe efeito de poca. 4) Testar se existe efeito de forma. 5) Supor que a interao significativa e testar os efeitos (desdobramentos). Forma (poca) - forma dentro de poca e poca (Forma) - poca dentro de forma. 1 teste: Teste do efeito dos quatro tratamentos Fora/Longo (fl) Fora/Curto (fc) Na/Longo (nl) Na/Curto (nc)
98
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 6.1, onde a opo a ser escolhida ser Tables and banners:
(3) Clique no boto [Specify Tables (select variables)). Como a tabela tridimensional, implica que devemos escolher trs variveis conforme apresentado na Figura 6.3:
(4) Clicar no boto [W] (weight = peso ou ponderao) existente no canto inferior direito da janela da Figura 6.2 e defina as opes conforme apresentado na Figura 6.4; 99
(5) Clique nos botes [OK] da janela anterior e da Figura 6.2 e aparecer a janela apresentada na Figura 6.5:
Observao: Como o STATISTICA no calcula a estatstica qui-quadrado de uma tabela com trs variveis. Para contornar este problema foi criada a varivel Tratamento. Sendo assim, agora, vamos especificar uma nova tabela de contingncia.
100
(7) Retorne a janela de especificao das variveis (item 3) e selecione as mesmas, conforme apresentado na Figura 6.7:
(8) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes conforme apresentado na Figura 6.8:
(9) Clique na aba [Advanced] da janela anterior conforme apresentado na Figura 6.9:
(10) Clique no boto [Detailed two-way tables] e os resultados esto apresentados nas figuras 6.10 e 6.11:
101
As hipteses a serem testadas esto apresentadas a seguir: H0: a proporo de sobreviventes a mesma para os quatro tratamentos Ha: a proporo de sobreviventes no a mesma para os quatro tratamentos Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado de Pearson, cujo valor foi de 141,05 (p<0,0001), rejeita-se a hiptese nula, ou seja, existe diferena estatisticamente significativa entre as propores de sobreviventes com relao aos quatro tratamentos. 2 teste: Teste do efeito da Interao Para testar esse efeito, h necessidade de criar a varivel Interao, conforme apresentado no Quadro 6.2:
102
Quadro 6.2 Critrio para criao da varivel interao poca Forma Interao poca*Forma fora +1 longo +1 +1 fora +1 curto -1 -1 na -1 longo +1 -1 na -1 curto -1 +1 fora +1 longo +1 +1 fora +1 curto -1 -1 na -1 longo +1 -1 na -1 curto -1 +1
(1) Crie a nova varivel (Interacao) no arquivo ameixa.sta, conforme apresentado na Figura 6.12 e preencha conforme os valores apresentados na terceira coluna do Quadro 6.2:
(2) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.13:
(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes conforme apresentado na Figura 6.14: 103
Observao: A tabela resultante ser 2x2 e neste caso recomenda-se utilizar a correo de continuidade de Yates. (4) Clique na aba [Advanced] da janela anterior, no boto [Detailed two-way tables] e os resultados esto apresentados nas figuras 6.15 e 6.16:
104
As hipteses a serem testadas esto apresentadas a seguir: H0: o efeito interao no significativo Ha: o efeito interao significativo Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 0,0393 (p=0,8429), no rejeita a hiptese nula, ou seja, o efeito interao no significativo. Anlise Grfica A seguir, ser construdo um grfico que permite verificar que no existe interao entre poca e forma. (1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.17:
(2) Clicar no boto [Select cases] existente no canto inferior direito da janela da Figura 6.2 e defina as opes conforme apresentado na Figura 6.18:
105
(3) Clique nos botes [OK] da janela anterior e da Figura 6.2. Na janela que aparecer, clique na aba [Advanced] e no boto [Interaction plots of frequencies] e o grfico resultante est apresentado na Figura 6.19:
Interaction Plot: Epoca x Forma 180 160 140 120
Frequencies
Figura 6.19 Grfico da interao forma de corte e poca de plantio para sobreviventes.
Interpretao: dado que as linhas do grfico no se cruzam, conclui-se que no h interao entre os tratamentos. 3 teste: Teste do efeito poca (1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.20:
(2) Clique no boto [Select Case] e desative a condio de seleo, conforme apresentado na Figura 6.21:
106
(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes conforme apresentado na Figura 6.22:
(4) Clique na aba [Advanced] da janela anterior, no boto [Detailed two-way tables] e os resultados esto apresentados nas figuras 6.23 e 6.24:
107
As hipteses a serem testadas esto apresentadas a seguir: H0: a proporo de sobreviventes na e fora da primavera a mesma. Ha: a proporo de sobreviventes na e fora da primavera diferente. Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 94,2955 (p<0,0001), rejeita-se a hiptese nula, ou seja, a melhor poca de plantio fora da primavera (54,79% de sobreviventes), conforme pode ser visto na Figura 6.23. 4 teste: Teste do efeito Forma (1) Repetir o procedimento do teste para o efeito poca (3 teste), selecionando as variveis, conforme apresentado na Figura 6.25:
108
As hipteses a serem testadas esto apresentadas a seguir: H0: a proporo de sobreviventes entre cortes longos e curtos a mesma.
109
Ha: a proporo de sobreviventes entre cortes longos e curtos diferente. Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 44,5143 (p<0,0001), rejeita-se a hiptese nula, ou seja, a melhor forma de corte o longo (50,00% de sobreviventes), conforme pode ser visto na Figura 6.26. 5 teste: Estudo da interao poca*Forma (Desdobramentos) Existem dois casos: A. poca (Forma) - poca dentro de Forma: poca (Forma = longo) poca (Forma = curto) (1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.28:
(2) Clicar no boto [Select cases] existente no canto inferior direito da janela da Figura 6.2 e defina as opes conforme apresentado na Figura 6.29, o filtro construdo para estudar a forma longo:
110
(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes Fisher exact, Yates, McNemar (2 x 2 Tables) e Percentages of column count, conforme apresentado na Figura 6.22. (4) Clique na aba [Advanced] da janela da Figura 6.22, no boto [Detailed twoway tables] e os resultados esto apresentados nas figuras 6.30 e 6.31:
111
Figura 6.31 Resultados do teste de qui-quadrado para o efeito da interao da poca dentro da forma longo
Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 42,0083 (p<0,0001), a melhor poca de plantio, dentro da forma longo, fora da primavera (65,00% dos sobreviventes), conforme pode ser visto na Figura 6.30. (5) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar a forma curto, conforme apresentado na Figura 6.32. Os resultados esto apresentados nas figuras 6.33 e 6.34:
112
Figura 6.34 Resultados do teste de qui-quadrado para o efeito da interao da poca dentro da forma curto
Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 50,2081 (p<0,0001), a melhor poca de plantio, dentro da forma curto, fora da primavera (77,54% dos sobreviventes), conforme pode ser visto na Figura 6.33. Observao: note que independente da forma, a melhor poca de plantio fora da primavera, confirmando a no existncia do efeito interao. B. Forma (poca) - Forma dentro de poca: Forma (poca = na) Forma (poca = fora) (6) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar a poca na primavera, conforme apresentado na Figura 6.35. Os resultados esto apresentados nas figuras 6.36 e 6.37:
113
114
Figura 6.37 Resultados do teste de qui-quadrado para o efeito da interao da forma dentro da poca na primavera
Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 30,9213 (p<0,0001), a melhor forma de plantio, dentro da poca na primavera, o longo (17,50% de sobreviventes), conforme pode ser visto na Figura 6.36. (7) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar a poca fora da primavera, conforme apresentado na Figura 6.38. Os resultados esto apresentados nas figuras 6.36 e 6.37:
115
Figura 6.40 Resultados do teste de qui-quadrado para o efeito da interao da forma dentro da poca fora da primavera
Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 19,3780 (p<0,0001), a melhor forma de plantio, dentro da poca fora da primavera, o longo (32,50% de sobreviventes), conforme pode ser visto na Figura 6.36. Observao: note que independente da poca, a melhor forma de corte o longo, confirmando a no existncia do efeito interao.
116
7. ANLISE DE VARINCIA
Deseja-se verificar se existem diferenas entre as respostas mdias de tratamentos; o procedimento utilizado para inferir se tais diferenas realmente existem chamado de Anlise de Varincia (ANOVA). Idia - Decomposio da Variao (Varincias) em: Variao atribuda s diferenas entre as unidades experimentais (QMR quadrado mdio do resduo) Variao atribuda s diferenas entre as unidades experimentais e atribuda s diferenas causadas pelos tratamentos (diferenas entre as mdias) (QMTrat - quadrado mdio dos tratamentos) O teste baseia-se em duas hipteses: H0: as mdias dos tratamentos so todas iguais Ha: as mdias dos tratamentos no so todas iguais A primeira hiptese H0, tambm chamada de hiptese de nulidade, admite que no existem diferenas significativas entre as mdias. J a segunda hiptese, Ha, tambm chamada de hiptese alternativa, considera que existe diferena significativa entre as mdias e, portanto, elas no so todas iguais. O Teste F:
F QMTrat QMR
(7.1)
H0 no rejeitada, o valor de F pequeno H0 rejeitada, o valor de F grande Portanto, podemos fazer inferncia sobre as mdias de tratamentos (se elas diferem), usando esta razo de estimadores de varincia. Vamos usar esta razo como Teste Estatstico para verificar H0 versus Ha. Resultado Estatstico: Se H0 no rejeitada, a estatstica F tem distribuio F distribuio amostral.
(t-1), t (r-1)
F ~ F (t -1), t (r -1)
onde: t: nmero de tratamentos r: nmero de repeties
117
Vamos usar este resultado para testar hipteses sobre diferenas entre mdias de tratamentos. Realizaremos a Anlise de Varincia para podermos concluir, com um certo nvel de confiana, que os nossos tratamentos (resultados) so ou no so significativamente diferentes entre si. 7.1. Delineamento Inteiramente Casualizado Modelo:
Yij
onde: i = 1,2,...,t j = 1,2,...,r
ij
(7.3)
mudana na mdia (com relao ) associada com o tratamento i erro associado ao tratamento i da j-sima repetio
i
onde:
(7.4)
i: mdia da populao que descreve a resposta das unidades experimentais que receberam o tratamento i
7.2. Exemplo O exemplo que usaremos foi extrado de Sokal and Rohlf, 1981, Biometry, p.219-221, e, trata de um estudo de crescimento em cultura de tecido com a presena de auxinas (arquivo oneway.sta). Objetivo: testar o efeito da adio de diversos acares no crescimento. Varivel Resposta: comprimento de sees de sementes (x 0,1114 mm). Tratamentos: tratamentos: Plantas foram aleatoriamente designadas aos cinco
2. 2% glicose 3. 2% de frutose 4. 1% de glicose + 1% de frutose 5. 2% de sacarose Unidades Experimentais: plantas individuais para os quais os tratamentos foram aplicados. Unidade de Amostragem: plantas. Repeties: foram feitas dez repeties. Na tabela abaixo esto os dados coletados no experimento.
Tabela 7.1 Dados coletados no experimento Tratamento Tamanho 1 75 67 70 75 65 71 67 67 2 57 58 60 59 62 60 60 57 3 58 61 56 58 57 56 61 60 4 58 59 58 61 57 56 58 57 5 62 66 65 63 64 62 65 65
76 59 57 57 62
68 61 58 59 67
Para realizar a anlise, os dados devem ser construdos sempre da forma matricial, conforme apresentado no quadro abaixo.
Quadro 7.1 Matriz de dados Acar Repetio Tamanho
1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 75 67 70 75 65 71 67 67 76 68 57 58 60 59 62 60 60 57 59 61 58 61 56
119
3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5
4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
58 57 56 61 60 57 58 58 59 58 61 57 56 58 57 57 59 62 66 65 63 64 62 65 65 62 67
7.3. Anlise Estatstica Antes de iniciarmos a ANOVA, iremos construir o diagrama de disperso e o diagrama de caixas. Ressalta-se que todos os grficos apresentados neste captulo foram alterados e padronizados conforme as opes grficas exploradas no Captulo 4. Diagrama de Disperso Para construir o grfico do diagrama de disperso, primeiramente abra o arquivo oneway.sta e siga os passos definidos abaixo: (1) No menu [Graphs], escolha [2D Graphs] [Scatterplots] (2) Selecione as variveis: X = ACUCAR Y = TAMANHO (3) Defina as opes: Graph type: Regular Linear Fit: OFF Regression bands: OFF (4) Clique no boto [OK] (5) O diagrama de disperso est apresentado na figura 7.1:
120
Diagrama de Caixas Para construir o grfico do diagrama de caixas siga os passos definidos abaixo: (1) No menu [Graphs], escolha [2D Graphs] [Box Plots] (2) Selecione as variveis: Dependent Variable = ACUCAR Grouping Variable = TAMANHO (3) Defina as opes: Graph type: (4) Clique no boto [OK] (5) O diagrama de caixas est apresentado na Figura 7.2: Box-Whiskers, Regular Grouping intervals: Integer mode
121
Observao: note que independente da poca, a melhor forma de corte o longo, confirmando a no existncia do efeito interao. 7.3.1. Anlise de Varincia Para realizar a anlise de varincia, siga os passos abaixo: (1) Abra o mdulo ANOVA, acesse o menu [STATISTICS], opo [ANOVA] e aparecer a janela apresentada na Figura 7.3:
(2) Escolha: Type of analysis: One-way ANOVA Specification method: Quick specs dialog (3) Aparecer a janela apresentada na Figura 7.4:
(4) Clique no boto [Variables] e escolha as seguintes opes: Dependent Variables: TAMANHO Categorical factor: ACUCAR (5) O resultado das escolhas est apresentado na Figura 7.5:
122
(6) Clique na aba [Options], conforme a Figura 7.6, e escolha a opo: Sums of squares: Type I (sequential)
123
Concluso: Existe diferena significativa entre as mdias dos tratamentos ao nvel de significncia de p < 0,0001. 7.3.2. Comparaes Mltiplas de Mdias No item 7.1.1., testamos as mdias dos cinco tratamentos e conclumos que existe diferena entre as mesmas. Porm, no sabemos ainda se a mdia do tratamento 1 igual ou diferente de 2, de 3, de 4 ou de 5, ou seja, existe diferena, mas no podemos dizer entre quais mdias. O seguinte teste necessrio quando existe diferena, pois completa a anlise, comparando e mostrando ento, o resultado de todas as combinaes de pares de mdias. Para realizar as comparaes mltiplas de mdias, siga os passos abaixo: (1) Na janela da Figura 7.8, clique no boto [More Results], aparecer a janela da Figura 7.9:
124
(3) Clique no boto [Tukey HSD] e o resultado aparecer conforme apresentado na Figura 7.11:
(4) Na Figura 7.10, na regio Display, selecione a opo Homogeneous groups, clique no boto [Tukey HSD] e o resultado aparecer conforme apresentado na Figura 7.12:
125
Grupo Tukey a b c c c
Tratamentos 1 5 2 3 4
Observe na Tabela 7.1, que o tratamento 1 (a) superior e diferente significativamente dos demais. Os tratamentos 2, 3 e 4 (c), so considerados iguais entre si, ou seja, as mdias no diferem significativamente entre elas. Estes tratamentos so os de mdias inferiores. O tratamento 5 (b) difere dos demais e o segundo melhor tratamento, ou seja, a segunda melhor mdia, inferior ao 1 e superior ao 2, 3 e 4. 7.3.3. Contrastes Ortogonais Consiste de uma combinao linear onde a soma dos coeficientes nula. Os contrastes de interesse nesse estudo so para verificar se: (A) o tratamento controle 1 difere significativamente dos demais tratamentos; (B) verificar se o tratamento 5 difere dos tratamentos 2, 3 e 4; e (C) verificar se o tratamento 5 difere do tratamento 1. Os respectivos coeficientes para verificar os contrastes esto apresentados na Tabela 7.3.
126
Contrastes A B C
1 4 0 1
2 -1 1 0
Tratamentos 3 -1 1 0
4 -1 1 0
5 -1 -3 -1
Para realizar os contrastes de interesse, siga os passos abaixo: (1) Clique na aba [Planned comps], conforme apresentado na Figura 7.13:
(2) Clique no boto [Specify contrasts for LS means], e defina os coeficientes do contraste conforme apresentado na Figura 7.14:
(3) Digite os coeficientes do contraste como mostra a Figura 7.14, clicando duas vezes com o boto esquerdo do mouse nos espaos da coluna 1. (4) Clique no boto [OK] (5) Note que o vetor ACUCAR mudou para (4 1 1 1 1), conforme apresentado na Figura 7.15:
127
(6) Clique no boto [Compute] da Figura 7.15 (7) O resultado do teste do contraste A est apresentado na Figura 7.16:
Repetir os passos (2) a (6) para os outros dois contrastes, sendo que os resultados esto apresentados nas Figuras 7.17 e 7.18:
128
7.3.4. Diagnstico do Modelo 7.3.4.1. Ajuste do Modelo A no significncia do modelo geral est relacionada com a violao de algum pressuposto. importante verificar as suposies de normalidade, independncia e homogeneidade de varincias (homocedasticidade). O ajuste do modelo verificado pelo teste F da Anlise de Varincia, obtido, selecionando-se a opo [All effects]. No Delineamento Inteiramente Casualizado, o teste F coincide com o efeito principal. 7.3.4.2. Normalidade dos Resduos (1) Clique na aba [Assumptions], conforme apresentado na figura 7.19;
129
(2) Na opo Distribution of within-cell residuals, clique no boto [Normal p-p] (3) O grfico normal de probabilidades dos resduos est apresentado na Figura 7.20:
Concluso: Os valores aproximam-se da reta normal e, portanto, a suposio de normalidade dos dados atendida. 7.3.4.3. Independncia dos Resduos Correlaes positivas entre os erros de diferentes unidades experimentais de um mesmo tratamento podem surgir se o pesquisador no tiver cuidado ao conduzir um experimento. A independncia pode ser assegurada por um dos princpios bsicos da experimentao, que a casualizao.
130
De acordo com as condies do experimento em estudo, assume-se que os resultados so independentes. 7.3.4.4. Homogeneidade das Varincias por Tratamento (1) Conforme Figura 7.19, na opo Homogeneity of variances/covariances, clique no boto [Cochran C, Hartley, Bartellet] (2) O resultado do teste est apresentado na Figura 7.21:
2 2
2 j
...
para i
2 k
Rejeitamos a hiptese nula ao nvel de significncia de 0,0075 ou 0,75%. Portanto, a suposio de homogeneidade de varincias no vlida. Uma outra forma, atravs da qual podemos "visualizar" a heterogeneidade de varincias, fazer um grfico das mdias versus as varincias, conforme procedimento abaixo: (3) Conforme Figura 7.19, clique no boto [Variances] (4) O grfico resultante est apresentado na Figura 7.22:
131
Figura 7.22 Grfico das mdias versus as varincias dos cinco tratamentos
Concluso: O tratamento controle 1 apresenta mdia elevada e varincia elevada, ou seja, apresentam-se relacionadas. Isto implica em heterocedasticidade (heterogeneidade de varincia). Observao: Se os dados no se afastam muito da reta (grfico normal de probabilidades) podemos usar qualquer teste de homogeneidade de varincia. Se existir falta de normalidade devemos usar o teste de Levene. (5) Conforme Figura 7.19, na opo Distribution of variables within groups, clique no boto [Normal p-p] (6) Escolhas os grupos conforme apresentado na Figura 7.23:
(7) Os grficos normais de probabilidades dos resduos para cada tratamento esto apresentados na Figura 7.24:
132
Figura 7.24 Grficos normais de probabilidades dos resduos para cada tratamento
amostras
so
oriundas
de
distribuio
133