Você está na página 1de 133

UNIVERSIDADE FEDERAL DE SANTA CATARINA CENTRO TECNOLGICO DEPARTAMENTO DE INFORMTICA E ESTATSTICA

ANLISE ESTATSTICA USANDO O

STATISTICA

6.0

Prof. Paulo Jos Ogliari, Dr. Eng. Juliano Anderson Pacheco, MSc.

FLORIANPOLIS SC JUNHO DE 2011

SUMRIO 1. INTRODUO .....................................................................................................................3 2. GERENCIAMENTO DE ARQUIVOS ...............................................................................5 2.1. CRIAR UM NOVO ARQUIVO ................................................................................................6 2.2. IMPORTAO DE ARQUIVOS DO EXCEL ...........................................................................10 3. ANLISE EXPLORATRIA DE DADOS .....................................................................13 3.1. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUALITATIVAS ......................................13 3.1.1. Unidimensional .......................................................................................................13 3.1.2. Bidimensional .........................................................................................................23 3.2. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUANTITATIVAS ....................................35 3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta ........36 3.2.2. Representaes Grficas de Variveis Quantitativas Discretas ............................38 3.2.3. Dados Agrupados em Classes.................................................................................40 3.2.4. O Modelo Normal ...................................................................................................44 3.3. ESTATSTICAS DESCRITIVAS ...........................................................................................51 3.3.1. Medidas de Tendncia Central e Disperso ...........................................................51 3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal .............................................56 3.3.3. Desenho Esquemtico (Box Plot) ...........................................................................59 3.3.4. Diagrama de Disperso ..........................................................................................62 3.3.5. Coeficiente de Correlao ......................................................................................64 3.3.6. Ajuste da Equao de uma Reta .............................................................................66 4. OPES GRFICAS ........................................................................................................74 5. TESTES ESTATSTICOS PARA COMPARAO DE DUAS MDIAS ...................81 5.1. TESTE DE DUAS MDIAS POPULACIONAIS COM VARINCIAS DESCONHECIDAS ..............81 5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas ........................81 5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas ..................87 5.1.3. Amostras Dependentes (Dados Pareados) .............................................................91 5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados Pareados.....................................................................................................................................95 6. TESTE PARA DUAS OU MAIS PROPORES ..........................................................98 6.1. O TESTE DO QUI-QUADRADO (CHI-SQUARE) ...............................................................98 7. ANLISE DE VARINCIA ............................................................................................117 7.1. DELINEAMENTO INTEIRAMENTE CASUALIZADO............................................................118 7.2. EXEMPLO ......................................................................................................................118 7.3. ANLISE ESTATSTICA ..................................................................................................120 7.3.1. Anlise de Varincia .............................................................................................122 7.3.2. Comparaes Mltiplas de Mdias ......................................................................124 7.3.3. Contrastes Ortogonais ..........................................................................................126 7.3.4. Diagnstico do Modelo .........................................................................................129

Cap. 1 Introduo

1. INTRODUO
O software STATISTICA um programa integrado para gerenciar Anlise Estatstica e Bases de Dados, caracterizando uma ampla seleo do processo analtico, do bsico ao avanado, para as mais diversas reas - Cincias Biomdicas, Biolgicas, Engenharias, Cincias Sociais, Agrrias - permitindo a realizao de Data Mining (Minerao de Dados). O sistema no inclui somente procedimentos estatsticos e grficos gerais, mas, tambm, mdulos especializados (Anlise de Regresso, Anlise de Sobrevivncia, Sries Temporais, Anlise Fatorial, Anlise Discriminante e diversos outros mdulos). Dificilmente, o usurio necessitar de todos os mdulos oferecidos pelo STATISTICA para a anlise do seu trabalho, e ser, a partir de sua criatividade e conhecimento terico, que chegar as respostas dos seus objetivos. Neste trabalho, foram desenvolvidos trs assuntos: a) Anlise exploratria de dados, b) Alguns testes de hipteses sobre mdias e propores e c) Anlise de varincia com um fator (one-way ANOVA). Esta apostila foi elaborada com o propsito de auxiliar os estudantes de graduao e ps-graduao e demais interessados, na iniciao do uso de um programa estatstico. Escolheu-se o programa STATISTICA, por apresentar uma plataforma interativa com o usurio e, tambm, por ser ele dos programas mais completos da rea existente na atualidade. Pede-se que qualquer problema encontrado na apostila, entrar em contato preferencialmente para jap@inf.ufsc.br ou para ogliari@inf.ufsc.br.

Cap. 1 Introduo

Os captulos 2 e 3 sero baseados no seguinte exemplo:


Quadro 1.1 - Resultados de um experimento de competio de hbridos de milho para a regio preferencial I, com altitudes abaixo de 800m - safra: 1987/1988 Cultivar Rendimento Altura Altura Tipo de gro Ferrugem* Ciclo mdio planta espiga (escala) (dias) (kg/ha) (cm) (cm) 1 6388 65 242 103 dentado r 2 6166 65 258 134 semi-dentado r 3 6047 65 240 104 semi-dentado s 4 5889 66 243 108 semi-dentado s 5 5823 69 257 128 dentado ms 6 5513 68 241 108 semi-dentado s 7 5202 64 235 108 dentado r 8 5172 68 240 103 dentado s 9 5166 69 253 123 dentado ms 10 4975 70 250 117 semi-dentado ms 11 4778 70 242 114 dentado mr 12 4680 66 245 111 semi-duro ms 13 4660 69 239 110 semi-duro mr 14 5403 73 264 138 dentado ms 15 5117 76 282 149 dentado mr 16 5063 72 274 151 dentado r 17 4993 71 279 134 semi-dentado r 18 4980 72 274 140 dentado ms 19 4770 73 244 140 dentado r 20 4685 71 265 139 semi-duro mr 21 4614 73 248 110 semi-dentado r 22 4552 73 265 128 semi-dentado r 23 3973 74 261 124 semi-dentado mr 24 4550 71 259 129 semi-duro s 25 5056 64 252 104 semi-duro mr 26 4500 70 271 109 dentado ms 27 4760 68 243 137 semi-duro r 28 5110 66 252 141 semi-dentado ms 29 4960 70 262 120 dentado ms 30 4769 73 260 118 dentado r 31 4849 74 250 119 semi-dentado s 32 5230 71 255 138 semi-duro s Fonte: Boletim Tcnico, nmero 39, EMPASC S. A.

* r = resistente, mr = moderadamente resistente, s = susceptvel e ms = moderadamente susceptvel.

Cap. 2 Gerenciamento de Arquivos

2. GERENCIAMENTO DE ARQUIVOS
O STATISTICA trabalha com variveis categorizadas, qualitativas e quantitativas, permitindo a formao de grupos que sero analisados. Ou seja, utiliza uma tcnica mais apropriada para resumir as informaes, adaptando qualquer tipo de varivel ao caso estudado e armazena as variveis mediante notao dupla, isto , utiliza os valores da varivel de forma categorizada (texto) e na forma de nmeros, que podem ser valores codificados (numricos). Por exemplo, a varivel Ferrugem, apresentada no Quadro 1.1, foi dividida em categorias (quatro nveis): resistente (r), susceptvel (s), moderadamente susceptvel (ms) e moderadamente resistente (mr). O STATISTICA usar os cdigos numricos internamente, mas o usurio pode sempre referenciar a ferrugem usando os textos respectivos, conforme apresentado na figura 2.1.

Figura 2.1 Administrador de valores

Feita a coleta de dados, atravs de censos, de levantamentos por amostragem ou de experimentos, geralmente estes dados se apresentam de maneira desorganizada, ainda sem valor informativo sobre o fenmeno em estudo. Portanto, os mesmos devem ser organizados para possibilitarem a anlise. A matriz de dados pode ser criada ou importada. A seguir esto os procedimentos para criar um novo arquivo e importar uma planilha do Excel.

Cap. 2 Gerenciamento de Arquivos

2.1. Criar um novo arquivo (1) Abra o programa STATISTICA; (2) Surgir um arquivo de dados vazio com 10 colunas (ou variveis) e 10 linhas (ou casos), conforme apresentado na Figura 2.2:

Figura 2.2 Arquivo de dados inicial

(3) Geralmente necessrio alterar esse arquivo inicial, com relao ao nmero de variveis ou de casos para permitir a digitao dos dados coletados (4) Esse arquivo ser alterado para possibilitar a entrada dos dados apresentados no Quadro 1.1, logo necessrio excluir 3 variveis e incluir mais 22 casos, gerando uma tabela com 7 colunas e 32 linhas (5) Para excluir as 3 colunas, selecione as trs ltimas colunas, clique com o boto direito do mouse e escolha a opo [DELETE VARIABLES], proceder conforme apresentado nas Figuras 2.3 e 2.4:

Cap. 2 Gerenciamento de Arquivos

Figura 2.3 Procedimento para excluir variveis

Figura 2.4 Definio das variveis a excluir

(6) Para incluir os 22 casos, selecione a ltima linha, clique com o boto direito do mouse e escolha a opo [ADD CASES], proceder conforme apresentado nas Figuras 2.5 e 2.6:

Figura 2.5 Procedimento para incluir casos

Cap. 2 Gerenciamento de Arquivos

Figura 2.6 Definio do nmero de casos a incluir

(7) o arquivo deve ser salvo, para isso no menu [FILE], escolha a opo [SAVE] e defina o nome do arquivo, conforme apresentado na Figura 2.7:

Figura 2.7 Gravao do arquivo criado

(8) Neste momento dispomos de uma tabela possvel para inserir os dados apresentados no Quadro 1.1, mas primeiramente necessrio definir os nomes das variveis e os tipo de dados a serem inseridos (9) Clique duas vezes em cima da primeira coluna e aparecer a janela apresentada na Figura 2.8:

Figura 2.8 Definio das variveis

Cap. 2 Gerenciamento de Arquivos

onde: Name: corresponde ao nome da varivel Type: corresponde ao tipo da varivel, onde os valores possveis so: Double (valores com decimais), Integer (valores inteiros), Text (texto) e Byte (valores inteiros entre 0 e 255) Display format: formato de apresentao dos dados Observao: Para acessar a janela da Figura 2.1 e digitar os respectivos textos da varivel Ferrugem, basta clicar no boto [Text Labels] da janela apresentada na Figura 2.8. (10) No Quadro 2.1 esto as possveis definies das 7 variveis apresentadas no Quadro 1.1:
Quadro 2.1. Definies das Varivel Name Cultivar Cultivar Rendimento mdio (kg/ h) Rendimento Ciclo Ciclo (dias) Altura planta (cm) Altura_planta Altura espiga (cm) Altura_espiga Tipo de gro Tipo_grao Ferrugem Ferrugem (escala) variveis Type Display Format Byte Number Integer Number Byte Number Integer Number Integer Number Text Text -

(11) Agora possvel digitar os dados, conforme apresentado na Figura 2.9:

Figura 2.9 Digitao dos dados do Quadro 1

(12) Aps a digitao dos dados, salvar novamente o arquivo.

Cap. 2 Gerenciamento de Arquivos

2.2. Importao de Arquivos do Excel Existem duas maneiras de importar arquivos no formato Excel. A primeira que ser descrita ideal no caso de planilhas pequenas, pois fcil selecionar a matriz de dados usando somente o mouse. No caso de grandes arquivos, utilize a segunda opo. 1 Opo: (1) Abra o aplicativo Excel (2) Carregue o arquivo de dados que se deseja transferir para o STATISTICA e copie para a rea de transferncia a regio da planilha que contm os dados, conforme apresentado na Figura 2.10:

Figura 2.10 Cpia dos dados para a rea de transferncia

(3) No STATISTICA , crie um novo arquivo com o mesmo tamanho que a regio dos dados no Excel (mesmo nmero de colunas e linhas), o item 2.1 ensina como criar um novo arquivo (4) Criado o arquivo, selecione a primeira clula cole os dados da rea de transferncia, atravs do menu [EDIT], opo [PASTE] e o resultado est apresentado na Figura 2.11:

10

Cap. 2 Gerenciamento de Arquivos

Figura 2.11 Resultado da cpia dos dados da planilha do Excel

(5) Salve o novo arquivo criado, atravs desse processo. 2 Opo: (1) Abrir o programa STATISTICA; (2) No menu [FILE], escolher a opo [Open], aparecer a janela apresentada na Figura 2.12, onde o formato a ser escolhido ser Excel files (*.xls)

Figura 2.12 Importao de arquivos

(3) Selecione a planilha a ser importada (4) Ser apresentada a janela mostrada na Figura 2.13, que representa um resumo da tabela de dados a ser importada;

11

Cap. 2 Gerenciamento de Arquivos

Figura 2.13 Resumo da planilha a ser importada

onde: Range Columns: representa o nmero de variveis existentes na tabela de dados Range Rows: representa o nmero de casos existentes na tabela de dados Get case names from first column: atribui nomes aos casos conforme a primeira coluna da tabela de dados Get variable names from first row: atribui nomes s variveis conforme a primeira linha da tabela de dados Import cell formatting: importa a tabela mantendo a formatao existente no Excel (5) O resumo deve ser verificado quanto ao nmero de variveis e casos existentes na tabela de dados, se o mesmo diferir dos valores corretos, deve-se fazer o seguinte processo: copiar a rea dos dados, juntamente com os nomes das variveis e casos se existirem, para um novo arquivo do Excel, salvar e repetir todos os itens anteriores (6) Se o quadro resumo estiver correto, prossiga e o resultado est apresentado na Figura 2.14:

Figura 2.14 Resultado da importao da planilha do Excel

(7) salve o novo arquivo criado, atravs desse processo. 12

Cap. 3 Anlise Exploratria de Dados

3. ANLISE EXPLORATRIA DE DADOS


Os dados recolhidos que devem ser estudados, ou seja, organizados, sumarizados e descritos, sero pelo STATISTICA, explorados. Isto , procuraremos tirar o mximo de informaes de um conjunto de dados e, principalmente, tentar indicar um modelo que ser utilizado em uma fase posterior da anlise, a Inferncia Estatstica. 3.1. Distribuio de Freqncia de Variveis Qualitativas O estudo de distribuies de freqncias nos permite conhecer a forma, ou seja, a maneira de como os valores de uma varivel se comportam, e assim, podemos ter uma boa idia global dos valores e da sua distribuio. Varivel qualitativa aquela que apresenta seu resultado em forma de uma qualidade ou um atributo. Podem ser ordinais, quando existe uma ordem nos possveis resultados da mesma ou nominais, quando no existe uma ordenao. 3.1.1. Unidimensional Distribuio da freqncia de uma nica varivel. Nesta seo, vamos construir a Tabela de Distribuio de Freqncia Unidimensional e o Grfico de Barras para a varivel qualitativa ordinal resistncia ferrugem. A ordem o grau de ataque da doena. 3.1.1.1. Tabela de Distribuio de Freqncia Unidimensional Exemplo: Anlise da distribuio de freqncia da varivel resistncia ferrugem. (1) Abra o programa STATISTICA e o arquivo hibridos.sta (2) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.1, onde a opo a ser escolhida ser Frequency Table:

13

Cap. 3 Anlise Exploratria de Dados

Figura 3.1 Estatsticas bsicas e tabelas

(3) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.2:

Figura 3.2 Tabelas de freqncia

(4) Clique no boto [Variables] e selecione a varivel Ferrugem, conforme apresentado na Figura 3.3. Se for mantido o boto esquerdo do mouse apertado, com o movimento de subida e descida possvel selecionar vrias variveis ao mesmo tempo, para pular alguma, mantenha apertado a tecla CTRL do teclado e com o boto esquerdo do mouse clique na varivel de interesse:

Figura 3.3. Janela para seleo das variveis para a anlise

(5) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.4:

14

Cap. 3 Anlise Exploratria de Dados

Figura 3.4 Tabela de freqncia com a varivel ferrugem selecionada

(6) Clique na aba [Options] e defina as opes conforme apresentado na figura 3.5. Para desativar, basta clicar na opo correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:

Figura 3.5 Opes da tabela de freqncia

(7) Clique no boto [Summary] e o resultado apresentado na Figura 3.6:

Figura 3.6 - Tabela de Distribuio de Freqncia Unidimensional da varivel resistncia ferrugem.

15

Cap. 3 Anlise Exploratria de Dados

Concluso: a freqncia (ocorrncia) da varivel resistncia ferrugem na anlise de 32 hbridos : 10 resistentes (r) ferrugem = 31,250% 7 susceptveis (s) ferrugem = 21,875% 9 moderadamente susceptveis (ms) ferrugem = 28,125% 6 moderadamente resistentes (mr) ferrugem = 18,750% Importante: a forma como o STATISTICA organiza as janelas durante a anlise a seguinte: h o arquivo de dados com extenso .sta os resultados so gerados no workbook, estes podem ser gravados num arquivo com extenso .stw. No caso da Figura 3.6 foi gravado o arquivo Capitulo3.stw. aps os resultados serem apresentados no workbook, a janela da anlise minimizada no canto inferior esquerdo. No caso da Figura 3.6 v-se que a anlise atual Frequency Tables. 3.1.1.2. Tabela de Distribuio de Freqncia Unidimensional com fator estratificado Conforme pode ser visto direita embaixo da janela apresentada na Figura 3.5, existe o boto [Select Cases S] que permite filtrar os casos com base nas variveis disponveis. Abaixo esto dois exemplos da aplicao desse procedimento de filtragem. (1) Clique no boto [Select Cases S] da janela apresentada na Figura 3.5. Aparecer a janela apresentada na Figura 3.7:

Figura 3.7 Janela que permite especificar as condies

16

Cap. 3 Anlise Exploratria de Dados

(2) Como demonstrado na Figura 3.7, sero includos somente os casos que a varivel v6 (Tipo de gro) assume o valor dentado, que significar que a tabela construda mostrar somente a distribuio da resistncia ferrugem para tipo de gro dentados (3) Para isso, clique em Specific, selected by: By Expression, digite a condio: v6=dentado e clique no boto [OK] (4) Ao voltar para a janela da figura 3.5, clique novamente no boto [Summary] e o resultado est apresentado na Figura 3.8:

Figura 3.8 Resultado da distribuio da freqncia da varivel resistncia ferrugem para o tipo de gro dentado

(6) Para realizar um estudo para hbridos de ciclo curto, hbridos com ciclo da cultura entre 64 e 70 dias, altere a condio de filtragem conforme apresentado na Figura 3.9, onde a condio : v3>=64 and v3<=70

Figura 3.9 Janela que permite especificar as condies

(7) Ao clicar no boto [OK] e voltar para a janela da figura 3.5, clique novamente no boto [Summary] e o resultado est apresentado na Figura 3.10:

17

Cap. 3 Anlise Exploratria de Dados

Figura 3.10 Resultado da distribuio da freqncia da varivel resistncia ferrugem para hbridos de ciclo curto

3.1.1.3. Grfico de Colunas/Barras O STATISTICA um programa que permite integrar um grande potencial grfico com a anlise estatstica de dados num nico aplicativo. A editorao grfica facilitada por meios de opes do sistema. A construo de grficos est disponvel para qualquer mdulo do STATISTICA, visto que existe na barra do menu, a opo Graphs Clicando nela aparecem as opes grficas do aplicativo e cabe ao usurio conhecimento terico e intuitivo para que seja encontrada a melhor forma de representao do fenmeno. Sero construdos grficos em duas e trs dimenses, como 1 exemplo, um simples histograma de freqncia (grfico de colunas/barras). DICA: a compatibilidade do STATISTICA com o Windows plena, isto significa que todas as operaes comuns no Windows so reconhecidas e aceitas. Assim sendo, cortar e colar se combinam com Screen Catcher (Opo em Edit, na Barra de ferramentas do menu principal do STATISTICA que permite a captura da janela ou de um quadro), Alt + Print Screen (no teclado) que copia, trabalhando em conjunto com algum editor de figuras, como o Paint; e mais, h a possibilidade de salvar tudo o que foi feito em formato .rtf (rich text format) atravs do uso da opo Report, que permite criar relatrios internamente no programa, tornando o STATISTICA um editor de grficos bem completo. Exemplo: Construo do grfico de colunas para a varivel resistncia ferrugem. (1) No menu [Graphs], escolha a opo [Histograms], clique na aba [Advanced] e aparecer a janela apresentada na Figura 3.11:

18

Cap. 3 Anlise Exploratria de Dados

Figura 3.11 Janela para a especificao do grfico de colunas

(2) Selecione a varivel, clicando no boto [Variables] e depois na varivel que ser estudada, conforme apresentada na figura a seguir:

Figura 3.12 Janela que mostra as variveis que podem ser selecionadas

(3) Na janela da Figura 3.11, especifique: o tipo de grfico (Graph Type:) regular o tipo de ajuste (Fit Type:) off (sem) ativar o Breaks between Columns (para que haja espao entre as colunas) O resultado das especificaes est apresentado na figura a seguir:

19

Cap. 3 Anlise Exploratria de Dados

Figura 3.13 Janela para a especificao do grfico de colunas

(4) Clicar em OK e o grfico resultante est apresentado na figura a seguir:

Figura 3.14 Grfico de colunas da varivel resistncia ferrugem

(5) Para fazer um grfico de barras, na janela da Figura 3.13, clique na aba [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:

20

Cap. 3 Anlise Exploratria de Dados

Figura 3.15 Grfico de barras da varivel resistncia ferrugem

Nota: No captulo 4 sero apresentadas as opes grficas para modificao do layout dos grficos. Imagina-se que os cultivares de 1 a 11 sejam do municpio de Iara. Se desejarmos fazer um grfico para este municpio, ento: (6) Volte na janela da Figura 3.13, clique no boto [Select Cases] e crie o filtro apresentado na figura a seguir:

Figura 3.16 Janela que permite especificar os cultivares

(7) O grfico resultante est apresentado na figura a seguir:

21

Cap. 3 Anlise Exploratria de Dados

Figura 3.17 Grfico de barras da varivel resistncia ferrugem para o municpio de Iara

Observao: Existe mais de uma maneira de gerar um grfico, como o uso do menu flutuante (pop-up menu), para us-lo, selecione a coluna da varivel desejada e clique com boto direito do mouse. Aparecer uma janela onde deve selecionar a opo Graphs of Input Data a seguir escolha o grfico adequado, conforme apresentado na figura a seguir.

Figura 3.18 Forma alternativa de gerar um Grfico

22

Cap. 3 Anlise Exploratria de Dados

3.1.2. Bidimensional Com essa anlise possvel criar: - Distribuio da freqncia para duas variveis; - Tabelas de contingncia: independncia de variveis qualitativas, uso do: o o Coeficiente de contingncia de Pearson; Coeficiente de Cramr.

3.1.2.1. Tabela da Distribuio de Freqncia Bidimensional Exemplo: Anlise da distribuio de freqncia das variveis resistncia ferrugem e tipo de gro. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.19, onde a opo a ser escolhida ser Frequency Table:

Figura 3.19 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.20:

Figura 3.20 Janela para especificao de tabela

(3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme apresentado na Figura 3.21. As variveis aparecero na List 1: e List 2:.

23

Cap. 3 Anlise Exploratria de Dados

Figura 3.21 Janela com as variveis selecionadas para a tabela bidimensional

(4) Clique nos botes [OK] da janela anterior e da Figura 3.20 e aparecer a janela apresentada na Figura 3.22:

Figura 3.22 Janela para a visualizao do resultado

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 3.23:

Figura 3.23 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo com a resistncia ferrugem e tipo de gro

A linha All Grps mostra as freqncias absolutas, ou seja, o total de hbridos para cada categoria do tipo de gro. Como os totais marginais so diferentes, dificuldades reais de interpretao so introduzidas.

24

Cap. 3 Anlise Exploratria de Dados

Para uma melhor interpretao da tabela, o ideal selecionar que a tabela mostre os resultados em termos de propores, ou seja, podemos fixar o total de linhas e/ou o total de colunas e/ou o total geral. (6) Na janela da Figura 3.22, clique na aba [Options] e defina as opes conforme apresentado na figura 3.24. Para desativar, basta clicar na opo correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo ainda no selecionada:
- Selecione Percentages of total count para a percentagem do total geral; ou - selecione Percentages of row counts para a percentagem do total das linhas; ou - selecione Percentages of column counts para a percentagem do total das colunas.

Figura 3.24 Opes da tabela de freqncia conjunta

Quando fixar o total de linhas e/ou o total de colunas e/ou o total geral? A resposta deve ser de acordo com o objetivo da sua pesquisa. Fixe a varivel que voc quer dar mais nfase. No exemplo, se for a ferrugem, fixe somente o total de linhas. Se for o tipo de gro, fixe somente o total de colunas. (7) Escolha o tipo de percentagem e clique no boto [Summary]. Os resultados esto apresentados nas trs tabelas a seguir:

Figura 3.25 Selecionando somente o total geral

25

Cap. 3 Anlise Exploratria de Dados

Concluso: observando a figura anterior, pode-se concluir que do total de hbridos, 5 ou 15,63% so resistentes e dentados.

Figura 3.26 Selecionando somente o total de linhas

Concluso: observando a figura anterior, pode-se concluir que 4 ou 40% dos resistentes so semi-dentados pois a soma na linha igual a 100%.

Figura 3.27 Selecionando somente o total de colunas

Concluso: observando a figura anterior, pode-se concluir que dos hbridos semi-dentados, 4 ou 36,36% so resistentes, ou ainda, semi-dentados e dentados tem maior porcentagem de resistncia (36,36% e 35,71%, respectivamente contra 14,29% dos semi-duros). As quatro figuras anteriores mostram o mesmo resultado, porm, repare que fixar os totais percentuais no modifica o resultado e sim, enfatiza que resistentes, so os semi-dentados e os dentados. 26

Cap. 3 Anlise Exploratria de Dados

3.1.2.2. Grfico de Barras Mltiplas Para efetuar uma anlise comparativa de vrias distribuies, podemos construir um grfico de barras mltiplo. (1) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida [Histograms] e aparecer a janela apresentada na Figura 3.28:

Figura 3.28 Janela para a especificao do grfico de barras mltiplas

(2) Selecione as variveis, clicando no boto [Variables] e depois escolha a varivel a ser estudada e a que ser a categoria, conforme apresentada na figura a seguir:

Figura 3.29 Janela para seleo das variveis

(3) Na janela da Figura 3.28, especifique: o tipo de grfico (Layout:) Overlaid O resultado das especificaes est apresentado na figura a seguir:

27

Cap. 3 Anlise Exploratria de Dados

Figura 3.30 Janela para a especificao do grfico de barras mltiplas

(5) Para fazer um grfico de barras, na janela da figura anterior, clique na aba [Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no boto [OK]. O grfico resultante est apresentado na figura a seguir:

Figura 3.31 Grfico de barras mltiplas, ferrugem (e seus quatro nveis: resistente, susceptvel, moderadamente susceptvel e moderadamente resistente) versus tipo de gro (e seus trs nveis:semi-duro, semi-dentado e dentado)

3.1.2.3. Tabelas de Contingncia: independncia de variveis As tabelas construdas at aqui, so denominadas tecnicamente de tabelas de contingncia e so teis para estudar a dependncia (ou independncia) entre

28

Cap. 3 Anlise Exploratria de Dados

variveis. Vamos construir novamente a tabela bidimensional com as variveis ferrugem e tipo de gro, onde os totais de linhas foram fixados em 100%. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.32, onde a opo a ser escolhida ser Frequency Table:

Figura 3.32 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.33:

Figura 3.33 Janela para especificao de tabela

(3) Clique no boto [Specify Tables (select variables)). Como a tabela bidimensional, implica que devemos escolher duas variveis conforme apresentado na Figura 3.34. As variveis aparecero na List 1: e List 2:.

Figura 3.34 - Janela com as variveis selecionadas para a tabela bidimensional

29

Cap. 3 Anlise Exploratria de Dados

(4) Clique nos botes [OK] da janela anterior e da Figura 3.33 e aparecer a janela apresentada na Figura 3.35:

Figura 3.35 Janela para a visualizao do resultado

(5) Na janela da figura anterior, clique na aba [Options] e defina a opo percentagem do total das linhas (Percentages of row counts) conforme apresentado na Figura 3.36.

Figura 3.36 Opes da tabela de freqncia conjunta

(6) Na janela da figura anterior, clique na aba [Advanced] e selecione a opo (Display selected %s in sep. tables) conforme apresentado na Figura 3.37. Essa opo separa as freqncias dos valores percentuais em tabelas distintas.

Figura 3.37 Opes da tabela de freqncia conjunta

(7) Clique no boto [Summary] e os resultados esto apresentado nas figuras 3.38 e 3.39:

30

Cap. 3 Anlise Exploratria de Dados

Figura 3.38 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo com a resistncia ferrugem e tipo de gro freqncias

Figura 3.39 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo com a resistncia ferrugem e tipo de gro - percentuais

Interpretao: se os semi-dentados fossem totalmente independentes da varivel resistncia a ferrugem, esperaramos 34,38% (All Grps) para as categoria r, s, ms e mr. Na tabela observamos que a categoria s apresenta 57,14%, valor este acima dos 34,38%. Da mesma forma, observamos tambm que a categoria mr, com 16,67%, esta abaixo dos 34,38%. Isto implica um distanciamento da independncia entre as variveis. Podemos deduzir que elas esto associadas. A determinao dos coeficientes de continncia de Pearson e Cramr, vo quantificar (forte, moderada ou fraca) a dependncia.

31

Cap. 3 Anlise Exploratria de Dados

(7) Clicar em Crosstabulation Tables Resultados: hbridos (lado esquerdo, embaixo) Options Na janela da Figura 3.36 selecione a opo (Phi (2x2 tables) & Cramrs V & C) conforme apresentado na Figura 3.40.

Figura 3.40 Opes da tabela de freqncia conjunta

(8) Na janela da figura anterior, clique na aba [Advanced] e no boto [Detailed two-way tables] e o resultado est apresentado na Figura 3.41:

Figura 3.41 Estatsticas para verificar a associao entre variveis

Observao: O STATISTICA no corrige o coeficiente de contingncia (Contingency coefficient) = 0,4521588. A seguir est a frmula para correo:

C*

C (t - 1) t

0,4521588 (3 - 1) 3

0,5538

Como o coeficiente de contingncia est entre 0 e 1 (0 C* 1), temos uma associao moderada (mdia). Por outro lado, o coeficiente de Cramr (Cramrs V) - 0 V 1, indica uma associao fraca. 3.1.2.4. Grfico de Setores (Pie Charts) (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Pie Charts] e aparecer a janela apresentada na Figura 3.42:

32

Cap. 3 Anlise Exploratria de Dados

Figura 3.42 Janela para especificao do grfico de setores

(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel a ser estudada, conforme apresentada na figura a seguir:

Figura 3.43 Janela para seleo das variveis

(3) Na janela da Figura 3.42, clique na aba [Advanced] e especifique: o tipo de legenda (Pie legend): Text and Percent (mostra o texto (nveis) e as porcentagens) o tipo de visualizao (Type): 3D (tridimensional) a forma (Shape): Ellipse (elipse) O resultado das especificaes est apresentado na figura a seguir:

33

Cap. 3 Anlise Exploratria de Dados

Figura 3.44 Janela para a especificao do grfico de setores

(4) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

Figura 3.45 Grfico de setores para a ferrugem

(5) Para que os setores fiquem separados, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: Pie], ative o Exploded dos quatro setores, conforme apresentado na Figura 3.46:

34

Cap. 3 Anlise Exploratria de Dados

Figura 3.46 Opes grficas do Pie Charts

(6) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

Figura 3.47 Grfico de setores para a ferrugem

3.2. Distribuio de Freqncia de Variveis Quantitativas Varivel quantitativa aquela que apresenta como resultado, medidas e contagens. Podem ser contnuas e discretas. As contnuas, so todas as que, pelo menos em teoria, possam assumir qualquer valor dentro de um intervalo; enquanto as discretas, normalmente resultam de contagens, so nmeros inteiros e s assumem certos valores. Neste caso podemos estabelecer duas situaes: 35

Cap. 3 Anlise Exploratria de Dados

1)

Varivel contnua - classes de ocorrncia

Observao: quando temos poucas observaes, at aproximadamente 25, a distribuio pode ser representada por meio de um diagrama de pontos. O programa STATISTICA no faz este diagrama. 2) Varivel discreta - distribuio de freqncia feita de maneira idntica s variveis qualitativas (categorizadas). Tambm pode ser representada por um diagrama de pontos. 3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta Se os resultados da varivel discreta no so muitos, podemos dar o mesmo enfoque dado as variveis qualitativas. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.50, onde a opo a ser escolhida ser Frequency Table:

Figura 3.50 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.51:

Figura 3.51 Tabelas de freqncia

36

Cap. 3 Anlise Exploratria de Dados

(3) Clique no boto [Variables] e selecione a varivel Ciclo, conforme apresentado na Figura 3.52:

Figura 3.52. Janela para seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.53:

Figura 3.53 Tabela de freqncia com a varivel Ciclo selecionada

(5) Clique na aba [Options] e defina as opes conforme apresentado na figura 3.54:

Figura 3.54 Opes da tabela de freqncia

(6) Clique no boto [Summary] e o resultado est apresentado na Figura 3.55: 37

Cap. 3 Anlise Exploratria de Dados

Figura 3.55 Tabela de Distribuio de Freqncia da varivel Ciclo

3.2.2. Representaes Grficas de Variveis Quantitativas Discretas Os grficos de barras justapostas, conhecidos como histogramas, so indicados no caso de variveis contnuas. Podemos ento, construir um GRFICO DE ORDENADAS para o caso de uma varivel discreta, como por exemplo, a varivel ciclo da cultura. O procedimento no STATISTICA o mesmo que construir um grfico de barras j descrito anteriormente no item 3.1.1.3. Entretanto, o grfico de ordenadas ser construdo para a varivel Ciclo, portanto, siga os passos do exemplo das figuras 3.11 a 3.14, no esquecendo de alterar no item (2) para a varivel Ciclo. (1) O grfico resultante est apresentado na Figura 3.56:
Histogram (hibridos.sta 8v*32c) 6

No of obs

0 64 66 68 70 Ciclo 72 74 76

Figura 3.56 Grfico de colunas da varivel Ciclo

38

Cap. 3 Anlise Exploratria de Dados

(2) Clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properties (All Options)). Na janela que abrir, clique na aba [Plot: Bars] e modifique a opo Type para Lines, conforme apresentado na Figura 3.57:

Figura 3.57 Opes grficas do 2D Histograms

(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
Histogram (hibridos.sta 8v*32c) 6

No of obs

0 64 66 68 70 Ciclo 72 74 76

Figura 3.58 Grfico de ordenadas da varivel ciclo

Quando temos muitas observaes de uma varivel em estudo (acima de 25), recomendvel a formao de intervalos de valores, isto , construir classes de ocorrncias.

39

Cap. 3 Anlise Exploratria de Dados

O STATISTICA pode agrupar os dados em quantas classes quisermos, e a, construir tabelas e grficos em funo dos intervalos. Usar este artifcio uma maneira de encontrar uma melhor representao do fenmeno em estudo. Os intervalos ou so por ele agrupados (dados agrupados em classes), divididos de maneira igual conforme um n previamente estipulado (n of exact intervals), ou, o pesquisador define estas classes (amplitude de casas desiguais). 3.2.3. Dados Agrupados em Classes Quantos intervalos escolher? O nmero de classes deve ser o suficiente para nos dar uma boa idia do fenmeno, devendo por em evidncia a regularidade do fenmeno. O compromisso de cada pesquisador. Construindo sucessivamente diferentes histogramas, alterando o nmero de intervalos, possvel identificar a melhor opo, e assim, deve escolher o que melhor representa a distribuio do fenmeno por ele estudado. Recomenda-se que o nmero no seja muito grande (maior que 15) e nem muito pequeno (menor que 5) e tambm, sempre que for possvel, que as classes tenham a mesma amplitude. Procedimento: (1) Repetir os passos (1) a (5) do item 3.2.1 (Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta), porm altere a varivel para rendimento. (2) Clique na aba [Advanced] e defina a opo No. of exact intervals igual a 6, conforme apresentado na figura 3.59:

Figura 3.59 Opes da tabela de freqncia

Iniciaremos o exemplo com um nmero de classes igual a 6. Posteriormente reduziremos para 5 e finalizaremos com 15 classes. O propsito baseado em uma verificao que vai possibilitar que visualizemos a realidade do fenmeno aonde certos grupos iro ento aparecer destacados. (3) Clique no boto [Summary] e o resultado est apresentado na Figura 3.60:

40

Cap. 3 Anlise Exploratria de Dados

Figura 3.60 Tabela de Distribuio de Freqncia com 6 classes da varivel rendimento de gros

Observao: Neste caso, de dados agrupados em classes, repare que os intervalos de classes so de tamanhos iguais. (4) Clicar em Frequency Tables: hbridos (lado esquerdo, embaixo). Para a construo do histograma clique no boto [Histograms] da Figura 3.59. O resultado est apresentado a seguir:
Histogram: Rendimento Expected Normal 18 16 14 12

No. of obs.

10 8 6 4 2 0 3864 4347 4830 5313 5796 6279 6762 X <= Category Boundary

Figura 3.61 Distribuio de freqncia em 6 classes da varivel Rendimento

(5) A seguir, apresenta-se o histograma com o n de classes igual a 5.

41

Cap. 3 Anlise Exploratria de Dados

Histogram: Rendimento Expected Normal 18 16 14 12

No. of obs.

10 8 6 4 2 0 3622.50 4226.25 4830.00 5433.75 6037.50 6641.25 X <= Category Boundary

Figura 3.62 Distribuio de freqncia em 5 classes da varivel Rendimento

(6) No ltimo grfico, a diviso em 15 classes permite que fiquem destacados os grupos de hbridos que possuem maior rendimento e o hbrido com baixo rendimento.
Histogram: Rendimento Expected Normal 7

No. of obs.

0 3967.5 4312.5 4657.5 5002.5 5347.5 5692.5 6037.5 6382.5 4140.0 4485.0 4830.0 5175.0 5520.0 5865.0 6210.0 6555.0 X <= Category Boundary

Figura 3.63 Distribuio de freqncia em 15 classes da varivel Rendimento

Note ainda que as linhas nos grficos representam o modelo normal (Karl Gauss) em forma de sino. Este aspecto terico representa a maioria dos fenmenos naturais e ser discutido mais adiante. Amplitude de classes desiguais Neste caso o STATISTICA no constri grficos (histogramas). Ele pode apenas construir uma tabela de freqncia com as classes definidas. Dando continuidade ao procedimento:

42

Cap. 3 Anlise Exploratria de Dados

(7) Na janela da Figura 3.59, na aba [Advanced], defina a opo User-specified categories e digite os intervalos das classes de cada categoria conforme apresentado na figura a seguir:

Figura 3.64 Janela onde so definidas as categorias

(8) Clique no boto [Summary] e o resultado est apresentado na Figura 3.65:

Figura 3.65 Tabela de distribuio de freqncia usando categorias definidas pelo usurio

Observaes: A varivel deve ser indicada por seu nmero, ou por sua sigla. No exemplo, vamos trabalhar com a varivel Rendimento que pode ser identificada como v2 ou como RENDIMENTO.

43

Cap. 3 Anlise Exploratria de Dados

3.2.4. Polgono de Freqncias Mtiplos Com esse tipo de grfico pode-se verificar mltiplas distribuies de freqncia num mesmo grfico. Segue a seqncia de passos para a construo do mesmo. (1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na Figura 3.66:

Figura 3.66 Criao de novas variveis

(2) Crie uma varivel aps a varivel Ferrugem, conforme definido na Figura 3.67 e clicar em OK:

Figura 3.67 Janela para a criao de novas variveis

(3) A nova varivel cCiclo corresponder a categorizao da varivel Ciclo, para isso basta posicionar o cursor na nova varivel e no menu [DATA], escolher a opo [Recode], conforme apresentado na Figura 3.68:

44

Cap. 3 Anlise Exploratria de Dados

Figura 3.68 Acesso janela para a categorizao da varivel Ciclo

(4) A categorizao da varivel Ciclo ser feita conforme apresentado na Figura 3.69: clicar OK.

Figura 3.69 Janela para a categorizao da varivel Ciclo

(5) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida [Histograms] e aparecer a janela apresentada na Figura 3.70:

45

Cap. 3 Anlise Exploratria de Dados

Figura 3.70 Janela para a especificao do grfico de colunas mltiplas

(6) Selecione as variveis, clicando no boto [Variables] e depois escolha a varivel a ser estudada e a que ser a categoria, conforme apresentado na Figura 3.71:

Figura 3.71 Janela para seleo das variveis

(7) Na janela da Figura 3.70, especifique: o tipo de grfico (Layout:) Overlaid O resultado das especificaes est apresentado na Figura 3.72:

46

Cap. 3 Anlise Exploratria de Dados

Figura 3.72 Janela para a especificao do grfico de colunas mltiplas

(8) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.73:

Figura 3.73 Grfico de colunas mltiplas, rendimento versus tipo de ciclo (precoce ou tardio)

(9) Para o grfico de freqncias mltiplas, clique com o boto direito do mouse em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que abrir, clique na aba [Plot: General], ative o Multiple Lines conforme apresentado na Figura 3.74:

47

Cap. 3 Anlise Exploratria de Dados

Figura 3.74 Opes grficas

(10) Na janela da Figura 3.74, clique na aba [Plot: Bars], desative o Display Bars conforme apresentado na Figura 3.75:

Figura 3.75 Opes grficas

(11) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.76:

48

Cap. 3 Anlise Exploratria de Dados

Figura 3.76 Grfico polgono de freqncias mltiplas, rendimento versus tipo de ciclo (precoce ou tardio)

3.2.5. O Modelo Normal Uma distribuio de freqncia muito importante em estatstica surge quando os dados tendem a se concentrarem simetricamente em torno de um valor central. Essa distribuio conhecida como a distribuio normal ou Gaussiana e sua forma a de sino. A maioria dos fenmenos naturais tm esta distribuio, porm, apesar desta forma ser a mais esperada, o aspecto terico e cabe ao pesquisador estud-lo. O STATISTICA, por default, quando constri o histograma, tambm representa o modelo normal. Assim, o pesquisador pode ter uma idia se a sua amostra oriunda de uma distribuio aproximadamente normal. Normal Probability Plot (O Grfico Normal de Probabilidades) (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], a opo a ser escolhida ser Frequency Table. Selecione a varivel Rendimento. (2) Clique na aba [Descr.] conforme apresentado na Figura 3.77:

49

Cap. 3 Anlise Exploratria de Dados

Figura 3.77 Opes da tabela de freqncia

(3) Clique no boto [Normal probability plots (2)] e o resultado est apresentado na Figura 3.78:
Normal P-Plot: Rendimento 2.5 2.0 1.5 1.0 0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 3800 4000

Expected Normal Value

4200 4400

4600 4800

5000 5200 Value

5400 5600

5800 6000

6200 6400

6600

Figura 3.78 Grfico Normal de Probabilidade da varivel Rendimento

Interpretao: como os pontos esto dispostos prximos linha reta, conclui-se que a nossa amostra oriunda de uma distribuio aproximadamente normal.

50

Cap. 3 Anlise Exploratria de Dados

3.3. Estatsticas Descritivas

3.3.1. Medidas de Tendncia Central e Disperso A varivel Rendimento adotada como exemplo para se obter as estatsticas descritivas. (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.79, onde a opo a ser escolhida ser Descriptive statistics:

Figura 3.79 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.80:

Figura 3.80 Estatsticas descritivas

(3) Clique no boto [Variables] e selecione a varivel Rendimento. (4) Clique na aba [Advanced] conforme apresentado na Figura 3.81:

51

Cap. 3 Anlise Exploratria de Dados

Figura 3.81 Opes de estatsticas descritivas

Na janela anterior, selecionou-se as estatsticas relevantes para o caso, conforme apresentado a seguir: Valid N - tamanho da amostra Mean mdia Sum soma Median mediana Standard Deviation - desvio padro Variance varincia Std. err. of mean - erro padro da mdia Skewness assimetria Minimum & maximum - mnimo e mximo Lower & upper quartiles - primeiro quartil (Q1) e terceiro quartil (Q3) Range amplitude Quartile range - desvio interquartlico (4) Clique no boto [Summary] e os resultados esto apresentados nas figuras 3.82 e 3.83:

Figura 3.82 Estatsticas descritivas

52

Cap. 3 Anlise Exploratria de Dados

Figura 3.83 Estatsticas descritivas

Outro exemplo: Esta anlise ser baseada em um outro arquivo: bezerros.sta, que deve ser criado conforme dados apresentados no Quadro 3.1.
Quadro 3.1 - Resultado experimental do peso e comprimento, para duas raas de bezerros Raa Peso Comprimento (Kg) (cm) A 45 102 A 46 98 A 47 89 A 49 91 A 50 110 A 50 81 A 51 96 A 51 108 A 52 85 A 53 104 B 40 86 B 43 79 B 44 82 B 46 90 B 48 72 B 51 69 B 54 93 B 55 88 B 56 79 B 57 83

Como primeira anlise, sero determinadas as estatsticas bsicas da varivel Peso para cada tipo de raa de bezerros (A e B) apresentados no quadro anterior, para isso basta seguir o procedimento abaixo: (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.84, onde a opo a ser escolhida ser Breakdown & one-way ANOVA:

53

Cap. 3 Anlise Exploratria de Dados

Figura 3.84 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.85:

Figura 3.85 Estatsticas descritivas por varivel agrupadora

(3) Clique no boto [Variables] e selecione a varivel Peso como dependente (Dependent variables) e a varivel raa como agrupadora (Grouping variables), conforme apresentado na Figura 3.86.

Figura 3.86 Janela para seleo das variveis para a anlise

(4) Clique nos botes [OK] das duas figuras anteriores e aparecer a janela apresentada na Figura 3.87, aps o clique na aba [Descriptives]:

54

Cap. 3 Anlise Exploratria de Dados

Figura 3.87 Opes de estatsticas descritivas

Na janela anterior, selecionou-se as estatsticas relevantes para o caso, sendo que a mdia (mean) vem automaticamente, conforme apresentado a seguir: Standard Deviation - desvio padro Median & quartiles mediana, primeiro quartil (Q1) e terceiro quartil (Q3) (5) Clique no boto [Summary] e os resultados esto apresentados na Figura 3.88:

Figura 3.88 - Estatsticas descritivas da varivel Peso por tipo de raa

A anlise estatstica descritiva utilizada como uma descrio de um conjunto de valores. CUIDADO !!! A mdia e o desvio padro so afetados por valores extremos, altos ou baixos, e a estatstica torna-se irreal. A mdia (Mean) representar bem apenas em casos onde existe simetria, pois a mdia de um modelo assimtrico no reflete a realidade, e neste caso, a mediana (Median) torna-se uma melhor maneira de representao. O desvio padro (Standard deviation) e o erro padro da mdia (Std. err. of mean) so medidas calculadas em torno da mdia e a inteno quantificar a variabilidade dos dados em torno da mdia. Por ser, ento, uma medida relativa, deve existir uma referncia para que faamos a interpretao. Um pesquisador 55

Cap. 3 Anlise Exploratria de Dados

com experincia j espera um determinado valor da variabilidade, caso contrrio, a anlise deve ser baseada em resultados de outros trabalhos. Nos quartis temos a distribuio dividida em quatro partes iguais.
25% 25% 25% 25%

__________________________________________ Mnimo Q1 Mediana Q2 Mximo

3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal Nessa anlise, ser utilizada a ferramenta do STATISTICA de clculo de probabilidade, para isso basta seguir o procedimento abaixo: (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.89, onde a opo a ser escolhida ser Probability calculator:

Figura 3.89 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.90:

Figura 3.90 Janela para clculo de probabilidade

(3) Na janela anterior, especificar: Distribution: Z (Normal) Two-tailed (bilateral) e Create Graph (criar o grfico) 56

Cap. 3 Anlise Exploratria de Dados

X: digite o valor 1 Na figura a seguir esto apresentados os resultados da especificao.

Figura 3.91 Janela para clculo de probabilidade

(4) Clique no boto [Compute], aparecer o valor da probabilidade (p) e os grficos das funes densidade e distribuio de probabilidade, apresentados respectivamente nas figuras 3.92 e 3.93:

Figura 3.92 Janela para clculo de probabilidade

Observao: Para ter acesso ao grfico necessrio sair da janela de clculo de probabilidade, para isto clique no boto [Exit].

57

Cap. 3 Anlise Exploratria de Dados

Probability Density Function y=normal(x;0;1) 0.6 1.0

Probability Distribution Function p=1-2*(1-inormal(0+abs(x-0);0;1))

0.5 0.8

0.4 0.6 0.3 0.4 0.2

0.2 0.1

0.0 -3 -2 -1 0 1 2 3

0.0 -3 -2 -1 0 1 2 3

Figura 3.93 - Distribuio normal padro: mdia mais ou menos 1 desvio padro ( x 1s )

Interpretao: Observar na Figura 3.81, que no intervalo x 1s , temos exatamente 68,2689% dos valores (p=0,682689). (4) Repetir os itens (3) e (4) alterando o valor de X para 2 e 3. Os resultados esto apresentados nas figuras a seguir:
Probability Density Function y=normal(x;0;1) 0.6 1.0 Probability Distribution Function p=1-2*(1-inormal(0+abs(x-0);0;1))

0.5 0.8

0.4 0.6 0.3 0.4 0.2

0.2 0.1

0.0 -3 -2 -1 0 1 2 3

0.0 -3 -2 -1 0 1 2 3

Figura 3.94 - Distribuio normal padro: mdia mais ou menos 2 desvios padres ( x

2s )

Interpretao: Temos agora, 95,45% dos valores (p=0,9545).

58

Cap. 3 Anlise Exploratria de Dados

Probability Density Function y=normal(x;0;1) 0.6 1.0

Probability Distribution Function p=1-2*(1-inormal(0+abs(x-0);0;1))

0.5 0.8

0.4 0.6 0.3 0.4 0.2

0.2 0.1

0.0 -3 -2 -1 0 1 2 3

0.0 -3 -2 -1 0 1 2 3

Figura 3.95 - Distribuio normal padro: mdia mais ou menos 3 desvios padres ( x

3s )

Interpretao: Temos agora, 99,73% dos valores (p=0,9973). 3.3.3. Desenho Esquemtico (Box Plot) O uso da mediana, quartis e extremos importante para obtermos informaes sobre a forma, valor representativo, disperso e valores discrepantes da distribuio. A anlise ser realizada sobre o arquivo bezerros.sta. (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Box Plots] e aparecer a janela apresentada na Figura 3.96:

Figura 3.96 Janela para especificao do desenho esquemtico

59

Cap. 3 Anlise Exploratria de Dados

(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel Peso como a varivel a ser analisada (dependent variable), clique no boto [Ok] e aparecer a janela apresentada na figura a seguir:

Figura 3.97 Janela para especificao do desenho esquemtico

(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:
Box Plot (bezerros.sta 3v*20c) 58 56 54 52 50 48 46 44 42 40 38 Peso Median = 50 25%-75% = (46, 52.5) Non-Outlier Range = (40, 57)

Figura 3.98 Desenho esquemtico em duas dimenses para o peso

Para saber se existe diferena na distribuio entre as duas raas, pode-se construir um grfico box plot categorizado, conforme apresentado no procedimento a seguir: (4) Na janela da Figura 3.97, clique na aba [Advanced] e especifique:

60

Cap. 3 Anlise Exploratria de Dados

as variveis: independente (Independent variables): PESO e agrupadora (Grouping variables): RACA o tipo de grfico (Graph Type): Box Wiskers e Regular o intervalo de agrupamento (Grouping intervals): Integer mode o ajuste (FIT): off (sem linha) o ponto central (Middle Point): Value=Median e Style=Point a caixa (Box): Value=Percentiles e Coefficient=25 o limite (Whisker): Value=Non Outlier Range e Coefficient=1 (default) os pontos discrepantes (Outliers): Value=Outl & Extremes e Coefficient=1,5 O resultado das especificaes est apresentado na figura a seguir:

Figura 3.99 Janela para a especificao do desenho esquemtico

(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

61

Cap. 3 Anlise Exploratria de Dados

Box Plot (bezerros.sta 3v*20c) 58 56 54 52 50


Peso

48 46 44 42 40 38 A Raca B Median 25%-75% Non-Outlier Range

Figura 3.100 Desenho esquemtico para as raas A e B

Se diminuirmos o coeficiente para 0,4 vo aparecer outliers no desenho, conforme apresentado na Figura 3.101. O padro do STATISTICA e de muitos livros de estatstica usar o critrio coeficiente (Coefficient) igual a 1,5, porm, o pesquisador tem autonomia para alter-lo.
Box Plot (bezerros.sta 3v*20c) 58 56 54 52 50
Peso

48 46 44 42 40 38 A Raca B

Median 25%-75% Non-Outlier Range Outliers

Figura 3.101 Desenho esquemtico para as raas A e B, usando o coeficiente igual a 0,4

3.3.4. Diagrama de Disperso Para verificar o relacionamento entre duas variveis pode-se utilizar o diagrama de disperso. A anlise ser realizada sobre o arquivo hibridos.sta. (1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Scatterplots] e aparecer a janela apresentada na Figura 3.102:

62

Cap. 3 Anlise Exploratria de Dados

Figura 3.102 Janela para especificao do diagrama de disperso

(2) Na janela da Figura anterior, especifique: as variveis: X: Altura_planta e Y: Altura_espiga o tipo de grfico (Graph Type): Regular o ajuste (Linear fit): sem seleo O resultado das especificaes est apresentado na figura a seguir:

Figura 3.103 Janela para a especificao do diagrama de disperso

(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

63

Cap. 3 Anlise Exploratria de Dados

Scatterplot (hibridos.sta 7v*32c) 160

150

140
Altura_espiga

130

120

110

100 230

240

250

260 Altura_planta

270

280

290

Figura 3.104 Diagrama de disperso para as variveis quantitativas, altura de espiga e altura de planta.

Interpretao: de modo geral observamos uma tendncia linear nos dados, isto , quanto mais altas so as plantas, mais altas as alturas das espigas. 3.3.5. Coeficiente de Correlao (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 3.105, onde a opo a ser escolhida ser Correlation matrices:

Figura 3.105 Janela para o clculo do coeficiente de correlao

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.106:

64

Cap. 3 Anlise Exploratria de Dados

Figura 3.106 Janela para seleo das variveis para a anlise

(3) Clique no boto [Two lists (rect. matrix)] e selecione a varivel Altura_planta (First variable list) e a varivel Altura_espiga (Second variable list (optional)), conforme apresentado na Figura 3.107.

Figura 3.107 Janela para seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.108:

Figura 3.108 Janela para seleo das variveis para a anlise

(5) Clique no boto [Summary] da figura anterior e o valor da correlao estar apresentado na Figura 3.109:

65

Cap. 3 Anlise Exploratria de Dados

Figura 3.109 Valor do coeficiente de correlao

Interpretao: Podemos concluir que as variveis esto correlacionadas positivamente, ou seja, quanto maior a altura da planta maior a altura da espiga. 3.3.6. Ajuste da Equao de uma Reta O ajuste de um modelo linear simples da como resultado uma equao matemtica que descreve o relacionamento entre duas variveis. Para ajustar um modelo linear simples entre a altura da planta e altura da espiga, basta repetir o procedimento do item 3.3.4. habilitando o ajuste linear (Linear fit), conforme apresentado na Figura 3.110.

Figura 3.110 Janela para a especificao do diagrama de disperso

(1) Clique no boto [OK] e o grfico resultante est apresentado na figura a seguir:

66

Cap. 3 Anlise Exploratria de Dados

Scatterplot (hibridos.sta 7v*32c) Altura_espiga = -68.5699+0.753*x 160

150

140
Altura_espiga

130

120

110

100 230

240

250

260 Altura_planta

270

280

290

Figura 3.111 Valores observados e a equao de regresso ajustada

O modelo linear simples ajustado :


Altura _ espiga 68,5699 0,753 x Altura _ planta

Interpretao: o aumento de 1 cm no valor da altura da planta faz com que a altura da espiga aumente em 0,753 cm. Anlise dos Resduos Essa anlise feita para a varivel dependente e permite verificar se o modelo ajustado adequado para os dados, se as varincias so homogneas, se existem valores discrepantes e se os erros podem ser assumidos como tendo aproximadamente uma distribuio normal. Os resduos consistem da diferena entre os valores observados e os estimados pelo modelo ajustado, conforme equao a seguir:
ei Yi Yi

onde: ei = resduo da i-sima observao Yi = valor observado da varivel resposta da i-sima observao

Yi = valor estimado da varivel resposta da i-sima observao


O modelo ser considerado adequado se a distribuio dos resduos for normalmente distribuda com mdia nula e varincia constante ( 2). Uma das formas de verificao atravs de anlise grfica, explorada neste tpico. Na seqncia esto os passos para a anlise dos resduos. (1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na Figura 3.112:

67

Cap. 3 Anlise Exploratria de Dados

Figura 3.112 Criao de novas variveis

(2) Crie duas variveis aps a varivel Ferrugem, conforme apresentado na Figura 3.113:

Figura 3.113 Janela para a criao de novas variveis

(3) Defina as variveis, uma ser relativa aos valores estimados e a outra aos resduos, conforme apresentado nas figuras 3.114 e 3.115, respectivamente:

68

Cap. 3 Anlise Exploratria de Dados

Figura 3.114 Janela para a criao dos valores estimados

Observao: na janela anterior foi inserido o modelo linear ajustado (= -68.5699 + (0.753 * v4)), onde v4 corresponde varivel Altura_planta.

Figura 3.115 Janela para a criao dos resduos

Observao: na janela anterior foi inserido o clculo dos resduos (ei) (= v5 - v8)), onde v5 corresponde varivel Altura_espiga e v8 Altura_espiga_est (valores estimados). (4) Para verificar se os resduos so normalmente distribudos, construdo o Grfico normal de probabilidade dos resduos, conforme apresentado na Figura 3.116, cujo resultado est apresentado na Figura 3.117:

69

Cap. 3 Anlise Exploratria de Dados

Figura 3.116 Janela para a criao do grfico de probabilidade normal dos resduos

Normal Probability Plot of Altura_espiga_res (hibridos.sta 9v*32c) 2.5 2.0 1.5 1.0
Expected Normal Value

0.5 0.0 -0.5 -1.0 -1.5 -2.0 -2.5 -30

-20

-10

0 Observed Value

10

20

30

Figura 3.117 Grfico de probabilidade normal dos resduos

Interpretao: o grfico anterior indica que os resduos possuem uma distribuio normal. (5) Para verificar se os resduos possuem varincia constante, construdo um grfico de disperso (scatterplot) entre os resduos (ei) e a varivel independente ou preditora (Altura_planta), conforme apresentado na Figura 3.118, cujo resultado est apresentado na Figura 3.119:

70

Cap. 3 Anlise Exploratria de Dados

Figura 3.118 Janela para a criao do grfico de disperso entre os resduos e a varivel independente ou preditora (Altura_planta)

Scatterplot (hibridos.sta 9v*32c) 30

20

10
Altura_espiga_res

-10

-20

-30 230

240

250

260 Altura_planta

270

280

290

Figura 3.119 Grfico de disperso entre os resduos e a varivel independente ou preditora (Altura_planta)

Interpretao: o grfico anterior indica que a distribuio dos resduos aleatria, o modelo linear adequado e que a varincia dos erros pode ser considerada constante.

71

Cap. 4 Opes Grficas

(6) Para verificar se existe(m) valor(es) discrepante(s), construdo um grfico de disperso (scatterplot) entre os resduos padronizados e a varivel independente ou preditora (Altura_planta). Os resduos (erros) padronizados so calculados como:

zi

ei
n 2 i 1 i

e /n 2

No Statistica criar uma nova varivel nominada de resduos^2, ou seja, no programa statistica temos: resduos^2 = v9**2. V com o cursor em cima da varivel resduos^2, ou seja, em v10, clicar com o boto direito, selecionar statistics of block data blocks columns sums. Na ltima linha na planilha dos dados vai aparecer o total 3818,922ou seja, a soma dos quadrados dos erros ou resduos. Criar uma nova varivel nominada de resduos padronizados aps a varivel resduos^2, na planilha de dados. Esta varivel assume os valores dados por:
=v9/(sqrt(3818,922/(32-2))), onde sqrt a raz quadrada. Criar um grfico de disperso com as variveis: resduos padronizados e altura_planta. Temos o resultado:

Como os resduos padronizados esto na faixa de -3 a 3, no temos a presena de valores discrepantes (outliers). (7) Para verificar a qualidade do ajuste do modelo linear podemos calcular o coeficiente de determinao (R2). Matematicamente dado pelo coeficiente de correlao ao quadrado. 72

Cap. 4 Opes Grficas

Para o nosso exemplo temos: R2 = (0,65)2 = 0,4244. Em porcentagem vale 42,44%, ou seja, temos que a incluso da varivel altura de planta no modelo explica 42,44% da altura de espiga.

73

Cap. 4 Opes Grficas

4. OPES GRFICAS
Para editar o aspecto geral do grfico, basta clicar duas vezes com o boto esquerdo do mouse sobre a rea de fora do grfico propriamente dita (rea onde esto as palavras de legenda, ttulo e as escalas). Uma outra forma clicar com o boto direito do mouse e escolher a opo Graph Properties (All Options), conforme apresentado na Figura 4.1:

Figura 4.1 Edio das propriedades do grfico

Ambos os procedimentos abrem a janela de edio geral do grfico apresentada na Figura 4.2, porm a segunda forma permite acessar outras opes, como por exemplo: copiar (Copy Graph) o grfico ou capturar uma regio do mesmo (Screen Catcher) para um editor de texto, imprimir (Print Graph).

74

Cap. 4 Opes Grficas

Figura 4.2 Janela das propriedades do grfico

Com a janela apresentada na Figura 4.2 possvel, por exemplo: - alterar as propriedades da janela (Graph Window), como a cor do fundo (Outside Background Color), a borda (Borders around the graph) e o tamanho (Size) do mesmo; - alterar o layout (Graph Layout) como a disposio dos eixos (Axis positions); - modificar ttulos e subttulos (Graph Titles/Text), como o tipo, tamanho e cor da letra; - editar os eixos (Axis Scaling), como os valores incio (Minimum), fim (Maximum) e o passo (Step Size) da escala. Existem outras opes que so especficas para cada tipo de grfico, como: - Plot: Bar grfico de barras; - Plot: Histogram histogramas; - Plot: Pies grfico de setores; - Plot: Point Labels grfico de disperso. Uma forma mais rpida para alterar a formatao de um grfico clicar duas vezes em cima do que se quer mudar e alterar conforme padro do trabalho que se est fazendo ou para traduzir textos para o Portugus, por exemplo. Para exemplificar, ser utilizado o grfico de colunas construdo para a varivel resistncia ferrugem reapresentado na Figura 4.1. A seguir, est uma seqncia de procedimentos que visa exemplificar o potencial grfico que est disponvel no programa STATISTICA .

75

Cap. 4 Opes Grficas

Figura 4.3 Grfico de colunas da varivel resistncia ferrugem

(1) Clicar duas vezes em cima do ttulo do grfico, aparecer a janela apresentada na Figura 4.4:

Figura 4.4 Janela das propriedades do ttulo

(2) Alterar o ttulo, sua fonte, tamanho e cor, conforme seu padro adotado. Na Figura 4.5 est um exemplo:

Figura 4.5 Janela das propriedades do ttulo

(3) Clicar duas vezes em cima do fundo do grfico, cujo padro a cor amarela claro, trocando-se a cor conforme apresentado na Figura 4.6:

76

Cap. 4 Opes Grficas

Figura 4.6 Alterao das propriedades do fundo

(4) Clicar duas vezes no ttulo do eixo que se deseja modificar, no exemplo o Y, apresentado na Figura 4.7:

Figura 4.7 Janela das propriedades do eixo Y

(5) Alterar o ttulo do eixo, conforme apresentado na Figura 4.8:

77

Cap. 4 Opes Grficas

Figura 4.8 Janela das propriedades do eixo Y

(6) Para alterar o eixo X, basta alterar a caixa de texto da opo Axis na Figura 4.8 para X e modificar o ttulo deste, conforme apresentado na Figura 4.8:

Figura 4.9 Janela das propriedades do eixo Y

(7) Para modificar o preenchimento (rea) e a cor das barras, clicar com o boto da direita em cima de uma das colunas, apresentado na Figura 4.10:

78

Cap. 4 Opes Grficas

Figura 4.10 Alterao do o preenchimento da coluna

(8) Escolher a cor e o padro atravs da janela apresentada na Figura 4.11:

Figura 4.11 Janela para escolha do preenchimento da coluna

(9) O grfico resultante est apresentado na Figura 4.12:

79

Cap. 4 Opes Grficas

Figura 4.12 Grfico de colunas da varivel resistncia ferrugem

Observao: Ressalta-se que foram exploradas somente algumas das opes grficas disponveis no programa STATISTICA , cabendo ao leitor explorar as diversas formas de edio e possveis padronizaes de seus grficos.

80

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

5. TESTES ESTATSTICOS PARA COMPARAO DE DUAS MDIAS

5.1. Teste de Duas Mdias Populacionais com Varincias Desconhecidas a) Dados pareados ou amostras dependentes b) Dados no pareados ou amostras independentes b.1) Varincias homogneas (iguais) b.2) Varincias heterogneas (desiguais) O mtodo de anlise selecionado para o teste-t deve ser previamente estudado para que no implique em resultados falsos. Isto significa que precisamos testar a homogeneidade das varincias e verificar o planejamento da pesquisa, e baseado nesta concluso, aplicar ento o teste correto, que pode ser: 1. Amostras independentes - varincias homogneas - (T-Test for Independent Samples (Groups)) 2. Amostras independentes - varincias heterogneas - (T-Test for Independent Samples (Groups) aplicado o t-test with separate variances estimates) 3. Amostras dependentes (Correlacionadas) - (T-Test for Dependent (Correlated) Samples) 5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas Exemplo 1: Criar o arquivo solvente.sta conforme dados apresentados no Quadro 5.1.
Quadro 5.1 Resultados das absorbncias para dois tipos de solventes Tratamento Repetio Absorbncia 1 1 0,6286 1 2 0,6143 1 3 0,5826 1 4 0,7498 1 5 0,6060 2 1 0,4748 2 2 0,4321 2 3 0,4309 2 4 0,5010 2 5 0,4094

(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.1, onde a opo a ser escolhida ser t-test, independent, by groups:

81

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.1 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.2:

Figura 5.2 Teste-t para amostras independentes

(3) Clique no boto [Variables] e selecione as variveis para a anlise (Grouping variable = Tratamento e Dependent variable = Absorbancia), conforme apresentado na Figura 5.3:

Figura 5.3 Janela de seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.4:

82

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.4 Teste-t para amostras independentes

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.5:

Figura 5.5 Resultado do teste-t para os dois solventes

Interpretao: Da figura anterior conclui-se que: - Mdias amostrais: x 1 =0,63626


x 2 =0,44964

- Desvios padro amostrais: s1=0,06563 s2=0,03725 1) Teste de homogeneidade de varincias As hipteses a serem testadas esto apresentadas a seguir: H0: Ha:
21 21

= >

22 22

significa que h homogeneidade de varincia significa que no h homogeneidade de varincia

Tipo do teste: unilateral Importante: O STATISTICA sempre faz um teste bilateral. No exemplo, sendo um teste unilateral, deve-se dividir o valor p por dois. Assim, p=0,2983/2=0,1491. Sendo assim, no se pode rejeitar a hiptese nula e concluise que as varincias podem ser consideradas homogneas (p=0,1491).

83

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

2) Teste de igualdade de mdias As hipteses a serem testadas esto apresentadas a seguir: H0: 1 = 2 significa que no h diferena entre as mdias de absorbncia com relao ao tipo de solvente Ha: 1 significa que h diferena entre as mdias de absorbncia 2 com relao ao tipo de solvente Tipo do teste: bilateral Da Figura 5.5, t=5,5301 (p=0,0006), ou seja, a probabilidade de t 5,5301 ocorrer devido ao acaso. Sendo assim, rejeita-se a hiptese nula e conclui-se que existe diferena estatisticamente significativa entre as mdias ao nvel de significncia de 0,06% (0,0006 x 100). Outra maneira de calcular o valor p: (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.6, onde a opo a ser escolhida ser Probability calculator:

Figura 5.6 Estatsticas bsicas e tabelas

(2) Selecione as seguintes opes: Distribuition: t (Student); Two-tailed (teste bilateral); (1-Cumulative p); t=5,530084 (valor encontrado pelo t-test for Independent Samples) df = 8 (graus de liberdade) (3) Clique no boto [Compute] e o resultado est apresentado na Figura 5.7:

84

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.7 Janela para clculo do valor p do teste

Note que encontra-se o valor p exatamente igual ao descrito pelo T-Test for Independent Samples, conforme apresentado na Figura 5.5. Diagrama de caixas (BOX PLOT ) (1) Na janela da Figura 5.4, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.8:

Figura 5.8 Diagrama de caixas para os dois tipos de solventes

Interpretao: Pela Figura 5.8, pode-se considerar que h homogeneidade de varincia e que a mdia da absorbncia no solvente 1 maior com relao ao solvente 2. Grfico normal de probabilidades por tratamento (1) Na janela da Figura 5.4, clique na aba [Advanced], aparecer a janela apresentada na Figura 5.9:

85

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.9 Teste-t para amostras independentes

(2) Na janela da Figura 5.9, clique no boto [Categorized normal plot] e o grfico resultante est apresentado na Figura 5.10:

Figura 5.10 Grfico normal de probabilidades por tratamento

Exemplo 2: Criar o arquivo tomate.sta conforme dados apresentados no Quadro 5.2.


Quadro 5.2 Resultados de produo de dois tipos de adubos em tomateiro Tratamento Repetio Produo 1 1 29,9 1 2 11,4 1 3 25,3 1 4 16,5 1 5 21,1 2 1 26,6 2 2 23,7 2 3 28,5 2 4 14,2 2 5 17,9 2 6 24,3

86

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias Fonte: Box, Hunter & Hunter

(1) Repetir os cinco primeiros passos do Exemplo 1, porm selecionando as seguintes variveis para a anlise: Grouping variable = Tratamento e Dependent variable = Producao. O resultado do teste est apresentado na Figura 5.11:

Figura 5.11 Resultado do teste-t para a produo dos dois diferentes tipos de adubos

1) Teste de homogeneidade de varincias As hipteses a serem testadas esto apresentadas a seguir: H0: Ha:
21 21

= >

22 22

significa que h homogeneidade de varincia significa que no h homogeneidade de varincia

Tipo do teste: unilateral Da Figura 5.11, F=1,7792 (p=0,5400/2=0,2700) significa que no se pode rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas. 2) Teste de igualdade de mdias As hipteses a serem testadas esto apresentadas a seguir: H0: 1 = 2 significa que no h diferena entre as mdias de produo com relao ao tipo de adubo Ha: 2 > 1 significa que a mdia da produo do adubo tipo 1 menor que a mdia da produo do adubo tipo 2 Tipo do teste: unilateral Da Figura 5.5, F=3,1046 (p=0,6677/2=0,3339) significa que no se pode rejeitar a hiptese nula, ou seja, no existe diferena estatisticamente significativa entre as mdias. 5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas Exemplo 3: Criar o arquivo variedade.sta conforme dados apresentados no Quadro 5.3.

87

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Quadro 5.3 Resultados do rendimento em kg/ha de duas variedades de milho Varied_A Varied_B 1300 1800 1350 1600 1250 1900 1400 1850 1200 1750 2500

(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.12, onde a opo a ser escolhida ser t-test, independent, by variables:

Figura 5.12 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.13:

Figura 5.13 Teste-t para amostras independentes

(3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable (group) list - Varied_A e Second variable (group) list - Varied_B), conforme apresentado na Figura 5.14:

88

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.14 Janela de seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.15:

Figura 5.15 Teste-t para amostras independentes

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.16:

Figura 5.16 Resultado do teste-t para as duas variedades

1) Teste de homogeneidade de varincias As hipteses a serem testadas esto apresentadas a seguir: H0: Ha:
2A 2B

= >

2B 2A

significa que h homogeneidade de varincia significa que no h homogeneidade de varincia

Tipo do teste: unilateral 89

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Da Figura 5.16, F=15,5200 (p=0,0200/2=0,0100) significa que rejeita-se a hiptese nula, ou seja, as varincias no podem ser consideradas homogneas. Neste caso, como as varincias so heterogneas, o teste-t deve ser calculado com varincias separadas. (6) Na janela da Figura 5.15, clique na aba [Options] e selecione a opo t-test with separate variance estimates, conforme apresentado na Figura 5.17:

Figura 5.17 Teste-t para amostras independentes

(7) Clique no boto [Summary] e o resultado est apresentado na Figura 5.18:

Figura 5.18 Resultado do teste-t para as duas variedades com varincias desiguais

2) Teste de igualdade de mdias As hipteses a serem testadas esto apresentadas a seguir: H0: A = B significa que no h diferena entre as mdias de produo com relao ao tipo de variedade Ha: A significa que h diferena entre as mdias de produo com B relao ao tipo de variedade Tipo do teste: bilateral Da Figura 5.18, t=-4,5464 (p=0,0043), ou seja, rejeita-se a hiptese nula e conclui-se que existe diferena estatisticamente significativa entre as mdias de produo com relao ao tipo de variedade. (8) Na janela da Figura 5.15, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.19: 90

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.19 Diagrama de caixas para as duas variedades de milho

Interpretao: Pela Figura 5.19, visvel que a varincia da Variedade A menor que a da Variedade B e que a mdia na Variedade B maior com relao Variedade A. 5.1.3. Amostras Dependentes (Dados Pareados) Exemplo 4: Criar o arquivo solas.sta conforme dados apresentados no Quadro 5.4.
Quadro 5.4 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais Criana Material_A Material_B 1 13,2 14,0 2 8,2 8,8 3 10,9 11,2 4 14,3 14,2 5 10,7 11,8 6 6,6 6,4 7 9,5 9,8 8 10,8 11,3 9 8,8 9,3 10 13,3 13,6

Neste experimento, cada criana usou um tipo de material diferente de solado em cada um de seus sapatos, caracterizando a dependncia entre as medidas, pois numa mesma criana so realizadas duas medidas de desgaste nos dois tipos de materiais. As hipteses a serem testadas esto apresentadas a seguir: H0: A = B significa que no h diferena entre as mdias de desgaste com relao ao tipo de material

91

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Ha: ]B > A significa que a mdia de desgaste do material A menor que a mdia de desgaste do material B Tipo do teste: unilateral (1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.20, onde a opo a ser escolhida ser t-test, dependent samples:

Figura 5.20 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.21:

Figura 5.21 Teste-t para amostras dependentes

(3) Clique no boto [Variables] e selecione as variveis para a anlise (First variable list - Material_A e Second variable list (optional) - Material_B), conforme apresentado na Figura 5.22:

92

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.22 Janela de seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.23:

Figura 5.23 Teste-t para amostras dependentes

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.24:

Figura 5.24 Resultado do teste-t para amostras dependentes

Concluso: Da Figura 5.24, t=-3,3489 (p=0,0085/2=0,0043), ou seja, rejeita-se a hiptese nula e conclui-se que a mdia de desgaste do material A menor que a mdia de desgaste do material B.

93

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Selecionando o mtodo incorreto (1) Refazer o teste anterior da mesma forma que no Exemplo 3, escolhendo a opo para amostras independentes (t-test, independent, by variables). Selecione as variveis conforme mostrado na Figura 5.25:

Figura 5.25 Teste-t para amostras independentes

(2) Clique no boto [Summary] e o resultado est apresentado na Figura 5.26:

Figura 5.26 Resultado do teste-t para amostras independentes

1) Teste de homogeneidade de varincias Da Figura 5.26, F=1,0555 (p=0,9372/2=0,4686) significa que no se pode rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas homogneas. 2) Teste de igualdade de mdias Da Figura 5.26, t=-0,3689 (p=0,7165/2=0,3582) significa que no se pode rejeitar a hiptese nula, ou seja, a mdia de desgaste do material A no menor que a mdia de desgaste do material B. Sendo assim, no se rejeita a hiptese nula, s que, ESTA CONCLUSO NO VERDADEIRA. Por isto, estudamos anteriormente o delineamento da pesquisa.

94

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

A seguir, o grfico mostra como as mdias esto prximas, pois aqui no foi retirado o efeito de meninos. (3) Na janela da Figura 5.25, para construir o diagrama de caixas, clique no boto [Box & whisker plot] e o grfico resultante est apresentado na Figura 5.27:

Figura 5.27 Diagrama de caixas para os dois tipos de materiais

5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados Pareados (1) Criar uma nova varivel (DifB_A) no arquivo solas.sta, que representa a diferena entre os valores de desgastes dos dois materiais. Para isso, clique com o boto da direita em cima da varivel Material_B, selecione a opo [Add variable] e defina a nova varivel conforme apresentado na Figura 5.28:

Figura 5.28 Janela de especificao da varivel DifB_A

95

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

(2) Clique no boto [OK] e se aparecer a expresso Expression OK. Recalculate the variable now? clique no boto [SIM]. O arquivo resultante est apresentado no Quadro 5.5:
Quadro 5.5 Resultados do desgaste de solas de sapatos, confeccionadas com dois tipos diferentes de materiais Criana Material_A Material_B DifB_A 1 13,2 14,0 0,8 2 8,2 8,8 0,6 3 10,9 11,2 0,3 4 14,3 14,2 -0,1 5 10,7 11,8 1,1 6 6,6 6,4 -0,2 7 9,5 9,8 0,3 8 10,8 11,3 0,5 9 8,8 9,3 0,5 10 13,3 13,6 0,3

(3) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 5.29, onde a opo a ser escolhida ser Descriptive statistics:

Figura 5.29 Estatsticas bsicas e tabelas

(4) Clique no boto [OK], selecione a nova varivel criada (DifB_A) clicando no boto [Variables] e na aba [Advanced] selecione as opes conforme apresentado na Figura 5.30:

96

Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.30 Estatsticas descritivas

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.31:

Figura 5.31 Resultado do intervalo de confiana para a varivel DifB_A

Interpretao: Da Figura 5.31 estimasse que a verdadeira diferena mdia do desgaste das solas entre os dois materiais est no intervalo 0,1330 0,6870

97

Cap. 6 Teste para Duas ou Mais Propores

6. TESTE PARA DUAS OU MAIS PROPORES

6.1. O Teste do Qui-Quadrado (CHI-SQUARE) O exemplo trata de um experimento fatorial 22 (dois fatores com dois nveis cada) que so: duas pocas de plantio (fora e na primavera) e duas formas de corte (longo e curto). A resposta a sobrevivncia dos enxertos dada em contagens. Exemplo 1: Criar o arquivo ameixeira.sta conforme dados apresentados no Quadro 6.1.
Quadro 6.1 Dados de sobrevivncia de enxertos de ameixeira poca Forma Sobrevive Observao Tratamento fora longo sim 156 fl fora curto sim 107 fc na longo sim 84 nl na curto sim 31 nc fora longo no 84 fl fora curto no 133 fc na longo no 156 nl na curto no 209 nc

Nesta seo realizaremos cinco anlises: 1) Verificar se existe diferena significativa entre os quatro tratamentos. Observao: Se for constatado que no existe diferena, encerra-se a anlise por aqui. Caso exista diferena, prosseguir com a seguinte anlise. 2) Testar se a interao significativa. Observao: Se a interao for significativa, far-se- o desdobramento da mesma. Caso contrrio, prosseguir com a seguinte anlise. 3) Testar se existe efeito de poca. 4) Testar se existe efeito de forma. 5) Supor que a interao significativa e testar os efeitos (desdobramentos). Forma (poca) - forma dentro de poca e poca (Forma) - poca dentro de forma. 1 teste: Teste do efeito dos quatro tratamentos Fora/Longo (fl) Fora/Curto (fc) Na/Longo (nl) Na/Curto (nc)

98

Cap. 6 Teste para Duas ou Mais Propores

(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer a janela apresentada na Figura 6.1, onde a opo a ser escolhida ser Tables and banners:

Figura 6.1 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 6.2:

Figura 6.2 Janela para especificao da tabela de contingncia

(3) Clique no boto [Specify Tables (select variables)). Como a tabela tridimensional, implica que devemos escolher trs variveis conforme apresentado na Figura 6.3:

Figura 6.3 Janela com as variveis selecionadas para a tabela tridimensional

(4) Clicar no boto [W] (weight = peso ou ponderao) existente no canto inferior direito da janela da Figura 6.2 e defina as opes conforme apresentado na Figura 6.4; 99

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.4 Janela para definio da ponderao

(5) Clique nos botes [OK] da janela anterior e da Figura 6.2 e aparecer a janela apresentada na Figura 6.5:

Figura 6.5 Janela para a visualizao do resultado

(6) Clique no boto [Summary] e o resultado est apresentado na Figura 6.6:

Figura 6.6 Tabela de contingncia da sobrevivncia dos enxertos

Observao: Como o STATISTICA no calcula a estatstica qui-quadrado de uma tabela com trs variveis. Para contornar este problema foi criada a varivel Tratamento. Sendo assim, agora, vamos especificar uma nova tabela de contingncia.

100

Cap. 6 Teste para Duas ou Mais Propores

(7) Retorne a janela de especificao das variveis (item 3) e selecione as mesmas, conforme apresentado na Figura 6.7:

Figura 6.7 Janela com as variveis selecionadas para a tabela bidimensional

(8) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes conforme apresentado na Figura 6.8:

Figura 6.8 Janela para a visualizao do resultado

(9) Clique na aba [Advanced] da janela anterior conforme apresentado na Figura 6.9:

Figura 6.9 Janela para a visualizao do resultado

(10) Clique no boto [Detailed two-way tables] e os resultados esto apresentados nas figuras 6.10 e 6.11:

101

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.10 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.11 Resultados do teste de qui-quadrado para os tratamentos

As hipteses a serem testadas esto apresentadas a seguir: H0: a proporo de sobreviventes a mesma para os quatro tratamentos Ha: a proporo de sobreviventes no a mesma para os quatro tratamentos Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado de Pearson, cujo valor foi de 141,05 (p<0,0001), rejeita-se a hiptese nula, ou seja, existe diferena estatisticamente significativa entre as propores de sobreviventes com relao aos quatro tratamentos. 2 teste: Teste do efeito da Interao Para testar esse efeito, h necessidade de criar a varivel Interao, conforme apresentado no Quadro 6.2:

102

Cap. 6 Teste para Duas ou Mais Propores

Quadro 6.2 Critrio para criao da varivel interao poca Forma Interao poca*Forma fora +1 longo +1 +1 fora +1 curto -1 -1 na -1 longo +1 -1 na -1 curto -1 +1 fora +1 longo +1 +1 fora +1 curto -1 -1 na -1 longo +1 -1 na -1 curto -1 +1

(1) Crie a nova varivel (Interacao) no arquivo ameixa.sta, conforme apresentado na Figura 6.12 e preencha conforme os valores apresentados na terceira coluna do Quadro 6.2:

Figura 6.12 Janela de criao da varivel Interacao

(2) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.13:

Figura 6.13 Janela com as variveis selecionadas para a tabela bidimensional

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes conforme apresentado na Figura 6.14: 103

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.14 Janela para a visualizao do resultado

Observao: A tabela resultante ser 2x2 e neste caso recomenda-se utilizar a correo de continuidade de Yates. (4) Clique na aba [Advanced] da janela anterior, no boto [Detailed two-way tables] e os resultados esto apresentados nas figuras 6.15 e 6.16:

Figura 6.15 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.16 Resultados do teste de qui-quadrado para a Interao

104

Cap. 6 Teste para Duas ou Mais Propores

As hipteses a serem testadas esto apresentadas a seguir: H0: o efeito interao no significativo Ha: o efeito interao significativo Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 0,0393 (p=0,8429), no rejeita a hiptese nula, ou seja, o efeito interao no significativo. Anlise Grfica A seguir, ser construdo um grfico que permite verificar que no existe interao entre poca e forma. (1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.17:

Figura 6.17 Janela com as variveis selecionadas para a tabela bidimensional

(2) Clicar no boto [Select cases] existente no canto inferior direito da janela da Figura 6.2 e defina as opes conforme apresentado na Figura 6.18:

Figura 6.18 Janela para especificao da condio selecionada

105

Cap. 6 Teste para Duas ou Mais Propores

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2. Na janela que aparecer, clique na aba [Advanced] e no boto [Interaction plots of frequencies] e o grfico resultante est apresentado na Figura 6.19:
Interaction Plot: Epoca x Forma 180 160 140 120

Frequencies

100 80 60 40 20 0 longo Forma curto Epoca fora Epoca na

Figura 6.19 Grfico da interao forma de corte e poca de plantio para sobreviventes.

Interpretao: dado que as linhas do grfico no se cruzam, conclui-se que no h interao entre os tratamentos. 3 teste: Teste do efeito poca (1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.20:

Figura 6.20 Janela com as variveis selecionadas para a tabela bidimensional

(2) Clique no boto [Select Case] e desative a condio de seleo, conforme apresentado na Figura 6.21:

106

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.21 Janela para desabilitar a seleo

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes conforme apresentado na Figura 6.22:

Figura 6.22 Janela para a visualizao do resultado

(4) Clique na aba [Advanced] da janela anterior, no boto [Detailed two-way tables] e os resultados esto apresentados nas figuras 6.23 e 6.24:

107

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.23 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.24 Resultados do teste de qui-quadrado para efeito poca

As hipteses a serem testadas esto apresentadas a seguir: H0: a proporo de sobreviventes na e fora da primavera a mesma. Ha: a proporo de sobreviventes na e fora da primavera diferente. Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 94,2955 (p<0,0001), rejeita-se a hiptese nula, ou seja, a melhor poca de plantio fora da primavera (54,79% de sobreviventes), conforme pode ser visto na Figura 6.23. 4 teste: Teste do efeito Forma (1) Repetir o procedimento do teste para o efeito poca (3 teste), selecionando as variveis, conforme apresentado na Figura 6.25:

108

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.25 Janela com as variveis selecionadas para a tabela bidimensional

(2) Os resultados esto apresentados nas figuras 6.26 e 6.27:

Figura 6.26 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.27 Resultados do teste de qui-quadrado para efeito Forma

As hipteses a serem testadas esto apresentadas a seguir: H0: a proporo de sobreviventes entre cortes longos e curtos a mesma.

109

Cap. 6 Teste para Duas ou Mais Propores

Ha: a proporo de sobreviventes entre cortes longos e curtos diferente. Tipo do teste: bilateral Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 44,5143 (p<0,0001), rejeita-se a hiptese nula, ou seja, a melhor forma de corte o longo (50,00% de sobreviventes), conforme pode ser visto na Figura 6.26. 5 teste: Estudo da interao poca*Forma (Desdobramentos) Existem dois casos: A. poca (Forma) - poca dentro de Forma: poca (Forma = longo) poca (Forma = curto) (1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme apresentado na Figura 6.28:

Figura 6.28 Janela com as variveis selecionadas para a tabela bidimensional

(2) Clicar no boto [Select cases] existente no canto inferior direito da janela da Figura 6.2 e defina as opes conforme apresentado na Figura 6.29, o filtro construdo para estudar a forma longo:

110

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.29 Janela para especificao da condio selecionada

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela que aparecer, clique na aba [Options] e selecione as opes Fisher exact, Yates, McNemar (2 x 2 Tables) e Percentages of column count, conforme apresentado na Figura 6.22. (4) Clique na aba [Advanced] da janela da Figura 6.22, no boto [Detailed twoway tables] e os resultados esto apresentados nas figuras 6.30 e 6.31:

Figura 6.30 Tabela de contingncia da sobrevivncia dos enxertos

111

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.31 Resultados do teste de qui-quadrado para o efeito da interao da poca dentro da forma longo

Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 42,0083 (p<0,0001), a melhor poca de plantio, dentro da forma longo, fora da primavera (65,00% dos sobreviventes), conforme pode ser visto na Figura 6.30. (5) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar a forma curto, conforme apresentado na Figura 6.32. Os resultados esto apresentados nas figuras 6.33 e 6.34:

Figura 6.32 Janela para especificao da condio selecionada

112

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.33 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.34 Resultados do teste de qui-quadrado para o efeito da interao da poca dentro da forma curto

Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 50,2081 (p<0,0001), a melhor poca de plantio, dentro da forma curto, fora da primavera (77,54% dos sobreviventes), conforme pode ser visto na Figura 6.33. Observao: note que independente da forma, a melhor poca de plantio fora da primavera, confirmando a no existncia do efeito interao. B. Forma (poca) - Forma dentro de poca: Forma (poca = na) Forma (poca = fora) (6) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar a poca na primavera, conforme apresentado na Figura 6.35. Os resultados esto apresentados nas figuras 6.36 e 6.37:

113

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.35 Janela para especificao da condio selecionada

Figura 6.36 Tabela de contingncia da sobrevivncia dos enxertos

114

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.37 Resultados do teste de qui-quadrado para o efeito da interao da forma dentro da poca na primavera

Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 30,9213 (p<0,0001), a melhor forma de plantio, dentro da poca na primavera, o longo (17,50% de sobreviventes), conforme pode ser visto na Figura 6.36. (7) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar a poca fora da primavera, conforme apresentado na Figura 6.38. Os resultados esto apresentados nas figuras 6.36 e 6.37:

Figura 6.38 Janela para especificao da condio selecionada

115

Cap. 6 Teste para Duas ou Mais Propores

Figura 6.39 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.40 Resultados do teste de qui-quadrado para o efeito da interao da forma dentro da poca fora da primavera

Interpretao: considerando a estatstica qui-quadrado com correo de Yates, cujo valor foi de 19,3780 (p<0,0001), a melhor forma de plantio, dentro da poca fora da primavera, o longo (32,50% de sobreviventes), conforme pode ser visto na Figura 6.36. Observao: note que independente da poca, a melhor forma de corte o longo, confirmando a no existncia do efeito interao.

116

Cap. 7 Anlise de Varincia

7. ANLISE DE VARINCIA
Deseja-se verificar se existem diferenas entre as respostas mdias de tratamentos; o procedimento utilizado para inferir se tais diferenas realmente existem chamado de Anlise de Varincia (ANOVA). Idia - Decomposio da Variao (Varincias) em: Variao atribuda s diferenas entre as unidades experimentais (QMR quadrado mdio do resduo) Variao atribuda s diferenas entre as unidades experimentais e atribuda s diferenas causadas pelos tratamentos (diferenas entre as mdias) (QMTrat - quadrado mdio dos tratamentos) O teste baseia-se em duas hipteses: H0: as mdias dos tratamentos so todas iguais Ha: as mdias dos tratamentos no so todas iguais A primeira hiptese H0, tambm chamada de hiptese de nulidade, admite que no existem diferenas significativas entre as mdias. J a segunda hiptese, Ha, tambm chamada de hiptese alternativa, considera que existe diferena significativa entre as mdias e, portanto, elas no so todas iguais. O Teste F:
F QMTrat QMR

(7.1)

H0 no rejeitada, o valor de F pequeno H0 rejeitada, o valor de F grande Portanto, podemos fazer inferncia sobre as mdias de tratamentos (se elas diferem), usando esta razo de estimadores de varincia. Vamos usar esta razo como Teste Estatstico para verificar H0 versus Ha. Resultado Estatstico: Se H0 no rejeitada, a estatstica F tem distribuio F distribuio amostral.
(t-1), t (r-1)

como sua (7.2)

F ~ F (t -1), t (r -1)
onde: t: nmero de tratamentos r: nmero de repeties

117

Cap. 7 Anlise de Varincia

Vamos usar este resultado para testar hipteses sobre diferenas entre mdias de tratamentos. Realizaremos a Anlise de Varincia para podermos concluir, com um certo nvel de confiana, que os nossos tratamentos (resultados) so ou no so significativamente diferentes entre si. 7.1. Delineamento Inteiramente Casualizado Modelo:

Yij
onde: i = 1,2,...,t j = 1,2,...,r

ij

(7.3)

: mdia geral sem tratamento


i: ij:

mudana na mdia (com relao ) associada com o tratamento i erro associado ao tratamento i da j-sima repetio

t: nmero de tratamentos ri: nmero de repeties no tratamento i


Mdia dos Tratamentos:

i
onde:

(7.4)

i: mdia da populao que descreve a resposta das unidades experimentais que receberam o tratamento i

7.2. Exemplo O exemplo que usaremos foi extrado de Sokal and Rohlf, 1981, Biometry, p.219-221, e, trata de um estudo de crescimento em cultura de tecido com a presena de auxinas (arquivo oneway.sta). Objetivo: testar o efeito da adio de diversos acares no crescimento. Varivel Resposta: comprimento de sees de sementes (x 0,1114 mm). Tratamentos: tratamentos: Plantas foram aleatoriamente designadas aos cinco

1. controle (sem adio de acar) 118

Cap. 7 Anlise de Varincia

2. 2% glicose 3. 2% de frutose 4. 1% de glicose + 1% de frutose 5. 2% de sacarose Unidades Experimentais: plantas individuais para os quais os tratamentos foram aplicados. Unidade de Amostragem: plantas. Repeties: foram feitas dez repeties. Na tabela abaixo esto os dados coletados no experimento.
Tabela 7.1 Dados coletados no experimento Tratamento Tamanho 1 75 67 70 75 65 71 67 67 2 57 58 60 59 62 60 60 57 3 58 61 56 58 57 56 61 60 4 58 59 58 61 57 56 58 57 5 62 66 65 63 64 62 65 65

76 59 57 57 62

68 61 58 59 67

Para realizar a anlise, os dados devem ser construdos sempre da forma matricial, conforme apresentado no quadro abaixo.
Quadro 7.1 Matriz de dados Acar Repetio Tamanho
1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 75 67 70 75 65 71 67 67 76 68 57 58 60 59 62 60 60 57 59 61 58 61 56

119

Cap. 7 Anlise de Varincia

3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5

4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10

58 57 56 61 60 57 58 58 59 58 61 57 56 58 57 57 59 62 66 65 63 64 62 65 65 62 67

7.3. Anlise Estatstica Antes de iniciarmos a ANOVA, iremos construir o diagrama de disperso e o diagrama de caixas. Ressalta-se que todos os grficos apresentados neste captulo foram alterados e padronizados conforme as opes grficas exploradas no Captulo 4. Diagrama de Disperso Para construir o grfico do diagrama de disperso, primeiramente abra o arquivo oneway.sta e siga os passos definidos abaixo: (1) No menu [Graphs], escolha [2D Graphs] [Scatterplots] (2) Selecione as variveis: X = ACUCAR Y = TAMANHO (3) Defina as opes: Graph type: Regular Linear Fit: OFF Regression bands: OFF (4) Clique no boto [OK] (5) O diagrama de disperso est apresentado na figura 7.1:

120

Cap. 7 Anlise de Varincia

Figura 7.1 Diagrama de disperso do crescimento nos cinco tratamentos

Diagrama de Caixas Para construir o grfico do diagrama de caixas siga os passos definidos abaixo: (1) No menu [Graphs], escolha [2D Graphs] [Box Plots] (2) Selecione as variveis: Dependent Variable = ACUCAR Grouping Variable = TAMANHO (3) Defina as opes: Graph type: (4) Clique no boto [OK] (5) O diagrama de caixas est apresentado na Figura 7.2: Box-Whiskers, Regular Grouping intervals: Integer mode

Figura 7.2 Diagrama de caixas do crescimento nos cinco tratamentos

121

Cap. 7 Anlise de Varincia

Observao: note que independente da poca, a melhor forma de corte o longo, confirmando a no existncia do efeito interao. 7.3.1. Anlise de Varincia Para realizar a anlise de varincia, siga os passos abaixo: (1) Abra o mdulo ANOVA, acesse o menu [STATISTICS], opo [ANOVA] e aparecer a janela apresentada na Figura 7.3:

Figura 7.3 Tela inicial da ANOVA

(2) Escolha: Type of analysis: One-way ANOVA Specification method: Quick specs dialog (3) Aparecer a janela apresentada na Figura 7.4:

Figura 7.4 Escolha das opes da ANOVA

(4) Clique no boto [Variables] e escolha as seguintes opes: Dependent Variables: TAMANHO Categorical factor: ACUCAR (5) O resultado das escolhas est apresentado na Figura 7.5:

122

Cap. 7 Anlise de Varincia

Figura 7.5 Resultado das escolhas

(6) Clique na aba [Options], conforme a Figura 7.6, e escolha a opo: Sums of squares: Type I (sequential)

Figura 7.6 Escolha do tipo de soma de quadrados

(7) Clique no boto [OK] e aparecer a janela apresentada na Figura 7.7:

Figura 7.7 Resultados da ANOVA

(8) Clique em [All effects] e o resultado est apresentado na Figura 7.8:

123

Cap. 7 Anlise de Varincia

Figura 7.8 Resultados da Anlise de Varincia do experimento

Concluso: Existe diferena significativa entre as mdias dos tratamentos ao nvel de significncia de p < 0,0001. 7.3.2. Comparaes Mltiplas de Mdias No item 7.1.1., testamos as mdias dos cinco tratamentos e conclumos que existe diferena entre as mesmas. Porm, no sabemos ainda se a mdia do tratamento 1 igual ou diferente de 2, de 3, de 4 ou de 5, ou seja, existe diferena, mas no podemos dizer entre quais mdias. O seguinte teste necessrio quando existe diferena, pois completa a anlise, comparando e mostrando ento, o resultado de todas as combinaes de pares de mdias. Para realizar as comparaes mltiplas de mdias, siga os passos abaixo: (1) Na janela da Figura 7.8, clique no boto [More Results], aparecer a janela da Figura 7.9:

Figura 7.9 Todos os resultados da ANOVA

(2) Clique na aba [Post-hoc], conforme apresentado na Figura 7.10:

124

Cap. 7 Anlise de Varincia

Figura 7.10 Testes para comparaes mltiplas de mdias

(3) Clique no boto [Tukey HSD] e o resultado aparecer conforme apresentado na Figura 7.11:

Figura 7.11 Valores p para todos os pares de mdias

(4) Na Figura 7.10, na regio Display, selecione a opo Homogeneous groups, clique no boto [Tukey HSD] e o resultado aparecer conforme apresentado na Figura 7.12:

125

Cap. 7 Anlise de Varincia

Figura 7.12 Grupos homogneos do teste de Tukey

Concluso: A partir da Figura 7.12, construi-se a Tabela 7.2:


Tabela 7.2 Resultados do teste de Tukey

Grupo Tukey a b c c c

Tratamentos 1 5 2 3 4

Mdias 70,1 64,1 59,3 58,2 58,0

Observe na Tabela 7.1, que o tratamento 1 (a) superior e diferente significativamente dos demais. Os tratamentos 2, 3 e 4 (c), so considerados iguais entre si, ou seja, as mdias no diferem significativamente entre elas. Estes tratamentos so os de mdias inferiores. O tratamento 5 (b) difere dos demais e o segundo melhor tratamento, ou seja, a segunda melhor mdia, inferior ao 1 e superior ao 2, 3 e 4. 7.3.3. Contrastes Ortogonais Consiste de uma combinao linear onde a soma dos coeficientes nula. Os contrastes de interesse nesse estudo so para verificar se: (A) o tratamento controle 1 difere significativamente dos demais tratamentos; (B) verificar se o tratamento 5 difere dos tratamentos 2, 3 e 4; e (C) verificar se o tratamento 5 difere do tratamento 1. Os respectivos coeficientes para verificar os contrastes esto apresentados na Tabela 7.3.

126

Cap. 7 Anlise de Varincia

Tabela 7.3 Coeficientes dos contrastes

Contrastes A B C

1 4 0 1

2 -1 1 0

Tratamentos 3 -1 1 0

4 -1 1 0

5 -1 -3 -1

Para realizar os contrastes de interesse, siga os passos abaixo: (1) Clique na aba [Planned comps], conforme apresentado na Figura 7.13:

Figura 7.13 Testes de Contrastes

(2) Clique no boto [Specify contrasts for LS means], e defina os coeficientes do contraste conforme apresentado na Figura 7.14:

Figura 7.14 Definio dos coeficientes dos contrastes

(3) Digite os coeficientes do contraste como mostra a Figura 7.14, clicando duas vezes com o boto esquerdo do mouse nos espaos da coluna 1. (4) Clique no boto [OK] (5) Note que o vetor ACUCAR mudou para (4 1 1 1 1), conforme apresentado na Figura 7.15:

127

Cap. 7 Anlise de Varincia

Figura 7.15 Definio dos coeficientes do contraste A

(6) Clique no boto [Compute] da Figura 7.15 (7) O resultado do teste do contraste A est apresentado na Figura 7.16:

Figura 7.16 Teste F do contraste A

Repetir os passos (2) a (6) para os outros dois contrastes, sendo que os resultados esto apresentados nas Figuras 7.17 e 7.18:

128

Cap. 7 Anlise de Varincia

Figura 7.17 Teste F do contraste B

Figura 7.18 Teste F do contraste C

7.3.4. Diagnstico do Modelo 7.3.4.1. Ajuste do Modelo A no significncia do modelo geral est relacionada com a violao de algum pressuposto. importante verificar as suposies de normalidade, independncia e homogeneidade de varincias (homocedasticidade). O ajuste do modelo verificado pelo teste F da Anlise de Varincia, obtido, selecionando-se a opo [All effects]. No Delineamento Inteiramente Casualizado, o teste F coincide com o efeito principal. 7.3.4.2. Normalidade dos Resduos (1) Clique na aba [Assumptions], conforme apresentado na figura 7.19;

129

Cap. 7 Anlise de Varincia

Figura 7.19 Normalidade dos resduos

(2) Na opo Distribution of within-cell residuals, clique no boto [Normal p-p] (3) O grfico normal de probabilidades dos resduos est apresentado na Figura 7.20:

Figura 7.20 Grfico Normal de Probabilidades dos Resduos

Concluso: Os valores aproximam-se da reta normal e, portanto, a suposio de normalidade dos dados atendida. 7.3.4.3. Independncia dos Resduos Correlaes positivas entre os erros de diferentes unidades experimentais de um mesmo tratamento podem surgir se o pesquisador no tiver cuidado ao conduzir um experimento. A independncia pode ser assegurada por um dos princpios bsicos da experimentao, que a casualizao.

130

Cap. 7 Anlise de Varincia

De acordo com as condies do experimento em estudo, assume-se que os resultados so independentes. 7.3.4.4. Homogeneidade das Varincias por Tratamento (1) Conforme Figura 7.19, na opo Homogeneity of variances/covariances, clique no boto [Cochran C, Hartley, Bartellet] (2) O resultado do teste est apresentado na Figura 7.21:

Figura 7.21 Resultado do teste de homogeneidade de varincias

Interpretao do teste de Cochran:


2 Ho : 1
2 Ha : i

2 2
2 j

...
para i

2 k

Rejeitamos a hiptese nula ao nvel de significncia de 0,0075 ou 0,75%. Portanto, a suposio de homogeneidade de varincias no vlida. Uma outra forma, atravs da qual podemos "visualizar" a heterogeneidade de varincias, fazer um grfico das mdias versus as varincias, conforme procedimento abaixo: (3) Conforme Figura 7.19, clique no boto [Variances] (4) O grfico resultante est apresentado na Figura 7.22:

131

Cap. 7 Anlise de Varincia

Figura 7.22 Grfico das mdias versus as varincias dos cinco tratamentos

Concluso: O tratamento controle 1 apresenta mdia elevada e varincia elevada, ou seja, apresentam-se relacionadas. Isto implica em heterocedasticidade (heterogeneidade de varincia). Observao: Se os dados no se afastam muito da reta (grfico normal de probabilidades) podemos usar qualquer teste de homogeneidade de varincia. Se existir falta de normalidade devemos usar o teste de Levene. (5) Conforme Figura 7.19, na opo Distribution of variables within groups, clique no boto [Normal p-p] (6) Escolhas os grupos conforme apresentado na Figura 7.23:

Figura 7.23 Escolha dos grupos

(7) Os grficos normais de probabilidades dos resduos para cada tratamento esto apresentados na Figura 7.24:

132

Cap. 7 Anlise de Varincia

Figura 7.24 Grficos normais de probabilidades dos resduos para cada tratamento

Concluso: as cinco aproximadamente normal.

amostras

so

oriundas

de

distribuio

133

Você também pode gostar