Você está na página 1de 133

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO TECNOLGICO
DEPARTAMENTO DE INFORMTICA E ESTATSTICA

ANLISE ESTATSTICA USANDO O



STATISTICA 6.0

Prof. Paulo Jos Ogliari, Dr.


Eng. Juliano Anderson Pacheco, MSc.

FLORIANPOLIS SC
JUNHO DE 2011
SUMRIO
1. INTRODUO .....................................................................................................................3

2. GERENCIAMENTO DE ARQUIVOS ...............................................................................5


2.1. CRIAR UM NOVO ARQUIVO ................................................................................................6
2.2. IMPORTAO DE ARQUIVOS DO EXCEL ...........................................................................10
3. ANLISE EXPLORATRIA DE DADOS .....................................................................13
3.1. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUALITATIVAS ......................................13
3.1.1. Unidimensional .......................................................................................................13
3.1.2. Bidimensional .........................................................................................................23
3.2. DISTRIBUIO DE FREQNCIA DE VARIVEIS QUANTITATIVAS ....................................35
3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa Discreta ........36
3.2.2. Representaes Grficas de Variveis Quantitativas Discretas ............................38
3.2.3. Dados Agrupados em Classes.................................................................................40
3.2.4. O Modelo Normal ...................................................................................................44
3.3. ESTATSTICAS DESCRITIVAS ...........................................................................................51
3.3.1. Medidas de Tendncia Central e Disperso ...........................................................51
3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal .............................................56
3.3.3. Desenho Esquemtico (Box Plot) ...........................................................................59
3.3.4. Diagrama de Disperso ..........................................................................................62
3.3.5. Coeficiente de Correlao ......................................................................................64
3.3.6. Ajuste da Equao de uma Reta .............................................................................66
4. OPES GRFICAS ........................................................................................................74

5. TESTES ESTATSTICOS PARA COMPARAO DE DUAS MDIAS ...................81


5.1. TESTE DE DUAS MDIAS POPULACIONAIS COM VARINCIAS DESCONHECIDAS ..............81
5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas ........................81
5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas ..................87
5.1.3. Amostras Dependentes (Dados Pareados) .............................................................91
5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de Dados
Pareados.....................................................................................................................................95
6. TESTE PARA DUAS OU MAIS PROPORES ..........................................................98
6.1. O TESTE DO QUI-QUADRADO (CHI-SQUARE) ...............................................................98
7. ANLISE DE VARINCIA ............................................................................................117
7.1. DELINEAMENTO INTEIRAMENTE CASUALIZADO............................................................118
7.2. EXEMPLO ......................................................................................................................118
7.3. ANLISE ESTATSTICA ..................................................................................................120
7.3.1. Anlise de Varincia .............................................................................................122
7.3.2. Comparaes Mltiplas de Mdias ......................................................................124
7.3.3. Contrastes Ortogonais ..........................................................................................126
7.3.4. Diagnstico do Modelo .........................................................................................129

2
Cap. 1 Introduo

1. INTRODUO

O software STATISTICA um programa integrado para gerenciar Anlise


Estatstica e Bases de Dados, caracterizando uma ampla seleo do processo
analtico, do bsico ao avanado, para as mais diversas reas - Cincias
Biomdicas, Biolgicas, Engenharias, Cincias Sociais, Agrrias - permitindo a
realizao de Data Mining (Minerao de Dados).
O sistema no inclui somente procedimentos estatsticos e grficos gerais,
mas, tambm, mdulos especializados (Anlise de Regresso, Anlise de
Sobrevivncia, Sries Temporais, Anlise Fatorial, Anlise Discriminante e
diversos outros mdulos). Dificilmente, o usurio necessitar de todos os
mdulos oferecidos pelo STATISTICA para a anlise do seu trabalho, e ser, a
partir de sua criatividade e conhecimento terico, que chegar as respostas dos
seus objetivos.
Neste trabalho, foram desenvolvidos trs assuntos: a) Anlise exploratria de
dados, b) Alguns testes de hipteses sobre mdias e propores e c) Anlise de
varincia com um fator (one-way ANOVA).
Esta apostila foi elaborada com o propsito de auxiliar os estudantes de
graduao e ps-graduao e demais interessados, na iniciao do uso de um
programa estatstico. Escolheu-se o programa STATISTICA, por apresentar uma
plataforma interativa com o usurio e, tambm, por ser ele dos programas mais
completos da rea existente na atualidade.
Pede-se que qualquer problema encontrado na apostila, entrar em contato
preferencialmente para jap@inf.ufsc.br ou para ogliari@inf.ufsc.br.

3
Cap. 1 Introduo

Os captulos 2 e 3 sero baseados no seguinte exemplo:

Quadro 1.1 - Resultados de um experimento de competio de hbridos de milho para a


regio preferencial I, com altitudes abaixo de 800m - safra: 1987/1988
Cultivar Rendimento Ciclo Altura Altura Tipo de gro Ferrugem*
mdio (dias) planta espiga (escala)
(kg/ha) (cm) (cm)
1 6388 65 242 103 dentado r
2 6166 65 258 134 semi-dentado r
3 6047 65 240 104 semi-dentado s
4 5889 66 243 108 semi-dentado s
5 5823 69 257 128 dentado ms
6 5513 68 241 108 semi-dentado s
7 5202 64 235 108 dentado r
8 5172 68 240 103 dentado s
9 5166 69 253 123 dentado ms
10 4975 70 250 117 semi-dentado ms
11 4778 70 242 114 dentado mr
12 4680 66 245 111 semi-duro ms
13 4660 69 239 110 semi-duro mr
14 5403 73 264 138 dentado ms
15 5117 76 282 149 dentado mr
16 5063 72 274 151 dentado r
17 4993 71 279 134 semi-dentado r
18 4980 72 274 140 dentado ms
19 4770 73 244 140 dentado r
20 4685 71 265 139 semi-duro mr
21 4614 73 248 110 semi-dentado r
22 4552 73 265 128 semi-dentado r
23 3973 74 261 124 semi-dentado mr
24 4550 71 259 129 semi-duro s
25 5056 64 252 104 semi-duro mr
26 4500 70 271 109 dentado ms
27 4760 68 243 137 semi-duro r
28 5110 66 252 141 semi-dentado ms
29 4960 70 262 120 dentado ms
30 4769 73 260 118 dentado r
31 4849 74 250 119 semi-dentado s
32 5230 71 255 138 semi-duro s

Fonte: Boletim Tcnico, nmero 39, EMPASC S. A.

* r = resistente, mr = moderadamente resistente, s = susceptvel e ms =


moderadamente susceptvel.

4
Cap. 2 Gerenciamento de Arquivos

2. GERENCIAMENTO DE ARQUIVOS

O STATISTICA trabalha com variveis categorizadas, qualitativas e


quantitativas, permitindo a formao de grupos que sero analisados. Ou seja,
utiliza uma tcnica mais apropriada para resumir as informaes, adaptando
qualquer tipo de varivel ao caso estudado e armazena as variveis mediante
notao dupla, isto , utiliza os valores da varivel de forma categorizada (texto) e
na forma de nmeros, que podem ser valores codificados (numricos).
Por exemplo, a varivel Ferrugem, apresentada no Quadro 1.1, foi dividida
em categorias (quatro nveis): resistente (r), susceptvel (s), moderadamente
susceptvel (ms) e moderadamente resistente (mr). O STATISTICA usar os
cdigos numricos internamente, mas o usurio pode sempre referenciar a
ferrugem usando os textos respectivos, conforme apresentado na figura 2.1.

Figura 2.1 Administrador de valores

Feita a coleta de dados, atravs de censos, de levantamentos por


amostragem ou de experimentos, geralmente estes dados se apresentam de
maneira desorganizada, ainda sem valor informativo sobre o fenmeno em
estudo. Portanto, os mesmos devem ser organizados para possibilitarem a
anlise.
A matriz de dados pode ser criada ou importada. A seguir esto os
procedimentos para criar um novo arquivo e importar uma planilha do Excel.

5
Cap. 2 Gerenciamento de Arquivos

2.1. Criar um novo arquivo

(1) Abra o programa STATISTICA;


(2) Surgir um arquivo de dados vazio com 10 colunas (ou variveis) e 10 linhas
(ou casos), conforme apresentado na Figura 2.2:

Figura 2.2 Arquivo de dados inicial

(3) Geralmente necessrio alterar esse arquivo inicial, com relao ao nmero
de variveis ou de casos para permitir a digitao dos dados coletados
(4) Esse arquivo ser alterado para possibilitar a entrada dos dados apresentados
no Quadro 1.1, logo necessrio excluir 3 variveis e incluir mais 22 casos,
gerando uma tabela com 7 colunas e 32 linhas
(5) Para excluir as 3 colunas, selecione as trs ltimas colunas, clique com o
boto direito do mouse e escolha a opo [DELETE VARIABLES], proceder
conforme apresentado nas Figuras 2.3 e 2.4:

6
Cap. 2 Gerenciamento de Arquivos

Figura 2.3 Procedimento para excluir variveis

Figura 2.4 Definio das variveis a excluir

(6) Para incluir os 22 casos, selecione a ltima linha, clique com o boto direito
do mouse e escolha a opo [ADD CASES], proceder conforme apresentado nas
Figuras 2.5 e 2.6:

Figura 2.5 Procedimento para incluir casos

7
Cap. 2 Gerenciamento de Arquivos

Figura 2.6 Definio do nmero de casos a incluir

(7) o arquivo deve ser salvo, para isso no menu [FILE], escolha a opo [SAVE] e
defina o nome do arquivo, conforme apresentado na Figura 2.7:

Figura 2.7 Gravao do arquivo criado

(8) Neste momento dispomos de uma tabela possvel para inserir os dados
apresentados no Quadro 1.1, mas primeiramente necessrio definir os nomes
das variveis e os tipo de dados a serem inseridos
(9) Clique duas vezes em cima da primeira coluna e aparecer a janela
apresentada na Figura 2.8:

Figura 2.8 Definio das variveis

8
Cap. 2 Gerenciamento de Arquivos

onde:
Name: corresponde ao nome da varivel
Type: corresponde ao tipo da varivel, onde os valores possveis so: Double
(valores com decimais), Integer (valores inteiros), Text (texto) e Byte (valores
inteiros entre 0 e 255)
Display format: formato de apresentao dos dados

Observao: Para acessar a janela da Figura 2.1 e digitar os respectivos


textos da varivel Ferrugem, basta clicar no boto [Text Labels] da janela
apresentada na Figura 2.8.
(10) No Quadro 2.1 esto as possveis definies das 7 variveis apresentadas no
Quadro 1.1:

Quadro 2.1. Definies das variveis


Varivel Name Type Display Format
Cultivar Cultivar Byte Number
Rendimento mdio (kg/ h) Rendimento Integer Number
Ciclo (dias) Ciclo Byte Number
Altura planta (cm) Altura_planta Integer Number
Altura espiga (cm) Altura_espiga Integer Number
Tipo de gro Tipo_grao Text -
Ferrugem (escala) Ferrugem Text -
(11) Agora possvel digitar os dados, conforme apresentado na Figura 2.9:

Figura 2.9 Digitao dos dados do Quadro 1

(12) Aps a digitao dos dados, salvar novamente o arquivo.

9
Cap. 2 Gerenciamento de Arquivos

2.2. Importao de Arquivos do Excel

Existem duas maneiras de importar arquivos no formato Excel. A primeira


que ser descrita ideal no caso de planilhas pequenas, pois fcil selecionar a
matriz de dados usando somente o mouse. No caso de grandes arquivos, utilize a
segunda opo.

1 Opo:
(1) Abra o aplicativo Excel
(2) Carregue o arquivo de dados que se deseja transferir para o STATISTICA e
copie para a rea de transferncia a regio da planilha que contm os dados,
conforme apresentado na Figura 2.10:

Figura 2.10 Cpia dos dados para a rea de transferncia


(3) No STATISTICA , crie um novo arquivo com o mesmo tamanho que a regio
dos dados no Excel (mesmo nmero de colunas e linhas), o item 2.1 ensina como
criar um novo arquivo
(4) Criado o arquivo, selecione a primeira clula cole os dados da rea de
transferncia, atravs do menu [EDIT], opo [PASTE] e o resultado est
apresentado na Figura 2.11:

10
Cap. 2 Gerenciamento de Arquivos

Figura 2.11 Resultado da cpia dos dados da planilha do Excel

(5) Salve o novo arquivo criado, atravs desse processo.

2 Opo:
(1) Abrir o programa STATISTICA;
(2) No menu [FILE], escolher a opo [Open], aparecer a janela apresentada na
Figura 2.12, onde o formato a ser escolhido ser Excel files (*.xls)

Figura 2.12 Importao de arquivos

(3) Selecione a planilha a ser importada


(4) Ser apresentada a janela mostrada na Figura 2.13, que representa um
resumo da tabela de dados a ser importada;

11
Cap. 2 Gerenciamento de Arquivos

Figura 2.13 Resumo da planilha a ser importada

onde:
Range Columns: representa o nmero de variveis existentes na tabela de dados
Range Rows: representa o nmero de casos existentes na tabela de dados
Get case names from first column: atribui nomes aos casos conforme a primeira
coluna da tabela de dados
Get variable names from first row: atribui nomes s variveis conforme a primeira
linha da tabela de dados
Import cell formatting: importa a tabela mantendo a formatao existente no Excel
(5) O resumo deve ser verificado quanto ao nmero de variveis e casos existentes
na tabela de dados, se o mesmo diferir dos valores corretos, deve-se fazer o
seguinte processo: copiar a rea dos dados, juntamente com os nomes das
variveis e casos se existirem, para um novo arquivo do Excel, salvar e repetir
todos os itens anteriores
(6) Se o quadro resumo estiver correto, prossiga e o resultado est apresentado
na Figura 2.14:

Figura 2.14 Resultado da importao da planilha do Excel

(7) salve o novo arquivo criado, atravs desse processo.

12
Cap. 3 Anlise Exploratria de Dados

3. ANLISE EXPLORATRIA DE DADOS

Os dados recolhidos que devem ser estudados, ou seja, organizados,


sumarizados e descritos, sero pelo STATISTICA, explorados. Isto ,
procuraremos tirar o mximo de informaes de um conjunto de dados e,
principalmente, tentar indicar um modelo que ser utilizado em uma fase
posterior da anlise, a Inferncia Estatstica.

3.1. Distribuio de Freqncia de Variveis Qualitativas

O estudo de distribuies de freqncias nos permite conhecer a forma, ou


seja, a maneira de como os valores de uma varivel se comportam, e assim,
podemos ter uma boa idia global dos valores e da sua distribuio.
Varivel qualitativa aquela que apresenta seu resultado em forma de
uma qualidade ou um atributo. Podem ser ordinais, quando existe uma
ordem nos possveis resultados da mesma ou nominais, quando no
existe uma ordenao.

3.1.1. Unidimensional

Distribuio da freqncia de uma nica varivel.


Nesta seo, vamos construir a Tabela de Distribuio de Freqncia
Unidimensional e o Grfico de Barras para a varivel qualitativa ordinal
resistncia ferrugem. A ordem o grau de ataque da doena.

3.1.1.1. Tabela de Distribuio de Freqncia Unidimensional

Exemplo: Anlise da distribuio de freqncia da varivel resistncia


ferrugem.
(1) Abra o programa STATISTICA e o arquivo hibridos.sta
(2) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.1, onde a opo a ser escolhida ser Frequency
Table:

13
Cap. 3 Anlise Exploratria de Dados

Figura 3.1 Estatsticas bsicas e tabelas

(3) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.2:

Figura 3.2 Tabelas de freqncia

(4) Clique no boto [Variables] e selecione a varivel Ferrugem, conforme


apresentado na Figura 3.3. Se for mantido o boto esquerdo do mouse apertado,
com o movimento de subida e descida possvel selecionar vrias variveis ao
mesmo tempo, para pular alguma, mantenha apertado a tecla CTRL do teclado e
com o boto esquerdo do mouse clique na varivel de interesse:

Figura 3.3. Janela para seleo das variveis para a anlise

(5) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.4:

14
Cap. 3 Anlise Exploratria de Dados

Figura 3.4 Tabela de freqncia com a varivel ferrugem selecionada

(6) Clique na aba [Options] e defina as opes conforme apresentado na figura


3.5. Para desativar, basta clicar na opo correspondente, retirando assim, o
smbolo . Para ativar, basta clicar na opo ainda no selecionada:

Figura 3.5 Opes da tabela de freqncia

(7) Clique no boto [Summary] e o resultado apresentado na Figura 3.6:

Figura 3.6 - Tabela de Distribuio de Freqncia Unidimensional


da varivel resistncia ferrugem.

15
Cap. 3 Anlise Exploratria de Dados

Concluso: a freqncia (ocorrncia) da varivel resistncia ferrugem na


anlise de 32 hbridos :
10 resistentes (r) ferrugem = 31,250%
7 susceptveis (s) ferrugem = 21,875%
9 moderadamente susceptveis (ms) ferrugem = 28,125%
6 moderadamente resistentes (mr) ferrugem = 18,750%

Importante: a forma como o STATISTICA organiza as janelas durante a


anlise a seguinte:
h o arquivo de dados com extenso .sta
os resultados so gerados no workbook, estes podem ser gravados num
arquivo com extenso .stw. No caso da Figura 3.6 foi gravado o arquivo
Capitulo3.stw.
aps os resultados serem apresentados no workbook, a janela da anlise
minimizada no canto inferior esquerdo. No caso da Figura 3.6 v-se que
a anlise atual Frequency Tables.

3.1.1.2. Tabela de Distribuio de Freqncia Unidimensional com fator


estratificado

Conforme pode ser visto direita embaixo da janela apresentada na Figura


3.5, existe o boto [Select Cases S] que permite filtrar os casos com base nas
variveis disponveis. Abaixo esto dois exemplos da aplicao desse
procedimento de filtragem.
(1) Clique no boto [Select Cases S] da janela apresentada na Figura 3.5.
Aparecer a janela apresentada na Figura 3.7:

Figura 3.7 Janela que permite especificar as condies

16
Cap. 3 Anlise Exploratria de Dados

(2) Como demonstrado na Figura 3.7, sero includos somente os casos que a
varivel v6 (Tipo de gro) assume o valor dentado, que significar que a tabela
construda mostrar somente a distribuio da resistncia ferrugem para tipo
de gro dentados
(3) Para isso, clique em Specific, selected by: By Expression, digite a condio:
v6=dentado e clique no boto [OK]
(4) Ao voltar para a janela da figura 3.5, clique novamente no boto [Summary] e
o resultado est apresentado na Figura 3.8:

Figura 3.8 Resultado da distribuio da freqncia da varivel resistncia


ferrugem para o tipo de gro dentado

(6) Para realizar um estudo para hbridos de ciclo curto, hbridos com ciclo da
cultura entre 64 e 70 dias, altere a condio de filtragem conforme apresentado
na Figura 3.9, onde a condio : v3>=64 and v3<=70

Figura 3.9 Janela que permite especificar as condies

(7) Ao clicar no boto [OK] e voltar para a janela da figura 3.5, clique novamente
no boto [Summary] e o resultado est apresentado na Figura 3.10:

17
Cap. 3 Anlise Exploratria de Dados

Figura 3.10 Resultado da distribuio da freqncia da varivel resistncia


ferrugem para hbridos de ciclo curto

3.1.1.3. Grfico de Colunas/Barras

O STATISTICA um programa que permite integrar um grande potencial


grfico com a anlise estatstica de dados num nico aplicativo. A editorao
grfica facilitada por meios de opes do sistema.
A construo de grficos est disponvel para qualquer mdulo do
STATISTICA, visto que existe na barra do menu, a opo Graphs Clicando nela
aparecem as opes grficas do aplicativo e cabe ao usurio conhecimento terico
e intuitivo para que seja encontrada a melhor forma de representao do
fenmeno.
Sero construdos grficos em duas e trs dimenses, como 1 exemplo, um
simples histograma de freqncia (grfico de colunas/barras).

DICA: a compatibilidade do STATISTICA com o Windows plena, isto significa


que todas as operaes comuns no Windows so reconhecidas e aceitas. Assim
sendo, cortar e colar se combinam com Screen Catcher (Opo em Edit, na Barra
de ferramentas do menu principal do STATISTICA que permite a captura da
janela ou de um quadro), Alt + Print Screen (no teclado) que copia, trabalhando em
conjunto com algum editor de figuras, como o Paint; e mais, h a possibilidade de
salvar tudo o que foi feito em formato .rtf (rich text format) atravs do uso da
opo Report, que permite criar relatrios internamente no programa, tornando o
STATISTICA um editor de grficos bem completo.

Exemplo: Construo do grfico de colunas para a varivel resistncia


ferrugem.
(1) No menu [Graphs], escolha a opo [Histograms], clique na aba [Advanced] e
aparecer a janela apresentada na Figura 3.11:

18
Cap. 3 Anlise Exploratria de Dados

Figura 3.11 Janela para a especificao do grfico de colunas

(2) Selecione a varivel, clicando no boto [Variables] e depois na varivel que


ser estudada, conforme apresentada na figura a seguir:

Figura 3.12 Janela que mostra as variveis que podem ser selecionadas

(3) Na janela da Figura 3.11, especifique:


o tipo de grfico (Graph Type:) regular
o tipo de ajuste (Fit Type:) off (sem)
ativar o Breaks between Columns (para que haja espao entre as colunas)
O resultado das especificaes est apresentado na figura a seguir:

19
Cap. 3 Anlise Exploratria de Dados

Figura 3.13 Janela para a especificao do grfico de colunas

(4) Clicar em OK e o grfico resultante est apresentado na figura a seguir:

Figura 3.14 Grfico de colunas da varivel resistncia ferrugem

(5) Para fazer um grfico de barras, na janela da Figura 3.13, clique na aba
[Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no
boto [OK]. O grfico resultante est apresentado na figura a seguir:

20
Cap. 3 Anlise Exploratria de Dados

Figura 3.15 Grfico de barras da varivel resistncia ferrugem

Nota: No captulo 4 sero apresentadas as opes grficas para modificao do


layout dos grficos.

Imagina-se que os cultivares de 1 a 11 sejam do municpio de Iara. Se


desejarmos fazer um grfico para este municpio, ento:
(6) Volte na janela da Figura 3.13, clique no boto [Select Cases] e crie o filtro
apresentado na figura a seguir:

Figura 3.16 Janela que permite especificar os cultivares

(7) O grfico resultante est apresentado na figura a seguir:

21
Cap. 3 Anlise Exploratria de Dados

Figura 3.17 Grfico de barras da varivel resistncia ferrugem


para o municpio de Iara

Observao: Existe mais de uma maneira de gerar um grfico, como o uso


do menu flutuante (pop-up menu), para us-lo, selecione a coluna da varivel
desejada e clique com boto direito do mouse. Aparecer uma janela onde deve
selecionar a opo Graphs of Input Data a seguir escolha o grfico adequado,
conforme apresentado na figura a seguir.

Figura 3.18 Forma alternativa de gerar um Grfico

22
Cap. 3 Anlise Exploratria de Dados

3.1.2. Bidimensional

Com essa anlise possvel criar:


- Distribuio da freqncia para duas variveis;
- Tabelas de contingncia: independncia de variveis qualitativas, uso do:
o Coeficiente de contingncia de Pearson;
o Coeficiente de Cramr.

3.1.2.1. Tabela da Distribuio de Freqncia Bidimensional

Exemplo: Anlise da distribuio de freqncia das variveis resistncia


ferrugem e tipo de gro.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.19, onde a opo a ser escolhida ser Frequency
Table:

Figura 3.19 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.20:

Figura 3.20 Janela para especificao de tabela

(3) Clique no boto [Specify Tables (select variables)). Como a tabela


bidimensional, implica que devemos escolher duas variveis conforme
apresentado na Figura 3.21. As variveis aparecero na List 1: e List 2:.

23
Cap. 3 Anlise Exploratria de Dados

Figura 3.21 Janela com as variveis selecionadas para a tabela bidimensional

(4) Clique nos botes [OK] da janela anterior e da Figura 3.20 e aparecer a
janela apresentada na Figura 3.22:

Figura 3.22 Janela para a visualizao do resultado

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 3.23:

Figura 3.23 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo


com a resistncia ferrugem e tipo de gro

A linha All Grps mostra as freqncias absolutas, ou seja, o total de hbridos


para cada categoria do tipo de gro. Como os totais marginais so diferentes,
dificuldades reais de interpretao so introduzidas.

24
Cap. 3 Anlise Exploratria de Dados

Para uma melhor interpretao da tabela, o ideal selecionar que a tabela


mostre os resultados em termos de propores, ou seja, podemos fixar o total
de linhas e/ou o total de colunas e/ou o total geral.
(6) Na janela da Figura 3.22, clique na aba [Options] e defina as opes conforme
apresentado na figura 3.24. Para desativar, basta clicar na opo
correspondente, retirando assim, o smbolo . Para ativar, basta clicar na opo
ainda no selecionada:
- Selecione Percentages of total count para a percentagem do total geral; ou
- selecione Percentages of row counts para a percentagem do total das linhas; ou
- selecione Percentages of column counts para a percentagem do total das colunas.

Figura 3.24 Opes da tabela de freqncia conjunta

Quando fixar o total de linhas e/ou o total de colunas e/ou o total geral?
A resposta deve ser de acordo com o objetivo da sua pesquisa. Fixe a varivel
que voc quer dar mais nfase. No exemplo, se for a ferrugem, fixe somente o
total de linhas. Se for o tipo de gro, fixe somente o total de colunas.
(7) Escolha o tipo de percentagem e clique no boto [Summary]. Os resultados
esto apresentados nas trs tabelas a seguir:

Figura 3.25 Selecionando somente o total geral

25
Cap. 3 Anlise Exploratria de Dados

Concluso: observando a figura anterior, pode-se concluir que do total de


hbridos, 5 ou 15,63% so resistentes e dentados.

Figura 3.26 Selecionando somente o total de linhas

Concluso: observando a figura anterior, pode-se concluir que 4 ou 40% dos


resistentes so semi-dentados pois a soma na linha igual a 100%.

Figura 3.27 Selecionando somente o total de colunas

Concluso: observando a figura anterior, pode-se concluir que dos hbridos


semi-dentados, 4 ou 36,36% so resistentes, ou ainda, semi-dentados e dentados
tem maior porcentagem de resistncia (36,36% e 35,71%, respectivamente contra
14,29% dos semi-duros).
As quatro figuras anteriores mostram o mesmo resultado, porm, repare que
fixar os totais percentuais no modifica o resultado e sim, enfatiza que
resistentes, so os semi-dentados e os dentados.

26
Cap. 3 Anlise Exploratria de Dados

3.1.2.2. Grfico de Barras Mltiplas

Para efetuar uma anlise comparativa de vrias distribuies, podemos


construir um grfico de barras mltiplo.
(1) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida
[Histograms] e aparecer a janela apresentada na Figura 3.28:

Figura 3.28 Janela para a especificao do grfico de barras mltiplas

(2) Selecione as variveis, clicando no boto [Variables] e depois escolha a


varivel a ser estudada e a que ser a categoria, conforme apresentada na figura
a seguir:

Figura 3.29 Janela para seleo das variveis

(3) Na janela da Figura 3.28, especifique:


o tipo de grfico (Layout:) Overlaid
O resultado das especificaes est apresentado na figura a seguir:

27
Cap. 3 Anlise Exploratria de Dados

Figura 3.30 Janela para a especificao do grfico de barras mltiplas

(5) Para fazer um grfico de barras, na janela da figura anterior, clique na aba
[Options2], selecione na opo [X-Y Axis position] o valor Reverse e clique no
boto [OK]. O grfico resultante est apresentado na figura a seguir:

Figura 3.31 Grfico de barras mltiplas, ferrugem (e seus quatro nveis: resistente,
susceptvel, moderadamente susceptvel e moderadamente resistente) versus tipo de gro
(e seus trs nveis:semi-duro, semi-dentado e dentado)

3.1.2.3. Tabelas de Contingncia: independncia de variveis

As tabelas construdas at aqui, so denominadas tecnicamente de tabelas


de contingncia e so teis para estudar a dependncia (ou independncia) entre

28
Cap. 3 Anlise Exploratria de Dados

variveis. Vamos construir novamente a tabela bidimensional com as variveis


ferrugem e tipo de gro, onde os totais de linhas foram fixados em 100%.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.32, onde a opo a ser escolhida ser Frequency
Table:

Figura 3.32 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.33:

Figura 3.33 Janela para especificao de tabela

(3) Clique no boto [Specify Tables (select variables)). Como a tabela


bidimensional, implica que devemos escolher duas variveis conforme
apresentado na Figura 3.34. As variveis aparecero na List 1: e List 2:.

Figura 3.34 - Janela com as variveis selecionadas para a tabela bidimensional

29
Cap. 3 Anlise Exploratria de Dados

(4) Clique nos botes [OK] da janela anterior e da Figura 3.33 e aparecer a
janela apresentada na Figura 3.35:

Figura 3.35 Janela para a visualizao do resultado

(5) Na janela da figura anterior, clique na aba [Options] e defina a opo


percentagem do total das linhas (Percentages of row counts) conforme
apresentado na Figura 3.36.

Figura 3.36 Opes da tabela de freqncia conjunta

(6) Na janela da figura anterior, clique na aba [Advanced] e selecione a opo


(Display selected %s in sep. tables) conforme apresentado na Figura 3.37. Essa
opo separa as freqncias dos valores percentuais em tabelas distintas.

Figura 3.37 Opes da tabela de freqncia conjunta

(7) Clique no boto [Summary] e os resultados esto apresentado nas figuras


3.38 e 3.39:

30
Cap. 3 Anlise Exploratria de Dados

Figura 3.38 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo


com a resistncia ferrugem e tipo de gro freqncias

Figura 3.39 Tabela de distribuio de freqncia conjunta do n de hbridos, de acordo


com a resistncia ferrugem e tipo de gro - percentuais

Interpretao: se os semi-dentados fossem totalmente independentes da


varivel resistncia a ferrugem, esperaramos 34,38% (All Grps) para as categoria
r, s, ms e mr. Na tabela observamos que a categoria s apresenta 57,14%, valor
este acima dos 34,38%. Da mesma forma, observamos tambm que a categoria
mr, com 16,67%, esta abaixo dos 34,38%. Isto implica um distanciamento da
independncia entre as variveis. Podemos deduzir que elas esto associadas.
A determinao dos coeficientes de continncia de Pearson e Cramr, vo
quantificar (forte, moderada ou fraca) a dependncia.

31
Cap. 3 Anlise Exploratria de Dados

(7) Clicar em Crosstabulation Tables Resultados: hbridos (lado esquerdo,


embaixo) Options Na janela da Figura 3.36 selecione a opo (Phi (2x2 tables)
& Cramrs V & C) conforme apresentado na Figura 3.40.

Figura 3.40 Opes da tabela de freqncia conjunta

(8) Na janela da figura anterior, clique na aba [Advanced] e no boto [Detailed


two-way tables] e o resultado est apresentado na Figura 3.41:

Figura 3.41 Estatsticas para verificar a associao entre variveis

Observao: O STATISTICA no corrige o coeficiente de contingncia


(Contingency coefficient) = 0,4521588. A seguir est a frmula para correo:

C 0,4521588
C* 0,5538
(t - 1) t (3 - 1) 3

Como o coeficiente de contingncia est entre 0 e 1 (0 C* 1), temos uma


associao moderada (mdia). Por outro lado, o coeficiente de Cramr (Cramrs
V) - 0 V 1, indica uma associao fraca.

3.1.2.4. Grfico de Setores (Pie Charts)

(1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Pie Charts] e
aparecer a janela apresentada na Figura 3.42:

32
Cap. 3 Anlise Exploratria de Dados

Figura 3.42 Janela para especificao do grfico de setores

(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel a


ser estudada, conforme apresentada na figura a seguir:

Figura 3.43 Janela para seleo das variveis

(3) Na janela da Figura 3.42, clique na aba [Advanced] e especifique:


o tipo de legenda (Pie legend): Text and Percent (mostra o texto (nveis) e
as porcentagens)
o tipo de visualizao (Type): 3D (tridimensional)
a forma (Shape): Ellipse (elipse)
O resultado das especificaes est apresentado na figura a seguir:

33
Cap. 3 Anlise Exploratria de Dados

Figura 3.44 Janela para a especificao do grfico de setores

(4) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

Figura 3.45 Grfico de setores para a ferrugem

(5) Para que os setores fiquem separados, clique com o boto direito do mouse em
cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que
abrir, clique na aba [Plot: Pie], ative o Exploded dos quatro setores, conforme
apresentado na Figura 3.46:

34
Cap. 3 Anlise Exploratria de Dados

Figura 3.46 Opes grficas do Pie Charts

(6) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

Figura 3.47 Grfico de setores para a ferrugem

3.2. Distribuio de Freqncia de Variveis Quantitativas

Varivel quantitativa aquela que apresenta como resultado, medidas e


contagens. Podem ser contnuas e discretas. As contnuas, so todas as que,
pelo menos em teoria, possam assumir qualquer valor dentro de um intervalo;
enquanto as discretas, normalmente resultam de contagens, so nmeros
inteiros e s assumem certos valores.
Neste caso podemos estabelecer duas situaes:

35
Cap. 3 Anlise Exploratria de Dados

1) Varivel contnua - classes de ocorrncia


Observao: quando temos poucas observaes, at aproximadamente 25, a
distribuio pode ser representada por meio de um diagrama de pontos. O
programa STATISTICA no faz este diagrama.
2) Varivel discreta - distribuio de freqncia feita de maneira
idntica s variveis qualitativas (categorizadas). Tambm pode ser representada
por um diagrama de pontos.

3.2.1. Tabela de Distribuio de Freqncia para Varivel Quantitativa


Discreta

Se os resultados da varivel discreta no so muitos, podemos dar o mesmo


enfoque dado as variveis qualitativas.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.50, onde a opo a ser escolhida ser Frequency
Table:

Figura 3.50 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.51:

Figura 3.51 Tabelas de freqncia

36
Cap. 3 Anlise Exploratria de Dados

(3) Clique no boto [Variables] e selecione a varivel Ciclo, conforme apresentado


na Figura 3.52:

Figura 3.52. Janela para seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.53:

Figura 3.53 Tabela de freqncia com a varivel Ciclo selecionada

(5) Clique na aba [Options] e defina as opes conforme apresentado na figura


3.54:

Figura 3.54 Opes da tabela de freqncia

(6) Clique no boto [Summary] e o resultado est apresentado na Figura 3.55:

37
Cap. 3 Anlise Exploratria de Dados

Figura 3.55 Tabela de Distribuio de Freqncia da varivel Ciclo

3.2.2. Representaes Grficas de Variveis Quantitativas Discretas

Os grficos de barras justapostas, conhecidos como histogramas, so


indicados no caso de variveis contnuas. Podemos ento, construir um GRFICO
DE ORDENADAS para o caso de uma varivel discreta, como por exemplo, a
varivel ciclo da cultura.
O procedimento no STATISTICA o mesmo que construir um grfico de
barras j descrito anteriormente no item 3.1.1.3. Entretanto, o grfico de
ordenadas ser construdo para a varivel Ciclo, portanto, siga os passos do
exemplo das figuras 3.11 a 3.14, no esquecendo de alterar no item (2) para a
varivel Ciclo.
(1) O grfico resultante est apresentado na Figura 3.56:

Histogram (hibridos.sta 8v*32c)


6

4
No of obs

0
64 66 68 70 72 74 76
Ciclo

Figura 3.56 Grfico de colunas da varivel Ciclo

38
Cap. 3 Anlise Exploratria de Dados

(2) Clique com o boto direito do mouse em cima do grfico e escolha a opo
(Graph Properties (All Options)). Na janela que abrir, clique na aba [Plot: Bars] e
modifique a opo Type para Lines, conforme apresentado na Figura 3.57:

Figura 3.57 Opes grficas do 2D Histograms

(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

Histogram (hibridos.sta 8v*32c)


6

4
No of obs

0
64 66 68 70 72 74 76
Ciclo

Figura 3.58 Grfico de ordenadas da varivel ciclo

Quando temos muitas observaes de uma varivel em estudo (acima de 25),


recomendvel a formao de intervalos de valores, isto , construir classes de
ocorrncias.

39
Cap. 3 Anlise Exploratria de Dados

O STATISTICA pode agrupar os dados em quantas classes quisermos, e a,


construir tabelas e grficos em funo dos intervalos. Usar este artifcio uma
maneira de encontrar uma melhor representao do fenmeno em estudo.
Os intervalos ou so por ele agrupados (dados agrupados em classes),
divididos de maneira igual conforme um n previamente estipulado (n of exact
intervals), ou, o pesquisador define estas classes (amplitude de casas desiguais).

3.2.3. Dados Agrupados em Classes

Quantos intervalos escolher?


O nmero de classes deve ser o suficiente para nos dar uma boa idia do
fenmeno, devendo por em evidncia a regularidade do fenmeno.
O compromisso de cada pesquisador. Construindo sucessivamente
diferentes histogramas, alterando o nmero de intervalos, possvel identificar a
melhor opo, e assim, deve escolher o que melhor representa a distribuio do
fenmeno por ele estudado.
Recomenda-se que o nmero no seja muito grande (maior que 15) e nem
muito pequeno (menor que 5) e tambm, sempre que for possvel, que as classes
tenham a mesma amplitude.
Procedimento:
(1) Repetir os passos (1) a (5) do item 3.2.1 (Tabela de Distribuio de Freqncia
para Varivel Quantitativa Discreta), porm altere a varivel para rendimento.
(2) Clique na aba [Advanced] e defina a opo No. of exact intervals igual a 6,
conforme apresentado na figura 3.59:

Figura 3.59 Opes da tabela de freqncia

Iniciaremos o exemplo com um nmero de classes igual a 6. Posteriormente


reduziremos para 5 e finalizaremos com 15 classes. O propsito baseado em
uma verificao que vai possibilitar que visualizemos a realidade do fenmeno
aonde certos grupos iro ento aparecer destacados.
(3) Clique no boto [Summary] e o resultado est apresentado na Figura 3.60:

40
Cap. 3 Anlise Exploratria de Dados

Figura 3.60 Tabela de Distribuio de Freqncia com 6 classes


da varivel rendimento de gros

Observao: Neste caso, de dados agrupados em classes, repare que os


intervalos de classes so de tamanhos iguais.
(4) Clicar em Frequency Tables: hbridos (lado esquerdo, embaixo). Para a
construo do histograma clique no boto [Histograms] da Figura 3.59. O
resultado est apresentado a seguir:

Histogram: Rendimento
Expected Normal
18

16

14

12
No. of obs.

10

0
3864 4347 4830 5313 5796 6279 6762
X <= Category Boundary

Figura 3.61 Distribuio de freqncia em 6 classes da varivel Rendimento

(5) A seguir, apresenta-se o histograma com o n de classes igual a 5.

41
Cap. 3 Anlise Exploratria de Dados

Histogram: Rendimento
Expected Normal
18

16

14

12

No. of obs.
10

0
3622.50 4226.25 4830.00 5433.75 6037.50 6641.25
X <= Category Boundary

Figura 3.62 Distribuio de freqncia em 5 classes da varivel Rendimento

(6) No ltimo grfico, a diviso em 15 classes permite que fiquem destacados os


grupos de hbridos que possuem maior rendimento e o hbrido com baixo
rendimento.

Histogram: Rendimento
Expected Normal
7

5
No. of obs.

0
3967.5 4312.5 4657.5 5002.5 5347.5 5692.5 6037.5 6382.5
4140.0 4485.0 4830.0 5175.0 5520.0 5865.0 6210.0 6555.0
X <= Category Boundary

Figura 3.63 Distribuio de freqncia em 15 classes da varivel Rendimento

Note ainda que as linhas nos grficos representam o modelo normal (Karl
Gauss) em forma de sino. Este aspecto terico representa a maioria dos
fenmenos naturais e ser discutido mais adiante.
Amplitude de classes desiguais
Neste caso o STATISTICA no constri grficos (histogramas). Ele pode
apenas construir uma tabela de freqncia com as classes definidas. Dando
continuidade ao procedimento:

42
Cap. 3 Anlise Exploratria de Dados

(7) Na janela da Figura 3.59, na aba [Advanced], defina a opo User-specified


categories e digite os intervalos das classes de cada categoria conforme
apresentado na figura a seguir:

Figura 3.64 Janela onde so definidas as categorias

(8) Clique no boto [Summary] e o resultado est apresentado na Figura 3.65:

Figura 3.65 Tabela de distribuio de freqncia usando


categorias definidas pelo usurio

Observaes:
A varivel deve ser indicada por seu nmero, ou por sua sigla. No
exemplo, vamos trabalhar com a varivel Rendimento que pode ser
identificada como v2 ou como RENDIMENTO.

43
Cap. 3 Anlise Exploratria de Dados

3.2.4. Polgono de Freqncias Mtiplos

Com esse tipo de grfico pode-se verificar mltiplas distribuies de


freqncia num mesmo grfico. Segue a seqncia de passos para a construo
do mesmo.
(1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na
Figura 3.66:

Figura 3.66 Criao de novas variveis

(2) Crie uma varivel aps a varivel Ferrugem, conforme definido na Figura 3.67
e clicar em OK:

Figura 3.67 Janela para a criao de novas variveis

(3) A nova varivel cCiclo corresponder a categorizao da varivel Ciclo, para


isso basta posicionar o cursor na nova varivel e no menu [DATA], escolher a
opo [Recode], conforme apresentado na Figura 3.68:

44
Cap. 3 Anlise Exploratria de Dados

Figura 3.68 Acesso janela para a categorizao da varivel Ciclo

(4) A categorizao da varivel Ciclo ser feita conforme apresentado na Figura


3.69: clicar OK.

Figura 3.69 Janela para a categorizao da varivel Ciclo

(5) No menu [Graphs], escolha a opo [Categorized Graphs], em seguida


[Histograms] e aparecer a janela apresentada na Figura 3.70:

45
Cap. 3 Anlise Exploratria de Dados

Figura 3.70 Janela para a especificao do grfico de colunas mltiplas

(6) Selecione as variveis, clicando no boto [Variables] e depois escolha a


varivel a ser estudada e a que ser a categoria, conforme apresentado na Figura
3.71:

Figura 3.71 Janela para seleo das variveis

(7) Na janela da Figura 3.70, especifique:


o tipo de grfico (Layout:) Overlaid
O resultado das especificaes est apresentado na Figura 3.72:

46
Cap. 3 Anlise Exploratria de Dados

Figura 3.72 Janela para a especificao do grfico de colunas mltiplas

(8) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.73:

Figura 3.73 Grfico de colunas mltiplas, rendimento


versus tipo de ciclo (precoce ou tardio)

(9) Para o grfico de freqncias mltiplas, clique com o boto direito do mouse
em cima do grfico e escolha a opo (Graph Properies (All Options)). Na janela que
abrir, clique na aba [Plot: General], ative o Multiple Lines conforme apresentado
na Figura 3.74:

47
Cap. 3 Anlise Exploratria de Dados

Figura 3.74 Opes grficas

(10) Na janela da Figura 3.74, clique na aba [Plot: Bars], desative o Display Bars
conforme apresentado na Figura 3.75:

Figura 3.75 Opes grficas

(11) Clique no boto [OK] e o grfico resultante apresentado na Figura 3.76:

48
Cap. 3 Anlise Exploratria de Dados

Figura 3.76 Grfico polgono de freqncias mltiplas, rendimento


versus tipo de ciclo (precoce ou tardio)

3.2.5. O Modelo Normal


Uma distribuio de freqncia muito importante em estatstica surge
quando os dados tendem a se concentrarem simetricamente em torno de um
valor central. Essa distribuio conhecida como a distribuio normal ou
Gaussiana e sua forma a de sino.
A maioria dos fenmenos naturais tm esta distribuio, porm, apesar
desta forma ser a mais esperada, o aspecto terico e cabe ao pesquisador
estud-lo.
O STATISTICA, por default, quando constri o histograma, tambm
representa o modelo normal. Assim, o pesquisador pode ter uma idia se a sua
amostra oriunda de uma distribuio aproximadamente normal.

Normal Probability Plot (O Grfico Normal de Probabilidades)


(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], a opo a
ser escolhida ser Frequency Table. Selecione a varivel Rendimento.
(2) Clique na aba [Descr.] conforme apresentado na Figura 3.77:

49
Cap. 3 Anlise Exploratria de Dados

Figura 3.77 Opes da tabela de freqncia

(3) Clique no boto [Normal probability plots (2)] e o resultado est apresentado
na Figura 3.78:

Normal P-Plot: Rendimento


2.5

2.0

1.5

1.0
Expected Normal Value

0.5

0.0

-0.5

-1.0

-1.5

-2.0

-2.5
3800 4200 4600 5000 5400 5800 6200 6600
4000 4400 4800 5200 5600 6000 6400
Value

Figura 3.78 Grfico Normal de Probabilidade da varivel Rendimento

Interpretao: como os pontos esto dispostos prximos linha reta,


conclui-se que a nossa amostra oriunda de uma distribuio aproximadamente
normal.

50
Cap. 3 Anlise Exploratria de Dados

3.3. Estatsticas Descritivas

3.3.1. Medidas de Tendncia Central e Disperso

A varivel Rendimento adotada como exemplo para se obter as estatsticas


descritivas.
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.79, onde a opo a ser escolhida ser
Descriptive statistics:

Figura 3.79 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.80:

Figura 3.80 Estatsticas descritivas

(3) Clique no boto [Variables] e selecione a varivel Rendimento.


(4) Clique na aba [Advanced] conforme apresentado na Figura 3.81:

51
Cap. 3 Anlise Exploratria de Dados

Figura 3.81 Opes de estatsticas descritivas

Na janela anterior, selecionou-se as estatsticas relevantes para o caso,


conforme apresentado a seguir:
Valid N - tamanho da amostra
Mean mdia
Sum soma
Median mediana
Standard Deviation - desvio padro
Variance varincia
Std. err. of mean - erro padro da mdia
Skewness assimetria
Minimum & maximum - mnimo e mximo
Lower & upper quartiles - primeiro quartil (Q1) e terceiro quartil (Q3)
Range amplitude
Quartile range - desvio interquartlico
(4) Clique no boto [Summary] e os resultados esto apresentados nas figuras
3.82 e 3.83:

Figura 3.82 Estatsticas descritivas

52
Cap. 3 Anlise Exploratria de Dados

Figura 3.83 Estatsticas descritivas

Outro exemplo:
Esta anlise ser baseada em um outro arquivo: bezerros.sta, que deve ser
criado conforme dados apresentados no Quadro 3.1.

Quadro 3.1 - Resultado experimental do peso e comprimento, para duas raas de bezerros
Raa Peso Comprimento
(Kg) (cm)
A 45 102
A 46 98
A 47 89
A 49 91
A 50 110
A 50 81
A 51 96
A 51 108
A 52 85
A 53 104
B 40 86
B 43 79
B 44 82
B 46 90
B 48 72
B 51 69
B 54 93
B 55 88
B 56 79
B 57 83

Como primeira anlise, sero determinadas as estatsticas bsicas da


varivel Peso para cada tipo de raa de bezerros (A e B) apresentados no quadro
anterior, para isso basta seguir o procedimento abaixo:
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.84, onde a opo a ser escolhida ser
Breakdown & one-way ANOVA:

53
Cap. 3 Anlise Exploratria de Dados

Figura 3.84 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.85:

Figura 3.85 Estatsticas descritivas por varivel agrupadora

(3) Clique no boto [Variables] e selecione a varivel Peso como dependente


(Dependent variables) e a varivel raa como agrupadora (Grouping variables),
conforme apresentado na Figura 3.86.

Figura 3.86 Janela para seleo das variveis para a anlise

(4) Clique nos botes [OK] das duas figuras anteriores e aparecer a janela
apresentada na Figura 3.87, aps o clique na aba [Descriptives]:

54
Cap. 3 Anlise Exploratria de Dados

Figura 3.87 Opes de estatsticas descritivas

Na janela anterior, selecionou-se as estatsticas relevantes para o caso,


sendo que a mdia (mean) vem automaticamente, conforme apresentado a seguir:
Standard Deviation - desvio padro
Median & quartiles mediana, primeiro quartil (Q1) e terceiro quartil (Q3)
(5) Clique no boto [Summary] e os resultados esto apresentados na Figura
3.88:

Figura 3.88 - Estatsticas descritivas da varivel Peso por tipo de raa

A anlise estatstica descritiva utilizada como uma descrio de um


conjunto de valores.
CUIDADO !!! A mdia e o desvio padro so afetados por valores extremos,
altos ou baixos, e a estatstica torna-se irreal. A mdia (Mean) representar bem
apenas em casos onde existe simetria, pois a mdia de um modelo assimtrico
no reflete a realidade, e neste caso, a mediana (Median) torna-se uma melhor
maneira de representao.
O desvio padro (Standard deviation) e o erro padro da mdia (Std. err. of
mean) so medidas calculadas em torno da mdia e a inteno quantificar a
variabilidade dos dados em torno da mdia. Por ser, ento, uma medida relativa,
deve existir uma referncia para que faamos a interpretao. Um pesquisador

55
Cap. 3 Anlise Exploratria de Dados

com experincia j espera um determinado valor da variabilidade, caso contrrio,


a anlise deve ser baseada em resultados de outros trabalhos.
Nos quartis temos a distribuio dividida em quatro partes iguais.
25% 25% 25% 25%

__________________________________________
Mnimo Q1 Mediana Q2 Mximo

3.3.2. A Mdia e o Desvio Padro sob um Modelo Normal

Nessa anlise, ser utilizada a ferramenta do STATISTICA de clculo de


probabilidade, para isso basta seguir o procedimento abaixo:
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 3.89, onde a opo a ser escolhida ser
Probability calculator:

Figura 3.89 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.90:

Figura 3.90 Janela para clculo de probabilidade

(3) Na janela anterior, especificar:


Distribution: Z (Normal)
Two-tailed (bilateral) e Create Graph (criar o grfico)

56
Cap. 3 Anlise Exploratria de Dados

X: digite o valor 1
Na figura a seguir esto apresentados os resultados da especificao.

Figura 3.91 Janela para clculo de probabilidade

(4) Clique no boto [Compute], aparecer o valor da probabilidade (p) e os grficos


das funes densidade e distribuio de probabilidade, apresentados
respectivamente nas figuras 3.92 e 3.93:

Figura 3.92 Janela para clculo de probabilidade

Observao: Para ter acesso ao grfico necessrio sair da janela de clculo


de probabilidade, para isto clique no boto [Exit].

57
Cap. 3 Anlise Exploratria de Dados

Probability Density Function Probability Distribution Function


y=normal(x;0;1) p=1-2*(1-inormal(0+abs(x-0);0;1))
0.6 1.0

0.5
0.8

0.4

0.6

0.3

0.4

0.2

0.2
0.1

0.0 0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Figura 3.93 - Distribuio normal padro: mdia mais ou menos 1 desvio padro ( x 1s )

Interpretao: Observar na Figura 3.81, que no intervalo x 1s , temos


exatamente 68,2689% dos valores (p=0,682689).
(4) Repetir os itens (3) e (4) alterando o valor de X para 2 e 3. Os resultados esto
apresentados nas figuras a seguir:
Probability Density Function Probability Distribution Function
y=normal(x;0;1) p=1-2*(1-inormal(0+abs(x-0);0;1))
0.6 1.0

0.5
0.8

0.4

0.6

0.3

0.4

0.2

0.2
0.1

0.0 0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Figura 3.94 - Distribuio normal padro: mdia mais ou menos 2 desvios padres ( x 2s )

Interpretao: Temos agora, 95,45% dos valores (p=0,9545).

58
Cap. 3 Anlise Exploratria de Dados

Probability Density Function Probability Distribution Function


y=normal(x;0;1) p=1-2*(1-inormal(0+abs(x-0);0;1))
0.6 1.0

0.5
0.8

0.4

0.6

0.3

0.4

0.2

0.2
0.1

0.0 0.0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3

Figura 3.95 - Distribuio normal padro: mdia mais ou menos 3 desvios padres ( x 3s )

Interpretao: Temos agora, 99,73% dos valores (p=0,9973).

3.3.3. Desenho Esquemtico (Box Plot)

O uso da mediana, quartis e extremos importante para obtermos


informaes sobre a forma, valor representativo, disperso e valores discrepantes
da distribuio. A anlise ser realizada sobre o arquivo bezerros.sta.
(1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Box Plots] e
aparecer a janela apresentada na Figura 3.96:

Figura 3.96 Janela para especificao do desenho esquemtico

59
Cap. 3 Anlise Exploratria de Dados

(2) Selecione a varivel, clicando no boto [Variables] e depois escolha a varivel


Peso como a varivel a ser analisada (dependent variable), clique no boto [Ok] e
aparecer a janela apresentada na figura a seguir:

Figura 3.97 Janela para especificao do desenho esquemtico

(3) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

Box Plot (bezerros.sta 3v*20c)


58

56

54

52

50

48

46

44

42
Median = 50
25%-75%
40
= (46, 52.5)
Non-Outlier Range
38 = (40, 57)
Peso

Figura 3.98 Desenho esquemtico em duas dimenses para o peso

Para saber se existe diferena na distribuio entre as duas raas, pode-se


construir um grfico box plot categorizado, conforme apresentado no
procedimento a seguir:
(4) Na janela da Figura 3.97, clique na aba [Advanced] e especifique:

60
Cap. 3 Anlise Exploratria de Dados

as variveis: independente (Independent variables): PESO e agrupadora


(Grouping variables): RACA
o tipo de grfico (Graph Type): Box Wiskers e Regular
o intervalo de agrupamento (Grouping intervals): Integer mode
o ajuste (FIT): off (sem linha)
o ponto central (Middle Point): Value=Median e Style=Point
a caixa (Box): Value=Percentiles e Coefficient=25
o limite (Whisker): Value=Non Outlier Range e Coefficient=1 (default)
os pontos discrepantes (Outliers): Value=Outl & Extremes e Coefficient=1,5

O resultado das especificaes est apresentado na figura a seguir:

Figura 3.99 Janela para a especificao do desenho esquemtico

(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

61
Cap. 3 Anlise Exploratria de Dados

Box Plot (bezerros.sta 3v*20c)


58

56

54

52

50
Peso
48

46

44

42

40

Median
38 25%-75%
A B
Non-Outlier Range
Raca

Figura 3.100 Desenho esquemtico para as raas A e B

Se diminuirmos o coeficiente para 0,4 vo aparecer outliers no desenho,


conforme apresentado na Figura 3.101. O padro do STATISTICA e de muitos
livros de estatstica usar o critrio coeficiente (Coefficient) igual a 1,5, porm, o
pesquisador tem autonomia para alter-lo.

Box Plot (bezerros.sta 3v*20c)


58

56

54

52

50
Peso

48

46

44

42

40
Median
25%-75%
38 Non-Outlier Range
A B
Outliers
Raca

Figura 3.101 Desenho esquemtico para as raas A e B, usando o coeficiente igual a 0,4

3.3.4. Diagrama de Disperso

Para verificar o relacionamento entre duas variveis pode-se utilizar o


diagrama de disperso. A anlise ser realizada sobre o arquivo hibridos.sta.
(1) No menu [Graphs], escolha a opo [2D Graphs], em seguida [Scatterplots] e
aparecer a janela apresentada na Figura 3.102:

62
Cap. 3 Anlise Exploratria de Dados

Figura 3.102 Janela para especificao do diagrama de disperso

(2) Na janela da Figura anterior, especifique:


as variveis: X: Altura_planta e Y: Altura_espiga
o tipo de grfico (Graph Type): Regular
o ajuste (Linear fit): sem seleo

O resultado das especificaes est apresentado na figura a seguir:

Figura 3.103 Janela para a especificao do diagrama de disperso

(5) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

63
Cap. 3 Anlise Exploratria de Dados

Scatterplot (hibridos.sta 7v*32c)


160

150

140

Altura_espiga
130

120

110

100
230 240 250 260 270 280 290
Altura_planta

Figura 3.104 Diagrama de disperso para as variveis quantitativas, altura de espiga e


altura de planta.

Interpretao: de modo geral observamos uma tendncia linear nos dados,


isto , quanto mais altas so as plantas, mais altas as alturas das espigas.

3.3.5. Coeficiente de Correlao

(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer


a janela apresentada na Figura 3.105, onde a opo a ser escolhida ser
Correlation matrices:

Figura 3.105 Janela para o clculo do coeficiente de correlao

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.106:

64
Cap. 3 Anlise Exploratria de Dados

Figura 3.106 Janela para seleo das variveis para a anlise

(3) Clique no boto [Two lists (rect. matrix)] e selecione a varivel Altura_planta
(First variable list) e a varivel Altura_espiga (Second variable list (optional)),
conforme apresentado na Figura 3.107.

Figura 3.107 Janela para seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 3.108:

Figura 3.108 Janela para seleo das variveis para a anlise

(5) Clique no boto [Summary] da figura anterior e o valor da correlao estar


apresentado na Figura 3.109:

65
Cap. 3 Anlise Exploratria de Dados

Figura 3.109 Valor do coeficiente de correlao

Interpretao: Podemos concluir que as variveis esto correlacionadas


positivamente, ou seja, quanto maior a altura da planta maior a altura da
espiga.

3.3.6. Ajuste da Equao de uma Reta

O ajuste de um modelo linear simples da como resultado uma equao


matemtica que descreve o relacionamento entre duas variveis. Para ajustar um
modelo linear simples entre a altura da planta e altura da espiga, basta repetir o
procedimento do item 3.3.4. habilitando o ajuste linear (Linear fit), conforme
apresentado na Figura 3.110.

Figura 3.110 Janela para a especificao do diagrama de disperso

(1) Clique no boto [OK] e o grfico resultante est apresentado na figura a


seguir:

66
Cap. 3 Anlise Exploratria de Dados

Scatterplot (hibridos.sta 7v*32c)


Altura_espiga = -68.5699+0.753*x
160

150

140

Altura_espiga

130

120

110

100
230 240 250 260 270 280 290
Altura_planta

Figura 3.111 Valores observados e a equao de regresso ajustada

O modelo linear simples ajustado :

A ltura _ espiga 68,5699 0,753 x Altura _ planta

Interpretao: o aumento de 1 cm no valor da altura da planta faz com que


a altura da espiga aumente em 0,753 cm.
Anlise dos Resduos
Essa anlise feita para a varivel dependente e permite verificar se o
modelo ajustado adequado para os dados, se as varincias so homogneas, se
existem valores discrepantes e se os erros podem ser assumidos como tendo
aproximadamente uma distribuio normal. Os resduos consistem da diferena
entre os valores observados e os estimados pelo modelo ajustado, conforme
equao a seguir:

ei Yi i
Y

onde:
ei = resduo da i-sima observao
Yi = valor observado da varivel resposta da i-sima observao
i = valor estimado da varivel resposta da i-sima observao
Y

O modelo ser considerado adequado se a distribuio dos resduos for


normalmente distribuda com mdia nula e varincia constante ( 2). Uma das
formas de verificao atravs de anlise grfica, explorada neste tpico. Na
seqncia esto os passos para a anlise dos resduos.
(1) No menu [INSERT], escolha a opo [Add Variables], conforme apresentado na
Figura 3.112:

67
Cap. 3 Anlise Exploratria de Dados

Figura 3.112 Criao de novas variveis

(2) Crie duas variveis aps a varivel Ferrugem, conforme apresentado na Figura
3.113:

Figura 3.113 Janela para a criao de novas variveis

(3) Defina as variveis, uma ser relativa aos valores estimados e a outra aos
resduos, conforme apresentado nas figuras 3.114 e 3.115, respectivamente:

68
Cap. 3 Anlise Exploratria de Dados

Figura 3.114 Janela para a criao dos valores estimados

Observao: na janela anterior foi inserido o modelo linear ajustado


(= -68.5699 + (0.753 * v4)), onde v4 corresponde varivel Altura_planta.

Figura 3.115 Janela para a criao dos resduos

Observao: na janela anterior foi inserido o clculo dos resduos (ei)


(= v5 - v8)), onde v5 corresponde varivel Altura_espiga e v8 Altura_espiga_est
(valores estimados).
(4) Para verificar se os resduos so normalmente distribudos, construdo o
Grfico normal de probabilidade dos resduos, conforme apresentado na Figura
3.116, cujo resultado est apresentado na Figura 3.117:

69
Cap. 3 Anlise Exploratria de Dados

Figura 3.116 Janela para a criao do grfico de probabilidade normal dos resduos

Normal Probability Plot of Altura_espiga_res (hibridos.sta 9v*32c)


2.5

2.0

1.5

1.0
Expected Normal Value

0.5

0.0

-0.5

-1.0

-1.5

-2.0

-2.5
-30 -20 -10 0 10 20 30
Observed Value

Figura 3.117 Grfico de probabilidade normal dos resduos

Interpretao: o grfico anterior indica que os resduos possuem uma


distribuio normal.
(5) Para verificar se os resduos possuem varincia constante, construdo um
grfico de disperso (scatterplot) entre os resduos (ei) e a varivel independente
ou preditora (Altura_planta), conforme apresentado na Figura 3.118, cujo
resultado est apresentado na Figura 3.119:

70
Cap. 3 Anlise Exploratria de Dados

Figura 3.118 Janela para a criao do grfico de disperso entre os resduos e a


varivel independente ou preditora (Altura_planta)

Scatterplot (hibridos.sta 9v*32c)


30

20

10
Altura_espiga_res

-10

-20

-30
230 240 250 260 270 280 290
Altura_planta

Figura 3.119 Grfico de disperso entre os resduos e a


varivel independente ou preditora (Altura_planta)

Interpretao: o grfico anterior indica que a distribuio dos resduos


aleatria, o modelo linear adequado e que a varincia dos erros pode ser
considerada constante.

71
Cap. 4 Opes Grficas

(6) Para verificar se existe(m) valor(es) discrepante(s), construdo um


grfico de disperso (scatterplot) entre os resduos padronizados e a varivel
independente ou preditora (Altura_planta).

Os resduos (erros) padronizados so calculados como:

ei
zi
n 2
e /n 2
i 1 i

No Statistica criar uma nova varivel nominada de resduos^2, ou seja, no


programa statistica temos: resduos^2 = v9**2.

V com o cursor em cima da varivel resduos^2, ou seja, em v10, clicar com


o boto direito, selecionar statistics of block data blocks columns sums.
Na ltima linha na planilha dos dados vai aparecer o total 3818,922ou seja,
a soma dos quadrados dos erros ou resduos.
Criar uma nova varivel nominada de resduos padronizados aps a varivel
resduos^2, na planilha de dados. Esta varivel assume os valores dados por:
=v9/(sqrt(3818,922/(32-2))), onde sqrt a raz quadrada.
Criar um grfico de disperso com as variveis: resduos padronizados e altura_planta. Temos o
resultado:

Como os resduos padronizados esto na faixa de -3 a 3, no temos a


presena de valores discrepantes (outliers).
(7) Para verificar a qualidade do ajuste do modelo linear podemos calcular o
coeficiente de determinao (R2). Matematicamente dado pelo coeficiente de
correlao ao quadrado.

72
Cap. 4 Opes Grficas

Para o nosso exemplo temos: R2 = (0,65)2 = 0,4244. Em porcentagem vale


42,44%, ou seja, temos que a incluso da varivel altura de planta no modelo
explica 42,44% da altura de espiga.

73
Cap. 4 Opes Grficas

4. OPES GRFICAS

Para editar o aspecto geral do grfico, basta clicar duas vezes com o boto
esquerdo do mouse sobre a rea de fora do grfico propriamente dita (rea onde
esto as palavras de legenda, ttulo e as escalas). Uma outra forma clicar com o
boto direito do mouse e escolher a opo Graph Properties (All Options), conforme
apresentado na Figura 4.1:

Figura 4.1 Edio das propriedades do grfico

Ambos os procedimentos abrem a janela de edio geral do grfico


apresentada na Figura 4.2, porm a segunda forma permite acessar outras
opes, como por exemplo: copiar (Copy Graph) o grfico ou capturar uma regio
do mesmo (Screen Catcher) para um editor de texto, imprimir (Print Graph).

74
Cap. 4 Opes Grficas

Figura 4.2 Janela das propriedades do grfico

Com a janela apresentada na Figura 4.2 possvel, por exemplo:


- alterar as propriedades da janela (Graph Window), como a cor do fundo
(Outside Background Color), a borda (Borders around the graph) e o tamanho
(Size) do mesmo;
- alterar o layout (Graph Layout) como a disposio dos eixos (Axis positions);
- modificar ttulos e subttulos (Graph Titles/Text), como o tipo, tamanho e
cor da letra;
- editar os eixos (Axis Scaling), como os valores incio (Minimum), fim
(Maximum) e o passo (Step Size) da escala.

Existem outras opes que so especficas para cada tipo de grfico, como:
- Plot: Bar grfico de barras;
- Plot: Histogram histogramas;
- Plot: Pies grfico de setores;
- Plot: Point Labels grfico de disperso.

Uma forma mais rpida para alterar a formatao de um grfico clicar


duas vezes em cima do que se quer mudar e alterar conforme padro do trabalho
que se est fazendo ou para traduzir textos para o Portugus, por exemplo. Para
exemplificar, ser utilizado o grfico de colunas construdo para a varivel
resistncia ferrugem reapresentado na Figura 4.1. A seguir, est uma
seqncia de procedimentos que visa exemplificar o potencial grfico que est
disponvel no programa STATISTICA .

75
Cap. 4 Opes Grficas

Figura 4.3 Grfico de colunas da varivel resistncia ferrugem

(1) Clicar duas vezes em cima do ttulo do grfico, aparecer a janela apresentada
na Figura 4.4:

Figura 4.4 Janela das propriedades do ttulo

(2) Alterar o ttulo, sua fonte, tamanho e cor, conforme seu padro adotado. Na
Figura 4.5 est um exemplo:

Figura 4.5 Janela das propriedades do ttulo

(3) Clicar duas vezes em cima do fundo do grfico, cujo padro a cor amarela
claro, trocando-se a cor conforme apresentado na Figura 4.6:

76
Cap. 4 Opes Grficas

Figura 4.6 Alterao das propriedades do fundo

(4) Clicar duas vezes no ttulo do eixo que se deseja modificar, no exemplo o Y,
apresentado na Figura 4.7:

Figura 4.7 Janela das propriedades do eixo Y

(5) Alterar o ttulo do eixo, conforme apresentado na Figura 4.8:

77
Cap. 4 Opes Grficas

Figura 4.8 Janela das propriedades do eixo Y

(6) Para alterar o eixo X, basta alterar a caixa de texto da opo Axis na Figura
4.8 para X e modificar o ttulo deste, conforme apresentado na Figura 4.8:

Figura 4.9 Janela das propriedades do eixo Y

(7) Para modificar o preenchimento (rea) e a cor das barras, clicar com o boto
da direita em cima de uma das colunas, apresentado na Figura 4.10:

78
Cap. 4 Opes Grficas

Figura 4.10 Alterao do o preenchimento da coluna

(8) Escolher a cor e o padro atravs da janela apresentada na Figura 4.11:

Figura 4.11 Janela para escolha do preenchimento da coluna

(9) O grfico resultante est apresentado na Figura 4.12:

79
Cap. 4 Opes Grficas

Figura 4.12 Grfico de colunas da varivel resistncia ferrugem

Observao: Ressalta-se que foram exploradas somente algumas das opes


grficas disponveis no programa STATISTICA , cabendo ao leitor explorar as
diversas formas de edio e possveis padronizaes de seus grficos.

80
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

5. TESTES ESTATSTICOS PARA COMPARAO DE


DUAS MDIAS

5.1. Teste de Duas Mdias Populacionais com Varincias Desconhecidas

a) Dados pareados ou amostras dependentes


b) Dados no pareados ou amostras independentes
b.1) Varincias homogneas (iguais)
b.2) Varincias heterogneas (desiguais)
O mtodo de anlise selecionado para o teste-t deve ser previamente
estudado para que no implique em resultados falsos. Isto significa que
precisamos testar a homogeneidade das varincias e verificar o planejamento da
pesquisa, e baseado nesta concluso, aplicar ento o teste correto, que pode ser:
1. Amostras independentes - varincias homogneas - (T-Test for Independent
Samples (Groups))
2. Amostras independentes - varincias heterogneas - (T-Test for Independent
Samples (Groups) aplicado o t-test with separate variances estimates)
3. Amostras dependentes (Correlacionadas) - (T-Test for Dependent (Correlated)
Samples)

5.1.1. Amostras Independentes com Varincias Iguais e Desconhecidas

Exemplo 1: Criar o arquivo solvente.sta conforme dados apresentados no


Quadro 5.1.

Quadro 5.1 Resultados das absorbncias para dois tipos de solventes


Tratamento Repetio Absorbncia
1 1 0,6286
1 2 0,6143
1 3 0,5826
1 4 0,7498
1 5 0,6060
2 1 0,4748
2 2 0,4321
2 3 0,4309
2 4 0,5010
2 5 0,4094
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 5.1, onde a opo a ser escolhida ser t-test,
independent, by groups:

81
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.1 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.2:

Figura 5.2 Teste-t para amostras independentes

(3) Clique no boto [Variables] e selecione as variveis para a anlise (Grouping


variable = Tratamento e Dependent variable = Absorbancia), conforme
apresentado na Figura 5.3:

Figura 5.3 Janela de seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.4:

82
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.4 Teste-t para amostras independentes

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.5:

Figura 5.5 Resultado do teste-t para os dois solventes

Interpretao: Da figura anterior conclui-se que:


- Mdias amostrais: x 1 =0,63626
x 2 =0,44964
- Desvios padro amostrais: s1=0,06563
s2=0,03725

1) Teste de homogeneidade de varincias


As hipteses a serem testadas esto apresentadas a seguir:
H0: 21 = 22 significa que h homogeneidade de varincia
Ha: 21 > 22 significa que no h homogeneidade de varincia
Tipo do teste: unilateral
Importante: O STATISTICA sempre faz um teste bilateral. No exemplo,
sendo um teste unilateral, deve-se dividir o valor p por dois. Assim,
p=0,2983/2=0,1491. Sendo assim, no se pode rejeitar a hiptese nula e conclui-
se que as varincias podem ser consideradas homogneas (p=0,1491).

83
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

2) Teste de igualdade de mdias


As hipteses a serem testadas esto apresentadas a seguir:
H0: 1 = 2 significa que no h diferena entre as mdias de absorbncia
com relao ao tipo de solvente
Ha: 1 2 significa que h diferena entre as mdias de absorbncia
com relao ao tipo de solvente
Tipo do teste: bilateral
Da Figura 5.5, t=5,5301 (p=0,0006), ou seja, a probabilidade de t 5,5301
ocorrer devido ao acaso. Sendo assim, rejeita-se a hiptese nula e conclui-se que
existe diferena estatisticamente significativa entre as mdias ao nvel de
significncia de 0,06% (0,0006 x 100).

Outra maneira de calcular o valor p:


(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 5.6, onde a opo a ser escolhida ser Probability
calculator:

Figura 5.6 Estatsticas bsicas e tabelas

(2) Selecione as seguintes opes:


Distribuition: t (Student);
Two-tailed (teste bilateral);
(1-Cumulative p);
t=5,530084 (valor encontrado pelo t-test for Independent Samples)
df = 8 (graus de liberdade)
(3) Clique no boto [Compute] e o resultado est apresentado na Figura 5.7:

84
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.7 Janela para clculo do valor p do teste

Note que encontra-se o valor p exatamente igual ao descrito pelo T-Test for
Independent Samples, conforme apresentado na Figura 5.5.

Diagrama de caixas (BOX PLOT )


(1) Na janela da Figura 5.4, para construir o diagrama de caixas, clique no boto
[Box & whisker plot] e o grfico resultante est apresentado na Figura 5.8:

Figura 5.8 Diagrama de caixas para os dois tipos de solventes

Interpretao: Pela Figura 5.8, pode-se considerar que h homogeneidade


de varincia e que a mdia da absorbncia no solvente 1 maior com relao ao
solvente 2.

Grfico normal de probabilidades por tratamento


(1) Na janela da Figura 5.4, clique na aba [Advanced], aparecer a janela
apresentada na Figura 5.9:

85
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.9 Teste-t para amostras independentes

(2) Na janela da Figura 5.9, clique no boto [Categorized normal plot] e o grfico
resultante est apresentado na Figura 5.10:

Figura 5.10 Grfico normal de probabilidades por tratamento

Exemplo 2: Criar o arquivo tomate.sta conforme dados apresentados no


Quadro 5.2.

Quadro 5.2 Resultados de produo de dois tipos de adubos em tomateiro


Tratamento Repetio Produo
1 1 29,9
1 2 11,4
1 3 25,3
1 4 16,5
1 5 21,1
2 1 26,6
2 2 23,7
2 3 28,5
2 4 14,2
2 5 17,9
2 6 24,3

86
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Fonte: Box, Hunter & Hunter


(1) Repetir os cinco primeiros passos do Exemplo 1, porm selecionando as
seguintes variveis para a anlise: Grouping variable = Tratamento e Dependent
variable = Producao. O resultado do teste est apresentado na Figura 5.11:

Figura 5.11 Resultado do teste-t para a produo dos dois diferentes tipos de adubos

1) Teste de homogeneidade de varincias


As hipteses a serem testadas esto apresentadas a seguir:
H0: 21 = 22 significa que h homogeneidade de varincia
Ha: 21 > 22 significa que no h homogeneidade de varincia
Tipo do teste: unilateral
Da Figura 5.11, F=1,7792 (p=0,5400/2=0,2700) significa que no se pode
rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas
homogneas.

2) Teste de igualdade de mdias


As hipteses a serem testadas esto apresentadas a seguir:
H0: 1 = 2 significa que no h diferena entre as mdias de produo
com relao ao tipo de adubo
Ha: 2 > 1 significa que a mdia da produo do adubo tipo 1 menor
que a mdia da produo do adubo tipo 2
Tipo do teste: unilateral
Da Figura 5.5, F=3,1046 (p=0,6677/2=0,3339) significa que no se pode
rejeitar a hiptese nula, ou seja, no existe diferena estatisticamente
significativa entre as mdias.

5.1.2. Amostras Independentes com Varincias Desiguais e Desconhecidas

Exemplo 3: Criar o arquivo variedade.sta conforme dados apresentados no


Quadro 5.3.

87
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Quadro 5.3 Resultados do rendimento em kg/ha de duas variedades de milho


Varied_A Varied_B
1300 1800
1350 1600
1250 1900
1400 1850
1200 1750
2500
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 5.12, onde a opo a ser escolhida ser t-test,
independent, by variables:

Figura 5.12 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.13:

Figura 5.13 Teste-t para amostras independentes

(3) Clique no boto [Variables] e selecione as variveis para a anlise (First


variable (group) list - Varied_A e Second variable (group) list - Varied_B), conforme
apresentado na Figura 5.14:

88
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.14 Janela de seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.15:

Figura 5.15 Teste-t para amostras independentes

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.16:

Figura 5.16 Resultado do teste-t para as duas variedades

1) Teste de homogeneidade de varincias


As hipteses a serem testadas esto apresentadas a seguir:
H0: 2A = 2B significa que h homogeneidade de varincia
Ha: 2B > 2A significa que no h homogeneidade de varincia
Tipo do teste: unilateral

89
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Da Figura 5.16, F=15,5200 (p=0,0200/2=0,0100) significa que rejeita-se a


hiptese nula, ou seja, as varincias no podem ser consideradas homogneas.
Neste caso, como as varincias so heterogneas, o teste-t deve ser calculado
com varincias separadas.
(6) Na janela da Figura 5.15, clique na aba [Options] e selecione a opo t-test
with separate variance estimates, conforme apresentado na Figura 5.17:

Figura 5.17 Teste-t para amostras independentes

(7) Clique no boto [Summary] e o resultado est apresentado na Figura 5.18:

Figura 5.18 Resultado do teste-t para as duas variedades com varincias desiguais

2) Teste de igualdade de mdias


As hipteses a serem testadas esto apresentadas a seguir:
H0: A = B significa que no h diferena entre as mdias de produo
com relao ao tipo de variedade
Ha: A B significa que h diferena entre as mdias de produo com
relao ao tipo de variedade
Tipo do teste: bilateral
Da Figura 5.18, t=-4,5464 (p=0,0043), ou seja, rejeita-se a hiptese nula e
conclui-se que existe diferena estatisticamente significativa entre as mdias de
produo com relao ao tipo de variedade.
(8) Na janela da Figura 5.15, para construir o diagrama de caixas, clique no boto
[Box & whisker plot] e o grfico resultante est apresentado na Figura 5.19:

90
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.19 Diagrama de caixas para as duas variedades de milho

Interpretao: Pela Figura 5.19, visvel que a varincia da Variedade A


menor que a da Variedade B e que a mdia na Variedade B maior com relao
Variedade A.

5.1.3. Amostras Dependentes (Dados Pareados)

Exemplo 4: Criar o arquivo solas.sta conforme dados apresentados no


Quadro 5.4.

Quadro 5.4 Resultados do desgaste de solas de sapatos,


confeccionadas com dois tipos diferentes de materiais
Criana Material_A Material_B
1 13,2 14,0
2 8,2 8,8
3 10,9 11,2
4 14,3 14,2
5 10,7 11,8
6 6,6 6,4
7 9,5 9,8
8 10,8 11,3
9 8,8 9,3
10 13,3 13,6
Neste experimento, cada criana usou um tipo de material diferente de
solado em cada um de seus sapatos, caracterizando a dependncia entre as
medidas, pois numa mesma criana so realizadas duas medidas de desgaste nos
dois tipos de materiais.
As hipteses a serem testadas esto apresentadas a seguir:
H0: A = B significa que no h diferena entre as mdias de desgaste
com relao ao tipo de material

91
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Ha: ]B > A significa que a mdia de desgaste do material A menor que


a mdia de desgaste do material B
Tipo do teste: unilateral
(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 5.20, onde a opo a ser escolhida ser t-test,
dependent samples:

Figura 5.20 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.21:

Figura 5.21 Teste-t para amostras dependentes

(3) Clique no boto [Variables] e selecione as variveis para a anlise (First


variable list - Material_A e Second variable list (optional) - Material_B), conforme
apresentado na Figura 5.22:

92
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.22 Janela de seleo das variveis para a anlise

(4) Clique no boto [OK] e aparecer a janela apresentada na Figura 5.23:

Figura 5.23 Teste-t para amostras dependentes

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.24:

Figura 5.24 Resultado do teste-t para amostras dependentes

Concluso: Da Figura 5.24, t=-3,3489 (p=0,0085/2=0,0043), ou seja,


rejeita-se a hiptese nula e conclui-se que a mdia de desgaste do material A
menor que a mdia de desgaste do material B.

93
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Selecionando o mtodo incorreto


(1) Refazer o teste anterior da mesma forma que no Exemplo 3, escolhendo a
opo para amostras independentes (t-test, independent, by variables). Selecione
as variveis conforme mostrado na Figura 5.25:

Figura 5.25 Teste-t para amostras independentes

(2) Clique no boto [Summary] e o resultado est apresentado na Figura 5.26:

Figura 5.26 Resultado do teste-t para amostras independentes

1) Teste de homogeneidade de varincias


Da Figura 5.26, F=1,0555 (p=0,9372/2=0,4686) significa que no se pode
rejeitar a hiptese nula, ou seja, as varincias podem ser consideradas
homogneas.

2) Teste de igualdade de mdias


Da Figura 5.26, t=-0,3689 (p=0,7165/2=0,3582) significa que no se pode
rejeitar a hiptese nula, ou seja, a mdia de desgaste do material A no menor
que a mdia de desgaste do material B.
Sendo assim, no se rejeita a hiptese nula, s que, ESTA CONCLUSO NO
VERDADEIRA. Por isto, estudamos anteriormente o delineamento da pesquisa.

94
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

A seguir, o grfico mostra como as mdias esto prximas, pois aqui no foi
retirado o efeito de meninos.
(3) Na janela da Figura 5.25, para construir o diagrama de caixas, clique no boto
[Box & whisker plot] e o grfico resultante est apresentado na Figura 5.27:

Figura 5.27 Diagrama de caixas para os dois tipos de materiais

5.1.4. Intervalo de Confiana para a Diferena de Duas Mdias no Caso de


Dados Pareados

(1) Criar uma nova varivel (DifB_A) no arquivo solas.sta, que representa a
diferena entre os valores de desgastes dos dois materiais. Para isso, clique com o
boto da direita em cima da varivel Material_B, selecione a opo [Add variable]
e defina a nova varivel conforme apresentado na Figura 5.28:

Figura 5.28 Janela de especificao da varivel DifB_A

95
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

(2) Clique no boto [OK] e se aparecer a expresso Expression OK. Recalculate


the variable now? clique no boto [SIM]. O arquivo resultante est apresentado
no Quadro 5.5:

Quadro 5.5 Resultados do desgaste de solas de sapatos,


confeccionadas com dois tipos diferentes de materiais
Criana Material_A Material_B DifB_A
1 13,2 14,0 0,8
2 8,2 8,8 0,6
3 10,9 11,2 0,3
4 14,3 14,2 -0,1
5 10,7 11,8 1,1
6 6,6 6,4 -0,2
7 9,5 9,8 0,3
8 10,8 11,3 0,5
9 8,8 9,3 0,5
10 13,3 13,6 0,3
(3) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer
a janela apresentada na Figura 5.29, onde a opo a ser escolhida ser
Descriptive statistics:

Figura 5.29 Estatsticas bsicas e tabelas

(4) Clique no boto [OK], selecione a nova varivel criada (DifB_A) clicando no
boto [Variables] e na aba [Advanced] selecione as opes conforme apresentado
na Figura 5.30:

96
Cap. 5 Testes Estatsticos para Comparao de Duas Mdias

Figura 5.30 Estatsticas descritivas

(5) Clique no boto [Summary] e o resultado est apresentado na Figura 5.31:

Figura 5.31 Resultado do intervalo de confiana para a varivel DifB_A

Interpretao: Da Figura 5.31 estimasse que a verdadeira diferena mdia


do desgaste das solas entre os dois materiais est no intervalo 0,1330 0,6870

97
Cap. 6 Teste para Duas ou Mais Propores

6. TESTE PARA DUAS OU MAIS PROPORES

6.1. O Teste do Qui-Quadrado (CHI-SQUARE)

O exemplo trata de um experimento fatorial 22 (dois fatores com dois nveis


cada) que so: duas pocas de plantio (fora e na primavera) e duas formas de
corte (longo e curto). A resposta a sobrevivncia dos enxertos dada em
contagens.
Exemplo 1: Criar o arquivo ameixeira.sta conforme dados apresentados no
Quadro 6.1.

Quadro 6.1 Dados de sobrevivncia de enxertos de ameixeira


poca Forma Sobrevive Observao Tratamento
fora longo sim 156 fl
fora curto sim 107 fc
na longo sim 84 nl
na curto sim 31 nc
fora longo no 84 fl
fora curto no 133 fc
na longo no 156 nl
na curto no 209 nc
Nesta seo realizaremos cinco anlises:
1) Verificar se existe diferena significativa entre os quatro tratamentos.
Observao: Se for constatado que no existe diferena, encerra-se a anlise
por aqui. Caso exista diferena, prosseguir com a seguinte anlise.
2) Testar se a interao significativa.
Observao: Se a interao for significativa, far-se- o desdobramento da
mesma. Caso contrrio, prosseguir com a seguinte anlise.
3) Testar se existe efeito de poca.
4) Testar se existe efeito de forma.
5) Supor que a interao significativa e testar os efeitos (desdobramentos).
Forma (poca) - forma dentro de poca e poca (Forma) - poca dentro de
forma.

1 teste: Teste do efeito dos quatro tratamentos


Fora/Longo (fl)
Fora/Curto (fc)
Na/Longo (nl)
Na/Curto (nc)

98
Cap. 6 Teste para Duas ou Mais Propores

(1) No menu [STATISTICS], escolha a opo [Basics Statistics/Tables], aparecer


a janela apresentada na Figura 6.1, onde a opo a ser escolhida ser Tables and
banners:

Figura 6.1 Estatsticas bsicas e tabelas

(2) Clique no boto [OK] e aparecer a janela apresentada na Figura 6.2:

Figura 6.2 Janela para especificao da tabela de contingncia

(3) Clique no boto [Specify Tables (select variables)). Como a tabela


tridimensional, implica que devemos escolher trs variveis conforme
apresentado na Figura 6.3:

Figura 6.3 Janela com as variveis selecionadas para a tabela tridimensional

(4) Clicar no boto [W] (weight = peso ou ponderao) existente no canto inferior
direito da janela da Figura 6.2 e defina as opes conforme apresentado na
Figura 6.4;

99
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.4 Janela para definio da ponderao

(5) Clique nos botes [OK] da janela anterior e da Figura 6.2 e aparecer a janela
apresentada na Figura 6.5:

Figura 6.5 Janela para a visualizao do resultado

(6) Clique no boto [Summary] e o resultado est apresentado na Figura 6.6:

Figura 6.6 Tabela de contingncia da sobrevivncia dos enxertos

Observao: Como o STATISTICA no calcula a estatstica qui-quadrado


de uma tabela com trs variveis. Para contornar este problema foi criada a
varivel Tratamento. Sendo assim, agora, vamos especificar uma nova tabela de
contingncia.

100
Cap. 6 Teste para Duas ou Mais Propores

(7) Retorne a janela de especificao das variveis (item 3) e selecione as mesmas,


conforme apresentado na Figura 6.7:

Figura 6.7 Janela com as variveis selecionadas para a tabela bidimensional

(8) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela
que aparecer, clique na aba [Options] e selecione as opes conforme apresentado
na Figura 6.8:

Figura 6.8 Janela para a visualizao do resultado

(9) Clique na aba [Advanced] da janela anterior conforme apresentado na Figura


6.9:

Figura 6.9 Janela para a visualizao do resultado

(10) Clique no boto [Detailed two-way tables] e os resultados esto apresentados


nas figuras 6.10 e 6.11:

101
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.10 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.11 Resultados do teste de qui-quadrado para os tratamentos


As hipteses a serem testadas esto apresentadas a seguir:
H0: a proporo de sobreviventes a mesma para os quatro tratamentos
Ha: a proporo de sobreviventes no a mesma para os quatro
tratamentos
Tipo do teste: bilateral
Interpretao: considerando a estatstica qui-quadrado de Pearson, cujo
valor foi de 141,05 (p<0,0001), rejeita-se a hiptese nula, ou seja, existe diferena
estatisticamente significativa entre as propores de sobreviventes com relao
aos quatro tratamentos.

2 teste: Teste do efeito da Interao


Para testar esse efeito, h necessidade de criar a varivel Interao,
conforme apresentado no Quadro 6.2:

102
Cap. 6 Teste para Duas ou Mais Propores

Quadro 6.2 Critrio para criao da varivel interao


poca Forma Interao
poca*Forma
fora +1 longo +1 +1
fora +1 curto -1 -1
na -1 longo +1 -1
na -1 curto -1 +1
fora +1 longo +1 +1
fora +1 curto -1 -1
na -1 longo +1 -1
na -1 curto -1 +1
(1) Crie a nova varivel (Interacao) no arquivo ameixa.sta, conforme apresentado
na Figura 6.12 e preencha conforme os valores apresentados na terceira coluna
do Quadro 6.2:

Figura 6.12 Janela de criao da varivel Interacao

(2) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme


apresentado na Figura 6.13:

Figura 6.13 Janela com as variveis selecionadas para a tabela bidimensional

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela
que aparecer, clique na aba [Options] e selecione as opes conforme apresentado
na Figura 6.14:

103
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.14 Janela para a visualizao do resultado

Observao: A tabela resultante ser 2x2 e neste caso recomenda-se utilizar


a correo de continuidade de Yates.
(4) Clique na aba [Advanced] da janela anterior, no boto [Detailed two-way
tables] e os resultados esto apresentados nas figuras 6.15 e 6.16:

Figura 6.15 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.16 Resultados do teste de qui-quadrado para a Interao

104
Cap. 6 Teste para Duas ou Mais Propores

As hipteses a serem testadas esto apresentadas a seguir:


H0: o efeito interao no significativo
Ha: o efeito interao significativo
Tipo do teste: bilateral
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 0,0393 (p=0,8429), no rejeita a hiptese nula, ou seja, o
efeito interao no significativo.

Anlise Grfica
A seguir, ser construdo um grfico que permite verificar que no existe
interao entre poca e forma.
(1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme
apresentado na Figura 6.17:

Figura 6.17 Janela com as variveis selecionadas para a tabela bidimensional

(2) Clicar no boto [Select cases] existente no canto inferior direito da janela da
Figura 6.2 e defina as opes conforme apresentado na Figura 6.18:

Figura 6.18 Janela para especificao da condio selecionada

105
Cap. 6 Teste para Duas ou Mais Propores

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2. Na janela que
aparecer, clique na aba [Advanced] e no boto [Interaction plots of frequencies] e
o grfico resultante est apresentado na Figura 6.19:

Interaction Plot: Epoca x Forma


180

160

140

120
Frequencies

100

80

60

40

20
Epoca
fora
0
longo curto Epoca
na
Forma

Figura 6.19 Grfico da interao forma de corte e poca de plantio para sobreviventes.

Interpretao: dado que as linhas do grfico no se cruzam, conclui-se que


no h interao entre os tratamentos.

3 teste: Teste do efeito poca


(1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme
apresentado na Figura 6.20:

Figura 6.20 Janela com as variveis selecionadas para a tabela bidimensional

(2) Clique no boto [Select Case] e desative a condio de seleo, conforme


apresentado na Figura 6.21:

106
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.21 Janela para desabilitar a seleo

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela
que aparecer, clique na aba [Options] e selecione as opes conforme apresentado
na Figura 6.22:

Figura 6.22 Janela para a visualizao do resultado

(4) Clique na aba [Advanced] da janela anterior, no boto [Detailed two-way


tables] e os resultados esto apresentados nas figuras 6.23 e 6.24:

107
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.23 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.24 Resultados do teste de qui-quadrado para efeito poca


As hipteses a serem testadas esto apresentadas a seguir:
H0: a proporo de sobreviventes na e fora da primavera a mesma.
Ha: a proporo de sobreviventes na e fora da primavera diferente.
Tipo do teste: bilateral
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 94,2955 (p<0,0001), rejeita-se a hiptese nula, ou seja, a
melhor poca de plantio fora da primavera (54,79% de sobreviventes), conforme
pode ser visto na Figura 6.23.

4 teste: Teste do efeito Forma


(1) Repetir o procedimento do teste para o efeito poca (3 teste), selecionando as
variveis, conforme apresentado na Figura 6.25:

108
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.25 Janela com as variveis selecionadas para a tabela bidimensional

(2) Os resultados esto apresentados nas figuras 6.26 e 6.27:

Figura 6.26 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.27 Resultados do teste de qui-quadrado para efeito Forma


As hipteses a serem testadas esto apresentadas a seguir:
H0: a proporo de sobreviventes entre cortes longos e curtos a mesma.

109
Cap. 6 Teste para Duas ou Mais Propores

Ha: a proporo de sobreviventes entre cortes longos e curtos diferente.


Tipo do teste: bilateral
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 44,5143 (p<0,0001), rejeita-se a hiptese nula, ou seja, a
melhor forma de corte o longo (50,00% de sobreviventes), conforme pode ser
visto na Figura 6.26.

5 teste: Estudo da interao poca*Forma (Desdobramentos)


Existem dois casos:
A. poca (Forma) - poca dentro de Forma:
poca (Forma = longo)
poca (Forma = curto)
(1) Repita os trs primeiros itens do 1 teste, selecionando as variveis, conforme
apresentado na Figura 6.28:

Figura 6.28 Janela com as variveis selecionadas para a tabela bidimensional

(2) Clicar no boto [Select cases] existente no canto inferior direito da janela da
Figura 6.2 e defina as opes conforme apresentado na Figura 6.29, o filtro
construdo para estudar a forma longo:

110
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.29 Janela para especificao da condio selecionada

(3) Clique nos botes [OK] da janela anterior e da Figura 6.2, sendo que na janela
que aparecer, clique na aba [Options] e selecione as opes Fisher exact, Yates,
McNemar (2 x 2 Tables) e Percentages of column count, conforme apresentado na
Figura 6.22.
(4) Clique na aba [Advanced] da janela da Figura 6.22, no boto [Detailed two-
way tables] e os resultados esto apresentados nas figuras 6.30 e 6.31:

Figura 6.30 Tabela de contingncia da sobrevivncia dos enxertos

111
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.31 Resultados do teste de qui-quadrado para o efeito da interao


da poca dentro da forma longo
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 42,0083 (p<0,0001), a melhor poca de plantio, dentro da
forma longo, fora da primavera (65,00% dos sobreviventes), conforme pode ser
visto na Figura 6.30.
(5) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar
a forma curto, conforme apresentado na Figura 6.32. Os resultados esto
apresentados nas figuras 6.33 e 6.34:

Figura 6.32 Janela para especificao da condio selecionada

112
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.33 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.34 Resultados do teste de qui-quadrado para o efeito da interao


da poca dentro da forma curto
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 50,2081 (p<0,0001), a melhor poca de plantio, dentro da
forma curto, fora da primavera (77,54% dos sobreviventes), conforme pode ser
visto na Figura 6.33.
Observao: note que independente da forma, a melhor poca de plantio
fora da primavera, confirmando a no existncia do efeito interao.
B. Forma (poca) - Forma dentro de poca:
Forma (poca = na)
Forma (poca = fora)
(6) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar
a poca na primavera, conforme apresentado na Figura 6.35. Os resultados esto
apresentados nas figuras 6.36 e 6.37:

113
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.35 Janela para especificao da condio selecionada

Figura 6.36 Tabela de contingncia da sobrevivncia dos enxertos

114
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.37 Resultados do teste de qui-quadrado para o efeito da interao


da forma dentro da poca na primavera
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 30,9213 (p<0,0001), a melhor forma de plantio, dentro da
poca na primavera, o longo (17,50% de sobreviventes), conforme pode ser visto
na Figura 6.36.
(7) Repetir os quatro primeiros itens, sendo que o filtro construdo para estudar
a poca fora da primavera, conforme apresentado na Figura 6.38. Os resultados
esto apresentados nas figuras 6.36 e 6.37:

Figura 6.38 Janela para especificao da condio selecionada

115
Cap. 6 Teste para Duas ou Mais Propores

Figura 6.39 Tabela de contingncia da sobrevivncia dos enxertos

Figura 6.40 Resultados do teste de qui-quadrado para o efeito da interao


da forma dentro da poca fora da primavera
Interpretao: considerando a estatstica qui-quadrado com correo de
Yates, cujo valor foi de 19,3780 (p<0,0001), a melhor forma de plantio, dentro da
poca fora da primavera, o longo (32,50% de sobreviventes), conforme pode ser
visto na Figura 6.36.
Observao: note que independente da poca, a melhor forma de corte o
longo, confirmando a no existncia do efeito interao.

116
Cap. 7 Anlise de Varincia

7. ANLISE DE VARINCIA

Deseja-se verificar se existem diferenas entre as respostas mdias de


tratamentos; o procedimento utilizado para inferir se tais diferenas realmente
existem chamado de Anlise de Varincia (ANOVA).

Idia - Decomposio da Variao (Varincias) em:


Variao atribuda s diferenas entre as unidades experimentais (QMR -
quadrado mdio do resduo)
Variao atribuda s diferenas entre as unidades experimentais e
atribuda s diferenas causadas pelos tratamentos (diferenas entre as
mdias) (QMTrat - quadrado mdio dos tratamentos)

O teste baseia-se em duas hipteses:


H0: as mdias dos tratamentos so todas iguais
Ha: as mdias dos tratamentos no so todas iguais
A primeira hiptese H0, tambm chamada de hiptese de nulidade, admite
que no existem diferenas significativas entre as mdias. J a segunda
hiptese, Ha, tambm chamada de hiptese alternativa, considera que existe
diferena significativa entre as mdias e, portanto, elas no so todas iguais.

O Teste F:

QMTrat
F (7.1)
QMR

H0 no rejeitada, o valor de F pequeno


H0 rejeitada, o valor de F grande
Portanto, podemos fazer inferncia sobre as mdias de tratamentos (se elas
diferem), usando esta razo de estimadores de varincia. Vamos usar esta razo
como Teste Estatstico para verificar H0 versus Ha.

Resultado Estatstico:
Se H0 no rejeitada, a estatstica F tem distribuio F (t-1), t (r-1) como sua
distribuio amostral.

F ~ F (t -1), t (r -1) (7.2)

onde:
t: nmero de tratamentos
r: nmero de repeties

117
Cap. 7 Anlise de Varincia

Vamos usar este resultado para testar hipteses sobre diferenas entre
mdias de tratamentos. Realizaremos a Anlise de Varincia para podermos
concluir, com um certo nvel de confiana, que os nossos tratamentos
(resultados) so ou no so significativamente diferentes entre si.

7.1. Delineamento Inteiramente Casualizado

Modelo:

Yij i ij (7.3)

onde:
i = 1,2,...,t
j = 1,2,...,r
: mdia geral sem tratamento
i: mudana na mdia (com relao ) associada com o tratamento i

ij: erro associado ao tratamento i da j-sima repetio


t: nmero de tratamentos
ri: nmero de repeties no tratamento i
Mdia dos Tratamentos:

i i (7.4)

onde:
i: mdia da populao que descreve a resposta das unidades experimentais que
receberam o tratamento i

7.2. Exemplo

O exemplo que usaremos foi extrado de Sokal and Rohlf, 1981, Biometry,
p.219-221, e, trata de um estudo de crescimento em cultura de tecido com a
presena de auxinas (arquivo oneway.sta).

Objetivo: testar o efeito da adio de diversos acares no crescimento.

Varivel Resposta: comprimento de sees de sementes (x 0,1114 mm).

Tratamentos: Plantas foram aleatoriamente designadas aos cinco


tratamentos:
1. controle (sem adio de acar)

118
Cap. 7 Anlise de Varincia

2. 2% glicose
3. 2% de frutose
4. 1% de glicose + 1% de frutose
5. 2% de sacarose

Unidades Experimentais: plantas individuais para os quais os tratamentos


foram aplicados.

Unidade de Amostragem: plantas.

Repeties: foram feitas dez repeties.

Na tabela abaixo esto os dados coletados no experimento.

Tabela 7.1 Dados coletados no experimento


Tratamento Tamanho
1 75 67 70 75 65 71 67 67 76 68
2 57 58 60 59 62 60 60 57 59 61
3 58 61 56 58 57 56 61 60 57 58
4 58 59 58 61 57 56 58 57 57 59
5 62 66 65 63 64 62 65 65 62 67

Para realizar a anlise, os dados devem ser construdos sempre da forma


matricial, conforme apresentado no quadro abaixo.

Quadro 7.1 Matriz de dados


Acar Repetio Tamanho
1 1 75
1 2 67
1 3 70
1 4 75
1 5 65
1 6 71
1 7 67
1 8 67
1 9 76
1 10 68
2 1 57
2 2 58
2 3 60
2 4 59
2 5 62
2 6 60
2 7 60
2 8 57
2 9 59
2 10 61
3 1 58
3 2 61
3 3 56

119
Cap. 7 Anlise de Varincia

3 4 58
3 5 57
3 6 56
3 7 61
3 8 60
3 9 57
3 10 58
4 1 58
4 2 59
4 3 58
4 4 61
4 5 57
4 6 56
4 7 58
4 8 57
4 9 57
4 10 59
5 1 62
5 2 66
5 3 65
5 4 63
5 5 64
5 6 62
5 7 65
5 8 65
5 9 62
5 10 67

7.3. Anlise Estatstica

Antes de iniciarmos a ANOVA, iremos construir o diagrama de disperso e o


diagrama de caixas. Ressalta-se que todos os grficos apresentados neste
captulo foram alterados e padronizados conforme as opes grficas exploradas
no Captulo 4.
Diagrama de Disperso
Para construir o grfico do diagrama de disperso, primeiramente abra o
arquivo oneway.sta e siga os passos definidos abaixo:
(1) No menu [Graphs], escolha [2D Graphs] [Scatterplots]
(2) Selecione as variveis: X = ACUCAR
Y = TAMANHO
(3) Defina as opes: Graph type: Regular
Linear Fit: OFF
Regression bands: OFF
(4) Clique no boto [OK]
(5) O diagrama de disperso est apresentado na figura 7.1:

120
Cap. 7 Anlise de Varincia

Figura 7.1 Diagrama de disperso do crescimento nos cinco tratamentos

Diagrama de Caixas
Para construir o grfico do diagrama de caixas siga os passos definidos
abaixo:
(1) No menu [Graphs], escolha [2D Graphs] [Box Plots]
(2) Selecione as variveis: Dependent Variable = ACUCAR
Grouping Variable = TAMANHO
(3) Defina as opes: Graph type: Box-Whiskers, Regular
Grouping intervals: Integer mode
(4) Clique no boto [OK]
(5) O diagrama de caixas est apresentado na Figura 7.2:

Figura 7.2 Diagrama de caixas do crescimento nos cinco tratamentos

121
Cap. 7 Anlise de Varincia

Observao: note que independente da poca, a melhor forma de corte o


longo, confirmando a no existncia do efeito interao.

7.3.1. Anlise de Varincia

Para realizar a anlise de varincia, siga os passos abaixo:


(1) Abra o mdulo ANOVA, acesse o menu [STATISTICS], opo [ANOVA] e
aparecer a janela apresentada na Figura 7.3:

Figura 7.3 Tela inicial da ANOVA

(2) Escolha: Type of analysis: One-way ANOVA


Specification method: Quick specs dialog
(3) Aparecer a janela apresentada na Figura 7.4:

Figura 7.4 Escolha das opes da ANOVA

(4) Clique no boto [Variables] e escolha as seguintes opes:


Dependent Variables: TAMANHO
Categorical factor: ACUCAR
(5) O resultado das escolhas est apresentado na Figura 7.5:

122
Cap. 7 Anlise de Varincia

Figura 7.5 Resultado das escolhas

(6) Clique na aba [Options], conforme a Figura 7.6, e escolha a opo:


Sums of squares: Type I (sequential)

Figura 7.6 Escolha do tipo de soma de quadrados

(7) Clique no boto [OK] e aparecer a janela apresentada na Figura 7.7:

Figura 7.7 Resultados da ANOVA

(8) Clique em [All effects] e o resultado est apresentado na Figura 7.8:

123
Cap. 7 Anlise de Varincia

Figura 7.8 Resultados da Anlise de Varincia do experimento

Concluso: Existe diferena significativa entre as mdias dos tratamentos ao


nvel de significncia de p < 0,0001.

7.3.2. Comparaes Mltiplas de Mdias

No item 7.1.1., testamos as mdias dos cinco tratamentos e conclumos que


existe diferena entre as mesmas. Porm, no sabemos ainda se a mdia do
tratamento 1 igual ou diferente de 2, de 3, de 4 ou de 5, ou seja, existe
diferena, mas no podemos dizer entre quais mdias. O seguinte teste
necessrio quando existe diferena, pois completa a anlise, comparando e
mostrando ento, o resultado de todas as combinaes de pares de mdias.
Para realizar as comparaes mltiplas de mdias, siga os passos abaixo:
(1) Na janela da Figura 7.8, clique no boto [More Results], aparecer a janela da
Figura 7.9:

Figura 7.9 Todos os resultados da ANOVA

(2) Clique na aba [Post-hoc], conforme apresentado na Figura 7.10:

124
Cap. 7 Anlise de Varincia

Figura 7.10 Testes para comparaes mltiplas de mdias

(3) Clique no boto [Tukey HSD] e o resultado aparecer conforme apresentado


na Figura 7.11:

Figura 7.11 Valores p para todos os pares de mdias

(4) Na Figura 7.10, na regio Display, selecione a opo Homogeneous groups,


clique no boto [Tukey HSD] e o resultado aparecer conforme apresentado na
Figura 7.12:

125
Cap. 7 Anlise de Varincia

Figura 7.12 Grupos homogneos do teste de Tukey

Concluso: A partir da Figura 7.12, construi-se a Tabela 7.2:

Tabela 7.2 Resultados do teste de Tukey


Grupo Tukey Tratamentos Mdias
a 1 70,1
b 5 64,1
c 2 59,3
c 3 58,2
c 4 58,0

Observe na Tabela 7.1, que o tratamento 1 (a) superior e diferente


significativamente dos demais. Os tratamentos 2, 3 e 4 (c), so considerados
iguais entre si, ou seja, as mdias no diferem significativamente entre elas.
Estes tratamentos so os de mdias inferiores. O tratamento 5 (b) difere dos
demais e o segundo melhor tratamento, ou seja, a segunda melhor mdia,
inferior ao 1 e superior ao 2, 3 e 4.

7.3.3. Contrastes Ortogonais

Consiste de uma combinao linear onde a soma dos coeficientes nula.


Os contrastes de interesse nesse estudo so para verificar se:
(A) o tratamento controle 1 difere significativamente dos demais
tratamentos;
(B) verificar se o tratamento 5 difere dos tratamentos 2, 3 e 4; e
(C) verificar se o tratamento 5 difere do tratamento 1.
Os respectivos coeficientes para verificar os contrastes esto apresentados
na Tabela 7.3.

126
Cap. 7 Anlise de Varincia

Tabela 7.3 Coeficientes dos contrastes


Tratamentos
Contrastes
1 2 3 4 5
A 4 -1 -1 -1 -1
B 0 1 1 1 -3
C 1 0 0 0 -1

Para realizar os contrastes de interesse, siga os passos abaixo:


(1) Clique na aba [Planned comps], conforme apresentado na Figura 7.13:

Figura 7.13 Testes de Contrastes

(2) Clique no boto [Specify contrasts for LS means], e defina os coeficientes do


contraste conforme apresentado na Figura 7.14:

Figura 7.14 Definio dos coeficientes dos contrastes

(3) Digite os coeficientes do contraste como mostra a Figura 7.14, clicando duas
vezes com o boto esquerdo do mouse nos espaos da coluna 1.
(4) Clique no boto [OK]
(5) Note que o vetor ACUCAR mudou para (4 1 1 1 1), conforme apresentado
na Figura 7.15:

127
Cap. 7 Anlise de Varincia

Figura 7.15 Definio dos coeficientes do contraste A

(6) Clique no boto [Compute] da Figura 7.15


(7) O resultado do teste do contraste A est apresentado na Figura 7.16:

Figura 7.16 Teste F do contraste A

Repetir os passos (2) a (6) para os outros dois contrastes, sendo que os resultados
esto apresentados nas Figuras 7.17 e 7.18:

128
Cap. 7 Anlise de Varincia

Figura 7.17 Teste F do contraste B

Figura 7.18 Teste F do contraste C

7.3.4. Diagnstico do Modelo

7.3.4.1. Ajuste do Modelo

A no significncia do modelo geral est relacionada com a violao de


algum pressuposto. importante verificar as suposies de normalidade,
independncia e homogeneidade de varincias (homocedasticidade). O ajuste do
modelo verificado pelo teste F da Anlise de Varincia, obtido, selecionando-se a
opo [All effects].
No Delineamento Inteiramente Casualizado, o teste F coincide com o efeito
principal.

7.3.4.2. Normalidade dos Resduos

(1) Clique na aba [Assumptions], conforme apresentado na figura 7.19;

129
Cap. 7 Anlise de Varincia

Figura 7.19 Normalidade dos resduos

(2) Na opo Distribution of within-cell residuals, clique no boto [Normal p-p]


(3) O grfico normal de probabilidades dos resduos est apresentado na Figura
7.20:

Figura 7.20 Grfico Normal de Probabilidades dos Resduos

Concluso: Os valores aproximam-se da reta normal e, portanto, a


suposio de normalidade dos dados atendida.

7.3.4.3. Independncia dos Resduos

Correlaes positivas entre os erros de diferentes unidades experimentais de


um mesmo tratamento podem surgir se o pesquisador no tiver cuidado ao
conduzir um experimento. A independncia pode ser assegurada por um dos
princpios bsicos da experimentao, que a casualizao.

130
Cap. 7 Anlise de Varincia

De acordo com as condies do experimento em estudo, assume-se que os


resultados so independentes.

7.3.4.4. Homogeneidade das Varincias por Tratamento

(1) Conforme Figura 7.19, na opo Homogeneity of variances/covariances, clique


no boto [Cochran C, Hartley, Bartellet]
(2) O resultado do teste est apresentado na Figura 7.21:

Figura 7.21 Resultado do teste de homogeneidade de varincias

Interpretao do teste de Cochran:

Ho : 12 2
2 ... 2
k

H a : i2 2
j para i j

Rejeitamos a hiptese nula ao nvel de significncia de 0,0075 ou 0,75%.


Portanto, a suposio de homogeneidade de varincias no vlida.
Uma outra forma, atravs da qual podemos "visualizar" a heterogeneidade de
varincias, fazer um grfico das mdias versus as varincias, conforme
procedimento abaixo:
(3) Conforme Figura 7.19, clique no boto [Variances]
(4) O grfico resultante est apresentado na Figura 7.22:

131
Cap. 7 Anlise de Varincia

Figura 7.22 Grfico das mdias versus as varincias dos cinco tratamentos

Concluso: O tratamento controle 1 apresenta mdia elevada e varincia


elevada, ou seja, apresentam-se relacionadas. Isto implica em
heterocedasticidade (heterogeneidade de varincia).

Observao: Se os dados no se afastam muito da reta (grfico normal de


probabilidades) podemos usar qualquer teste de homogeneidade de varincia. Se
existir falta de normalidade devemos usar o teste de Levene.
(5) Conforme Figura 7.19, na opo Distribution of variables within groups, clique
no boto [Normal p-p]
(6) Escolhas os grupos conforme apresentado na Figura 7.23:

Figura 7.23 Escolha dos grupos

(7) Os grficos normais de probabilidades dos resduos para cada tratamento


esto apresentados na Figura 7.24:

132
Cap. 7 Anlise de Varincia

Figura 7.24 Grficos normais de probabilidades dos resduos para cada tratamento

Concluso: as cinco amostras so oriundas de distribuio


aproximadamente normal.

133