Você está na página 1de 50

UTFPR - Universidade Tecnolgica Federal do Paran

Desvendando a Estatstica
com o R Commander

Prof. MSc. Jonas Joacir Radtke


Sumrio

1 Introduo p. 3

1.1 Instalao do R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3

1.2 Dados no R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

1.2.1 Importao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

1.2.2 Transformao de Dados . . . . . . . . . . . . . . . . . . . . . . . . p. 8

1.2.3 Converso de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10

2 Estatstica Descritiva p. 13

2.1 Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14

2.2 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16

3 Testes de Hipteses de Uma Amostra p. 20

3.1 Teste de Shapiro-Wilk para Normalidade da Populao . . . . . . . . . . . . p. 21

4 Testes de Hipteses de Duas Amostras p. 25

4.1 Teste t para Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

4.2 Teste t para Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . p. 29

5 Testes de Hipteses de Mais de Duas Amostras p. 34

5.1 Anlise de Varincia para Um Fator (ANOVA) . . . . . . . . . . . . . . . . . p. 34

5.1.1 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

5.1.2 Teste de Levene para Homogeneidade da Varincia . . . . . . . . . . p. 41

Referncias Bibliogrficas p. 43
Anexo A -- Tabela da distribuio Normal p. 44

Anexo B -- Tabela da distribuio t de Student p. 45

Anexo C -- Tabela da distribuio F de Fisher p. 46

Anexo D -- Tabela da Distribuio de Intervalos de Student p. 47

Anexo E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk p. 48

Anexo F -- Tabela dos Valores Crticos do Teste de Shapiro-Wilk p. 49


3

1 Introduo

O presente material pretende apresentar de forma bastante sucinta as ideias relacionadas


as diversas ferramentas estatsticas abordadas. O foco principal deste texto ajudar o leitor a
resolver problemas estatsticos utilizando o software R com a interface grfica R Commander.

O R um programa estatstico muito utilizado no meio acadmico e comercial. Dentre as


vantagens de utilizao deste programa est o fato de ser gratuito e muito robusto. A criao de
uma interface grfica para o R, denominada R Commander, ampliou muito o nmero de adeptos
a este programa. Tal interface permite a explorao de todo o potencial do R de forma simples
e amigvel.

Convm resaltar que a utilizao direta de softwares amigveis, sem o prvio conhecimento
dos fundamentos da metodologia, pode constituir um grande risco e levar o usurio a
interpretaes perigosamente equivocadas (RODRIGUES; IEMMA, 2005).

1.1 Instalao do R Commander

O primeiro passo para a utilizao do R Commander a instalao do programa R. O


download deste programa pode ser feito no seguinte site:

http://cran.r-project.org/

Aps o download e a instalao do programa R, o prximo passo a instalao dos pacotes


bsicos para o funcionamento da interface grfica. Para tanto, abra o programa R e siga os
seguintes passos: [Pacotes] [Instalar pacote(s)] (Fig. 1.1). Na sequncia, escolha um
espelho para o download e em seguida o pacote Rcmdr.
1.1 Instalao do R Commander 4

Figura 1.1: Instalao de pacotes no R.

Para inicializar o R Commander digite o seguinte comando no terminal do R:

> require(Rcmdr)

Na primeira vez que o R Commander for inicializado ser solicitada a instalao de vrios
pacotes necessrios para o seu correto funcionamento. Aceite a solicitao, escolha o espelho
para download dos pacotes e aguarde a finalizao da instalao e a abertura do R Commander
(Fig. 1.2).

Figura 1.2: Viso geral do R Commander.


1.2 Dados no R Commander 5

1.2 Dados no R Commander

Os dados utilizados pelo R Commander podem ser digitados diretamente nele, seguindo
os seguintes passos: [Dados] [Novo conjunto de dados...], e em seguinda escolhendo um
nome para o conjunto de dados. Contudo, na prtica, os resultados so digitados em planilhas
eletrnicas para posteriormente serem importados para os programas estatsticos.

1.2.1 Importao de Dados

A forma mais comum de obter os dados para o R Commander atravs de arquivos


oriundos de planilhas eletrnicas dos programas Microsoft Excel ou OpenOffice Calc. Ambos
os programas possuem uma opo de salvar as planilhas como arquivos de texto puro (com
extenso CSV, do ingls, Comma Separated Values).

Importao de Arquivos do Excel

O R Commander possui uma opo de importao dos dados de planilhas do Excel e de


arquivos CSV. A importao de arquivos de dados do Excel pode ser executada atravs dos
seguintes passos: [Dados] [Importar arquivos de dados] [de conjunto de dados do
Excel, Access, dBase...] (Fig. 1.3).

Figura 1.3: Importao de dados de arquivos do Excel.

Uma janela ser aberta para que seja informado o nome do conjunto de dados. Na
sequncia, outra janela ser aberta para que seja selecionado o arquivo do Excel. Aps escolher
o arquivo de origem dos dados ser solicitada a planilha do arquivo que deve ser importada,
caso o arquivo possua mais de uma planilha.
1.2 Dados no R Commander 6

Importao de Arquivos CSV

Todas as planilhas de arquivos do Excel e do Calc podem ser salvas com extenso CSV. Para
fazer isto, abra o arquivo no programa Excel ou Calc e execute os seguintes passos: [Arquivo]
[Salvar como...]. Na janela que abrir informe o nome do arquivo e, logo abaixo, escolha a
opo CSV (separado por vrgulas) no Excel ou Texto CSV (.csv) no Calc.

Apesar do Excel informar que o os campos sero separados por vrgula, eles sero separador
por ponto e vrgula. No Calc uma janela ser aberta para escolher o delimitador de campo, que
deve ser alterado para ponto e vrgula (Fig. 1.4), porque, no Brasil, a vrgula utilizada como
separador de decimais.

Figura 1.4: Escolha do delimitador de campo para arquivos CSV no Calc.

A importao de dados de arquivos com extenso CSV realizada de forma similar a de


arquivos do Excel. Observando que os arquivos com extenso CSV so arquivos de texto
puro, cujos campos so separados por ponto e vrgula (;), siga os seguintes passos: [Dados]
[Importar arquivos de dados] [de arquivos texto, clipboard ou URL...] (Fig. 1.5).

Figura 1.5: Importao de dados de arquivos com extenso CSV.

Na janela que abrir escolha um nome para o conjunto de dados, altere o separador de
campos para Outro - Defina: [;] e o separador de decimais para Vrgula [,] (Fig. 1.6).
Logo aps, ser aberta uma janela para informar o nome do arquivo com formato CSV que
deseja importar.
1.2 Dados no R Commander 7

Figura 1.6: Definio de parmetros para importao de dados de arquivos com extenso CSV.

Cuidados na Elaborao e Importao de Planilhas de Dados

Cuidados ao digitar os dados nas planilhas:

O nome das variveis de uma determinada coluna deve estar na primeira linha;

No devem ser utilizados caractres especiais (, ascentos, entre outros) nos dados
informados na planilha;

A planilha deve conter apenas o nome da varivel e os dados do experimento.

A utilizao de clulas mescladas no permitida.

Dicas:

Evite a utilizao de nomes compostos e/ou muito compridos;

Exclua todas as linhas e colunas da planilha que j haviam sido utilizadas e que no
pertenam ao conjunto de dados do experimento;

Visualize os dados no R Commander clicando em Ver conjunto de dados para


certificar-se que que foram carregados de forma correta.
1.2 Dados no R Commander 8

1.2.2 Transformao de Dados

Em algumas situaes necessrio realizar a transformao dos dados amostrais, com


o objetivo de atingir determinadas exigncias de certos testes estatsticos (pressupostos). A
transformao obtida geralmente melhora a aproximao dos dados distribuio normal.

A normalidade dos dados uma exigncia comum para a aplicao de testes de hiptese.
Se a suposio de normalidade dos dados no aceitvel, podemos adotar a estratgia de
transformao da varivel. Transformaes so nada mais do que uma forma de reescrever
os dados numa unidade diferente.

Em muitas situaes prticas a escolha da transformao para melhorar a aproximao


distribuio normal no bvia. Segue abaixo algumas transformaes comumente utilizadas:


Contagens: x - Contribui para tornar as varincias muito menores e desta forma mais
facilmente obter homocedasticidade (varincias iguais).

 
1 x
Propores: log ou arcsen ( x) - Contribuem para alterar a forma da
2 1x
distribuio dos dados.
 
1 1+x
Correlaes: Fisher: z(x) = log
2 1x
Concentraes: log(x) ou ln(x) - Contribui para tornar as varincias muito menores e
desta forma mais facilmente obter homocedasticidade.

Para ilustrar como realizada a transformao de dados no R Commander tomamos como


exemplo os valores apresentados na tabela abaixo.

Tabela 1.1: Dados amostrais referentes ao nmero dirio de peas defeituosas em uma linha de
produo.
4 5 4 3 2 9 5 4 2 4

O primeiro passo a digitao destes valores em um nica coluna no R Commander,


conforme apresentado na seo anterior (1a coluna da Fig. 1.7).
1.2 Dados no R Commander 9

Figura 1.7: Planilha do R Commander com os dados originais (cont) e transformados


(raiz_cont).

Para criar uma nova varivel com os dados transformados deve-se seguir os seguintes
passos: [Dados] [Modificao de variveis no conjunto de dados...] [Computar nova
varivel...] (Fig. 1.8).

Figura 1.8: Opo no R Commander para criar uma varivel transformada.

Uma janela ser aberta para informar o nome da nova varivel e a expresso matemtica
para calcular os valores desta varivel (raiz = sqrt, arcsen = asin, log10 = log10 e ln = log).
1.2 Dados no R Commander 10

Figura 1.9: Configurao do nome da nova varivel e da expresso para realizar a


transformao.

Os resultados da nova varivel, chamada raiz_cont, so apresentados na segunda coluna da


figura 1.7. Como podemos observar pelos histogramas apresentados na figura abaixo, a varivel
transformada se ajusta mais a forma de um sino (distribuio normal) do que a varivel original.
Esta concluso pode ser estatsticamente comprovada por um teste de hipteses (seo 3.1).

Figura 1.10: Histogramas da varivel original (cont) e da varivel transformada (raiz_cont).

1.2.3 Converso de Dados

Muitas vezes necessita-se converter dados amostrais em formato numrico para um fator,
ou vice-versa. O R Commander possui uma opo para fazer isto de forma automtica. Para
exemplificar o uso desta opo considere o seguinte exemplo:

Exemplo: A tabela abaixo possui a nota de estatstica de uma amostra de 8 alunos.


Deseja-se saber qual o conceito de cada aluno. Alunos com nota maior ou igual a 9 devem
ter conceito A, entre 7,5 e 8,9 conceito B, entre 6 e 7,4 conceito C e conceito D para notas
menores que 6.
1.2 Dados no R Commander 11

Tabela 1.2: Notas de estatstica de uma amostra de 8 alunos.


8,3 7,4 6,2 9,1 2,8 4,7 7,1 7,7

O primeiro passo informar ou importar estes valores para o R Commander (1a coluna da
Fig. 1.11).

Figura 1.11: Notas e conceitos de estatstica na amostra de alunos no R Commander.

Para converter cada nota em um conceito (fator), siga os seguintes passos: [Dados]
[Modificao de variveis no conjunto de dados...] [Recodificar varivel...] (Fig. 1.12).

Figura 1.12: Opo no R Commander para converso de dados.

Uma janela ser aberta para informar o nome da nova varivel e as definies para
recodificao (Fig. 1.13). O comando : utilizado para indicar sequncia, ou seja, a primeira
linha da definio abaixo diz que o conceito D corresponde as notas entre 0 e 5,9. O resultado
da converso apresentada na segunda coluna da figura 1.11. A converso de fatores para dados
numricos segue a mesma metodologia.
1.2 Dados no R Commander 12

Figura 1.13: Configurao no R Commander do nome da nova varivel e das definies para
recodificao.
13

2 Estatstica Descritiva

A estatstica descritiva um ramo da estatstica que aplica vrias tcnicas para descrever e
sumarizar um conjunto de dados. O tratamento dos dados na estatstica descritiva tem como
objetivo organiz-los e resumi-los, a fim de facilitar a interepretao de uma determinada
varivel atravs de uma amostra.

Para compreender as diversas ferramentas da estatstica descritiva considere o seguinte


exemplo.

Exemplo: Na tabela abaixo so apresentadas 48 medidas em milmetros do comprimento


de uma pea, por sinal, uma das caractersticas essenciais da pea.

Tabela 2.1: Medidas em milmetros do comprimento de uma amostra de 48 peas.


101,22 99,06 97,57 100,81 100,92 99,92 100,41 99,14
100,00 99,79 99,57 100,24 98,87 101,16 100,01 99,07
100,27 100,41 99,96 99,85 101,47 99,98 102,14 98,47
101,78 101,17 101,73 100,17 100,82 98,98 99,18 100,98
100,42 99,25 100,81 98,13 101,55 100,35 100,63 98,94

Uma tabela de nmeros no nada interessante para um engenheiro que deseja analisar
a qualidade das peas produzidas. A questo que a estatstica descritiva deseja responder
de como este conjunto de informaes pode ser apresentado de forma resumida e de fcil
interpretao.

A forma correta de informar o conjunto de dados da tabela 2 no R Commander atravs de


uma tabela com apenas uma nica coluna, pois todos os dados so referentes a mesma amostra.
2.1 Grficos 14

2.1 Grficos

Sem a menor dvida, a melhor maneira de analisar uma srie de dados graficamente.
A tentativa de ver padres e tendncias em uma relao de dados escritos em uma tabela
certamente resultar em fracasso, especialmente quando o nmero de dados grande.

Para criar um grfico (histograma) dos resultados apresentados na tabela 2, o primeiro passo
determinar em quantas classes (k) os valores sero divididos. Este valor comumente dado
pela raiz quadrada do tamanho da amostra (n), ou seja,

k= n = 40 6,3245 (2.1)

Assim, para este exemplo, podemos utilizar 6 ou 7 classes no histograma. Optaremos por 6
classes. O prximo passo calcular a amplitude total (AT ) da amostra, que dada pela diferena
entre o maior e o menor valor observado (xi ), ou seja,

AT = max xi min xi = 102,14 97,57 = 4,57 (2.2)


1in 1in

Para definir o intervalo referente a cada classe calcula-se a amplitude de classe (AC ), dada
por:
AT 4,57
AC = = = 0,7617 (2.3)
k 6

O incio da primeira classe pode ser arredondado para baixo para utilizar um valor que
facilite a interpretao do grfico. A amplitude de classe tambm pode ser arredondada, para
cima ou para baixo, com o mesmo objetivo. Tais arredondamentos podem variar um pouco o
nmero de classes pr-definido sem perda da qualidade do resultado.

A determinao do intervalo correspondente a cada classe realizada tomando-se como


base o menor valor da amostra (ou o valor arredondado) e somando-se sucessivamente a
amplitude de classe. A cada soma definido um intervalo correspondente a uma das classes.
Arredondando a amplitude de classe para 1 mm e iniciando a primeira classe em 97 mm, obtemos
da tabela 2 os seguintes resultados:
2.1 Grficos 15

Tabela 2.2: Tabela de frequncias do comprimento de uma amostra de 48 peas.


Classe Ponto mdio Frequncia Frequncia relativa
97 98 97,5 1 2,5%
98 99 98,5 5 12,5%
99 100 99,5 12 30,0%
100 101 100,5 14 35,0%
101 102 101,5 7 17,5%
102 103 102,5 1 2,5%
Total 40 100,0%

A frequncia de cada classe obtida verificando-se quantos valores da amostra esto


contidos em cada intervalo. A notao indica que o intervalo fechado no valor a esquerda e
aberto no valor da direita. O histograma dos valores da tabela 2.1 construdo desenhando-se
retngulos justapostos com altura proporcional a frequncia de cada classe (Fig. 2.1).
14
12
10
frequency

8
6
4
2
0

97 98 99 100 101 102 103

Conjunto1$comprimento

Figura 2.1: Histograma de frequncias dos comprimentos de uma amostra de 40 peas.

Importando ou digitando os valores no R Commander, podemos gerar o histograma


apresentado na figura 2.1 efetuando os seguintes passos: [Grficos] [Histograma...] (Fig.
2.2).
2.2 Medidas Descritivas 16

Figura 2.2: Opo no R Commander para criao de histograma de uma varivel do conjunto
de dados ativo.

Na janela aberta (Fig. 2.3) deve-se escolher a varivel a ser plotada e o nmero de classes
utilizado no histograma. O R Commander ajusta este valor caso julge necessrio para melhorar
a apresentao do grfico.

Figura 2.3: Configurao para criao de um histograma no R Commander.

2.2 Medidas Descritivas

Medidas descritivas so valores que resumem uma caracterstica de um conjunto de dados.


Podem ser utilizadas de forma alternativa ou complementar ao uso de grficos, para descrever
e explorar dados quantitativos.

Todas as medidas descrivivas apresentadas nesta seo podem ser obtidas no R Commander
seguindo os seguintes passos: [Estatsticas] [Resumos] [Resumos numricos...] (Fig.
2.4). A escolha de quais variveis e medidas sero apresentadas realizada na janela que se
abrir. Os resultados so apresentados na janela de resultados do R Commander com a seguinte
notao: mean, sd e cv, respectivamente para a mdia, o desvio padro e o coeficiente de
variao.
2.2 Medidas Descritivas 17

Figura 2.4: Opo no R Commander para obteno das principais medidas descritivas.

Mdia

A mdia (ou mdia aritmtica) uma das principais medidas descritivas. Ela fornece uma
valor tpico do conjunto de dados. Duas mdias aritmticas diferentes so consideradas ao longo
deste material, a mdia populacional ( ) e a mdia amostral (x). A primeira, em geral, no pode
ser encontrada, pois para isto teriamos que conhecer todos os valores de uma populao.

Comumente podemos determinar apenas a mdia amostral, pois avaliamos a propriedade


de uma amostra de tamanho finito e bastante limitado. A mdia amostral dada pela soma de
todos os valores amostrais (xi ) dividido pelo tamanho da amostra (n), ou seja,
n
x
i=1
x= (2.4)
n

Para determinar a mdia dos valores apresentados na tabela 2, somamos os comprimentos


de todos os parafusos e em seguida dividimos o resultado pelo tamanho da amostra (n = 40),
ou seja,
101,22 + 99,06 + 97,57 + 100,81 + . . .+ 100,63 + 98,94
x= = 100,13 (2.5)
40

Mediana

Alm da mdia, uma propriedade de um conjunto de dados pode ser resumido utilizando
a mediana (Md ). Esta medida tem o mesmo objetivo da mdia, mas menos sensvel a
valores discrepantes. Para determinar a mediana devemos colocar os dados amostrais em ordem
crescente. A mediana dada pelo dado amostral que divide tal ordenao ao meio. A posio
(l) do valor da mediana na ordenao dada por:
n+1
l= (2.6)
2
2.2 Medidas Descritivas 18

Se l for fracionrio, toma-se como mediana a mdia dos valores de posies mais prximas
a l.

Para os dados amostrais da tabela 2 temos que a posio da mediana dada por l = (40 +
1)/2 = 20,5. Colocando os dados em ordem crescente observamos que os valores de posio
20 e 21 so respectivamente iguais a 100,17 e 100,24. Logo, a mediana Md = (100,17 +
100,24)/2 = 100,205.

Quartis e Extremos

Os quartis so valores que junto com a mediana dividem a amostra em quatro partes iguais,
cada uma contendo 25% dos dados. Na prtica, podemos utilizar os clculos realizados para
obter uma mediana para a primeira metade dos dados (valores menores do que a mediana) e
outra mediana para a segunda metade (valores maiores que a mediana). Estes dois divisores so
chamados respectivamente de quartil inferior (QI ) e quartil superior (QS ).

Para os dados amostrais da tabela 2 temos que a mediana tem posio l = 20,5.
Arredondando este valor para baixo calculamos a posio do quartil inferior [l = (20 + 1)/2 =
10,5]. Assim, o valor do quartil inferior dado pela mdia dos valores das posies 10 e 11, ou
seja, QI = (99,18 + 99,25)/2 = 99,215.

O valor do quartil superior pode ser calculado utilizando a(s) mesma(s) posio(es) j
determinadas para o quartil inferior, a diferena que para o quartil superior conta-se a posio
do ltimo para o primeiro, como se os dados fossem ordenados decrescentemente. Portanto, o
quartil superior igual a QS = (100,92 + 100,82)/2 = 100,87.

Os extremos inferior EI e superior ES so dados, respectivamente, pelo menor e maior valor


observado na amostra. Nos dados amostrais apresentados na tabela 2 temos que o extremo
inferior (EI ) igual a 97,57 e o extremo superior (ES ) igual a 102,14.

Varincia e Desvio Padro

To importante quanto as medidas de tendncia central (mdia e mediana) so as


medidas de disperso, varincia e desvio padro. Tais medidas so grandezas estatsticas que
representam como os dados se espalham ao redor da mdia, ou seja, exprimem o quo dispersos
esto os dados.

O desvio padro e a varincia populacionais so representados pelas letras e 2 ,


respectivamente. O desvio padro e a varincia amostrais so representados pelas letras s e
2.2 Medidas Descritivas 19

s2 , respectivamente, e podem ser calculados por


v v
u n u n
2
u (xi x) u x2i n x2
u u
t i=1 t i=1
s= = (2.7)
n n
e
n n
(xi x)2 x2i n x2
i=1 i=1
s2 = = (2.8)
n n

Coeficiente de Variao

Muitas vezes, em situaes prticas, precisamos comparar a variabilidade de dois ou mais


conjuntos de dados. Ocorre que tais conjuntos podem estar descritos com diferentes unidades de
medidas, por exemplo: metros e quilos, impossibilitando a comparao atravs das varincias
ou dos desvios padro.

Para viabilizar comparaes desse tipo, definiu-se o Coeficiente de Variao (cv), que
presta-se para comparar disperses relativas de distribuies de dados, de mesma unidade ou
de unidades diferentes. Tal medida exprime a variao em relao a mdia e, independe de
unidades de medidas:
s
cv = 100% (2.9)
x
20

3 Testes de Hipteses de Uma Amostra

A estatstica inferencial um conjunto de tcnicas utilizadas com o objetivo de determinar


uma caracterstica da populao a partir dos valores de uma amostra. Os testes de hiptese
fazem parte destas tcnicas. Hiptese estatstica uma suposio sobre algum parmetro da
populao, que ser posta prova atravs do teste de hiptese.

De forma geral, os testes de hipteses so elaborados a partir de duas hipteses, nula (H0 )
e alternativa (H1 ). Na hiptese nula (H0 ) as diferenas observadas em relao aos valores
esperados, so consideradas fruto do acaso, devido a aleatoriedade dos dados. Na hiptese
alternativa (H1 ) considera-se que tais diferenas so devidas ao fato da populao ter realmente
tal caracterstica.

A relao existente entre as variveis traduzida pelo valor de p (ou, p-valor). Para
valores de p < rejeita-se a hiptese nula, ou seja, a probabilidade das diferenas registadas
na amostra serem devidas ao acaso muito pequena (existe portanto grande probabilidade de
estas diferenas existirem de fato na populao). No caso de p > , diz-se no existir evidncia
suficiente para rejeitar a hiptese nula (logo, aceita-se H0 ).

Protocolo para a realizao de um teste de hipteses:

(a) Enunciar claramente as hipteses H0 e H1 ;

(b) Fixar o nvel de significncia ( ). Em geral = 0,05 (5%);

(c) Calcular o valor da estatstica do teste, que depende do parmetro que se deseja testar;

(d) Deciso: Se p > aceita-se H0 , caso contrrio, rejeita-se H0 ;

(e) Enunciar claramente a concluso do teste.


3.1 Teste de Shapiro-Wilk para Normalidade da Populao 21

3.1 Teste de Shapiro-Wilk para Normalidade da Populao

Um fato importante a ser ressaltado que a validade dos resultados obtidos atravs
dos testes de hiptese paramtricos (teste t, anlise de varincia, entre outros) fortemente
dependente da normalidade dos dados analisados. Salvo raras excees, resultados de anlises
estatsticas efetuadas atravs de mtodos paramtricos no so confiveis se os dados no
pertencem a amostras extradas de populaes com distribuies normais (RODRIGUES;
IEMMA, 2005).

O teste de Shapiro-Wilk utilizado para verificar se a amostra provm, ou no, de uma


populao com distribuio normal. Portanto, este teste baseado nas seguintes hipteses:

H0 : A amostra provm de uma populao normal


H1 : A amostra no provm de uma populao normal

O primeiro passo para aplicao do teste de Shapiro-Wilk a ordenao crescente dos dados
amostrais. Assim, denotamos x1 o menor e xn o maior valor observado. O prximo passo o
clculo do valor da constante b, determinada da seguinte forma:
n/2
b = ani+1 (xni+1 xi ) (3.1)
i=1

em que os xi so os valores amostrais ordenado e os ani+1 so constantes tabeladas cujos


valores so apresentados no anexo E.

O valor observado da estatstica do teste de Shapiro-Wilk denotata por Wo e obtido atravs


da seguinte expresso:
b2 b2
Wo = n = n (3.2)
2
(xi x) x2i n x2
i=1 i=1

Os valores crticos para o teste de Shapiro-Wilk so apresentados no anexo F. Quanto maior


o valor observado da estatstica (Wo ), maior so as evidncias de que os dados so normais,
assim, caso o valor de Wo seja maior do que o valor crtico Wc , aceita-se H0 , ou seja, aceita-se
que a amostra provm de uma populao com distribuio normal.

Exemplo: Avaliar a normalidade dos dados de uma amostra aleatria do comprimento de


10 peas.
3.1 Teste de Shapiro-Wilk para Normalidade da Populao 22

Tabela 3.1: Dados referentes ao comprimento, em centmetros, de 10 peas de uma amostra


aleatria.
1,90 2,22 2,10 1,69 1,52 2,75 2,31 1,98 1,42 1,99

Soluo manual:

Ordenando os dados amostrais fornecidos pela tabela 3.1 obtemos

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1,42 1,52 1,69 1,90 1,98 1,99 2,10 2,22 2,31 2,75

i ni+1 ani+1 xni+1 xi ani+1 (xni+1 xi )


1 10 0,5739 2,75 1,42 0,7633
2 9 0,3291 2,31 1,52 0,2600
3 8 0,2141 2,22 1,69 0,1135
4 7 0,1224 2,10 1,90 0,0245
5 6 0,0399 1,99 1,98 0,0004

Obtendo os valores de a da tabela do anexo E e multiplicando pela diferena entre os valores


de xni+1 e xi , conforme apresentado na tabela acima, podemos calcular o valor de b atravs da
equao 3.1, donde obtemos
n/2
b = ani+1 (xni+1 xi ) = 0,7633 + 0,2600 + 0,1135 + 0,0245 + 0,0004 = 1,1617 (3.3)
i=1

Utilizando a equao 3.2 podemos determinar o valor observado da estatstica (Wo ) do teste
de Shapiro-Wilk, dado por:

b2 1,16172
Wo = n = = 0,972 (3.4)
1,422 + 1,522 + . . . + 2,752 10 1,9882
x2i n x2
i=1

Considerando que o valor observado da estatstica (Wo ) maior do que o valor crtico (Wc =
0,842), dado pela tabela do anexo F, aceita-se H0 , ou seja, concluimos que a amostra provm
de uma populao com distribuio normal.
3.1 Teste de Shapiro-Wilk para Normalidade da Populao 23

Soluo com o R Commander:

Para aplicar o teste de Shapiro-Wilk aos dados amostrais da tabela 3.1 com o R Commander,
o primeiro passo carregar tais valores no programa. Os dados devem ser informados em uma
nica coluna. Como visto na seo 1.2, uma das formas de carregar estes dados digit-los
diretamente no R Commander (Fig. 3.1).

Figura 3.1: Digitao dos dados amostrais diretamente no R Commander.

Em seguida podemos aplicar o teste de Shapiro-Wilk seguindo os seguintes passos:


[Estatsticas] [Resumos] [Teste de normalidade de Shapiro-Wilk...] (Fig. 3.2).

Figura 3.2: Aplicao do teste de Shapiro-Wilk no R Commander.

Uma janela ser aberta para informar qual varivel do conjunto de dados ativo deve ser
avaliada (Fig. 3.3).

Figura 3.3: Configurao da varivel para o teste de Shapiro-Wilk no R Commander.


3.1 Teste de Shapiro-Wilk para Normalidade da Populao 24

Dois resultados do teste so apresentados na janela de resultados do R Commander, o valor


observado da estatstica, Wo = 0,9713, e o p-valor = 0,9024. Considerando que o p-valor
maior do que o nvel de significncia de 5% ( = 0,05), aceita-se H0 , ou seja, concluimos que
os dados amostrais provm de uma populao com distribuio normal.
25

4 Testes de Hipteses de Duas Amostras

4.1 Teste t para Amostras Pareadas

O chamado teste t apropriado para comparar dois conjuntos de dados quantitativos, em


termos de seus valores mdios. Nesta seo, trataremos do caso em que os dados so pareados.
Os pressupostos para a aplicao deste teste so os seguintes:

Dados pareados;

Normalidade da distribuio da varivel de interesse (D).

As hipteses do teste t so dadas a respeito da mdia populacional. Na hiptese nula (H0 )


admite-se que no h diferena entre as mdias populacionais das duas amostras, enquanto que
a hiptese alternativa (H1 ) admite que h diferena. A hiptese alternativa pode ser formulada
considerando simplesmente diferena (bilateral) ou admitindo-se que uma mdia maior do
que a outra (unilateral), dependendo do contexto do problema. Exemplo:

H0 : 1 = 2
H1 : 1 6= 2 (bilateral)

A estatstica do teste t para dados pareados baseia-se nos valores observados da varivel
D, definida pela diferena de valores de cada par de dados do experimento. Num estudo
antes-e-depois:
Di = (medida depois)i (medida antes)i (4.1)

Para encontrar a estatstica do teste, precisamos calcular a mdia (D) e o desvio padro (sD )
das diferenas, definidos respectivamente por:
v v
n u n u n
2 2
i D (D D) u D2i n D
u u
u i
i=1
t i=1 t i=1
D= e sD = = (4.2)
n n1 n1
4.1 Teste t para Amostras Pareadas 26

em que n o tamanho da amostra (nmero de pares observados).

A estatstica do teste conhecida como estatstica t para dados pareados, definida por:

D n
t= (4.3)
sD

O ltimo passo utilizar a tabela da distribuio t (anexo B) para determinar o p-valor,


utilizando o valor calculado de t e o nmero de graus de liberdade, dado por:

gl = n 1 (4.4)

Caso o p-valor seja menor do que o nvel de significncia ( ) rejeita-se H0 , ou seja,


concluimos que existe diferena significativa entre as mdias ao nvel de significncia adotado.
Caso contrrio, aceita-se que a diferena observada na amostra devida apenas ao acaso
(aleatoriedade dos dados amostrais), e que as populaes possuem mdias iguais.

Exemplo: Tendo interesse em estudar os efeitos de determinada dieta alimentar sobre o


aumento do peso corporal em cobaias adultas, um investigador tomou uma amostra de 9 cobaias.
Determinou seus pesos antes e trs meses aps a administrao da nova dieta. Com os dados a
seguir, analise o efeito da nova dieta, para = 0,05.

Tabela 4.1: Peso das cobaias antes e depois da aplicao da nova dieta.
Antes: 54 61 50 74 79 58 55 49 63
Depois: 57 66 53 73 82 58 56 53 63

Hipteses:

As hipteses deste problema so dadas em relao a mdia, por:

H0 : D = A ou D A = 0
H1 : D > A ou D A > 0 (unilateral)

Na hiptese nula (H0 ) considera-se a situao onde a dieta no altera o peso das cobaias, ou
seja, o peso mdio das cobaias antes da nova dieta ser o mesmo que o peso mdio depois da
nova dieta. Em contrapartida, a hiptese alternativa (H1 ) considera a situao onde a nova dieta
provoca aumento do peso mdio das cobaias, ou seja, a peso mdio das cobaias depois da nova
dieta ser maior do que o peso mdio antes da nova dieta.
4.1 Teste t para Amostras Pareadas 27

Soluo manual:

O primeiro passo obter as diferenas entre o peso depois e o peso antes da nova dieta,
dadas por:

Tabela 4.2: Diferena entre os pesos antes e depois da aplicao da nova dieta.
Diferena (D): 3 5 3 -1 3 0 1 4 0

O prximo passo o clculo da mdia e do desvio padro da varivel D, equaes (4.2):

3 + 5 + 3 + (1) + 3 + 0 + 1 + 4 + 0
D= =2 (4.5)
9
s
32 + 52 + 32 + (1)2 + 32 + 02 + 12 + 42 + 02 9 22
sD = = 2,0616 (4.6)
91

A estatstica t determinada utilizando-se a equao (4.3):



2 9
t= = 2,9104 (4.7)
2,0616

Utilizando a equao (4.4) determinamos o nmero de graus de liberdade:

gl = 9 1 = 8 (4.8)

Atravs da tabela da distribuio t de Student (anexo B) obtemos o p-valor, observando a


linha correspondente ao gl = 8, verificando na tabela que t = 2,9104 est entre 1,860 e 2,306.
Logo, como ilustrado na figura 4.1, a probabilidade de significncia esta entre 0,005 e 0,01, ou
seja, 0,005 < p-valor < 0,01.

Figura 4.1: Utilizao da distribuio t de Student com gl = 8 para obteno da probabilidade


de significncia num teste unilateral com t = 2,9104.

Considerando que o p-valor menor do que 0,01, portanto, tambm menor do que =
0,05, rejeita-se H0 e conclui-se que h diferena significativa entre as mdias de peso ao nvel
4.1 Teste t para Amostras Pareadas 28

de significncia de 5%. Ou seja, concluimos que a nova dieta provoca aumento de peso nas
cobaias ao nvel de significncia de 5%.

Soluo com o R Commander:

Para resolver o problema utilizando o R Commander, o primeiro passo o carregamento


dos dados da tabela 4.1. Para isso, podemos digit-los em uma planilha eletrnica do Excel ou
diretamento do R Commander. Para testes pareados os resultados devem ser informados
em duas colunas, neste caso, uma com os valores antes e outra com os valores depois da nova
dieta (Fig. 4.2).

Figura 4.2: Lanamento dos dados para o teste t para dados pareados no R Commander.

Aps os lanamento dos dados no prprio R Commander ou do carregamento dos dados


a partir de um arquivo, o prximo passo escolher o teste que deve ser aplicado. Para tanto,
clique nas seguintes opes: [Estatsticas] [Mdias] [Teste t (dados pareados)] (Fig.
4.3).

Figura 4.3: Aplicao do teste t para dados pareados.

Na janela que ser aberta deve-se escolher as variveis a serem comparadas, o nvel de
confina e a hiptese alternativa (Fig. 4.4).
4.2 Teste t para Amostras Independentes 29

Figura 4.4: Opes para a aplicao do teste t para dados pareados.

Os resultados do teste so apresentados na janela de resultados do R Commander. Dentre


outros valores apresentado o valor da estatstica t = 2,9104, e o p-valor = 0,009788.
Considerando que o p-valor menor do que 0,05, rejeitamos H0 , ou seja, concluimos que a
nova dieta provoca aumento de peso nas cobaias, ao nvel de significncia de 5%.

4.2 Teste t para Amostras Independentes

Nesta seo o teste t aplicado a casos onde desejamos comparar a mdia de duas amostras
aleatrias. Ao contrrio da seo anterior, trataremos do caso em que os dados no so pareados.

Pressupostos para aplicao do teste t para amostras independentes:

Aleatoriedade das amostras;

Normalidade da distribuio da varivel de interesse em cada grupo;

Homogeneidade das varincias amostrais dos grupos.

O objetivo deste mtodo verificar se existe, ou no, diferena estatstica significativa entre
as mdias de dois grupos. Logo, as hipteses deste teste realizar a comparao entre a mdia
de um grupo com a mdia de outro grupo.

Para aplicar o teste t para amostras independentes precisamos calcular inicialmente a mdia
e a varincia de cada grupo, utilizando as seguintes frmulas:
n n
x x2 n x2
i=1 i=1
x= e s2 = (4.9)
n n1

Como o tamanho da amostra do grupo 1 pode ser diferente do grupo 2, utiliza-se o


subscrito para identificar qual das amostras est sendo considerada. Assim, n1 , x1 e s21 so,
4.2 Teste t para Amostras Independentes 30

respectivamente, o tamanho da amostra, a mdia e a varincia do grupo 1, enquanto que n2 , x2


e s22 so, respectivamente, o tamanho da amostra, a mdia e a varincia do grupo 2.

O nmero de graus de liberdade (gl) para o teste t para amostras independentes dado por:

gl = n1 + n2 2 (4.10)

O desvio padro agregado (sa ) dado por:


s
(n1 1) s21 + (n2 1) s22
sa = (4.11)
gl

A estatstica do teste dada por:


x x2
t= r1 (4.12)
1 1
sa +
n1 n2

O ltimo passo a obteno do p-valor atravs da tabela da distribuio t (anexo B),


utilizando os valores de gl e t calculados.

Exemplo: Para comparar dois mtodos, A e B de ensinar matemtica para crianas,


aplicou-se o mtodo A num grupo de crianas e o mtodo B em outro grupo. A comparao
entre os dois grupos foi realizada atravs de uma avaliao que mensurou o conhecimento
de matemtica de cada criana. Os resultados obtidos so apresentados na tabela abaixo.
Determine ao nvel de significncia de 5% se existe diferena nos resultados obtidos pelos
diferentes mtodos.

Tabela 4.3: Notas da avaliao de matemtica obtidas pela crianas submetidas a dois mtodos
de ensino diferentes.
Mtodo de ensino A Mtodo de ensino B
45 51 50 62 43 45 35 43 59 48
42 53 50 48 55 45 41 43 49 39

Hipteses:

As hipteses para o teste so dadas por:

H0 : A = B ou A B = 0
H1 : A 6= B ou A B 6= 0
4.2 Teste t para Amostras Independentes 31

A hiptese nula admite que no existe diferena entre os mtodos de ensino, ou seja, em
mdia os mtodos produzem o mesmo resultado no desempenho dos alunos. Em contrapartida,
a hiptese alternativa diz que existe diferena entre os mtodos de ensino, ou seja, em mdia, os
alunos submetidos ao mtodo de ensino A tero desempenho diferente dos alunos submetidos
ao mtodo de ensino B.

Soluo manual:

O primeiro passo para resolver o problema o clculo da mdia e do desvio padro de cada
um dos dois grupos, utilizando as equaes (4.9) obtemos:

x1 = 49,9 x2 = 44,7 s1 = 5,9712 s2 = 6,4987 (4.13)

O nmero de graus de liberdade dado pela equao (4.10), donde temos:

gl = 10 + 10 2 (4.14)

Utilizando a equao (4.11) para calcular o desvio padro agregado temos:


r
(10 1) 5,97122 + (10 1) 6,49872
sa = = 6,2405 (4.15)
18

Utilizando a equao (4.12) obtemos a estatstica do teste:


49,9 44,7
t= r = 1,8632 (4.16)
1 1
6,2405 +
10 10

O prximo passo obter o p-valor atravs da tabela da distribuio t (anexo B). Para tanto,
olhamos na distribuio t a linha relacionada ao grau de liberdade (gl) igual a 18 e a coluna cujo
intervalo contenha o valor de t = 1,8632 (Fig. 4.5).
4.2 Teste t para Amostras Independentes 32

Figura 4.5: Utilizao da distribuio t de Student com gl = 18 para obteno da probabilidade


de significncia num teste unilateral com t = 1,8632.

Pela tabela da distribuio t de student (anexo B) obtemos um intervalo para o p-valor entre
0,025 e 0,05 para um teste unilateral. Lembrando que o problema dado bilateral (H1 : A 6=
B ), toma-se o dobro de cada um destes valores, obtendo-se ento 0,05 < p < 0,1.

Como o p-valor maior do que o nvel de significncia ( = 0,05), aceita-se H0 , ou seja,


ao nvel de significncia de 5%, conclui-se que no existe diferena no resultado mdio obtido
pelos diferentes mtodos de ensino.

Soluo com o R Commander:

O primeiro passo para resolver o problema com o R Commander a digitao dos resultados
obtidos no experimento. No teste t para amostras independentes os dados devem ser informados
em duas colunas, uma com as notas e a outra com o mtodo de ensino associado a cada nota
(Fig. 4.6). No incio de cada coluna deve ser informado um ttulo para os dados.

Figura 4.6: Digitao dos dados no Excel para aplicao do teste t para amostras independentes.

Os dados digitados em uma planilha do Excel devem ser importados para o R Commander
(conforme seo 1.2.1) informando um nome para o conjunto de dados. Para aplicar o teste
4.2 Teste t para Amostras Independentes 33

t para amostras independentes sobre o conjuto de dados ativo, siga os seguintes passos:
[Estatsticas] [Mdias] [Teste t para amostras independentes...] (Fig. 4.7)

Figura 4.7: Aplicao do teste t para amostras independentes no R Commander.

Uma janela ser aberta para configurar as informaes relativas ao teste: variveis que
contm o grupo e a resposta, o tipo de hiptese alternativa e o nvel de confiana (Fig. 4.8).

Figura 4.8: Configuraes para aplicao do teste t para amostras independentes bilateral e com
nvel de confiana de 95%..

Os resultados do teste sero apresentados na janela de resultados do R Commander. Dentre


os principais valores destacamos o valor da estatstica t = 1,8632 e o p-valor = 0,07883.
Considerando que o p-valor maior do que o nvel de significncia ( = 0,05) aceita-se H0 ,
ou seja, concluimos que no existe diferena significativa entre os dois mtodos de ensino de
matemtica.
34

5 Testes de Hipteses de Mais de Duas


Amostras

5.1 Anlise de Varincia para Um Fator (ANOVA)

A anlise de varincia (ANOVA) um teste de hipteses apropriado para comparar trs


ou mais conjuntos de dados quantitativos, em termos de seus valores mdios. Nesta seo em
particular, tratado o caso onde apenas um nico fator pode influenciar os resultados.

Pressupostos para a aplicao da anlise de varincia (ANOVA):

Aleatoriedade e independncia;

Normalidade dos valores da amostra em cada um dos grupos;

Homogeneidade de varincia dos grupos (varincia iguais em todos os grupos).

Considerando c grupos diferentes, as hipteses consideradas na anlise de varincia so:

H0 : 1 = 2 = ... = c
H1 : nem todas as mdias so iguais

Na hiptese nula (H0 ) considera-se que o fator variado entre os grupos no afeta de forma
significativa a mdia dos resultados obtidos. Em contrapartida, a hiptese alternativa (H1 )
admite que ao menos uma das mdias diferente das demais devido ao fator considerado.

O primeiro passo para obter a estatstica F, utilizada na anlise de varincia, o clculo


da mdia geral (x) e da mdia de cada grupo (x j , onde j indica o grupo). Estes valores so
definidos por:
c nj
xi j
j=1i=1
x= (5.1)
n
5.1 Anlise de Varincia para Um Fator (ANOVA) 35

nj
xi j
i=1
xj = (5.2)
nj
onde c o nmero de grupos, xi j o i-simo valor do grupo j, n o nmero total de amostras e
n j o nmero de amostras do grupo j.

O prximo passo o clculo da variao total (ST ), da variao entre os grupos (SE ) e
da variao dentro dos grupos (SD ). Estas variaes so tambm conhecidas respectivamente
como: soma dos quadrados total, soma dos quadrados entre os grupos e soma dos quadrados
dentro dos grupos. As expresses para o clculo destes valores so apresentados nas equaes
seguintes:
c nj
 2
ST = ij
x x (5.3)
j=1 i=1
 c 2
SE = n j x j x (5.4)
j=1
c nj  2
SD = xi j x j (5.5)
j=1 i=1

A variao dentro dos grupos pode ser calculada pela diferena entre a variao total ST e
a variao entre os grupos SE , ou seja

SD = ST SE (5.6)

Na sequncia devemos calcular a mdia total dos quadrados (MQ ), a mdia dos quadrados
entre os grupos (ME ) e a mdia dos quadrados dentro dos grupos (MD ), dadas respectivamente
por:
ST
MQ = (5.7)
n1
SE
ME = (5.8)
c1
SD
MD = (5.9)
nc

Por fim, calcula-se o valor observado da estatstica F (Fo ), dada por


ME
Fo = (5.10)
MD
a qual segue uma distribuio F, com c 1 graus de liberdade no numerador e n c graus de
liberdade no denominador.

O valor do F crtico (Fc ) obtido da tabela da distribuio F (anexo C) considerando a


5.1 Anlise de Varincia para Um Fator (ANOVA) 36

(c 1)-sima linha e a (n c)-sima coluna. Se Fo > Fc rejeita-se H0 , caso contrrio, aceita-se


H0 (Fig. 5.1).

Figura 5.1: Grfico da distribuio F com as regies de aceitao e rejeio de H0 .

Quando conclui-se pela anlise de varincia que existe diferena entre as mdias dos
grupos, no obtem-se quais dos grupos possui mdia diferente dos demais. Para responder
tal questo utiliza-se um teste auxiliar chamado teste de Tukey, apresentado na sequncia.

5.1.1 Teste de Tukey

O teste de Tukey um dos testes de comparao de mdia mais utilizados, por ser bastante
rigoroso e de fcil aplicao. Este teste utilizado para testar toda e qualquer diferena entre
duas mdias de tratamento.

O teste de Tukey faz a comparao entre a mdia de dois em dois grupos. Para cada par
de grupos (denotados por i e j) que sero comparados, o primeiro passo para aplicar o teste de
Tukey calcular o intervalo crtico (Ic ) dado por:
s  
MD 1 1
Ic = Qc + (5.11)
2 ni n j

onde Qc o valor crtico da cauda superior, a partir da distribuio de intervalos de Student,


possuindo c tratamentos e n c graus de liberdade no denominador (anexo D).

Conhecido o intervalo crtico (Ic ), deve-se calcular o mdulo da diferena entre as mdias
dos grupos i e j, ou seja:
|xi x j | (5.12)
5.1 Anlise de Varincia para Um Fator (ANOVA) 37

Quando esta diferena maior do que o intervalo crtico conclui-se que existe diferena
significativa entre as mdias dos grupos i e j, caso contrrio conclui-se que as mdias dos
grupos i e j so iguais.

Exemplo: Voc supervisiona a produo de uma padaria, cujos pes so fabricados com
farinha oriunda de um dentre quatro diferentes fornecedores. A qualidade dos pes produzidos
uma caracterstica importante que garante o aumento das vendas e consequentemente da
produo. Estabelea se os pes produzidos com as diferentes marcas de farinha so igualmente
saborosos com base nos dados amostrais abaixo.

Tabela 5.1: Notas atribuidas pela anlise sensorial dos pes produzidos com a farinha de quatro
diferentes fornecedores.
Forncedor A Forncedor B Forncedor C Forncedor D
68,5 76,3 70,6 75,4
74,0 75,3 75,2 69,9
67,2 74,0 70,8 72,6
69,9 71,2 74,7 67,5
68,0 74,5 72,9 70,4
n
x 347,6 371,3 364,2 355,8
i=1
xj 69,52 74,26 72,84 71,16

Hipteses:

As hipteses para a anlise de varincia so as seguintes:

H0 : A = B = C = D
H1 : ao menos uma das mdias diferente

A hiptese nula (H0 ) considera que as farinhas de todos os quatro diferentes fornecedores
produzem em mdia pes com a mesma qualidade sensorial. Em contrapartida, a hiptese
alternativa (H1 ) considera o fato de que o fator fornecedor afeta a qualidade sensorial dos pes,
dizendo que existe diferena em ao menos uma das mdias comparada as outras.
5.1 Anlise de Varincia para Um Fator (ANOVA) 38

Soluo manual:

A mdia geral definida pela equao (5.1) fornece:

x = 71,945 (5.13)

Os valores das mdias de cada grupo so dados na tabela do problema. As variaes total,
entre grupos e dentro dos grupos, dadas respectivamente pelas equaes (5.3), (5.4) e (5.6)
fornecem
ST = 160,7895 (5.14)

SE = 63,2855 (5.15)

SD = 160,7895 63,2855 = 97,5040 (5.16)

Na sequncia so obtidas as mdias entre grupos e dentro dos grupos, utilizando as equaes
(5.8) e (5.9) obtemos
SE 63,2855
ME = = = 21,0952 (5.17)
c1 41
SD 97,5040
MD = = = 6,0940 (5.18)
nc 20 4

Por fim, podemos calcular o valor de F observado (Fo ) atravs da equao (5.10)
ME 21,0952
Fo = = = 3,4616 (5.19)
MD 6,0940

Pela tabela da distribuio F com nvel de significncia de 5% (anexo C), considerando


c 1 graus de liberdade no numerador e n c graus de liberdade no denominador, obtemos o
valor do F crtico (Fc = 3,24). Como o valor de Fo > Fc rejeita-se H0 , ou seja, concluimos que
existe diferena sensorial mdia entre os diferentes fornecedores de farinha.

Para identificar quais os pares de mdias que so significativamente diferentes aplicamos o


teste de Tukey. Como todos os grupos possuem amostras do mesmo tamanho, calcula-se apenas
um nico valor para o invevalor crtico. Pela valor da dcima sexta coluna e terceira linha da
tabela da distribuio de intervalos de Student (anexo D) obtemos o valor crtico da amplitude
de Student (Qc = 3,65). Utilizando a equao 5.11 obtemos
s  
6,0940 1 1
Ic = 4,05 + = 4,4712 (5.20)
2 5 5

Por fim, calcula-se o mdulo da diferena entre a mdias para cada combinao de
5.1 Anlise de Varincia para Um Fator (ANOVA) 39

fornecedores, donde obtemos:

A=B: |xA xB | = |69,52 74,26| = 4,74 > 4,4712


A=C : |xA xC | = |69,52 72,84| = 3,32 < 4,4712
A=D: |xA xD | = |69,52 71,16| = 1,64 < 4,4712
B=C : |xB xC | = |74,26 72,84| = 1,42 < 4,4712
B=D: |xB xD | = |74,26 71,16| = 3,10 < 4,4712
C=D: |xC xD | = |72,84 71,16| = 1,68 < 4,4712

Na comparao entre o valor absoluto das diferenas com o valor do intervalo crtico,
observa-se que apenas os fornecedor A com o fornecedor B apresenta diferena significativa
(denotada por ).

Soluo com o R Commander:

A forma de informar os dados do experimento ao R Commander similar a do teste t para


amostras independentes. Novamente na primeira linha colocada o nome de cada varivel. Na
primeira coluna informado o fornecedor e na segunda coluna informada a respectiva nota
(Fig. 5.2).

Figura 5.2: Digitao dos dados no Excel para aplicao da anlise da varincia pelo R
Commander.

Caso os dados forem digitados em uma planilha do Excel, o prximo passo import-la
para o R Commander. Em seguida, para aplicar a anlise de varincia execute os seguintes
passos: [Estatsticas] [Mdias] [ANOVA para um fator (one way)...] (Fig. 5.3).
5.1 Anlise de Varincia para Um Fator (ANOVA) 40

Figura 5.3: Aplicao da anlise de varincia no R Commander.

Uma janela ser aberta para informar o nome da coluna que contm os grupos e a
que contm a varivel resposta. O teste de Tukey pode ser aplicado ativando-se a opo
Comparao de mdias 1 a 1 nesta janela (Fig. 5.4).

Figura 5.4: Configurao da anlise de varincia no R Commander.

Na janela de resultados do R Commander so apresentados os resultados inerentes a anlise


de varincia. Dentre os principais resultados apresentada uma tabela com a soma dos
quadrados dentro dos grupos e entre os grupos (Sum Sq). Ao lado apresentado as mdias
dentro dos grupos e entre grupos (Mean Sq) e em seguida o F observado (F value) e o
p-valor (Pr(>F)) (Fig. 5.5).

Figura 5.5: Principais resultados da anlise de varincia apresentados pelo R Commander.

Caso o teste de Tukey tenha sido ativado, informaes a respeito da comparao entre
as mdias obtidas pelos diferentes grupos sero apresentado na janela de resultados. Um
resumo do teste apresentado em uma tabela que mostra cada uma das comparaes realizadas,
5.1 Anlise de Varincia para Um Fator (ANOVA) 41

juntamente com o valor da estatstica t e o p-valor. Um cdigo apresentado onde detectada


diferena significativa entre as mdias: para 10%, para 5% e para 1%.

Figura 5.6: Principais resultados do teste de Tukey apresentados no R Commander.

Exerccio: Os prximos dados referem-se reduo no peso corporal de animais de


laboratrio submetidos a diferentes dietas. Os animais foram previamente divididos em cinco
grupos, por faixa de peso no incio do experimento. Compare as dietas entre si e verifique
tambm se a reduo no peso varia entre as faixas de peso. Use 0,05 como nvel de significncia
no teste.

Faixa de peso Dieta A Dieta B Dieta C Total (B)


I 15 10 12 37
II 17 8 16 41
III 20 12 16 48
IV 24 16 15 55
V 19 18 22 59
x 95 64 81 240
x2 1851 888 1365 4104

5.1.2 Teste de Levene para Homogeneidade da Varincia

Embora a anlise de varincia de fator nico seja relativamente robusto com respeito ao
pressuposto de varincias iguais nos grupos, grandes diferenas nas varincias dos grupos
podem afetar seriamente o nvel de significncia e a eficcia do teste. Um dos procedimentos
com alta eficcia estatstica o teste de Levene. Para testar a homogeneidade da varincia,
utilize as seguintes hipteses:

H0 : 12 = 22 = ... = c2
H1 : Nem todas as varincias so iguais
5.1 Anlise de Varincia para Um Fator (ANOVA) 42

O primeiro passo para aplicar o teste de Levene obter a mediana de cada grupo. Em
seguida, calcula-se o valor absoluto da diferena entre cada valor amostral e a mediana do
grupo a qual ele pertence. Sobre os resultados obtidos aplica-se a anlise de varincia. Caso o
p-valor deste teste for maior do que o nvel de significncia, aceita-se H0 , ou seja, conclui-se
que as varincias so iguais em todos os grupos.
43

Referncias Bibliogrficas

BARBETTA, P. A. Estatstica aplicada s Cincias Sociais. 7. ed. Florianpolis, SC: Ed. da


UFSC, 2008.

FOX, J. The R Commander: A basic-statistics graphical user interface to R. Hamilton, Ontario,


Canada, September 2005. v. 14, n. 9.

LEVINE, D. M. et al. Estatstica: teoria e aplicaes. Rio de Janeiro: LTC, 2008.

RODRIGUES, M. I.; IEMMA, A. F. Planejamento de experimentos e otimizao de processos:


Uma estratgia sequencial de planejamentos. 1. ed. Campinas, SP: Casa do Po Editora, 2005.

TEAM, R. D. C. R: A Language and Environment for Statistical Computing. Vienna, Austria,


2009. Disponvel em: <http://www.R-project.org>.
44

ANEXO A -- Tabela da distribuio Normal


45

ANEXO B -- Tabela da distribuio t de Student


46

ANEXO C -- Tabela da distribuio F de Fisher


47

ANEXO D -- Tabela da Distribuio de Intervalos de


Student
48

ANEXO E -- Tabela dos Coeficientes para o Teste de


Shapiro-Wilk
49

ANEXO F -- Tabela dos Valores Crticos do Teste de


Shapiro-Wilk

Você também pode gostar