Desvendando A Estatistica Com o R Commander

UTFPR - Universidade Tecnolgica Federal do Paran
Desvendando a Estatstica
com o R Commander
Prof. MSc. Jonas Joacir Radtke

Sumrio
1 Introduo p. 3
1.1 Instalao do R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3
1.2 Dados no R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5
1.2.1 Importao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5
1.2.2 Transformao de Dados . . . . . . . . . . . . . . . . . . . . . . . . p. 8
1.2.3 Converso de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10
2 Estatstica Descritiva p. 13
2.1 Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14
2.2 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16
3 Testes de Hipteses de Uma Amostra p. 20
3.1 Teste de Shapiro-Wilk para Normalidade da Populao . . . . . . . . . . . . p. 21
4 Testes de Hipteses de Duas Amostras p. 25
4.1 Teste t para Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . p. 25
4.2 Teste t para Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . p. 29
5 Testes de Hipteses de Mais de Duas Amostras p. 34
5.1 Anlise de Varincia para Um Fator (ANOVA) . . . . . . . . . . . . . . . . . p. 34
5.1.1 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36
5.1.2 Teste de Levene para Homogeneidade da Varincia . . . . . . . . . . p. 41
Referncias Bibliogrficas p. 43
Anexo A -- Tabela da distribuio Normal p. 44
Anexo B -- Tabela da distribuio t de Student p. 45
Anexo C -- Tabela da distribuio F de Fisher p. 46
Anexo D -- Tabela da Distribuio de Intervalos de Student p. 47
Anexo E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk p. 48
Anexo F -- Tabela dos Valores Crticos do Teste de Shapiro-Wilk p. 49

3
1 Introduo
O presente material pretende apresentar de forma bastante sucinta as ideias relacionadas

as diversas ferramentas estatsticas abordadas. O foco principal deste texto ajudar o leitor a
resolver problemas estatsticos utilizando o software R com a interface grfica R Commander.
O R um programa estatstico muito utilizado no meio acadmico e comercial. Dentre as

vantagens de utilizao deste programa est o fato de ser gratuito e muito robusto. A criao de
uma interface grfica para o R, denominada R Commander, ampliou muito o nmero de adeptos
a este programa. Tal interface permite a explorao de todo o potencial do R de forma simples
e amigvel.
Convm resaltar que a utilizao direta de softwares amigveis, sem o prvio conhecimento
dos fundamentos da metodologia, pode constituir um grande risco e levar o usurio a
interpretaes perigosamente equivocadas (RODRIGUES; IEMMA, 2005).
1.1 Instalao do R Commander
O primeiro passo para a utilizao do R Commander a instalao do programa R. O

download deste programa pode ser feito no seguinte site:
http://cran.r-project.org/
Aps o download e a instalao do programa R, o prximo passo a instalao dos pacotes

bsicos para o funcionamento da interface grfica. Para tanto, abra o programa R e siga os
seguintes passos: [Pacotes] [Instalar pacote(s)] (Fig. 1.1). Na sequncia, escolha um
espelho para o download e em seguida o pacote Rcmdr.
1.1 Instalao do R Commander 4
Figura 1.1: Instalao de pacotes no R.
Para inicializar o R Commander digite o seguinte comando no terminal do R:
> require(Rcmdr)
Na primeira vez que o R Commander for inicializado ser solicitada a instalao de vrios
pacotes necessrios para o seu correto funcionamento. Aceite a solicitao, escolha o espelho
para download dos pacotes e aguarde a finalizao da instalao e a abertura do R Commander
(Fig. 1.2).
Figura 1.2: Viso geral do R Commander.

1.2 Dados no R Commander 5
1.2 Dados no R Commander
Os dados utilizados pelo R Commander podem ser digitados diretamente nele, seguindo
os seguintes passos: [Dados] [Novo conjunto de dados...], e em seguinda escolhendo um
nome para o conjunto de dados. Contudo, na prtica, os resultados so digitados em planilhas
eletrnicas para posteriormente serem importados para os programas estatsticos.
1.2.1 Importao de Dados
A forma mais comum de obter os dados para o R Commander atravs de arquivos

oriundos de planilhas eletrnicas dos programas Microsoft Excel ou OpenOffice Calc. Ambos
os programas possuem uma opo de salvar as planilhas como arquivos de texto puro (com
extenso CSV, do ingls, Comma Separated Values).
Importao de Arquivos do Excel
O R Commander possui uma opo de importao dos dados de planilhas do Excel e de

arquivos CSV. A importao de arquivos de dados do Excel pode ser executada atravs dos
seguintes passos: [Dados] [Importar arquivos de dados] [de conjunto de dados do
Excel, Access, dBase...] (Fig. 1.3).
Figura 1.3: Importao de dados de arquivos do Excel.
Uma janela ser aberta para que seja informado o nome do conjunto de dados. Na
sequncia, outra janela ser aberta para que seja selecionado o arquivo do Excel. Aps escolher
o arquivo de origem dos dados ser solicitada a planilha do arquivo que deve ser importada,
caso o arquivo possua mais de uma planilha.
Importao de Arquivos CSV
Todas as planilhas de arquivos do Excel e do Calc podem ser salvas com extenso CSV. Para
fazer isto, abra o arquivo no programa Excel ou Calc e execute os seguintes passos: [Arquivo]
[Salvar como...]. Na janela que abrir informe o nome do arquivo e, logo abaixo, escolha a
opo CSV (separado por vrgulas) no Excel ou Texto CSV (.csv) no Calc.
Apesar do Excel informar que o os campos sero separados por vrgula, eles sero separador
por ponto e vrgula. No Calc uma janela ser aberta para escolher o delimitador de campo, que
deve ser alterado para ponto e vrgula (Fig. 1.4), porque, no Brasil, a vrgula utilizada como
separador de decimais.
Figura 1.4: Escolha do delimitador de campo para arquivos CSV no Calc.
A importao de dados de arquivos com extenso CSV realizada de forma similar a de

arquivos do Excel. Observando que os arquivos com extenso CSV so arquivos de texto
puro, cujos campos so separados por ponto e vrgula (;), siga os seguintes passos: [Dados]
[Importar arquivos de dados] [de arquivos texto, clipboard ou URL...] (Fig. 1.5).
Figura 1.5: Importao de dados de arquivos com extenso CSV.
Na janela que abrir escolha um nome para o conjunto de dados, altere o separador de
campos para Outro - Defina: [;] e o separador de decimais para Vrgula [,] (Fig. 1.6).
Logo aps, ser aberta uma janela para informar o nome do arquivo com formato CSV que
deseja importar.
Figura 1.6: Definio de parmetros para importao de dados de arquivos com extenso CSV.
Cuidados na Elaborao e Importao de Planilhas de Dados
Cuidados ao digitar os dados nas planilhas:
O nome das variveis de uma determinada coluna deve estar na primeira linha;
No devem ser utilizados caractres especiais (, ascentos, entre outros) nos dados
informados na planilha;
A planilha deve conter apenas o nome da varivel e os dados do experimento.
A utilizao de clulas mescladas no permitida.
Dicas:
Evite a utilizao de nomes compostos e/ou muito compridos;
Exclua todas as linhas e colunas da planilha que j haviam sido utilizadas e que no
pertenam ao conjunto de dados do experimento;
Visualize os dados no R Commander clicando em Ver conjunto de dados para

certificar-se que que foram carregados de forma correta.
1.2.2 Transformao de Dados
Em algumas situaes necessrio realizar a transformao dos dados amostrais, com

o objetivo de atingir determinadas exigncias de certos testes estatsticos (pressupostos). A
transformao obtida geralmente melhora a aproximao dos dados distribuio normal.
A normalidade dos dados uma exigncia comum para a aplicao de testes de hiptese.
Se a suposio de normalidade dos dados no aceitvel, podemos adotar a estratgia de
transformao da varivel. Transformaes so nada mais do que uma forma de reescrever
os dados numa unidade diferente.
Em muitas situaes prticas a escolha da transformao para melhorar a aproximao

distribuio normal no bvia. Segue abaixo algumas transformaes comumente utilizadas:

Contagens: x - Contribui para tornar as varincias muito menores e desta forma mais
facilmente obter homocedasticidade (varincias iguais).

1 x
Propores: log ou arcsen ( x) - Contribuem para alterar a forma da
2 1x
distribuio dos dados.

1 1+x
Correlaes: Fisher: z(x) = log
2 1x
Concentraes: log(x) ou ln(x) - Contribui para tornar as varincias muito menores e
desta forma mais facilmente obter homocedasticidade.
Para ilustrar como realizada a transformao de dados no R Commander tomamos como

exemplo os valores apresentados na tabela abaixo.
Tabela 1.1: Dados amostrais referentes ao nmero dirio de peas defeituosas em uma linha de
produo.
4 5 4 3 2 9 5 4 2 4
O primeiro passo a digitao destes valores em um nica coluna no R Commander,

conforme apresentado na seo anterior (1a coluna da Fig. 1.7).
Figura 1.7: Planilha do R Commander com os dados originais (cont) e transformados

(raiz_cont).
Para criar uma nova varivel com os dados transformados deve-se seguir os seguintes
passos: [Dados] [Modificao de variveis no conjunto de dados...] [Computar nova
varivel...] (Fig. 1.8).
Figura 1.8: Opo no R Commander para criar uma varivel transformada.
Uma janela ser aberta para informar o nome da nova varivel e a expresso matemtica
para calcular os valores desta varivel (raiz = sqrt, arcsen = asin, log10 = log10 e ln = log).
Figura 1.9: Configurao do nome da nova varivel e da expresso para realizar a

transformao.
Os resultados da nova varivel, chamada raiz_cont, so apresentados na segunda coluna da

figura 1.7. Como podemos observar pelos histogramas apresentados na figura abaixo, a varivel
transformada se ajusta mais a forma de um sino (distribuio normal) do que a varivel original.
Esta concluso pode ser estatsticamente comprovada por um teste de hipteses (seo 3.1).
Figura 1.10: Histogramas da varivel original (cont) e da varivel transformada (raiz_cont).
1.2.3 Converso de Dados
Muitas vezes necessita-se converter dados amostrais em formato numrico para um fator,
ou vice-versa. O R Commander possui uma opo para fazer isto de forma automtica. Para
exemplificar o uso desta opo considere o seguinte exemplo:
Exemplo: A tabela abaixo possui a nota de estatstica de uma amostra de 8 alunos.

Deseja-se saber qual o conceito de cada aluno. Alunos com nota maior ou igual a 9 devem
ter conceito A, entre 7,5 e 8,9 conceito B, entre 6 e 7,4 conceito C e conceito D para notas
menores que 6.
Tabela 1.2: Notas de estatstica de uma amostra de 8 alunos.

8,3 7,4 6,2 9,1 2,8 4,7 7,1 7,7
O primeiro passo informar ou importar estes valores para o R Commander (1a coluna da
Fig. 1.11).
Figura 1.11: Notas e conceitos de estatstica na amostra de alunos no R Commander.
Para converter cada nota em um conceito (fator), siga os seguintes passos: [Dados]
[Modificao de variveis no conjunto de dados...] [Recodificar varivel...] (Fig. 1.12).
Figura 1.12: Opo no R Commander para converso de dados.
Uma janela ser aberta para informar o nome da nova varivel e as definies para
recodificao (Fig. 1.13). O comando : utilizado para indicar sequncia, ou seja, a primeira
linha da definio abaixo diz que o conceito D corresponde as notas entre 0 e 5,9. O resultado
da converso apresentada na segunda coluna da figura 1.11. A converso de fatores para dados
numricos segue a mesma metodologia.
Figura 1.13: Configurao no R Commander do nome da nova varivel e das definies para
recodificao.
13
2 Estatstica Descritiva
A estatstica descritiva um ramo da estatstica que aplica vrias tcnicas para descrever e
sumarizar um conjunto de dados. O tratamento dos dados na estatstica descritiva tem como
objetivo organiz-los e resumi-los, a fim de facilitar a interepretao de uma determinada
varivel atravs de uma amostra.
Para compreender as diversas ferramentas da estatstica descritiva considere o seguinte

exemplo.
Exemplo: Na tabela abaixo so apresentadas 48 medidas em milmetros do comprimento

de uma pea, por sinal, uma das caractersticas essenciais da pea.
Tabela 2.1: Medidas em milmetros do comprimento de uma amostra de 48 peas.

101,22 99,06 97,57 100,81 100,92 99,92 100,41 99,14
100,00 99,79 99,57 100,24 98,87 101,16 100,01 99,07
100,27 100,41 99,96 99,85 101,47 99,98 102,14 98,47
101,78 101,17 101,73 100,17 100,82 98,98 99,18 100,98
100,42 99,25 100,81 98,13 101,55 100,35 100,63 98,94
Uma tabela de nmeros no nada interessante para um engenheiro que deseja analisar
a qualidade das peas produzidas. A questo que a estatstica descritiva deseja responder
de como este conjunto de informaes pode ser apresentado de forma resumida e de fcil
interpretao.
A forma correta de informar o conjunto de dados da tabela 2 no R Commander atravs de

uma tabela com apenas uma nica coluna, pois todos os dados so referentes a mesma amostra.
2.1 Grficos 14
2.1 Grficos
Sem a menor dvida, a melhor maneira de analisar uma srie de dados graficamente.
A tentativa de ver padres e tendncias em uma relao de dados escritos em uma tabela
certamente resultar em fracasso, especialmente quando o nmero de dados grande.
Para criar um grfico (histograma) dos resultados apresentados na tabela 2, o primeiro passo
determinar em quantas classes (k) os valores sero divididos. Este valor comumente dado
pela raiz quadrada do tamanho da amostra (n), ou seja,

k= n = 40 6,3245 (2.1)
Assim, para este exemplo, podemos utilizar 6 ou 7 classes no histograma. Optaremos por 6
classes. O prximo passo calcular a amplitude total (AT ) da amostra, que dada pela diferena
entre o maior e o menor valor observado (xi ), ou seja,
AT = max xi min xi = 102,14 97,57 = 4,57 (2.2)

1in 1in
Para definir o intervalo referente a cada classe calcula-se a amplitude de classe (AC ), dada
por:
AT 4,57
AC = = = 0,7617 (2.3)
k 6
O incio da primeira classe pode ser arredondado para baixo para utilizar um valor que
facilite a interpretao do grfico. A amplitude de classe tambm pode ser arredondada, para
cima ou para baixo, com o mesmo objetivo. Tais arredondamentos podem variar um pouco o
nmero de classes pr-definido sem perda da qualidade do resultado.
A determinao do intervalo correspondente a cada classe realizada tomando-se como

base o menor valor da amostra (ou o valor arredondado) e somando-se sucessivamente a
amplitude de classe. A cada soma definido um intervalo correspondente a uma das classes.
Arredondando a amplitude de classe para 1 mm e iniciando a primeira classe em 97 mm, obtemos
da tabela 2 os seguintes resultados:
2.1 Grficos 15
Tabela 2.2: Tabela de frequncias do comprimento de uma amostra de 48 peas.

Classe Ponto mdio Frequncia Frequncia relativa
97 98 97,5 1 2,5%
98 99 98,5 5 12,5%
99 100 99,5 12 30,0%
100 101 100,5 14 35,0%
101 102 101,5 7 17,5%
102 103 102,5 1 2,5%
Total 40 100,0%
A frequncia de cada classe obtida verificando-se quantos valores da amostra esto

contidos em cada intervalo. A notao indica que o intervalo fechado no valor a esquerda e
aberto no valor da direita. O histograma dos valores da tabela 2.1 construdo desenhando-se
retngulos justapostos com altura proporcional a frequncia de cada classe (Fig. 2.1).
14
12
10
frequency
8
6
4
2
0
97 98 99 100 101 102 103
Conjunto1$comprimento
Figura 2.1: Histograma de frequncias dos comprimentos de uma amostra de 40 peas.
Importando ou digitando os valores no R Commander, podemos gerar o histograma

apresentado na figura 2.1 efetuando os seguintes passos: [Grficos] [Histograma...] (Fig.
2.2).
2.2 Medidas Descritivas 16
Figura 2.2: Opo no R Commander para criao de histograma de uma varivel do conjunto
de dados ativo.
Na janela aberta (Fig. 2.3) deve-se escolher a varivel a ser plotada e o nmero de classes
utilizado no histograma. O R Commander ajusta este valor caso julge necessrio para melhorar
a apresentao do grfico.
Figura 2.3: Configurao para criao de um histograma no R Commander.
2.2 Medidas Descritivas
Medidas descritivas so valores que resumem uma caracterstica de um conjunto de dados.

Podem ser utilizadas de forma alternativa ou complementar ao uso de grficos, para descrever
e explorar dados quantitativos.
Todas as medidas descrivivas apresentadas nesta seo podem ser obtidas no R Commander
seguindo os seguintes passos: [Estatsticas] [Resumos] [Resumos numricos...] (Fig.
2.4). A escolha de quais variveis e medidas sero apresentadas realizada na janela que se
abrir. Os resultados so apresentados na janela de resultados do R Commander com a seguinte
notao: mean, sd e cv, respectivamente para a mdia, o desvio padro e o coeficiente de
variao.
Figura 2.4: Opo no R Commander para obteno das principais medidas descritivas.
Mdia
A mdia (ou mdia aritmtica) uma das principais medidas descritivas. Ela fornece uma
valor tpico do conjunto de dados. Duas mdias aritmticas diferentes so consideradas ao longo
deste material, a mdia populacional ( ) e a mdia amostral (x). A primeira, em geral, no pode
ser encontrada, pois para isto teriamos que conhecer todos os valores de uma populao.
Comumente podemos determinar apenas a mdia amostral, pois avaliamos a propriedade

de uma amostra de tamanho finito e bastante limitado. A mdia amostral dada pela soma de
todos os valores amostrais (xi ) dividido pelo tamanho da amostra (n), ou seja,
n
x
i=1
x= (2.4)
n
Para determinar a mdia dos valores apresentados na tabela 2, somamos os comprimentos

de todos os parafusos e em seguida dividimos o resultado pelo tamanho da amostra (n = 40),
ou seja,
101,22 + 99,06 + 97,57 + 100,81 + . . .+ 100,63 + 98,94
x= = 100,13 (2.5)
40
Mediana
Alm da mdia, uma propriedade de um conjunto de dados pode ser resumido utilizando
a mediana (Md ). Esta medida tem o mesmo objetivo da mdia, mas menos sensvel a
valores discrepantes. Para determinar a mediana devemos colocar os dados amostrais em ordem
crescente. A mediana dada pelo dado amostral que divide tal ordenao ao meio. A posio
(l) do valor da mediana na ordenao dada por:
n+1
l= (2.6)
2
Se l for fracionrio, toma-se como mediana a mdia dos valores de posies mais prximas
a l.
Para os dados amostrais da tabela 2 temos que a posio da mediana dada por l = (40 +
1)/2 = 20,5. Colocando os dados em ordem crescente observamos que os valores de posio
20 e 21 so respectivamente iguais a 100,17 e 100,24. Logo, a mediana Md = (100,17 +
100,24)/2 = 100,205.
Quartis e Extremos
Os quartis so valores que junto com a mediana dividem a amostra em quatro partes iguais,
cada uma contendo 25% dos dados. Na prtica, podemos utilizar os clculos realizados para
obter uma mediana para a primeira metade dos dados (valores menores do que a mediana) e
outra mediana para a segunda metade (valores maiores que a mediana). Estes dois divisores so
chamados respectivamente de quartil inferior (QI ) e quartil superior (QS ).
Para os dados amostrais da tabela 2 temos que a mediana tem posio l = 20,5.
Arredondando este valor para baixo calculamos a posio do quartil inferior [l = (20 + 1)/2 =
10,5]. Assim, o valor do quartil inferior dado pela mdia dos valores das posies 10 e 11, ou
seja, QI = (99,18 + 99,25)/2 = 99,215.
O valor do quartil superior pode ser calculado utilizando a(s) mesma(s) posio(es) j
determinadas para o quartil inferior, a diferena que para o quartil superior conta-se a posio
do ltimo para o primeiro, como se os dados fossem ordenados decrescentemente. Portanto, o
quartil superior igual a QS = (100,92 + 100,82)/2 = 100,87.
Os extremos inferior EI e superior ES so dados, respectivamente, pelo menor e maior valor

observado na amostra. Nos dados amostrais apresentados na tabela 2 temos que o extremo
inferior (EI ) igual a 97,57 e o extremo superior (ES ) igual a 102,14.
Varincia e Desvio Padro
To importante quanto as medidas de tendncia central (mdia e mediana) so as

medidas de disperso, varincia e desvio padro. Tais medidas so grandezas estatsticas que
representam como os dados se espalham ao redor da mdia, ou seja, exprimem o quo dispersos
esto os dados.
O desvio padro e a varincia populacionais so representados pelas letras e 2 ,

respectivamente. O desvio padro e a varincia amostrais so representados pelas letras s e
s2 , respectivamente, e podem ser calculados por

v v
u n u n
2
u (xi x) u x2i n x2
u u
t i=1 t i=1
s= = (2.7)
n n
e
n n
(xi x)2 x2i n x2
i=1 i=1
s2 = = (2.8)
n n
Coeficiente de Variao
Muitas vezes, em situaes prticas, precisamos comparar a variabilidade de dois ou mais

conjuntos de dados. Ocorre que tais conjuntos podem estar descritos com diferentes unidades de
medidas, por exemplo: metros e quilos, impossibilitando a comparao atravs das varincias
ou dos desvios padro.
Para viabilizar comparaes desse tipo, definiu-se o Coeficiente de Variao (cv), que
presta-se para comparar disperses relativas de distribuies de dados, de mesma unidade ou
de unidades diferentes. Tal medida exprime a variao em relao a mdia e, independe de
unidades de medidas:
s
cv = 100% (2.9)
x
20
3 Testes de Hipteses de Uma Amostra
A estatstica inferencial um conjunto de tcnicas utilizadas com o objetivo de determinar

uma caracterstica da populao a partir dos valores de uma amostra. Os testes de hiptese
fazem parte destas tcnicas. Hiptese estatstica uma suposio sobre algum parmetro da
populao, que ser posta prova atravs do teste de hiptese.
De forma geral, os testes de hipteses so elaborados a partir de duas hipteses, nula (H0 )
e alternativa (H1 ). Na hiptese nula (H0 ) as diferenas observadas em relao aos valores
esperados, so consideradas fruto do acaso, devido a aleatoriedade dos dados. Na hiptese
alternativa (H1 ) considera-se que tais diferenas so devidas ao fato da populao ter realmente
tal caracterstica.
A relao existente entre as variveis traduzida pelo valor de p (ou, p-valor). Para
valores de p < rejeita-se a hiptese nula, ou seja, a probabilidade das diferenas registadas
na amostra serem devidas ao acaso muito pequena (existe portanto grande probabilidade de
estas diferenas existirem de fato na populao). No caso de p > , diz-se no existir evidncia
suficiente para rejeitar a hiptese nula (logo, aceita-se H0 ).
Protocolo para a realizao de um teste de hipteses:
(a) Enunciar claramente as hipteses H0 e H1 ;
(b) Fixar o nvel de significncia ( ). Em geral = 0,05 (5%);
(c) Calcular o valor da estatstica do teste, que depende do parmetro que se deseja testar;
(d) Deciso: Se p > aceita-se H0 , caso contrrio, rejeita-se H0 ;
(e) Enunciar claramente a concluso do teste.

3.1 Teste de Shapiro-Wilk para Normalidade da Populao 21
3.1 Teste de Shapiro-Wilk para Normalidade da Populao
Um fato importante a ser ressaltado que a validade dos resultados obtidos atravs
dos testes de hiptese paramtricos (teste t, anlise de varincia, entre outros) fortemente
dependente da normalidade dos dados analisados. Salvo raras excees, resultados de anlises
estatsticas efetuadas atravs de mtodos paramtricos no so confiveis se os dados no
pertencem a amostras extradas de populaes com distribuies normais (RODRIGUES;
IEMMA, 2005).
O teste de Shapiro-Wilk utilizado para verificar se a amostra provm, ou no, de uma

populao com distribuio normal. Portanto, este teste baseado nas seguintes hipteses:
H0 : A amostra provm de uma populao normal

H1 : A amostra no provm de uma populao normal
O primeiro passo para aplicao do teste de Shapiro-Wilk a ordenao crescente dos dados
amostrais. Assim, denotamos x1 o menor e xn o maior valor observado. O prximo passo o
clculo do valor da constante b, determinada da seguinte forma:
n/2
b = ani+1 (xni+1 xi ) (3.1)
i=1
em que os xi so os valores amostrais ordenado e os ani+1 so constantes tabeladas cujos

valores so apresentados no anexo E.
O valor observado da estatstica do teste de Shapiro-Wilk denotata por Wo e obtido atravs

da seguinte expresso:
b2 b2
Wo = n = n (3.2)
2
(xi x) x2i n x2
i=1 i=1
Os valores crticos para o teste de Shapiro-Wilk so apresentados no anexo F. Quanto maior

o valor observado da estatstica (Wo ), maior so as evidncias de que os dados so normais,
assim, caso o valor de Wo seja maior do que o valor crtico Wc , aceita-se H0 , ou seja, aceita-se
que a amostra provm de uma populao com distribuio normal.
Exemplo: Avaliar a normalidade dos dados de uma amostra aleatria do comprimento de

10 peas.
Tabela 3.1: Dados referentes ao comprimento, em centmetros, de 10 peas de uma amostra

aleatria.
1,90 2,22 2,10 1,69 1,52 2,75 2,31 1,98 1,42 1,99
Soluo manual:
Ordenando os dados amostrais fornecidos pela tabela 3.1 obtemos
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1,42 1,52 1,69 1,90 1,98 1,99 2,10 2,22 2,31 2,75
i ni+1 ani+1 xni+1 xi ani+1 (xni+1 xi )

1 10 0,5739 2,75 1,42 0,7633
2 9 0,3291 2,31 1,52 0,2600
3 8 0,2141 2,22 1,69 0,1135
4 7 0,1224 2,10 1,90 0,0245
5 6 0,0399 1,99 1,98 0,0004
Obtendo os valores de a da tabela do anexo E e multiplicando pela diferena entre os valores

de xni+1 e xi , conforme apresentado na tabela acima, podemos calcular o valor de b atravs da
equao 3.1, donde obtemos
n/2
b = ani+1 (xni+1 xi ) = 0,7633 + 0,2600 + 0,1135 + 0,0245 + 0,0004 = 1,1617 (3.3)
i=1
Utilizando a equao 3.2 podemos determinar o valor observado da estatstica (Wo ) do teste
de Shapiro-Wilk, dado por:
b2 1,16172
Wo = n = = 0,972 (3.4)
1,422 + 1,522 + . . . + 2,752 10 1,9882
x2i n x2
i=1
Considerando que o valor observado da estatstica (Wo ) maior do que o valor crtico (Wc =
0,842), dado pela tabela do anexo F, aceita-se H0 , ou seja, concluimos que a amostra provm
de uma populao com distribuio normal.
Soluo com o R Commander:
Para aplicar o teste de Shapiro-Wilk aos dados amostrais da tabela 3.1 com o R Commander,
o primeiro passo carregar tais valores no programa. Os dados devem ser informados em uma
nica coluna. Como visto na seo 1.2, uma das formas de carregar estes dados digit-los
diretamente no R Commander (Fig. 3.1).
Figura 3.1: Digitao dos dados amostrais diretamente no R Commander.
Em seguida podemos aplicar o teste de Shapiro-Wilk seguindo os seguintes passos:

[Estatsticas] [Resumos] [Teste de normalidade de Shapiro-Wilk...] (Fig. 3.2).
Figura 3.2: Aplicao do teste de Shapiro-Wilk no R Commander.
Uma janela ser aberta para informar qual varivel do conjunto de dados ativo deve ser
avaliada (Fig. 3.3).
Figura 3.3: Configurao da varivel para o teste de Shapiro-Wilk no R Commander.

Dois resultados do teste so apresentados na janela de resultados do R Commander, o valor

observado da estatstica, Wo = 0,9713, e o p-valor = 0,9024. Considerando que o p-valor
maior do que o nvel de significncia de 5% ( = 0,05), aceita-se H0 , ou seja, concluimos que
os dados amostrais provm de uma populao com distribuio normal.
25
4 Testes de Hipteses de Duas Amostras
4.1 Teste t para Amostras Pareadas
O chamado teste t apropriado para comparar dois conjuntos de dados quantitativos, em

termos de seus valores mdios. Nesta seo, trataremos do caso em que os dados so pareados.
Os pressupostos para a aplicao deste teste so os seguintes:
Dados pareados;
Normalidade da distribuio da varivel de interesse (D).
As hipteses do teste t so dadas a respeito da mdia populacional. Na hiptese nula (H0 )

admite-se que no h diferena entre as mdias populacionais das duas amostras, enquanto que
a hiptese alternativa (H1 ) admite que h diferena. A hiptese alternativa pode ser formulada
considerando simplesmente diferena (bilateral) ou admitindo-se que uma mdia maior do
que a outra (unilateral), dependendo do contexto do problema. Exemplo:
H0 : 1 = 2
H1 : 1 6= 2 (bilateral)
A estatstica do teste t para dados pareados baseia-se nos valores observados da varivel
D, definida pela diferena de valores de cada par de dados do experimento. Num estudo
antes-e-depois:
Di = (medida depois)i (medida antes)i (4.1)
Para encontrar a estatstica do teste, precisamos calcular a mdia (D) e o desvio padro (sD )
das diferenas, definidos respectivamente por:
v v
n u n u n
2 2
i D (D D) u D2i n D
u u
u i
i=1
t i=1 t i=1
D= e sD = = (4.2)
n n1 n1
4.1 Teste t para Amostras Pareadas 26
em que n o tamanho da amostra (nmero de pares observados).
A estatstica do teste conhecida como estatstica t para dados pareados, definida por:

D n
t= (4.3)
sD
O ltimo passo utilizar a tabela da distribuio t (anexo B) para determinar o p-valor,

utilizando o valor calculado de t e o nmero de graus de liberdade, dado por:
gl = n 1 (4.4)
Caso o p-valor seja menor do que o nvel de significncia ( ) rejeita-se H0 , ou seja,

concluimos que existe diferena significativa entre as mdias ao nvel de significncia adotado.
Caso contrrio, aceita-se que a diferena observada na amostra devida apenas ao acaso
(aleatoriedade dos dados amostrais), e que as populaes possuem mdias iguais.
Exemplo: Tendo interesse em estudar os efeitos de determinada dieta alimentar sobre o

aumento do peso corporal em cobaias adultas, um investigador tomou uma amostra de 9 cobaias.
Determinou seus pesos antes e trs meses aps a administrao da nova dieta. Com os dados a
seguir, analise o efeito da nova dieta, para = 0,05.
Tabela 4.1: Peso das cobaias antes e depois da aplicao da nova dieta.
Antes: 54 61 50 74 79 58 55 49 63
Depois: 57 66 53 73 82 58 56 53 63
Hipteses:
As hipteses deste problema so dadas em relao a mdia, por:
H0 : D = A ou D A = 0
H1 : D > A ou D A > 0 (unilateral)
Na hiptese nula (H0 ) considera-se a situao onde a dieta no altera o peso das cobaias, ou
seja, o peso mdio das cobaias antes da nova dieta ser o mesmo que o peso mdio depois da
nova dieta. Em contrapartida, a hiptese alternativa (H1 ) considera a situao onde a nova dieta
provoca aumento do peso mdio das cobaias, ou seja, a peso mdio das cobaias depois da nova
dieta ser maior do que o peso mdio antes da nova dieta.
Soluo manual:
O primeiro passo obter as diferenas entre o peso depois e o peso antes da nova dieta,
dadas por:
Tabela 4.2: Diferena entre os pesos antes e depois da aplicao da nova dieta.
Diferena (D): 3 5 3 -1 3 0 1 4 0
O prximo passo o clculo da mdia e do desvio padro da varivel D, equaes (4.2):
3 + 5 + 3 + (1) + 3 + 0 + 1 + 4 + 0
D= =2 (4.5)
9
s
32 + 52 + 32 + (1)2 + 32 + 02 + 12 + 42 + 02 9 22
sD = = 2,0616 (4.6)
91
A estatstica t determinada utilizando-se a equao (4.3):

2 9
t= = 2,9104 (4.7)
2,0616
Utilizando a equao (4.4) determinamos o nmero de graus de liberdade:
gl = 9 1 = 8 (4.8)
Atravs da tabela da distribuio t de Student (anexo B) obtemos o p-valor, observando a

linha correspondente ao gl = 8, verificando na tabela que t = 2,9104 est entre 1,860 e 2,306.
Logo, como ilustrado na figura 4.1, a probabilidade de significncia esta entre 0,005 e 0,01, ou
seja, 0,005 < p-valor < 0,01.
Figura 4.1: Utilizao da distribuio t de Student com gl = 8 para obteno da probabilidade

de significncia num teste unilateral com t = 2,9104.
Considerando que o p-valor menor do que 0,01, portanto, tambm menor do que =
0,05, rejeita-se H0 e conclui-se que h diferena significativa entre as mdias de peso ao nvel
de significncia de 5%. Ou seja, concluimos que a nova dieta provoca aumento de peso nas
cobaias ao nvel de significncia de 5%.
Para resolver o problema utilizando o R Commander, o primeiro passo o carregamento

dos dados da tabela 4.1. Para isso, podemos digit-los em uma planilha eletrnica do Excel ou
diretamento do R Commander. Para testes pareados os resultados devem ser informados
em duas colunas, neste caso, uma com os valores antes e outra com os valores depois da nova
dieta (Fig. 4.2).
Figura 4.2: Lanamento dos dados para o teste t para dados pareados no R Commander.
Aps os lanamento dos dados no prprio R Commander ou do carregamento dos dados

a partir de um arquivo, o prximo passo escolher o teste que deve ser aplicado. Para tanto,
clique nas seguintes opes: [Estatsticas] [Mdias] [Teste t (dados pareados)] (Fig.
4.3).
Figura 4.3: Aplicao do teste t para dados pareados.
Na janela que ser aberta deve-se escolher as variveis a serem comparadas, o nvel de
confina e a hiptese alternativa (Fig. 4.4).
4.2 Teste t para Amostras Independentes 29
Figura 4.4: Opes para a aplicao do teste t para dados pareados.
Os resultados do teste so apresentados na janela de resultados do R Commander. Dentre

outros valores apresentado o valor da estatstica t = 2,9104, e o p-valor = 0,009788.
Considerando que o p-valor menor do que 0,05, rejeitamos H0 , ou seja, concluimos que a
nova dieta provoca aumento de peso nas cobaias, ao nvel de significncia de 5%.
4.2 Teste t para Amostras Independentes
Nesta seo o teste t aplicado a casos onde desejamos comparar a mdia de duas amostras
aleatrias. Ao contrrio da seo anterior, trataremos do caso em que os dados no so pareados.
Pressupostos para aplicao do teste t para amostras independentes:
Aleatoriedade das amostras;
Normalidade da distribuio da varivel de interesse em cada grupo;
Homogeneidade das varincias amostrais dos grupos.
O objetivo deste mtodo verificar se existe, ou no, diferena estatstica significativa entre
as mdias de dois grupos. Logo, as hipteses deste teste realizar a comparao entre a mdia
de um grupo com a mdia de outro grupo.
Para aplicar o teste t para amostras independentes precisamos calcular inicialmente a mdia
e a varincia de cada grupo, utilizando as seguintes frmulas:
n n
x x2 n x2
i=1 i=1
x= e s2 = (4.9)
n n1
Como o tamanho da amostra do grupo 1 pode ser diferente do grupo 2, utiliza-se o

subscrito para identificar qual das amostras est sendo considerada. Assim, n1 , x1 e s21 so,
respectivamente, o tamanho da amostra, a mdia e a varincia do grupo 1, enquanto que n2 , x2

e s22 so, respectivamente, o tamanho da amostra, a mdia e a varincia do grupo 2.
O nmero de graus de liberdade (gl) para o teste t para amostras independentes dado por:
gl = n1 + n2 2 (4.10)
O desvio padro agregado (sa ) dado por:

s
(n1 1) s21 + (n2 1) s22
sa = (4.11)
gl
A estatstica do teste dada por:

x x2
t= r1 (4.12)
1 1
sa +
n1 n2
O ltimo passo a obteno do p-valor atravs da tabela da distribuio t (anexo B),

utilizando os valores de gl e t calculados.
Exemplo: Para comparar dois mtodos, A e B de ensinar matemtica para crianas,

aplicou-se o mtodo A num grupo de crianas e o mtodo B em outro grupo. A comparao
entre os dois grupos foi realizada atravs de uma avaliao que mensurou o conhecimento
de matemtica de cada criana. Os resultados obtidos so apresentados na tabela abaixo.
Determine ao nvel de significncia de 5% se existe diferena nos resultados obtidos pelos
diferentes mtodos.
Tabela 4.3: Notas da avaliao de matemtica obtidas pela crianas submetidas a dois mtodos
de ensino diferentes.
Mtodo de ensino A Mtodo de ensino B
45 51 50 62 43 45 35 43 59 48
42 53 50 48 55 45 41 43 49 39
Hipteses:
As hipteses para o teste so dadas por:
H0 : A = B ou A B = 0
H1 : A 6= B ou A B 6= 0
A hiptese nula admite que no existe diferena entre os mtodos de ensino, ou seja, em
mdia os mtodos produzem o mesmo resultado no desempenho dos alunos. Em contrapartida,
a hiptese alternativa diz que existe diferena entre os mtodos de ensino, ou seja, em mdia, os
alunos submetidos ao mtodo de ensino A tero desempenho diferente dos alunos submetidos
ao mtodo de ensino B.
Soluo manual:
O primeiro passo para resolver o problema o clculo da mdia e do desvio padro de cada
um dos dois grupos, utilizando as equaes (4.9) obtemos:
x1 = 49,9 x2 = 44,7 s1 = 5,9712 s2 = 6,4987 (4.13)
O nmero de graus de liberdade dado pela equao (4.10), donde temos:
gl = 10 + 10 2 (4.14)
Utilizando a equao (4.11) para calcular o desvio padro agregado temos:

r
(10 1) 5,97122 + (10 1) 6,49872
sa = = 6,2405 (4.15)
18
Utilizando a equao (4.12) obtemos a estatstica do teste:

49,9 44,7
t= r = 1,8632 (4.16)
1 1
6,2405 +
10 10
O prximo passo obter o p-valor atravs da tabela da distribuio t (anexo B). Para tanto,
olhamos na distribuio t a linha relacionada ao grau de liberdade (gl) igual a 18 e a coluna cujo
intervalo contenha o valor de t = 1,8632 (Fig. 4.5).
Figura 4.5: Utilizao da distribuio t de Student com gl = 18 para obteno da probabilidade

de significncia num teste unilateral com t = 1,8632.
Pela tabela da distribuio t de student (anexo B) obtemos um intervalo para o p-valor entre
0,025 e 0,05 para um teste unilateral. Lembrando que o problema dado bilateral (H1 : A 6=
B ), toma-se o dobro de cada um destes valores, obtendo-se ento 0,05 < p < 0,1.
Como o p-valor maior do que o nvel de significncia ( = 0,05), aceita-se H0 , ou seja,

ao nvel de significncia de 5%, conclui-se que no existe diferena no resultado mdio obtido
pelos diferentes mtodos de ensino.
O primeiro passo para resolver o problema com o R Commander a digitao dos resultados
obtidos no experimento. No teste t para amostras independentes os dados devem ser informados
em duas colunas, uma com as notas e a outra com o mtodo de ensino associado a cada nota
(Fig. 4.6). No incio de cada coluna deve ser informado um ttulo para os dados.
Figura 4.6: Digitao dos dados no Excel para aplicao do teste t para amostras independentes.
Os dados digitados em uma planilha do Excel devem ser importados para o R Commander
(conforme seo 1.2.1) informando um nome para o conjunto de dados. Para aplicar o teste
t para amostras independentes sobre o conjuto de dados ativo, siga os seguintes passos:
[Estatsticas] [Mdias] [Teste t para amostras independentes...] (Fig. 4.7)
Figura 4.7: Aplicao do teste t para amostras independentes no R Commander.
Uma janela ser aberta para configurar as informaes relativas ao teste: variveis que
contm o grupo e a resposta, o tipo de hiptese alternativa e o nvel de confiana (Fig. 4.8).
Figura 4.8: Configuraes para aplicao do teste t para amostras independentes bilateral e com
nvel de confiana de 95%..
Os resultados do teste sero apresentados na janela de resultados do R Commander. Dentre

os principais valores destacamos o valor da estatstica t = 1,8632 e o p-valor = 0,07883.
Considerando que o p-valor maior do que o nvel de significncia ( = 0,05) aceita-se H0 ,
ou seja, concluimos que no existe diferena significativa entre os dois mtodos de ensino de
matemtica.
34
5 Testes de Hipteses de Mais de Duas

Amostras
5.1 Anlise de Varincia para Um Fator (ANOVA)
A anlise de varincia (ANOVA) um teste de hipteses apropriado para comparar trs

ou mais conjuntos de dados quantitativos, em termos de seus valores mdios. Nesta seo em
particular, tratado o caso onde apenas um nico fator pode influenciar os resultados.
Pressupostos para a aplicao da anlise de varincia (ANOVA):
Aleatoriedade e independncia;
Normalidade dos valores da amostra em cada um dos grupos;
Homogeneidade de varincia dos grupos (varincia iguais em todos os grupos).
Considerando c grupos diferentes, as hipteses consideradas na anlise de varincia so:
H0 : 1 = 2 = ... = c
H1 : nem todas as mdias so iguais
Na hiptese nula (H0 ) considera-se que o fator variado entre os grupos no afeta de forma
significativa a mdia dos resultados obtidos. Em contrapartida, a hiptese alternativa (H1 )
admite que ao menos uma das mdias diferente das demais devido ao fator considerado.
O primeiro passo para obter a estatstica F, utilizada na anlise de varincia, o clculo

da mdia geral (x) e da mdia de cada grupo (x j , onde j indica o grupo). Estes valores so
definidos por:
c nj
xi j
j=1i=1
x= (5.1)
n
5.1 Anlise de Varincia para Um Fator (ANOVA) 35
nj
xi j
i=1
xj = (5.2)
nj
onde c o nmero de grupos, xi j o i-simo valor do grupo j, n o nmero total de amostras e
n j o nmero de amostras do grupo j.
O prximo passo o clculo da variao total (ST ), da variao entre os grupos (SE ) e
da variao dentro dos grupos (SD ). Estas variaes so tambm conhecidas respectivamente
como: soma dos quadrados total, soma dos quadrados entre os grupos e soma dos quadrados
dentro dos grupos. As expresses para o clculo destes valores so apresentados nas equaes
seguintes:
c nj
2
ST = ij
x x (5.3)
j=1 i=1
c 2
SE = n j x j x (5.4)
j=1
c nj 2
SD = xi j x j (5.5)
j=1 i=1
A variao dentro dos grupos pode ser calculada pela diferena entre a variao total ST e
a variao entre os grupos SE , ou seja
SD = ST SE (5.6)
Na sequncia devemos calcular a mdia total dos quadrados (MQ ), a mdia dos quadrados
entre os grupos (ME ) e a mdia dos quadrados dentro dos grupos (MD ), dadas respectivamente
por:
ST
MQ = (5.7)
n1
SE
ME = (5.8)
c1
SD
MD = (5.9)
nc
Por fim, calcula-se o valor observado da estatstica F (Fo ), dada por

ME
Fo = (5.10)
MD
a qual segue uma distribuio F, com c 1 graus de liberdade no numerador e n c graus de
liberdade no denominador.
O valor do F crtico (Fc ) obtido da tabela da distribuio F (anexo C) considerando a

(c 1)-sima linha e a (n c)-sima coluna. Se Fo > Fc rejeita-se H0 , caso contrrio, aceita-se

H0 (Fig. 5.1).
Figura 5.1: Grfico da distribuio F com as regies de aceitao e rejeio de H0 .
Quando conclui-se pela anlise de varincia que existe diferena entre as mdias dos
grupos, no obtem-se quais dos grupos possui mdia diferente dos demais. Para responder
tal questo utiliza-se um teste auxiliar chamado teste de Tukey, apresentado na sequncia.
5.1.1 Teste de Tukey
O teste de Tukey um dos testes de comparao de mdia mais utilizados, por ser bastante
rigoroso e de fcil aplicao. Este teste utilizado para testar toda e qualquer diferena entre
duas mdias de tratamento.
O teste de Tukey faz a comparao entre a mdia de dois em dois grupos. Para cada par
de grupos (denotados por i e j) que sero comparados, o primeiro passo para aplicar o teste de
Tukey calcular o intervalo crtico (Ic ) dado por:
s
MD 1 1
Ic = Qc + (5.11)
2 ni n j
onde Qc o valor crtico da cauda superior, a partir da distribuio de intervalos de Student,

possuindo c tratamentos e n c graus de liberdade no denominador (anexo D).
Conhecido o intervalo crtico (Ic ), deve-se calcular o mdulo da diferena entre as mdias
dos grupos i e j, ou seja:
|xi x j | (5.12)
Quando esta diferena maior do que o intervalo crtico conclui-se que existe diferena
significativa entre as mdias dos grupos i e j, caso contrrio conclui-se que as mdias dos
grupos i e j so iguais.
Exemplo: Voc supervisiona a produo de uma padaria, cujos pes so fabricados com
farinha oriunda de um dentre quatro diferentes fornecedores. A qualidade dos pes produzidos
uma caracterstica importante que garante o aumento das vendas e consequentemente da
produo. Estabelea se os pes produzidos com as diferentes marcas de farinha so igualmente
saborosos com base nos dados amostrais abaixo.
Tabela 5.1: Notas atribuidas pela anlise sensorial dos pes produzidos com a farinha de quatro
diferentes fornecedores.
Forncedor A Forncedor B Forncedor C Forncedor D
68,5 76,3 70,6 75,4
74,0 75,3 75,2 69,9
67,2 74,0 70,8 72,6
69,9 71,2 74,7 67,5
68,0 74,5 72,9 70,4
n
x 347,6 371,3 364,2 355,8
i=1
xj 69,52 74,26 72,84 71,16
Hipteses:
As hipteses para a anlise de varincia so as seguintes:
H0 : A = B = C = D
H1 : ao menos uma das mdias diferente
A hiptese nula (H0 ) considera que as farinhas de todos os quatro diferentes fornecedores
produzem em mdia pes com a mesma qualidade sensorial. Em contrapartida, a hiptese
alternativa (H1 ) considera o fato de que o fator fornecedor afeta a qualidade sensorial dos pes,
dizendo que existe diferena em ao menos uma das mdias comparada as outras.
Soluo manual:
A mdia geral definida pela equao (5.1) fornece:
x = 71,945 (5.13)
Os valores das mdias de cada grupo so dados na tabela do problema. As variaes total,
entre grupos e dentro dos grupos, dadas respectivamente pelas equaes (5.3), (5.4) e (5.6)
fornecem
ST = 160,7895 (5.14)
SE = 63,2855 (5.15)
SD = 160,7895 63,2855 = 97,5040 (5.16)
Na sequncia so obtidas as mdias entre grupos e dentro dos grupos, utilizando as equaes
(5.8) e (5.9) obtemos
SE 63,2855
ME = = = 21,0952 (5.17)
c1 41
SD 97,5040
MD = = = 6,0940 (5.18)
nc 20 4
Por fim, podemos calcular o valor de F observado (Fo ) atravs da equao (5.10)
ME 21,0952
Fo = = = 3,4616 (5.19)
MD 6,0940
Pela tabela da distribuio F com nvel de significncia de 5% (anexo C), considerando

c 1 graus de liberdade no numerador e n c graus de liberdade no denominador, obtemos o
valor do F crtico (Fc = 3,24). Como o valor de Fo > Fc rejeita-se H0 , ou seja, concluimos que
existe diferena sensorial mdia entre os diferentes fornecedores de farinha.
Para identificar quais os pares de mdias que so significativamente diferentes aplicamos o

teste de Tukey. Como todos os grupos possuem amostras do mesmo tamanho, calcula-se apenas
um nico valor para o invevalor crtico. Pela valor da dcima sexta coluna e terceira linha da
tabela da distribuio de intervalos de Student (anexo D) obtemos o valor crtico da amplitude
de Student (Qc = 3,65). Utilizando a equao 5.11 obtemos
s
6,0940 1 1
Ic = 4,05 + = 4,4712 (5.20)
2 5 5
Por fim, calcula-se o mdulo da diferena entre a mdias para cada combinao de
fornecedores, donde obtemos:
A=B: |xA xB | = |69,52 74,26| = 4,74 > 4,4712

A=C : |xA xC | = |69,52 72,84| = 3,32 < 4,4712
A=D: |xA xD | = |69,52 71,16| = 1,64 < 4,4712
B=C : |xB xC | = |74,26 72,84| = 1,42 < 4,4712
B=D: |xB xD | = |74,26 71,16| = 3,10 < 4,4712
C=D: |xC xD | = |72,84 71,16| = 1,68 < 4,4712
Na comparao entre o valor absoluto das diferenas com o valor do intervalo crtico,
observa-se que apenas os fornecedor A com o fornecedor B apresenta diferena significativa
(denotada por ).
A forma de informar os dados do experimento ao R Commander similar a do teste t para

amostras independentes. Novamente na primeira linha colocada o nome de cada varivel. Na
primeira coluna informado o fornecedor e na segunda coluna informada a respectiva nota
(Fig. 5.2).
Figura 5.2: Digitao dos dados no Excel para aplicao da anlise da varincia pelo R
Commander.
Caso os dados forem digitados em uma planilha do Excel, o prximo passo import-la
para o R Commander. Em seguida, para aplicar a anlise de varincia execute os seguintes
passos: [Estatsticas] [Mdias] [ANOVA para um fator (one way)...] (Fig. 5.3).
Figura 5.3: Aplicao da anlise de varincia no R Commander.
Uma janela ser aberta para informar o nome da coluna que contm os grupos e a
que contm a varivel resposta. O teste de Tukey pode ser aplicado ativando-se a opo
Comparao de mdias 1 a 1 nesta janela (Fig. 5.4).
Figura 5.4: Configurao da anlise de varincia no R Commander.
Na janela de resultados do R Commander so apresentados os resultados inerentes a anlise

de varincia. Dentre os principais resultados apresentada uma tabela com a soma dos
quadrados dentro dos grupos e entre os grupos (Sum Sq). Ao lado apresentado as mdias
dentro dos grupos e entre grupos (Mean Sq) e em seguida o F observado (F value) e o
p-valor (Pr(>F)) (Fig. 5.5).
Figura 5.5: Principais resultados da anlise de varincia apresentados pelo R Commander.
Caso o teste de Tukey tenha sido ativado, informaes a respeito da comparao entre
as mdias obtidas pelos diferentes grupos sero apresentado na janela de resultados. Um
resumo do teste apresentado em uma tabela que mostra cada uma das comparaes realizadas,
juntamente com o valor da estatstica t e o p-valor. Um cdigo apresentado onde detectada

diferena significativa entre as mdias: para 10%, para 5% e para 1%.
Figura 5.6: Principais resultados do teste de Tukey apresentados no R Commander.
Exerccio: Os prximos dados referem-se reduo no peso corporal de animais de

laboratrio submetidos a diferentes dietas. Os animais foram previamente divididos em cinco
grupos, por faixa de peso no incio do experimento. Compare as dietas entre si e verifique
tambm se a reduo no peso varia entre as faixas de peso. Use 0,05 como nvel de significncia
no teste.
Faixa de peso Dieta A Dieta B Dieta C Total (B)

I 15 10 12 37
II 17 8 16 41
III 20 12 16 48
IV 24 16 15 55
V 19 18 22 59
x 95 64 81 240
x2 1851 888 1365 4104
5.1.2 Teste de Levene para Homogeneidade da Varincia
Embora a anlise de varincia de fator nico seja relativamente robusto com respeito ao
pressuposto de varincias iguais nos grupos, grandes diferenas nas varincias dos grupos
podem afetar seriamente o nvel de significncia e a eficcia do teste. Um dos procedimentos
com alta eficcia estatstica o teste de Levene. Para testar a homogeneidade da varincia,
utilize as seguintes hipteses:
H0 : 12 = 22 = ... = c2
H1 : Nem todas as varincias so iguais
O primeiro passo para aplicar o teste de Levene obter a mediana de cada grupo. Em
seguida, calcula-se o valor absoluto da diferena entre cada valor amostral e a mediana do
grupo a qual ele pertence. Sobre os resultados obtidos aplica-se a anlise de varincia. Caso o
p-valor deste teste for maior do que o nvel de significncia, aceita-se H0 , ou seja, conclui-se
que as varincias so iguais em todos os grupos.
43
Referncias Bibliogrficas
BARBETTA, P. A. Estatstica aplicada s Cincias Sociais. 7. ed. Florianpolis, SC: Ed. da

UFSC, 2008.
FOX, J. The R Commander: A basic-statistics graphical user interface to R. Hamilton, Ontario,

Canada, September 2005. v. 14, n. 9.
LEVINE, D. M. et al. Estatstica: teoria e aplicaes. Rio de Janeiro: LTC, 2008.
RODRIGUES, M. I.; IEMMA, A. F. Planejamento de experimentos e otimizao de processos:

Uma estratgia sequencial de planejamentos. 1. ed. Campinas, SP: Casa do Po Editora, 2005.
TEAM, R. D. C. R: A Language and Environment for Statistical Computing. Vienna, Austria,

2009. Disponvel em: <http://www.R-project.org>.
44
ANEXO A -- Tabela da distribuio Normal

45
ANEXO B -- Tabela da distribuio t de Student

46
ANEXO C -- Tabela da distribuio F de Fisher

47
ANEXO D -- Tabela da Distribuio de Intervalos de

Student
48
ANEXO E -- Tabela dos Coeficientes para o Teste de

Shapiro-Wilk
49
ANEXO F -- Tabela dos Valores Crticos do Teste de

Shapiro-Wilk

Desvendando A Estatistica Com o R Commander

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Desvendando A Estatistica Com o R Commander

Enviado por

Direitos autorais:

Formatos disponíveis

UTFPR - Universidade Tecnolgica Federal do Paran

Prof. MSc. Jonas Joacir Radtke

1.1 Instalao do R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . p. 3

1.2 Dados no R Commander . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

1.2.1 Importao de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 5

1.2.2 Transformao de Dados . . . . . . . . . . . . . . . . . . . . . . . . p. 8

1.2.3 Converso de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . p. 10

2.2 Medidas Descritivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 16

3 Testes de Hipteses de Uma Amostra p. 20

3.1 Teste de Shapiro-Wilk para Normalidade da Populao . . . . . . . . . . . . p. 21

4 Testes de Hipteses de Duas Amostras p. 25

4.1 Teste t para Amostras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

4.2 Teste t para Amostras Independentes . . . . . . . . . . . . . . . . . . . . . . p. 29

5 Testes de Hipteses de Mais de Duas Amostras p. 34

5.1 Anlise de Varincia para Um Fator (ANOVA) . . . . . . . . . . . . . . . . . p. 34

5.1.1 Teste de Tukey . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 36

5.1.2 Teste de Levene para Homogeneidade da Varincia . . . . . . . . . . p. 41

Anexo B -- Tabela da distribuio t de Student p. 45

Anexo C -- Tabela da distribuio F de Fisher p. 46

Anexo D -- Tabela da Distribuio de Intervalos de Student p. 47

Anexo E -- Tabela dos Coeficientes para o Teste de Shapiro-Wilk p. 48

Anexo F -- Tabela dos Valores Crticos do Teste de Shapiro-Wilk p. 49

O presente material pretende apresentar de forma bastante sucinta as ideias relacionadas

O R um programa estatstico muito utilizado no meio acadmico e comercial. Dentre as

1.1 Instalao do R Commander

O primeiro passo para a utilizao do R Commander a instalao do programa R. O

Aps o download e a instalao do programa R, o prximo passo a instalao dos pacotes

Figura 1.1: Instalao de pacotes no R.

Para inicializar o R Commander digite o seguinte comando no terminal do R:

Figura 1.2: Viso geral do R Commander.

1.2 Dados no R Commander

1.2.1 Importao de Dados

A forma mais comum de obter os dados para o R Commander atravs de arquivos

Importao de Arquivos do Excel

O R Commander possui uma opo de importao dos dados de planilhas do Excel e de

Figura 1.3: Importao de dados de arquivos do Excel.

Importao de Arquivos CSV

Figura 1.4: Escolha do delimitador de campo para arquivos CSV no Calc.

A importao de dados de arquivos com extenso CSV realizada de forma similar a de

Figura 1.5: Importao de dados de arquivos com extenso CSV.

Cuidados na Elaborao e Importao de Planilhas de Dados

Cuidados ao digitar os dados nas planilhas:

A planilha deve conter apenas o nome da varivel e os dados do experimento.

A utilizao de clulas mescladas no permitida.

Evite a utilizao de nomes compostos e/ou muito compridos;

Visualize os dados no R Commander clicando em Ver conjunto de dados para

1.2.2 Transformao de Dados

Em algumas situaes necessrio realizar a transformao dos dados amostrais, com

Em muitas situaes prticas a escolha da transformao para melhorar a aproximao

Para ilustrar como realizada a transformao de dados no R Commander tomamos como

O primeiro passo a digitao destes valores em um nica coluna no R Commander,

Figura 1.7: Planilha do R Commander com os dados originais (cont) e transformados

Figura 1.8: Opo no R Commander para criar uma varivel transformada.

Figura 1.9: Configurao do nome da nova varivel e da expresso para realizar a

Os resultados da nova varivel, chamada raiz_cont, so apresentados na segunda coluna da

Figura 1.10: Histogramas da varivel original (cont) e da varivel transformada (raiz_cont).

1.2.3 Converso de Dados

Exemplo: A tabela abaixo possui a nota de estatstica de uma amostra de 8 alunos.

Tabela 1.2: Notas de estatstica de uma amostra de 8 alunos.

Figura 1.11: Notas e conceitos de estatstica na amostra de alunos no R Commander.

Figura 1.12: Opo no R Commander para converso de dados.

Para compreender as diversas ferramentas da estatstica descritiva considere o seguinte

Exemplo: Na tabela abaixo so apresentadas 48 medidas em milmetros do comprimento