Escolar Documentos
Profissional Documentos
Cultura Documentos
Desvendando A Estatistica Com o R Commander
Desvendando A Estatistica Com o R Commander
Desvendando a Estatística
com o R Commander
1 Introdução p. 3
2 Estatística Descritiva p. 13
2.1 Gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 14
Referências Bibliográficas p. 43
Anexo A -- Tabela da distribuição Normal p. 44
1 Introdução
Convém resaltar que a utilização direta de softwares amigáveis, sem o prévio conhecimento
dos fundamentos da metodologia, pode constituir um grande risco e levar o usuário a
interpretações perigosamente equivocadas (RODRIGUES; IEMMA, 2005).
http://cran.r-project.org/
> require(Rcmdr)
Na primeira vez que o R Commander for inicializado será solicitada a instalação de vários
pacotes necessários para o seu correto funcionamento. Aceite a solicitação, escolha o espelho
para download dos pacotes e aguarde a finalização da instalação e a abertura do R Commander
(Fig. 1.2).
Os dados utilizados pelo R Commander podem ser digitados diretamente nele, seguindo
os seguintes passos: [Dados] ◮ [Novo conjunto de dados...], e em seguinda escolhendo um
nome para o conjunto de dados. Contudo, na prática, os resultados são digitados em planilhas
eletrônicas para posteriormente serem importados para os programas estatísticos.
Uma janela será aberta para que seja informado o nome do conjunto de dados. Na
sequência, outra janela será aberta para que seja selecionado o arquivo do Excel. Após escolher
o arquivo de origem dos dados será solicitada a planilha do arquivo que deve ser importada,
caso o arquivo possua mais de uma planilha.
1.2 Dados no R Commander 6
Todas as planilhas de arquivos do Excel e do Calc podem ser salvas com extensão CSV. Para
fazer isto, abra o arquivo no programa Excel ou Calc e execute os seguintes passos: [Arquivo]
◮ [Salvar como...]. Na janela que abrir informe o nome do arquivo e, logo abaixo, escolha a
opção “CSV (separado por vírgulas)” no Excel ou “Texto CSV (.csv)” no Calc.
Apesar do Excel informar que o os campos serão separados por vírgula, eles serão separador
por ponto e vírgula. No Calc uma janela será aberta para escolher o delimitador de campo, que
deve ser alterado para ponto e vírgula (Fig. 1.4), porque, no Brasil, a vírgula é utilizada como
separador de decimais.
Na janela que abrirá escolha um nome para o conjunto de dados, altere o separador de
campos para “Outro - Defina: [;]” e o separador de decimais para “Vírgula [,]” (Fig. 1.6).
Logo após, será aberta uma janela para informar o nome do arquivo com formato CSV que
deseja importar.
1.2 Dados no R Commander 7
Figura 1.6: Definição de parâmetros para importação de dados de arquivos com extensão CSV.
• O nome das variáveis de uma determinada coluna deve estar na primeira linha;
• Não devem ser utilizados caractéres especiais (ç, ascentos, entre outros) nos dados
informados na planilha;
Dicas:
• Exclua todas as linhas e colunas da planilha que já haviam sido utilizadas e que não
pertençam ao conjunto de dados do experimento;
A normalidade dos dados é uma exigência comum para a aplicação de testes de hipótese.
Se a suposição de normalidade dos dados não é aceitável, podemos adotar a estratégia de
transformação da variável. Transformações são nada mais do que uma forma de reescrever
os dados numa unidade diferente.
√
• Contagens: x - Contribui para tornar as variâncias muito menores e desta forma mais
facilmente obter homocedasticidade (variâncias iguais).
√
1 x
• Proporções: log ou arcsen ( x) - Contribuem para alterar a forma da
2 1−x
distribuição dos dados.
1 1+x
• Correlações: Fisher: z(x) = log
2 1−x
• Concentrações: log(x) ou ln(x) - Contribui para tornar as variâncias muito menores e
desta forma mais facilmente obter homocedasticidade.
Tabela 1.1: Dados amostrais referentes ao número diário de peças defeituosas em uma linha de
produção.
4 5 4 3 2 9 5 4 2 4
Para criar uma nova variável com os dados transformados deve-se seguir os seguintes
passos: [Dados] ◮ [Modificação de variáveis no conjunto de dados...] ◮ [Computar nova
variável...] (Fig. 1.8).
Uma janela será aberta para informar o nome da nova variável e a expressão matemática
para calcular os valores desta variável (raiz = sqrt, arcsen = asin, log10 = log10 e ln = log).
1.2 Dados no R Commander 10
Muitas vezes necessita-se converter dados amostrais em formato numérico para um fator,
ou vice-versa. O R Commander possui uma opção para fazer isto de forma automática. Para
exemplificar o uso desta opção considere o seguinte exemplo:
O primeiro passo é informar ou importar estes valores para o R Commander (1a coluna da
Fig. 1.11).
Para converter cada nota em um conceito (fator), siga os seguintes passos: [Dados] ◮
[Modificação de variáveis no conjunto de dados...] ◮ [Recodificar variável...] (Fig. 1.12).
Uma janela será aberta para informar o nome da nova variável e as definições para
recodificação (Fig. 1.13). O comando “:” é utilizado para indicar sequência, ou seja, a primeira
linha da definição abaixo diz que o conceito “D” corresponde as notas entre 0 e 5,9. O resultado
da conversão é apresentada na segunda coluna da figura 1.11. A conversão de fatores para dados
numéricos segue a mesma metodologia.
1.2 Dados no R Commander 12
Figura 1.13: Configuração no R Commander do nome da nova variável e das definições para
recodificação.
13
2 Estatística Descritiva
A estatística descritiva é um ramo da estatística que aplica várias técnicas para descrever e
sumarizar um conjunto de dados. O tratamento dos dados na estatística descritiva tem como
objetivo organizá-los e resumi-los, a fim de facilitar a interepretação de uma determinada
variável através de uma amostra.
Uma tabela de números não é nada interessante para um engenheiro que deseja analisar
a qualidade das peças produzidas. A questão que a estatística descritiva deseja responder
é de como este conjunto de informações pode ser apresentado de forma resumida e de fácil
interpretação.
2.1 Gráficos
Sem a menor dúvida, a melhor maneira de analisar uma série de dados é graficamente.
A tentativa de ver padrões e tendências em uma relação de dados escritos em uma tabela
certamente resultará em fracasso, especialmente quando o número de dados é grande.
Para criar um gráfico (histograma) dos resultados apresentados na tabela 2, o primeiro passo
é determinar em quantas classes (k) os valores serão divididos. Este valor comumente é dado
pela raiz quadrada do tamanho da amostra (n), ou seja,
√ √
k= n = 40 ≈ 6,3245 (2.1)
Assim, para este exemplo, podemos utilizar 6 ou 7 classes no histograma. Optaremos por 6
classes. O próximo passo é calcular a amplitude total (AT ) da amostra, que é dada pela diferença
entre o maior e o menor valor observado (xi ), ou seja,
Para definir o intervalo referente a cada classe calcula-se a amplitude de classe (AC ), dada
por:
AT 4,57
AC = = = 0,7617 (2.3)
k 6
O início da primeira classe pode ser arredondado para baixo para utilizar um valor que
facilite a interpretação do gráfico. A amplitude de classe também pode ser arredondada, para
cima ou para baixo, com o mesmo objetivo. Tais arredondamentos podem variar um pouco o
número de classes pré-definido sem perda da qualidade do resultado.
8
6
4
2
0
Conjunto1$comprimento
Figura 2.2: Opção no R Commander para criação de histograma de uma variável do conjunto
de dados ativo.
Na janela aberta (Fig. 2.3) deve-se escolher a variável a ser plotada e o número de classes
utilizado no histograma. O R Commander ajusta este valor caso julge necessário para melhorar
a apresentação do gráfico.
Medidas descritivas são valores que resumem uma característica de um conjunto de dados.
Podem ser utilizadas de forma alternativa ou complementar ao uso de gráficos, para descrever
e explorar dados quantitativos.
Todas as medidas descrivivas apresentadas nesta seção podem ser obtidas no R Commander
seguindo os seguintes passos: [Estatísticas] ◮ [Resumos] ◮ [Resumos numéricos...] (Fig.
2.4). A escolha de quais variáveis e medidas serão apresentadas é realizada na janela que se
abrirá. Os resultados são apresentados na janela de resultados do R Commander com a seguinte
notação: “mean”, “sd” e “cv”, respectivamente para a média, o desvio padrão e o coeficiente de
variação.
2.2 Medidas Descritivas 17
Figura 2.4: Opção no R Commander para obtenção das principais medidas descritivas.
Média
A média (ou média aritmética) é uma das principais medidas descritivas. Ela fornece uma
valor típico do conjunto de dados. Duas médias aritméticas diferentes são consideradas ao longo
deste material, a média populacional (µ ) e a média amostral (x). A primeira, em geral, não pode
ser encontrada, pois para isto teriamos que conhecer todos os valores de uma população.
Mediana
Além da média, uma propriedade de um conjunto de dados pode ser resumido utilizando
a mediana (Md ). Esta medida tem o mesmo objetivo da média, mas é menos sensível a
valores discrepantes. Para determinar a mediana devemos colocar os dados amostrais em ordem
crescente. A mediana é dada pelo dado amostral que divide tal ordenação ao meio. A posição
(l) do valor da mediana na ordenação é dada por:
n+1
l= (2.6)
2
2.2 Medidas Descritivas 18
Se l for fracionário, toma-se como mediana a média dos valores de posições mais próximas
a l.
Para os dados amostrais da tabela 2 temos que a posição da mediana é dada por l = (40 +
1)/2 = 20,5. Colocando os dados em ordem crescente observamos que os valores de posição
20 e 21 são respectivamente iguais a 100,17 e 100,24. Logo, a mediana é Md = (100,17 +
100,24)/2 = 100,205.
Quartis e Extremos
Os quartis são valores que junto com a mediana dividem a amostra em quatro partes iguais,
cada uma contendo 25% dos dados. Na prática, podemos utilizar os cálculos realizados para
obter uma mediana para a primeira metade dos dados (valores menores do que a mediana) e
outra mediana para a segunda metade (valores maiores que a mediana). Estes dois divisores são
chamados respectivamente de quartil inferior (QI ) e quartil superior (QS ).
Para os dados amostrais da tabela 2 temos que a mediana tem posição l = 20,5.
Arredondando este valor para baixo calculamos a posição do quartil inferior [l = (20 + 1)/2 =
10,5]. Assim, o valor do quartil inferior é dado pela média dos valores das posições 10 e 11, ou
seja, QI = (99,18 + 99,25)/2 = 99,215.
O valor do quartil superior pode ser calculado utilizando a(s) mesma(s) posição(ões) já
determinadas para o quartil inferior, a diferença é que para o quartil superior conta-se a posição
do último para o primeiro, como se os dados fossem ordenados decrescentemente. Portanto, o
quartil superior é igual a QS = (100,92 + 100,82)/2 = 100,87.
Os extremos inferior EI e superior ES são dados, respectivamente, pelo menor e maior valor
observado na amostra. Nos dados amostrais apresentados na tabela 2 temos que o extremo
inferior (EI ) é igual a 97,57 e o extremo superior (ES ) igual a 102,14.
Coeficiente de Variação
Para viabilizar comparações desse tipo, definiu-se o Coeficiente de Variação (cv), que
presta-se para comparar dispersões relativas de distribuições de dados, de mesma unidade ou
de unidades diferentes. Tal medida exprime a variação em relação a média e, independe de
unidades de medidas:
s
cv = · 100% (2.9)
x
20
De forma geral, os testes de hipóteses são elaborados a partir de duas hipóteses, nula (H0 )
e alternativa (H1 ). Na hipótese nula (H0 ) as diferenças observadas em relação aos valores
esperados, são consideradas fruto do acaso, devido a aleatoriedade dos dados. Na hipótese
alternativa (H1 ) considera-se que tais diferenças são devidas ao fato da população ter realmente
tal característica.
A relação existente entre as variáveis é traduzida pelo valor de p (ou, p-valor). Para
valores de p < α rejeita-se a hipótese nula, ou seja, a probabilidade das diferenças registadas
na amostra serem devidas ao acaso é muito pequena (existe portanto grande probabilidade de
estas diferenças existirem de fato na população). No caso de p > α , diz-se não existir evidência
suficiente para rejeitar a hipótese nula (logo, aceita-se H0 ).
(c) Calcular o valor da estatística do teste, que depende do parâmetro que se deseja testar;
Um fato importante a ser ressaltado é que a validade dos resultados obtidos através
dos testes de hipótese paramétricos (teste t, análise de variância, entre outros) é fortemente
dependente da normalidade dos dados analisados. Salvo raras exceções, resultados de análises
estatísticas efetuadas através de métodos paramétricos não são confiáveis se os dados não
pertencem a amostras extraídas de populações com distribuições normais (RODRIGUES;
IEMMA, 2005).
O primeiro passo para aplicação do teste de Shapiro-Wilk é a ordenação crescente dos dados
amostrais. Assim, denotamos x1 o menor e xn o maior valor observado. O próximo passo é o
cálculo do valor da constante b, determinada da seguinte forma:
n/2
b = ∑ an−i+1 · (xn−i+1 − xi ) (3.1)
i=1
em que os xi são os valores amostrais ordenado e os an−i+1 são constantes tabeladas cujos
valores são apresentados no anexo E.
Os valores críticos para o teste de Shapiro-Wilk são apresentados no anexo F. Quanto maior
o valor observado da estatística (Wo ), maior são as evidências de que os dados são normais,
assim, caso o valor de Wo seja maior do que o valor crítico Wc , aceita-se H0 , ou seja, aceita-se
que a amostra provém de uma população com distribuição normal.
Solução manual:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
1,42 1,52 1,69 1,90 1,98 1,99 2,10 2,22 2,31 2,75
Utilizando a equação 3.2 podemos determinar o valor observado da estatística (Wo ) do teste
de Shapiro-Wilk, dado por:
b2 1,16172
Wo = n = = 0,972 (3.4)
1,422 + 1,522 + . . . + 2,752 − 10 · 1,9882
∑ x2i − n · x2
i=1
Considerando que o valor observado da estatística (Wo ) é maior do que o valor crítico (Wc =
0,842), dado pela tabela do anexo F, aceita-se H0 , ou seja, concluimos que a amostra provém
de uma população com distribuição normal.
3.1 Teste de Shapiro-Wilk para Normalidade da População 23
Para aplicar o teste de Shapiro-Wilk aos dados amostrais da tabela 3.1 com o R Commander,
o primeiro passo é carregar tais valores no programa. Os dados devem ser informados em uma
única coluna. Como visto na seção 1.2, uma das formas de carregar estes dados é digitá-los
diretamente no R Commander (Fig. 3.1).
Uma janela será aberta para informar qual variável do conjunto de dados ativo deve ser
avaliada (Fig. 3.3).
• Dados pareados;
As hipóteses do teste t são dadas a respeito da média populacional. Na hipótese nula (H0 )
admite-se que não há diferença entre as médias populacionais das duas amostras, enquanto que
a hipótese alternativa (H1 ) admite que há diferença. A hipótese alternativa pode ser formulada
considerando simplesmente diferença (bilateral) ou admitindo-se que uma média é maior do
que a outra (unilateral), dependendo do contexto do problema. Exemplo:
H0 : µ1 = µ2
H1 : µ1 6= µ2 (bilateral)
A estatística do teste t para dados pareados baseia-se nos valores observados da variável
D, definida pela diferença de valores de cada par de dados do experimento. Num estudo
antes-e-depois:
Di = (medida depois)i − (medida antes)i (4.1)
Para encontrar a estatística do teste, precisamos calcular a média (D) e o desvio padrão (sD )
das diferenças, definidos respectivamente por:
v v
n u n u n
2 2
∑ i D ∑ (D − D) u ∑ D2i − n · D
u u
u i
i=1
t i=1 t i=1
D= e sD = = (4.2)
n n−1 n−1
4.1 Teste t para Amostras Pareadas 26
A estatística do teste é conhecida como estatística t para dados pareados, definida por:
√
D· n
t= (4.3)
sD
gl = n − 1 (4.4)
Tabela 4.1: Peso das cobaias antes e depois da aplicação da nova dieta.
Antes: 54 61 50 74 79 58 55 49 63
Depois: 57 66 53 73 82 58 56 53 63
Hipóteses:
H0 : µD = µA ou µD − µA = 0
H1 : µD > µA ou µD − µA > 0 (unilateral)
Na hipótese nula (H0 ) considera-se a situação onde a dieta não altera o peso das cobaias, ou
seja, o peso médio das cobaias antes da nova dieta será o mesmo que o peso médio depois da
nova dieta. Em contrapartida, a hipótese alternativa (H1 ) considera a situação onde a nova dieta
provoca aumento do peso médio das cobaias, ou seja, a peso médio das cobaias depois da nova
dieta será maior do que o peso médio antes da nova dieta.
4.1 Teste t para Amostras Pareadas 27
Solução manual:
O primeiro passo é obter as diferenças entre o peso depois e o peso antes da nova dieta,
dadas por:
Tabela 4.2: Diferença entre os pesos antes e depois da aplicação da nova dieta.
Diferença (D): 3 5 3 -1 3 0 1 4 0
3 + 5 + 3 + (−1) + 3 + 0 + 1 + 4 + 0
D= =2 (4.5)
9
s
32 + 52 + 32 + (−1)2 + 32 + 02 + 12 + 42 + 02 − 9 · 22
sD = = 2,0616 (4.6)
9−1
gl = 9 − 1 = 8 (4.8)
Considerando que o p-valor é menor do que 0,01, portanto, também é menor do que α =
0,05, rejeita-se H0 e conclui-se que há diferença significativa entre as médias de peso ao nível
4.1 Teste t para Amostras Pareadas 28
de significância de 5%. Ou seja, concluimos que a nova dieta provoca aumento de peso nas
cobaias ao nível de significância de 5%.
Figura 4.2: Lançamento dos dados para o teste t para dados pareados no R Commander.
Na janela que será aberta deve-se escolher as variáveis a serem comparadas, o nível de
confiânça e a hipótese alternativa (Fig. 4.4).
4.2 Teste t para Amostras Independentes 29
Nesta seção o teste t é aplicado a casos onde desejamos comparar a média de duas amostras
aleatórias. Ao contrário da seção anterior, trataremos do caso em que os dados não são pareados.
O objetivo deste método é verificar se existe, ou não, diferença estatística significativa entre
as médias de dois grupos. Logo, as hipóteses deste teste realizará a comparação entre a média
de um grupo com a média de outro grupo.
Para aplicar o teste t para amostras independentes precisamos calcular inicialmente a média
e a variância de cada grupo, utilizando as seguintes fórmulas:
n n
∑x ∑ x2 − n · x2
i=1 i=1
x= e s2 = (4.9)
n n−1
O número de graus de liberdade (gl) para o teste t para amostras independentes é dado por:
gl = n1 + n2 − 2 (4.10)
Tabela 4.3: Notas da avaliação de matemática obtidas pela crianças submetidas a dois métodos
de ensino diferentes.
Método de ensino A Método de ensino B
45 51 50 62 43 45 35 43 59 48
42 53 50 48 55 45 41 43 49 39
Hipóteses:
H0 : µA = µB ou µA − µB = 0
H1 : µA 6= µB ou µA − µB 6= 0
4.2 Teste t para Amostras Independentes 31
A hipótese nula admite que não existe diferença entre os métodos de ensino, ou seja, em
média os métodos produzem o mesmo resultado no desempenho dos alunos. Em contrapartida,
a hipótese alternativa diz que existe diferença entre os métodos de ensino, ou seja, em média, os
alunos submetidos ao método de ensino A terão desempenho diferente dos alunos submetidos
ao método de ensino B.
Solução manual:
O primeiro passo para resolver o problema é o cálculo da média e do desvio padrão de cada
um dos dois grupos, utilizando as equações (4.9) obtemos:
gl = 10 + 10 − 2 (4.14)
O próximo passo é obter o p-valor através da tabela da distribuição t (anexo B). Para tanto,
olhamos na distribuição t a linha relacionada ao grau de liberdade (gl) igual a 18 e a coluna cujo
intervalo contenha o valor de t = 1,8632 (Fig. 4.5).
4.2 Teste t para Amostras Independentes 32
Pela tabela da distribuição t de student (anexo B) obtemos um intervalo para o p-valor entre
0,025 e 0,05 para um teste unilateral. Lembrando que o problema dado é bilateral (H1 : µA 6=
µB ), toma-se o dobro de cada um destes valores, obtendo-se então 0,05 < p < 0,1.
O primeiro passo para resolver o problema com o R Commander é a digitação dos resultados
obtidos no experimento. No teste t para amostras independentes os dados devem ser informados
em duas colunas, uma com as notas e a outra com o método de ensino associado a cada nota
(Fig. 4.6). No início de cada coluna deve ser informado um título para os dados.
Figura 4.6: Digitação dos dados no Excel para aplicação do teste t para amostras independentes.
Os dados digitados em uma planilha do Excel devem ser importados para o R Commander
(conforme seção 1.2.1) informando um nome para o conjunto de dados. Para aplicar o teste
4.2 Teste t para Amostras Independentes 33
t para amostras independentes sobre o conjuto de dados ativo, siga os seguintes passos:
[Estatísticas] ◮ [Médias] ◮ [Teste t para amostras independentes...] (Fig. 4.7)
Uma janela será aberta para configurar as informações relativas ao teste: variáveis que
contém o grupo e a resposta, o tipo de hipótese alternativa e o nível de confiança (Fig. 4.8).
Figura 4.8: Configurações para aplicação do teste t para amostras independentes bilateral e com
nível de confiança de 95%..
• Aleatoriedade e independência;
H0 : µ1 = µ2 = ... = µc
H1 : nem todas as médias são iguais
Na hipótese nula (H0 ) considera-se que o fator variado entre os grupos não afeta de forma
significativa a média dos resultados obtidos. Em contrapartida, a hipótese alternativa (H1 )
admite que ao menos uma das médias é diferente das demais devido ao fator considerado.
nj
∑ xi j
i=1
xj = (5.2)
nj
onde c é o número de grupos, xi j é o i-ésimo valor do grupo j, n é o número total de amostras e
n j é o número de amostras do grupo j.
O próximo passo é o cálculo da variação total (ST ), da variação entre os grupos (SE ) e
da variação dentro dos grupos (SD ). Estas variações são também conhecidas respectivamente
como: soma dos quadrados total, soma dos quadrados entre os grupos e soma dos quadrados
dentro dos grupos. As expressões para o cálculo destes valores são apresentados nas equações
seguintes:
c nj
2
ST = ∑ ∑ ij
x − x (5.3)
j=1 i=1
c 2
SE = ∑ n j x j − x (5.4)
j=1
c nj 2
SD = ∑∑ xi j − x j (5.5)
j=1 i=1
A variação dentro dos grupos pode ser calculada pela diferença entre a variação total ST e
a variação entre os grupos SE , ou seja
SD = ST − SE (5.6)
Na sequência devemos calcular a média total dos quadrados (MQ ), a média dos quadrados
entre os grupos (ME ) e a média dos quadrados dentro dos grupos (MD ), dadas respectivamente
por:
ST
MQ = (5.7)
n−1
SE
ME = (5.8)
c−1
SD
MD = (5.9)
n−c
Quando conclui-se pela análise de variância que existe diferença entre as médias dos
grupos, não obtem-se quais dos grupos possui média diferente dos demais. Para responder
tal questão utiliza-se um teste auxiliar chamado teste de Tukey, apresentado na sequência.
O teste de Tukey é um dos testes de comparação de média mais utilizados, por ser bastante
rigoroso e de fácil aplicação. Este teste é utilizado para testar toda e qualquer diferença entre
duas médias de tratamento.
O teste de Tukey faz a comparação entre a média de dois em dois grupos. Para cada par
de grupos (denotados por i e j) que serão comparados, o primeiro passo para aplicar o teste de
Tukey é calcular o intervalo crítico (Ic ) dado por:
s
MD 1 1
Ic = Qc + (5.11)
2 ni n j
Conhecido o intervalo crítico (Ic ), deve-se calcular o módulo da diferença entre as médias
dos grupos i e j, ou seja:
|xi − x j | (5.12)
5.1 Análise de Variância para Um Fator (ANOVA) 37
Quando esta diferença é maior do que o intervalo crítico conclui-se que existe diferença
significativa entre as médias dos grupos i e j, caso contrário conclui-se que as médias dos
grupos i e j são iguais.
Exemplo: Você supervisiona a produção de uma padaria, cujos pães são fabricados com
farinha oriunda de um dentre quatro diferentes fornecedores. A qualidade dos pães produzidos
é uma característica importante que garante o aumento das vendas e consequentemente da
produção. Estabeleça se os pães produzidos com as diferentes marcas de farinha são igualmente
saborosos com base nos dados amostrais abaixo.
Tabela 5.1: Notas atribuidas pela análise sensorial dos pães produzidos com a farinha de quatro
diferentes fornecedores.
Forncedor A Forncedor B Forncedor C Forncedor D
68,5 76,3 70,6 75,4
74,0 75,3 75,2 69,9
67,2 74,0 70,8 72,6
69,9 71,2 74,7 67,5
68,0 74,5 72,9 70,4
n
∑x 347,6 371,3 364,2 355,8
i=1
xj 69,52 74,26 72,84 71,16
Hipóteses:
H0 : µA = µB = µC = µD
H1 : ao menos uma das médias é diferente
A hipótese nula (H0 ) considera que as farinhas de todos os quatro diferentes fornecedores
produzem em média pães com a mesma qualidade sensorial. Em contrapartida, a hipótese
alternativa (H1 ) considera o fato de que o fator fornecedor afeta a qualidade sensorial dos pães,
dizendo que existe diferença em ao menos uma das médias comparada as outras.
5.1 Análise de Variância para Um Fator (ANOVA) 38
Solução manual:
x = 71,945 (5.13)
Os valores das médias de cada grupo são dados na tabela do problema. As variações total,
entre grupos e dentro dos grupos, dadas respectivamente pelas equações (5.3), (5.4) e (5.6)
fornecem
ST = 160,7895 (5.14)
SE = 63,2855 (5.15)
Na sequência são obtidas as médias entre grupos e dentro dos grupos, utilizando as equações
(5.8) e (5.9) obtemos
SE 63,2855
ME = = = 21,0952 (5.17)
c−1 4−1
SD 97,5040
MD = = = 6,0940 (5.18)
n−c 20 − 4
Por fim, podemos calcular o valor de F observado (Fo ) através da equação (5.10)
ME 21,0952
Fo = = = 3,4616 (5.19)
MD 6,0940
Para identificar quais os pares de médias que são significativamente diferentes aplicamos o
teste de Tukey. Como todos os grupos possuem amostras do mesmo tamanho, calcula-se apenas
um único valor para o invevalor crítico. Pela valor da décima sexta coluna e terceira linha da
tabela da distribuição de intervalos de Student (anexo D) obtemos o valor crítico da amplitude
de Student (Qc = 3,65). Utilizando a equação 5.11 obtemos
s
6,0940 1 1
Ic = 4,05 + = 4,4712 (5.20)
2 5 5
Por fim, calcula-se o módulo da diferença entre a médias para cada combinação de
5.1 Análise de Variância para Um Fator (ANOVA) 39
Na comparação entre o valor absoluto das diferenças com o valor do intervalo crítico,
observa-se que apenas os fornecedor A com o fornecedor B apresenta diferença significativa
(denotada por ∗).
Figura 5.2: Digitação dos dados no Excel para aplicação da análise da variância pelo R
Commander.
Caso os dados forem digitados em uma planilha do Excel, o próximo passo é importá-la
para o R Commander. Em seguida, para aplicar a análise de variância execute os seguintes
passos: [Estatísticas] ◮ [Médias] ◮ [ANOVA para um fator (one way)...] (Fig. 5.3).
5.1 Análise de Variância para Um Fator (ANOVA) 40
Uma janela será aberta para informar o nome da coluna que contém os grupos e a
que contém a variável resposta. O teste de Tukey pode ser aplicado ativando-se a opção
“Comparação de médias 1 a 1” nesta janela (Fig. 5.4).
Caso o teste de Tukey tenha sido ativado, informações a respeito da comparação entre
as médias obtidas pelos diferentes grupos serão apresentado na janela de resultados. Um
resumo do teste é apresentado em uma tabela que mostra cada uma das comparações realizadas,
5.1 Análise de Variância para Um Fator (ANOVA) 41
Embora a análise de variância de fator único seja relativamente robusto com respeito ao
pressuposto de variâncias iguais nos grupos, grandes diferenças nas variâncias dos grupos
podem afetar seriamente o nível de significância e a eficácia do teste. Um dos procedimentos
com alta eficácia estatística é o teste de Levene. Para testar a homogeneidade da variância,
utilize as seguintes hipóteses:
O primeiro passo para aplicar o teste de Levene é obter a mediana de cada grupo. Em
seguida, calcula-se o valor absoluto da diferença entre cada valor amostral e a mediana do
grupo a qual ele pertence. Sobre os resultados obtidos aplica-se a análise de variância. Caso o
p-valor deste teste for maior do que o nível de significância, aceita-se H0 , ou seja, conclui-se
que as variâncias são iguais em todos os grupos.
43
Referências Bibliográficas