Escolar Documentos
Profissional Documentos
Cultura Documentos
Minitab - Apostila - FZEA-USP PDF
Minitab - Apostila - FZEA-USP PDF
MINITAB
NAS DISCIPLINAS DE ESTATÍSTICA
DO CURSO DE
GRADUAÇÃO EM ZOOTECNIA
DA FZEA/USP
PIRASSUNUNGA - SP
Março / 2004
1
1. INTRODUÇÃO
O MINITAB consiste de uma planilha de dados diversos comandos e subcomandos usados
para executar operações matemáticas e diversas análises estatísticas. Uma planilha pode conter:
• colunas de dados denotadas por C1, C2,...,
• constantes denotadas por K1, K2, ...
• matrizes numéricas de dados, denotadas por M1, M2,...
Na apresentação dos comandos/subcomandos, a letra E pode denotar tanto uma constante, quanto
uma coluna ou matriz.
Na janela principal do Minitab encontramos uma régua que disponibiliza os grupos de
comandos e subcomandos usados para manipulação de arquivos – File; edição de dados – Edit;
manipulação de dados − Manip; cálculos envolvendo colunas − Calc; cálculos de estatísticas e de
diversos tipos de análises estatísticas − Stat; contrução de gráficos − Graph; um editor de coman-
dos − Editor; um controlador das janelas de trabalho − Window, além de uma boa tela de auxílio −
Help.
As colunas e as constantes podem ter nomes, devendo-se evitar o uso de acentos. Por exem-
plo: para nomearmos a coluna C1 com o nome “Tratamento”, a coluna C2 com o nome “Producao”
e a constante K2 com o nome “ProducaoMedia” utilizamos o seguinte comando:
MTB > NAME C1 'Tratamento' C2 'Producao' K1 'ProducaoMedia'
Os comandos e subcomandos podem ser digitados em letras maiúsculas e/ou minúsculas,
não havendo necessidade de entrarmos com mais do que as suas quatro primeiras letras. Por
exemplo, para calcular a menor das produções e colocar o resultado em K2, podemos usar os
comandos:
MTB > Let K2 = Minimum(C2) ou MTB > Let K2 = Mini(C2)
que os resultados serão idênticos. Ao invés do número da coluna – C2 – também pode ser usado o
seu nome:
MTB > Let K2 = Mini(Producao)
Os dados da planilha podem ser digitados diretamente na planilha Data, copiados de um
outro programa e colados na planilha ou lidos de arquivos já existentes. As colunas com valores
numéricos apresentam seus valores colados à direita e as colunas com valores alfanuméricos, além
de indicar essa coluna com uma letra – T, apresentam seus valores colados à esquerda.
A seguir, apresentamos algumas informações sobre o uso efetivo do Minitab em alguns
pontos relevantes do curso de Estatística II:
a) revisão de estatística descritiva, visando a obtenção de medidas de tendência central e de disper-
são, além de gráficos e tabelas;
Entre com os dados das variáveis C1: Idade, C2: Peso e C3: Altura, na janela Data.
5) Para construir o histograma de C2 definindo os limites (cutpoints) das classes: Graph >
Histogram... escolher C2 em Graph variables, entrar em Options..; em Type of Intervals
clicar em Cutpoint; em Definition of Intervals, clicar em Midpoint/Cutpoint positions: e
entrar com os valores 1.60 1.70 1.80 1.90 2.00, com espaços entre os números.
6) Para visualizar a relação entre as variáveis C2: Peso e C3: Altura: Graph > Plot.. e escolher C2
como Graph variables: Y e C3 como Graph variables: X. Como alternativa, usar:
MTB > plot c2*c3
7) Para construir um box-plot dos dados de C3: Altura: Graph > Boxplot.. e escolher em Graph
variable: Y, a coluna C3. Ou então, usar:
MTB > boxplot C3
8) Para obter uma distribuição de freqüências da variável discreta C1: idade: Stat > Table > Tally,
escolher como Variables: a coluna C1 e marcar Counts e Percents em Display. Como alterna-
tiva, usar:
MTB > Tally 'Idade';
SUBC> Counts;
SUBC> Percents.
9) Para obter uma tela com diversas estatísticas descritivas, distribuição de freqüências, box-plot,
teste de normalidade dos dados de C2: Peso, além de intervalos de confiança para a média e para
a mediana:
MTB> %Describe c2 ou MTB> %Describe 'Peso'
A seguir, apresentaremos alguns detalhes de cada uma das opções deste menu. Maiores informações
sobre as opções podem ser obtidas em Help, no botão , ou usando a tecla F1, Menu Commands
e Stat Menu.
• Basic Statistics (Stat Menu > Basic Statistics)
Permite calcular diversas estatísticas descritivas, executar testes de hipóteses, calcular a correla-
ção e covariâncias entre variáveis numéricas e testar a normalidade dos dados. Os principais co-
mandos são:
Display Descriptive Statistics: produz uma tabela com estatísticas descritivas: número de
valores (N); média (Mean); mediana (Median); tri-média (TrMean);desvio padrão (StDev);
erro padrão da média (SE Mean); menor valor (Minimum); maior valor (Maximum);1o quartil
(Q1) e 3o quartil (Q3). Também produz gráficos como o histograma (Histogram); gráfico de
pontos (Dotplot), boxplot (BoxPlot) e um gráfico resumo (Graphical summary) com diversas
estatísticas descritivas, intervalos de confiança para a média, mediana e desvio padrão e um
teste de normalidade dos dados (Anderson-Darling Normalitty Test).
planilha.
1-Sample Z: calcula um Intervalo de Confiança e executa o teste de hipótese para a média de
uma população normal com variância populacional conhecida (z-test).
1-Sample t: calcula um Intervalo de Confiança e executa o teste de hipótese para a média de
uma população normal com variância populacional é desconhecida (t-test).
2-Sample t: calcula um Intervalo de Confiança e executa o teste de hipótese para comparar as
médias de duas populações normais (t-test) de variâncias iguais ou não.
Paired t: testa a diferença entre médias quando os dados estão pareados.
1 Proportion: calcula um intervalo de confiança e executa um teste para a proporção.
2 Proportions: calcula um intervalo de confiança e executa um teste para a diferença entre
duas proporções.
2 Variances: executa um teste para a igualdade (homogeneidade) de variâncias de duas
populações usando os testes F e de Levene.
Correlation: calcula o coeficiente de correlação de Pearson entre variáveis numéricas e o
nível descritivo do teste H0: ρ = 0 vs. H1: ρ ≠ 0. Opcionalmente, grava os resultados numa
matriz de correlações.
Covariance: calcula a covariância entre variáveis numéricas e grava os seus valores numa
matriz de covariâncias.
Normality Test: testa a normalidade dos dados (Testes de Anderson-Darling, Ryan-Joiner e
Kolmogorov-Smirnov) e apresenta um gráfico normal de probabilidades (normal probability
plot).
Oneway: executa a análise de variância com um fator (one way), com as respostas em uma
coluna e os índices em outra. Também possibilita a comparação das médias através dos testes
de Tukey, Dunnett etc.
Oneway (Unstacked): executa a análise de variância para o modelo com um fator (One way),
com as respostas de cada tratamento colocadas em colunas diferentes.
Twoway: executa a análise de variância para o modelo com dois fatores (Two way) e dados
balanceados.
Analysis of Means: mostra um gráfico de Análise de Médias e uma tabela resumo para dados
normais, binomiais e de Poisson.
General Linear Model: executa a análise de variância para dados uni ou multivariados e
desbalanceados com fatores cruzados e hierárquicos e covariáveis. Executa também a análise
de variância multivariada.
Fully Nested ANOVA: executa a análise de variância para modelos hierárquicos (nested) e
estima componentes de variância para cada variável resposta.
ceados (todas as combinações de níveis de fatores devem ter o mesmo número de repetições).
General MANOVA: executa a análise de variância multivariada de delineamentos balan-
ceados ou desbalanceados, ou que envolve covariáveis.
Test for Equal Variances: executa os testes F, de Bartlett e de Levene para a homogeneidade
de variâncias.
Interval Plot...: produz um gráfico de grupos de médias com barras de erro padrão ou de
intervalos de confiança das médias.
Main Effects Plot: gera um gráfico de médias dos níveis dos fatores.
Interactions Plot: gera um gráfico da interação dos níveis dos fatores (ou matriz de gráficos)
Tally: imprime tabelas de freqüência absolutas e percentuais de variáveis numéricas.
ii) Calcular a probabilidade de que a v.a. X ~ B(n = 7 e p = 0.3) assuma o valor k = 4, ou seja,
calcular P(X = 4).
MTB > PDF 4;
SUBC> BINOMIAL 7 0.3.
ou seja: a probabilidade de encontrarmos até 4 sucessos, quando X ~ B(7; 0,3) é igual a 0,9712.
OBS: Quando usamos uma variável normal reduzida, não precisamos indicar quais são os valo-
res da média e do desvio padrão, ou seja, basta usar os comandos:
MTB > CDF 1;
SUBC> NORMAL.
A probabilidade da variável aleatória "X = altura dos calouros 99", que tem distribuição
normal com média 1,70m e variância 0,01m2 (e desvio padrão 0,10m), assumir valores iguais ou
inferiores a 1,85, P(X ≤ 1,85), pode ser obtida com o comando:
MTB > CDF 1.85;
SUBC> NORMAL 1.70 0.10.
ou seja, 93,3% dos calouros 99 têm altura igual ou inferior a 1,85 metros.
COMANDO INVCDF ( inverse cumulative distribution function): Faz o papel inverso do coman-
do CDF, ou seja, calcula o número x , que deixa à sua esquerda a probabilidade indicada. Deste
modo, o comando:
MTB > INVCDF 0.95;
SUBC> NORMAL.
ou seja, o valor 1,6449 ≅ 1,65, da normal reduzida, deixa à sua esquerda uma área igual a 95%,
ou ainda: P(X ≤ 1,65) = 0,95.
Outro exemplo: “Qual é a altura, acima da qual estão 28% dos calouros de 99?”. Para tanto,
basta usar o comando:
MTB > INVCDF 0.72;
SUBC> NORMAL 1.70 0.10.
ou seja, abaixo de 1,76m estão 72% dos calouros 99, ou então, acima de 1,76m estão 28% dos
calouros de 99.
Data Display
C1
8 7 6 5 7 8 8 8 6 7 8 7 4 6 6
Como sabemos que a média de uma variável com distribuição binomial, X ~ B(n; p) é igual a
E(X) = np e a variância é igual a Var(X) = np(1-p), temos que E(X) = 7 e Var(X) = 2,1 (e desvio
padrão = 1,4491). Para verificar se a amostra é representativa dessa população, usamos:
MTB > DESCRIBE C1
Descriptive Statistics
e podemos perceber que a amostra representa razoavelmente bem a referida população, já que a
média e o desvio padrão amostrais foram iguais a 6,733 e 1,2223, respectivamente.
Data Display
C5
1.88368 1.90070 1.74597 1.65488 1.74494 1.60249 1.78853 1.75199
1.85025 1.95905 1.70512 1.82874 1.86497 1.96199 1.81543 1.71719
1.70791 1.98492 1.77098 1.67058 1.84883 1.80105 1.84905 1.73582
1.84269 1.74938 1.74669 1.61301 1.84342 1.61336 1.84578 1.84137
1.60558 1.79857 1.66694 1.87760 1.75625 1.70891 1.83445 1.72964
OBS: dificilmente os pesos que você obteve utilizando esses mesmos comandos serão idênticos
a esses. Lembre-se que o Minitab gera amostras aleatórias...
Se estivermos interessados em arredondar para duas casas decimais os pesos dos frangos
que estão em C5 e colocá-los em C6, usamos o comando round da seguinte maneira:
MTB > LET C6 = 0.01*ROUND(100*C5)
MTB > PRINT C6
Data Display
C3
1.88 1.90 1.75 1.65 1.74 1.60 1.79 1.75 1.85 1.96
1.71 1.83 1.86 1.96 1.82 1.72 1.71 1.98 1.77 1.67
1.85 1.80 1.85 1.74 1.84 1.75 1.75 1.61 1.84 1.61
1.85 1.84 1.61 1.80 1.67 1.88 1.76 1.71 1.83 1.73
COMANDO SAMPLE: Possibilita sortear amostras com ou sem reposição de alguma população
conhecida. Como exemplo, podemos utilizar os dados de peso da coluna C3 como sendo a popu-
lação da qual queremos sortear uma amostra aleatória de tamanho 10. Isto pode ser feito de duas
maneiras:
i) sem reposição:
MTB > SAMPLE 10 C3 C10
coloca em C10 os dez valores de C3 (peso de frangos aos 42 dias) sorteados ao acaso e sem
reposição.
4. INTERVALOS DE CONFIANÇA
O objetivo principal deste material é apresentar os comandos do Minitab que podem ser
usados para a construção de intervalos de confiança para a média (µ) de uma população com distri-
buição normal e para a proporção p de uma variável dicotômica.
Usar o caminho Stat > Basic Statistics > 1-Sample z, ou o comando ZINTERVAL:
MTB > ZINTERVAL [coeficiente de confiança] sigma Ci
Comentários:
• Esse comando permite calcular o I.C.(µ) a partir dos dados amostrais de uma variável Ci que
tem distribuição normal com desvio padrão σ = sigma, conhecido.
• Se não informarmos o valor do desvio padrão, o Minitab assumirá sigma = 1;
• Se não informarmos qual o valor do coeficiente de confiança, o Minitab assumirá γ = 95%;
Exemplo: Calcular o I.C. para a média das idades dos alunos de Estatística I da turma de 1997,
que tem distribuição normal e desvio padrão σ = 1, baseado na seguinte amostra de n = 10
alunos: {19; 17; 19; 18; 17; 20; 18; 19; 20; 18}. Após colocarmos os dados na coluna C7,
usamos o comando:
MTB > NAME C7 'Idade'
MTB > ZINTERVAL 95 1 C7
Confidence Intervals
ou seja: o I.C.(µ; γ = 95%) = [17,88; 19,12] anos contem o verdadeiro valor da idade média dos
alunos de Estatística I, com 95% de confiança. Se quisermos um I.C.(µ) com uma confiança γ =
99%, basta trocarmos no comando acima, o valor 95 por 99.
Usar o caminho: Stat > Basic Statistics > 1-Sample t ou o comando TINTERVAL:
• Permite calcular o I.C. para a média µ de uma variável Ci (ou mais variáveis) com distribuição
normal e variância populacional (σ2) desconhecida;
• O Minitab se incumbe de estimar a variância, já que ela é desconhecida.
Exemplo: calcular o I.C. γ = 95%, para a média das idades dos alunos de Estatística I, que tem
distribuição normal, baseado na seguinte amostra de n = 10 alunos: {19; 17; 19; 18; 17; 20; 18;
19; 20; 18}.
MTB > TINTERVAL 95 C1
Confidence Intervals
Variable N Mean StDev SE Mean 95.0 % CI
Idade 10 18.500 1.080 0.342 (17.727, 19.273)
Ou seja: o intervalo [17,727; 19,273] anos, contem o verdadeiro valor da média das idades dos
alunos do curso de Estatística I, com γ = 95% de confiança.
Para calcularmos o I.C.(p) podemos entrar com os dados numa coluna (Ci) ou indicar o
tamanho da amostra e o número de sucessos.
Exemplo: numa amostra de n = 100 elementos, temos 42 sucessos e 58 fracassos, então devemos
criar uma coluna (C8, por exemplo) com 42 números “1” e 58 números “0”, de modo que a média
desta coluna seja igual a 42/100 = 0.42, que coincide com a proporção de sucessos. No Minitab,
isso é feito com o comando:
MTB > set c8
DATA> 42(1) 58(0)
DATA> end
e podemos afirmar que o intervalo [0,32; 0,52] contem a verdadeira proporção de sucessos com
uma confiança de 99%.
Note que este comando também executa um teste de hipóteses para a proporção, cujos resultados
serão comentados quando tratarmos desse assunto.
OBS: Vale observar que esse intervalo tem uma amplitude maior que o do intervalo de confiança
baseado na distribuição normal.
Ao invés de entrarmos com os dados na coluna C8 podemos especificar em Stat > Basic
Statistics > 1 Proportion... > Summarized data, o número de tentativas (Number of trials) igual a
100 e o número de sucessos (Number of successess) igual a 42. A seguir devemos escolher se o IC
será baseado na distribuição normal (Use test and interval based on normal distribution) ou não.
Usar o caminho Stat > Basic Statistics > 1-Sample z ou o comando ZTEST, cuja sintaxe é:
MTB > ZTEST [µ0] [sigma] C;
SUBC> ALTERNATIVE [k].
• Executa o teste de hipótese: H0: µ = µ0 vs. H1: µ < µ0 (ou H1: µ ≠ µ0 ou H1: µ > µ0) quando a
variância é conhecida.
• Se não informarmos os valores de µ0 e sigma, o Minitab assume os valores 0 e 1, respectiva-
mente.
• Para a hipótese alternativa H1: µ < µ0 devemos escolher k = –1; para H1: µ ≠ µ0, usar k = 0 e
para H1: µ > µ0, usar k = +1.
• Se o valor de k for omitido, o programa assume k = 0;
Exemplo: Testar a hipótese de que a idade média dos alunos de Estatística I é igual a 18 anos,
admitindo que σ2 = 1, baseado na amostra de n = 10 alunos: {19; 17; 19; 18; 17; 20; 18; 19; 20;
18}. Após digitarmos os dados na coluna C1, usamos o comando:
MTB > ZTEST 18 1 C1;
SUBC> ALTERNATIVE 0.
Ou então: Stat > Basic Statistics > 1-Sample z, escolhemos C1 em Variables, colocamos o
valor 18 em Test mean, escolhemos not equal em Alternative e digitamos o valor 1.0 em
Sigma. Em ambos os casos, o resultado é o seguinte:
Z-Test
que apresenta uma descrição das hipóteses envolvidas no teste, o valor do desvio padrão (σ = 1),
o tamanho da amostra (n = 10), o valor da média amostral ( x =18,50), o desvio padrão amostral
(s = 1,080), o erro padrão da média (s( x ) = 0,316), o valor da estatística Z (zcalc = 1,58) e o nível
descritivo do teste ( α̂ = P = 0,11), ou seja, para rejeitarmos H0 precisamos assumir um nível de
significância igual ou superior a 11%.
Usar o caminho: Stat > Basic Statistics > 1-Sample t ou o comando TTEST, cuja sintaxe é:
MTB > TTEST [µ0] C;
SUBC> ALTERNATIVE [k].
• É usado quando queremos realizar um teste de hipótese para a média de uma população nor-
mal e desconhecemos a variância populacional σ2.
• Sua sintaxe é bastante similar à do comando ZTEST .
Exemplo: Para testar a hipótese de que idade média dos alunos de Estatística I é igual a 18 anos,
usamos o comando:
MTB > TTest 18 C1;
SUBC> Alternative 0.
Ou seguimos o caminho: Stat > Basic Statistics > 1-Sample t, escolhemos C1 em Variables,
colocamos o valor 18 em Test mean e escolhemos not equal em Alternative. O resultado é o
seguinte:
Usar o caminho: Stat > Basic Statistics > 1 Proportion ou o comando Pone. Quando os
dados já estiverem digitados em numa coluna (Ci) e utilizarmos a distribuição normal (caso de
grandes amostras), devemos usar os comandos:
MTB > POne Ci;
SUBC> Test [p];
SUBC> Alternative [k];
SUBC> UseZ.
Se não optarmos pela aproximação normal, devemos excluir o subcomando da última linha. Outra
possibilidade consiste em indicarmos o número de elementos da amostra (Number of trials) e o nú-
mero de casos favoráveis (Number of successes) em Summarized data.
Exemplo: Precisando saber se um candidato vai se reeleger como prefeito de Pirassununga, foi feita
uma pesquisa com 180 eleitores, dentre os quais, 95 são favoráveis à reeleição. Ao nível α = 5%
podemos concluir que a proporção de eleitores favoráveis à reeleição é superior 50%?
Seguimos o caminho: Stat > Basic Statistics > 1 Proportion, em Summarized data, digitamos
180 como Number of trials: e 95 em Number of successes. A seguir, em Options, indicamos em
Test proportion o valor 0.50, em Alternative: greater then e usamos a opção Use test and
interval based on normal distribution. Como alternativa, digitamos:
MTB > POne 180 95;
SUBC> Test .50;
SUBC> Alternative 1;
SUBC> UseZ.
e podemos concluir que a hipótese H0: p = 0,50 não deve ser rejeitada, pois o nível descritivo do
teste é muito alto ( α̂ = P = 0,228), ou seja, a reeleição do candidato A não está garantida.
Exemplo: Utilizando os dados do exemplo da seção 4.1e assumindo que uma outra amostra de ida-
des foi retirada da turma de 1998, cujos resultados foram {18; 19; 19; 19; 18; 18; 17; 18; 19; 18},
desejamos testar se as idades médias das turmas de 1997 e 1998 podem ser consideradas iguais.
Response Idade
Factors Amostra
ConfLvl 95.0000
Ou seja, pelos testes F e de Levene, a igualdade das variâncias foi aceita, pois o nível descritivo
associado às estatísticas foi igual ou superior a 0,104 (valor que pode ser considerado alto!).
Após a decisão sobre a igualdade (ou não) das variâncias, podemos comparar as médias popula-
cionais, usando o teste t-Student conveniente.
Seguimos o caminho: Stat > Basic Statistics > 2-Sample t, em > Samples in different
columns indicamos C1 em First e C2 em Second. A seguir escolhemos Alternative: not equal e
clicamos em Assume equal variances. Alternativamente, usamos o comando:
MTB > TWOSAMPLE 95 c1 c2;
SUBC> Alternative 0;
SUBC> pooled.
Podemos também realizar o teste com os dados que estão empilhados em C3 e C4, usando os
comandos:
MTB > TWOT 95 C4 C3;
SUBC> Alternative 0;
SUBC> Pooled.
Ou usando o caminho: Stat > Basic Statistics > 2-Sample t e indicamos C4 em Samples in the
column > Samples e C3 em Subscripts. A seguir escolhemos Alternative: not equal e clica-
mos em Assume equal variances.
Ou seja: como o nível descritivo do teste foi alto (0,63), não temos motivos para rejeitar a hipóte-
se H0 e então, concluímos que as médias dos dois grupos de idades são iguais.
Para fazermos a comparação de médias proposta, precisamos criar as três colunas de dados: C5,
C6 e C7, que é obtida:
MTB > Let c7 = c5 - c6
C5 C6 C7
Resultado em:
Como o nível descritivo do teste é muito pequeno (p = 0.0087) rejeitamos a hipótese H0 e com-
cluímos que a suplementação de alfafa aumenta o ganho médio de peso de coelhos em mais de
0,10 kg.
A seguir veremos como usar o Minitab para estudar o relacionamento entre duas variáveis
quantitativas, calculando o coeficiente de correlação linear (de Pearson) entre elas e ajustando uma
reta que relaciona uma variável Y (variável resposta ou dependente) e outra variável X (também
chamada de covariada, variável explanatória ou independente).
Exemplo (da Apostila de Estatística II) Com o objetivo de estudar a relação entre o peso médio
de coelhos ao abate (Y), em quilogramas, e o tamanho de ninhada (X), foram coletados na granja do
Campus os dados apresentados a seguir.
X: Tamanho da ninhada 4 8 6 1 7 3 7 5
Y: Peso médio ao abate 2,125 1,980 2,270 2,300 1,880 2,320 1,860 2,050
C8 C9
Ninhada Peso Para visualizarmos a possível relação entre as variáveis:
1 4 2.125 Ninhada e Peso ao Abate, seguimos o caminho: Graph > Plot
2 8 1.980 e em Graph variables escolhemos C9 em Y e C8 em X, por
3 6 2.270 exemplo. Ou então, digitamos:
4 1 2.300 MTB > plot C9*C8
5 7 1.880 (note que os valores da coluna C9 vão aparecer no eixo-y e os
6 3 2.320 valores da coluna C8, no eixo-x)
7 7 1.860
8 5 2.050
• Pode-se observar no gráfico que, à medida que o tamanho da ninhada aumenta, ocorre uma
diminuição do peso ao abate, indicando uma correlação negativa entre as duas variáveis.
2.35
2.25
2.15
Peso
2.05
1.95
1.85
1 2 3 4 5 6 7 8
Ninhada
• confirmada a correlação negativa (–0,776) entre o tamanho da ninhada e o peso ao abate. A hi-
pótese H: ρ(X, Y) = 0 foi rejeitada, pois o nível descritivo do teste (P-Value= 0,024) foi peque-
no. Concluimos então que existe uma dependência entre X: tamanho da ninhada e Y: peso ao
abate de coelhos.
Exemplo (Apostila de Estatística II) Determinar a reta que relaciona a Absorbância (Y) com a
concentração de nitrito (X, em mg/100ml) em amostras de mortadela. Os dados experimentais são:
X: nitrito 0,5 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0
Y: Absorbância 0,040 0,078 0,145 0,215 0,300 0,340 0,395 0,460 0,560 0,715
Comentários: o intercepto pode ser retirado do modelo, pois a hipótese H0: a = 0 não foi rejeita-
da; o coeficiente angular da reta (inclinação) não é nulo, pois a hipótese H0: b = 0 foi rejeitada; o
valor alto do coeficiente de determinação (R2) indica uma boa qualidade do ajuste.
outlier
0.05
Residual
0.00
-0.05
0 1 2 3 4 5 6 7 8 9
X:Nitrit
Se quisermos que o modelo de regressão não contenha o intercepto, fazemos: Stat > Regression
> Regression..., como Response escolhemos a coluna C11 e como Predictors, a coluna C10 e
em Options desmarcamos a opção Fit intercept. Ou então, utilizamos o comando:
MTB > Regress 'Y:Absorbancia' 1 'X:Nitrito';
SUBC> NoConstant;
S = 0.03094
Analysis of Variance
Source DF SS MS F P
Regression 1 1.4644 1.4644 1530.18 0.000
Residual Error 9 0.0086 0.0010
Total 10 1.4730
Unusual Observations
Obs X:Nitrit Y:Absorb Fit SE Fit Residual St Resid
10 9.00 0.71500 0.64484 0.01648 0.07016 2.68R
• Dos resultados apresentados, temos que a estimativa da inclinação da reta que passa pela origem
é 0,071649, um pouco inferior à do modelo com intercepto (0.072350).
• Mais uma vez, o Minitab indica que a décima observação é candidata a valor discrepante.
Sugestão: retirar este par de valores (X=9, Y=0,7150) do conjunto de dados e refazer a análise.
• Como exercício, faça isso e verifique que o problema da presença de outlier fica resolvido e as
conclusões sobre o modelo não se alteram.
9. TABELAS DE CONTINGÊNCIA
No módulo Stat > Tables encontramos as ferramentas para construção de tabelas, como:
• Cross tabulation: constrói tabelas de contingência para uma, duas ou mais variáveis categóri-
cas. As suas células podem conter contagens, porcentagens e estatísticas descritivas tais como a
média e o desvio padrão, associadas a variáveis numéricas. Também disponibiliza o teste de
Quiquadrado testar a associação de variáveis.
• Tally: constrói tabelas com freqüências absolutas, percentuais e percentuais acumuladas para os
valores distintos das variáveis.
• Chi-Squared Test: faz o teste de Quiquadrado de uma tabela de contingência.
• Multiple Correspondence Analysis: executa a análise de correspondência para três ou mais
variáveis categóricas.
Para exercitar o uso de alguns desses comandos, vamos utilizar os dados da tabela com
características da turma de Estatística II de 1997.
1) Para construir uma distribuição de freqüências da variável Idade, seguimos o caminho Stat >
Tables > Tally..., selecionamos a variável Idade e todas as opções de Display, ou digitamos:
MTB > Tally 'Idade';
SUBC> Counts;
SUBC> CumCounts;
SUBC> Percents;
SUBC> CumPercents.
2) Será que a maioria dos alunos que fizeram escola pública (2o grau) também fez cursinho?
Para ajudar a responder essa pergunta, vamos construir uma tabela de contingência das variáveis:
Escola pública? e Cursinho? usando: Stat > Tables > Cross tabulation..., escolhendo as
variáveis: Escola pública? e Cursinho? e selecionando como Display: Counts e Row percents,
ou digitamos:
MTB > Table 'Escola Pública?' 'Cursinho?';
SUBC> Counts;
SUBC> RowPercents.
não 10 15 25
40.00 60.00 100.00
sim 1 5 6
16.67 83.33 100.00
All 11 20 31
35.48 64.52 100.00
onde podemos perceber que 83,33% dos alunos que fizeram o 2o em Escola Pública precisaram
fazer cursinho; dentre os alunos de escola particular, essa porcentagem cai para 60%.
Para testarmos se existe alguma relação entre essas duas variáveis categóricas, podemos
solicitar o teste de Quiquadrado para as hipóteses
H0: Cursinho? é independente de Escola Pública?
H1: Cursinho? é dependente de Escola Pública?
usando os comandos:
MTB > Table 'Escola Pública?' 'Cursinho?';
SUBC> Chisquare.
não 10 15 25
sim 1 5 6
All 11 20 31
• como o nível descritivo é alto (P-value=0,283) não rejeitamos H0 e concluímos que as duas
variáveis classificatórias são independentes.
3) Construir uma tabela com estatísticas básicas da variável C4: peso, por C2: sexo e por C13:
Fuma?, mais o teste de Quiquadrado para verificar se o ato fumar independe do sexo:
MTB > table c2 c13;
SUBC> stats c4;
SUBC> chisq.
M 15 3 18
80.267 79.000 80.056
16.241 13.077 15.414
15 3 18
All 25 6 31
70.712 70.667 70.703
17.614 15.693 17.007
25 6 31
Chi-Square = 0.199; DF = 1; P-Value = 0.656
2 cells with expected counts less than 5.0
Cell Contents --
Peso:N
Mean
StDev
Count
4) Para construir uma tabela com três variáveis classificatórias C2: Sexo, C10: Alojamento? e C12:
Esporte?, podemos usar o comando
MTB > table c2 c10 c12
F 1 2 3
M 4 1 5
All 5 3 8
F 1 9 10
M 6 7 13
All 7 16 23
Cell Contents --
Count
Se trocarmos a ordem das colunas no comando, mudamos a disposição das variáveis na tabela.
Podemos também alterar a apresentação dos resultados na tabela, para evidenciar alguma relação
ou para compactar a saída dos resultados, utilizando o subcomando layout.
Neste mesmo exemplo, onde temos 3 variáveis classificatórias, se quisermos que a tabela apre-
sente uma variável nas linhas e duas variáveis nas colunas, devemos usar:
MTB > table c2 c10 c12;
SUBC> layout 1 2.
F 1 1 2 9 13
M 4 6 1 7 18
All 5 7 3 16 31
Cell Contents --
Count
Se quisermos ainda, que seja apresentada a porcentagem de alunos por sexo nas diversas classes
e a média de C14: Estatística I, usamos:
MTB > table c2 c10 c12;
SUBC> layout 1 2;
SUBC> rowpercents;
SUBC> mean C14.
Cell Contents --
% of Row
Estat-I: Mean
NA ANÁLISE DE VARIÂNCIA
INTRODUÇÃO AO USO DO MINITAB
(COM EXEMPLOS)
Com o objetivo de avaliar a utilização do farelo bruto realizou-se um experimento com duração de
28 dias, envolvendo 4 tratamentos (0, 10, 20 e 30% de substituição) e 5 repetições por tratamento.
Cada parcela foi constituída de 50 pintos de um dia de idade da linhagem "Ross", sendo 25 machos
e 25 fêmeas. Os resultados dos ganhos de peso médio, em kg, de cada parcela são:
% de substituição por farelo bruto
0% 10% 20% 30%
0.60 0.82 0.79 0.82
0.62 0.85 0.83 0.81
0.61 0.78 0.82 0.79
0.64 0.79 0.81 0.80
0.63 0.80 0.82 0.79
Descriptive Statistics
Variable Farelo N Mean Median Tr Mean StDev SE Mean
GP 0 5 0.62000 0.62000 0.62000 0.01581 0.00707
10 5 0.80800 0.80000 0.80800 0.02770 0.01240
20 5 0.81400 0.82000 0.81400 0.01517 0.00678
30 5 0.80200 0.80000 0.80200 0.01304 0.00583
Rows: Farelo
Ganho Ganho
Mean StDev
1 0.62000 0.01581
2 0.80800 0.02775
3 0.81400 0.01517
4 0.80200 0.01304
All 0.76100 0.08540
Se quisermos testar a homogeneidade das variâncias dos tratamentos, devemos clicar em Stat >
ANOVA > Homogeneity of variance e a seguir, escolher em Response a coluna C3 GP e em
Factors a coluna C1 Farelo. Ou então usar o comando:
MTB > %Vartest c3 c1
O resultado consiste de um gráfico com intervalos de confiança para os desvios padrões dos trata-
mentos e os resultados dos testes de Bartlett e de Levene. Vale lembrar que podemos assumir que
as variâncias são iguais se o P-value (nível descritivo do teste) for superior a 5% (mais comum!)
ou a 10%.
Bartlett's Test
Levene's Test
20
Test Statistic: 0.731
P-Value : 0.548
30
Para fazer a análise de variância dos dados desse experimento, cujo delineamento é o inteira-
mente casualizado com 5 repetições/tratamento, comparar as médias através do teste de Tukey
(α= 5%) e calcular os resíduos (e gravar em C5) para, posteriormente, verificarmos se os erros
têm distribuição normal, devemos clicar em Stat > ANOVA > Oneway, escolher em Response a
coluna C3 GP, em Factor a coluna C1 Farelo, em Comparisons a opção Tukey, family error
rate: 5 e clicar no quadro Store residuals. Ou então, entrar com o comando:
MTB > oneway c3 c1 c4;
SUBC> Tukey 5.
Source DF SS MS F P
Farelo 3 0.132900 0.044300 124.79 0.000
Error 16 0.005680 0.000355
Total 19 0.138580
Individual 95% CIs For Mean
Based on Pooled StDev (2)
Level N Mean StDev ----+---------+---------+---------+--
1 5 0.62000 0.01581 (--*-)
2 5 0.80800 0.02775 (-*--)
3 5 0.81400 0.01517 (-*--)
4 5 0.80200 0.01304 (--*-)
----+---------+---------+---------+--
Pooled StDev = 0.01884 0.630 0.700 0.770 0.840
1 2 3
2 -0.22213
-0.15387
3 -0.22813 -0.04013
-0.15987 0.02813
Farelo Média
0 0.62000 a
10 0.80800 b
20 0.81400 b
30 0.80200 b
OBSERVAÇÃO IMPORTANTE: como o fator Farelo é uma variável quantitativa, não é indi-
cado o uso de qualquer método de comparação múltipla para avaliar as possíveis diferenças
entre as médias desse fator. Neste caso, é indicado um estudo de regressão, para estudarmos a
relação entre os níveis do fator Farelo e os ganhos de peso dos animais.
Com o Minitab, podemos visualizar o comportamento das respostas médias fazendo: Stat >
ANOVA > Main Effects plot.. e escolhendo C3 GP como Responses: e C1 Farelo como Factors:.
Do gráfico resultante pode-se perceber uma tendência quadrática de resposta de Y (ganho de peso)
em função de X (% de substituição por farelo bruto). Para ajustar uma equação do segundo grau,
fazemos Stat > Regression > Fitted Line Plot... e escolhemos C3 GP como Response (Y) e C1
Farelo como Predictor (X) e finalmente, escolhemos Quadratic em Type of Regression Model.
Se os dados de GP dos tratamentos 0, 10, 20 e 30% estivessem digitados nas colunas C5,
C6, C7 e C8, respectivamente:
C5 C6 C7 C8
0% 10% 20% 30%
1 0.60 0.82 0.79 0.82
2 0.62 0.85 0.83 0.81
3 0.61 0.78 0.82 0.79
4 0.64 0.79 0.81 0.80
5 0.63 0.80 0.82 0.79
A mesma análise pode ser feita clicando-se em Stat > ANOVA > Oneway (Unstacked) e, a seguir,
escolher em Responses (in separate columns) as colunas C5 a C8, ou entrar com o comando:
MTB > aovoneway C5-c8
Com esta opção, somente serão mostrados os quadros (1) e (2), não havendo possibilidade de se
comparar os pares de médias através do teste de Tukey.
Para testar a normalidade dos erros podemos clicar em Stat > Basic Statistics > Normality
test e a seguir escolher em Variable a coluna C5 RESI1 e em Tests for Normality, escolher um
dos testes disponíveis (Anderson-Darling, Ryan-Joiner ou Kolmogorov-Smirnov).
O resultado do teste de Anderson-Darling permite concluir que os erros do modelo (estima-
dos pelos resíduos gravados em C5 RESI1) têm distribuição normal, pois o teste forneceu um nível
descritivo muito alto (P-Value = 0,909). Um modo mais rápido de executar esse teste consiste em
usar o comando:
MTB > %NormPlot c5
.999
.99
.95
Probability
.80
.50
.20
.05
.01
.001
Comentários:
a) neste tipo de análise ainda podemos utilizar alguns gráficos, como por exemplo, o dotplot e o
boxplot, para avaliar a distribuição, a variabilidade, a assimetria, a presença de valores discrepan-
tes nos dados originais, além do histograma, normal plot etc. dos resíduos para avaliar a sua dis-
tribuição.
b) se a variável que define o fator é quantitativa, sempre devemos optar por uma análise de regres-
são para estudar o comportamento das respostas em função dos níveis desse fator.
No setor de suinocultura do Campus foi feito um estudo sobre o consumo diário de ração,
em kg/dia, em suínos no período de crescimento/ acabamento, envolvendo três tipos de ração (R1:
farelada; R2: granulada e R3: peletizada) e duas formas de arraçoamento (A1: à vontade e A2:
controlada) e utilizando 4 animais/tratamento. Os dados experimentais resultantes estão apresenta-
dos na tabela abaixo:
Ração
Arraçoamento
Farelada Granulada Peletizada
2.63 2.19 2.31
2.64 2.21 2.30
À vontade
2.65 2.22 2.30
2.70 2.20 2.28
2.28 2.32 2.19
2.26 2.30 2.18
Controlada
2.23 2.31 2.16
2.20 2.30 2.21
A planilha com os dados é construída de modo similar à do Exemplo 1: nas três primeiras
colunas estão as informações sobre o tipo de ração (C1), o tipo de arraçoamento (C2) e o número
da repetição (C3); em C4 estão os dados do consumo diária de ração, em kg/dia. Uma parte da
planilha está apresentada a seguir. Vale notar que a letra -T nas colunas C1 e C2 indica que elas não
são numéricas.
C1-T C2-T C3 C4
Racao Arracoamento Repet Consumo
1 Farelada A vontade 1 2.63
2 Farelada A vontade 2 2.64
3 Farelada A vontade 3 2.65
4 Farelada A vontade 4 2.70
5 Farelada Controlada 1 2.28
6 Farelada Controlada 2 2.26
7 Farelada Controlada 3 2.23
8 Farelada Controlada 4 2.20
continua...
Uma tabela com as médias de consumo, por tipo de ração e tipo de arraçoamento é obtida
com os comandos:
MTB > table c1 c2;
SUBC > means c4.
Cell Contents --
Consumo:Mean
Cell Contents --
Consumo:Mean
Para testar a homogeneidade de variâncias clicamos em Stat > ANOVA > Homogeneity of
variance e a seguir, escolhemos em Response a coluna C4 Consumo e em Factors as colunas C1
Racao e C2 Arracoam. Ou então, podemos usar o comando:
MTB > %vartest c4 c1 c2
Da figura, podemos perceber que pelos testes de Bartlett (P-Value = 0,225) e de Levene (P-Value =
0,265) a homogeneidade das variâncias foi aceita, e podemos realizar análise de variância.
IMPORTANTE: Se a homogeneidade das variâncias for rejeitada, a análise de variância não deve
ser utilizada para comparar os tratamentos, já que isso pode interferir nos resultados finais. Soluções
para este problema envolvem a busca de uma transformação da variável resposta ou o uso de méto-
dos de análise não paramétricos.
Individual 95% CI
Racao Mean ----------+---------+---------+---------+-
Farelada 2.4488 (--*--)
Granulad 2.2563 (--*--)
Peletiza 2.2413 (--*-)
----------+---------+---------+---------+-
2.2800 2.3400 2.4000 2.4600
Individual 95% CI
Arracoam Mean ----+---------+---------+---------+-------
À vontad 2.3858 (--*--)
Controla 2.2450 (--*--)
----+---------+---------+---------+-------
2.2500 2.3000 2.3500 2.4000
Como o número de repetições é o mesmo para todos os tratamentos, uma alternativa para
realizar a análise, consiste em utilizar a opção Balanced Anova... Escolhemos então Stat >
ANOVA > Balanced Anova...; em Responses C4 Consumo; em Model escrevemos Racao
Arracoam Racao*Arracoam e em Storage marcamos Residuals. Em Options... > Display means
corresponding to the terms escrevemos Racao Arracoam Racao*Arracoam. Ou então, entramos
com o comando:
MTB > anova c4 = c1 c2 c1*c2;
SUBC > means c1 c2 c1*c2;
SUBC > residuals c4.
Means
Racao N Consumo
Farelada 8 2.4488
Granulada 8 2.2563
Peletizada 8 2.2413
Arracoam N Consumo
À vontade 12 2.3858
Controlada 12 2.2450
Comentários:
• a interação Racao*Arracoam foi significativa (P < 0,001), indicando que o consumo dos animais
que receberam um certo tipo de ração (farelada, granulada ou peletizada) depende do tipo de
arraçoamento (à vontade ou controlada) ou vice-e-versa.
• os efeitos individuais de Ração (P < 0,001) e de Arraçoamento (P < 0,001) foram significativos,
mas esses resultados não tem grande importância porque a interação foi significativa.
• A interação pode ser melhor entendida analisando-se os gráficos apropriados que são obtidos
em Stat > ANOVA > Interactions plot , escolhendo a coluna C4: Consumo em Responses:,
em Factors, as colunas C1: Racao e C2: Arracoam e selecionando Display full interaction plot
matrix. De forma alternativa, pode-se utilizar o comando
MTB > %Interact c1 c2;
SUBC> Response c4;
SUBC> Full.
Interaction
ad
a Plotada- Data Meansde for Consumo da
da l a la
la nu tiz nt tro
are ra el
e
vo on
F G P A C
2.6
Racao
Peletizada
2.4
Granulada
Farelada 2.2
2.6
Arracoamento
Controlada
2.4
2.2
A vontade
Para estudar o efeito de três níveis de adubação (A) e de dois espaçamentos (E) na altura
(em centímetros) de certo tipo de plantas, planejou-se um experimento em parcelas subdivididas
num delineamento em blocos casualizados. Os tratamentos principais correspondem a três níveis de
adubação (A0, A1 e A2) e os tratamentos secundários a dois espaçamentos (E1 e E2). Os blocos (I, II,
III, IV) controlam a fertilidade do solo. Os dados são apresentados a seguir:
A0 A1 A2
Bloco E1 E2 E1 E2 E1 E2
I 58 44 85 59 66 54
II 77 59 90 68 93 75
III 38 30 73 45 67 53
IV 52 34 77 55 64 48
A planilha com os dados é construída de modo similar à dos exemplos anteriores: nas três
primeiras colunas estão as informações sobre os níveis de adubação (C1: Adubacao), os dois espa-
çamentos (C2: Espacamento) e os blocos (C3: Bloco); em C4 estão as alturas em centímetros (C4:
Altura).
Se os quadros auxiliares de totais forem necessários para o cálculo de somas de quadrados
da interação entre Adubação e Espaçamento, podemos utilizar os comandos
MTB > table c1 c2;
SUBC> sums c4.
resultando em:
Tabulated Statistics
Rows: Espacame Columns: Adubacao
A0 A1 A2 All
E1 225.000 325.000 290.000 840.000
E2 167.000 227.000 230.000 624.000
All 392.000 552.000 520.000 1464.000
Cell Contents --
Altura:Sum
Para realizar a análise de variância deste experimento em parcelas subdivididas num delinea-
mento em blocos casualizados, consideraremos os níveis do fator C1: Adubacao aplicados às parce-
las e os níveis de C2: Espacamento, aplicados às subparcelas, ambos de efeito fixo. Para que os
testes F de significância sejam feitos corretamente, devemos considerar o fator Bloco como de
efeito aleatório.
Daí utilizarmos a seqüência: Stat > ANOVA > Balanced Anova... e inserimos as informa-
cões necessárias como apresentado na figura seguinte. Em Storage marcamos Residuals e em
Options... > Display means corresponding to the terms escrevemos: Adubacao Espacamento
Adubacao*Espacamento. De modo alternativo, podemos entrar com o comando:
MTB > anova c4 = c3 c1 c1*c3 c2 c1*c2;
SUBC> random c3;
SUBC> residuals c5;
SUBC> means c1 c2 c1*c2;
Resultando em:
Source DF SS MS F P
Bloco 3 2352.00 784.00 14.70 0.004
Adubacao 2 1792.00 896.00 16.80 0.003
Bloco*Adubacao 6 320.00 53.33 8.42 0.003
Espacame 1 1944.00 1944.00 306.95 0.000
Adubacao*Espacame 2 127.00 63.50 10.03 0.005
Error 9 57.00 6.33
Total 23 6592.00
Means
Adubacao N Altura
A0 8 49.000
A1 8 69.000
A2 8 65.000
Espacame N Altura
E1 12 70.000
E2 12 52.000
Vale notar que os testes de significância da ANOVA foram realizados corretamente: para
testar o efeito de Bloco e de Adubação, que estão relacionados à variação entre parcelas, foi
utilizado o QM da interação Bloco*Adubacao, que corresponde ao QMResiduo(a); nos demais
testes relacio-nados à variação entre subparcelas, foi utilizado o QM do Error, que corresponde ao
QMResiduo(b).
Como a interação entre os fatores Adubacao e Espacamento foi significativa, podemos estudá-la
através dos gráficos apropriados: Stat > ANOVA > Interactions plot, escolhendo em Factors C1
Adubacao e C2 Espacamento, em Raw response data in: a coluna C4 Altura e clicando em
Display full interaction plot matrix.
CONSIDERAÇÕES FINAIS:
• o MINITAB não executa testes de comparações de médias dos níveis de fatores envolvidos na
interação
• Para obtermos algumas informações sobre o comportamento das médias dos níveis de um fator
dentro dos níveis do outro fator, podemos utilizar os gráficos Interactions plot..., no caso de um
experimento fatorial ou em parcelas subdivididas.
• A opção Stat > ANOVA > Balanced ANOVA... deve ser utilizada na análise de experimentos
oneway ou de experimentos mais complexos, desde que o conjunto de dados seja balanceado
(mesmo número de repetições).
• No caso de experimentos mais complexos ou desbalanceados deveremos utilizar a opção Stat
> ANOVA > General Linear Model, cujos detalhes não serão apresentados nesta apostila.