APOSTILA Estatistica

1 2
FUNDAMENTOS DE ESTATÍSTICA Variáveis qualitativas ou atributos: descrevem qualidades. Assim, não usamos números para descrevê-las.
Referências  Variáveis qualitativas ordinais: seus valores agregam a ideia de ordem (exemplos: nível de
satisfação do consumidor, conceitos atribuídos a um determinado produto,...).
RODRIGUES, Maria Isabel; IEMMA, Antonio Francisco. Planejamento de Experimentos & Otimização de
Processos. 2a. Ed. Campinas, SP: Casa do Espírito Amigo Fraternidade Fé e Amor, 2009, 358 p.  Variáveis qualitativas nominais: a ideia de ordem não está agregada (exemplos: nomes comerciais
de um produto químico, etnias dos pacientes de certo laboratório,...).
TRIOLA, Mário F.; FARIAS, Ana Furtado Lima de (Rev.). Introdução à Estatística. 10a. Ed. Rio de Janeiro:
LTC, 2008, xxvi, 696 p.
População e Amostra
População: conjunto de todos os indivíduos ou elementos,que compartilham um característica ou um grupo de

Conceito de Estatística características comuns.
O termo Estatística deriva da palavra latina status, que tem a ver com “coisas de estado” e foi utilizado Uma característica numérica estabelecida para toda uma população é denominada parâmetro.
originalmente para denominar levantamento de dados, cuja finalidade era orientar o Estado em suas decisões.
Neste sentido foi utilizado desde épocas remotas para determinar o valor dos impostos cobrados dos Para fins práticos, visando atender um a objetivos específicos, definiremos como População Alvo ou
cidadãos, para determinar a estratégia de uma nova batalha em guerras, para determinar o tamanho das População Objeto o conjunto de indivíduos ou elementos que possuem a informação desejada pelo
populações, a densidade populacional, a produção de alimentos, entre outros. pesquisador.
Com o passar do tempo a Estatística adquiriu status de ciência com aplicações em, praticamente,
todas as áreas do conhecimento. Pode-se dizer mesmo que, atualmente, não se pode realizar uma pesquisa
com bases científicas sem o respaldo fornecido pela metodologia estatística. Amostra: é um subconjunto da população alvo, selecionado sob certas regras, que se preste para estimar, de
Desta forma, pode-se definir Estatística como um conjunto de métodos especialmente apropriados à modo confiável, as informações necessárias ao pesquisador.
coleta, à apresentação (organização, resumo e descrição), à análise e à interpretação de dados de observação
(pesquisa), tendo como objetivo a compreensão de uma realidade específica para a tomada da decisão. Uma característica numérica estabelecida para uma amostra é denominada estimativa ou estimador.
A Estatística pode ser dividida em três grandes partes:  Amostra aleatória ou probabilística: cada elemento da população alvo tem uma probabilidade fixa de
ser incluído na amostra. Os elementos são escolhidos por algum critério de sorteio.
Estatística Descritiva: cuida da distribuição tabular, gráfica e paramétrica dos dados obtidos
experimentalmente, através de procedimentos de amostragem ou de experimentos propriamente ditos.  Amostragem determinística (não probabilística): não utiliza seleção aleatória, transferindo o critério
de seleção para o julgamento pessoal do pesquisador.
Probabilidade e Estatística Matemática: estudam a ocorrência de eventos e das variáveis aleatórias que os
descrevem, fornecendo as bases da teoria estatística.
Quanto à relação entre as respostas dos indivíduos, as amostras podem ser:
Inferência Estatística (estatística indutiva): dedicada à estimação por intervalo e por região, assim como aos
testes de hipóteses sobre parâmetros populacionais.  Amostras independentes: cada indivíduo é “avaliado” ou “medido” apenas uma vez durante o período
experimental. Isto é, cada indivíduo está associado a apenas uma resposta.
Ainda, a metodologia estatística subdivide-se em dois ramos de análise: Estatística Paramétrica e Estatística Exemplo: dois grupos de ratos são utilizados para testar o efeito de dois medicamentos (A e B) para
não paramétrica (que posteriormente serão definidos no item importância da forma de população). uma mesma enfermidade.
 Amostras pareadas (aos pares ou relacionadas): cada indivíduo é “avaliado” duas vezes, em
Conceitos Fundamentais em Estatística tempos, locais e/ou condições diferentes.
Exemplo: um grupo de pessoas é submetido a uma dieta para verificar sua eficácia. Seus pesos são
Variáveis mensurados (medidos) antes de iniciar a dieta e 30 dias após terem iniciado a dieta.
 Variáveis são as características que podem ser observadas (ou medidas) em cada elemento da
população, sob as mesmas condições. Importância de forma da população
 Uma variável deve estar definida de tal forma que cada elemento observado tenha um e apenas um
resultado (valor ou atributo) associado a essa variável. Segundo a forma da população alvo a metodologia estatística pode ser dividida em duas partes:
As variáveis são divididas em dois grupos:  Estatística paramétrica: constituída de métodos paramétricos, isto é, de métodos derivados dos
parâmetros média aritmética (𝜇) e variância (𝜌2 ) da distribuição simétrica dita distribuição normal ou
Variáveis quantitativas ou numéricas: descrevem quantidade e, portanto, seus possíveis valores são distribuição de Gauss.
descritos por números.
 Estatística não paramétrica: constituída dos métodos não paramétricos, ou seja, dos métodos que
 Variáveis quantitativas discretas: assumem um número determinado (inteiro) de valores no campo independem da forma da distribuição.
dos reais como, por exemplo, em situações que envolvem contagens (exemplos: número de colônias
bacterianas, número de eletrodomésticos por família,...).
IMPORTANTE: a Estatística Paramétrica depende fortemente da normalidade dos dados analisados. Salvo
 Variáveis quantitativas contínuas: outros casos (exemplos: rendimento de uma reação (%), raras exceções, resultados de análises estatísticas efetuadas através de métodos paramétricos não são
porcentagem de sacarose, atividade enzimática,...). confiáveis se os dados não pertencem a amostras extraídas de populações normais.
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
3 4
Sendo assim, quando os dados da pesquisa não provém de uma distribuição normal, a rigor, estes não podem Parâmetros (população)
ser analisados através dos métodos paramétricos.
Média aritmética: o conceito de média aritmética é intuitivo. Ela representa o valor provável de uma variável.
Existem, no entanto, procedimentos remediadores que possibilitam a sua utilização. Entre eles está a
transformação de variáveis em, por exemplo, logaritmo decimal (𝑙𝑜𝑔10 ) ou raiz quadrada. ∑ 𝑥𝑖
Média aritmética populacional: 𝜇=
𝑁
População com distribuição normal (simétrica) População com distribuição não normal (assimétrica) Variância e Desvio Padrão: são medidas de dispersão (variabilidade) que indicam a regularidade
(distância) de um conjunto de dados em função da média aritmética.
∑(𝑥𝑖 −𝜇)2
Variância populacional: 𝜌2 =
𝑁
Desvio padrão populacional: 𝜌 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = √𝜌2
Estimativas (amostras): as estimativas podem ser feitas por ponto, por intervalo de confiança e/ou por
região.
Estimativas por ponto

Na sequência de nosso estudo utilizaremos os testes de aderência de Shapiro-Wilk (amostras com tamanho
∑ 𝑥𝑖
5 ≤ 𝑛 ≤ 50) e Kolmogorov-Smirnov (para amostras com tamanho 𝑛 > 50) para verificar a normalidade da Média aritmética amostral: 𝑥̅ =
população alvo (sendo: 𝑛 = 𝑡𝑎𝑚𝑎𝑛ℎ𝑜 𝑑𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎 = 𝑞𝑢𝑎𝑛𝑡𝑖𝑑𝑎𝑑𝑒 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑞𝑢𝑒 𝑐𝑜𝑛𝑠𝑡𝑖𝑡𝑢𝑒𝑚 𝑎 𝑎𝑚𝑜𝑠𝑡𝑟𝑎). 𝑛
∑(𝑥𝑖 −𝑥̅ )2
Variância amostral: 𝑠2 =
𝑛−1
Inferência sobre uma população normal
Parâmetros e estimativas Desvio padrão amostral: 𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = √𝑠 2

As informações necessárias ao pesquisador são, em geral, descritas através de parâmetros da
população que são desconhecidos.
Um dos principais objetivos da Estatística é fornecer técnicas confiáveis para a determinação de Suponha, como exemplo, uma amostra aleatória de tamanho 10 medidas da atividade enzimática da enzima
estimativas (através de amostras) para estes parâmetros. inulinase.
Atividades
enzimáticas (U/mL): 25 26 30 34 51 53 61 68 122 158
População Alvo Amostra
Amostragem Determinar:
𝜇 𝑥̅ a) a média aritmética; (62,8 U/mL) c) o desvio padrão; (44,12 U/mL)
b) a variância; (1946,84 (U/mL)²) d) o erro padrão amostral. (13,95 U/mL)
𝑁 𝑛
Inferência Estatística
Exercícios de fixação:
Parâmetros
desconhecidos
Estimativas por intervalo, Tabelas, gráficos,
01. Com o objetivo de verificar o conteúdo de material sólido no rio R foi efetuada uma coleta em 9 pontos
Testes de Hipóteses, Predições, ... Estimativas por ponto,... desse curso d’água. Os resultados obtidos encontram-se na série a seguir:
X: 210 242 226 268 251 206 218 215 207

Estimando a média 𝜇 de uma população alvo de tamanho 𝑁, através da média 𝑥̅ , Determinar:
de uma amostra aleatória de tamanho 𝑛. a) a média aritmética; (227) c) o desvio padrão; (21,9)
b) a variância; (479,75) d) o erro padrão amostral. (7,3)
02. A série de dados a seguir representa resultados de hematrócitos (exame que mede o volume ocupado
pelos eritrócitos numa certa quantidade de sangue total) realizados em 9 pessoas adultas:
5 6
As estimativas por intervalo são construídas com base na estimativa por ponto e no erro do estimador.
X: 45 43 45 46 52 50 47 44 51
Ou seja: Uma estimativa por intervalo para uma média 𝜇 (populacional), de uma população normal, obtida
Determinar: através de uma amostra de tamanho 𝑛, ao nível de confina 1 − 𝛼, é dada por:
a) a média aritmética; (47) c) o desvio padrão; (3,24)
𝑠
𝐼𝐶[𝜇](1−𝛼) = 𝑥̅ ± 𝑡(𝑛−1;∝⁄2) .
√𝑛
03. Em uma pesquisa para determinação da quantidade de ingestão diária de gordura saturada (em gramas)
foram encontrados os seguintes valores:
X: 33 36 29 32 33 26 Onde: 𝑥̅ é a estimativa por ponto, da média; 𝑠 é a estimativa por ponto do desvio padrão; 𝑛 é o tamanho da
amostra; 𝑡 é um valor tabelado da distribuição “𝑡 de Student”, obtido com 𝑛 − 1 graus de liberdade (gl) e ∝
Determinar: bilateral.
a) a média aritmética; (31,5 g) c) o desvio padrão; (3,51 g)
b) a variância; (12,3 g²) d) o erro padrão amostral. (1,43 g) O nível de confiança 1−∝ varia de acordo com o interesse e a exigência do pesquisador, devendo ser fixado a
priori. Um valor bem aceito universalmente é 1−∝= 0,95 ou, em termos de porcentagens, (1−∝)% = 95% e
será aqui adotado.
04. Índice de raios UV: a série de dados representa o índice de raio ultravioleta em determinada cidade, entre
os dias 14 e 22 de junho durante um ano recente. Teoricamente, isto significa que se retirarmos todas as amostras possíveis de uma população e, com cada uma
delas construirmos um intervalo de confiança, então 95% dos intervalos construídos devem conter a média
X: 10 6 10 5 8 7 10 9 7 populacional. Em outras palavras, 95 em cada 100 intervalos deve conter a média populacional.
Determinar: Para o exemplo anterior (página 4) sobre a atividade enzimática da enzima inulinase), temos: 𝑛 = 10; 𝑥̅ =
a) a média aritmética; (8) c) o desvio padrão; (1,87) 62,8; 𝑠 = 44,12 𝑒 𝑡(9;5%⁄2) = 2,2622.
Então:
05. Você está estudando a concentração de coliformes fecais em determinada lagoa. Para isso define 5 pontos 44,12
de amostragem. Os valores encontrados (ppm) foram os seguintes: 𝐼𝐶[𝜇](95%) = 62,8 ± 2,2622 .
√10
X: 12 14 15 16 14
𝐼𝐶[𝜇](95%) = 62,8 ± 31,56 𝑈/𝑚𝐿 (ou) 31,24 ≪ 𝜇 ≪ 94,36 𝑈/𝑚𝐿 (ou) [31,24; 94,36] 𝑈/𝑚𝐿
Determinar:
a) a média aritmética; (14,2 ppm) c) o desvio padrão; (1,48 ppm)
b) a variância; (2,2 ppm²) d) o erro padrão amostral. (0,66 ppm)
6. Os salários mensais de quatro trabalhadores são R$ 2.500,00, R$ 4.000,00, R$ 5.500,00 e 20.000,00.
Determine a média aritmética dos salários. A média é típica dos salários, ou seja, representa bem o salário Para os exercícios de fixação (páginas 4 e 5) determine:
médio dos trabalhadores?
a) a estimativa por intervalo de confiança (𝐼𝐶);
7. Entre 100 números, vinte são 4, quarenta são 5, trinta são 6 e o restante são 7. Determine a média
aritmética dos números.
Respostas
8. Os graus de um estudante em seis exames foram: 84, 91, 72, 68, 87, 78. Determine a mediana.
Se há (a) 85 e (b) 150 números ordenados em rol, como se determinaria a mediana desses números? Exercício 01
a) 210,17 ≪ 𝜇 ≪ 243,83
9. Determine a média, a mediana dos números:
5, 4, 8, 7, 2, 9; Exercício 02
18, 3, 20, 6, 19, 3, 22, 4, 20, 2, 18, 8, 19, 7, 20, 0. a) 44,51 ≪ 𝜇 ≪ 49,49
10. Determine a média, a mediana e a moda dos números: Exercício 03

7, 4, 10, 9, 15, 12,7,9,7
a) 27,82 ≪ 𝜇 ≪ 35,18 𝑔𝑟𝑎𝑚𝑎𝑠
8, 11, 4,3, 2, 5, 10, 6, 4, 1, 10, 8, 12, 6, 5, 7
Exercício 04
a) 6,56 ≪ 𝜇 ≪ 9,44
Exercício 05
a) 12,36 ≪ 𝜇 ≪ 16,04 𝑝𝑝𝑚
Estimativas por intervalo de confiança (𝑰𝑪)
7 8
Distribuição t de Student Comparando a variabilidade (dispersão) de amostras

Muitas vezes, em situações práticas, precisamos comparar a variabilidade de dois ou mais conjuntos de dados.
Como estes conjuntos podem estar descritos com diferentes unidades de medidas, ficamos impossibilitados de
gl  0,10 0,05 0,025 0,01 0,005  gl realizar esta comparação através do desvio médio ou da variância.
1 3,0777 6,3137 12,7062 31,8210 63,6559 1
Para realizar comparações deste tipo, definiu-se o coeficiente de variação:
2 1,8856 2,9200 4,3027 6,9645 9,9250 2
3 1,6377 2,3534 3,1824 4,5407 5,8408 3
𝑠
4 1,5332 2,1318 2,7765 3,7469 4,6041 4 𝐶𝑉(%) = . 100
𝑥̅
5 1,4759 2,0150 2,5706 3,3649 4,0321 5
6 1,4398 1,9432 2,4469 3,1427 3,7074 6
Exemplo:
7 1,4149 1,8946 2,3646 2,9979 3,4995 7 Com o objetivo de determinar o conteúdo de material sólido e a concentração de coliformes fecais em
8 1,3968 1,8595 2,3060 2,8965 3,3554 8 determinado rio, foi efetuada em coleta em seis pontos desse curso d’água. Os resultados obtidos encontram-
se a seguir. Verificar, qual das duas variáveis (material sólido e coliformes fecais) possui maior variabilidade
9 1,3830 1,8331 2,2622 2,8214 3,2498 9
(dispersão):
10 1,3722 1,8125 2,2281 2,7638 3,1693 10
5,29 𝑢.𝑚.
11 1,3634 1,7959 2,2010 2,7181 3,1058 11 Material sólido 𝐶𝑉 = . 100 = 2,50%
212 𝑢.𝑚.
12 1,3562 1,7823 2,1788 2,6810 3,0545 12 𝑥̅ = 212 𝑢. 𝑚.
𝑠 = 5,29 𝑢. 𝑚.
13 1,3502 1,7709 2,1604 2,6503 3,0123 13
1,48 𝑝𝑝𝑚
14 1,3450 1,7613 2,1448 2,6245 2,9768 14 Coliformes fecais 𝐶𝑉 = . 100 = 10,42%
14,2 𝑝𝑝𝑚
15 1,3406 1,7531 2,1315 2,6025 2,9467 15 𝑥̅ = 14,2 𝑝𝑝𝑚
16 1,3368 1,7459 2,1199 2,5835 2,9208 16 𝑠 = 1,48 𝑝𝑝𝑚
17 1,3334 1,7396 2,1098 2,5669 2,8982 17 Pelo coeficiente de variação observa-se que a variabilidade (dispersão) da concentração de coliformes fecais
18 1,3304 1,7341 2,1009 2,5524 2,8784 18 (10,42%) é maior que a variabilidade (dispersão) do conteúdo de material sólido (2,50%).
19 1,3277 1,7291 2,0930 2,5395 2,8609 19
20 1,3253 1,7247 2,0860 2,5280 2,8453 20
21 1,3232 1,7207 2,0796 2,5176 2,8314 21 a) Calcular o coeficiente de variação (CV) para os exercícios das páginas 4 e 5;
22 1,3212 1,7171 2,0739 2,5083 2,8188 22
𝐶𝑉(1) = 9.65% 𝐶𝑉(2) = 6,89% 𝐶𝑉(3) = 11,14% 𝐶𝑉(4) = 23,38% 𝐶𝑉(5) = 10,42%
23 1,3195 1,7139 2,0687 2,4999 2,8073 23
24 1,3178 1,7109 2,0639 2,4922 2,7970 24 b) Verificar qual das amostras (exercícios) apresenta maior variabilidade (dispersão) dos valores ao redor da
média); (exercício 4)
25 1,3163 1,7081 2,0585 2,4851 2,7874 25
26 1,3150 1,7056 2,0555 2,4786 2,7787 26 c) Verificar qual das amostras (exercícios) apresenta menor variabilidade (dispersão) dos valores ao redor da
27 27
média). (exercício 2)
1,3137 1,7033 2,0518 2,4727 2,7707
28 1,3125 1,7011 2,0484 2,4671 2,7633 28
29 1,3114 1,6991 2,0452 2,4620 2,7564 29 Testes de Hipóteses Estatísticas
30 1,3104 1,6973 2,0423 2,4573 2,7500 30
Apenas retirar a amostra e obter algumas estatísticas descritivas, como tabelas e gráfico, ou mesmo obter
35 1,3062 1,6896 2,0301 2,4377 2,7238 35 algumas estimativas por ponto ou intervalo, em geral, não atende aos interesses do pesquisador. É necessário
40 1,3031 1,6839 2,0211 2,4233 2,7045 40 inferir, com base nos resultados amostrais, sobre os parâmetros populacionais.
45 1,3007 1,6794 2,0141 2,4121 2,6896 45
Teste de hipóteses: regra de decisão estatística que permite, com base em informações contidas nos dados
50 1,2987 1,6759 2,0086 2,4033 2,6778 50 amostrais, concluir sobre parâmetros da população.
60 1,2958 1,6706 2,0003 2,3901 2,6603 60
Hipótese estatística: são conjecturas formuladas para a comparação de dois ou mais parâmetros (variáveis)
70 1,2938 1,6669 1,9944 2,3808 2,6479 70 quer afirmando que são iguais ou não.
80 1,2922 1,6641 1,9901 2,3739 2,6387 80
Hipótese nula ou de nulidade (𝑯𝟎 ): é a primeira a ser formulada. Determina a ausência de diferença entre os
90 1,2910 1,6620 1,9867 2,3685 2,6316 90
parâmetros, isto é, simplesmente afirma que não há diferença entre os grupos estudados, atribuindo a
100 1,2901 1,6602 1,9840 2,3642 2,6259 100 ocorrência do fenômeno ou resultado observado ao acaso. O objetivo dos testes estatísticos é rejeitar a
1000 1,2824 1,6464 1,9623 2,3301 2,5807 1000 hipótese nula.
Hipótese alternativa (𝑯𝟏 𝒐𝒖 𝑯𝑨 ): contraria a hipótese nula, ou seja, determina a existência de diferença entre
os parâmetros estudados.
9 10
Em relação à hipótese alternativa (𝑯𝟏 𝒐𝒖 𝑯𝑨 ) o teste estatística pode ser: Quando o teste de hipóteses é feito em computador, através de algum programa estatístico, recebemos como
output o p-valor (p-value), nível descritivo ou probabilidade de significância do teste, que é a probabilidade de
ocorrência de valores da variável analisada do teste mais extremos que o obtido através dessa amostra.
Teste Bilateral Teste Unilateral à direita Teste Unilateral à esquerda
Assim a decisão pode ser feita em termos de p-valor:
H0 : μ1 = μ2 H0 : μ1 = μ2 H0 : μ1 = μ2 rejeitamos ou não 𝐻0 , conforme o p-valor seja,
respectivamente, menor ou não que o nível de
significância (∝), estabelecido a priori.
H1 : μ1 ≠ μ2 H1 : μ1 > μ2 H1 : μ1 < μ2
𝐩 >∝ 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐇𝟎 (𝐚𝐜𝐞𝐢𝐭𝐚 − 𝐬𝐞 𝐇𝟎 )
𝐩 ≤∝ 𝐫𝐞𝐣𝐞𝐢𝐭𝐚 − 𝐬𝐞 𝐇𝟎
Observação
Em nosso estudo, abordaremos somente os de populações com variância e desvio padrão desconhecidos,
Mecanismo dos erros: Erros do Tipo I e do Tipo II por descreverem situações mais realistas. Nesse contexto, após a verificação da normalidade (em todos os
testes) é conveniente saber se estas variâncias são iguais ou diferentes (em testes para comparação de duas
Depois de completado o procedimento de teste de hipótese, que leva a uma decisão sobre a hipóteses ou mais médias amostrais).
nula, não existe total certeza sobre se foi tomada a decisão correta. Podem ser observados dois tipos de erro
descritos na seguinte tabela:
Testes de hipóteses para um parâmetro
Aceitar Ho Rejeitar Ho
Ho verdadeira --------------------------- erro tipo I Os testes de hipóteses para um único parâmetro, também conhecidos como testes de conformidade, têm por
objetivo verificar a veracidade da hipóteses de que o parâmetro populacional tem um valor especificado pelo
Ho falsa erro tipo II --------------------------- pesquisador denotado 𝝁𝟎 .
A probabilidade de cometer erro do tipo I é chamada de nível de significância e representada por   , Teste de hipóteses para a média de uma população normal
enquanto que    é a probabilidade de cometer erro tipo II.
Para realizar este teste, vamos retornar ao exemplo da página 4:
Por outro lado o poder do teste (P) é definido como a probabilidade de rejeitar uma hipótese falsa e pode ser
comprovado que é igual a  1    . Suponha uma amostra aleatória de tamanho 10 medidas da atividade enzimática da enzima inulinase
(proveniente de uma população normal), onde: 𝑥̅ = 62,8 𝑈/𝑚𝐿, 𝑠 = 44,12 𝑈/𝑚𝑙 e 𝑛 = 10 onde o pesquisador
Testes de hipóteses com 𝑃 ≥ 0,90 (90%) são bem aceitos. tenha, a priori, à custa de revisão bibliográfica ou por experiência anterior na área, uma suposição de que a
No entanto, nas práticas industriais e/ou laboratoriais, eles podem levar a custos inviáveis motivados pelo média de atividade enzimática na população é igual a 60 U/mL.
acréscimo no tamanho da amostra necessária para obtê-los.
a. 𝐻0 : 𝑎 𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 𝑒𝑛𝑧𝑖𝑚á𝑡𝑖𝑐𝑎 𝑚é𝑑𝑖𝑎 𝑛𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 é 𝑖𝑔𝑢𝑎𝑙 𝑎 60 𝑈⁄𝑚𝐿 (𝐻0 : 𝜇 = 60 𝑈⁄𝑚𝐿)
𝐻1 : 𝑎 𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 𝑒𝑛𝑧𝑖𝑚á𝑡𝑖𝑐𝑎 𝑚é𝑑𝑖𝑎 𝑛𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑎 60 𝑈⁄𝑚𝐿 (𝐻1 : 𝜇 ≠ 60 𝑈⁄𝑚𝐿)
Protocolo para a realização de um teste de hipóteses 5%

b. Nível de significância: ∝= = 2,5% = 0,025
2
a. Enunciar claramente as hipóteses 𝐻0 e 𝐻1 ;
Graus de liberdade: 𝑔𝑙 = (𝑛 − 1) = 9
b. Fixar o nível de significância (∝) e determinar as regiões críticas do teste. Em geral ∝= 0,05 (5%) para Valor crítico: 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,2622
delineamentos completos ou ∝= 0,10 (10%) para delineamentos de seleção de variáveis (fatoriais fracionados
e Placket & Burman);
𝑥̅ − 𝜇0
c. Calcular o valor (V) da estatística do teste, que depende do parâmetro que se quer testar; c. Calcular o valor da estatística do teste: 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑠
√𝑛
62,8 − 60
d. Tomada de decisão: 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = 0,2007
44,12
| 𝑉(𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜) | ≥ | 𝑉(𝑐𝑟í𝑡𝑖𝑐𝑜 − 𝑡𝑎𝑏𝑒𝑙𝑎) | 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 √10
| 𝑉(𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜) | < | 𝑉(𝑐𝑟í𝑡𝑖𝑐𝑜 − 𝑡𝑎𝑏𝑒𝑙𝑎) | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 )
d. Tomada de decisão: | 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | < | 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 )
Probabilidade de significância, p-valor (p) ou nível descritivo do teste
Em linguagem estatística, dizemos:
11 12
Não há evidências, ao nível de significância de 5% (ou, se preferir 0,05) de que a atividade enzimática média Exercício 01 (𝑥̅ = 71,06 𝑑𝐵 − 𝑠 = 7,49 𝑑𝐵)
na população é diferente de 60 U/mL. Ou seja:
𝐻0 : 𝜇 = 70 𝑑𝐵
Não há evidências, ao nível de significância de 5%, de que exista diferença significativa (não existe diferença 𝐻1 : 𝜇 ≠ 70 𝑑𝐵
significativa) entre a média populacional (60 U/mL) e a média encontrada na amostra analisada (62,8 U/mL).
𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1315 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 0,5661 − 𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Observe que este resultado já era esperado desde a construção do intervalo de confiança, para o qual
obtivemos: 𝐼𝐶[𝜇](95%) = [31,24; 94,36] 𝑈/𝑚𝐿 que contém o valor 60 U/mL. Ao nível de significância de 5%, verificamos que não existe diferença significativa entre a intensidade média
(71,06 dB) de ruído nos CPDs analisados nos horários críticos e o valor especificado na legislação (70 dB).
Exercícios de fixação: 𝐼𝐶(95%) = [67,07 ; 75,05] 𝑑𝐵
01. Padrões técnicos exigem que o nível de ruído em CPDs seja de, no máximo, 70 dB. Foram analisados 16 Exercício 02 (𝑥̅ = 498,94 𝑔𝑟𝑎𝑚𝑎𝑠 − 𝑠 = 4,07 𝑔𝑟𝑎𝑚𝑎𝑠)
CPDs de várias organizações, obtendo-se os seguintes valores (que seguem, aproximadamente, uma
distribuição normal): 𝐻0 : 𝜇 = 500 𝑔𝑟𝑎𝑚𝑎𝑠
𝐻1 : 𝜇 ≠ 500 𝑔𝑟𝑎𝑚𝑎𝑠
78 73 68 65 72 64 77 80
82 78 65 72 61 79 58 65 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1315 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = −1,0418 − 𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Verificar se há evidência de que existe diferença significativa entre a intensidade média de ruído nos CPDs Ao nível de significância de 5%, verificamos que não existe diferença significativa entre o peso médio dos
analisados nos horários críticos e o valor especificado na legislação (70 dB). Faça o teste adequado ao nível de pacotes analisados (498,94 gramas) e o peso médio anunciado pelo fabricante (500 gramas).
significância de 5%.
𝐼𝐶(95%) = [496,77 ; 501,11] 𝑔𝑟𝑎𝑚𝑎𝑠
02. Um cliente de uma torrefação de café suspeita que os pesos dos pacotes, que deveriam ser de 500
gramas, não estão corretos. Resolveu, então, retirar uma amostra dos pesos de 16 pacotes. Os pesos Exercício 03 (𝑥̅ = 6,82 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠 − 𝑠 = 0,55 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠)
encontrados (que seguem, aproximadamente, uma distribuição normal) estão relacionados abaixo:
𝐻0 : 𝜇 = 6,4 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠
510 495 498 500 501 499 503 500 𝐻1 : 𝜇 ≠ 6,4 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠
495 492 499 499 497 495 499 501
𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,2622 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2, 4148 − 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Há evidências que confirmem a hipótese de que existe diferença significativa entre o peso médio dos pacotes
analisados e o peso médio anunciado pelo fabricante (500 gramas)? Ao nível de significância de 5% verificamos que, após a ocorrência dos problemas na rede, existe diferença
significativa entre o tempo padrão para transmissão de dados (6,4 segundos) e o tempo médio para
03. O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal, transmissão de dados encontrado nos ensaios realizados (6,82 segundos).
com média 6,4 segundos. Depois da ocorrência de alguns problemas na rede, acredita-se em uma variação no
tempo de transmissão de dados. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e 𝐼𝐶(95%) = [6,43 ; 7,21] 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠
foram anotados os tempos de transmissão, em segundos:
Exercício 04 (𝑥̅ = 70,46 − 𝑠 = 12,99)
6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,6 6,6 6,3
𝐻0 : 𝜇 = 72 (𝑔𝑟𝑎𝑢 𝑑𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎çã𝑜)
Existe evidência suficiente, a partir dos dados (tempos) coletados nos ensaios realizados, de que após os 𝐻1 : 𝜇 ≠ 72 (𝑔𝑟𝑎𝑢 𝑑𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎çã𝑜)
problemas na rede ocorreu diferença significativa no tempo de transmissão de dados?
𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1788 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = −0,4274 − 𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
04. Treze (13) alunos foram inquiridos quanto ao seu grau de satisfação (numa escala de 0 a 100) em relação
à sua Universidade, obtendo-se os seguintes resultados: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre o grau de satisfação
encontrado na amostra analisada (70,46) e a média de satisfação esperada (72).
75 60 55 80 52 90 60 91 72 58 77 80 66
𝐼𝐶(95%) = [62,61 ; 78,31] 𝑔𝑟𝑎𝑢 𝑑𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎çã𝑜
Supondo que o grau de satisfação segue uma distribuição aproximadamente normal, teste a hipótese de que a
média de satisfação é igual a 72.
Exercício 05 (𝑥̅ = 2207,47 𝐾𝑐𝑎𝑙 − 𝑠 = 308,01 𝐾𝑐𝑎𝑙)
05. Os valores abaixo mostram os dados (quantidade) de calorias (Kcal) ingeridas por dia para um grupo de 15
jovens. 𝐻0 : 𝜇 = 2000 𝐾𝑐𝑎𝑙
𝐻1 : 𝜇 ≠ 2000 𝐾𝑐𝑎𝑙
1867 1978 1958 2004 2011 2578 2498 2110
1900 1950 2099 2360 2311 2788 2700 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1448 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2,6088 − 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Supondo que a quantidade de calorias ingeridas segue uma distribuição aproximadamente normal, teste a Ao nível de significância de 5%, verificamos que existe diferença significativa entre a ingestão média de
hipótese de que estes jovens pertencem a uma população cuja média de calorias ingeridas por dia é igual a calorias (2207,47 Kcal) encontrada na amostra de jovens analisada e a ingestão média de calorias da
2000 Kcal. população (2000 Kcal).
06. Confirmar os resultados obtidos no exercícios (1 a 5) através da construção do intervalo de confiança. 𝐼𝐶(95%) = [2036,90 ; 2378,04] 𝐾𝑐𝑎𝑙
13 14
Testes de Normalidade
Teste de Hipóteses sobre a média de duas populações normais
Uma das pressuposições dos testes estatísticos paramétricos diz respeito à distribuição normal das variáveis Segundo o relacionamento entre as respostas, as amostras podem ser independentes ou pareadas. Em cada
nas populações. Quando se retira, portanto, uma amostra para esses modelos de testes, deve-se supor que as caso, há uma metodologia específica a ser utilizada. Assim, dividiremos o nosso estudo em duas partes:
unidades do universo em questão apresentem uma distribuição normal. amostras independentes e amostras pareadas.
Vários testes têm sido descritos para a identificação da normalidade das variáveis, vamos utilizar os seguintes:
OBSERVAÇÃO:
 Teste de Shapiro-Wilk (amostras com tamanho 𝟓 ≤ 𝒏 ≤ 𝟓𝟎): não são necessários os parâmetros Abordaremos somente os casos com variâncias desconhecidas, por descreverem situações mais realistas.
populacionais para a utilização.
Amostras Independentes
 Teste de Kolmogorov-Smirnov (para amostras com tamanho 𝒏 > 50): são necessários os
parâmetros populacionais (média aritmética e desvio padrão) para a utilização. Condições de utilização:
 Teste de Normalidade
Hipóteses:  Teste de igualdade (homogeneidade) de variâncias
𝒑 > 0,05 𝒏ã𝒐 𝒔𝒆 𝒓𝒆𝒋𝒆𝒊𝒕𝒂 (𝒂𝒄𝒆𝒊𝒕𝒂 − 𝒔𝒆 𝑯𝟎 ) 𝒐𝒔 𝒅𝒂𝒅𝒐𝒔 𝒂𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂𝒎 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒊çã𝒐 𝒏𝒐𝒓𝒎𝒂𝒍

𝒑 ≤ 𝟎, 𝟎𝟓 𝒓𝒆𝒋𝒆𝒊𝒕𝒂 − 𝒔𝒆 𝑯𝟎 𝒐𝒔 𝒅𝒂𝒅𝒐𝒔 𝒏ã𝒐 𝒂𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂𝒎 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒊çã𝒐 𝒏𝒐𝒓𝒎𝒂𝒍 Teste de Hartley para homogeneidade de Variâncias
Exemplo: A tabela abaixo descreve as massas secas (em gramas por litro), de duas amostras das leveduras
OBSERVAÇÃO: AAG 5 e V 04, obtidas respectivamente no Cerrado e na Mata Atlântica. Verifique através do teste de Hartley,
Em função da complexidade de cálculos para a realização destes testes eles serão realizados somente em se tais amostras provêm de populações com variâncias iguais.
softwares estatísticos.
Cerrado Mata Atlântica
0,4169 0,5506
Exercícios de fixação: 0,2779 0,3671 O teste de Shapiro-Wilk apresentou, respectivamente,
0,2085 0,2753 para as leveduras AAG 5 e V 04, os valores: p = 0,1800
01. Verificar se as amostras (exercícios da página 11) realmente provêm de populações que seguem uma e p = 0,0990, ambos maiores que 0,05 (5%). Assim não
distribuição normal. 0,1668 0,2203
há problema de normalidade com as populações das
0,1191 0,1573
(01) Shapiro-Wilk: 𝒑 = 𝟎, 𝟑𝟏𝟔𝟎 > 0,05 os dados apresentam distribuição normal quais as amostras foram coletadas.
0,1042 0,1377
(02) Shapiro-Wilk: 𝒑 = 𝟎, 𝟏𝟏𝟑𝟎 > 0,05 os dados apresentam distribuição normal
0,1390 0,1224 O teste de Levene (SPSS) apresentou p = 0,5150,
(03) Shapiro-Wilk: 𝒑 = 𝟎, 𝟖𝟖𝟑𝟎 > 0,05 os dados apresentam distribuição normal
0,1835 maior que 0,05 (5%), constatando que as amostras
(04) Shapiro-Wilk: 𝒑 = 𝟎, 𝟒𝟒𝟕𝟎 > 0,05 os dados apresentam distribuição normal
(05) Shapiro-Wilk: 𝒑 = 𝟎, 𝟎𝟒𝟒𝟎 ≤ 𝟎, 𝟎𝟓 os dados não apresentam distribuição normal 𝑛=7 𝑛=8 provêm de populações com variâncias iguais.
𝑥̅ = 0,20 𝑥̅ = 0,25
02. Verificar se as amostras abaixo provêm de populações que seguem uma distribuição normal: 𝑠 = 0,11 𝑠 = 0,15
a. Para avaliar os efeitos de um novo tipo de ração para suínos um criador alimenta uma amostra de 60
𝑠 2 = 0,0121 𝑠 2 = 0,0225
animais. O peso médio da população de porcos da criação é 47,5 kg com desvio padrão 10,5 kg. Depois de 30
dias, os animais são pesados para que se faça uma comparação com os pesos iniciais. Os pesos obtidos (kg)
encontram-se abaixo. 2 2
a. 𝐻0 : 𝑠(1) = 𝑠(2) 𝑎𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎𝑠 𝑠ã𝑜 𝑖𝑔𝑢𝑎𝑖𝑠 (𝒑 > 𝟎, 𝟎𝟓) (homocedasticidade)
2 2
44 49 43 51 44 75 42 51 34 30 53 42 𝐻1 : 𝑠(1) ≠ 𝑠(2) 𝑎𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎𝑠 𝑠ã𝑜 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 (𝒑 ≤ 𝟎, 𝟎𝟓) (heterocedasticidade)
45 36 30 32 21 33 42 40 39 52 46 42
47 45 39 59 34 36 40 54 59 53 44 54 b. Nível de significância: ∝= 5% = 0,05
32 68 69 54 41 46 47 65 66 45 57 39
Graus de liberdade: 𝑔𝑙 = (𝑛𝑚á𝑥𝑖𝑚𝑜 − 1) ; (𝑛𝑚í𝑛𝑖𝑚𝑜 − 1) = (8 − 1) ; (7 − 1) = (7 ; 6)
57 40 40 36 45 60 39 50 42 41 43 49
Valor crítico: 𝐹𝑡𝑎𝑏𝑒𝑙𝑎 = 𝐹(7 ; 6 ; 0,05) = 4,21
Kolmogorov-Smirnov: 𝒑 = 𝟎, 𝟏𝟏𝟓𝟎 > 0,05 os dados apresentam distribuição normal
b. Em uma escola foram analisadas as notas de uma amostra 52 alunos em uma prova de determinada c. Calcular o valor da estatística do teste:
disciplina. A nota média desta prova (determinada em estudos anteriores) é 7,4 com desvio padrão 1,5. As
2
notas obtidas encontram-se abaixo: 𝑠(𝑚á𝑥𝑖𝑚𝑜) 0,0225
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = 1,86
𝑠(𝑚í𝑛𝑖𝑚𝑜) 0,0121
6,3 1,5 5,9 6,4 5,5 5,4 5,4 8,0 5,9 8,0 6,5 2,0 3,6
6,0 9,8 6,8 5,3 3,6 3,8 3,0 6,0 4,3 4,6 6,4 5,5 6,0
4,3 4,3 5,2 3,4 2,8 8,3 7,1 5,5 8,7 6,5 6,4 7,7 8,5
5,3 6,9 8,0 8,2 7,1 8,4 6,0 5,5 7,2 6,4 5,5 6,4 8,2
d. Tomada de decisão: | 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | < | 𝐹𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 )
Kolmogorov-Smirnov: 𝒑 = 𝟎, 𝟏𝟖𝟐𝟎 > 0,05 os dados apresentam distribuição normal
15 16
Conclusão: Não há evidências de que as amostras provêm de populações com variâncias diferentes 𝑠 = 0,11 𝑠 = 0,28
(variâncias iguais). 𝑠 2 = 0,0121 𝑠 2 = 0,0784 O teste de Shapiro-Wilk apresentou, respectivamente,
Teste t de Student: duas médias de populações normais - VARIÂNCIA IGUAIS para as leveduras AAG 5 e X, os valores: p = 0,1800 e
Voltemos ao exemplo do Teste de Hartley (página 14) para a realização do teste para verificar se as médias p = 0,2970, ambos maiores que 0,05 (5%). Assim não
das populações da quais foram obtidas as amostras têm médias iguais. há problema de normalidade com as populações das
quais as amostras foram coletadas.
a. 𝐻0 : 𝑥̅1 = 𝑥̅2 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠
𝐻1 : 𝑥̅1 ≠ 𝑥̅2 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎
O teste de Levene (SPSS) apresentou p = 0,0300,
5% menor que 0,05 (5%), constatando que as amostras
2 provêm de populações com variâncias diferentes.
Graus de liberdade: 𝑔𝑙 = (𝑛1 + 𝑛2 − 2) = (8 + 7 − 2) = 13
Valor crítico: 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1604
c. Calcular o valor da estatística do teste: Teste de Hartley para homogeneidade de Variâncias
(𝑛1 −1).𝑆12 + (𝑛2 −1).𝑆22 a. 2

𝐻0 : 𝑠(1) 2
= 𝑠(2) 𝑎𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎𝑠 𝑠ã𝑜 𝑖𝑔𝑢𝑎𝑖𝑠 (𝒑 > 𝟎, 𝟎𝟓) (homocedasticidade)
Variância comum estimada →→ 𝑠𝑐2 = (𝑛1 + 𝑛2 −2) 2
𝐻1 : 𝑠(1) 2
≠ 𝑠(2) 𝑎𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎𝑠 𝑠ã𝑜 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 (𝒑 ≤ 𝟎, 𝟎𝟓) (heterocedasticidade)
(𝑛1 −1).𝑆12 + (𝑛2 −1).𝑆22 (7−1).0,0121 + (8−1).0,0225 b. Nível de significância: ∝= 5% = 0,05

𝑠𝑐2 = (𝑛1 + 𝑛2 −2)
= (7+ 8−2)
= 0,0177
Graus de liberdade: 𝑔𝑙 = (𝑛𝑚á𝑥𝑖𝑚𝑜 − 1) ; (𝑛𝑚í𝑛𝑖𝑚𝑜 − 1) = (7 − 1) ; (7 − 1) = (6 ; 6)
Valor crítico: 𝐹𝑡𝑎𝑏𝑒𝑙𝑎 = 𝐹(6 ; 6 ; 0,05) = 4,28
𝑥̅1 − 𝑥̅2 0,20− 0,25
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 0,0177 0,0177
= −0,7262
𝑆2 𝑆2
√
7
+
8 c. Calcular o valor da estatística do teste:
√ 𝑐+ 𝑐
𝑛1 𝑛2
2
𝑠(𝑚á𝑥𝑖𝑚𝑜) 0,0784
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = 6,48
𝑠(𝑚í𝑛𝑖𝑚𝑜) 0,0121
e. 𝑝 = 0,4970 > 0,05 (𝑆𝑃𝑆𝑆) 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

d. Tomada de decisão: | 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | ≥ | 𝐹𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Conclusão: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre as médias,
ou seja, não há evidências de que as amostras provêm de populações com médias diferentes. Conclusão: Há evidências de que as amostras provêm de populações com variâncias diferentes (variâncias
diferentes).
Teste t de Student: duas médias de populações normais - VARIÂNCIA DIFERENTES Teste t de Student
Quando as variâncias são diferentes, o teste de médias é aproximado. Em outras palavras, a estatística do
teste (t calculado) tem distribuição aproximada de t, com gl graus de liberdade. a. 𝐻0 : 𝑥̅1 = 𝑥̅2 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠
O valor de gl é obtido através da fórmulas de Satterthwaite. 𝐻1 : 𝑥̅1 ≠ 𝑥̅2 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎
Exemplo: 5%
Suponha que se queira comparar a média da massa seca da levedura AAG 5 (Cerrado) com a de outra 2
levedura X, através das amostras descritas na tabela abaixo:
(𝐴+𝐵)2 𝑆12 𝑆22

Cerrado Levedura X
Graus de liberdade: 𝑔𝑙 = 𝐴2 𝐵2
Onde: 𝐴= e 𝐵=
0,4169 0,4802 ( + ) 𝑛1 𝑛2
𝑛1 −1 𝑛2−1
0,2779 0,2363
0,2085 0,6233
0,1668 0,2783 𝑆12 0,0121 𝑆22 0,0784 (0,0017+0,0112)2
𝐴=
𝑛1
=
7
= 0,0017 𝐵=
𝑛2
=
7
= 0,0112 𝑔𝑙 = 0,00172 0,01122
= 7,78 … = 8
0,1191 0,1994 ( + )
7−1 7−1
0,1042 0,1300
0,1390 0,9125
𝑛=7 𝑛=7
𝑥̅ = 0,20 𝑥̅ = 0,41
17 18
𝑥̅1 − 𝑥̅2
c. Calcular o valor da estatística do teste: 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
𝑠2 𝑠2 ∑(𝑑𝑖 ) ∑(𝑑𝑖 − 𝑑̅)2
√ 1+ 2 Médias das diferenças → 𝑑̅ = Desvio padrão das diferenças → 𝑆𝑑 = √
𝑛1 𝑛2
𝑛 𝑛−1
0,20− 0,41
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 0,0121 0,0784
= −1,8469
√ +
7 7
𝑑̅ 𝑑̅ 0,0225
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑆 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑆 = 0,0572 = 1,3626
( 𝑑) ( 𝑑)
√𝑛 √12
d. Tomada de decisão: | 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | < | 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 ) √𝑛
e. 𝑝 = 0,1130 > 0,05 (𝑆𝑃𝑆𝑆) 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

Conclusão: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre as médias, e. 𝑝 = 0,2004 > 0,05 (𝑆𝑃𝑆𝑆) 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎
ou seja, não há evidências de que as amostras provêm de populações com médias diferentes.
Conclusão: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre as médias,
Amostras Pareadas ou seja, não há evidências de que as amostras provêm de populações com médias diferentes.
Condição de utilização:
 Teste de Normalidade Para cada um dos exercícios a seguir você deve:

a) verificar a normalidade dos dados através do p-valor (SPSS);
b) verificar a homogeneidade das variâncias (amostras independentes) pelo Teste de Hartley (confirmar pelo
Exemplo:
teste de Levene através do p-valor – SPSS);
Os dados da tabela abaixo são referentes às medidas de duas amostras pareadas, compostas de 12 frascos. c) realizar o Teste t de Student (amostras independentes ou amostras pareadas) para verificar se existe (ou
Metade de cada frasco foi analisada pelo controle interno de um laboratório e a outra metade pelo não) diferença significativa entre as médias (confirmar o Teste t de Student através do p-valor – SPSS).
departamento de controle de qualidade. Verificar se ambos os controles apresentam a mesma média para as
medidas. 01. Dependendo da sua composição química, uma formulação de um combustível pode ser mais ou menos
Cont. Qualidade Cont. Interno Diferença
instável à estocagem. Isso significa que quando o combustível é deixado estocado por algum tempo, ele se
deteriora mais rapidamente quando é instável do que quando é estável. O Número de Bromo é uma das
1,35 1,35 0,00
propriedades que pode afetar a estabilidade do combustível.
0,36 0,38 - 0,02 O teste de Shapiro-Wilk apresentou,
1,71 1,75 - 0,04 respectivamente, para o controle de qualidade Estáveis 38 40 47 48 48 33 32 65 50 53 31 34 19 42 38 63 78 37 59 60
1,49 1,47 0,02
e o controle interno: p = 0,1560 e p = 0,2410,
Instáveis 74 68 60 64 80 76 78 31 85 50 78 55 59 74
ambos maiores que 0,05 (5%). Assim não há
1,15 1,20 - 0,05
problema de normalidade com as populações
1,37 1,28 0,09 Verificar, com nível de significância de 5%, se há igualdade entre os dois grupos quanto ao valor médio do
das quais as amostras foram coletadas.
1,40 1,33 0,07 Número de Bromo.
1,13 1,04 0,09
1,99 2,01 - 0,02
02. Consultando um site de locação de imóveis em um determinado dia, encontramos alguns apartamentos
1,26 1,23 0,03
com sala e um quarto anunciados para aluguel nos bairros de Botafogo e Flamengo, ambos situados na Zona
0,27 0,15 0,12 Sul do Rio de Janeiro. Os valores do aluguel mensal (em reais) propostos pelos anunciantes eram os
1,95 1,97 - 0,02 seguintes:
𝑛 = 12 𝑛 = 12 𝑛 = 12
−−− −−− 𝑥̅𝑑 = 0,0225 Flamengo 1500 1500 1400 1350 1400 1450 1550 1500 1200 1350 1400 1550 1550
−−− −−− 𝑠𝑑 = 0,0572 Botafogo 1500 1800 3000 1800 1900 2000 1700 500 1800 1800 2500
a. 𝐻0 : 𝑥̅1 = 𝑥̅2 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠 Verificar, com nível de significância de 5%, se existe diferença significativa quanto ao valor médio do aluguel
𝐻1 : 𝑥̅1 ≠ 𝑥̅2 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎 nos bairros Flamengo e Botafogo.
5%
2 03. Um professor aplicou a mesma prova de Estatística em duas turmas (A e B) do curso de Engenharia
Graus de liberdade: 𝑔𝑙 = (𝑛 − 1) = (12 − 1) = 11 Química. Os resultados obtidos foram os seguintes:
Turma A 2,5 3,5 4,5 5,0 5,5 5,5 6,0 6,5 7,0 7,5 7,5 7,5 7,5 8,0 8,0 8,5 8,5 9,0 9,5 9,5
c. Calcular o valor da estatística do teste: Turma B 3,5 3,5 4,0 4,5 5,0 5,0 5,5 5,5 6,0 6,5 6,5 7,0 7,0 7,0 7,0 7,5 7,5 8,0 9,0 9,5
19 20
Verificar, com nível de significância de 5%, se existe diferença significativa quanto a média das notas dos
alunos das turmas (A e B) na prova de Estatística. Importante: chama-se a variável dependente (ou variável resposta) de Y e a variável independente (fator,
variável explicativa ou variável preditiva) de X.
04. Calculadoras eletrônicas utilizam dois métodos diferentes de entrada e processamento numérico. Vamos
denominar um dos métodos de “método algébrico” (MA) e o outro de “método polonês” (MP). Para comparar Indicações:
qual deles é mais eficaz é feito um teste com 20 usuários sem experiência prévia com calculadoras, onde 10
vão utilizar calculadoras do tipo (MA) e os outros 10 as de outro tipo (MP). A tabela mostra o tempo em Sentido do relacionamento: sinal positivo (relação diretamente proporcional – mesmo sentido)
segundos que cada operador gastou para realizar um conjunto padrão de cálculos. Testar a hipótese de que sinal negativo (relação inversamente proporcional – sentidos contrários)
não existe diferença entre os dois métodos no que se refere ao tempo de operação, utilizando um nível de
significância de 5%. Intensidade do relacionamento: a medida de correlação (módulo) indica relacionamentos fortes ou fracos,
segundo sejam mais próximos ou não do valor extremo (um). Valores próximos ou iguais a zero indicam
Método Algébrico 12 16 15 13 16 10 15 17 14 12 ausência de correlação linear (mas pode existir outro tipo de correlação entre as variáveis – logarítmica,
exponencial,...). A medida de correlação 1 (um) indica correlação linear perfeita.
Método Polonês 10 17 18 16 19 12 17 15 17 14
Vamos observar os gráficos abaixo:
05. Na tabela abaixo são dados as massas de 9 pessoas, antes e depois de uma dieta de emagrecimento.
Teste, ao nível de significância de 5%, se a dieta surte uma diferença significativa no peso (massa) das
pessoas a ela submetidas.
Antes 77 62 61 80 90 72 86 59 88
Depois 80 58 61 76 79 69 90 51 81
06. Foi testada a taxa de creatinina em um grupo de 10 pessoas antes e depois da utilização de um novo
fármaco. Os dados obtidos estão relacionados na tabela abaixo. Verifique, ao nível de significância de 5%, se
existe diferença significativa entre as taxas de creatinina registradas antes e depois do uso do fármaco.
Antes 3,2 4,5 2,8 3,9 4,1 3,6 2,8 4,1 3,1 3,6
Depois 2,9 3,3 2,8 2,9 3,6 2,8 2,1 3,0 2,5 2,2
07. Os dados a seguir referem-se ao grau de conforto (valores mais altos, maior conforto) no uso de dois tipos
de pipetas (A e B) de laboratório. O primeiro tipo (A) foi experimentado por 8 pessoas e o segundo tipo (B) por
outras 8 pessoas. Verifique, ao nível de significância de 5%, se existe diferença significativa no nível médio de
conforto em função do tipo de pipeta (A ou B) utilizada em laboratórios.
Pipeta A 5 9 3 4 8 2 3 4
Pipeta B 9 8 9 7 7 7 8 8
Relacionamento Linear entre duas Variáveis Quantitativas Coeficiente de Correlação Linear de Pearson (momento-produto)
Em situações experimentais, muitas vezes temos interesse em estudar o relacionamento entre duas A estimação por ponto será feita, no caso da normalidade dos dados, através do coeficiente de correlação de
variáveis quantitativas. Pearson (r), também conhecido como coeficiente de correlação momento-produto.
O relacionamento linear entre variáveis é, geralmente, avaliado através do coeficiente de correlação
linear simples. O parâmetro populacional e sua estimativa amostral são denotados, respectivamente, por 𝜌 e Normalidade dos dados: quando os valores (níveis) da variável independente ou variável preditora (X) forem
𝑟: fixados à priori a sua utilização não depende da normalidade dos dados.
−1 ≤ 𝜌 ≤ 1 −1 ≤ 𝑟 ≤ 1
21 22
2
𝑆𝑥𝑦 𝑐𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑥𝑦) 𝑛.∑(𝑥𝑖 . 𝑦𝑖 )−(∑ 𝑥𝑖 ) . (∑ 𝑦𝑖 )
𝑟=𝑆
. 𝑆𝑦
=
𝑑𝑝(𝑥) . 𝑑𝑝(𝑦)
→→ 𝑟= Exemplo 01:
𝑥
√[𝑛.∑(𝑥𝑖2 )−(∑ 𝑥𝑖 )2 ].[𝑛.∑(𝑦𝑖2 )−(∑ 𝑦𝑖 )2 ] Os dados da tabela descrevem a densidade óptica (x) e a massa seca (y) em gramas por litro obtidas em um
experimento com a levedura AAG5, com objetivo de determinar a curva padrão de biomassa seca.
Avaliação Qualitativa do Grau de Correlação entre duas variáveis Densidade óptica (x) 0,26 0,29 0,34 0,39 0,49 0,62 0,83
Coeficiente de correlação r correlação Massa seca (y) 0,10 0,12 0,14 0,17 0,21 0,28 0,42
0 nula
0,0  0,3 fraca
Teste de normalidade: Shapiro-Wilk
0,3 ├ 0,6 regular Densidade óptica: p = 0,3420 (distribuição normal)
0,6 ├ 0,9 forte Massa seca: p = 0,2230 (distribuição normal)
0,9 ├ 1,0 muito forte
1 perfeita ou plena
𝑛=7
Fonte: CALLEGARI-JACQUES, S.M. Bioestatística: princípios
e aplicações. Porto Alegre: Artmed, 2003. ∑ 𝑥𝑖 = 3,22
∑ 𝑦𝑖 = 1,44
Coeficiente de Determinação (R²) ∑(𝑥𝑖2 ) = 1,7328

O quadrado do coeficiente de correlação de Pearson é chamado de coeficiente de determinação (R²).
È uma medida da proporção (percentual) da variabilidade em uma variável que é explicada pela variabilidade ∑(𝑦𝑖2 ) = 0,3718
da outra. É pouco comum que tenhamos uma correlação perfeita (R² = 1) na prática, porque existem muitos
fatores que determinam as relações entre variáveis na vida real. ∑(𝑥𝑖 . 𝑦𝑖 ) = 0,7998
Regressão Linear Simples Então: r = 0,9964.

O estudo da regressão aplica-se àquelas situações em que há razões para supor uma relação de causa- Houve uma correlação linear positiva muito forte entre a densidade óptica e a massa seca da levedura.
efeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação, ou seja, a Como o valor de r é positivo, verificamos que a correlação é diretamente proporcional. Ou seja: à medida em
regressão pode ser usada quando desejamos fazer uma previsão (ou estimativa) de algum valor associado que aumenta a densidade óptica ocorre um aumento na massa seca.
às variáveis em estudo.
Pelo coeficiente de determinação (R²) verificamos que 99,28% da variabilidade da massa seca pode ser
Equação ajustada da reta descrita (explicada) pela variabilidade da densidade óptica. Fica claro, portanto, que 0,72% da variabilidade da
massa seca será descrita (explicada) pela influência de outros fatores (variáveis).
𝑦 = 𝑎 + 𝑏 .𝑥
Representação gráfica:
𝑛.∑(𝑥𝑖 . 𝑦𝑖 )−(∑ 𝑥𝑖 ) . (∑ 𝑦𝑖 ) ∑ 𝑦𝑖 ∑ 𝑥𝑖 0,45

𝑏= 𝑎= −𝑏. 0,40 y = 0,5461x - 0,0455
𝑛.∑(𝑥𝑖2 )−(∑ 𝑥𝑖 )2 𝑛 𝑛
Massa Seca (g/L)

0,35 R² = 0,9929
0,30
0,25
0,20
Para cada valor de 𝑥𝑖 temos, pela equação ajustada da reta, o valor predito (estimado): 𝑦
̂ = 𝑎 + 𝑏. 𝑥𝑖
𝑖 0,15
0,10
0,05
A diferença entre os valores observados e os valores preditos (estimados) é chamada de resíduo (𝑒𝑖 ): 0,00
0,00 0,20 0,40 0,60 0,80 1,00
Densidade Óptica
𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖
Análise dos Resíduos
Assim, estamos assumindo que X causa Y através de uma relação linear (𝑦𝑖 = 𝑎 + 𝑏 . 𝑥𝑖 + 𝑒𝑖 ), e toda a Determinar as seguintes estimativas:
variação em torno dessa relação deve-se ao efeito (erro / resíduo) aleatório. a) qual a massa seca se a densidade óptica for igual a 0,75? (0,36 g/L)
Além disso, para a validade da análise estatística, é necessário supor que as observações de Y sejam b) qual a densidade óptica para uma massa seca de 0,38 g/L? (0,78)
independentes, e o termo erro/resíduo tenha distribuição normal, com média nula e variância constante.
Nos exemplos a seguir, veremos um processo gráfico para verificar se estas suposições podem ser válidas e,
caso contrário, o que pode ser feito para corrigir as distorções. Análise dos Resíduos
23 24
Pelo coeficiente de determinação (R²) verificamos que 87,95% da variabilidade do desgaste abrasivo do aço
𝐱𝐢 𝐲𝐢 𝐲̂𝐢 𝐞𝐢 doce pode ser descrita (explicada) pela variabilidade da viscosidade do óleo. Fica claro, portanto, que 12,05%
da variabilidade do desgaste abrasivo do aço doce será descrita (explicada) pela influência de outros fatores
0,26 0,10 0,0965 0,0035
(variáveis).
0,29 0,12 0,1129 0,0071
0,34 0,14 0,1402 - 0,0002
0,39 0,17 0,1675 0,0025
Representação gráfica:
0,49 0,21 0,2221 - 0,0121

300
Volume desgastado (10-4 mm³)

0,62 0,28 0,2931 - 0,0131
250 y = -3,5086x + 234,07
0,83 0,42 0,4078 0,0122
R² = 0,8794
200
150
100
50
0
0,0 10,0 20,0 30,0 40,0 50,0
Viscosidade
O gráfico indica uma situação onde as suposições do modelo estão aparentemente satisfeitas, os resíduos
apresentam-se distribuídos de forma aleatória em torno da reta da regressão com pequena dispersão (no Determinar as seguintes estimativas:
diagrama de dispersão dos resíduos a reta da regressão corresponde à linha horizontal sobre o valor zero). a) qual o volume desgastado do aço doce quando a viscosidade do óleo for igual a 30? (128,81.10–4 mm³)
b) qual a viscosidade do óleo se o desgaste abrasivo do aço doce for igual a 215.10 –4 mm? (5,44)
Exemplo 02: Análise dos Resíduos

Um estudo sobre o desgaste abrasivo (volume desgastado) do aço doce e a viscosidade do óleo apresentou os
seguintes registrados na tabela abaixo: 𝐱𝐢 𝐲𝐢 𝐲̂𝐢 𝐞𝐢
1,6 240 228,4562 11,5438
9,4 181 201,0892 - 20,0892
Viscosidade (x) 1,6 9,4 15,5 20,0 22,0 35,5 43,0 40,5 33,0
15,5 193 179,6867 13,3133
Volume desgastado (10–4 mm³) (y) 240 181 193 155 172 110 113 75 94 20,0 155 163,8980 - 8,8980
22,0 172 156,8808 15,1192
Teste de normalidade: Shapiro-Wilk 35,5 110 109,5147 0,4853
Viscosidade: p = 0,7150 (distribuição normal) 43,0 113 83,2002 29,7998
Volume desgastado: p = 0,7910 (distribuição normal)
40,5 75 91,9717 - 16,9717
33,0 94 118,2862 - 24,2862
𝑛=9
∑ 𝑥𝑖 = 220,50
∑ 𝑦𝑖 = 1333,00
∑(𝑥𝑖2 ) = 7053,67
∑(𝑦𝑖2 ) = 220549,00
∑(𝑥𝑖 . 𝑦𝑖 ) = 26864,40 O gráfico indica uma situação onde as suposições do modelo estão aparentemente satisfeitas, os resíduos
apresentam-se distribuídos de forma aleatória em torno da reta da regressão com pequena dispersão (no
diagrama de dispersão dos resíduos a reta da regressão corresponde à linha horizontal sobre o valor zero).
Então: r = – 0,9378.
Houve uma correlação linear negativa muito forte entre a viscosidade do óleo e o desgaste abrasivo do aço
doce. Como o valor de r é negativo, verificamos que a correlação é inversamente proporcional. Ou seja: à Exercícios de fixação:
medida em que aumenta a viscosidade do óleo ocorre uma redução no desgaste abrasivo do aço doce.
25 26
01. A quantidade de libras de vapor usadas por mês por uma planta química está relacionada à temperatura
(ºF) média ambiente. O consumo mensal de determinado ano e a respectiva temperatura, foram registrados na
tabela a seguir: Temperatura (ºC) 100 110 120 130 140 150 160 170 180 190
Rendimento 45 51 54 61 66 70 74 78 85 89
Temperatura (ºF) 21 24 32 47 50 59 68 74 62 50 41 30
Consumo (÷ 1000)
185,79 214,47 288,03 424,84 454,58 539,03 621,55 675,06 562,03 452,93 369,95 273,98
(libras/vapor)
a) Verifique a normalidade dos dados. (temperatura: p = 0,8920 / rendimento: p = 0,9060)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9981)
a) Verifique a normalidade dos dados. (temperatura: p = 0,7850 / consumo: p = 0,8000) c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,9962)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9999) d) Determinar a equação de regressão linear simples. (𝒚 = −𝟐, 𝟕𝟑𝟓 + 𝟎, 𝟒𝟖𝟑. 𝒙)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,9998) e) Determine o rendimento para uma temperatura igual a 136ºC. (62,95)
d) Determinar a equação de regressão linear simples. (𝒚 = −𝟔, 𝟑𝟑𝟕𝟑 + 𝟗, 𝟐𝟎𝟖𝟒. 𝒙) f) Determine a temperatura se o rendimento for igual a 56. (121,6ºC)
e) Determine o consumo (libras/vapor) para uma temperatura igual a 55ºF. (500,12 libras/vapor)
f) Determine a temperatura se o consumo for igual a 480 libras/vapor. (52,81ºF)
05. Na fabricação de um antibiótico, a produção depende do tempo. Os dados de uma pesquisa mostram que
um processo resultou na seguinte produção (em quilogramas) de antibióticos nos tempos (em dias) indicados:
02. Os dados da tabela descrevem a atividade enzimática da inulinase (U/mL) em função da temperatura (ºC).
Tempo (dias) 1 2 3 4 5 6
Temperatura (x) 30 40 50 60 70
Produção (kg) 23 31 40 46 52 63
Atividade enzimática (y) 158 292 393 456 215
a) Verifique a normalidade dos dados. (temperatura: p = 0,9670 / atividade enzimática: p = 0,8210) a) Verifique a normalidade dos dados. (tempo: p = 0,9610 / produção: p = 0,9940)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,3577) b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9963)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,1279) c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,9926)
d) Determinar a equação de regressão linear simples. (𝒚 = 𝟏𝟔𝟑, 𝟖 + 𝟐, 𝟕𝟖. 𝒙) d) Determinar a equação de regressão linear simples. (𝒚 = 𝟏𝟓, 𝟔 + 𝟕, 𝟔𝟖𝟓𝟕. 𝒙)
e) Determine a atividade enzimática da inulinase para uma temperatura igual a 64ºC. (341,72 U/mL) e) Determine a produção de antibióticos para um tempo de 3,5 dias. (42,50 kg)
f) Determine a temperatura se a atividade enzimática da inulinase for igual a 250 U/mL. (31,01ºC) f) Determine o tempo para que se obtenha uma produção de antibióticos igual a 58 kg. (5,52 dias)
03. Foi realizado um estudo sobre a ocorrência de sódio e cloreto nas correntes superficiais de um rio. Os 06. Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange a consumo de
dados a seguir referem-se à concentração de cloreto (em mg/l) e a área (em %) das encostas analisadas: combustível. Contudo, com o passar do tempo esse rendimento vai se desgastando, Os dados a seguir
representam o rendimento medido mês a mês após a regulagem de um veículo.
Àrea (%) 0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60
Tempo (meses) 1 2 3 4 5 6 7 8 9 10 11 12
Cloreto (mg/l) 4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3
Rendimento 10,7 10,9 10,8 9,3 9,5 10,4 9,0 9,3 7,6 7,6 7,9 7,7
Àrea (%) 0,78 0,81 0,78 0,69 1,30 1,05 1,06 1,74 1,62
Cloreto (mg/l) 14,7 15,0 17,3 19,2 23,1 27,4 27,7 31,8 39,5
a) Verifique a normalidade dos dados. (tempo: p = 0,8760 / rendimento: p = 0,0880)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (– 0,9070)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,8226)
a) Verifique a normalidade dos dados. (área: p = 0,1060 / cloreto: p = 0,0900) d) Determinar a equação de regressão linear simples. (𝒚 = 𝟏𝟏, 𝟑𝟑𝟔𝟐 − 𝟎, 𝟑𝟐𝟒𝟖. 𝒙)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9231) e) Determine o rendimento para um tempo igual a 7,5 meses. (8,9)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,8521) f) Determine o tempo para que se obtenha um rendimento igual a 8,4. (9,04 meses)
d) Determinar a equação de regressão linear simples. (𝒚 = 𝟎, 𝟒𝟕𝟎𝟓 + 𝟐𝟎, 𝟓𝟔𝟕𝟑. 𝒙)
e) Determine a concentração de cloreto para um área de análise igual a 1,00%. (21,04 mg/l)
f) Determine a área analisada se a concentração de cloreto for igual 36,4 mgl. (1,75%)
04. Um engenheiro químico está investigando o efeito da temperatura (ºC) de operação do processo no
rendimento do produto. O estudo resultou nos dados da tabela seguinte: Conceitos Básicos sobre Experimentação
27 28
Inicialmente, serão apresentados alguns conceitos utilizados em planejamento de experimentos e na análise de Como exemplos de unidades experimentais ou parcelas pode-se citar: um motor, uma peça do motor, uma
variância. placa de Petri com meio de cultura, uma porção de algum alimento.
As unidades experimentais podem ser formadas por grupos ou indivíduos.

Tratamento Por exemplo, quando trabalha-se com cobaias, pode-se ter apenas uma cobaia como unidade experimental, ou
Um tratamento é uma condição imposta ou objeto que se deseja medir ou avaliar em um experimento. seja, apenas um animal fornecerá a resposta do tratamento, ou ainda, pode-se ter um grupo de cobaias em
Normalmente, em um experimento, é utilizado mais de um tratamento. uma gaiola fornecendo as informações.
Como exemplos de tratamentos, podem-se citar: equipamentos de diferentes marcas, diferentes laboratórios, O uso de grupos ou indivíduos como unidades experimentais depende do fenômeno que se está estudando,
diferentes tamanhos de peças, doses de um nutriente em um meio de cultura, quantidade de lubrificante em da forma como o experimento é conduzido e dos recursos disponíveis. De modo geral, a escolha da unidade
uma máquina, temperatura de armazenamento de um alimento. experimental deve ser feita de forma a minimizar o erro experimental.
Os tratamentos que podem ser dispostos em uma ordem, como por exemplo, doses de nutrientes, quantidade
de lubrificante, níveis de temperatura, são ditos tratamentos quantitativos. Repetição
Já os tratamentos que não podem ser dispostos numa ordem, são ditos tratamentos qualitativos, por Repetição é o número de vezes que um tratamento aparece no experimento.
exemplo, variedades de plantas, métodos de preparação de alimento, marcas de equipamentos e outros. O número de repetições em um experimento, vai depender também dos recursos disponíveis, do tipo de
experimento (delineamento) e, também, da variabilidade do experimento ou da variável resposta.
Cada tipo de tratamento também pode ser chamado de um fator.
Os tratamentos são chamados de varáveis independentes. Existem várias metodologias para estimar o número satisfatório de repetições em um experimento.
Quando, em um experimento, estamos interessados em estudar apenas um tipo de variável independente, Mas, em função das possíveis limitações acima a definição do número de repetições, muitas vezes, torna-se
dizemos que possuímos apenas um fator. uma tarefa difícil.
.
Em um experimento, um fator pode ter várias categoriais que são chamadas de níveis. A experiência do pesquisador sobre o fenômeno em estudo deve ser levada em consideração.
Além disso, as metodologias empregadas, para esse cálculo, pressupõem que uma estimativa do erro
Variável resposta ou variável dependente experimental é conhecida. Nem sempre essa informação está disponível antes da realização de um
Uma variável é qualquer característica que apresenta variação, por exemplo, a altura de pessoas, o peso de experimento e, como cada experimento é uma nova história, em função de características intrínsecas de cada
animais, o comprimento de uma peça, o número de microrganismos em um litro de leite, etc. fenômeno, esse cálculo pode ser em vão.
Quando o valor de uma variável não pode ser determinado antes da realização de um experimento, tem-se
uma variável aleatória. Delineamento experimental (Design)
Com a finalidade de reduzir o erro experimental, existem os chamados delineamentos experimentais.
As variáveis que assumem valores enumeráveis (inteiros), são denominadas variáveis aleatórias discretas. Um delineamento experimental é a forma como os tratamentos ou níveis de um fator são designados unidades
Por exemplo, o número de sementes germinadas e o número de microrganismos em um litro de leite. experimentais ou parcelas.
A análise de variância é baseada no delineamento experimental utilizado.
As variáveis que assumem valores em um intervalo, são denominadas variáveis aleatórias contínuas.
Por exemplo, o peso de animais, o teor de umidade em um alimento e o conteúdo de óleo em uma semente. Por isso, saber como o experimento foi instalado e conduzido, é de fundamental importância. Pequenas
modificações podem acarretar em grandes mudanças na forma da análise estatística.
Em um experimento, podem ser medidas muitas variáveis, mas deve-se considerar somente aquelas que
possam contribuir para a explicação da hipóteses formulada. Não raro, acontecem situações em que as hipóteses formuladas, a priori, não podem ser testadas, ou ainda, é
impossível de se realizar uma análise estatística. Por isso, deve-se dar muita importância ao planejamento
experimental.
Exemplo:
Um laboratório deseja estudar o efeito da composição de peças de metal sobre a dilatação. Um delineamento experimental é planejado de tal forma que a variação ao acaso seja reduzida o máximo
Neste exemplo, a composição das peças é o fator (variável independente). possível. Alguns dos principais delineamentos experimentais são: delineamento completamente casualizado
Os diferentes tipos de composição são os níveis do fator. (DCC), delineamento em blocos casualizados (DBC) e quadrado latino.
A dilatação das peças, medida em milímetros, por exemplo, é a variável resposta (variável dependente).
Análise de Variância (ANOVA)

IMPORTANTE: A Análise de Variância (ANOVA) – teste F – é um procedimento utilizado para comparar três ou mais
Em um experimento, podem existir mais de um fator e mais de uma variável resposta. tratamentos. Existem muitas variações da análise de variância devido aos diferentes tipos de experimentos que
Toda e qualquer variável que possa interferir na variável resposta ou dependente deve ser mantida constante. podem ser realizados. Estudaremos a análise de variância com um fator (uma variável dependente).
Quando isso não é possível, existem técnicas (estratégias) que podem ser utilizadas para reduzir ou eliminar
essa interferência. Condições: normalidade dos dados (em caso de não apresentar normalidade, transformar os dados).
Unidade experimental ou parcela RESULTADO DA ANÁLISE

Unidade experimental ou parcela é onde é feita a aplicação do tratamento.
È a unidade experimental que fornece os dados para serem avaliados. 𝐩 >∝ 𝑵Ã𝑶 𝑬𝑿𝑰𝑺𝑻𝑬 𝑫𝑰𝑭𝑬𝑹𝑬𝑵Ç𝑨 𝑺𝑰𝑮𝑵𝑰𝑭𝑰𝑪𝑨𝑻𝑰𝑽𝑨 (𝐚𝐜𝐞𝐢𝐭𝐚 − 𝐬𝐞 𝐇𝟎 )
𝐩 ≤∝ 𝑬𝑿𝑰𝑺𝑻𝑬 𝑫𝑰𝑭𝑬𝑹𝑬𝑵Ç𝑨 𝑺𝑰𝑮𝑵𝑰𝑭𝑰𝑪𝑨𝑻𝑰𝑽𝑨 (𝐫𝐞𝐣𝐞𝐢𝐭𝐚 − 𝐬𝐞 𝐇𝟎 )
29 30
Teste de Tukey para Comparação de Médias (pós-teste) Exemplo 03

Após concluirmos que existe diferença significativa entre tratamentos, por meio do teste F (análise de Considere o seguinte experimento que foi conduzido, aonde foram comparados quatro tratamentos (tipos de
variância), podemos estar interessados em avaliar a magnitude destas diferenças utilizando um teste de cultivo: Ágar (A), Cássia (C), Guar (G) e Leucena (L)) em duas condições experimentais: controle e ambX.
comparações múltiplas. Mediu-se o crescimento, em gramas, de explantes de morango:
O teste de Tukey permite testar qualquer contraste, sempre, entre duas médias de tratamentos.
tipos de cultivo
OBSERVAÇÃO condições repetição Ágar Guar Leucena Cássia
Neste texto optamos pela utilização do teste de Tukey. Porém existem vários outros pós-testes que podem ser
controle 1 0,1958 0,3627 0,1621 0,2841
utilizados para verificar os contrastes entre duas médias de tratamentos, como, por exemplo: Bonferroni,
Duncan, Dunnett, Waller-Duncan, entre outros. A escolha do pós-teste a ser utilizado depende da preferência controle 2 0,1301 0,4841 0,1150 0,3099
do pesquisador. controle 3 0,1806 0,4119 0,2011 0,2922
controle 4 0,1545 0,4457 0,2123 0,1505
Exemplo 01 ambX 1 0,1252 0,4755 0,1475 0,2345
Um estudo sobre a presença de substâncias tóxicas no meio ambiente, associadas à utilização de um pesticida
envolve análises efetuadas por quatro laboratórios diferentes. Existe alguma preocupação de que os resultados ambX 2 0,1882 0,5174 0,1922 0,1652
destas difiram, não apenas em virtude da habitual variabilidade inerente a quaisquer medições, mas também ambX 3 0,2211 0,4173 0,1802 0,1379
devido à utilização de diferentes técnicas laboratoriais o que, a ser verdade, exigiria maior controlo das técnicas
laboratoriais usadas. A fim de avaliar a questão, foram entregues a cada laboratório 6 pequenos contentores ambX 4 0,1734 0,4001 0,2248 0,1960
com solo recolhido aleatoriamente num terreno que antes fora tratado com o referido pesticida. Os resultados
laboratoriais das análises químicas medem a concentração de um composto químico nocivo (em ppm).
Exemplo 04
repetição Laboratório 1 Laboratório 2 Laboratório 3 Laboratório 4
Considere o seguinte experimento: uma técnica amplamente usada para minimizar a corrosão por fadiga
(número de ciclos até a falha / milhares) no alumínio envolve a aplicação de um revestimento protetor. Num
1 53,2 51,0 47,4 51,0 estudo realizado foram considerados três tipos de revestimentos em três diferentes níveis de umidade:
2 54,5 47,5 46,2 51,5
Fator A (revestimento) Fator B (umidade)
3 52,8 50,8 46,0 48,8 Nenhum (não revestido) Baixa (umidade relativa – 20% a 25%)
Anodizado (óxido de ácido sulfúrico anódico) Média (umidade relativa – 55% a 60%)
4 49,3 51,5 45,3 49,2 Conversão (conversão de cromato químico) Alta (umidade relativa – 86% a 91%)
5 50,4 52,4 48,2 48,3
6 53,8 49,9 47,1 49,8 umidade
revestimento repetição baixa média alta
nenhum 1 361 314 1344
nenhum 2 466 244 1027
Exemplo 02
Uma experiência pretende estudar o efeito da temperatura de uma dada solução sobre a dissolução de um nenhum 3 1069 261 1011
produto químico presente num certo material. O estudo é delineado sobre três níveis de temperatura. Nove nenhum 4 469 522 1216
amostras do produto químico foram observadas em cada um dos diferentes níveis de temperatura e os efeitos
sobre a sua dissolução foram analisados, obtendo-se os seguintes resultados: nenhum 5 937 739 1097
nenhum 6 1357 134 1011
repetição Temperatura 1 Temperatura 2 Temperatura 3 anodizado 1 114 322 78
1 39,5 91,2 70,1 anodizado 2 1236 306 387
2 29,7 100,7 64,1 anodizado 3 533 68 130
3 31,5 82,4 70,1 anodizado 4 1032 471 466
4 52,5 71,0 79,4 anodizado 5 92 130 407
5 53,3 77,0 77,7 anodizado 6 211 398 327
6 55,0 75,6 75,1 conversão 1 130 252 586
7 85,9 87,0 83,0 conversão 2 841 105 402
8 85,2 86,1 87,0 conversão 3 1595 847 846
9 80,2 88,1 78,5 conversão 4 1482 874 524
conversão 5 529 755 751
31
conversão 6 754 573 529
Material elaborado pela Professora Luciane Daroit

APOSTILA Estatistica

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

APOSTILA Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

1 2

População: conjunto de todos os indivíduos ou elementos,que compartilham um característica ou um grupo de

Desvio padrão populacional: 𝜌 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = √𝜌2

Estimativas por ponto

Parâmetros e estimativas Desvio padrão amostral: 𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 = √𝑠 2

X: 210 242 226 268 251 206 218 215 207

10. Determine a média, a mediana e a moda dos números: Exercício 03

Distribuição t de Student Comparando a variabilidade (dispersão) de amostras

Protocolo para a realização de um teste de hipóteses 5%

Exercícios de fixação: 𝐼𝐶(95%) = [67,07 ; 75,05] 𝑑𝐵

𝒑 > 0,05 𝒏ã𝒐 𝒔𝒆 𝒓𝒆𝒋𝒆𝒊𝒕𝒂 (𝒂𝒄𝒆𝒊𝒕𝒂 − 𝒔𝒆 𝑯𝟎 ) 𝒐𝒔 𝒅𝒂𝒅𝒐𝒔 𝒂𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂𝒎 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒊çã𝒐 𝒏𝒐𝒓𝒎𝒂𝒍

c. Calcular o valor da estatística do teste: Teste de Hartley para homogeneidade de Variâncias

(𝑛1 −1).𝑆12 + (𝑛2 −1).𝑆22 a. 2

(𝑛1 −1).𝑆12 + (𝑛2 −1).𝑆22 (7−1).0,0121 + (8−1).0,0225 b. Nível de significância: ∝= 5% = 0,05

d. Tomada de decisão: | 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | < | 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 )

e. 𝑝 = 0,4970 > 0,05 (𝑆𝑃𝑆𝑆) 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

(𝐴+𝐵)2 𝑆12 𝑆22

e. 𝑝 = 0,1130 > 0,05 (𝑆𝑃𝑆𝑆) 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

 Teste de Normalidade Para cada um dos exercícios a seguir você deve:

Coeficiente de Determinação (R²) ∑(𝑥𝑖2 ) = 1,7328

Regressão Linear Simples Então: r = 0,9964.

𝑛.∑(𝑥𝑖 . 𝑦𝑖 )−(∑ 𝑥𝑖 ) . (∑ 𝑦𝑖 ) ∑ 𝑦𝑖 ∑ 𝑥𝑖 0,45

Massa Seca (g/L)

0,49 0,21 0,2221 - 0,0121

Volume desgastado (10-4 mm³)

Exemplo 02: Análise dos Resíduos

As unidades experimentais podem ser formadas por grupos ou indivíduos.

Análise de Variância (ANOVA)

Unidade experimental ou parcela RESULTADO DA ANÁLISE

Teste de Tukey para Comparação de Médias (pós-teste) Exemplo 03

conversão 6 754 573 529

Material elaborado pela Professora Luciane Daroit

Você também pode gostar