Escolar Documentos
Profissional Documentos
Cultura Documentos
FUNDAMENTOS DE ESTATÍSTICA Variáveis qualitativas ou atributos: descrevem qualidades. Assim, não usamos números para descrevê-las.
Referências Variáveis qualitativas ordinais: seus valores agregam a ideia de ordem (exemplos: nível de
satisfação do consumidor, conceitos atribuídos a um determinado produto,...).
RODRIGUES, Maria Isabel; IEMMA, Antonio Francisco. Planejamento de Experimentos & Otimização de
Processos. 2a. Ed. Campinas, SP: Casa do Espírito Amigo Fraternidade Fé e Amor, 2009, 358 p. Variáveis qualitativas nominais: a ideia de ordem não está agregada (exemplos: nomes comerciais
de um produto químico, etnias dos pacientes de certo laboratório,...).
TRIOLA, Mário F.; FARIAS, Ana Furtado Lima de (Rev.). Introdução à Estatística. 10a. Ed. Rio de Janeiro:
LTC, 2008, xxvi, 696 p.
População e Amostra
O termo Estatística deriva da palavra latina status, que tem a ver com “coisas de estado” e foi utilizado Uma característica numérica estabelecida para toda uma população é denominada parâmetro.
originalmente para denominar levantamento de dados, cuja finalidade era orientar o Estado em suas decisões.
Neste sentido foi utilizado desde épocas remotas para determinar o valor dos impostos cobrados dos Para fins práticos, visando atender um a objetivos específicos, definiremos como População Alvo ou
cidadãos, para determinar a estratégia de uma nova batalha em guerras, para determinar o tamanho das População Objeto o conjunto de indivíduos ou elementos que possuem a informação desejada pelo
populações, a densidade populacional, a produção de alimentos, entre outros. pesquisador.
Com o passar do tempo a Estatística adquiriu status de ciência com aplicações em, praticamente,
todas as áreas do conhecimento. Pode-se dizer mesmo que, atualmente, não se pode realizar uma pesquisa
com bases científicas sem o respaldo fornecido pela metodologia estatística. Amostra: é um subconjunto da população alvo, selecionado sob certas regras, que se preste para estimar, de
Desta forma, pode-se definir Estatística como um conjunto de métodos especialmente apropriados à modo confiável, as informações necessárias ao pesquisador.
coleta, à apresentação (organização, resumo e descrição), à análise e à interpretação de dados de observação
(pesquisa), tendo como objetivo a compreensão de uma realidade específica para a tomada da decisão. Uma característica numérica estabelecida para uma amostra é denominada estimativa ou estimador.
A Estatística pode ser dividida em três grandes partes: Amostra aleatória ou probabilística: cada elemento da população alvo tem uma probabilidade fixa de
ser incluído na amostra. Os elementos são escolhidos por algum critério de sorteio.
Estatística Descritiva: cuida da distribuição tabular, gráfica e paramétrica dos dados obtidos
experimentalmente, através de procedimentos de amostragem ou de experimentos propriamente ditos. Amostragem determinística (não probabilística): não utiliza seleção aleatória, transferindo o critério
de seleção para o julgamento pessoal do pesquisador.
Probabilidade e Estatística Matemática: estudam a ocorrência de eventos e das variáveis aleatórias que os
descrevem, fornecendo as bases da teoria estatística.
Quanto à relação entre as respostas dos indivíduos, as amostras podem ser:
Inferência Estatística (estatística indutiva): dedicada à estimação por intervalo e por região, assim como aos
testes de hipóteses sobre parâmetros populacionais. Amostras independentes: cada indivíduo é “avaliado” ou “medido” apenas uma vez durante o período
experimental. Isto é, cada indivíduo está associado a apenas uma resposta.
Ainda, a metodologia estatística subdivide-se em dois ramos de análise: Estatística Paramétrica e Estatística Exemplo: dois grupos de ratos são utilizados para testar o efeito de dois medicamentos (A e B) para
não paramétrica (que posteriormente serão definidos no item importância da forma de população). uma mesma enfermidade.
Amostras pareadas (aos pares ou relacionadas): cada indivíduo é “avaliado” duas vezes, em
Conceitos Fundamentais em Estatística tempos, locais e/ou condições diferentes.
Exemplo: um grupo de pessoas é submetido a uma dieta para verificar sua eficácia. Seus pesos são
Variáveis mensurados (medidos) antes de iniciar a dieta e 30 dias após terem iniciado a dieta.
Variáveis são as características que podem ser observadas (ou medidas) em cada elemento da
população, sob as mesmas condições. Importância de forma da população
Uma variável deve estar definida de tal forma que cada elemento observado tenha um e apenas um
resultado (valor ou atributo) associado a essa variável. Segundo a forma da população alvo a metodologia estatística pode ser dividida em duas partes:
As variáveis são divididas em dois grupos: Estatística paramétrica: constituída de métodos paramétricos, isto é, de métodos derivados dos
parâmetros média aritmética (𝜇) e variância (𝜌2 ) da distribuição simétrica dita distribuição normal ou
Variáveis quantitativas ou numéricas: descrevem quantidade e, portanto, seus possíveis valores são distribuição de Gauss.
descritos por números.
Estatística não paramétrica: constituída dos métodos não paramétricos, ou seja, dos métodos que
Variáveis quantitativas discretas: assumem um número determinado (inteiro) de valores no campo independem da forma da distribuição.
dos reais como, por exemplo, em situações que envolvem contagens (exemplos: número de colônias
bacterianas, número de eletrodomésticos por família,...).
IMPORTANTE: a Estatística Paramétrica depende fortemente da normalidade dos dados analisados. Salvo
Variáveis quantitativas contínuas: outros casos (exemplos: rendimento de uma reação (%), raras exceções, resultados de análises estatísticas efetuadas através de métodos paramétricos não são
porcentagem de sacarose, atividade enzimática,...). confiáveis se os dados não pertencem a amostras extraídas de populações normais.
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
3 4
Sendo assim, quando os dados da pesquisa não provém de uma distribuição normal, a rigor, estes não podem Parâmetros (população)
ser analisados através dos métodos paramétricos.
Média aritmética: o conceito de média aritmética é intuitivo. Ela representa o valor provável de uma variável.
Existem, no entanto, procedimentos remediadores que possibilitam a sua utilização. Entre eles está a
transformação de variáveis em, por exemplo, logaritmo decimal (𝑙𝑜𝑔10 ) ou raiz quadrada. ∑ 𝑥𝑖
Média aritmética populacional: 𝜇=
𝑁
População com distribuição normal (simétrica) População com distribuição não normal (assimétrica) Variância e Desvio Padrão: são medidas de dispersão (variabilidade) que indicam a regularidade
(distância) de um conjunto de dados em função da média aritmética.
∑(𝑥𝑖 −𝜇)2
Variância populacional: 𝜌2 =
𝑁
Estimativas (amostras): as estimativas podem ser feitas por ponto, por intervalo de confiança e/ou por
região.
∑(𝑥𝑖 −𝑥̅ )2
Variância amostral: 𝑠2 =
𝑛−1
Inferência sobre uma população normal
Um dos principais objetivos da Estatística é fornecer técnicas confiáveis para a determinação de Suponha, como exemplo, uma amostra aleatória de tamanho 10 medidas da atividade enzimática da enzima
estimativas (através de amostras) para estes parâmetros. inulinase.
Atividades
enzimáticas (U/mL): 25 26 30 34 51 53 61 68 122 158
População Alvo Amostra
Amostragem Determinar:
𝜇 𝑥̅ a) a média aritmética; (62,8 U/mL) c) o desvio padrão; (44,12 U/mL)
b) a variância; (1946,84 (U/mL)²) d) o erro padrão amostral. (13,95 U/mL)
𝑁 𝑛
Inferência Estatística
Exercícios de fixação:
Parâmetros
desconhecidos
Estimativas por intervalo, Tabelas, gráficos,
01. Com o objetivo de verificar o conteúdo de material sólido no rio R foi efetuada uma coleta em 9 pontos
Testes de Hipóteses, Predições, ... Estimativas por ponto,... desse curso d’água. Os resultados obtidos encontram-se na série a seguir:
As estimativas por intervalo são construídas com base na estimativa por ponto e no erro do estimador.
X: 45 43 45 46 52 50 47 44 51
Ou seja: Uma estimativa por intervalo para uma média 𝜇 (populacional), de uma população normal, obtida
Determinar: através de uma amostra de tamanho 𝑛, ao nível de confina 1 − 𝛼, é dada por:
a) a média aritmética; (47) c) o desvio padrão; (3,24)
b) a variância; (10,5) d) o erro padrão amostral. (1,08)
𝑠
𝐼𝐶[𝜇](1−𝛼) = 𝑥̅ ± 𝑡(𝑛−1;∝⁄2) .
√𝑛
03. Em uma pesquisa para determinação da quantidade de ingestão diária de gordura saturada (em gramas)
foram encontrados os seguintes valores:
X: 33 36 29 32 33 26 Onde: 𝑥̅ é a estimativa por ponto, da média; 𝑠 é a estimativa por ponto do desvio padrão; 𝑛 é o tamanho da
amostra; 𝑡 é um valor tabelado da distribuição “𝑡 de Student”, obtido com 𝑛 − 1 graus de liberdade (gl) e ∝
Determinar: bilateral.
a) a média aritmética; (31,5 g) c) o desvio padrão; (3,51 g)
b) a variância; (12,3 g²) d) o erro padrão amostral. (1,43 g) O nível de confiança 1−∝ varia de acordo com o interesse e a exigência do pesquisador, devendo ser fixado a
priori. Um valor bem aceito universalmente é 1−∝= 0,95 ou, em termos de porcentagens, (1−∝)% = 95% e
será aqui adotado.
04. Índice de raios UV: a série de dados representa o índice de raio ultravioleta em determinada cidade, entre
os dias 14 e 22 de junho durante um ano recente. Teoricamente, isto significa que se retirarmos todas as amostras possíveis de uma população e, com cada uma
delas construirmos um intervalo de confiança, então 95% dos intervalos construídos devem conter a média
X: 10 6 10 5 8 7 10 9 7 populacional. Em outras palavras, 95 em cada 100 intervalos deve conter a média populacional.
Determinar: Para o exemplo anterior (página 4) sobre a atividade enzimática da enzima inulinase), temos: 𝑛 = 10; 𝑥̅ =
a) a média aritmética; (8) c) o desvio padrão; (1,87) 62,8; 𝑠 = 44,12 𝑒 𝑡(9;5%⁄2) = 2,2622.
b) a variância; (3,5) d) o erro padrão amostral. (0,62)
Então:
05. Você está estudando a concentração de coliformes fecais em determinada lagoa. Para isso define 5 pontos 44,12
de amostragem. Os valores encontrados (ppm) foram os seguintes: 𝐼𝐶[𝜇](95%) = 62,8 ± 2,2622 .
√10
X: 12 14 15 16 14
𝐼𝐶[𝜇](95%) = 62,8 ± 31,56 𝑈/𝑚𝐿 (ou) 31,24 ≪ 𝜇 ≪ 94,36 𝑈/𝑚𝐿 (ou) [31,24; 94,36] 𝑈/𝑚𝐿
Determinar:
a) a média aritmética; (14,2 ppm) c) o desvio padrão; (1,48 ppm)
b) a variância; (2,2 ppm²) d) o erro padrão amostral. (0,66 ppm)
Exercícios de fixação:
6. Os salários mensais de quatro trabalhadores são R$ 2.500,00, R$ 4.000,00, R$ 5.500,00 e 20.000,00.
Determine a média aritmética dos salários. A média é típica dos salários, ou seja, representa bem o salário Para os exercícios de fixação (páginas 4 e 5) determine:
médio dos trabalhadores?
a) a estimativa por intervalo de confiança (𝐼𝐶);
7. Entre 100 números, vinte são 4, quarenta são 5, trinta são 6 e o restante são 7. Determine a média
aritmética dos números.
Respostas
8. Os graus de um estudante em seis exames foram: 84, 91, 72, 68, 87, 78. Determine a mediana.
Se há (a) 85 e (b) 150 números ordenados em rol, como se determinaria a mediana desses números? Exercício 01
a) 210,17 ≪ 𝜇 ≪ 243,83
9. Determine a média, a mediana dos números:
5, 4, 8, 7, 2, 9; Exercício 02
18, 3, 20, 6, 19, 3, 22, 4, 20, 2, 18, 8, 19, 7, 20, 0. a) 44,51 ≪ 𝜇 ≪ 49,49
Exercício 05
a) 12,36 ≪ 𝜇 ≪ 16,04 𝑝𝑝𝑚
Estimativas por intervalo de confiança (𝑰𝑪)
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
7 8
Hipótese alternativa (𝑯𝟏 𝒐𝒖 𝑯𝑨 ): contraria a hipótese nula, ou seja, determina a existência de diferença entre
os parâmetros estudados.
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
9 10
Em relação à hipótese alternativa (𝑯𝟏 𝒐𝒖 𝑯𝑨 ) o teste estatística pode ser: Quando o teste de hipóteses é feito em computador, através de algum programa estatístico, recebemos como
output o p-valor (p-value), nível descritivo ou probabilidade de significância do teste, que é a probabilidade de
ocorrência de valores da variável analisada do teste mais extremos que o obtido através dessa amostra.
Teste Bilateral Teste Unilateral à direita Teste Unilateral à esquerda
Assim a decisão pode ser feita em termos de p-valor:
H0 : μ1 = μ2 H0 : μ1 = μ2 H0 : μ1 = μ2 rejeitamos ou não 𝐻0 , conforme o p-valor seja,
respectivamente, menor ou não que o nível de
significância (∝), estabelecido a priori.
H1 : μ1 ≠ μ2 H1 : μ1 > μ2 H1 : μ1 < μ2
𝐩 >∝ 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐇𝟎 (𝐚𝐜𝐞𝐢𝐭𝐚 − 𝐬𝐞 𝐇𝟎 )
𝐩 ≤∝ 𝐫𝐞𝐣𝐞𝐢𝐭𝐚 − 𝐬𝐞 𝐇𝟎
Observação
Em nosso estudo, abordaremos somente os de populações com variância e desvio padrão desconhecidos,
Mecanismo dos erros: Erros do Tipo I e do Tipo II por descreverem situações mais realistas. Nesse contexto, após a verificação da normalidade (em todos os
testes) é conveniente saber se estas variâncias são iguais ou diferentes (em testes para comparação de duas
Depois de completado o procedimento de teste de hipótese, que leva a uma decisão sobre a hipóteses ou mais médias amostrais).
nula, não existe total certeza sobre se foi tomada a decisão correta. Podem ser observados dois tipos de erro
descritos na seguinte tabela:
Testes de hipóteses para um parâmetro
Aceitar Ho Rejeitar Ho
Ho verdadeira --------------------------- erro tipo I Os testes de hipóteses para um único parâmetro, também conhecidos como testes de conformidade, têm por
objetivo verificar a veracidade da hipóteses de que o parâmetro populacional tem um valor especificado pelo
Ho falsa erro tipo II --------------------------- pesquisador denotado 𝝁𝟎 .
A probabilidade de cometer erro do tipo I é chamada de nível de significância e representada por , Teste de hipóteses para a média de uma população normal
enquanto que é a probabilidade de cometer erro tipo II.
Para realizar este teste, vamos retornar ao exemplo da página 4:
Por outro lado o poder do teste (P) é definido como a probabilidade de rejeitar uma hipótese falsa e pode ser
comprovado que é igual a 1 . Suponha uma amostra aleatória de tamanho 10 medidas da atividade enzimática da enzima inulinase
(proveniente de uma população normal), onde: 𝑥̅ = 62,8 𝑈/𝑚𝐿, 𝑠 = 44,12 𝑈/𝑚𝑙 e 𝑛 = 10 onde o pesquisador
Testes de hipóteses com 𝑃 ≥ 0,90 (90%) são bem aceitos. tenha, a priori, à custa de revisão bibliográfica ou por experiência anterior na área, uma suposição de que a
No entanto, nas práticas industriais e/ou laboratoriais, eles podem levar a custos inviáveis motivados pelo média de atividade enzimática na população é igual a 60 U/mL.
acréscimo no tamanho da amostra necessária para obtê-los.
a. 𝐻0 : 𝑎 𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 𝑒𝑛𝑧𝑖𝑚á𝑡𝑖𝑐𝑎 𝑚é𝑑𝑖𝑎 𝑛𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 é 𝑖𝑔𝑢𝑎𝑙 𝑎 60 𝑈⁄𝑚𝐿 (𝐻0 : 𝜇 = 60 𝑈⁄𝑚𝐿)
𝐻1 : 𝑎 𝑎𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 𝑒𝑛𝑧𝑖𝑚á𝑡𝑖𝑐𝑎 𝑚é𝑑𝑖𝑎 𝑛𝑎 𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜 é 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒 𝑎 60 𝑈⁄𝑚𝐿 (𝐻1 : 𝜇 ≠ 60 𝑈⁄𝑚𝐿)
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
11 12
Não há evidências, ao nível de significância de 5% (ou, se preferir 0,05) de que a atividade enzimática média Exercício 01 (𝑥̅ = 71,06 𝑑𝐵 − 𝑠 = 7,49 𝑑𝐵)
na população é diferente de 60 U/mL. Ou seja:
𝐻0 : 𝜇 = 70 𝑑𝐵
Não há evidências, ao nível de significância de 5%, de que exista diferença significativa (não existe diferença 𝐻1 : 𝜇 ≠ 70 𝑑𝐵
significativa) entre a média populacional (60 U/mL) e a média encontrada na amostra analisada (62,8 U/mL).
𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1315 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 0,5661 − 𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Observe que este resultado já era esperado desde a construção do intervalo de confiança, para o qual
obtivemos: 𝐼𝐶[𝜇](95%) = [31,24; 94,36] 𝑈/𝑚𝐿 que contém o valor 60 U/mL. Ao nível de significância de 5%, verificamos que não existe diferença significativa entre a intensidade média
(71,06 dB) de ruído nos CPDs analisados nos horários críticos e o valor especificado na legislação (70 dB).
01. Padrões técnicos exigem que o nível de ruído em CPDs seja de, no máximo, 70 dB. Foram analisados 16 Exercício 02 (𝑥̅ = 498,94 𝑔𝑟𝑎𝑚𝑎𝑠 − 𝑠 = 4,07 𝑔𝑟𝑎𝑚𝑎𝑠)
CPDs de várias organizações, obtendo-se os seguintes valores (que seguem, aproximadamente, uma
distribuição normal): 𝐻0 : 𝜇 = 500 𝑔𝑟𝑎𝑚𝑎𝑠
𝐻1 : 𝜇 ≠ 500 𝑔𝑟𝑎𝑚𝑎𝑠
78 73 68 65 72 64 77 80
82 78 65 72 61 79 58 65 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1315 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = −1,0418 − 𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Verificar se há evidência de que existe diferença significativa entre a intensidade média de ruído nos CPDs Ao nível de significância de 5%, verificamos que não existe diferença significativa entre o peso médio dos
analisados nos horários críticos e o valor especificado na legislação (70 dB). Faça o teste adequado ao nível de pacotes analisados (498,94 gramas) e o peso médio anunciado pelo fabricante (500 gramas).
significância de 5%.
𝐼𝐶(95%) = [496,77 ; 501,11] 𝑔𝑟𝑎𝑚𝑎𝑠
02. Um cliente de uma torrefação de café suspeita que os pesos dos pacotes, que deveriam ser de 500
gramas, não estão corretos. Resolveu, então, retirar uma amostra dos pesos de 16 pacotes. Os pesos Exercício 03 (𝑥̅ = 6,82 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠 − 𝑠 = 0,55 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠)
encontrados (que seguem, aproximadamente, uma distribuição normal) estão relacionados abaixo:
𝐻0 : 𝜇 = 6,4 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠
510 495 498 500 501 499 503 500 𝐻1 : 𝜇 ≠ 6,4 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠
495 492 499 499 497 495 499 501
𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,2622 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2, 4148 − 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Há evidências que confirmem a hipótese de que existe diferença significativa entre o peso médio dos pacotes
analisados e o peso médio anunciado pelo fabricante (500 gramas)? Ao nível de significância de 5% verificamos que, após a ocorrência dos problemas na rede, existe diferença
significativa entre o tempo padrão para transmissão de dados (6,4 segundos) e o tempo médio para
03. O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal, transmissão de dados encontrado nos ensaios realizados (6,82 segundos).
com média 6,4 segundos. Depois da ocorrência de alguns problemas na rede, acredita-se em uma variação no
tempo de transmissão de dados. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e 𝐼𝐶(95%) = [6,43 ; 7,21] 𝑠𝑒𝑔𝑢𝑛𝑑𝑜𝑠
foram anotados os tempos de transmissão, em segundos:
Exercício 04 (𝑥̅ = 70,46 − 𝑠 = 12,99)
6,8 7,1 5,9 7,5 6,3 6,9 7,2 7,6 6,6 6,3
𝐻0 : 𝜇 = 72 (𝑔𝑟𝑎𝑢 𝑑𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎çã𝑜)
Existe evidência suficiente, a partir dos dados (tempos) coletados nos ensaios realizados, de que após os 𝐻1 : 𝜇 ≠ 72 (𝑔𝑟𝑎𝑢 𝑑𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎çã𝑜)
problemas na rede ocorreu diferença significativa no tempo de transmissão de dados?
𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1788 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = −0,4274 − 𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
04. Treze (13) alunos foram inquiridos quanto ao seu grau de satisfação (numa escala de 0 a 100) em relação
à sua Universidade, obtendo-se os seguintes resultados: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre o grau de satisfação
encontrado na amostra analisada (70,46) e a média de satisfação esperada (72).
75 60 55 80 52 90 60 91 72 58 77 80 66
𝐼𝐶(95%) = [62,61 ; 78,31] 𝑔𝑟𝑎𝑢 𝑑𝑒 𝑠𝑎𝑡𝑖𝑠𝑓𝑎çã𝑜
Supondo que o grau de satisfação segue uma distribuição aproximadamente normal, teste a hipótese de que a
média de satisfação é igual a 72.
Exercício 05 (𝑥̅ = 2207,47 𝐾𝑐𝑎𝑙 − 𝑠 = 308,01 𝐾𝑐𝑎𝑙)
05. Os valores abaixo mostram os dados (quantidade) de calorias (Kcal) ingeridas por dia para um grupo de 15
jovens. 𝐻0 : 𝜇 = 2000 𝐾𝑐𝑎𝑙
𝐻1 : 𝜇 ≠ 2000 𝐾𝑐𝑎𝑙
1867 1978 1958 2004 2011 2578 2498 2110
1900 1950 2099 2360 2311 2788 2700 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1448 − 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2,6088 − 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0
Supondo que a quantidade de calorias ingeridas segue uma distribuição aproximadamente normal, teste a Ao nível de significância de 5%, verificamos que existe diferença significativa entre a ingestão média de
hipótese de que estes jovens pertencem a uma população cuja média de calorias ingeridas por dia é igual a calorias (2207,47 Kcal) encontrada na amostra de jovens analisada e a ingestão média de calorias da
2000 Kcal. população (2000 Kcal).
06. Confirmar os resultados obtidos no exercícios (1 a 5) através da construção do intervalo de confiança. 𝐼𝐶(95%) = [2036,90 ; 2378,04] 𝐾𝑐𝑎𝑙
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
13 14
Testes de Normalidade
Teste de Hipóteses sobre a média de duas populações normais
Uma das pressuposições dos testes estatísticos paramétricos diz respeito à distribuição normal das variáveis Segundo o relacionamento entre as respostas, as amostras podem ser independentes ou pareadas. Em cada
nas populações. Quando se retira, portanto, uma amostra para esses modelos de testes, deve-se supor que as caso, há uma metodologia específica a ser utilizada. Assim, dividiremos o nosso estudo em duas partes:
unidades do universo em questão apresentem uma distribuição normal. amostras independentes e amostras pareadas.
Vários testes têm sido descritos para a identificação da normalidade das variáveis, vamos utilizar os seguintes:
OBSERVAÇÃO:
Teste de Shapiro-Wilk (amostras com tamanho 𝟓 ≤ 𝒏 ≤ 𝟓𝟎): não são necessários os parâmetros Abordaremos somente os casos com variâncias desconhecidas, por descreverem situações mais realistas.
populacionais para a utilização.
Amostras Independentes
Teste de Kolmogorov-Smirnov (para amostras com tamanho 𝒏 > 50): são necessários os
parâmetros populacionais (média aritmética e desvio padrão) para a utilização. Condições de utilização:
Teste de Normalidade
Hipóteses: Teste de igualdade (homogeneidade) de variâncias
Exemplo: A tabela abaixo descreve as massas secas (em gramas por litro), de duas amostras das leveduras
OBSERVAÇÃO: AAG 5 e V 04, obtidas respectivamente no Cerrado e na Mata Atlântica. Verifique através do teste de Hartley,
Em função da complexidade de cálculos para a realização destes testes eles serão realizados somente em se tais amostras provêm de populações com variâncias iguais.
softwares estatísticos.
Cerrado Mata Atlântica
0,4169 0,5506
Exercícios de fixação: 0,2779 0,3671 O teste de Shapiro-Wilk apresentou, respectivamente,
0,2085 0,2753 para as leveduras AAG 5 e V 04, os valores: p = 0,1800
01. Verificar se as amostras (exercícios da página 11) realmente provêm de populações que seguem uma e p = 0,0990, ambos maiores que 0,05 (5%). Assim não
distribuição normal. 0,1668 0,2203
há problema de normalidade com as populações das
0,1191 0,1573
(01) Shapiro-Wilk: 𝒑 = 𝟎, 𝟑𝟏𝟔𝟎 > 0,05 os dados apresentam distribuição normal quais as amostras foram coletadas.
0,1042 0,1377
(02) Shapiro-Wilk: 𝒑 = 𝟎, 𝟏𝟏𝟑𝟎 > 0,05 os dados apresentam distribuição normal
0,1390 0,1224 O teste de Levene (SPSS) apresentou p = 0,5150,
(03) Shapiro-Wilk: 𝒑 = 𝟎, 𝟖𝟖𝟑𝟎 > 0,05 os dados apresentam distribuição normal
0,1835 maior que 0,05 (5%), constatando que as amostras
(04) Shapiro-Wilk: 𝒑 = 𝟎, 𝟒𝟒𝟕𝟎 > 0,05 os dados apresentam distribuição normal
(05) Shapiro-Wilk: 𝒑 = 𝟎, 𝟎𝟒𝟒𝟎 ≤ 𝟎, 𝟎𝟓 os dados não apresentam distribuição normal 𝑛=7 𝑛=8 provêm de populações com variâncias iguais.
𝑥̅ = 0,20 𝑥̅ = 0,25
02. Verificar se as amostras abaixo provêm de populações que seguem uma distribuição normal: 𝑠 = 0,11 𝑠 = 0,15
a. Para avaliar os efeitos de um novo tipo de ração para suínos um criador alimenta uma amostra de 60
𝑠 2 = 0,0121 𝑠 2 = 0,0225
animais. O peso médio da população de porcos da criação é 47,5 kg com desvio padrão 10,5 kg. Depois de 30
dias, os animais são pesados para que se faça uma comparação com os pesos iniciais. Os pesos obtidos (kg)
encontram-se abaixo. 2 2
a. 𝐻0 : 𝑠(1) = 𝑠(2) 𝑎𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎𝑠 𝑠ã𝑜 𝑖𝑔𝑢𝑎𝑖𝑠 (𝒑 > 𝟎, 𝟎𝟓) (homocedasticidade)
2 2
44 49 43 51 44 75 42 51 34 30 53 42 𝐻1 : 𝑠(1) ≠ 𝑠(2) 𝑎𝑠 𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎𝑠 𝑠ã𝑜 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒𝑠 (𝒑 ≤ 𝟎, 𝟎𝟓) (heterocedasticidade)
45 36 30 32 21 33 42 40 39 52 46 42
47 45 39 59 34 36 40 54 59 53 44 54 b. Nível de significância: ∝= 5% = 0,05
32 68 69 54 41 46 47 65 66 45 57 39
Graus de liberdade: 𝑔𝑙 = (𝑛𝑚á𝑥𝑖𝑚𝑜 − 1) ; (𝑛𝑚í𝑛𝑖𝑚𝑜 − 1) = (8 − 1) ; (7 − 1) = (7 ; 6)
57 40 40 36 45 60 39 50 42 41 43 49
Valor crítico: 𝐹𝑡𝑎𝑏𝑒𝑙𝑎 = 𝐹(7 ; 6 ; 0,05) = 4,21
Kolmogorov-Smirnov: 𝒑 = 𝟎, 𝟏𝟏𝟓𝟎 > 0,05 os dados apresentam distribuição normal
b. Em uma escola foram analisadas as notas de uma amostra 52 alunos em uma prova de determinada c. Calcular o valor da estatística do teste:
disciplina. A nota média desta prova (determinada em estudos anteriores) é 7,4 com desvio padrão 1,5. As
2
notas obtidas encontram-se abaixo: 𝑠(𝑚á𝑥𝑖𝑚𝑜) 0,0225
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 2 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = = 1,86
𝑠(𝑚í𝑛𝑖𝑚𝑜) 0,0121
6,3 1,5 5,9 6,4 5,5 5,4 5,4 8,0 5,9 8,0 6,5 2,0 3,6
6,0 9,8 6,8 5,3 3,6 3,8 3,0 6,0 4,3 4,6 6,4 5,5 6,0
4,3 4,3 5,2 3,4 2,8 8,3 7,1 5,5 8,7 6,5 6,4 7,7 8,5
5,3 6,9 8,0 8,2 7,1 8,4 6,0 5,5 7,2 6,4 5,5 6,4 8,2
d. Tomada de decisão: | 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | < | 𝐹𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 )
Kolmogorov-Smirnov: 𝒑 = 𝟎, 𝟏𝟖𝟐𝟎 > 0,05 os dados apresentam distribuição normal
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
15 16
Conclusão: Não há evidências de que as amostras provêm de populações com variâncias diferentes 𝑠 = 0,11 𝑠 = 0,28
(variâncias iguais). 𝑠 2 = 0,0121 𝑠 2 = 0,0784 O teste de Shapiro-Wilk apresentou, respectivamente,
Teste t de Student: duas médias de populações normais - VARIÂNCIA IGUAIS para as leveduras AAG 5 e X, os valores: p = 0,1800 e
Voltemos ao exemplo do Teste de Hartley (página 14) para a realização do teste para verificar se as médias p = 0,2970, ambos maiores que 0,05 (5%). Assim não
das populações da quais foram obtidas as amostras têm médias iguais. há problema de normalidade com as populações das
quais as amostras foram coletadas.
a. 𝐻0 : 𝑥̅1 = 𝑥̅2 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠
𝐻1 : 𝑥̅1 ≠ 𝑥̅2 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎
O teste de Levene (SPSS) apresentou p = 0,0300,
5% menor que 0,05 (5%), constatando que as amostras
b. Nível de significância: ∝= = 2,5% = 0,025
2 provêm de populações com variâncias diferentes.
Graus de liberdade: 𝑔𝑙 = (𝑛1 + 𝑛2 − 2) = (8 + 7 − 2) = 13
Valor crítico: 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,1604
Teste t de Student: duas médias de populações normais - VARIÂNCIA DIFERENTES Teste t de Student
Quando as variâncias são diferentes, o teste de médias é aproximado. Em outras palavras, a estatística do
teste (t calculado) tem distribuição aproximada de t, com gl graus de liberdade. a. 𝐻0 : 𝑥̅1 = 𝑥̅2 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠
O valor de gl é obtido através da fórmulas de Satterthwaite. 𝐻1 : 𝑥̅1 ≠ 𝑥̅2 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎
Exemplo: 5%
b. Nível de significância: ∝= = 2,5% = 0,025
Suponha que se queira comparar a média da massa seca da levedura AAG 5 (Cerrado) com a de outra 2
levedura X, através das amostras descritas na tabela abaixo:
0,1042 0,1300
Valor crítico: 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,3060
0,1390 0,9125
𝑛=7 𝑛=7
𝑥̅ = 0,20 𝑥̅ = 0,41
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
17 18
𝑥̅1 − 𝑥̅2
c. Calcular o valor da estatística do teste: 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 =
𝑠2 𝑠2 ∑(𝑑𝑖 ) ∑(𝑑𝑖 − 𝑑̅)2
√ 1+ 2 Médias das diferenças → 𝑑̅ = Desvio padrão das diferenças → 𝑆𝑑 = √
𝑛1 𝑛2
𝑛 𝑛−1
0,20− 0,41
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 0,0121 0,0784
= −1,8469
√ +
7 7
𝑑̅ 𝑑̅ 0,0225
𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑆 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 = 𝑆 = 0,0572 = 1,3626
( 𝑑) ( 𝑑)
√𝑛 √12
d. Tomada de decisão: | 𝑡𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 | < | 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 | 𝑛ã𝑜 𝑠𝑒 𝑟𝑒𝑗𝑒𝑖𝑡𝑎 𝐻0 (𝑎𝑐𝑒𝑖𝑡𝑎 − 𝑠𝑒 𝐻0 ) √𝑛
Conclusão: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre as médias, e. 𝑝 = 0,2004 > 0,05 (𝑆𝑃𝑆𝑆) 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎
ou seja, não há evidências de que as amostras provêm de populações com médias diferentes.
Conclusão: Ao nível de significância de 5%, verificamos que não existe diferença significativa entre as médias,
Amostras Pareadas ou seja, não há evidências de que as amostras provêm de populações com médias diferentes.
Exercícios de fixação:
Condição de utilização:
a. 𝐻0 : 𝑥̅1 = 𝑥̅2 𝑛ã𝑜 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎𝑠 Verificar, com nível de significância de 5%, se existe diferença significativa quanto ao valor médio do aluguel
𝐻1 : 𝑥̅1 ≠ 𝑥̅2 𝑒𝑥𝑖𝑠𝑡𝑒 𝑑𝑖𝑓𝑒𝑟𝑒𝑛ç𝑎 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎 𝑒𝑛𝑡𝑟𝑒 𝑎𝑠 𝑚é𝑑𝑖𝑎 nos bairros Flamengo e Botafogo.
5%
b. Nível de significância: ∝= = 2,5% = 0,025
2 03. Um professor aplicou a mesma prova de Estatística em duas turmas (A e B) do curso de Engenharia
Graus de liberdade: 𝑔𝑙 = (𝑛 − 1) = (12 − 1) = 11 Química. Os resultados obtidos foram os seguintes:
Valor crítico: 𝑡𝑡𝑎𝑏𝑒𝑙𝑎 = 2,2010
Turma A 2,5 3,5 4,5 5,0 5,5 5,5 6,0 6,5 7,0 7,5 7,5 7,5 7,5 8,0 8,0 8,5 8,5 9,0 9,5 9,5
c. Calcular o valor da estatística do teste: Turma B 3,5 3,5 4,0 4,5 5,0 5,0 5,5 5,5 6,0 6,5 6,5 7,0 7,0 7,0 7,0 7,5 7,5 8,0 9,0 9,5
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
19 20
Verificar, com nível de significância de 5%, se existe diferença significativa quanto a média das notas dos
alunos das turmas (A e B) na prova de Estatística. Importante: chama-se a variável dependente (ou variável resposta) de Y e a variável independente (fator,
variável explicativa ou variável preditiva) de X.
04. Calculadoras eletrônicas utilizam dois métodos diferentes de entrada e processamento numérico. Vamos
denominar um dos métodos de “método algébrico” (MA) e o outro de “método polonês” (MP). Para comparar Indicações:
qual deles é mais eficaz é feito um teste com 20 usuários sem experiência prévia com calculadoras, onde 10
vão utilizar calculadoras do tipo (MA) e os outros 10 as de outro tipo (MP). A tabela mostra o tempo em Sentido do relacionamento: sinal positivo (relação diretamente proporcional – mesmo sentido)
segundos que cada operador gastou para realizar um conjunto padrão de cálculos. Testar a hipótese de que sinal negativo (relação inversamente proporcional – sentidos contrários)
não existe diferença entre os dois métodos no que se refere ao tempo de operação, utilizando um nível de
significância de 5%. Intensidade do relacionamento: a medida de correlação (módulo) indica relacionamentos fortes ou fracos,
segundo sejam mais próximos ou não do valor extremo (um). Valores próximos ou iguais a zero indicam
Método Algébrico 12 16 15 13 16 10 15 17 14 12 ausência de correlação linear (mas pode existir outro tipo de correlação entre as variáveis – logarítmica,
exponencial,...). A medida de correlação 1 (um) indica correlação linear perfeita.
Método Polonês 10 17 18 16 19 12 17 15 17 14
Vamos observar os gráficos abaixo:
05. Na tabela abaixo são dados as massas de 9 pessoas, antes e depois de uma dieta de emagrecimento.
Teste, ao nível de significância de 5%, se a dieta surte uma diferença significativa no peso (massa) das
pessoas a ela submetidas.
Antes 77 62 61 80 90 72 86 59 88
Depois 80 58 61 76 79 69 90 51 81
06. Foi testada a taxa de creatinina em um grupo de 10 pessoas antes e depois da utilização de um novo
fármaco. Os dados obtidos estão relacionados na tabela abaixo. Verifique, ao nível de significância de 5%, se
existe diferença significativa entre as taxas de creatinina registradas antes e depois do uso do fármaco.
Antes 3,2 4,5 2,8 3,9 4,1 3,6 2,8 4,1 3,1 3,6
Depois 2,9 3,3 2,8 2,9 3,6 2,8 2,1 3,0 2,5 2,2
07. Os dados a seguir referem-se ao grau de conforto (valores mais altos, maior conforto) no uso de dois tipos
de pipetas (A e B) de laboratório. O primeiro tipo (A) foi experimentado por 8 pessoas e o segundo tipo (B) por
outras 8 pessoas. Verifique, ao nível de significância de 5%, se existe diferença significativa no nível médio de
conforto em função do tipo de pipeta (A ou B) utilizada em laboratórios.
Pipeta A 5 9 3 4 8 2 3 4
Pipeta B 9 8 9 7 7 7 8 8
Relacionamento Linear entre duas Variáveis Quantitativas Coeficiente de Correlação Linear de Pearson (momento-produto)
Em situações experimentais, muitas vezes temos interesse em estudar o relacionamento entre duas A estimação por ponto será feita, no caso da normalidade dos dados, através do coeficiente de correlação de
variáveis quantitativas. Pearson (r), também conhecido como coeficiente de correlação momento-produto.
O relacionamento linear entre variáveis é, geralmente, avaliado através do coeficiente de correlação
linear simples. O parâmetro populacional e sua estimativa amostral são denotados, respectivamente, por 𝜌 e Normalidade dos dados: quando os valores (níveis) da variável independente ou variável preditora (X) forem
𝑟: fixados à priori a sua utilização não depende da normalidade dos dados.
−1 ≤ 𝜌 ≤ 1 −1 ≤ 𝑟 ≤ 1
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
21 22
2
𝑆𝑥𝑦 𝑐𝑜𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎 (𝑥𝑦) 𝑛.∑(𝑥𝑖 . 𝑦𝑖 )−(∑ 𝑥𝑖 ) . (∑ 𝑦𝑖 )
𝑟=𝑆
. 𝑆𝑦
=
𝑑𝑝(𝑥) . 𝑑𝑝(𝑦)
→→ 𝑟= Exemplo 01:
𝑥
√[𝑛.∑(𝑥𝑖2 )−(∑ 𝑥𝑖 )2 ].[𝑛.∑(𝑦𝑖2 )−(∑ 𝑦𝑖 )2 ] Os dados da tabela descrevem a densidade óptica (x) e a massa seca (y) em gramas por litro obtidas em um
experimento com a levedura AAG5, com objetivo de determinar a curva padrão de biomassa seca.
Avaliação Qualitativa do Grau de Correlação entre duas variáveis Densidade óptica (x) 0,26 0,29 0,34 0,39 0,49 0,62 0,83
Coeficiente de correlação r correlação Massa seca (y) 0,10 0,12 0,14 0,17 0,21 0,28 0,42
0 nula
0,0 0,3 fraca
Teste de normalidade: Shapiro-Wilk
0,3 ├ 0,6 regular Densidade óptica: p = 0,3420 (distribuição normal)
0,6 ├ 0,9 forte Massa seca: p = 0,2230 (distribuição normal)
0,9 ├ 1,0 muito forte
1 perfeita ou plena
𝑛=7
Fonte: CALLEGARI-JACQUES, S.M. Bioestatística: princípios
e aplicações. Porto Alegre: Artmed, 2003. ∑ 𝑥𝑖 = 3,22
∑ 𝑦𝑖 = 1,44
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
23 24
Pelo coeficiente de determinação (R²) verificamos que 87,95% da variabilidade do desgaste abrasivo do aço
𝐱𝐢 𝐲𝐢 𝐲̂𝐢 𝐞𝐢 doce pode ser descrita (explicada) pela variabilidade da viscosidade do óleo. Fica claro, portanto, que 12,05%
da variabilidade do desgaste abrasivo do aço doce será descrita (explicada) pela influência de outros fatores
0,26 0,10 0,0965 0,0035
(variáveis).
0,29 0,12 0,1129 0,0071
0,34 0,14 0,1402 - 0,0002
0,39 0,17 0,1675 0,0025
Representação gráfica:
150
100
50
0
0,0 10,0 20,0 30,0 40,0 50,0
Viscosidade
O gráfico indica uma situação onde as suposições do modelo estão aparentemente satisfeitas, os resíduos
apresentam-se distribuídos de forma aleatória em torno da reta da regressão com pequena dispersão (no Determinar as seguintes estimativas:
diagrama de dispersão dos resíduos a reta da regressão corresponde à linha horizontal sobre o valor zero). a) qual o volume desgastado do aço doce quando a viscosidade do óleo for igual a 30? (128,81.10–4 mm³)
b) qual a viscosidade do óleo se o desgaste abrasivo do aço doce for igual a 215.10 –4 mm? (5,44)
∑(𝑥𝑖2 ) = 7053,67
∑(𝑦𝑖2 ) = 220549,00
∑(𝑥𝑖 . 𝑦𝑖 ) = 26864,40 O gráfico indica uma situação onde as suposições do modelo estão aparentemente satisfeitas, os resíduos
apresentam-se distribuídos de forma aleatória em torno da reta da regressão com pequena dispersão (no
diagrama de dispersão dos resíduos a reta da regressão corresponde à linha horizontal sobre o valor zero).
Então: r = – 0,9378.
Houve uma correlação linear negativa muito forte entre a viscosidade do óleo e o desgaste abrasivo do aço
doce. Como o valor de r é negativo, verificamos que a correlação é inversamente proporcional. Ou seja: à Exercícios de fixação:
medida em que aumenta a viscosidade do óleo ocorre uma redução no desgaste abrasivo do aço doce.
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
25 26
01. A quantidade de libras de vapor usadas por mês por uma planta química está relacionada à temperatura
(ºF) média ambiente. O consumo mensal de determinado ano e a respectiva temperatura, foram registrados na
tabela a seguir: Temperatura (ºC) 100 110 120 130 140 150 160 170 180 190
Rendimento 45 51 54 61 66 70 74 78 85 89
Temperatura (ºF) 21 24 32 47 50 59 68 74 62 50 41 30
Consumo (÷ 1000)
185,79 214,47 288,03 424,84 454,58 539,03 621,55 675,06 562,03 452,93 369,95 273,98
(libras/vapor)
a) Verifique a normalidade dos dados. (temperatura: p = 0,8920 / rendimento: p = 0,9060)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9981)
a) Verifique a normalidade dos dados. (temperatura: p = 0,7850 / consumo: p = 0,8000) c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,9962)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9999) d) Determinar a equação de regressão linear simples. (𝒚 = −𝟐, 𝟕𝟑𝟓 + 𝟎, 𝟒𝟖𝟑. 𝒙)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,9998) e) Determine o rendimento para uma temperatura igual a 136ºC. (62,95)
d) Determinar a equação de regressão linear simples. (𝒚 = −𝟔, 𝟑𝟑𝟕𝟑 + 𝟗, 𝟐𝟎𝟖𝟒. 𝒙) f) Determine a temperatura se o rendimento for igual a 56. (121,6ºC)
e) Determine o consumo (libras/vapor) para uma temperatura igual a 55ºF. (500,12 libras/vapor)
f) Determine a temperatura se o consumo for igual a 480 libras/vapor. (52,81ºF)
05. Na fabricação de um antibiótico, a produção depende do tempo. Os dados de uma pesquisa mostram que
um processo resultou na seguinte produção (em quilogramas) de antibióticos nos tempos (em dias) indicados:
02. Os dados da tabela descrevem a atividade enzimática da inulinase (U/mL) em função da temperatura (ºC).
Tempo (dias) 1 2 3 4 5 6
Temperatura (x) 30 40 50 60 70
Produção (kg) 23 31 40 46 52 63
Atividade enzimática (y) 158 292 393 456 215
a) Verifique a normalidade dos dados. (temperatura: p = 0,9670 / atividade enzimática: p = 0,8210) a) Verifique a normalidade dos dados. (tempo: p = 0,9610 / produção: p = 0,9940)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,3577) b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9963)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,1279) c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,9926)
d) Determinar a equação de regressão linear simples. (𝒚 = 𝟏𝟔𝟑, 𝟖 + 𝟐, 𝟕𝟖. 𝒙) d) Determinar a equação de regressão linear simples. (𝒚 = 𝟏𝟓, 𝟔 + 𝟕, 𝟔𝟖𝟓𝟕. 𝒙)
e) Determine a atividade enzimática da inulinase para uma temperatura igual a 64ºC. (341,72 U/mL) e) Determine a produção de antibióticos para um tempo de 3,5 dias. (42,50 kg)
f) Determine a temperatura se a atividade enzimática da inulinase for igual a 250 U/mL. (31,01ºC) f) Determine o tempo para que se obtenha uma produção de antibióticos igual a 58 kg. (5,52 dias)
03. Foi realizado um estudo sobre a ocorrência de sódio e cloreto nas correntes superficiais de um rio. Os 06. Após uma regulagem eletrônica um veículo apresenta um rendimento ideal no que tange a consumo de
dados a seguir referem-se à concentração de cloreto (em mg/l) e a área (em %) das encostas analisadas: combustível. Contudo, com o passar do tempo esse rendimento vai se desgastando, Os dados a seguir
representam o rendimento medido mês a mês após a regulagem de um veículo.
Àrea (%) 0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60
Tempo (meses) 1 2 3 4 5 6 7 8 9 10 11 12
Cloreto (mg/l) 4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3
Rendimento 10,7 10,9 10,8 9,3 9,5 10,4 9,0 9,3 7,6 7,6 7,9 7,7
Àrea (%) 0,78 0,81 0,78 0,69 1,30 1,05 1,06 1,74 1,62
Cloreto (mg/l) 14,7 15,0 17,3 19,2 23,1 27,4 27,7 31,8 39,5
a) Verifique a normalidade dos dados. (tempo: p = 0,8760 / rendimento: p = 0,0880)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (– 0,9070)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,8226)
a) Verifique a normalidade dos dados. (área: p = 0,1060 / cloreto: p = 0,0900) d) Determinar a equação de regressão linear simples. (𝒚 = 𝟏𝟏, 𝟑𝟑𝟔𝟐 − 𝟎, 𝟑𝟐𝟒𝟖. 𝒙)
b) Calcule o coeficiente de correlação de Pearson. O que este coeficiente indica? (0,9231) e) Determine o rendimento para um tempo igual a 7,5 meses. (8,9)
c) Calcule o coeficiente de determinação. O que este coeficiente indica? (0,8521) f) Determine o tempo para que se obtenha um rendimento igual a 8,4. (9,04 meses)
d) Determinar a equação de regressão linear simples. (𝒚 = 𝟎, 𝟒𝟕𝟎𝟓 + 𝟐𝟎, 𝟓𝟔𝟕𝟑. 𝒙)
e) Determine a concentração de cloreto para um área de análise igual a 1,00%. (21,04 mg/l)
f) Determine a área analisada se a concentração de cloreto for igual 36,4 mgl. (1,75%)
04. Um engenheiro químico está investigando o efeito da temperatura (ºC) de operação do processo no
rendimento do produto. O estudo resultou nos dados da tabela seguinte: Conceitos Básicos sobre Experimentação
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
27 28
Inicialmente, serão apresentados alguns conceitos utilizados em planejamento de experimentos e na análise de Como exemplos de unidades experimentais ou parcelas pode-se citar: um motor, uma peça do motor, uma
variância. placa de Petri com meio de cultura, uma porção de algum alimento.
Como exemplos de tratamentos, podem-se citar: equipamentos de diferentes marcas, diferentes laboratórios, O uso de grupos ou indivíduos como unidades experimentais depende do fenômeno que se está estudando,
diferentes tamanhos de peças, doses de um nutriente em um meio de cultura, quantidade de lubrificante em da forma como o experimento é conduzido e dos recursos disponíveis. De modo geral, a escolha da unidade
uma máquina, temperatura de armazenamento de um alimento. experimental deve ser feita de forma a minimizar o erro experimental.
Os tratamentos que podem ser dispostos em uma ordem, como por exemplo, doses de nutrientes, quantidade
de lubrificante, níveis de temperatura, são ditos tratamentos quantitativos. Repetição
Já os tratamentos que não podem ser dispostos numa ordem, são ditos tratamentos qualitativos, por Repetição é o número de vezes que um tratamento aparece no experimento.
exemplo, variedades de plantas, métodos de preparação de alimento, marcas de equipamentos e outros. O número de repetições em um experimento, vai depender também dos recursos disponíveis, do tipo de
experimento (delineamento) e, também, da variabilidade do experimento ou da variável resposta.
Cada tipo de tratamento também pode ser chamado de um fator.
Os tratamentos são chamados de varáveis independentes. Existem várias metodologias para estimar o número satisfatório de repetições em um experimento.
Quando, em um experimento, estamos interessados em estudar apenas um tipo de variável independente, Mas, em função das possíveis limitações acima a definição do número de repetições, muitas vezes, torna-se
dizemos que possuímos apenas um fator. uma tarefa difícil.
.
Em um experimento, um fator pode ter várias categoriais que são chamadas de níveis. A experiência do pesquisador sobre o fenômeno em estudo deve ser levada em consideração.
Além disso, as metodologias empregadas, para esse cálculo, pressupõem que uma estimativa do erro
Variável resposta ou variável dependente experimental é conhecida. Nem sempre essa informação está disponível antes da realização de um
Uma variável é qualquer característica que apresenta variação, por exemplo, a altura de pessoas, o peso de experimento e, como cada experimento é uma nova história, em função de características intrínsecas de cada
animais, o comprimento de uma peça, o número de microrganismos em um litro de leite, etc. fenômeno, esse cálculo pode ser em vão.
Quando o valor de uma variável não pode ser determinado antes da realização de um experimento, tem-se
uma variável aleatória. Delineamento experimental (Design)
Com a finalidade de reduzir o erro experimental, existem os chamados delineamentos experimentais.
As variáveis que assumem valores enumeráveis (inteiros), são denominadas variáveis aleatórias discretas. Um delineamento experimental é a forma como os tratamentos ou níveis de um fator são designados unidades
Por exemplo, o número de sementes germinadas e o número de microrganismos em um litro de leite. experimentais ou parcelas.
A análise de variância é baseada no delineamento experimental utilizado.
As variáveis que assumem valores em um intervalo, são denominadas variáveis aleatórias contínuas.
Por exemplo, o peso de animais, o teor de umidade em um alimento e o conteúdo de óleo em uma semente. Por isso, saber como o experimento foi instalado e conduzido, é de fundamental importância. Pequenas
modificações podem acarretar em grandes mudanças na forma da análise estatística.
Em um experimento, podem ser medidas muitas variáveis, mas deve-se considerar somente aquelas que
possam contribuir para a explicação da hipóteses formulada. Não raro, acontecem situações em que as hipóteses formuladas, a priori, não podem ser testadas, ou ainda, é
impossível de se realizar uma análise estatística. Por isso, deve-se dar muita importância ao planejamento
experimental.
Exemplo:
Um laboratório deseja estudar o efeito da composição de peças de metal sobre a dilatação. Um delineamento experimental é planejado de tal forma que a variação ao acaso seja reduzida o máximo
Neste exemplo, a composição das peças é o fator (variável independente). possível. Alguns dos principais delineamentos experimentais são: delineamento completamente casualizado
Os diferentes tipos de composição são os níveis do fator. (DCC), delineamento em blocos casualizados (DBC) e quadrado latino.
A dilatação das peças, medida em milímetros, por exemplo, é a variável resposta (variável dependente).
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
29 30
Exemplo 04
repetição Laboratório 1 Laboratório 2 Laboratório 3 Laboratório 4
Considere o seguinte experimento: uma técnica amplamente usada para minimizar a corrosão por fadiga
(número de ciclos até a falha / milhares) no alumínio envolve a aplicação de um revestimento protetor. Num
1 53,2 51,0 47,4 51,0 estudo realizado foram considerados três tipos de revestimentos em três diferentes níveis de umidade:
2 54,5 47,5 46,2 51,5
Fator A (revestimento) Fator B (umidade)
3 52,8 50,8 46,0 48,8 Nenhum (não revestido) Baixa (umidade relativa – 20% a 25%)
Anodizado (óxido de ácido sulfúrico anódico) Média (umidade relativa – 55% a 60%)
4 49,3 51,5 45,3 49,2 Conversão (conversão de cromato químico) Alta (umidade relativa – 86% a 91%)
5 50,4 52,4 48,2 48,3
6 53,8 49,9 47,1 49,8 umidade
revestimento repetição baixa média alta
nenhum 1 361 314 1344
nenhum 2 466 244 1027
Exemplo 02
Uma experiência pretende estudar o efeito da temperatura de uma dada solução sobre a dissolução de um nenhum 3 1069 261 1011
produto químico presente num certo material. O estudo é delineado sobre três níveis de temperatura. Nove nenhum 4 469 522 1216
amostras do produto químico foram observadas em cada um dos diferentes níveis de temperatura e os efeitos
sobre a sua dissolução foram analisados, obtendo-se os seguintes resultados: nenhum 5 937 739 1097
nenhum 6 1357 134 1011
repetição Temperatura 1 Temperatura 2 Temperatura 3 anodizado 1 114 322 78
1 39,5 91,2 70,1 anodizado 2 1236 306 387
2 29,7 100,7 64,1 anodizado 3 533 68 130
3 31,5 82,4 70,1 anodizado 4 1032 471 466
4 52,5 71,0 79,4 anodizado 5 92 130 407
5 53,3 77,0 77,7 anodizado 6 211 398 327
6 55,0 75,6 75,1 conversão 1 130 252 586
7 85,9 87,0 83,0 conversão 2 841 105 402
8 85,2 86,1 87,0 conversão 3 1595 847 846
9 80,2 88,1 78,5 conversão 4 1482 874 524
conversão 5 529 755 751
Material elaborado pela Professora Luciane Daroit Material elaborado pela Professora Luciane Daroit
31