Escolar Documentos
Profissional Documentos
Cultura Documentos
Engenharia Química
AULA 02 – ESTATÍSTICA BÁSICA
Objetivos desta aula
Analisar as relações entre duas variáveis
quantitativas:
Como prever valores de uma variável
Como medir a intensidade de relação
Como provar a existência dessa relação
Modelos Matemáticos
Devem representar um sistema e a forma
como ocorrem as modificações no mesmo.
SISTEMA REAL
Modelagem
MODELO
MATEMÁTICO
Empírica Fenomenológica
Modelagem
Problema do Modelo Previsões e
Simplificações Interpretação
mundo real Matemático explicações
Comparar e
Realizar Dados do
Realidade validar o
experimentos experimento
modelo
Desenvolve relação:
Causa
Efeito
Variáveis
Ex: escolaridade (1º, 2º, 3º graus),
Ordinárias estágio da doença (inicial,
intermediário, terminal)
Qualitativas
Variáveis
Os dados para a análise de regressão e correlação provém de observações de variáveis emparelhadas, isto
significa que cada observação origina dois valores, um para cada variável, com estes valores constrói-se o
digrama de dispersão
É possível verificar correlação entre as
variáveis do gráfico?
E agora?
Correlação
Existência de relacionamento entre duas
variáveis:
Exemplo:
- Preço x demanda;
- Preço x oferta;
- Volume de vendas x prazo;
- Tempo de treinamento x desempenho.
Correlação: relação entre duas ou mais variáveis quantitativas de tal forma que uma variável
pode ser predita a partir da outra ou outras.
Correlação
Serve para estudar o comportamento conjunto de duas
variáveis quantitativas distintas.
Tipos:
(𝑋. 𝑌) : Fazem-se os produtos X.Y, referente a cada par de observações e, depois, efetua-se a soma;
𝑟. 𝑛 − 2
𝑡=
1 − 𝑟2
Rejeita-se Ho:
𝑡 > 𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜
Basicamente, é um
procedimento que busca o
mínimo de uma função de duas
variáveis (os coeficientes linear e
angular da reta) construída a
partir da distância entre os
pontos experimentais e os
pontos de uma reta.
Mínimos Quadrados
𝑛 𝑛 𝑛
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
−𝑦𝑘 + 𝑎 + 𝑏𝑥𝑘 = 0 𝑎 1 + 𝑏 𝑥𝑘 = 𝑦𝑘
𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
−𝑥𝑘 𝑦𝑘 + 𝑎𝑥𝑘 + 𝑏𝑥𝑘 2 = 0 𝑎 𝑥𝑘 + 𝑏 𝑥𝑘 2 = 𝑦𝑘 𝑥𝑘
𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1
Mínimos Quadrados
𝑛 𝑛 𝑛
1 𝑥𝑘 𝑦𝑘
𝑘=1 𝑘=1 𝑎 𝑘=1
𝑛 𝑛 = 𝑛
𝑏
𝑥𝑘 𝑥𝑘 2 𝑦𝑘 𝑥𝑘
𝑘=1 𝑘=1 𝑘=1
𝑦ො = ax + b
Coeficientes
𝑦ො = ax + b
Coeficiente angular:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑎= 2
𝑛 σ 𝑥 2 − (σ 𝑥)
Coeficiente linear:
σ 𝑥 2 σ 𝑦 − σ 𝑥 σ 𝑥𝑦
b= 2
σ 2 σ
𝑛 𝑥 − ( 𝑥)
Coeficiente de Determinação
O que é um bom ajustamento?
R2 =
SQR
= i
( ˆ
y − y ) 2
SQT ( yi − y )2
Quantidade de
variação em y que
é explicada pela
reta de regressão.
O coeficiente está entre 0 ≤ R2 ≤ 1 logo, quanto mais próximo de 1 estiver o valor de R2 , melhor será o
ajuste do modelo e quanto mais próximo de 0 (zero), pior é o ajuste.
Exemplo:
Preço (x) 36 43 49 55 61 63 69 72 74 77
Demanda (y) 350 330 296 252 230 218 203 196 188 167
𝑟 = −0,9912
Exemplo:
𝑦ො = −4,4769𝑥ො + 511,1640
Exercício
Massa muscular (Y) Idade (X)
82.0 71.0
É esperado que a massa muscular de uma pessoa diminua com a idade.
91.0 64.0 Para estudar essa relação, uma nutricionista selecionou 18 mulheres,
100.0 43.0 com idade entre 40 e 79 anos, e observou em cada uma delas a idade
68.0 67.0 (X) e a massa muscular (Y).
87.0 56.0
73.0 73.0
78.0 68.0 a) Construa o diagrama de dispersão e interprete-o.
80.0 56.0
65.0 76.0
b) Calcule o coeficiente de correlação linear entre X e Y.
84.0 65.0 c) Ajuste uma reta de regressão para a relação entre as
116.0 45.0
76.0 58.0
variáveis Y: massa muscular (dependente) e X: idade
97.0 45.0 (independente).
100.0 53.0
105.0 49.0 d) Considerando a reta estimada dada no item (c), estime a
77.0 78.0 massa muscular média de mulheres com 50 anos.
73.0 73.0
78.0 68.0
Exercício
Problema exemplo:
Deseja-se estudas as variáveis peso (y) e altura (x) em uma amostra de 12 homens adultos. Os valores são
apresentados na tabela 1.
Observe o exemplo
Em uma sala estão 9 professores.
Dados discrepantes;
Pontos fora da curva;
Outliers Observações fora do comum;
Anomalias;
Valores atípicos.
Outliers
• Erros de medição;
Por que • Erros de execução;
surgem? • Variabilidade inerente dos
elementos da população.
3 7 9 12 14 15 17 18 40
3 7 9 12 14 15 17 18 40
3 7 9 12 14 15 17 18 40
Os 5 números que sumarizam a série
Passo 4: Identificar a mediana entre o menor número e a mediana geral de toda a série de
dados, e a mediana entre a mediana geral e o maior número na série.
3 7 9 12 14 15 17 18 40
Esses 5 números divide a série em 4 quartos:
Inter-quartil
Identificação de Outliers
Vamos utilizar o método baseado na amplitude interquartil (IQR)
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
Estimativa de variabilidade
𝐿𝑆𝑢𝑝 = 17 + 1,5 × 8
𝐿𝑆𝑢𝑝 = 29
𝐿𝑆𝑢𝑝 = 9 − 1,5 × 8
𝐿𝑆𝑢𝑝 = 3
Detecção de outliers - Aplicações
Detecção de fraudes
o comportamento de compras de alguém que rouba um cartão de crédito é provavelmente diferente
daquele do proprietário do cartão.
Detecção de intrusões
Ataques em sistemas de computadores apresentam comportamento diferente do comportamento usual
dos sistemas.
Perturbações em ecossistemas
Furacões, secas, enchentes, ondas de calor, incêndios.
Saúde pública
Casos de varíola são considerados anomalias, que podem indicar um problema com o processo de
vacinação na cidade.
Medicina
Para um certo paciente, certos sintomas ou resultados de testes podem
indicar problemas de saúde.
BoxPlot