Você está na página 1de 41

Laboratório de

Engenharia Química
AULA 02 – ESTATÍSTICA BÁSICA
Objetivos desta aula
Analisar as relações entre duas variáveis
quantitativas:
Como prever valores de uma variável
Como medir a intensidade de relação
Como provar a existência dessa relação
Modelos Matemáticos
Devem representar um sistema e a forma
como ocorrem as modificações no mesmo.
SISTEMA REAL

Representação de aspectos essenciais de um


sistema, que apresenta conhecimento desse sistema
em uma forma utilizável (Eykhoff, 1974)
SIMPLIFICAÇÕES

Modelagem

MODELO
MATEMÁTICO

Empírica Fenomenológica
Modelagem
Problema do Modelo Previsões e
Simplificações Interpretação
mundo real Matemático explicações

Modelo: Representação da realidade.

Modelar: construir representações de situações reais.

Modelo matemático: formulação ou equação que expressa as características essenciais


de um sistema físico ou um processo , em termos matemáticos.
Modelos Empíricos
Consiste em ver os dados experimentais, possivelmente fazendo alguma analise dos
dados e tentando fazer alguma suposição inteligente (quase sempre muito simples) na
forma de conjunto de equações ou mesmo através de explicações intuitivas

Comparar e
Realizar Dados do
Realidade validar o
experimentos experimento
modelo

Desenvolve relação:
Causa
Efeito
Variáveis
Ex: escolaridade (1º, 2º, 3º graus),
Ordinárias estágio da doença (inicial,
intermediário, terminal)
Qualitativas
Variáveis

Nominais Ex: sexo, cor dos olhos, fumante/não


fumante, doente/sadio

Discretas Ex: número de filhos, número de bactérias


por litro de leite.
Quantitativas
Continuas Ex: peso (balança), altura (régua), tempo
(relógio), pressão arterial, idade.

Variável é a característica de interesse que é medida em cada


elemento da amostra ou população.
Variáveis
As variáveis também são classificadas em independentes e dependentes:

• Independentes – São aquelas que podem ser manipuladas.


Ex:. A temperatura e pressão de uma reação.

• Dependente – São aquelas apenas medidas e/ou registradas.


No exemplo anterior da reação química, temos como exemplo a atividade e a conversão.
Gráfico de Dispersão

Mostra a relação entre duas variáveis


quantitativas.

Cada par observado de duas variáveis (x,y)


é marcado como um ponto a partir de suas
coordenadas.

Os dados para a análise de regressão e correlação provém de observações de variáveis emparelhadas, isto
significa que cada observação origina dois valores, um para cada variável, com estes valores constrói-se o
digrama de dispersão
É possível verificar correlação entre as
variáveis do gráfico?
E agora?
Correlação
Existência de relacionamento entre duas
variáveis:
Exemplo:
- Preço x demanda;
- Preço x oferta;
- Volume de vendas x prazo;
- Tempo de treinamento x desempenho.
Correlação: relação entre duas ou mais variáveis quantitativas de tal forma que uma variável
pode ser predita a partir da outra ou outras.
Correlação
Serve para estudar o comportamento conjunto de duas
variáveis quantitativas distintas.

Mede o grau de associação entre


variáveis aleatórias X e Y.

Tipos:

- Correlação linear positiva;


- Correlação linear negativa;
- Correlação não-linear;
- Não há correlação
Coeficiente de Correlação ou Coeficiente
de Pearson
É um valor numérico que permite quantificar o grau de associação entre duas variáveis.

෍(𝑋. 𝑌) : Fazem-se os produtos X.Y, referente a cada par de observações e, depois, efetua-se a soma;

෍𝑋 : Somam-se os valores da variável X;

෍𝑌 : Somam-se os valores da variável Y

෍ 𝑋2 : Eleva-se ao quadrado cada valor de X e, depois, efetua-se a soma;

෍ 𝑌2 : Eleva-se ao quadrado cada valor de Y e, depois, efetua-se a soma.


Coeficiente de Correlação ou Coeficiente
de Pearson
É um valor numérico que permite quantificar o grau de associação entre duas variáveis.

Coeficiente de correlação Interpretação


0,00 a 0,19 Correlação muito fraca
O sinal positivo indica que as variáveis são
0,20 a 0,39 Correlação fraca
diretamente proporcionais, enquanto que o sinal
negativo indica que a relação entre as variáveis é 0,40 a 0,69 Correlação moderada
inversamente proporcional. 0,70 a 0,89 Correlação forte
0,9 a 1 Correlação muito forte
Exemplos
Se r = 1; r2 = 100%: Correlação positiva perfeita

Se r = -1; r2 = 100%: Correlação negativa perfeita


Teste de Hipótese
O coeficiente r pode ser considerado uma estimativa do verdadeiro e desconhecido coeficiente de
correlação populacional (ρ).

Podemos verificar as seguintes hipóteses com relação à correlação:


• Existem duas hipóteses:
• Hipótese Nula – H0 (as variáveis X e Y são não correlacionadas);
vs
• Hipótese Nula – H1 (as variáveis X e Y são correlacionadas).

• Existem dos tipos de decisão:


• Rejeitar a hipótese nula – H0
vs
• Não rejeitar a hipótese nula – H1

Como avaliar se o coeficiente de correlação de Pearson (r) é significativo?


Estatística de teste T
Usando a distribuição t de Student com gl = n-2 valor do teste calculado por:

𝑟. 𝑛 − 2
𝑡=
1 − 𝑟2
Rejeita-se Ho:
𝑡 > 𝑣𝑎𝑙𝑜𝑟 𝑡𝑎𝑏𝑒𝑙𝑎𝑑𝑜

Com base na região crítica:


Rejeitar H0 se o valor de tobs encontra-se na região crítica RC.

Através do intervalo de confiança:


Rejeitar H0 se o valor do parâmetro especificado em H0 não pertencer ao intervalo de confiança.
Regressão Linear Simples
Possibilidade de estimar
o valor de uma variável,
dado o valor da outra, de
acordo a função
matemática que
apresente melhor
aderência aos dados
observados.
Mínimos quadrados

Basicamente, é um
procedimento que busca o
mínimo de uma função de duas
variáveis (os coeficientes linear e
angular da reta) construída a
partir da distância entre os
pontos experimentais e os
pontos de uma reta.
Mínimos Quadrados
𝑛 𝑛 𝑛

𝑀 𝑎, 𝑏 = ෍ 𝑑𝑘 2 = ෍ [𝑦𝑘 − 𝑟 𝑥𝑘 ]2 = ෍ [𝑦𝑘 − 𝑎 − 𝑏𝑥𝑘 ]2


𝑘=1 𝑘=1 𝑘=1
𝑛 𝑛
𝜕𝑀
= 2 ෍ 𝑦𝑘 − 𝑎 − 𝑏𝑥𝑘 −1 = 0 ෍ −𝑦𝑘 + 𝑎 + 𝑏𝑥𝑘 = 0
𝜕𝑎
𝑘=1 𝑘=1
𝑛 𝑛
𝜕𝑀
= 2 ෍ 𝑦𝑘 − 𝑎 − 𝑏𝑥𝑘 −𝑥𝑘 = 0 ෍ −𝑥𝑘 𝑦𝑘 + 𝑎𝑥𝑘 + 𝑏𝑥𝑘 2 = 0
𝜕𝑏
𝑘=1 𝑘=1

𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
෍ −𝑦𝑘 + ෍ 𝑎 + ෍ 𝑏𝑥𝑘 = 0 𝑎 ෍ 1 + 𝑏 ෍ 𝑥𝑘 = ෍ 𝑦𝑘
𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1
𝑛 𝑛 𝑛 𝑛 𝑛 𝑛
෍ −𝑥𝑘 𝑦𝑘 + ෍ 𝑎𝑥𝑘 + ෍ 𝑏𝑥𝑘 2 = 0 𝑎 ෍ 𝑥𝑘 + 𝑏 ෍ 𝑥𝑘 2 = ෍ 𝑦𝑘 𝑥𝑘
𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1
Mínimos Quadrados
𝑛 𝑛 𝑛

෍1 ෍ 𝑥𝑘 ෍ 𝑦𝑘
𝑘=1 𝑘=1 𝑎 𝑘=1
𝑛 𝑛 = 𝑛
𝑏
෍ 𝑥𝑘 ෍ 𝑥𝑘 2 ෍ 𝑦𝑘 𝑥𝑘
𝑘=1 𝑘=1 𝑘=1

Resolvendo o sistema por Gauss determinamos


os parâmetros do modelo de regressão linear.

𝑦ො = ax + b
Coeficientes
𝑦ො = ax + b
Coeficiente angular:
𝑛 σ 𝑥𝑦 − σ 𝑥 σ 𝑦
𝑎= 2
𝑛 σ 𝑥 2 − (σ 𝑥)

Coeficiente linear:
σ 𝑥 2 σ 𝑦 − σ 𝑥 σ 𝑥𝑦
b= 2
σ 2 σ
𝑛 𝑥 − ( 𝑥)
Coeficiente de Determinação
O que é um bom ajustamento?

• Erro ou falta de ajuste


É definido como a distância vertical entre o valor
observado 𝑦𝑖 e o valor ajustado 𝑦
ෞ𝑖 na reta, isto é:
𝑒 = 𝑦𝑖 − 𝑦ෝ𝑖

• Erro em torno da média

 ( yi − y ) 2 =  [( yˆi − y ) 2 +  ( yi − yˆi )]2

SQ em torno da média = SQ devido a regressão + SQ residual


Valores Previstos e Resíduos
• Erro em torno da média

 ( yi − y ) 2 =  [( yˆi − y ) 2 +  ( yi − yˆi )]2

SQ em torno da média = SQ devido a regressão + SQ residual

A variância total se expressa como a soma dos


quadrados dos valores do desvio total.
– A variância explicada é a soma dos quadrados
dos valores do desvio explicado.
– A variância não-explicada é a soma dos
quadrados dos valores do desvio não explicado.
Coeficiente de Determinação
Lembremos que o valor de r2 é a proporção em y que pode ser explicada pela relação linear entre x e y.

R2 =
SQR
=  i
( ˆ
y − y ) 2

SQT  ( yi − y )2
Quantidade de
variação em y que
é explicada pela
reta de regressão.

O coeficiente está entre 0 ≤ R2 ≤ 1 logo, quanto mais próximo de 1 estiver o valor de R2 , melhor será o
ajuste do modelo e quanto mais próximo de 0 (zero), pior é o ajuste.
Exemplo:
Preço (x) 36 43 49 55 61 63 69 72 74 77
Demanda (y) 350 330 296 252 230 218 203 196 188 167

Determinar o coeficiente de correlação utilizando a equação.


Exemplo:
Preço (x) 36 43 49 55 61 63 69 72 74 77
Demanda (y) 350 330 296 252 230 218 203 196 188 167

10 × 137808 − 599 × 2430


𝑟=
10 × 37611 − 5992 × [10 × 625802 − 24302 ]

𝑟 = −0,9912
Exemplo:

Determinar a regressão linear do problema proposto.


Exemplo:

Determinar a regressão linear do problema proposto.

10 × 137808 − 599 × 2430


𝑚= = −4,4769
10 × 37611 − 5992

37611 × 2430 − 599 × 137808


𝑛= = 511,1640
10 × 37611 − 5992

𝑦ො = −4,4769𝑥ො + 511,1640
Exercício
Massa muscular (Y) Idade (X)
82.0 71.0
É esperado que a massa muscular de uma pessoa diminua com a idade.
91.0 64.0 Para estudar essa relação, uma nutricionista selecionou 18 mulheres,
100.0 43.0 com idade entre 40 e 79 anos, e observou em cada uma delas a idade
68.0 67.0 (X) e a massa muscular (Y).
87.0 56.0
73.0 73.0
78.0 68.0 a) Construa o diagrama de dispersão e interprete-o.
80.0 56.0
65.0 76.0
b) Calcule o coeficiente de correlação linear entre X e Y.
84.0 65.0 c) Ajuste uma reta de regressão para a relação entre as
116.0 45.0
76.0 58.0
variáveis Y: massa muscular (dependente) e X: idade
97.0 45.0 (independente).
100.0 53.0
105.0 49.0 d) Considerando a reta estimada dada no item (c), estime a
77.0 78.0 massa muscular média de mulheres com 50 anos.
73.0 73.0
78.0 68.0
Exercício
Problema exemplo:
Deseja-se estudas as variáveis peso (y) e altura (x) em uma amostra de 12 homens adultos. Os valores são
apresentados na tabela 1.
Observe o exemplo
Em uma sala estão 9 professores.

Sala de professores Qual é a média de salário das


pessoas na sala?
• 4 que recebem $ 40 k/ano;
• 3 ganham $ 45 k/ano;
• 2 ganham $ 55 k/ano. Qual seria a média de salários se
Gates não estivesse na sala?
Sala de professores mais Bill Gates

• 4 que recebem $ 40 k/ano;


• 3 ganham $ 45 k/ano;
• 2 ganham $ 55 k/ano.
• Bill Gates ganha $ 500 milhões
Outliers
Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá)
causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

1.os outliers podem viesar negativamente todo o resultado de uma análise;


2.o comportamento dos outliers pode ser justamente o que está sendo procurado.

Dados discrepantes;
Pontos fora da curva;
Outliers Observações fora do comum;
Anomalias;
Valores atípicos.
Outliers

• Erros de medição;
Por que • Erros de execução;
surgem? • Variabilidade inerente dos
elementos da população.

Como identificar um outlier?


Os 5 números que sumarizam a série
Série:
3 12 7 40 9 14 18 15 17

Passo 1: Ordenar os números em ordem crescente.

3 7 9 12 14 15 17 18 40

Passo 2: Identificar a mediana.

3 7 9 12 14 15 17 18 40

Passo 3: Identificar o menor e o maior número.

3 7 9 12 14 15 17 18 40
Os 5 números que sumarizam a série
Passo 4: Identificar a mediana entre o menor número e a mediana geral de toda a série de
dados, e a mediana entre a mediana geral e o maior número na série.

3 7 9 12 14 15 17 18 40
Esses 5 números divide a série em 4 quartos:
Inter-quartil
Identificação de Outliers
Vamos utilizar o método baseado na amplitude interquartil (IQR)

𝐼𝑄𝑅 = 𝑄3 − 𝑄1

Estimativa de variabilidade

Podemos usar essa estimativa de variabilidade para calcular os limites inferior e


superior para identificação de outliers.
𝐿𝑆𝑢𝑝 = 𝑄3 + 1,5 × 𝐼𝑄𝑅

𝐿𝑖𝑛𝑓 = 𝑄1 − 1,5 × 𝐼𝑄𝑅


Outlier
𝐿𝑆𝑢𝑝 = 𝑥ҧ + 1,5 × 𝐼𝑄𝑅

𝐿𝑆𝑢𝑝 = 17 + 1,5 × 8
𝐿𝑆𝑢𝑝 = 29

𝐿𝑖𝑛𝑓 = 𝑥ҧ − 1,5 × 𝐼𝑄𝑅

𝐿𝑆𝑢𝑝 = 9 − 1,5 × 8
𝐿𝑆𝑢𝑝 = 3
Detecção de outliers - Aplicações
Detecção de fraudes
o comportamento de compras de alguém que rouba um cartão de crédito é provavelmente diferente
daquele do proprietário do cartão.
Detecção de intrusões
Ataques em sistemas de computadores apresentam comportamento diferente do comportamento usual
dos sistemas.
Perturbações em ecossistemas
Furacões, secas, enchentes, ondas de calor, incêndios.
Saúde pública
Casos de varíola são considerados anomalias, que podem indicar um problema com o processo de
vacinação na cidade.
Medicina
Para um certo paciente, certos sintomas ou resultados de testes podem
indicar problemas de saúde.
BoxPlot

O boxplot (gráfico de caixa) é um


gráfico utilizado para avaliar a
distribuição empírica do dados. O
boxplot é formado pelo primeiro
e terceiro quartil e
pela mediana.

Você também pode gostar