Escolar Documentos
Profissional Documentos
Cultura Documentos
Faculdade de Engenharia
OBJECTIVOS:
1. Conhecer medidas de associação entre variáveis quantitativas;
2. Identificar a existência de relação linear entre variáveis estatísticas;
3. Dadas 2 variáveis estatísticas, indentificar a variável dependente e independente;
4. Construír e interpretar o diagrama de dispersão;
5. Conhecer/aplicar o método de mínimos quadrados (MMQ) para estimar parametros α e β;
6. Interpretar o significado estatístico, prático ou económico dos parametros α e β;
7. Prevêr ou estimar a variação da variavel dependente em função da variável independente;
8. Determinar o poder explicativo do Modelo.
1. Introdução
Na vida quotidiana costumamos nos deparar com vários casos pelos quais afirmarmos haver
relação entre si. Por exemplo, costumamos afirmar que estão relacionados: o peso de um
indivíduo e a sua idade; a demanda por um produto e o preço do mesmo; as notas de um
indivíduo em determinada cadeira e a boa ou má prestação nos testes, etc. Essas relações podem
ser lineares, quadráticas, logarítmas, e mais.
A verificação da existência e do grau de associação ou relação entre duas variáveis é o bjecto
de estudo da correlação. Considere a existência de uma variável quantitativa X a qual
acreditamos apresentar alguma relação com uma outra variável quantitativa Y. Por exemplo:
consumo de electricidade e valor da conta de energia eléctrica; idade e tempo de reacção um
estímulo; temperatura e tempo de uma reacção química, dentre outros.
Em situações como as citadas, a construção de um gráfico de dispersão dos valores de X versus
os valores de Y, se constitui numa ferramenta estatística simples, porém muito útil, para
investigar a existência de uma possível relação entre essas duas variáveis.
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
Se X e Y representam as duas variáveis consideradas e, se todos os pontos de seu respectivo
diagrama de dispersão parecem cair nas extremidades de uma recta, a correlação é denominada
linear.
A correlação pode ser linear positiva ou directa, quando o Y tende a aumentar a medida que X
aumenta (figura a), linear negativa ou inversa, quando o Y tende a diminuir a mediada que X
aumenta (figura b) ou não existência de relação linear quando os pontos apresentam-se
dispersos e não parecem estar em torno de uma recta (figura c).
(c)
(a)
(b)
Observação:
1. O coeficiente de correlação linear, apesar de se expressar em percentagem, ela não é uma
percentagem. Assim uma correlação de 0.3 não corresponde 30% da correlação perfeita.
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
2. Os coeficientes de correlação não constituem uma escala de intervalo, i.é, 0.4 não é o dobro
de 0.2. Da mesma forma que as diferenças entre 0.3 e 0.4 e entre 0.8 e 0.9 não são
estatisticamente iguais.
3. As variáveis x e y devem possuir escalas de intervalo ou de razão, caso contrário, deve-se
aplicar outras estatísticas para medir o grau de associação.
Interpretação: existe uma correlação positiva fraca entre o número de filhos de uma família e
a renda mensal da mesma, pois o coeficiente de correlação de Pearson é de 0.416. O que
significa que quanto maior for a renda familiar, maior é o número de filhos que a mesma terá.
Tema 3.1. Modelo de Regressão Linear Simples, Método dos Mínimos Quadrados
Estimação dos Coeficientes
3.2. Introdução
O termos regressão foi criado por Francis Galton, quando em um artigo famoso verificou que
embora existisse uma tendência para pais altos terem filhos de altura alta, e pais baixos filhos
de estatura baixa, a estatura média das crianças nascidas de pais com dada altura tendiam a
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
mover-se ou “regredir” para altura média da população como um todo, isto é, a altura de
crianças filhas de pais mais altos ou mais baixos que o comum, tende a mover-se no sentido da
altura média da população.
Esta lei, conhecida como Lei da regressão universal de Galton, foi confirmada por Karl Pearson
que fez uma colecta de mais de 1000 registos de alturas de membros de grupos familiares. Ele
verificou que a altura média do grupo de filhos de pais baixos era maior que a de seus pais, e a
altura média de grupo de filhos de pais altos, era menor que a de seus pais, constatando desse
modo que a altura de filhos de pais altos e baixos “regrediam” igualmente à altura média de
todos os homens.
Análise de regressão tem por objectivo estimar o valor médio de uma variável dependente
atravês de uma ou várias variáveis independentes, a partir de n observações dessas variáveis.
A equação de regressão tem por finalidade ESTIMAR (prever) valores de uma variável Y
com base em valores conhecidos da outra X.
A variável a ser explicada pode ser chamada variável dependente, explicada, resposta, prevista
ou regressando e tem o símbolo Y.
O modelo geral da equação de regressão linear entre duas variáveis tem a seguinte forma:
Yi *X i i ou Yi 1 2 X i ui (1)
Modelo para população, com parâmetros ( , ) ou 1 , 2
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
Ou yˆ i aˆ bˆ * xi i ou Yˆ ˆ1 ˆ2 X i uˆi , (2)
Modelo para amostra, com estimativas (a, b) ou ˆ1 , ˆ 2
onde:
Yi ou yˆ i variável dependente;
X i ou xˆ i variável independente;
ou a : intercepto do modelo. Caracteriza a variação média de y quando a variável x é igual
a zero.
ou b : coeficiente angular da recta de regressão. Caracteriza a variação média de y provocada
pela variação da variável x em uma unidade.
uˆ i ou i 1: resíduo. Representa o conjunto de todas as variáveis que explicam o y mas que não
foram incluídas no modelo.
Exemplo 2:
Regressão Linear nos parâmetros Regressão não Linear nos parâmetros
Y 1 2 X i Y 1 2 X i
2
Y 1 22 X i
Nota: Das duas interpretações de linearidade, a linearidade nos parâmetros é a relevante.
Portanto a expressão regressão Linear significará sempre uma regressão linear nos parâmetros.
1
Essas variáveis podem não ser incluídas no modelo por várias razões. para mais
detalhes ver Livro de Econometria de Gujarati. Tecnicamente é conhecido como
termo de erro estocástico.
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
As estimativas dos parâmetros e dadas por “a” e “b” podem ser obtidas usando vários
métodos. O método mais usado para ajustar uma linha recta para um conjunto de pontos
( x1 , y1 ), ( x2 , y 2 ),..., ( xn , y n ) é o método de mínimos quadrados.
O método dos mínimos quadrados consiste em adoptar como estimativa dos parâmetros os
valores que minimizam a soma dos quadrados dos desvios2.
Características
1a) A soma dos desvios verticais dos pontos em relação a recta é zero;
2a) A soma dos quadrados desses desvios é mínima.
Para que o ajuste do modelo seja “bom” é necessário que o valor de d seja mínimo possível.
Os valores de “a” e “b” de recta de regressão yˆ i a b * xˆi serão:
n * xi * y i xi * y i y * x x * x 2
* yi
b (3) a (4 Ou a y b * x
i i i i
n * xi2 xi n * x x
2 2 2
i 1
(5)
Exemplo 3:
i Vendas ( xi ) Lucro ( yi ) xi2 yi2 xi * y i
1 201 17 40401 289 3417
2 225 20 50625 400 4500
3 305 21 93025 441 6405
4 380 23 144400 529 8740
5 560 25 313600 625 14000
6 600 24 360000 576 14400
7 685 27 469225 729 18495
8 735 27 540225 729 19845
Total 3691 184 2011501 4318 89802
Nota: Para facilitar os cálculos das estimativas da recta, acrescentamos três novas colunas na
tabela dada.
n * x * y x * y 8 * 89802 3691 * 184
b 0.0159
n * x 2 x 8 * 2011501 36912
2
a
y * x x * x
i
2
i i i * yi
184 * 2011501 3691 * 89802
0.0159
n * x x 8 * 2011501 36912
2 2
i 1
Ou
a y b * x 23 0.0159 * 461.38 15.66
A recta é: yˆ 15.66 0.0159 * xˆ
Interpretação:
2
A diferença di yi yˆ i u i , chama-se desvio em relação a recta de regressão ou resíduo.
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
a 15.66 , significa que quando a venda do produto for nula, a variação média de lucro será
de 15,66 u.m. Esta interpretação não tem sentido prático, pois não pode existir lucro sem
vendas.
b 0.0159 , espera-se que o lucro tenha uma variação média de 0.0159 u.m quando a venda
variar em uma unidade.
Este coeficiente é empregue como um indicador inicial da precisão das regressões para a
selecção dos modelos mais ajustados
Podemos expressar R 2 por:
R 2
Yˆ Y
i
2
Y Y
2
i
Ou podemos usar a seguinte relação R 2 rxy2 . a formula de rxy foi anteriormente apresentada
na ficha da aula teórica anterior.
Quando:
a) R 2 0 , variação explicada de Y é zero, a recta ajustada é paralela ao eixo de variável X.
b) R 2 1 , a recta ajustada explicará toda a variação de Y.
Assim sendo, quanto mais próximo da unidade estiver o valor de R 2 , melhor “a qualidade” do
ajuste da função aos pontos do diagrama de dispersão e quanto mais próximo de zero, pior será
“ a qualidade” do ajuste.
Por exemplo, se o poder explicativo for de 98%, isto significa que 98% da variação de Y é
explicada pela variação de X através da função escolhida e apenas 2% é atribuída a causas
aleatórias ou outras variáveis não incluídas no modelo.
FIM!
O professor: Noé Eugénio Bila, Msc.
“Lembre-se que as pessoas podem tirar tudo de ti, menos o seu conhecimento.”
Albert Einstein
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
UNIVERSIDADE WUTIVI
Faculdade de Engenharia
1. Para cada uma das situações abaixo, diga qual é a variável dependente e qual é a variável
independente:
a) O rendimento na universidade e o êxito na profissão escolhida.
b) Número de quilómetros que um pneu pode rodar e a velocidade da viatura.
c) Tempo necessário para executar determinada tarefa por 1 pessoa e o tempo de treinamento.
d) Vendas e a procura de um certo produto.
3. Uma seguradora deseja examinar a relação entre o valor das apólices de seguros de vida
tomadas pelas famílias e o seu rendimento. Partindo de uma amostra aleatória de 10 famílias,
a enpresa recolheu as seguintes observações:
Família Valor da apólice Rendimento
1 90 25
2 165 40
3 220 60
4 145 30
5 114 29
6 175 41
7 145 37
8 192 46
9 395 105
10 339 81
a) Constroi o diagrama de Dispersão e interprete-o.
b) Calcule o coeficiente de pearson e classifique-o.
c) Calcule o coeficiente de Determinação e interprete-o.
d) Calcule os coeficientes do modelo de regressão, apresente o modelo e interprete os resultados.
e) Que percentagem é explicada pelo modelo?
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
Rendimento
200
100
Rendimento
0
0 200 400 600
a)
n * xi y i xi y i 10 * 120012 1980 * 494
rxy 0,9891
b) n * x 2
i
xi * n * yi2 yi
2 2
10 * 477206 1980 *10 *30318 494
2 2
Interpretação: Como rxy 0,9891 Estamos perante a uma correlação positiva forte.
correlacionadas a 97,84%.
n
n n
x y
i i i yi / n
i 1
x
, b 222000 0,26066.
d) b i 1 i 1
2
n
n 851660
i 1
xi
2
xi / n
i 1
a y b * x 49,4 0.26066 *198 2,21
Y a b * X e 2.21 0,26 * X e.
100% R 2 % 100% 97,84% 2,16%. Resposta: A 2,16% não é explicada pelo modelo
apresentado na d).
Valor da
Família
apólice Rendimento
1 90 25 2250 8100 625
2 165 40 6600 27225 1600
3 220 60 13200 48400 3600
4 145 30 4350 21025 900
5 114 29 3306 12996 841
6 175 41 7175 30625 1681
7 145 37 5365 21025 1369
8 192 46 8832 36864 2116
9 395 105 41475 156025 11025
10 339 81 27459 114921 6561
Total 1980 494 120012 477206 30318
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022
X 18 20 21 21 22 23 23 23 24 25 25 26 26 26 28 28
Y 17 20 20 22 22 21 22 23 23 24 25 23 24 27 26 27
a) Constroi o diagrama de Dispersão e interprete-o.
b) Calcule o coeficiente de pearson e classifique-o.
c) Calcule o coeficiente de Determinação e interprete-o.
d) Calcule os coeficientes do modelo de regressão, apresente o modelo e interprete os resultados.
e) Que percentagem é explicada pelo modelo?
6. Após uma regulagem electrónica, um veículo apresenta um rendimento ideal no que tange
ao consumo de combustível. Contudo, com o passar do tempo esse rendimento vai se
degradando. Os dados a seguir representam o rendimento medido mês a mês após a regulagem:
Tempo (meses) 1 2 3 4 5 6 7 8 9 10 11 12
Rendimento (R) 10.7 10.9 10.8 9.3 9.5 10.4 9 9.3 7.6 7.6 7.9 7.7
a) Constroi o diagrama de Dispersão e interprete-o.
b) Calcule o coeficiente de pearson e classifique-o.
c) Calcule o coeficiente de Determinação e interprete-o.
d) Calcule os coeficientes do modelo de regressão, apresente o modelo e interprete os resultados.
e) Que percentagem é explicada pelo modelo?
FIM!
O professor: Noé Eugénio Bila, Msc.
“Pouco conhecimento faz com que as pessoas se sintam orgulhosas. Muito conhecimento, com que se sintam humildes.”
Leonardo da Vinci
Probabilidade/Estatística, Correlação e regressão linear simples. Docente: Noé Eugénio Bila, Msc. Wutive-Unitiva 2022