Você está na página 1de 45

banco do brasil

Matemática, Probabilidade
e Estatística
Regressão, Tenências,
Extrapolações e Interpolações

Livro Eletrônico
JOSIMAR PADILHA

Professor do Gran Cursos Online. Ministra aulas


presenciais, telepresenciais e online de Matemá-
tica Básica, Raciocínio Lógico, Matemática Finan-
ceira e Estatística para processos seletivos em
concursos públicos estaduais e federais. Além
disso, é professor de Matemática e Raciocínio
Lógico em várias faculdades do Distrito Federal.
É servidor público há mais de 20 anos. Autor de
diversas obras e palestrante.
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

SUMÁRIO
Estatística – Correlação e Regressão Linear Simples.........................................4
Correlação Linear Simples.............................................................................4
Regressão Linear Simples........................................................................... 24
Questões de Concurso................................................................................ 30
Gabarito................................................................................................... 35
Gabarito comentado.................................................................................. 36

https://www.facebook.com/groups/2095402907430691 3 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

ESTATÍSTICA – CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Neste módulo, serão apresentados métodos para resolução de questões de con-

cursos públicos relacionados a problemas envolvendo o conteúdo de estatística,

relacionados abaixo:

1. REGRESSÃO, TENDÊNCIAS, EXTRAPOLAÇÕES E INTERPOLAÇÕES; TABE-

LAS DE DISTRIBUIÇÃO EMPÍRICA DE VARIÁVEIS E HISTOGRAMAS.

Propõe-se a desenvolver, gradualmente, o raciocínio criativo, com aplicação de

conceitos e propriedades, promovendo maior independência na busca de soluções

de problemas, aprendendo a interpretar tais questões por meio da prática e aplica-

ção de métodos que facilitarão na conclusão das questões.

De uma maneira clara, simples e bem objetiva iremos aprender como a banca

examinadora exige o assunto indicado nesta aula.

O conteúdo deste módulo é de suma importância, pois trata assuntos cobrados

nas provas de concursos públicos pela banca CESGRANRIO.

Correlação Linear Simples

Para começarmos, temos que o coeficiente de correlação de Pearson não tem

esse nome por acaso. É comum atribuir exclusivamente a Karl Pearson o desen-

volvimento dessa estatística, no entanto, como bem lembrou Stanton (2001), a

origem desse coeficiente remonta o trabalho conjunto de Karl Pearson e Francis

Galton (Stanton, 2001: 1). Garson (2009) afirma que correlação “é uma medida de

associação bivariada (força) do grau de relacionamento entre duas variáveis”. Para

Moore (2007), “a correlação mensura a direção e o grau da relação linear entre

https://www.facebook.com/groups/2095402907430691 4 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

duas variáveis quantitativas” (Moore, 2007: 100/101). Em uma frase: o coeficiente

de correlação de Pearson (r) é uma medida de associação linear entre variáveis.

Sua fórmula é a seguinte:

Dois conceitos são chaves para entendê-la: “associação” e “linearidade”. Afinal,

o que significa dizer que duas variáveis estão associadas? Em termos estatísticos,

duas variáveis se associam quando elas guardam semelhanças na distribuição dos

seus escores. Mais precisamente, elas podem se associar a partir da distribuição

das frequências ou pelo compartilhamento de variância. No caso da correlação de

Pearson (r), vale esse último parâmetro, ou seja, ele é uma medida da variância

compartilhada entre duas variáveis. Por outro lado, o modelo linear supõe que o

aumento ou decremento de uma unidade na variável X gera o mesmo impacto em

Y. Em termos gráficos, por relação linear entende-se que a melhor forma de ilus-

trar o padrão de relacionamento entre duas variáveis é através de uma linha reta.

Portanto, a correlação de Pearson (r) exige um compartilhamento de variância e

que essa variação seja distribuída linearmente (Revista Política Hoje, Vol. 18, n. 1,

2009).

Em pesquisas e até mesmo no dia a dia, frequentemente, procura-se verificar

se existe relação entre duas ou mais grandezas, que serão denominadas em nosso

estudo como variáveis, isto é, saber se as alterações sofridas por uma das variáveis

são acompanhadas, influenciadas por alterações nas outras. Vejamos, por exemplo,

peso versus idade, consumo versus renda, altura versus peso, etc.

https://www.facebook.com/groups/2095402907430691 5 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

O termo correlação significa relação em dois sentidos (co + relação) e é usado

em estatística para designar a intensidade de força que mantém unidos (relacio-

nados) dois conjuntos de valores. Quanto à verificação da existência e do grau de

relação entre as variáveis, será de responsabilidade do estudo da correlação linear

por intermédio de um coeficiente, que veremos mais à frente, denominado coefi-

ciente de Pearson.

Uma vez caracterizada esta relação, procura-se descrevê-la sob forma matemá-

tica, através de uma função do 1º grau.

A estimação dos parâmetros dessa função matemática é o objeto da regressão.

Os pares de valores das duas variáveis poderão ser colocados num diagrama carte-

siano chamado “diagrama de dispersão”. A vantagem de construir um diagrama de

dispersão está em que, muitas vezes sua simples observação já nos dá uma ideia

bastante boa de como as duas variáveis se relacionam.

Em teoria da probabilidade e estatística, correlação, também chamada de co-

eficiente de correlação, indica a força e a direção do relacionamento linear entre

duas variáveis aleatórias. No uso estatístico geral, correlação ou correlação se re-

fere à medida da relação entre duas variáveis, embora correlação não implique

CAUSALIDADE.

Neste sentido geral, existem vários coeficientes medindo o grau de correlação,

adaptados à natureza dos dados.

Vários coeficientes são utilizados para situações diferentes. O mais conhecido é

o coeficiente de correlação de Pearson, o qual é obtido dividindo a covariância de

duas variáveis pelo produto de seus desvios padrão.

Variável: características ou itens de interesse de cada elemento de uma popu-

lação ou amostra, podendo ser chamada de parâmetro.

https://www.facebook.com/groups/2095402907430691 6 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Duas variáveis estão relacionadas se a mudança de uma provoca a mudança

na outra.

Exemplos: velocidade x consumo combustível

índice de criminalidade x grau de escolaridade

idade x condicionamento físico.

Correlação

Correlação entre duas variáveis:

1. quando uma delas está, de alguma forma, relacionada com a outra;

2. quando a alteração no valor de uma variável (dita independente) provoca alte-

rações no valor da outra variável (dita dependente).

Diagramas de Dispersão

Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas,

medidas sobre os mesmos indivíduos.

Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo

vertical.

Comumente, coloca-se no eixo x um parâmetro.

Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as

variáveis para aquele indivíduo.

Exemplo de correlação entre as variáveis: peso e altura

Vamos construir um diagrama de dispersão por meio da tabela abaixo, com as vari-

áveis peso e altura, em que o peso será nossa variável independente (eixo x) e a

altura, nossa variável dependente (eixo y).

https://www.facebook.com/groups/2095402907430691 7 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Peso (Kg) Altura (m)


80 1,80
85 1,83
50 1,65
70 1,90
55 1,60
77 1,80
85 1,78
93 1,86
65 1,70
60 1,65

Diagrama de dispersão

Podemos observar que cada ponto no diagrama representa um elemento (pessoa),

consequência da relação entre as duas grandezas, temos um exemplo em destaque

que é a pessoa que pesa 70 Kg e possui altura de 1,90 m.

Eixo das ABCISSAS: x (variável independente):

variável que é alterada por uma modificação no processo.

Eixo das ORDENADAS: y (variável dependente):

variável que pode mudar de acordo com a mudança da variável em ‘x’.

https://www.facebook.com/groups/2095402907430691 8 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Análise – fatores a serem considerados:


• DIREÇÃO:
− crescente;
− decrescente.
• FORMA:
− linear;
− não linear;
–– aglomerados.

Algumas situações em que se podem apresentar os diagramas de dispersão:

https://www.facebook.com/groups/2095402907430691 9 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

https://www.facebook.com/groups/2095402907430691 10 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

https://www.facebook.com/groups/2095402907430691 11 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Análise quanto aos valores obtidos:

a) correlação perfeita negativa (rxy = -1): quando os pontos estiverem perfeita-

mente alinhados, mas em sentido contrário, a correlação é denominada perfeita

negativa.

b) Correlação negativa (-1 < rxy < 0): a correlação é considerada negativa quando

valores crescentes da variável X estiverem associados a valores decrescentes da

variável Y, ou valores decrescentes de X associados a valores crescentes de Y.

c) Correlação nula (rxy = 0): quando não houver relação entre as variáveis X e

Y, ou seja, quando os valores de X e Y ocorrerem independentemente, não existe

correlação entre elas.

d) Correlação positiva (0 < rxy < 1): será considerada positiva se os valores cres-

centes de X estiverem associados a valores crescentes de Y.

e) Correlação perfeita positiva (rxy = 1): a correlação linear perfeita positiva cor-

responde ao caso anterior, só que os pontos (X, Y) estão perfeitamente alinhados.

 Obs.:

 a) correlação não é o mesmo que causa e efeito. Duas variáveis podem

estar altamente correlacionadas e, no entanto, não haver relação de causa

e efeito entre elas.

 b) Se duas variáveis estiverem amarradas por uma relação de causa e efeito,

elas estarão, obrigatoriamente, correlacionadas.

 c) O estudo de correlação pressupõe que as variáveis X e Y tenham uma

distribuição normal.

 d) A palavra simples que compõe o nome correlação linear simples indica

que estão envolvidas no cálculo somente duas variáveis.

https://www.facebook.com/groups/2095402907430691 12 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

 e) O coeficiente de correlação linear de Pearson mede a correlação em esta-


tística paramétrica.

 f) O fato de o coeficiente de correlação ser próximo de zero não significa


que não exista relação entre duas variáveis, apenas significa que as duas
não têm relação linear. Pode ser que as variáveis se relacionem de outras
maneiras. Pode ser uma relação quadrática, exponencial, etc.

 g) O fato de o coeficiente de correlação ser muito próximo de 1 (ou -1)


não significa que as duas variáveis tenham uma relação de causa e con-
sequência.

Fórmulas – coeficiente de correlação linear:

Exemplo – aplicação
Vamos resolver a questão (exemplo) que foi apresentada anteriormente (peso
versos altura), ou seja, vamos encontrar o coeficiente de correlação linear de Pear-
son para que possamos fazer uma comparação com o diagrama de dispersão apre-
sentado anteriormente, ok?

https://www.facebook.com/groups/2095402907430691 13 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Peso (Kg) Altura (m)


80 1,80
85 1,83
50 1,65
70 1,90
55 1,60
77 1,80
85 1,78
93 1,86
65 1,70
60 1,65

Para que possamos aplicar a fórmula abaixo, iremos construir algumas colunas

para calcularmos os somatórios das variáveis, bem como o somatório dos seus

quadrados, certo?

Peso (Kg) Altura (m)


X2 Y2 X.Y
X Y
80 1,80 6400 3,24 144
85 1,83 7225 3,3489 155,55
50 1,65 2500 2,7225 82,5
70 1,90 4900 3,61 133
55 1,60 3025 2,56 88
77 1,80 5929 3,24 138,6
85 1,78 7225 3,1684 151,3
93 1,86 8649 3,4596 172,98
65 1,70 4225 2,89 110,5
60 1,65 3600 2,7225 99
∑x = 720 ∑y = 17,57 ∑x = 53678
2
∑y = 30,9619
2
∑xy = 1275,43
n = 10

https://www.facebook.com/groups/2095402907430691 14 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

O coeficiente de correlação de Pearson entre as duas variáveis peso e altura se

mostrou positivo. Para que possamos interpretar melhor o valor, vamos construir

uma tabela simples:

Se o intervalo do coeficiente de correlação então a interpretação de r


|r| = 1 Relação perfeita
0,6 ≤ |r| ≤ 1 Relação boa
0,3 ≤ |r| ≤ 0,6 Relação fraca
|r| ≤ 0,3 Relação não existe praticamente
|r| = 0 Relação nula

https://www.facebook.com/groups/2095402907430691 15 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Vejamos agora algumas questões de concursos públicos envolvendo a parte te-

órica para que possamos entender melhor ainda os conceitos, vejamos:

1. (CESGRANRIO). Considere as asserções a seguir.

O Coeficiente de Correlação Linear de Pearson é necessariamente um número no

intervalo (−1,1).

PORQUE

O Coeficiente de Correlação Linear de Pearson só pode ser calculado para variáveis

quantitativas.

Analisando-se as asserções, conclui-se que

a) As duas asserções são verdadeiras, e a segunda é uma justificativa correta da

primeira.

b) As duas asserções são verdadeiras, e a segunda não é uma justificativa correta

da primeira.

c) A primeira asserção é verdadeira, e a segunda é falsa.

d) A primeira asserção é falsa, e a segunda é verdadeira.

e) A primeira e a segunda asserções são falsas.

Letra b.

Como vimos anteriormente, o coeficiente de correlação de Pearson assume valores

entre -1 e 1, desta forma a primeira asserção está correta. A segunda frase tam-

bém está correta, uma vez que o coeficiente de correlação depende de cálculo de

somatório, o que só é permitido se as variáveis forem quantitativas.

https://www.facebook.com/groups/2095402907430691 16 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Sendo as duas frases verdadeiras e sabendo que o coeficiente depende de valores

quantitativos, uma frase não justifica a outra, pois existem diversas grandezas que

só podem ser calculadas para variáveis quantitativas, mas que assumem valores

fora do intervalo entre -1 e 1. Um exemplo é a variância, que só pode ser calculada

para variáveis quantitativas, porém o seu valor pode assumir qualquer valor maior

ou igual a zero.

2. (CESGRANRIO) Considere as afirmações a seguir a respeito do Coeficiente de

Correlação (r) de Pearson entre duas variáveis.

I – Se r = 1, as observações estão todas sobre uma linha reta no diagrama de

dispersão.

II – Se r > 0, a variável independente aumenta quando a variável dependente

aumenta.

III – Se r < 0, a variável independente decresce quando a variável dependente

decresce.

IV – Se r = 0, não existe relação entre as duas variáveis. São corretas APENAS as

afirmações

a) I e II

b) I e III

c) II e III

d) II e IV

e) III e IV

https://www.facebook.com/groups/2095402907430691 17 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Letra a.

Vamos analisar cada item separadamente:

I. Certo. Se r = 1, a relação linear é perfeita, em que as variáveis têm relação dire-

ta (quando uma aumenta, a outra aumenta; quando uma diminui, a outra diminui).

II. Certo. Se r > 0, a relação entre as variáveis é direta (quando uma aumenta, a

outra aumenta; quando uma diminui, a outra diminui).

III. Errado. Se r < 0, a relação é inversa (quando uma aumenta, a outra diminui).

IV. Errado. Se r = 0, temos um indicador muito forte que não há relação linear,

porém é importante observar que pode haver outro tipo de relação (exponencial,

logarítmica, etc.).

3. (CESGRANRIO) Analise as afirmativas a seguir, a respeito do coeficiente de cor-

relação linear de Pearson entre duas variáveis positivas X e Y:

I – É positivo;

II – Não se altera quando adicionamos uma constante positiva aos valores de X;

III – não se altera quando multiplicamos por uma constante positiva os valores de X.

Está (ao) correta (s) a (s) afirmativa (s):

a) II somente.

b) I e II somente.

c) I e III somente.

d) II e III somente.

e) I, II e III.

https://www.facebook.com/groups/2095402907430691 18 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Letra d.
Vamos analisar cada item:
I. Errado, pois o sinal do coeficiente de correlação depende da relação (associa-
ção) existente entre as variáveis, podendo ser direta ou inversa. Para ser positivo,
a relação tem que ser direta, pois, se for uma relação inversa, o sinal será negativo.
II. Certo, pois as somas e subtrações não alteram o coeficiente de correlação. É
importante guardar essa propriedade.
III. Certo, pois, se multiplicarmos X por uma constante positiva P, e não alterar-
mos Y (o que equivale a multiplicar por 1), então as duas constantes envolvidas (P
e 1) têm o mesmo sinal. O coeficiente de correlação não se altera. Já comentamos
este detalhe anteriormente, ok?

4. (CESPE-UNB/PETROBRAS) Julgue o item que segue: O coeficiente de correla-


ção de Pearson é usado para medir o grau de linearidade (associação) entre duas
variáveis (eventos), podendo assumir qualquer valor entre +1 e –1. Os valores de
coeficientes iguais a +1 e -1 indicam, respectivamente, relação linear perfeita e
ausência total de relação linear entre as variáveis.

Errado.
O coeficiente de correlação linear de Pearson igual a -1 indica também uma relação
linear perfeita negativa, pois a reta que representa a função entre as duas variáveis
é decrescente. Teremos a ausência total de relação linear quando o coeficiente de
correlação assume o valor zero.

https://www.facebook.com/groups/2095402907430691 19 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

5. (CESPE-UNB/PREFEITURA DE RIO BRANCO) A análise de regressão linear

simples e a análise de correlação são técnicas frequentemente usadas na in-

terpretação de pares de dados. Com relação a essas técnicas, julgue o item a

seguir.

O coeficiente de correlação mede o grau de associação entre duas variáveis.

Certo.

O coeficiente de correlação linear de Person mede o grau de relação linear entre

duas variáveis, que a banca CESPE denomina de grau de associação.

6. (CESPE/TCU) Uma agência de desenvolvimento urbano divulgou os dados apre-

sentados na tabela a seguir, acerca dos números de imóveis ofertados (X) e vendi-

dos (Y) em determinado município, nos anos de 2005 a 2007.

Considerando as informações do texto, julgue o item subsequente.

O coeficiente de correlação linear entre X e Y é inferior a 0,8.

https://www.facebook.com/groups/2095402907430691 20 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Errado.

Para resolvermos esta questão, iremos utilizar a seguinte fórmula, uma vez que os

valores são grandes:

Construímos a tabela abaixo para que possamos encontrar de maneira mais orga-

nizada os valores necessários para substituir na fórmula:

Sabemos que, nos concursos, o tempo é um dos nossos grandes adversários, por

isso quero chamar a atenção para algumas questões que exigem muitos cálculos,

pois a banca muitas vezes exige do candidato a interpretação ao serviço braçal, isto

é, muitas contas. Esta questão é um exemplo real, pois observe que os valores de

X e Y estão exatamente ao longo de uma reta. Para cada variação de 250 na variá-

vel X, temos uma variação de 300 na variável Y. Isso deixa claro que os três pares

ordenados apresentados na tabela pertencem à mesma reta.

https://www.facebook.com/groups/2095402907430691 21 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Vamos apresentar o diagrama de dispersão para que você possa entender melhor

ainda.

7. (CESGRANRIO)

Se as variáveis Y e X1 forem transformadas, respectivamente, para Y1 = -2Y + 0,5

e X1’ = - X1+ 0,5, o coeficiente de correlação entre Y1 e X1’

a) 0,382

https://www.facebook.com/groups/2095402907430691 22 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

b) 0,059

c) -0,059

d) -0,118

e) -0,382

Letra c.

No diagrama de dispersão acima, podemos verificar que o coeficiente de correlação

entre Y e X1 é de −0,059. A questão, a partir das variáveis Y e X1, constrói outras,

pelas operações de multiplicação e soma. É importante guardar que as operações

de adição não interferem no coeficiente de correlação, porém as multiplicações po-

dem interferir no sinal do coeficiente de correlação. Como as multiplicações foram

feitas por − 2 e −1, ou seja, as duas constantes têm o mesmo sinal, o coeficiente

de correlação permanece igual ao da situação inicial.

Para que possamos entender melhor, é só imaginarmos alguns valores no eixo X:

{1,2,3,4,5} e outros valores no eixo Y: {10, 20, 30, 40, 50}, os pontos no diagrama

de dispersão estarão dispostos de acordo com o nível de relação entre eles, caso os

valores de x sejam multiplicados pela constante K e os de X sejam também mul-

tiplicados por P, os pontos estarão em lugares distintos no diagrama, porém entre

eles a disposição será a mesma, possuindo a mesma relação, isto é, o mesmo co-

eficiente de correlação linear de Pearson.

https://www.facebook.com/groups/2095402907430691 23 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Regressão Linear Simples

Como já visto em correlação linear, se existe relação entre as variáveis e qual a

intensidade dessa relação, agora iremos avançar mais um pouco, pois a associação

entre duas variáveis quantitativas x e y nos faz levantar uma hipótese a respeito de

uma provável relação de causa e efeito. Isto é, desejamos saber se y “depende” de

x. Neste caso, y é chamado de variável dependente ou variável resposta e x é cha-

mado de variável independente ou explanatória. Agora em regressão mais comu-

mente utilizada, a regressão linear, temos a hipótese de que o valor de y depende do

valor de x e expressamos matematicamente esta relação por meio de uma função,

assumindo que a associação entre x e y é linear, ou seja, descrita adequadamente

por uma reta. Quando temos uma variável resposta y e uma variável explanatória x,

a regressão é dita simples. A regressão é usada basicamente com duas finalidades:

1. previsão (prever o valor de y a partir do valor de x);

2. estimar o quanto x influencia ou modifica y.

O nosso objetivo nessa aula é que, considerando que X e Y tenham uma relação

linear forte. Ou seja, a relação entre ambas é praticamente uma reta, a pergunta

é: que reta seria essa? Qual seria equação que permite construir a reta que melhor

descreve a relação linear entre X e Y? É isso que iremos aprender neste momento,

o que significa estudar regressão linear.

Como encontrar a reta de regressão linear?

Vamos, primeiramente, considerar as variáveis X (independente) e Y (depen-

dente). Um modelo de regressão linear que relaciona as variáveis é dado por:

Yi = a + βXi + ε
i

https://www.facebook.com/groups/2095402907430691 24 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

No modelo apresentado, α e β são constantes (coeficientes) e ε é uma variável

aleatória de média zero, sendo assim não se preocupe como o valor de ε.

Um método para encontrar a melhor reta de regressão é chamado de métodos de

mínimos quadrados. A função de primeiro grau que pretendemos encontrar é da forma:

^
Yi = a + bXi

Em que a é uma estimativa de α, b é uma estimativa de β e Ŷ é uma estimativa

de Y. A diferença entre Y e sua estimativa chamamos de desvio. O desvio é dado por:

^
e=Y–Y

É importante saber que, pelo método de mínimos quadrados, tentamos ob-

ter uma reta, de tal modo que a soma dos quadrados dos valores de ε (desvio)

seja mínima, dessa forma não fique preocupado(a) com o valor de ε na função.

OK?

Agora sim, para encontrarmos os valores de a e b (estimadores de α e β), obti-

dos a partir da consideração de que a soma dos quadrados dos desvios seja míni-

ma, temos as seguintes fórmulas:

https://www.facebook.com/groups/2095402907430691 25 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Após encontrarmos os valores de a e b, é só substituir a fórmula para definirmos

a função da regressão linear simples.

Vamos realizar um exemplo dos alunos de uma turma para verificar a função que

associa as notas em matemática (variável independente) às notas de estatística

(variável dependente).

Alunos Nota de matemática (X) Nota de Estatística (Y)


André 2 6
Beto 6 7
Carlos 8 7
Daniel 10 8
Médias 6,5 7

Partindo do pressuposto de que há uma correlação linear de Pearson quanto às notas

adquiridas nas duas disciplinas (variáveis), podemos definir a seguinte equação linear:

^
Yi = a + bXi

Precisamos encontrar os valores dos coeficientes a (coeficiente linear) e b (coe-

ficiente angular), e para isso construiremos algumas colunas para que possamos

definir os valores que serão substituídos na fórmula:

https://www.facebook.com/groups/2095402907430691 26 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

A partir da tabela, iremos aplicar as fórmulas abaixo para encontrarmos os coefi-

cientes a e b:

Após encontrarmos os valores dos coeficientes, basta substituirmos na expressão:

^
Yi = a + bXi

Ŷ= 5,51 + 0,23X
A partir da equação que representa reta de regressão, podemos verificar sua vera-

cidade, em que iremos substituir os valores da variável independente (X) e encon-

traremos o valor da variável dependente (Y), não esquecendo que estamos par-

tindo do pressuposto de que a reta apresenta o menor valor possível no somatório

do quadrado dos desvios, em que os desvios correspondem à diferença entre os

valores observados X e Y.

Tabela com valores estimados para variável Y:

https://www.facebook.com/groups/2095402907430691 27 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Aluno A: X= 2
Ŷ= 5,51 + 0,23X
Ŷ = 5,51 + 0,23X = 5,51 + 0,23(2) = 5,51 + 0,46 = 5,97
Aluno B: X = 6
Ŷ= 5,51 + 0,23X
Ŷ= 5,51 + 0,23X = 5,51 + 0,23(6) =5,51 + 1,38 = 6,89
Aluno C: X = 8
Ŷ= 5,51 + 0,23X
Ŷ= 5,51 + 0,23X= 5,51 + 0,23(8) =5,51 + 1,84 = 7,35
Aluno D: X = 10
Ŷ= 5,51 + 0,23X = 5,51 + 0,23(10) = 5,51 + 2,3 = 7,81

Com os valores de estimação, construiremos o diagrama de dispersão juntamente

com a reta de regressão estimada (valores estimados de Ŷ).

https://www.facebook.com/groups/2095402907430691 28 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

 Obs.: algumas questões de concursos trazem informações que serão necessárias

transformações, quanto aos somatórios, dessa forma, teremos:





https://www.facebook.com/groups/2095402907430691 29 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

QUESTÕES DE CONCURSO

1. (CESPE/ANALISTA JUDICIÁRIO – ESTATÍSTICA/TJ-RO/2012) Com respeito ao

modelo de regressão linear simples, assinale a opção correta.

a) O parâmetro de inclinação da reta é igual à tangente do ângulo formado entre

a reta e o eixo Oy.

b) A inclinação da reta é proporcional à correlação entre a variável resposta e a

variável preditora.

c) Se o modelo linear estiver bem ajustado, a correlação entre o resíduo do modelo

e a variável resposta deve estar próxima de -1.

d) Se o intercepto do modelo for nulo, a variável resposta assume o valor zero

quando a variável preditora for igual ao inverso da inclinação da reta.

e) O parâmetro de inclinação da reta é igual ao cosseno do ângulo formado entre

a reta e o eixo Ox.

2. (CESGRANRIO). Na estimativa de uma regressão linear, o problema da hetero-

cedasticidade ocorre quando

a) os dados são transversais.

b) há autorrelação dos resíduos.

c) há correlação positiva entre as variáveis independentes.

d) a variância dos erros não é constante.

e) as variáveis independentes são negativas.

https://www.facebook.com/groups/2095402907430691 30 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

3. (FCC/BACEN) Uma empresa, com finalidade de determinar a relação entre gas-

tos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$

1.000,00, optou por utilizar o modelo linear simples Yi Xi i =α + β + ε, em que Yi

é o valor do lucro bruto auferido no ano i e i ε o erro aleatório com as respectivas

hipóteses consideradas para a regressão linear simples (α e β são parâmetros des-

conhecidos). Considerou, para o estudo, as seguintes informações referentes às

observações nos últimos 10 anos da empresa:

Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se

que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro

bruto anual, em mil reais, será de:

a) 84

b) 102,5

c) 121

d) 128,4

e) 158

https://www.facebook.com/groups/2095402907430691 31 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

4. (CESGRANRIO) Considere os dados amostrais de um estudo da relação entre o

número de anos que os candidatos a empregos em um determinado banco comer-

cial estudaram inglês na faculdade e as notas obtidas em um teste de proficiência

nessa língua.

Com base nessas informações, a reta de mínimos quadrados que melhor explica

a relação entre o número de anos de estudo e a nota do teste de inglês é igual a:

a) y = 1,33 + 3,56x

b) y = 2,25 + 1,32x

c) y = 6,97 + 3,56x

d) y = 35,32 + 10,9x

e) y = 254,56 + 13,3x

https://www.facebook.com/groups/2095402907430691 32 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

5. (FCC) Em uma determinada empresa é realizado um estudo sobre a relação

entre os gastos com publicidade, em R$ 1.000,00, e o acréscimo no faturamento

anual, em R$ 1.000,00. Foi escolhido para análise o modelo linear simples Yi =

α + βXi + εi, sendo que Yi é o acréscimo no faturamento do ano i, Xi representa

os gastos com publicidade no ano i e εi é o erro aleatório com as respectivas

hipóteses consideradas para a regressão linear simples (α e β são parâmetros

desconhecidos). Para obtenção das estimativas de α e β utilizou-se o método

dos mínimos quadrados com base nas informações dos últimos 10 anos da em-

presa, ou seja:

Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se

que se a empresa almejar um acréscimo no faturamento, em um determinado ano,

de R$ 25.000,00 deverá apresentar, neste período, um total em gastos com publi-

cidade de

a) R$ 20.000,00.

b) R$ 18.000,00.

c) R$ 17.000,00.

d) R$ 16.000,00.

e) R$ 15.000,00.

https://www.facebook.com/groups/2095402907430691 33 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

6. (ESAF) Com o objetivo de estimar-se o modelo Y = α + β X, foi retirada uma

amostra com cinco pares de observações (X, Y), obtendo-se os seguintes resulta-

dos:

Desse modo,

a) Y = – 2 – 2X

b) Y = 2 – 2X

c) Y = 2X

d) Y = 2 + 2X

e) Y = – 2 + 2X

https://www.facebook.com/groups/2095402907430691 34 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

GABARITO

1. b

2. d

3. b

4. b

5. e

6. d

https://www.facebook.com/groups/2095402907430691 35 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

GABARITO COMENTADO

1. (CESPE/ANALISTA JUDICIÁRIO – ESTATÍSTICA/TJ-RO/2012) Com respeito ao

modelo de regressão linear simples, assinale a opção correta.

a) O parâmetro de inclinação da reta é igual à tangente do ângulo formado entre

a reta e o eixo Oy.

b) A inclinação da reta é proporcional à correlação entre a variável resposta e a

variável preditora.

c) Se o modelo linear estiver bem ajustado, a correlação entre o resíduo do modelo

e a variável resposta deve estar próxima de -1.

d) Se o intercepto do modelo for nulo, a variável resposta assume o valor zero

quando a variável preditora for igual ao inverso da inclinação da reta.

e) O parâmetro de inclinação da reta é igual ao cosseno do ângulo formado entre

a reta e o eixo Ox.

Letra b.

A inclinação da reta está em função da correlação linear das variáveis X e Y, que

será expressa pela equação de regressão linear.

a) Errada. A inclinação da reta é dada pela tangente do ângulo formado entre a

reta e o eixo X (abcissa) e não Y (ordenada).

c) Errada. Imagine o diagrama de dispersão com os pontos distribuídos, porém

todos dispersos, logo a inclinação é próxima de zero. Porém, se os pontos tiverem

uma tendência ascendente, logo essa reta, ao se ajustar, terá uma inclinação po-

sitiva. Se os pontos tiverem uma inclinação descendente, teremos uma inclinação

negativa.

https://www.facebook.com/groups/2095402907430691 36 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

d) Errada. Esta é uma equação da regressão: Y = a + bX. O enunciado fala que

alfa (coeficiente linear) é zero, sendo assim teremos Y = bX, sendo b o coeficiente

angular. Assim, como X é o inverso da inclinação, teremos um simplificando o outro,

isto é, Y = 1.

e) Errado. A inclinação da reta é dada pela tangente do ângulo e não pelo cosseno.

2. (CESGRANRIO). Na estimativa de uma regressão linear, o problema da hetero-

cedasticidade ocorre quando

a) os dados são transversais.

b) há autorrelação dos resíduos.

c) há correlação positiva entre as variáveis independentes.

d) a variância dos erros não é constante.

e) as variáveis independentes são negativas.

Letra d.

No modelo de regressão linear, temos algumas considerações importantes que se-

rão de suma importância para resolvermos as questões conceituais:

Consideração 1, temos que o erro (variável aleatória ε) tem média zero. Para melhor

compreensão, imaginamos a situação em que a variável erro não tem média zero.

Significa que já se espera que, em média, se cometa um erro diferente de zero. Já

https://www.facebook.com/groups/2095402907430691 37 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

se sabe que a regressão pode ser positiva ou negativa. Ou seja, o modelo não está

muito adequado. É melhor reformular o modelo, ou seja, não tem como garantir que

os valores se comportem de maneira linear, não há uma correlação linear.

Consideração 2, a segunda consideração nos diz que a variância do erro é constan-

te. Este fato é denominado homocedasticia.

Consideração 3, a terceira condição nos diz que os erros cometidos não são corre-

lacionados.

A questão pode ser respondida pela segunda consideração.

3. (FCC/BACEN) Uma empresa, com finalidade de determinar a relação entre gas-

tos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$

1.000,00, optou por utilizar o modelo linear simples Yi Xi i =α + β + ε, em que Yi

é o valor do lucro bruto auferido no ano i e i ε o erro aleatório com as respectivas

hipóteses consideradas para a regressão linear simples (α e β são parâmetros des-

conhecidos). Considerou, para o estudo, as seguintes informações referentes às

observações nos últimos 10 anos da empresa:

Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se

que, caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro

bruto anual, em mil reais, será de:

a) 84

b) 102,5

https://www.facebook.com/groups/2095402907430691 38 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

c) 121

d) 128,4

e) 158

Letra b.

Nesta questão teremos que utilizar algumas transformações do somatório citadas

anteriormente:

Primeiramente, vamos encontrar a equação da regressão linear e posteriormente

verificar e estimativa para uma propaganda de 80 mil reais. É importante ressaltar

que o erro aleatório está em conformidade com as hipóteses consideradas em re-

gressão linear (vistas anteriormente), sendo assim teremos que aplicar as fórmulas

para calcular os valores de a e b.

Calculando o coeficiente angular (b), aplicando a transformação descrita acima:

https://www.facebook.com/groups/2095402907430691 39 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Calculando agora o coeficiente linear (a):

Representando a equação de regressão:

Caso haja um gasto anual com propaganda de 80 mil reais, a previsão do lucro

bruto anual, teremos X = 80 e a estimativa de gasto será:

4. (CESGRANRIO) Considere os dados amostrais de um estudo da relação entre o

número de anos que os candidatos a empregos em um determinado banco comer-

cial estudaram inglês na faculdade e as notas obtidas em um teste de proficiência

nessa língua.

https://www.facebook.com/groups/2095402907430691 40 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Com base nessas informações, a reta de mínimos quadrados que melhor explica

a relação entre o número de anos de estudo e a nota do teste de inglês é igual a:

a) y = 1,33 + 3,56x

b) y = 2,25 + 1,32x

c) y = 6,97 + 3,56x

d) y = 35,32 + 10,9x

e) y = 254,56 + 13,3x

Letra b.

Esta questão vai exigir do candidato esperteza, pois é loucura realizar todas essas

contas, verificando se a variável x (número de anos) irá estimar a variável y (nota

do teste). O que fazer? Em primeiro lugar, vamos excluir algumas alternativas e

podemos observar que, para qualquer valor de x entre 2 e 5, y não supera 10. Des-

ta forma, já podemos excluir as letras c, d e e, que preveem valores altos para y

(muito superiores a 10), mesmo quando x é igual a 2.

https://www.facebook.com/groups/2095402907430691 41 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

Quanto à letra e, se tivéssemos x igual a 1, y será aproximadamente igual a 270,

algo totalmente absurdo de acordo com a tabela fornecida.

Sendo assim, ficamos entre as letras a e b. Para decidirmos qual será a resposta,

sugiro considerarmos os valores extremos de x.

Quando x é igual a 2, as retas das letras a e b possuem os seguintes valores para

y: letra a: 8,45 e letra b: 4,89, logo o valor da letra b é muito mais próximo dos

valores que y realmente assume, quando x é igual a 2.

Por esta análise, já podemos marcar letra b.

5. (FCC) Em uma determinada empresa é realizado um estudo sobre a relação

entre os gastos com publicidade, em R$ 1.000,00, e o acréscimo no faturamento

anual, em R$ 1.000,00. Foi escolhido para análise o modelo linear simples Yi = α

+ βXi + εi, sendo que Yi é o acréscimo no faturamento do ano i, Xi representa os

gastos com publicidade no ano i e εi é o erro aleatório com as respectivas hipóteses

consideradas para a regressão linear simples (α e β são parâmetros desconheci-

dos). Para obtenção das estimativas de α e β utilizou-se o método dos mínimos

quadrados com base nas informações dos últimos 10 anos da empresa, ou seja:

Utilizando a equação da reta obtida pelo método dos mínimos quadrados, tem-se que

se a empresa almejar um acréscimo no faturamento, em um determinado ano, de R$

25.000,00 deverá apresentar, neste período, um total em gastos com publicidade de

a) R$ 20.000,00.

https://www.facebook.com/groups/2095402907430691 42 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

b) R$ 18.000,00.

c) R$ 17.000,00.

d) R$ 16.000,00.

e) R$ 15.000,00.

Letra e.

Agora que já temos a equação de regressão, com um faturamento (estimativa) de

R$25.000,00, teremos um gasto no valor de:

https://www.facebook.com/groups/2095402907430691 43 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

6. (ESAF) Com o objetivo de estimar-se o modelo Y = α + β X, foi retirada uma

amostra com cinco pares de observações (X, Y), obtendo-se os seguintes resulta-

dos:

Desse modo,

a) Y = – 2 – 2X

b) Y = 2 – 2X

c) Y = 2X

d) Y = 2 + 2X

e) Y = – 2 + 2X

Letra d.

https://www.facebook.com/groups/2095402907430691 44 de 45
MATEMÁTICA, PROBABILIDADE E ESTATÍSTICA
Regressão, Tenências, Extrapolações e Interpolações
Prof. Josimar Padilha

https://www.facebook.com/groups/2095402907430691 45 de 45

Você também pode gostar