Você está na página 1de 64

Intervalos de Confiança e Relação entre

Variáveis
A Inferência Estatística é definida como o ramo da Estatística que estuda como
podemos interpretar dados de que dispomos e considerarmos se eles são
representativos da população de que foram extraídos.

Objetivo
Ao final desta unidade, você deverá ser capaz de:

• Utilizar os conceitos da Inferência Estatística para a resolução de


problemas práticos.
• Construir intervalos de confiança e análises de associação entre
variáveis para embasamento do processo decisório.

Conteúdo Programático
Esta unidade está organizada de acordo com os seguintes temas:

• Tema 1 - Intervalos de Confiança


• Tema 2 – Correlação
• Tema 3 - Regressão Linear

Considerando uma margem de erro de dois pontos percentuais para a primeira


candidata com estimativa de intenção de voto fixada em 34%, por exemplo, o intervalo
de confiança, com uma confiabilidade de 95%, seria de 32% a 36%.

Isso significa dizer que, considerando o mesmo modelo amostral, se 100 amostras
forem tiradas da população, em pelo menos 95 delas o índice deste candidato deverá
variar entre 32% e 36%, mas em 5 os resultados serão diferentes deste intervalo.
Argumentos que se referem à Inferência estatística estão presentes no nosso
quotidiano, como por exemplo em períodos eleitorais. Institutos de pesquisa de opinião
costumam usar técnicas da Inferência estatística para estimar os percentuais de
intenção de voto e a margem de erro associada a esses percentuais.

Que tal, então, entendermos um pouco mais sobre esse assunto?


Tema 1
Intervalos de Confiança

Considere que uma máquina preenche sacos de arroz


de 500 g, em média, mas com uma variabilidade de 100
g2. Agora, ela se desregulou, e queremos saber qual a
nova média. Desse modo, foi obtida uma amostra de 25
pacotes, a qual apresentou média igual a 485 g. É
possível obter uma estimativa para a média
populacional a partir dos dados dessa situação-
problema?

Começaremos estudando como uma estatística extraída de uma amostra ― uma


estimativa pontual ― pode ser tratada como representativa da população como um
todo, por meio de intervalos de valores. Conheceremos técnicas e métodos para
definir a relação entre essa estatística e os parâmetros populacionais com níveis de
confiança. De que forma podemos generalizar as informações obtidas na amostra para
a população?
Estimadores
Estimativas são valores descritivos obtidos através dos estudos com as amostras;
e parâmetros são valores descritivos correspondentes à população.
Assim, o valor da média amostral ( ) é uma estimativa pontual da média
populacional (μ). De maneira análoga, o valor do desvio-padrão amostral
(S) constitui uma estimativa do parâmetro desvio-padrão populacional (σ).

Para saber mais, leia: Capítulo 9 (pp. 171-174) de WALPOLE. Ronald.


Probabilidade e estatística para engenharia e ciências. São Paulo:
Pearson, 2009. ISBN 978-857605-199-2. Disponível no acervo da Biblioteca
Virtual

Existem dois tipos de estimativa dos parâmetros. Veja.

Estimativa pontual
Uma estimativa é pontual quando temos uma única e melhor estimativa para o
parâmetro populacional.

Neste caso, com base em dados amostrais, calculamos um valor da estimativa


do parâmetro populacional, temos uma estimativa por ponto (ou pontual) do
parâmetro considerado.
Por exemplo, uma amostra aleatória de 200 alunos de uma universidade com
20.000 estudantes revelou nota média amostral de 5,2. Logo, = 5,2 é uma
estimativa pontual da verdadeira nota média dos 20.000 alunos. A média
amostral é a estimativa mais honesta para o parâmetro μ.

Esse tipo de estimador é pontual, pois especifica um único valor para o


estimador. Esse procedimento de estimação não permite julgar qual a possível
magnitude do erro que estamos cometendo, pois não existe algo inerente em
que forneça qualquer informação sobre o quão perto ela está de μ. A estimativa
poderia, por exemplo, estar muito perto ou consideravelmente longe. Daí, surge
a ideia de construir os intervalos de confiança ― estimador intervalar ―, que
são baseados na distribuição amostral do estimador pontual.

Portanto, a estimativa pontual de um parâmetro não apresenta uma medida do


possível erro cometido na estimação.
Estimativa pontual

Uma estimativa é intervalar quando temos um intervalo de valores, dentre os


quais acredita-se que esteja o valor do parâmetro populacional.

Uma estimativa por intervalo para um parâmetro populacional é um intervalo


determinado por dois números, obtidos a partir dos elementos amostrais, que
se espera que contenham o valor do parâmetro com um dado nível de
confiança ou probabilidade.

Os intervalos de confiança são usados para indicar a confiabilidade de uma


estimativa.

Vamos ver agora alguns exemplos:

Intervalo de
Exemplo confiança

1. Uma amostra de 61 pessoas forneceu média de estaturas Intervalo de confiança


igual a 171 cm. Sabendo-se que o desvio-padrão das estaturas para a média
é de 12 cm, podemos construir um intervalo de confiança, populacional, com
com nível de confiança de 95%, para a média da população. variância conhecida.

2. Uma amostra das quantidades (em gramas) de um


componente químico encontrado nas águas da Baía de
Guanabara forneceu os seguintes valores: (98,4 – 104,6 – Intervalo de confiança
108,3 – 9,8 – 91,7 – 110,5 – 89,0 – 105,2 – 115,9 – 86,4). Não para a média
se conhece o desvio-padrão da população. Podemos construir populacional, com
um intervalo de confiança, com nível de confiança de 90%, variância
para a média da população. desconhecida.

Portanto, a estimação pontual de um parâmetro não possui uma medida do possível


erro cometido na estimação.

Antes de apresentarmos os métodos de construção dos intervalos de confiança,


vamos falar de um conceito importante: o nível de confiança.

Nível de confiança é a probabilidade de que o intervalo estimado contenha o


parâmetro populacional, ou seja, quando definirmos um intervalo de confiança,
poderemos afirmar, com uma probabilidade igual à do nível de confiança, que esse
intervalo contém o parâmetro que queremos encontrar.

São três os níveis de confiança sobre os quais, comumente, trabalhamos a definição


dos intervalos de confiança: 90%, 95% e 99%. O nível de confiança é uma medida de
confiabilidade do procedimento de definição do intervalo de confiança.
Intervalos de confiança são frequentemente confundidos ou mal
interpretados. Vejamos: um intervalo de confiança de 95% não significa que
95% dos dados da amostra estejam dentro do intervalo.

Vamos voltar aos exemplos. Nos exemplos apresentados, temos os intervalos de


confiança para a média populacional. Desse modo, vão ocorrer diferenças na
construção dos intervalos de confiança, pois, no primeiro exemplo, o desvio-padrão
populacional é conhecido e a amostra é grande, e no segundo exemplo, temos
desconhecimento do desvio-padrão populacional e a amostra é pequena.

Portanto, para estimar a média de uma população, utilizando intervalos de confiança,


teremos dois casos a considerar quanto ao desvio-padrão da população: quando ele é
conhecido e quando é desconhecido (isto é, se é estimado nos dados amostrais), mas,
também devemos nos preocupar com o tamanho da amostra, ou seja, se trata-se de
uma amostra grande (n > 30), ou uma amostra pequena (n ≤ 30), pois estaremos
utilizando a Tabela da distribuição Normal para as grandes amostras e a Tabela da
distribuição t-Student para amostras pequenas (desde que o desvio-padrão
populacional seja desconhecido, mas que provenha de uma distribuição normal).

1º Caso: Intervalo de confiança da média populacional, com σ conhecido e


amostras grandes.
Nos casos em que temos informação acerca do desvio-padrão populacional, o
intervalo de confiança encontrado para a média populacional μ, com nível de
confiança igual a (1 – α), é representado por:

Duas novas medidas surgem na determinação do intervalo de confiança:

• O desvio-padrão da média consiste na divisão do desvio-padrão pela raiz do


tamanho da amostra.
• O valor , que determinará a amplitude do intervalo, consiste no valor
tabelado referente à distribuição normal padrão, que estudamos em outra
unidade. Assim, como na construção do intervalo de confiança, vamos
considerar valores maiores e menores que a estimativa pontual, devemos
fracionar a nossa confiança por dois e buscar seu respectivo valor tabelado.
• Por exemplo, na definição de um intervalo de confiança de 95%, queremos que
a probabilidade de o valor da média estar compreendido dentro do intervalo de
confiança calculado seja de 0,95 (1 – α). Restam 0,025 (α/2) de cada um dos
lados de fora do intervalo, correspondente à probabilidade de que o valor da
média não esteja dentro do intervalo (lembrando que, pelo fato da distribuição
ser bicaudal, dividimos os 0,05 restantes para as duas caudas). Veja a figura
abaixo.

Usando a tabela da distribuição normal padrão, conseguimos identificar que o z-score


correspondente à área de 0,025 é de 1,96.

Desse modo, vamos à resolução do exemplo 1:

“Uma amostra de 61 pessoas forneceu média de estaturas igual a 171 cm.


Sabendo-se que o desvio-padrão das estaturas é de 12 cm, podemos
construir um intervalo de confiança, com nível de confiança de 95%, para a
média da população.”

Primeiro, vamos buscar o valor tabelado para a confiança.


O método prático consiste em dividir o nível de confiança por dois e em seguida
buscar no corpo da tabela normal o seu resultado. O nível de confiança 0,95 divido por
2 será igual a 0,475. Agora, olhando no centro da tabela Normal esse valor,
percebemos que estará na vigésima linha da tabela e em sua sétima coluna. Por fim,

para saber qual o valor de , que utilizaremos, você deverá cruzar o título da linha
(1,9) com o título da coluna (0,06) somando ambos para chegar até 1,96.

Resolução
A leitura do exemplo fornece os seguintes dados:
• Estimativa Pontual: =171.

• Tamanho da amostra (n): 61 pessoas.


• Desvio-padrão populacional: 12 centímetros.
• Nível de confiança: 95% ou 0,95.

• =1,96
Calculando o desvio-padrão amostral:

Substituindo essas informações na definição do intervalo de confiança, teremos:

Então, podemos dizer, com 95% de confiança, que a média populacional μ das
estaturas está entre 168 cm e 174 cm. Isso não significa que a probabilidade de o
parâmetro μ cair nesse intervalo seja de 95%, mas que, se extrairmos diversas
amostras independentes e de mesmo tamanho dessa população, espera-se que, em
95% delas, o verdadeiro valor do parâmetro estimado (nesse caso, a média
populacional) esteja dentro desse intervalo.

Fatores que influem na amplitude de um intervalo de confiança

Dada uma estimativa pontual de um parâmetro populacional, podemos escrever de


forma geral a seguinte expressão para o intervalo de confiança:

Onde:
Estimativa pontual = média amostral.
z = coeficiente de confiança desejado para um
determinado nível de confiança (Distribuição Normal
I.C=Estimativa Pontual ±z∙ Padrão).
σ = desvio-padrão
N = número de dados na amostra, isto é, tamanho
amostral.

Observando a fórmula geral para determinação de um intervalo de confiança,


podemos ver que os fatores que influenciam na amplitude do intervalo são:

Coeficiente de confiança (z): se aumentar o valor de z (isto é, aumentar o nível


de confiança), o intervalo de confiança também aumenta (o z está no
numerador).
Tamanho amostral: se aumentar o tamanho da amostra, o intervalo de
confiança diminui (n está no denominador).

Desvio-padrão: se aumentar o valor de σ (desvio-padrão populacional), o


intervalo de confiança também aumenta (σ está no numerador).

Vamos praticar? Resolva a questão e depois clique em Conferir para ver se acertou.
Atividade 1:
Uma amostra de 50 observações de uma população com média desconhecida e
desvio padrão σ=6, tem a média amostral igual a 20,5. Construa um intervalo de 98%
de confiança para a média populacional.

Resolução

Percebe-se que se trata de um caso em que conhecemos o desvio-padrão


populacional e a amostra é grande (maior que 30).

O problema fornece os seguintes dados:

• Estimativa Pontual: =20,5


• Tamanho da amostra: n = 50.
• Desvio padrão populacional: 6 horas.
• Nível de Confiança: 98% ou 0,98.

• =2,33
O gráfico da distribuição Normal padrão será:
Lembre-se que para descobrir a abscissa 2,33, utilizamos a tabela da

distribuição normal padrão. Portanto, teremos =2,33

Vamos buscar o valor pela Tabela Normal Padrão para a confiança.

O método prático consiste em dividir o nível de confiança por dois e em


seguida buscar no corpo da tabela normal o seu resultado. 0,98 divido por
2 será igual a 0,49. Agora, olhando no corpo da tabela Normal Padrão esse
valor, percebemos que o mesmo estará na vigésima quarta linha da tabela

em sua quarta coluna. Por fim, para saber qual o valor de que
utilizaremos você deverá cruzar o título da linha (2,3) com o título da
coluna (3) somando ambos para chegar até 2,33.

Calculando o desvio-padrão amostral:

Substituindo essas informações na definição do intervalo de confiança,


teremos:
A interpretação desse resultado pode ser descrita da seguinte maneira:

O intervalo [18,52; 22,48] contém a duração média da peça com 98% de


confiança, o que significa que, se forem construídos intervalos dessa
mesma maneira, para um grande número de amostras, em 98% dos casos
os intervalos incluiriam o valor da média populacional μ.

Atividade 2:
Um engenheiro eletrônico verificou que a vida útil de um equipamento eletrônico
apresenta um desvio-padrão de 5 horas. Com o objetivo de definir um intervalo de
confiança para a média da vida útil desse equipamento, o engenheiro selecionou uma
amostra de 100 unidades do equipamento, obtendo uma média amostral de 500 horas
de vida útil. Encontre o intervalo de confiança para a média populacional com um nível
de confiança de 95%.

Resolução

O problema fornece os seguintes dados:


• Estimativa Pontual: =500
• Tamanho da amostra (n): 100 equipamentos.
• Desvio padrão populacional: 5 horas.
• Nível de Confiança: 95% ou 0,95.

• =1,96
O gráfico da distribuição Normal padrão será:
Lembre-se que para descobrir a abscissa 1,96, utilizamos a tabela da

distribuição normal padrão. Portanto, teremos =1,96

Calculando o desvio-padrão amostral:

Substituindo essas informações na definição do intervalo de confiança, teremos:

IC(μ ,95%)=(500-0,98 ; 500+0,98)


IC(μ ,95%)=(499,02 ; 500,98)

A interpretação desse resultado pode ser descrita da seguinte maneira:


O intervalo [499,02 ; 500,98] contém a duração média da peça com 95% de
confiança, o que significa que, se forem construídos intervalos dessa mesma
maneira, para um grande número de amostras, em 95% dos casos os intervalos
incluiriam o valor da média populacional μ.
Podemos perceber, ainda que, o tamanho amostral tem influência na determinação
do intervalo de confiança, pois como n = 100 (amostra grande), o intervalo de
confiança diminui.

2º Caso: Intervalo de Confiança da media populacional, com σ desconhecido e


amostras pequenas

Quando não conhecemos o desvio-padrão populacional, o que é mais comum,


devemos observar o tamanho da amostra para definir o intervalo de confiança para a
média. Neste caso, substituímos o desvio-padrão populacional (σ) pelo desvio-padrão
amostral (S), que é uma boa aproximação do verdadeiro valor.
Pelo Teorema do Limite Central (ver livro da disciplina) temos que, quando o número
de elementos da amostra for n > 30 (grande amostra), a distribuição das médias é
aproximadamente Normal (o valor do coeficiente z é dado pela Tabela da Distribuição
Normal Padrão). Porém, se n≤30 (pequena amostra) devemos utilizar a Distribuição t
(de Student), que é o correto para o desvio-padrão amostral (S) e o valor do
coeficiente t é dado pela tabela da distribuição t-Student.

A forma da distribuição t-Student é muito parecida com a distribuição normal. A


principal diferença entre as duas é que a distribuição t-Student tem área maior nas
caudas.

COMO USAR A TABELA t-Student


Para encontrar os valores de t na tabela t-Student, precisamos saber duas coisas: o
nível de confiança desejado e o número de graus de liberdade (g . l . = n - 1 ).

n = 10 (pequena amostra, pois n ≤ 30) e 95% de confiança.

Linha da tabela: n-1=10-1=9 graus de liberdade (ou seja, linha 9 da tabela t-Student)

- Coluna da tabela: metade da diferença (100% - 95%), ou seja, 5% ÷ 2 = 2,5%

Teremos, então, o valor: t = 2,2622


Student é o pseudônimo do químico e matemático inglês William Sealy
Gosset (1876-1937), funcionário da cervejaria irlandesa Guinness Brewing
Company, em Dublin, no início do século XX, criador da Distribuição t.

O intervalo de confiança
Agora que conhecemos melhor a utilização da distribuição t-Student, vamos definir o
intervalo de confiança da média populacional, com σ desconhecido e amostras
pequenas.

O intervalo de confiança encontrado para a média populacional μ , com nível de


confiança igual a (1 – α) é representado por:
Curiosidade

A distribuição T, ou Test t ou de t-student é uma distribuição de


probabilidade estatística similar à distribuição normal. Trata-se de
distribuição simétrica em relação à média, contudo a sua aplicação é
destinada a casos onde a amostra é pequena e o desvio-padrão da
população é desconhecido.

Fonte: LOESCH, Claudio. Probabilidade e Estatística. Capítulo 4 (pp. 78-


81) Rio de Janeiro: LTC, 2015. ISBN 978-85-216-2100-3. Disponível no
acervo da Minha Biblioteca.

Onde:
S= desvio-padrão amostral.

= valor tabelado da distribuição t-Student.


Voltando ao exemplo 2, temos:
“Uma amostra das quantidades (em gramas) de um componente químico encontrado
nas águas da Baía de Guanabara forneceu os seguintes valores: (98,4 – 104,6 – 108,3
– 95,8 – 91,7 – 110,5 – 89,0 – 105,2 – 115,9 – 86,4). Não se conhece o desvio-padrão
da população. Podemos construir um intervalo de confiança, com nível de confiança
de 90%, para a média da população.”
Resolução: Dessa amostra, calculam-se as seguintes estatísticas:


• Desvio-padrão amostral: S=9,842 (obtido a partir dos dados amostrais do
exemplo)
• Tamanho da amostra (n): 10 medidas. Logo, teremos n - 1 = 9 graus de
liberdade
• Nível de confiança: 90%
• t9 ; 5% = 1,833
Substituindo essas informações na definição do intervalo de confiança, teremos:

IC(μ ,1-α)=(100,58-5,705 ;100,58+5,705)


IC(μ ,1-α)=(94,875 ; 106,285)
Então, podemos dizer que, com 90% de confiança, a média populacional μ está entre
94,875 gramas e 106,285 gramas.
Isso não significa que a probabilidade de o parâmetro μ cair nesse intervalo seja de
90%, mas que, se extrairmos diversas amostras independentes de mesmo tamanho
dessa população, espera-se que, em 90% delas, o verdadeiro valor do parâmetro
estimado (nesse caso, a média populacional) esteja dentro desse intervalo.
Vamos praticar? Resolva a questão e depois, clique em Conferir para ver se acertou.

Atividade 3:
Os resultados de um teste de resistência material, realizados por um engenheiro civil,
utilizando 24 corpos de prova apresentaram os seguintes valores:

19,8 10,1 14,9 7,5 15,4 15,4

15,4 18,5 7,9 12,7 11,9 11,4

11,4 14,1 17,6 16,7 15,8 18,5

19,5 8,8 13,6 11,9 11,4 10,2

Calcule qual é o intervalo de confiança para a média populacional, com 95% de nível
de confiança.

Resolução

Dessa amostra calculam-se as seguintes estatísticas:


• Desvio-padrão amostral: S = 3,61 (obtido a partir dos dados
amostrais do exemplo)
• Tamanho da amostra (n): 24 medidas. Logo, teremos n - 1 = 23
graus de liberdade
• Nível de Confiança: 95%
• t24 ; 5%=2,0687

- Linha da tabela: n - 1 = 23 graus de liberdade (ou seja, linha 23 da tabela t-


Student)

- Coluna da tabela: metade da diferença (100% - 98%), ou seja, 5% ÷ 2 = 2,5%

Teremos então o valor: t = 2,0687

Substituindo essas informações na definição do intervalo de confiança, teremos:


Então, podemos dizer que, com 95% de confiança, a média populacional μ está
entre os valores mínimo de 12,25 e máximo de 15,29.

Atividade 4:
Um engenheiro eletricista de uma fábrica de lâmpadas automotivas selecionou uma
amostra aleatória de 10 lâmpadas do total produzido em um dia. Seus testes
apresentaram vida útil média de 1100 horas, com desvio-padrão de 120 horas.
Determine a verdadeira vida útil média dessas lâmpadas para um intervalo de
confiança de 98%.

Resolução

Dessa amostra, temos as seguintes estatísticas:


• = 1100
• Desvio-padrão amostral: S = 120
• Tamanho da amostra (n): 10 lâmpadas. Logo, teremos n - 1 = 9
graus de liberdade
• Nível de Confiança: 98%
• t9 ; 1% = 2,8214
- Linha da tabela: n - 1 = 9 graus de liberdade (ou seja, linha 9 da tabela t-
Student)

- Coluna da tabela: metade da diferença (100% - 98%), ou seja, 2% ÷ 2 = 1%


Teremos então o valor: t = 2,8214
Substituindo essas informações na definição do intervalo de confiança, teremos:

Então, podemos dizer que, com 98% de confiança, a média populacional μ (vida útil
média das lâmpadas produzidas) está entre os valores mínimo de 992,94 horas e
máximo de 1.207,06 horas.
Tema 2
Correlação

Qual a relação que existe entre a taxa de câmbio do


dólar e o Ibovespa? O que você acha que acontecerá
com a cotação da ação de uma empresa exportadora
de carne bovina caso ocorra uma valorização do real?
Será que o número de nascimentos diários no Brasil
tem alguma relação com o câmbio do dólar no mercado
financeiro?

O que é correlação entre duas variáveis estatísticas?

Como correlacionar as variáveis estatísticas?

Começaremos a aula analisando essas duas perguntas e como podemos aplicar os


conceitos de correlação em situações do cotidiano, seja na vida pessoal ou
profissional, em diversas áreas do conhecimento.

Por exemplo, você acha que existe alguma relação entre a idade de uma pessoa e o
valor de seguro de vida, no cálculo do preço do seguro?

Certamente, sim! Os Atuários explicam que, à medida que envelhecemos, a


probabilidade de morte aumenta. Eles tomam por base as chamadas tábuas de
mortalidade para, a partir das medidas de probabilidade de morte em cada idade,
definir o preço de um seguro de vida.

Saiba Mais

Profissionais que trabalham em seguradoras calculando e definindo os valores


de planos de seguros.

Vejamos um exemplo: abaixo segue a tábua completa de mortalidade para o Brasil –


ambos os sexos – de 2015, publicada pelo IBGE, com as primeiras idades (0 a 25
anos).
Probabilidades de Morte Expectativa
Idades entre Duas Idades de Vida
Exatas Exatas Óbitos à Idade X
(X) Q (X, N) (Por Mil) D (X,N) I (X) L (X, N) T (X) E(X)

0 13,824 1382 100000 98744 7549174 75,5

1 0,902 89 98618 98573 7450430 75,5

2 0,578 57 98529 98500 7351857 74,6

3 0,439 43 98472 98450 7253356 73,7

4 0,360 35 98428 98411 7154906 72,7

5 0,308 30 98393 98378 7056496 71,7

6 0,274 27 98363 98349 6958118 70,7

7 0,250 25 98336 98323 6859768 69,8

8 0,236 23 98311 98300 671445 68,8

9 0,231 23 98288 98277 6663145 67,8

10 0,237 23 98265 98254 6564869 66,8

11 0,255 25 98242 982229 6466615 65,8

12 0,292 29 98217 98203 6368386 64,8

13 0,356 35 98188 98171 6270183 63,9

14 0,460 45 98153 98131 6172012 62,9

15 0,748 73 98108 98071 6073882 61,9

16 0,929 91 98035 97989 5975810 61,0

17 1,090 107 97944 97890 5877821 60,0

18 1,216 119 97837 97777 5779931 59,1

19 1,313 128 97718 97654 5682154 58,1

20 1,410 138 97590 97521 5584500 57,2

21 1,505 147 97452 97379 5486979 56,3

22 1,571 153 97305 97229 5389601 55,4

23 1,602 156 97152 97075 5292372 54,5

24 1,606 156 96997 96919 5195297 53,6


Probabilidades de Morte Expectativa
Idades entre Duas Idades de Vida
Exatas Exatas Óbitos à Idade X
(X) Q (X, N) (Por Mil) D (X,N) I (X) L (X, N) T (X) E(X)

25 1,598 155 96841 96764 5098378 52,6

Fonte: IBGE

É fácil perceber que, se os valores da idade aumentam (primeira coluna), os valores


da probabilidade de morte também aumentam (segunda coluna).

Portanto, quanto maior a idade, maior é o risco de morte, ou seja, maior é o risco
assumido pela seguradora, que terá que pagar indenização ao beneficiário do
contratante do plano de seguro na ocorrência de sua morte.

Nessa situação, percebemos, na tábua de mortalidade, que a idade e a probabilidade


de morte são duas variáveis que se relacionam.

Então, em diversas situações práticas do cotidiano profissional, quando se trabalha


com duas ou mais variáveis, elas poderão estar ou não relacionadas. Podemos, desse
modo, procurar estabelecer algum tipo de relação entre as variáveis observadas, caso
tal relação exista.

Outro exemplo: você acha que existe relação entre a renda mensal (salário) de uma
pessoa e sua altura (em metros)?

A resposta a essa questão é bem provável que seja não. Não é muito comum
relacionar duas variáveis desse tipo. Seria mais plausível relacionar a variável renda
mensal com outra variável, como o nível de escolaridade.

Correlação
Correlação é definida como uma associação ou relação entre duas variáveis
estatísticas.
A “correlação” é um dos métodos paramétricos utilizados na Estatística para o estudo
de muitos fenômenos, sendo que, na maioria dos casos, utilizam-se amostras com
grande número de valores.

Podemos investigar a relação entre diversas variáveis, por exemplo:


• Comprimento de uma peça e seu peso.
• Horas trabalhadas e renda de um professor.
• Idade e pressão arterial de pacientes.
• Quantidade de chuvas e produção agrícola.
• Vendas e lucro bruto de uma empresa.
• Quantidade de carros em uma cidade e poluição ambiental do ar.
• Índice Ibovespa e valor do dólar no mercado financeiro.

Outras diversas variáveis estatísticas possuem relação, mas precisamos tomar alguns
cuidados e não relacionar quaisquer variáveis.

Por exemplo, ao analisar dois mercados de consumo na economia, não faz sentido
relacionar o aumento de vendas de celulares com a redução do consumo de carne
bovina.

Quando estudamos o grau de relacionamento entre duas variáveis, temos a


“correlação simples” e a “correlação múltipla”, quando estudamos a correlação de mais
de duas variáveis.

As variáveis podem estabelecer diferentes tipos de relações. A Matemática classifica


as relações em funcionais e não funcionais, ou “relação estatística”.

Relações funcionais
Exemplo de relações funcionais:

• Área de um círculo (A = π∙r2), como sendo uma relação entre área e o


valor do raio da circunferência.
• Velocidade média (Vm = d/t) em movimento uniforme, é a relação entre
a distância percorrida e o tempo.
• Todas as relações acima são expressas por sentenças (equações)
matemáticas.
Relações estatísticas
Relações matemáticas não funcionais são chamadas de relações estatísticas, e
não são representadas por funções matemáticas. Uma relação estatística é
composta por duas ou mais variáveis cujos valores foram obtidos por meio de
uma coleta numa pesquisa.
Pelo fato de não ser uma relação funcional, devemos comparar as variáveis para
verificar se há algum tipo de dependência entre elas, isto é, verificar se elas
estão relacionadas.

Diagrama de dispersão
Uma primeira análise das variáveis pode ser obtida por meio de um dispositivo
bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre
dois conjuntos de dados, que é o gráfico de dispersão, que iremos apresentar por
meio de exemplos.

Exemplo 1
Um administrador de empresas deseja verificar se existe uma relação entre o tempo
de existência da seguradora onde trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:

Anos de existência Número de clientes

2 45

3 52

4 58

5 56

6 53

7 60

8 63

9 58

10 64

A figura abaixo representa o diagrama de dispersão para as duas variáveis


apresentadas.
Percebe-se que parece haver uma dependência linear entre as variáveis, pois, à
medida que os anos de serviço aumentam, aumenta também o número de clientes.
Podemos fazer esse procedimento no Microsoft Excel. Clique aqui para ver,
passo a passo, como fazer isso.

Exemplo 2
Consideremos agora que, numa pesquisa feita com dez famílias com renda bruta
mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis:

X: renda bruta mensal (expressa em números de salários mínimos)

Y: a porcentagem da renda bruta anual gasta com assistência médica

X Y

10 6,2

14 6,4

16 6

18 5,5

26 5,6

28 5,7

38 5

46 4,6

48 5

52 4,5
Vamos representar o diagrama de dispersão para as duas variáveis apresentadas.

Observando o gráfico de dispersão, vemos que existe uma associação inversa, isto é,
aumentando a renda bruta mensal, diminui a porcentagem sobre ela gasta em
assistência médica.

Exemplo 3
Agora, vamos supor que um conjunto de duas variáveis, apresentado na tabela
abaixo, apresente o seguinte diagrama de dispersão:

Tabela de dados:
Variável X Variável Y

45 340

50 368

60 350

70 330

75 335

77 360

80 340

90 362
Nesse caso, percebemos que parece não haver associação entre as variáveis.

Exemplo 4
Suponha que você tenha interesse em investir no mercado financeiro. No mercado de
ações, por exemplo, na Bolsa de Valores de São Paulo, os ativos financeiros
apresentam variações em seus valores e, além disso, é muito comum que o preço das
ações de uma empresa influencie o preço das ações de outra empresa. Por exemplo,
as ações do Banco do Brasil (BBAS3) e ações do Banco Itaú (ITUB4) apresentam
forte correlação positiva. Neste sentido, quando a ação do Banco do Brasil sobe/cai, é
muito provável que as ações do Itaú subam/caiam.

Agora, vamos supor que você tenha a interesse em investir em três ações diferentes:
A, B e C.

A tabela a seguir apresenta as séries históricas dos retornos diários dessas três
ações.
Tabela – Séries históricas dos retornos diários de três ações: A, B e C.

Dia A B C

1 4% 1% 2%

2 0% 1% 1%

3 2% 0% -1%

4 1% 1% 0%

5 -1% 1% 1%

6 3% 1% 0%

7 0% 0% 1%

8 6% 2% 3%

9 0% 2% 2%

10 -5% 1% 0%

O procedimento útil para visualizar a associação entre duas variáveis é o gráfico ou


diagrama de dispersão, que nada mais é que a representação dos pares de valores
em um sistema cartesiano.

A Figura (a) representa o diagrama de dispersão para os retornos das ações B e C, e


a figura (b), para as ações A e B.

(a) Diagrama de dispersão das ações B e C. (b) Diagrama de dispersão das ações A e B.

Por meio da observação da disposição dos pontos, concluímos que parece haver uma
dependência linear entre os retornos da ação B e da ação C, pois, à medida que o
retorno de B aumenta, aumenta também o de C. Observe que os pontos estão bem
próximos da linha de tendência.
Já entre A e B não se figura nenhum tipo de associação. Observe que, ao aproximar o
diagrama de dispersão por uma linha de tendência, a qualidade do ajustamento é
ruim, dizemos assim que A e B são não correlacionadas.

Nível da correlação
Verificamos que a representação gráfica, por meio do gráfico de dispersão, ajuda
muito a compreender o comportamento conjunto das duas variáveis quanto à
existência ou não de associação entre elas.

No entanto, é necessário quantificar essa associação, para verificar o grau de


intensidade na correlação entre as variáveis, o que significa obter um coeficiente que
medirá o nível da correlação.

Existem muitos tipos de associações possíveis, e aqui iremos apresentar o tipo de


relação mais simples, que é a linear.

Correlação linear
Correlação linear é uma correlação entre duas variáveis, cujo gráfico é uma reta. É
uma linha de tendência, porque procura acompanhar a tendência da distribuição de
pontos, que pode ser uma reta.

Desse modo, iremos definir uma medida que avalia o quanto o conjunto dos dados no
gráfico de dispersão aproxima-se de uma reta. Essa medida será definida de modo a
variar em um intervalo finito, especificamente, de – 1 a + 1.

Definiremos, então, dois tipos de correlação linear:

Correlação positiva

As duas variáveis caminham no mesmo sentido, ou seja, o aumento dos


valores da variável independente X implica o aumento dos valores da variável
dependente Y (variáveis diretamente proporcionais). Nesse caso, teremos uma
reta crescente. Por exemplo:
• Quanto mais automóveis nas ruas, maior o nível de poluição do ar nas
cidades.
• Quanto maior o número de roubo de carros, maior o preço do seguro.
Correlação negativa

As duas variáveis caminham em sentidos opostos, ou seja, o aumento dos


valores da variável independente X implica a redução dos valores da variável
dependente Y (variáveis inversamente proporcionais). Nesse caso, teremos
uma reta decrescente. Por exemplo:
• Quanto maior a taxa de desemprego, menor o nível de consumo na
economia.
• Quanto maior o investimento em segurança pública, menor o índice de
criminalidade.

Vamos praticar? Resolva cada um dos exercícios e depois clique em “Conferir” para
ver se acertou. Você pode utilizar o Microsoft Excel para ajudá-lo. Veja o Tutorial.

Exercício 1:
Um nutricionista, com o objetivo de avaliar índices de massa corpórea – IMC de seus
pacientes, selecionou uma amostra de 10 pessoas, que forneceu uma tabela com
duas medidas: peso (em kg) e altura (em metros).

Peso (kg) Altura (metros)

80 1,8

50 1,65

85 1,83

83 1,85

55 1,6

85 1,78

77 1,8

93 1,86

60 1,65

65 1,7

É possível verificar a correlação entre essas duas variáveis?


Resolução

Vamos, inicialmente, plotar os dados da tabela em um gráfico de dispersão. E,


nesse mesmo gráfico, definir a linha de tendência para os dados.

Ao inserir a linha de tendência no gráfico de dispersão, verificamos uma correlação


positiva.
Exercício 2:
Segundo informações noticiadas relacionado ao mercado financeiro brasileiro, um
economista anuncia: “Ibovespa cai e dólar sobe em dia de realização, mas mercado
não dá sinais de fim do rali.”

Acabamos de ler o título de uma notícia muito comum no mercado financeiro, que
mostra a relação entre duas variáveis: o índice Ibovespa e o valor do dólar.

A tabela a seguir apresenta, no período de 01/03/2017 a 24/03/2017, as séries


históricas dos retornos diários dessas duas variáveis.
Dólar Ibovespa

Data Var.Dia (%) Var.Dia (%)

24/03/2017 -0,89 0,51

23/03/2017 1,29 0,01

22/03/2017 0,23 0,87

21/03/2017 0,62 -2,94

20/03/2017 -0,81 -1,05

17/03/2017 -0,58 -2,39

16/03/2017 0,16 -0,68

15/03/2017 -1,96 2,37

14/03/2017 0,63 -1,27

13/03/2017 0,13 1,33

10/03/2017 -0,98 0,14

09/03/2017 1,31 -0,21

08/03/2017 0,51 -1,56

07/03/2017 -0,19 -0,9

06/03/2017 0,45 -0,67

03/03/2017 -0,92 1,41

02/03/2017 1,42 -1,69

01/03/2017 -0,16 0,49

Qual o significado dessa tabela de dados?


Como será a relação entre essas duas variáveis?

Resolução

Qual o significado dessa tabela de dados?

Vejamos: vamos supor que você possua R$ 10.000,00 e deseje investir em


algum ativo financeiro. Se você tivesse investido esse valor em dólar no dia
24 de março, seu rendimento seria positivo de 0,51%, ou seja, você teria
um ganho de R$ 51,00 (= 10.000,00 * 0,51%) em um dia.

Caso tivesse investido em ativo financeiro vinculado ao índice Ibovespa, no


mesmo dia 24 de março, você teria uma perda de R$89,00 (= 10.000,00 * -
0,89%).

Porém, nosso objetivo aqui é avaliar como essas duas variáveis se


relacionam. Então vamos lá!

Perceba que a correlação entre Ibovespa e dólar é negativa, ou seja,


quando Ibovespa sobe é provável que dólar caia e vice-versa.
Exercício 3:
Veja os dados referentes a duas variáveis na tabela abaixo.

Variável X Variável Y

45 340

50 368

60 350

70 330

75 335

77 360

80 340

90 362

A partir dos dados da tabela, construa a linha de tendência e verifique qual a


correlação entre as variáveis.

Resolução

Teremos o seguinte gráfico de dispersão e linha tendência.

Não há, portanto, correlação entre as variáveis.


Coeficiente de correlação
A representação gráfica por meio do gráfico de dispersão e da linha de tendência
ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à
existência ou não de associação entre elas.

Agora, iremos medir o nível de correlação por meio de um coeficiente de correlação.

O coeficiente de correlação linear mede o quanto a distribuição de pontos e sua


dispersão no gráfico aproximam-se de uma reta. Sendo assim, indica o nível de
intensidade com que ocorre a relação entre as variáveis que se pretende relacionar.

Karl Pearson estabeleceu uma equação que permite calcular o grau de correlação
entre as variáveis, denominada coeficiente de correlação linear ou coeficiente de
correlação de Pearson (r).

r: coeficiente de correlação de Pearson


n: número de observações das variáveis
xi: variável independente
yi: variável dependente

Propriedades do coeficiente de correlação linear


• O valor de r está no intervalo de -1a +1, isto é, -1 ≤ r ≤ +1.
• r é adimensional, não tem unidade de medida, ou seja, não depende da
unidade de medida da variável dependente (X) nem da variável independente
(Y).
• O sinal positivo ou negativo do coeficiente de correlação linear está atrelado ao
sentido da correlação:
• Se r > 0, correlação positiva, indicando uma reta crescente.
• Se r < 0, correlação negativa, indicando uma reta decrescente.
A intensidade da correlação está associada aos valores numéricos de r:

• Quanto mais o valor de r se aproximar de +1 ou –1, maior será a correlação


entre as variáveis.
• Quanto mais o valor de r se aproximar de 0, menor será a correlação.

• 0 < |r| < 0,3: A correlação é de inexistente a muito fraca entre as


variáveis e nada podemos concluir, pois torna-se difícil estabelecer
algum tipo de dependência entre as variáveis.
• 0,3 ≤ |r| < 0,6: A correlação é de muito fraca a média, porém podemos
considerar o valor de r nesse intervalo como indício de uma associação
entre as variáveis.
• 0,6 < |r| ≤ 1: A correlação é de média para forte, ou seja, as variáveis
mantêm dependência significativa.

Nos casos em que o coeficiente de correlação linear for igual a zero, isso não
implica em ausência de correlação.

Nesses casos, quando duas variáveis estatísticas X e Y apresentam


coeficiente de correlação linear de Pearson igual a zero (r = 0), diremos que
as variáveis não possuem correlação linear. Mas, pode haver outras formas
de correlacionar essas variáveis. Por exemplo, através de modelos não
lineares (polinomial, exponencial, logarítmico, etc.). Veja dois gráficos como
exemplos dessas correlações.

Regressão polinomial

Regressão exponencial

Agora, vamos voltar aos exemplos vistos e analisados por meio de seus gráficos e
calcular seus coeficientes de correlação.
Exemplo 1
Um administrador de empresas deseja verificar se existe uma relação entre o tempo
de existência da seguradora onde trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:

Anos de existência Número de clientes

2 45

3 52

4 58

5 56

6 53

7 60

8 63

9 58

10 64

Para calcular o coeficiente de correlação, utilizaremos a seguinte tabela:

Anos de Número de
existência (xi) clientes (yi) xi ∙ yi xi2 yi2

2 45 2*45 = 90 22 = 4 452 = 2025

3 52 3*52 = 156 32 = 9 522 = 2704

4 58 4*58 = 232 42 = 16 582 = 3364

5 56 5*56 = 280 52 = 25 562 = 3136

6 53 6*53 = 318 62 = 36 532 = 2809

7 60 7*60 = 420 72 = 49 602 = 3600

8 63 8*63 = 504 82 = 64 632 = 3969

9 58 9*58 = 522 92 = 81 582 = 3364

10 64 10*64 = 640 102 = 100 642 = 4096

∑xi = 54 ∑yi = 509 ∑xi ∙ yi = 3162 ∑xi2 = 384 ∑yi2 = 29067

Substituindo os valores obtidos na tabela acima, teremos:


r = 0,8329

Há uma dependência linear entre as variáveis, pois, à medida que os anos de serviço
aumentam, aumenta também o número de clientes. Além disso, temos um coeficiente
de correlação positivo e próximo de +1. Descrevendo, assim, uma forte correlação
entre as variáveis.

Veja, no tutorial, como fazer o cálculo no Excel.

Exemplo 2
Consideremos agora que, numa pesquisa feita com dez famílias com renda bruta
mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis:

X: renda bruta mensal (expressa em números de salários mínimos)

Y: a porcentagem da renda bruta anual gasta com assistência médica

X Y

10 6,2

14 6,4

16 6

18 5,5

26 5,6

28 5,7

38 5

46 4,6

48 5

52 4,5
Para calcular o coeficiente de correlação, utilizaremos a seguinte tabela:

(xi) (yi) xi ∙ yi xi2 yi2

10 6,2 62 100 38,44

14 6,4 89,6 196 40,96

16 6 96 256 36

18 5,5 145,6 676 31,36

28 5,7 159,6 784 32,49

38 5 190 1444 25

46 4,6 211,6 2116 21,16

48 5 240 2304 25

52 4,5 234 2704 20,25

∑xi = 296 ∑yi = 54,5 ∑xi ∙ yi = 1527,4 ∑xi2 = 10904 ∑yi2 = 300,91

Substituindo os valores obtidos na tabela acima, teremos:

O gráfico de dispersão mostrou que existe uma associação inversa, isto é,


aumentando a renda bruta mensal, diminui a porcentagem sobre ela gasta em
assistência médica. Isso é comprovado pelo coeficiente de correlação negativo.

Além disso, temos um coeficiente de correlação próximo de – 1, descrevendo, assim,


uma forte correlação negativa entre as variáveis.

Exemplo 3:
Agora, vamos determinar o coeficiente de correlação do conjunto de duas variáveis.
Variável X Variável Y

45 340

50 368

60 350

70 330

75 335

77 360

80 340

90 362

Para calcular o coeficiente de correlação, utilizaremos a seguinte tabela:

xi) (yi) xi ∙ yi xi2 yi2

45 340 15.300 2.025 115.600

50 368 18.400 2.500 135.424

60 350 21.000 3.600 122.500

70 330 23.100 4.900 108.900

75 335 25.125 5.625 112.225

77 360 27.720 5.929 129.600

80 340 27.200 6.400 115.600

90 362 32.580 8.100 131.044

∑xi = 547 ∑yi = 2.785 ∑xi ∙ yi = 190.425 ∑xi2 = 39.079 ∑yi2 = 970.893

Substituindo os valores obtidos na tabela acima, teremos:


Temos um coeficiente de correlação muito próximo de zero. Descrevendo, assim, não
haver associação entre as variáveis.

Exemplo 4:
Suponha que você tenha interesse em investir no mercado financeiro. No mercado de
ações, por exemplo na Bolsa de Valores de São Paulo, os ativos financeiros
apresentam variações em seus valores e, além disso, é muito comum que o preço das
ações de uma empresa influencie o preço das ações de outra empresa. Por exemplo,
as ações do Banco do Brasil (BBAS3) e ações do Banco Itaú (ITUB4) apresentam
forte correlação positiva. Neste sentido, quando a ação do Banco do Brasil sobe/cai é
muito provável que as ações do Itaú subam/caiam.

Agora, vamos supor que você tenha interesse em investir em três ações diferentes: A,
B e C.

Neste exemplo, utilizaremos o Microsoft Excel para encontrar os valores dos


coeficientes de correlação:

Tabela – Séries históricas dos retornos diários de três ações: A, B e C.

Dia A B C

1 4% 1% 2%

2 0% 1% 1%

3 2% 0% -1%

4 1% 1% 0%

5 -1% 1% 1%

6 3% 1% 0%

7 0% 0% 1%

8 6% 2% 3%

9 0% 2% 2%

10 -5% 1% 0%

Com base na função CORREL, teremos:

• Correlação A x C = 0,430453511
• Correlação A x B = 0,220863052
Conclusões:

• As ações A e C possuem uma correlação positiva, mas com um grau de


correlação médio.
• As ações A e B possuem uma correlação positiva, mas com um grau de
correlação muito fraco.

Exercício
Encontre o coeficiente de correlação entre os dados dos retornos diários da Ibovespa
e do câmbio do dólar. Faça os cálculos (utilizando a fórmula ou o Excel) e depois
clique em “Conferir” para ver se acertou.
A tabela a seguir apresenta as séries históricas dos retornos diários do Ibovespa e do
câmbio do dólar, no período de 01/03/2017 a 24/03/2017.

Dólar Ibovespa
Data
Var.Dia (%) Var.Dia (%)

24/03/2017 -0,89 0,51

23/03/2017 1,29 0,01

22/03/2017 0,23 0,87

21/03/2017 0,62 -2,94

20/03/2017 -0,81 1,05

17/03/2017 -0,58 -2,39

16/03/2017 0,16 -0,68

15/03/2017 -1,96 2,37

14/03/2017 0,63 -1,27

13/03/2017 0,13 1,33

10/03/2017 -0,98 0,14

09/03/2017 1,31 -0,21

08/03/2017 0,51 -1,56

07/03/2017 -0,19 -0,9

06/03/2017 0,45 -0,67

03/03/2017 -0,92 1,41

02/03/2017 1,42 -1,69

01/03/2017 -0,16 0,49


Resolução

Já vimos anteriormente, pelo gráfico de dispersão e sua linha de


tendência, que a correlação entre os dados do Ibovespa e do dólar é
negativa, ou seja, quando o Ibovespa sobe, é provável que o dólar caia, e
vice-versa. Reveja o gráfico.

Agora vamos fazer o cálculo do coeficiente de correlação:

Para calcular o coeficiente de correlação, utilizaremos a seguinte tabela:

(xi) (yi) xi ∙ yi xi2 yi2

-0,89 0,51 - 0,454 0,792 0,260

1,29 0,01 0,013 1,664 0,000

0,23 0,87 0,200 0,053 0,757

0,62 -2,94 -1,823 0,384 8,644

-0,81 1,05 -0,851 0,656 1,103

-0,58 -2,39 1,386 0,336 5,712

0,16 -0,68 -0,109 0,026 0,462

-1,96 2,37 -4,645 3,842 5,617

0,63 -1,27 -0,800 0,397 1,613

0,13 1,33 0,173 0,017 1,769

-0,98 0,14 -0,137 0,960 0,020


1,31 -0,21 -0,275 1,716 0,044

0,51 -1,56 -0,796 0,260 2,434

-0,19 -0,9 0,171 0,036 0,810

0,45 -0,67 -0,302 0,203 0,449

-0,92 1,41 -1,297 0,846 1,988

1,42 -1,69 -2,400 2,016 2,856

-0,16 0,49 -0,078 0,026 0,240

∑xi = 0,26 ∑yi = –4,13 ∑xi ∙ yi = –12,023 ∑xi2 = 14,231 ∑yi2 = 34,777

Substituindo os valores obtidos na tabela acima, teremos:

O gráfico de dispersão mostrou que existe uma associação inversa. Isso é


comprovado pelo coeficiente de correlação negativo moderado de – 0,5453.
Tema 3
Regressão Linear

Considere que você é um administrador de empresas,


cuja função consiste em modelar matematicamente
custo de produção e lucro com vendas, e precisa
estabelecer uma função matemática que relacione os
custos diretos de produção com lotes de produção e
determinar qual o relacionamento entre essas
variáveis. Você poderia criar um modelo de previsão
para essas variáveis?

Começaremos esta aula lembrando que muitos problemas e situações envolvem


explorar as relações entre duas ou mais variáveis estatísticas. Por exemplo, na
relação entre as variações diárias do Ibovespa e do câmbio do dólar, vista na aula
anterior, percebemos que a correlação entre os dados do Ibovespa e da taxa de
câmbio do dólar é negativa, ou seja, quando o Ibovespa sobe, é provável que o dólar
caia, e vice-versa.

Estudos e pesquisas sobre o mercado financeiro constatam que existe uma


causalidade unidirecional entre a taxa de câmbio e o Ibovespa, sendo que variações
no índice representativo do mercado brasileiro (Ibovespa) promovem flutuações na
taxa de câmbio do dólar.

Então, ainda que duas variáveis tenham grande correlação entre si, é necessário ter
cautela ao afirmar que existe uma relação de causalidade entre elas. Veja algumas
situações que ilustram a necessidade de tomar cuidado para não estabelecer uma
relação de causalidade.

Na análise de mercado, em pesquisas, em experimentos desenhados,


frequentemente, observamos a existência de uma relação entre duas ou mais
variáveis. Se quantificamos a intensidade de relação entre duas variáveis, a correlação
é o modelo estatístico adequado para descobrir e medir essa relação; o passo
seguinte é descrever esta relação por meio de uma equação matemática. É neste
momento que estabelecemos a regressão enquanto instrumento, pois é o meio
adequado para a determinação dos parâmetros de tal equação. Assim, sugerimos
leitura do capítulo 8 (pp. 441-443) do livro McCLAVE, James. Estatística para
administração e economia. São Paulo: Pearson, 2020. ISBN 978-85-7605-186-2.
Disponível no acervo da Biblioteca Virtual.
Não existência de relação de causalidade
Veja um exemplo em que pode ser que não haja relação de causalidade. O exemplo se
refere à comparação entre o aumento no consumo de queijo e doutorados concedidos em
engenharia civil nos EUA.

Fonte: economiadependrive.wordpress.com

Fonte: tylervigen.com

Apesar de apresentarem forte correlação numérica (0,958648), essas variáveis não têm
causalidade nenhuma entre elas.
Terceira variável interferindo
Pode ser que haja uma terceira variável interferindo decisivamente.

Suponha, por exemplo, que queiramos medir a relação entre vendas e lucro de
uma empresa. Podemos relacionar as duas variáveis e verificar que o aumento
de uma leva ao aumento da outra, mas podemos estar esquecendo que uma
outra variável (custos de produção, por exemplo) tenha também grande
influência no lucro da empresa.

Equívoco no sentido da relação entre as variáveis

Também podemos nos equivocar no sentido da relação entre as variáveis,


afirmando que X causa Y, quando, na verdade, Y causa X.

Por exemplo, na relação entre Ibovespa X dólar, a causalidade é unidirecional


entre a taxa de câmbio e o Ibovespa: as variações no índice representativo do
mercado brasileiro (Ibovespa) promovem flutuações na taxa de câmbio do dólar.

Sobre esse tema, indicamos a leitura do artigo Análise da causalidade entre


o Ibovespa e a taxa de câmbio em um contexto de crise.

Desse modo, percebemos que existe estreita relação entre correlação e regressão,
que são duas técnicas estatísticas relacionadas.

Correlação Regressão
Quantifica a intensidade (força) da
relação e resulta em um número que
exprime o grau de relacionamento
entre duas variáveis.
Explicita a forma da relação por meio
de uma equação matemática.
Vimos que, para apurar a correlação
linear entre duas variáveis, devemos
A equação de regressão linear será
construir um gráfico de dispersão (ou
definida para relações em que forem
diagrama de dispersão) em que a
comprovadas correlação significativa
linha de tendência é definida por uma
entre as variáveis e, também,
reta, denominada reta de regressão.
causalidade. Caso contrário, não há
motivo para o cálculo da equação de
Desse modo, a regressão linear é o
regressão linear.
passo seguinte após determinar que
duas variáveis têm correlação entre
si.
Vamos conhecer mais detalhes sobre a equação de regressão.

Para isso, vamos voltar ao Exemplo 1 da Aula 2.

Um administrador de empresas deseja verificar se existe uma relação entre o tempo


de existência da seguradora em que trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:

Anos de existência Número de clientes

2 45

3 52

4 58

5 56

6 53

7 60

8 63

9 58

10 64

O coeficiente de correlação obtido foi:

r = 0,8329

Há uma dependência linear entre as variáveis, pois, à medida que os anos de serviço
aumentam, aumenta também o número de clientes. Além disso, temos um coeficiente
de correlação positivo e próximo de +1, descrevendo, assim, uma forte correlação
entre as variáveis.

Desse modo, podemos equacionar uma reta de regressão linear entre as variáveis
envolvidas.

Voltando até o Exemplo 4 da Aula 2.

Nosso interesse era de investir em três ações diferentes: A, B e C.


Séries históricas dos retornos diários de três ações: A, B e C.
Dia A B C

1 4% 1% 2%

2 0% 1% 1%

3 2% 0% -1%

4 1% 1% 0%

5 -1% 1% 1%

6 3% 1% 0%

7 0% 0% 1%

8 6% 2% 3%

9 0% 2% 2%

10 -5% 1% 0%

Os resultados que foram obtidos para as correlações entre as ações foram:

• As ações A e C possuem uma correlação positiva (0,43045), mas com um grau


de correlação médio.
• As ações A e B possuem uma correlação positiva (0,2208), mas com um grau
de correlação muito fraco.
Assim, como há interesse em realizar investimentos nessas ações, é viável equacionar
uma reta de regressão linear entre as ações A e C, ainda que apresentem uma
correlação média.

Exemplo 3 da Aula 2.
Variável X Variável Y

45 340

50 368

60 350

70 330

75 335

77 360

80 340

90 362
A determinação do coeficiente de correlação do conjunto das variáveis X e Y trouxe o
seguinte coeficiente de correlação:

r = 0,00041

Esse é um valor muito próximo de zero, não havendo associação entre as variáveis.
Portanto, não há motivo para a determinação de uma equação de regressão linear
entre as variáveis X e Y.

Modelo de regressão linear simples


A coleção de ferramentas estatísticas que são usadas para modelar e explorar as
relações entre duas variáveis que estão relacionadas é chamada de análise de
regressão.

A análise de regressão é útil em diversas áreas: na engenharia, na administração, na


economia, em pesquisas médicas etc.

Objetivo da regressão linear


Prioritariamente, a análise de regressão é usada com o propósito de previsão, cujo
objetivo é o de desenvolver um modelo estatístico que pode ser usado para prever
valores de uma variável dependente (Y) em função dos valores de uma variável
independente (X).

A regressão linear é a função da reta que melhor se ajusta aos pontos das variáveis
plotadas no gráfico.

Vamos ao exemplo do Exercício 1 da Aula 2.

Um nutricionista, com o objetivo de avaliar os índices de massa corpórea – IMC de


seus pacientes, selecionou uma amostra de 10 pessoas, a qual forneceu uma tabela
com duas medidas: peso (em kg) e altura (em metros).

Peso (kg) Altura (metros)

80 1,8

50 1,65

85 1,83

83 1,85

55 1,6

85 1,78

77 1,8

93 1,86
Peso (kg) Altura (metros)

60 1,65

65 1,7

Temos o gráfico de dispersão. E, nesse mesmo gráfico, foi definida a linha de


tendência para os dados.

Ao inserir a linha de tendência no gráfico de dispersão, verificamos uma correlação


positiva.

No entanto, nosso objetivo, agora, é encontrar a equação matemática que define a


linha de tendência.

O modelo de regressão linear simples, que relaciona duas variáveis: a variável


independente (X) e a variável dependente (Y), pode ser descrito pela equação:

Ŷ = a ∙ Xi + b + εi

Ŷ: variável dependente.
X: variável independente.
a: coeficiente angular da reta de regressão.
b: coeficiente linear da reta de regressão.
εi: erro aleatório de Ŷ para a observação i.

Determinação da equação da reta de regressão linear


O objetivo agora é determinar os valores dos parâmetros a e b, de modo que a reta se
ajuste ao conjunto de pontos, isto é, estimar a e b de algum modo eficiente. Para isso,
utilizamos o método dos mínimos quadrados.

De forma a subsidiar a sua compreensão da determinação da equação da


reta de regressão linear e do método dos mínimos quadrados, sugerimos
leitura do capítulo 3 (pp. 50-53) do livro SILVA, Cristiane da. Métodos
Estatísticos. Porto Alegre: Sagah, 2021. ISBN 978-65-5690-171-8.
Disponível no acervo da Minha Biblioteca.
Como a reta desejada vai ser usada para fins de previsão, é razoável exigir que ela
seja tal que torne pequenos os erros dessa previsão. Um erro de previsão significa a
diferença entre um valor observado de Ŷ e o valor correspondente de Ŷ da reta de
regressão. Isto é, tornar pequeno o erro: Ŷ – Y. Veja no gráfico.

Os pontos acima da reta de regressão dão erros positivos, e os situados abaixo da


reta de regressão dão erros negativos.

A soma de todos os erros é zero, isto é:


O método utiliza a soma dos quadrados dos erros, daí a denominação de método dos

mínimos quadrados. Assim, deverá ser minimizada.


Desse modo, utilizando esse método, os parâmetros a e b para estabelecer a equação
da reta de regressão serão calculados pelas seguintes fórmulas:

Agora vamos determinar algumas retas de regressão linear simples.

Do Exemplo 1 da Aula 2.
Um administrador de empresas deseja verificar se existe uma relação entre o tempo
de existência da seguradora em que trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:
Anos de existência Número de clientes

2 45

3 52

4 58

5 56

6 53

7 60

8 63

9 58

10 64

Qual seria a projeção estimada de clientes da seguradora no 12º ano de existência?

Resolução:
Para calcularmos os parâmetros a e b da reta de regressão, iremos utilizar a seguinte
tabela:

de existência (xi) Número de clientes (yi) xi ∙ yi xi 2

2 45 2 * 45 = 90 22 = 4

3 52 3 * 52 = 156 32 = 9

4 58 4 * 58 = 232 42 = 16

5 56 5 * 56 = 280 52 = 25

6 53 6 * 53 = 318 62 = 36

7 60 7 * 60 = 420 72 = 49

8 63 8 * 63 = 504 82 = 64

9 58 9 * 58 = 522 92 = 81

10 64 10 * 64 = 640 102 = 100

∑xi = 54 ∑yi = 509 ∑xi ∙ yi = 3162 ∑xi2 = 384


Substituindo os valores obtidos da tabela acima, teremos:

Desse modo, a equação da reta de regressão linear será:


y = 1,8 ∙ x + 45,756

Projeção para o 12º ano:

y= 1,8 ∙ 12 + 45,756 = 67,35 ≅ 67 clientes.

O gráfico será:
Do Exemplo 2 da Aula 2.

Consideremos agora que, em uma pesquisa feita com 10 famílias com renda bruta
mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis:

X: renda bruta mensal (expressa em números de salários mínimos).


Y: porcentagem da renda bruta anual gasta com assistência médica.

X Y

10 6,2

14 6,4

16 6

18 5,5

26 5,6

28 5,7

38 5

46 4,6

48 5

52 4,5

Qual seria o valor estimado para a variável Y, considerando o valor de X = 58?

Resolução:

Para calcularmos os parâmetros a e b da reta de regressão, iremos utilizar a seguinte


tabela:

(xi2) (yi2) xi ∙ yi xi 2

10 6,2 62 100

14 6,4 89,6 196

16 6 96 256

18 5,5 99 324

26 5,6 145,6 676

28 5,7 159,6 784


(xi2) (yi2) xi ∙ yi xi 2

38 5 190 1.444

46 4,6 211,6 2.116

48 5 240 2.304

52 4,5 234 2.704

∑xi = 296 ∑yi = 54,5 ∑xi ∙ yi = 1.527,4 ∑xi2 = 10.904

Substituindo os valores obtidos da tabela acima, teremos:

Desse modo, a equação da reta de regressão linear será:


y = –0,04 ∙ x + 6,63

Para X = 58, teremos uma projeção de:


y = –0,04 ∙ 58 + 6,63 = 4,31

O gráfico será:
Vamos praticar! Responda aos exercícios e depois vá em “Resolução” para ver se
acertou.

Exercício 1:
Retornando ao Exercício 1 do tema 2.
Um nutricionista, com o objetivo de avaliar o IMC de seus pacientes, selecionou uma
amostra de 10 pessoas, a qual forneceu uma tabela com duas medidas: peso (em kg)
e altura (em metros).

Peso(kg) Altura(metros)

80 1,8

50 1,65

85 1,83

83 1,85

55 1,6

85 1,78

77 1,8

93 1,86

60 1,65

65 1,7

Encontre a reta de regressão linear entre essas duas variáveis, relacionando altura e
peso.

Encontre o valor estimado do peso de um indivíduo com 1,95 metros de altura.

Resolução

Iremos analisar os dados considerando que a altura influencia no peso; assim, a


tabela será descrita na seguinte forma:

Altura (metros) Peso (kg)


(variável independente) (variável dependente)

1,8 80

1,65 50
1,83 85

1,85 83

1,6 55

1,78 85

1,8 77

1,86 93

1,65 60

1,7 65

Nessa situação, altura é a variável independente, e peso é a variável


dependente.

Para calcularmos os parâmetros a e b da reta de regressão, iremos utilizar


a seguinte tabela:

(xi2) (yi2) xi ∙ yi xi 2

1,8 80 144,0 3,2400

1,65 50 82,5 2,7225

1,83 85 155,6 3,3489

1,85 83 153,6 3,4225

1,6 55 88,0 2,5600

1,78 85 151,3 3,1684

1,8 77 138,6 3,2400

1,86 93 173,0 3,4596

1,65 60 99,0 2,7225

1,7 65 110,5 2,8900

∑xi = 17,52 ∑yi = 733 ∑xi ∙ yi = 1.295,98 ∑xi2 = 30,774

Substituindo os valores obtidos da tabela acima, teremos:


Desse modo, a equação da reta de regressão linear será:

y = 148,24 ∙ x – 186,41

Poderíamos fazer uma previsão, a partir da equação de regressão linear


obtida, para um determinado valor da variável X. Por exemplo, qual seria o
valor do peso se a altura fosse de 1,95 metros?

y = 148,24 ∙ (1,95) – 186,41 = 102,7 kg.

O gráfico será:
Exercício 2:
Encontre a reta de regressão linear entre os dados da tabela a seguir:

X Y

2 2

3 5

4 8

5 10

6 13

Faça uma previsão, utilizando o modelo de regressão linear obtido, para X = 8.


Resolução

X: variável independente.
Y: varável dependente.

Para calcularmos os parâmetros a e b da reta de regressão, iremos utilizar


a seguinte tabela:

(xi2) (yi2) xi ∙ yi xi 2

2 2 4 4

3 5 15 9

4 8 32 16

5 10 50 25

6 13 78 36

∑xi = 20 ∑yi = 38/td> ∑xi ∙ yi = 179 ∑xi2 = 90

Substituindo os valores obtidos da tabela acima, teremos:


Desse modo, a equação da reta de regressão linear será:

y = 2,7 ∙ x – 3,2

A previsão, para X = 8 será:

y = 2,7 ∙ 8 – 3,2 = 18,4

O gráfico será:
Encerramento

Considere que uma máquina preenche sacos de arroz


de 500 g, em média, mas com uma variabilidade de 100
g2. Agora, ela se desregulou, e queremos saber qual a
nova média. Desse modo, foi obtida uma amostra de 25
pacotes, a qual apresentou média igual a 485 g. É
possível obter uma estimativa para a média
populacional a partir dos dados dessa situação-
problema?
Nessa situação, quando queremos utilizar os dados da amostra para responder aos
questionamentos pertinentes à população, devemos utilizar um intervalo de confiança
ao processo de estimação e precisamos de um grau de confiabilidade para tornar o
processo decisório mais bem embasado.

Qual a relação que existe entre a taxa de câmbio do


dólar e o Ibovespa? O que você acha que acontecerá
com a cotação da ação de uma empresa exportadora
de carne bovina caso ocorra uma valorização do real?
Será que o número de nascimentos diários no Brasil
tem alguma relação com o câmbio do dólar no mercado
financeiro?
Ao respondermos questões desse tipo, estamos procurando determinar o grau de
associabilidade entre duas variáveis. Se o câmbio do dólar subir, existe grande chance
de o Ibovespa cair. Ao contrário, quando o preço do dólar cai, é de se esperar que o
Ibovespa suba. Também pode haver um grau de dependência entre a valorização do
real e a cotação de uma empresa que exporta seus produtos no mercado
internacional. Porém, a princípio, não há nenhum grau de dependência entre o número
de nascimento diários no Brasil e o câmbio do dólar no mercado financeiro.

Considere que você é um administrador de empresas,


cuja função consiste em modelar matematicamente
custo de produção e lucro com vendas, e precisa
estabelecer uma função matemática que relacione os
custos diretos de produção com lotes de produção e
determinar qual o relacionamento entre essas
variáveis. Você poderia criar um modelo de previsão
para essas variáveis?
É possível, por meio da utilização da regressão linear, utilizar técnicas estatísticas
para a construção de modelos que proporcionarão a projeção de custos, por exemplo,
trazendo como vantagens uma melhor capacidade de analisar o comportamento dos
custos e o aumento da produtividade.

Resumo da Unidade

Nesta unidade, abordamos diversos conceitos da inferência estatística. Iniciamos


apresentando o conceito de estimador, diferenciando os estimadores pontuais dos
estimadores por intervalos, destacando a utilidade de dois métodos de construção
de intervalos de confiança para média populacional: com variância conhecida e
com variância desconhecida. Nos estudos de inferência estatística, é interessante
verificar se há associação entre o comportamento de variáveis estatísticas
distintas. Nesse sentido, com o auxílio dos diagramas de dispersão e do
coeficiente de correlação de Pearson, verificamos como e com qual intensidade
duas variáveis estatísticas se associam. No processo de previsão de
comportamento das variáveis, vimos que o modelo de regressão linear simples
fornece uma reta que permite determinar o comportamento de uma dada variável
dependente, mediante a alteração de uma variável independente. Notamos que,
enquanto a correlação linear indica o grau de associação entre variáveis, a
regressão linear permite que um modelo de previsão, através da equação de reta,
seja construído com base no comportamento das variáveis.

Para aprofundar e aprimorar os seus conhecimentos sobre os assuntos


abordados nessa unidade, não deixe de consultar as referências
bibliográficas básicas e complementares disponíveis no plano de ensino
publicado na página inicial da disciplina.

Você também pode gostar