Você está na página 1de 23

05/04/2024, 17:48 Probabilidade e Estatística

PROBABILIDADE E ESTATÍSTICA
UNIDADE 4 - REGRESSÃ O LINEAR E
CORRELAÇÃ O

Joelma Iamac Nomura

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 1/23
05/04/2024, 17:48 Probabilidade e Estatística

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 2/23
05/04/2024, 17:48 Probabilidade e Estatística

Introdução
Em muitos estudos, é desejável prever o comportamento de uma variável em decorrência de outras, como, por
exemplo, para prever as vendas futuras de um automó vel em função de seu preço, as despesas médicas de uma
família em relação à renda familiar, ou o consumo per capita de um alimento em função de seu valor nutritivo.
O ideal seria conhecer o valor exato de uma variável em relação à outra, contudo, só é possível fazer uma
previsão de média ou valores esperados. A questão de achar o valor médio de uma variável em relação ao(s)
valor(es) conhecido(s) de outras variáveis envolve um problema de regressão. É possível descrever o padrão
dos dados tabelados a partir de uma curva (uma reta, uma parábola etc.).
O objetivo de grande parte dos cálculos é investigar as variáveis que estão relacionadas deterministicamente a
partir das varáveis x e y. Nesse sentido, é possível afirmar que o conhecimento do valor da variável x implica
no conhecimento exato do valor da variável y. Em algumas situaçõ es, é possível verificar que existem relaçõ es
entre as variáveis, porém não de maneira determinística. É o que acontece quando x = idade de uma criança e y
= tamanho do vocabulário dessa criança.
Nesse caso, temos que a variável y não pode ser determinada unicamente com base no valor conhecido de x e
que duas crianças de mesma idade (x) podem ter tamanhos bem diferentes de vocabulários (y), contudo,
existe uma tendência de se conhecer o tamanho do vocabulário de acordo com o a idade da criança. Esse
contexto nos revela uma situação não determinística.
Outros exemplos são: o preço do aluguel de uma van escolar em relação à distância da casa do aluno até a
escola, ou o preço de determinada verdura em relação à estação do ano.
Assim, vamos adentrar ao mundo da análise de regressão, isto é, a parte da Estatística que tem como objetivo a
investigação da relação entre duas ou mais variáveis relacionadas de maneira não determinística. Ao final
desta unidade, você conseguirá responder às questõ es: há uma relação direta de causa e efeito entre as
variáveis? É possível que a relação entre as variáveis seja causada por um terceiro? É possível que a relação
entre as variáveis seja uma coincidência?
Vamos começar? Bons estudos!

4.1 Modelo de Regressão Linear Simples


A relação matemática determinística entre duas variáveis é dada pela relação linear , sendo
o coeficiente angular e o intercepto. Em uma situação não determinística, como no exemplo que
estabelece a relação entre as variáveis x: idade da criança e y: tamanho do vocabulário da criança, x é a variável
fixa, chamada de variável independente, preditora ou explorató ria. Já a variável y é aleató ria e recebe a
denominação de variável dependente ou variável resposta.
Dessa maneira, se tivermos , podemos ter, por exemplo, . As observaçõ es geralmente
relacionam inú meros conjuntos de variáveis independentes x com variáveis dependentes y, levando à
formação de n pares ( que são representados a partir de um gráfico de
dispersão. Esse será o pró ximo assunto a ser discutido.

4.1.1 Correlação Linear e Gráficos de Dispersão


A correlação entre duas variáveis visa determinar se há algum relacionamento entre elas. Como exemplo,
citamos quando um inspetor de segurança quer saber se existe uma relação entre o nú mero de horas de
treinamento para um funcionário e o nú mero de acidentes com esse funcionário. Larson e Farber (2006, p.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 3/23
05/04/2024, 17:48 Probabilidade e Estatística

395) atribuem a seguinte definição para correlação: “é uma relação entre duas variáveis: os dados podem ser
representados por pares ordenado em que x é a variável independente (ou explorató ria) e y é a variável
dependente (ou resposta)”.

VOCÊ SABIA?
A regressã o linear també m é aplicada na avaliaçã o da demanda de um produto ou
serviço, a partir da aná lise de eventos futuros usados para fim de planejamento.
Algumas variáveis envolvidas sã o: mudanças de negócios da concorrê ncia
tecnológica, preocupações ambientais ou disponibilidade de maté ria-prima no
mercado. Todos esses fatores tornam difícil organizar e gerar previsões exatas, no
entanto, tais previsões sã o extremamente necessá rias para a programaçã o de
recursos existentes ou necessá rios em uma aquisiçã o futura de recursos, sejam
eles produtos ou pessoas. Assim, a partir da aná lise de regressã o linear e
correlaçã o, torna-se possível obter informações sobre demandas futuras desses
produtos ou serviços de maneira a estimar com antecedê ncia os recursos
produtivos a tempo, na quantidade exata e na qualidade adequada. Tendo em
mã os todas essas informações, uma empresa poderá ajustar seu planejamento de
recursos de maneira a atender seu cliente e reduzir custos relacionados a
desperdícios de materiais, ou ainda, melhor alocar as pessoas nos processos
envolvidos.

A seguir, você verá problemas ilustrados por diferentes diagramas de dispersão.


a) Um gerente de marketing conduziu um estudo para determinar se há relação entre dinheiro gasto com
propaganda e o nú mero de venda de determinado produto. Parece haver uma correlação linear positiva.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 4/23
05/04/2024, 17:48 Probabilidade e Estatística

Tabela 1 - Gastos com propaganda versus Vendas da empresa.


Fonte: LARSON; FARBER, 2010, p. 396.

Veja agora o gráfico de correlação que representa os dados da tabela acima. Perceba que a tendência é de y
aumentar à medida que x aumenta, ou seja, valores maiores em y estão associados a valores maiores em x.

Figura 1 - Correlação Linear Positiva: relação positiva ou crescente.


Fonte: LARSON; FARBER, 2010, p. 396.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 5/23
05/04/2024, 17:48 Probabilidade e Estatística

b) Um soció logo conduziu uma pesquisa para saber se há relação entre o nível de renda e a porcentagem doada
para a caridade.

Tabela 2 - Nível de renda versus Porcentagem de doaçõ es.


Fonte: LARSON; FARBER, 2010, p. 396.

Como resultado, mostrado pelo gráfico de dispersão, a relação entre ambas as variáveis foi uma correlação
linear negativa.

Figura 2 - Correlação Linear Negativa: relação negativa ou decrescente.


Fonte: LARSON; FARBER, 2010, p. 396.

Portanto, de acordo com o gráfico, conforme x aumenta, y tende a decrescer.


c) Um estudante de enfermagem conduz uma pesquisa para identificar se há uma relação entre a variável x:
peso do indivíduo (em libras) e o consumo diário de água (em onças).

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 6/23
05/04/2024, 17:48 Probabilidade e Estatística

Tabela 3 - Peso versus Á gua consumida.


Fonte: LARSON; FARBER, 2010, p. 396.

O gráfico a seguir mostra que pouco pode ser explicado a respeito da variação dos dados apresentados na
tabela. Ele é formado por pontos dispersos, sem relação, em que o modelo de regressão linear simples não
consegue explicar a variação de y em relação a x.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 7/23
05/04/2024, 17:48 Probabilidade e Estatística

Figura 3 - Não há correlação linear entre as variáveis.


Fonte: LARSON; FARBER, 2010, p. 396.

O gráfico de dispersão, ou diagrama de dispersão, é um gráfico cartesiano em que cada par ( é um


ponto de um sistema de coordenadas bidimensional. Assim, temos a variável y no eixo vertical e a variável x
no eixo horizontal e seus pares ordenados respectivos que formam uma nuvem de pontos. Tal nuvem de
pontos pode ser descrita por uma linha reta quando há uma correlação linear entre as variáveis, uma linha
curva quando há uma correlação curvilínea ou mesmo por pontos dispersos que caracterizam uma não
correlação linear.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 8/23
05/04/2024, 17:48 Probabilidade e Estatística

VOCÊ QUER LER?


O artigo “A aplicaçã o do mé todo de regressã o linear simples na demanda de produtos
sazonais: um estudo de caso” (MEDEIROS; BIANCHI, 2009) tem como objetivo realizar
um estudo de previsã o de demanda para os produtos que possuem maior rotatividade
em venda em uma empresa do ramo comercial e prestaçã o de serviços. Para a leitura,
acesse:
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3
%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simple
s%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20c
aso.pdf
(https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C
3%A3o%20do%20m%C3%A9todo%20da%20regress%C3%A3o%20linear%20simp
les%20na%20demanda%20de%20produtossazonais:%20um%20estudo%20de%20
caso.pdf ).

Em determinadas situaçõ es, é possível ter valores de x idênticos para valores de y diferentes, o que mostra que
y não é determinado unicamente por x, mas também por outros fatores.
Conforme aponta Devore (2018), há evidências de que os valores de y possam ser encontrados a partir dos
valores de x, caracterizando uma relação linear considerável, porém não perfeita entre as variáveis. Essa
relação é descrita a partir de uma reta de regressão que também pode ser denominada de reta de melhor ajuste
ou reta de mínimos quadrados.

4.1.2 Reta de Regressão


Para poder avaliar melhor a relação estabelecida entre as variáveis, é interessante obter a equação da reta que
se ajusta aos dados amostrais de n observaçõ es. Ela é dada pela seguinte expressão:
, sendo o coeficiente angular e o intercepto.
Por se tratar de um valor estimado, vamos adotar . A substituição de e ocorre pela
aproximação ao que já conhecemos da equação da reta dada por: .
Assim, temos:

Sendo:
: valor predito de y (a ser estimado);
x: valor da variável x para determinado elemento da amostra;
y: valor da variável y para determinado elemento da amostra;

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=%… 9/23
05/04/2024, 17:48 Probabilidade e Estatística

n: nú mero total de observaçõ es (tamanho da amostra);


b: intersecção do eixo y (intercepto);
a: coeficiente de inclinação da reta (coeficiente angular)
Os parâmetros a e b podem ser calculados por meio das seguintes fó rmulas:

Assim, em nossa análise, vamos considerar que estamos investigando apenas relaçõ es lineares, sendo que o
principal objetivo deste tema é utilizar dados amostrais emparelhados para estimar a equação de regressão.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 10/23
05/04/2024, 17:48 Probabilidade e Estatística

CASO
“O termo aná lise de regressã o foi usado pela primeira vez por Francis Galton no
final do sé culo XIX no seu trabalho sobre a relaçã o entre a altura x do pai e a
altura do filho y do filho. Após coletar um nú mero de pares , Galton
usou o princípio dos mínimos quadrados para poder obter a equaçã o da reta de
regressã o estimada com o objetivo de usá -la para prever a altura do filho a partir
da altura do pai. Ao usar a reta derivada, Galton descobriu que, se a altura do pai
estivesse acima da mé dia, a altura do filho també m apresentaria a probabilidade
de estar acima da mé dia, mas nã o tanto quanto a do pai. De modo semelhante, a
altura do filho, cujo pai tinha altura abaixo da mé dia, també m apresentava a
probabilidade de estar abaixo da mé dia, mas nã o tanto quanto a do pai. Portanto,
a altura prevista de um filho sofreu um “retrocesso” em direçã o à mé dia; pelo
fato de regressã o significar volta ou retorno, Galton adotou a terminologia reta de
regressã o” (DEVORE, 2018, p. 472).
Veja o grá fico que mostra a mé dia da altura dos filhos contra altura composta dos
pais, baseada no estudo de Galton (MORETTIN; BUSSAB, 2010, p. 487).

Para essa relaçã o, Galton encontrou a equaçã o de regressã o


. Assim, com coeficiente angular igual a 0,516, a reta

tende para aquela paralela ao eixo x passando pela mé dia . Se as

características entre pais e filhos permanecessem as mesmas de geraçã o em


geraçã o, o coeficiente angular seria próximo a 1.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 11/23
05/04/2024, 17:48 Probabilidade e Estatística

Exemplo: uma pesquisa pretende verificar se há correlação significativa entre o peso total do lixo descartado,
por dia, em uma empresa, com o peso do papel contido nesse lixo.

Solução:
Observe os dados do problema reunidos na tabela abaixo.

Tabela 4 - Peso Total versus Peso do Papel.


Fonte: Elaborada pela autora, 2019.

De acordo com a tabela, temos que , , , ,

e . Substituindo tais valores nas fó rmulas:

e , encontramos os parâmetros.

Assim:

Com base nos parâmetros a e b calculados, é possível afirmar que a reta de regressão é dada pela equação
. Para traçar essa reta basta estabelecer dois pontos:
Para x = 0, temos que e para , temos que .

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 12/23
05/04/2024, 17:48 Probabilidade e Estatística

Figura 4 - Gráfico de Dispersão e Reta de Regressão Linear.


Fonte: Elaborada pela autora, 2019.

Prevendo valores de y usando a equação da reta de regressão linear


Quando estamos diante de uma equação de regressão linear, torna-se possível prever valores da variável y a
partir de valores da variável x. Assim, sendo a equação para os dados sobre gastos com propaganda (x: em
milhares de reais) e vendas da empresa (y: em milhares de reais) dada por: e
tomando valores para a variável x conseguimos prever as vendas esperadas da empresa. Assim, temos que
para:

A interpretação dos resultados mostra que quando os gastos com propaganda somam R$ 1500,00, as vendas
da empresa se aproximam de R$ 180155,00; quando os gastos somam R$ 1800,00, as vendas da empresa se
aproximam de R$ 195373,00; e quando os gastos somam R$ 2500,00, as vendas da empresa se aproximam de
R$ 230884,00. Dessa maneira, identificamos que há uma correlação linear positiva entre ambas as variáveis.
A partir das equaçõ es da reta de regressão, também é possível observar qual o melhor gráfico que a representa.
Se , temos uma reta decrescente, pois o parâmetro a é negativo e igual a -1,04. Já o
parâmetro b = 50,3 determina o intercepto com o eixo y. Assim, temos a seguinte representação: se
, temos uma reta crescente, pois o parâmetro a é positivo e igual a 1,662, sendo o
intercepto com o eixo y igual a 83,34.
Muito bem! A seguir, vamos apresentar a medida que estabelece o grau de força e a direção que duas variáveis
se relacionam: o coeficiente de correção de Pearson.

4.2 Coeficiente de Correlação de Pearson

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 13/23
05/04/2024, 17:48 Probabilidade e Estatística

Para que tal análise não fique limitada ao gráfico de dispersão, que poderá torná-la subjetiva, e para se medir o
tipo e a força dessa correlação linear, foi criado o coeficiente de correlação de Pearson ou coeficiente de
correlação produto-momento de Pearson. A origem desse termo remonta o trabalho conjunto de Karl Pearson e
Francis Dalton sendo uma medida de associação bivariada (força) do grau de relacionamento entre duas
variáveis. De acordo com Figueiredo Filho e Silva Jú nior (2009), seu conceito está relacionado aos termos
associação e linearidade. No caso da correlação de Pearson, o coeficiente é uma medida da variância
compartilhada entre duas variáveis.

4.2.1 Conceito
Larson e Farber (2006, p. 398) trazem que “o coeficiente de correlação é uma medida da força e direção de
uma relação linear entre duas variáveis”. Já para Freund (2006), o coeficiente de correlação corresponde a uma
medida de intensidade da relação entre duas variáveis, e estamos diante de uma análise de variância. Para
explicar seu conceito, vamos partir da análise da figura abaixo.

Figura 5 - Representação de .

Fonte: FREUND, 2006, p. 432.

A figura apresentada mostra que estamos diante de uma análise de variância. Como veremos logo a seguir, o
desvio do valor observado de y em relação à média de todos os , ou seja, , pode ser escrito como a

soma de duas parcelas que são .

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 14/23
05/04/2024, 17:48 Probabilidade e Estatística

VOCÊ O CONHECE?
Karl Pearson (1857-1936), estatístico britâ nico, caracterizou-se por sua versatilidade
intelectual e independê ncia, estudando assuntos como a teoria da evoluçã o, biologia,
epidemiologia, medicina, história social e antropometria, que corresponde ao registro
das particularidades físicas do indivíduo. Em 1911, ele criou o primeiro departamento
universitá rio de Estatística em todo o mundo, na University College London. À Pearson
se deve a expressã o do desvio-padrã o, do histograma e a representaçã o da populaçã o
pela letra sigma minú scula.

Para Freund (2006), a primeira parcela da equação corresponde ao desvio de (o valor da reta correspondente
ao valor observado de x) a partir da média de todos os y, ou seja, . Já a outra parcela corresponde ao
desvio do valor observado de y a partir do valor correspondente na reta . Essa mesma equação é
elevada ao quadrado:

Sendo que a quantidade à esquerda mede a variação total dos y e é denominada de soma de quadrados total e a
quantidade à direita mede a parcela da variação total dos y´s que pode ser atribuída à relação entre as duas
variáveis x e y e é denominada de soma dos quadrados de regressão.

4.2.2 Propriedades
Figueiredo Filho e Silva Jú nior (2009) elencam as propriedades a serem satisfeitas do coeficiente de
correlação linear de Pearson. Clique nos itens para conhecê-los.

O coeficiente de correlação de Pearson não diferencia entre variáveis independentes e


a) variáveis dependentes, ou seja, o valor da correlação entre x e y é o mesmo que
entre y e x;

O valor da correlação não muda ao se alterar a unidade de mensuração das variáveis,


ou seja, se estivermos relacionando variáveis nas unidades quilos e litros, o
b)
coeficiente de correlação é o mesmo para a relação entre variáveis nas unidades
toneladas e mililitros.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 15/23
05/04/2024, 17:48 Probabilidade e Estatística

O coeficiente tem um caráter adimensional, sendo desprovido de unidade física que o


c)
define.

A correlação exige que as variáveis sejam quantitativas (contínuas ou discretas), ou


d) seja, não é possível utilizar a correlação de Pearson para dados categó ricos, como,
por exemplo, sexo ou nível de escolaridade.

Os valores observados precisam estar normalmente distribuídos. Isso é importante,


principalmente, para amostras em que n<40. De acordo com o Teorema do Limite
e)
Central, quando o nú mero de observaçõ es aumenta, a distribuição das médias
amostrais se aproxima da curva normal.

O coeficiente de correlação é fortemente afetado pela presença de outliers que podem


f)
comprometer as estimativas dos pesquisadores.

4.2.3 Fórmula do coeficiente de Pearson


Para Larson e Farber (2006, p. 398), “o coeficiente de correlação é uma medida da força e direção de uma
relação linear entre duas variáveis” e está associado às medidas de variabilidade de sucessivas observaçõ es.
De acordo com Morettin e Bussab (2010, p. 457), “o desvio de uma observação em relação à média pode ser
decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor
ajustado em relação à média”. Foi o que tratamos no subtó pico anterior. Assim, com base nos conceitos
expostos, é possível afirmar que na correlação linear de Pearson, o coeficiente permite que se faça a análise da
força ou existência da correlação entre duas variáveis:

Sendo:
r = resultado do coeficiente de correlação linear de Pearson;
n = nú mero de observaçõ es ou pares de dados;
x = valores assumidos pela variável X;
y = valores assumidos pela variável Y.
Com valores dentro do intervalo , o valor do coeficiente determina o tipo de correlação existente entre
as variáveis envolvidas no estudo, identificando uma correlação linear positiva, correlação linear perfeita
positiva, correlação linear negativa, correlação linear perfeita negativa ou uma correlação linear nula. Se
ambas as variáveis têm correlação linear positiva, então r se aproxima de 1. Se não há correlação linear ou se a
correlação linear é fraca, então r está pró ximo a 0 e se a correlação linear negativa é forte, então r se aproxima
de -1.
Uma observação importante é que se r está pró ximo a zero, significa que não há uma correlação linear, porém
não estamos afirmando que não haja uma relação qualquer entre x e y.
O fato de duas variáveis serem fortemente correlacionadas não significa que há uma relação de causa e efeito
entre elas. Essa situação exige que o pesquisador considere outras possibilidades, como, por exemplo, a
relação entre as variáveis pode ser causada por uma terceira variável ou uma combinação de diversas outras
variáveis.
Exemplo: são apresentadas, a seguir, as notas que 12 estudantes obtiveram nos exames finais de Economia e
Antropologia.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 16/23
05/04/2024, 17:48 Probabilidade e Estatística

Solução: para que possamos encontrar o coeficiente de correlação, é interessante abrir novas colunas na
tabela anterior de maneira a encontrar os elementos faltantes.

Tabela 5 - Notas finais de estudantes: Economia versus Antropologia.


Fonte: Adaptado de FREUD, 2006, p. 435.

Assim, de acordo com os cálculos da tabela e substituindo em:

Temos:

De acordo com os cálculos, temos que o coeficiente de correlação linear é, aproximadamente, igual a 0,9351, o
que nos indica forte correlação linear positiva entre as variáveis x e y.
Como apresentado, não haverá dú vidas quando r for igual a . Porém, o que pode ser
interpretado quando r for igual a 0,80 ou r for igual a 0,40? Estaria correto dizer que a correlação de 0,80 é
duas vezes mais forte que a correlação de 0,40? A resposta para essa pergunta é: não. O coeficiente de
correlação mostra a porcentagem da variação de y em relação a x. É o que veremos a seguir!

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 17/23
05/04/2024, 17:48 Probabilidade e Estatística

4.3 Coeficiente de determinação


O conceito de coeficiente de determinação está relacionado ao conceito do coeficiente de correlação linear
exposto anteriormente. No entanto, de acordo com as ideias de Freund (2006), há várias ciladas na
interpretação do coeficiente de correlação. Para o autor, devemos lembrar que r mede apenas a intensidade de
relaçõ es lineares, não se aplicando a relaçõ es não lineares, como, por exemplo, as curvilíneas. Além disso,
devemos ter em mente que uma correlação forte não implica, necessariamente, em uma relação de causa e
efeito.

4.3.1 Conceito
Para Freund (2006, p. 437), “de modo geral, a definição de r nos diz que é a porcentagem da variação
total dos y´s que é explicada ou causada por sua relação com x”. Contudo, deve-se prestar atenção quando
estiver diante de um e outro . Para o autor, é errô neo dizer que a correlação de 0,80 é
duas vezes mais forte que a correlação de 0,40. Para , temos que ,o
que nos leva a entender que 64% da variação dos y´s são explicadas pela relação com x, e quando ,
apenas da variação dos y´s são explicadas a partir da variação de x.
De maneira semelhante, Devore (2018, p. 471) explica que “o coeficiente de determinação pode ser
interpretado como a proporção da variação de y observado que pode ser explicada pelo modelo de regressão
linear simples (atribuída a uma relação linear aproximada)”.
4.3.2 Fórmula do coeficiente de determinação e interpretação dos resultados
Como já sabemos calcular o coeficiente de correlação de Pearson, o coeficiente de determinação corresponde
ao coeficiente de correlação ao quadrado. Assim, temos que , ou seja, o coeficiente de determinação é a
çã
relação entre a variação explicada e a variação total. Isto é: .
çã

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 18/23
05/04/2024, 17:48 Probabilidade e Estatística

VOCÊ QUER VER?


Neste vídeo (2016), você poderá aprofundar o conhecimento adquirido na unidade.
Ele apresenta os conceitos trabalhados, como grá ficos de dispersã o, correlaçã o linear,
cá lculo do coeficiente de correlaçã o de Pearson, a equaçã o da reta de regressã o linear
e outros exemplos que você poderá praticar. Assista em:
https://www.youtube.com/watch?v=v6kI-9s2Qhk (https://www.youtube.com/watch?
v=v6kI-9s2Qhk).

Se tivermos o coeficiente de correlação igual a 0,90, o coeficiente de determinação é dado por


. Mas como podemos interpretar esse resultado?
Para Larson e Farber (2006), se , significa dizer que 81% da variação de y podem ser explicados
pela relação x e 19% restante dessa variação não pode ser explicada, podendo ser resultante de outros fatores
ou a erro de amostra.
Para um valor de alto, afirmamos que o modelo de regressão linear pode explicar a relação estabelecida
entre as variáveis. Já para um pequeno, a melhor decisão a ser adotada é procurar um modelo alternativo,
como, por exemplo, um modelo não linear que possa explicar de melhor maneira tal relação.
Exemplo: um estudo mostra a tabela que relaciona as horas gastas em estudo e a pontuação, em determinado
teste, de 13 estudantes de um curso de graduação em Engenharia de Produção. Faça uma análise completa:
calcule o coeficiente de correlação linear, o coeficiente de determinação e faça suas interpretaçõ es.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 19/23
05/04/2024, 17:48 Probabilidade e Estatística

Tabela 6 - Horas gastas em estudo versus Pontuação em teste.


Fonte: Elaborada pela autora, 2019.

Veja, a seguir, o diagrama de dispersão e a reta de regressão linear.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 20/23
05/04/2024, 17:48 Probabilidade e Estatística

Figura 6 - Representaçõ es das Horas gastas em estudo versus Pontuação em teste.


Fonte: Elaborada pela autora, 2019.

Vamos ao cálculo do coeficiente de correlação linear. De acordo com os cálculos fornecidos pela tabela, temos
as seguintes informaçõ es:

Tais valores são substituídos na fó rmula do coeficiente de correlação linear:

E agora o cálculo do coeficiente de determinação:

Obtivemos um coeficiente de correlação linear igual a 0,8327, o que evidencia que há uma forte correlação
linear entre as variáveis, porém não perfeita. Quando calculamos o coeficiente de determinação, obtivemos
, o que significa dizer que 69,34% da variação de y podem ser explicados pela relação com x e,
o restante, de 30,66% desta variação, não pode ser explicado, podendo ser resultante de outros fatores ou erro
de amostra.
Caro estudante, para que você possa se apropriar cada vez mais dos conhecimentos adquiridos nesta unidade,
disponibilizamos uma lista de exercícios. Realize as atividades e, na sequência, confira as respostas.
Lembre-se: a prática é um dos caminhos mais assertivos para se ter domínio sobre os conceitos aprendidos.
Bons estudos!

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 21/23
05/04/2024, 17:48 Probabilidade e Estatística

Clique aqui
(https://laureatebrasil.blackboard.com/bbcswebdav/institution/laureate/conteudos/ENG_PROEST_19/unida
de_4/ebook/ENG_PROEST_19_E_4_exercicios.pdf) para acessar os exercícios.
Clique aqui
(https://laureatebrasil.blackboard.com/bbcswebdav/institution/laureate/conteudos/ENG_PROEST_19/unida
de_4/ebook/ENG_PROEST_19_E_4_gabarito.pdf) para acessar as resoluçõ es.

Síntese
Nesta unidade, nosso objetivo foi apresentar métodos estatísticos que consigam prever ou mensurar a relação
estabelecida entre duas variáveis x e y. Como exemplo, podemos citar experimentos que busquem evidenciar a
relação entre determinado medicamento e as reaçõ es adversas ou a idade do animal e produção de leite. Em
ambas as situaçõ es, estão presentes duas variáveis: x e y. A variável x recebe a denominação de variável
independente e y de variável dependente ou variável resposta e podem estar associadas entre si. Esse tipo de
associação entre duas variáveis constitui o problema da correlação, tema que leva a mensurar e interpretar a
quão forte ou fraca é a relação que se estabelece entre essas variáveis, a partir do coeficiente de correlação de
Pearson, que mostra porcentagem da variação de y em relação a x.
Nesta unidade, você teve a oportunidade de:
• construir um diagrama de dispersão;
• encontrar o coeficiente de correlação de Pearson;
• encontrar a equação da reta de regressão linear;
• prever valores de y usando a equação da reta de regressão linear;
• encontrar e interpretar o coeficiente de determinação.

Bibliografia
DEVORE, J. L. Probabilidade e estatística para engenharia e ciências. Tradução: Solange Aparecida
Visconte. Revisão Técnica: Magda Carvalho Pires. São Paulo: Cengage, 2018.
ESTÁTISTICA – Aula 25 – Correlação e Regressão. 2016. 1 vídeo (25 min 9 s). Publicado no canal UNIVESP.
Disponível em: https://www.youtube.com/watch?v=v6kI-9s2Qhk (https://www.youtube.com/watch?v=v6kI-
9s2Qhk). Acesso em: 3 ago. 2019.
FIGUEIREDO FILHO, D.B., SILVA JUNIOR, J. A. Desvendando os mistérios do coeficiente de corelação de
Pearson (r). Revista Política Hoje, v. 18, n. 1, p. 115-146, 2009. Disponível em:
https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156
(https://periodicos.ufpe.br/revistas/politicahoje/article/viewFile/3852/3156). Acesso em: 3 ago. 2019.
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. Tradução: Claus Ivo Doering.
11. ed. Porto Alegre: Bookman, 2006.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 22/23
05/04/2024, 17:48 Probabilidade e Estatística

LARSON, R.; FARBER, B. Estatística Descritiva. Tradução: Luciane Ferreira Pauleti Vianna. 4. ed. São Paulo:
Pearson Prentice Hall, 2010.
MEDEIROS, F.S.B e BIANCHI, R. C. A aplicação do método de regressão linear simples na demanda de produtos
sazonais: um estudo de caso. Disciplinarum Scientia. Série: Ciências Sociais Aplicadas. Santa Maria, v. 5, n.1,
p.35-53, 2009. Disponível em:
https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%
C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossaz
onais:%20um%20estudo%20de%20caso.pdf
(https://www.ime.usp.br/~salles/fatec/estatistica/trabalho/A%20aplica%C3%A7%C3%A3o%20do%20m%
C3%A9todo%20da%20regress%C3%A3o%20linear%20simples%20na%20demanda%20de%20produtossaz
onais:%20um%20estudo%20de%20caso.pdf). Acesso em: 8 jul. 2019.
MORETTIN, P. A., BUSSAB, W. O. Estatística Básica. 6. ed. São Paulo: Saraiva, 2010.
TRIOLA, M. F. Introdução à Estatística. 12. ed. Rio de Janeiro: LTC, 2017.

https://student.ulife.com.br/ContentPlayer/Index?cd=cs62K1llDiILPoHjKmsK%2bQ%3d%3d&l=385JQPhrTN%2fePbOMNjWqcQ%3d%3d&lc=… 23/23

Você também pode gostar