Você está na página 1de 5

Teoria de Correlação e Regressão

Jelane José Afonso

Introdução

Muitos problemas em engenharia e ciência envolvem explorar as relações entre duas ou mais
variáveis. Existiria uma relação entre a quantidade de um recurso mineiro com os anos de sua
exploração? Será o peso relacionado com a idade das pessoas? A metodologia dos docentes
da ISPT estaria relacionada com o desempenho dos estudantes? As vendas de uma empresa e
os gastos promocionais podem relacionar-se, bem como a demanda de um determinado
produto e seu preço?

A busca das respostas para essas questões, principalmente a primeira, levou-me a escolha do
terceiro tema (alínea c), não só, tendo-se cadeiras como Planificação Mineira e Economia
Mineral, etc. estar-se-ia em situações em que deve-se envolver várias variáveis e uma
possível relação entre elas. Visto que a verificação da existência e do grau de relação entre
variáveis é objecto do estudo da correlação e uma vez caracterizada, procura se descrever
uma relação sob forma matemática, através de uma função (modelo) e a estimação dos
parâmetros desse modelo matemático é o objecto da regressão.

Assim sendo, nas páginas opostas procura-se de uma forma concisa abordar acerca da Teoria
de Correlação e Regressão. No estudo das relações entre variáveis, encontram-se relações
lineares e não-lineares, mas aqui iremos somente falar das lineares por serem mais fáceis de
se intender e abordar.

Primeiro iremos perceber como descrever que tipo de relação, ou correlação, existe entre
variáveis quantitativas e como determinar se a correlação é significante, por fim
determinaremos a equação da linha que melhor modela os dados, a chamada linha de
regressão.

Esse trabalho baseia-se em pesquisas bibliográficas, onde buscou-se as informações e


posteriormente foram compiladas. O exercício prático mostrado no trabalho é uma adaptação
dos exercícios de revisão do livro Estatística Aplicada (Larson & Farber, 2010).

Teoria de Correlação e Regressão Página 1


Correlação linear

Uma correlação é uma relação entre duas variáveis. Os dados podem ser apresentados por
pares ordenados , onde é a variável independente (ou explanatória) e é a variável
dependente (ou resposta).

Sabe-se que o gráfico dos pares ordenados é chamado de diagrama de dispersão, um


diagrama de dispersão pode ser usado para determinar se existe uma correlação linear (linha
recta) entre duas variáveis. Veja a imagem a seguir que mostra diversos tipos de correlação.

Fig. 1: Diagramas de dispersão mostrando diversos tipos de correlação. Fonte: Larson & Farber, pag. 395.

Interpretar a correlação usando um diagrama de dispersão pode ser subjectivo, uma maneira
mais precisa de se medir o tipo e a força de uma correlação linear entre duas variáveis é
calcular o coeficiente de correlação.

O coeficiente de correlação (também chamado de coeficiente de correlação produto-


momento de Pearson) é uma medida da força e direcção de uma relação linear entre duas
variáveis. Onde para amostras é representado por e para população por .

Uma fórmula matemática para é:

∑ ∑ ∑
(1.0),
√ ∑ ∑ √ ∑ ∑

Onde é o número de pares de dados e varia entre -1 e 1 .

Teoria de Correlação e Regressão Página 2


Se x e y têm uma correlação linear positiva forte, r está próximo de 1. Se x e y têm uma
correlação linear negativa forte, r esta próximo de -1. Se não há correlação linear ou
correlação linear fraca, r está próximo a zero.

Regressão linear

Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é
determinar a equação da linha que melhor modela os dados. Essa linha é chamada linha de
regressão e sua equação pode ser usada para prever os valores de y para um dado valor de x.

A equação de uma recta de regressão para uma variável independente e uma variável
dependente é:

̂ , (2.0)

onde ̂ é o valor y previsto para um dado valor x. A inclinação m e a intersecção yb são dadas
por

∑ ∑ ∑ ∑ ∑
∑ ∑
(2.1) e ̅ ̅ , (2.2)

onde ̅ é a média dos valores y no conjunto de dados e ̅ é a média dos valores x. A linha de
regressão sempre passa pelo ponto ̅ ̅ .

Quando um valor ̂ é previsto de um valor x, a previsão é um ponto estimado, e isso pode ter
erros envolvidos, esse erro recebe o nome de erro de estimação.

O erro padrão da estimativa , é o desvio padrão dos valores observados sobre o valor
̂ previsto para um dado valor . Ele é dado por:

∑ ̂
√ , (2.3)

onde n é o número de pares pedidos no conjuntos de dados.

Em seguida apresentaremos um exemplo para melhor compreender o tema.

Teoria de Correlação e Regressão Página 3


Exercício Exemplo

Foi feito um estudo em sete países para se apurar a cerca da quantidade de carvão mineral
explorada e anos de sua exploração, seja x o tempo de exploração em anos e y a quantidade
do carvão mineral explorada em toneladas, obteve-se os dados mostrado na tabela abaixo.

x 3 5 8 11 15 21 43
y 24 45 65 75 87 100 148
Tabela 1: Quantidade de carvão mineral explorada e tempo de sua exploração, adaptado em (Larson & Farber, 2010).

Determine se há uma correlação linear entre as variáveis, determine a recta de regressão,


estime a quantidade que se exploraria em 50 anos e interprete os resultados.

Resolução

Primeiro iremos fazer uma tabela para nos ajudar a resumir os cálculos:

Pares
1 3 24 9 576 72
2 5 45 25 2025 225
3 8 65 64 4225 520
4 11 75 121 5625 825
5 15 87 225 7569 1305
6 21 100 441 10000 2100
7 43 148 1849 21904 6364
∑ =106 ∑ =544 ∑ =2734 ∑ =51924 ∑ =11411
Tabela 2: Primeiro passo da resolução tabela que resume os cálculos. Fonte: Autor.

Para saber-mos se há uma correlação usaremos a equação 1.0:

∑ ∑ ∑
√ ∑ ∑ √ ∑ ∑ √ √

Como o coeficiente de correlação é próximo de 1, então existe uma correlação linear positiva
forte entre as variáveis, ou seja, a quantidade de carvão a ser explorada depende do tempo de
sua exploração e são directamente proporcionais.

Para a recta de regressão usaremos as equações 2.0, 2.1 e 2.2: ̂ , onde

∑ ∑ ∑ ∑ ∑
∑ ∑
; ̅ ̅

. Então a equação de regressão será: ̂ é a equação da linha


de ajuste.

Teoria de Correlação e Regressão Página 4


Usando a equação de regressão encontrada podemos estimar a quantidade que seria explorada
em 50 anos da seguinte maneira: ̂
. Isso quer dizer que em 50 anos se exploraria aproximadamente 176 toneladas de
carvão mineral.

Conclusão

Observou-se que a estimação, ou previsão, de uma variável com base em valores conhecidos
da outra deve ser cautelosa! Não deve ser feita qualquer extrapolação dessa recta para valores
fora do âmbito dados. O perigo de extrapolar para fora do âmbito dos dados amostrais é que a
mesma relação possa não mais se verificar. Também é importante lembrar que se r está
próximo a 0, isso não significa que não há relação entre x e y, significa somente que não há
correlação linear. Note-se que a n pontos observados é teoricamente possível ajustar uma
infinidade de curvas. No estudo feito, apenas foi possível abordar o modelo de regressão
linear simples. No entanto, o modelo linear nem sempre é o mais adequado; a representação
gráfica dos dados por vezes sugere que estes são melhor ajustados por outras curvas do que
por uma recta. É portanto necessário, em primeiro lugar, fixar o modelo que melhor se adapta
às observações. Além do tipo de curva, outro factor importante na análise de regressão, é o
número de variáveis envolvidas. Em muitos problemas práticos, em vez de ser considerada
apenas uma variável independente, é do interesse estudar a relação entre uma variável e um
conjunto de variáveis (Análise de Regressão Múltipla) assunto que não foi abordado neste
trabalho.

Referências Bibliográficas

1. Larson, R., & Farber, B. (2010). Estatistica Aplicada (4 ed.). (M. S. Lupinetti, G.
Renata, Edits., & L. P. Ferreira, Trad.) Sao Paulo, Brasil: Pearson Printice Hall.

2. Walpole, R. E. & et. al. Probabilidade e estatística para engenharia e ciências. 8ª ed.
Pearsonn Prentice Hall, 2009. 491 p.

3. Montgomery, D. C., Runger, G. C. Estatística Aplicada e Probabilidade para


Engenheiros. Rio de Janeiro: LTC. 2a edição, 2003. ISBN 85-216-1360-1.

Teoria de Correlação e Regressão Página 5

Você também pode gostar