Introdução
Muitos problemas em engenharia e ciência envolvem explorar as relações entre duas ou mais
variáveis. Existiria uma relação entre a quantidade de um recurso mineiro com os anos de sua
exploração? Será o peso relacionado com a idade das pessoas? A metodologia dos docentes
da ISPT estaria relacionada com o desempenho dos estudantes? As vendas de uma empresa e
os gastos promocionais podem relacionar-se, bem como a demanda de um determinado
produto e seu preço?
A busca das respostas para essas questões, principalmente a primeira, levou-me a escolha do
terceiro tema (alínea c), não só, tendo-se cadeiras como Planificação Mineira e Economia
Mineral, etc. estar-se-ia em situações em que deve-se envolver várias variáveis e uma
possível relação entre elas. Visto que a verificação da existência e do grau de relação entre
variáveis é objecto do estudo da correlação e uma vez caracterizada, procura se descrever
uma relação sob forma matemática, através de uma função (modelo) e a estimação dos
parâmetros desse modelo matemático é o objecto da regressão.
Assim sendo, nas páginas opostas procura-se de uma forma concisa abordar acerca da Teoria
de Correlação e Regressão. No estudo das relações entre variáveis, encontram-se relações
lineares e não-lineares, mas aqui iremos somente falar das lineares por serem mais fáceis de
se intender e abordar.
Primeiro iremos perceber como descrever que tipo de relação, ou correlação, existe entre
variáveis quantitativas e como determinar se a correlação é significante, por fim
determinaremos a equação da linha que melhor modela os dados, a chamada linha de
regressão.
Uma correlação é uma relação entre duas variáveis. Os dados podem ser apresentados por
pares ordenados , onde é a variável independente (ou explanatória) e é a variável
dependente (ou resposta).
Fig. 1: Diagramas de dispersão mostrando diversos tipos de correlação. Fonte: Larson & Farber, pag. 395.
Interpretar a correlação usando um diagrama de dispersão pode ser subjectivo, uma maneira
mais precisa de se medir o tipo e a força de uma correlação linear entre duas variáveis é
calcular o coeficiente de correlação.
∑ ∑ ∑
(1.0),
√ ∑ ∑ √ ∑ ∑
Regressão linear
Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é
determinar a equação da linha que melhor modela os dados. Essa linha é chamada linha de
regressão e sua equação pode ser usada para prever os valores de y para um dado valor de x.
A equação de uma recta de regressão para uma variável independente e uma variável
dependente é:
̂ , (2.0)
onde ̂ é o valor y previsto para um dado valor x. A inclinação m e a intersecção yb são dadas
por
∑ ∑ ∑ ∑ ∑
∑ ∑
(2.1) e ̅ ̅ , (2.2)
onde ̅ é a média dos valores y no conjunto de dados e ̅ é a média dos valores x. A linha de
regressão sempre passa pelo ponto ̅ ̅ .
Quando um valor ̂ é previsto de um valor x, a previsão é um ponto estimado, e isso pode ter
erros envolvidos, esse erro recebe o nome de erro de estimação.
O erro padrão da estimativa , é o desvio padrão dos valores observados sobre o valor
̂ previsto para um dado valor . Ele é dado por:
∑ ̂
√ , (2.3)
Foi feito um estudo em sete países para se apurar a cerca da quantidade de carvão mineral
explorada e anos de sua exploração, seja x o tempo de exploração em anos e y a quantidade
do carvão mineral explorada em toneladas, obteve-se os dados mostrado na tabela abaixo.
x 3 5 8 11 15 21 43
y 24 45 65 75 87 100 148
Tabela 1: Quantidade de carvão mineral explorada e tempo de sua exploração, adaptado em (Larson & Farber, 2010).
Resolução
Primeiro iremos fazer uma tabela para nos ajudar a resumir os cálculos:
Pares
1 3 24 9 576 72
2 5 45 25 2025 225
3 8 65 64 4225 520
4 11 75 121 5625 825
5 15 87 225 7569 1305
6 21 100 441 10000 2100
7 43 148 1849 21904 6364
∑ =106 ∑ =544 ∑ =2734 ∑ =51924 ∑ =11411
Tabela 2: Primeiro passo da resolução tabela que resume os cálculos. Fonte: Autor.
∑ ∑ ∑
√ ∑ ∑ √ ∑ ∑ √ √
Como o coeficiente de correlação é próximo de 1, então existe uma correlação linear positiva
forte entre as variáveis, ou seja, a quantidade de carvão a ser explorada depende do tempo de
sua exploração e são directamente proporcionais.
∑ ∑ ∑ ∑ ∑
∑ ∑
; ̅ ̅
Conclusão
Observou-se que a estimação, ou previsão, de uma variável com base em valores conhecidos
da outra deve ser cautelosa! Não deve ser feita qualquer extrapolação dessa recta para valores
fora do âmbito dados. O perigo de extrapolar para fora do âmbito dos dados amostrais é que a
mesma relação possa não mais se verificar. Também é importante lembrar que se r está
próximo a 0, isso não significa que não há relação entre x e y, significa somente que não há
correlação linear. Note-se que a n pontos observados é teoricamente possível ajustar uma
infinidade de curvas. No estudo feito, apenas foi possível abordar o modelo de regressão
linear simples. No entanto, o modelo linear nem sempre é o mais adequado; a representação
gráfica dos dados por vezes sugere que estes são melhor ajustados por outras curvas do que
por uma recta. É portanto necessário, em primeiro lugar, fixar o modelo que melhor se adapta
às observações. Além do tipo de curva, outro factor importante na análise de regressão, é o
número de variáveis envolvidas. Em muitos problemas práticos, em vez de ser considerada
apenas uma variável independente, é do interesse estudar a relação entre uma variável e um
conjunto de variáveis (Análise de Regressão Múltipla) assunto que não foi abordado neste
trabalho.
Referências Bibliográficas
1. Larson, R., & Farber, B. (2010). Estatistica Aplicada (4 ed.). (M. S. Lupinetti, G.
Renata, Edits., & L. P. Ferreira, Trad.) Sao Paulo, Brasil: Pearson Printice Hall.
2. Walpole, R. E. & et. al. Probabilidade e estatística para engenharia e ciências. 8ª ed.
Pearsonn Prentice Hall, 2009. 491 p.