Você está na página 1de 13

Instituto Superior de Ciências de Saúde

=ISCISA=

Licenciatura em Nutrição; Pós-Laboral

3º ano; 1º semestre

Disciplina: Bioestatística

Trabalho de pesquisa

Tema: regressão e correlação simples.

Discentes: Docente:

Celestina Simão Marrengula


Jaime da Conceição Muianga
Márcia Fernando Muaile
Sónia Francisco Mahesse

Maputo, Junho de 2023


Índice
1. Diagrama de dispersão
É uma ferramenta simples que permite a visualização gráfica do tipo de relacionamento
existente entre duas variáveis.
O entendimento dessas relações permite maior eficiência dos métodos de controle dos
processos, facilitando a detecção de problemas e o planejamento para ações de melhoria a
serem tomadas.
Exemplos de aplicação:
Como a procura por um bem ou serviço varia em
função do aumento do preço desse bem ou serviço?
Qual é a relação existente entre salário e a experiência profissional?
O diagrama de dispersão é muito útil nesse tipo de estudo.

Tendo em conta os dados a seguir, pôde-se construir um diagrama de dispersão.

x y
5 3
10 6
15 12
20 8
25 15
30 23
35 12
40 25
45 23
50 30
2. Correlação simples

Na análise de correlação, o principal objetivo é medir a força ou o grau de associação linear


entre duas variáveis está estreitamente relacionada à análise de regressão, mas
conceitualmente é muito diferente. O coeficiente de correlação mede a força dessa associação
(linear). Por exemplo, podemos estar interessados em determinar o coeficiente de correlação
entre: consumo e rendimento das famílias; entre as notas obtidas nas provas de estatística e de
matemática; entre as notas obtidas no ensino médio e na faculdade e assim por diante.
A fórmula para o cálculo do coeficiente de correlação é dada por:

O valor de “r” estará sempre no intervalo de -1 a 1.


Se r=-1 então existe uma correlação negativa e perfeita entre x e y.
Se r=1 então existe uma correlação positiva e perfeita entre x e y.
Se r=0 significa que não há relação entre as variáveis x e y
Quando está próximo de -1 ou 1, diz-se que a correlação é negativa ou positiva e forte.

2.1. Tipos de correlação


 Correlação positiva
Este tipo de correlação acontece quando há uma tendência crescente entre os pontos. Quando
uma variável aumenta, a outra variável também aumenta .
 Correlação negativa
Verifica-se quando se concentram em uma linha decrescente. À medida que uma variável
aumenta, a outra diminui.
 Correlação nula,
Quando o coeficiente de correlação é zero, isto é, não há relação ou associação entre duas
variáveis em um conjunto de dados.
Exemplo: Determinar a correlação entre x e y, tendo em conta os seguintes dados:

i x y xy x^2 y^2
1 5 3 15 25 9
2 10 6 60 100 36
3 15 12 180 225 144
4 20 8 160 400 64
5 25 15 375 625 225
6 30 23 690 900 529
7 35 12 420 1225 144
8 40 25 1000 1600 625
9 45 23 1035 2025 529
10 50 30 1500 2500 900
Total 275 157 5435 9625 3205

r=(10*5435-275*157)/ √[(10*9625-275^2)*(10*3205-157^2)]=0,90449

Interpretação: Existe uma correlação pode forte entre x e y, pois 0,90449 está próximo de 1

3. Modelo de regressão
Para melhor compreensão da regressão é necessário compreender como é determinado um
modelo estatístico, para tal é necessário ter em conta os seguintes aspetos:

1. Exposição da teoria ou hipótese.


2. Especificação do modelo matemático da teoria.
3. Especificação do modelo estatístico ou econométrico.
4. Obtenção dos dados.
5. Estimação dos parâmetros do modelo estatístico. .
6. Projeção ou previsão.

3.1. exposição da teoria ou hipótese


Por exemplo, Maynard Keynes afirmou que, média, as pessoas estão dispostas a aumentar seu
consumo conforme seu rendimento disponível aumenta, mas não na mesma proporção que o
aumento no rendimento disponível.
Em resumo, Keynes postulava que a propensão marginal a consumir (PMC), a taxa de
variação o consumo por variação de uma unidade de rendimento, é maior que zero, mas
menor que 1.

3.2. especificação do modelo matemático da teoria

Embora Keynes postulasse uma relação positiva entre consumo e renda, ele não especificou a
forma exata da relação funcional entre as duas variáveis. Para simplificar, um economista
matemático poderia sugerir a seguinte forma para a função de consumo keynesiana:

y=β0+β1∗x 0<β1<1

em que Y representa as despesas de consumo e X o rendimento disponível, β0 e β1 são


conhecidos como os parâmetros do modelo, são, respectivamente, o intercepto e o coeficiente
angular.
O coeficiente angular, β1, mede a propensão marginal a consumir.
Essa equação, que especifica que o consumo se relaciona linearmente à renda, é um exemplo
de modelo matemático da relação entre consumo e renda e é conhecida como função
consumo em economia. O modelo é apenas um conjunto de equações matemáticas.

Na Equação anterior a variável que aparece do lado esquerdo do sinal de igualdade é


chamada de variável dependente e a variável do lado direito é chamada de variável
independente ou explanatória. Assim, na função consumo keynesiana, o consumo (despesa)
é a variável dependente e o rendimento disponível é a variável explanatória.
3.3. especificação do modelo estatístico ou econométrico
O modelo matemático da função consumo apresentado anteriormente ) é de interesse
limitado pois supõe que existe uma relação exata ou determinística entre o consumo e o
rendimento disponível
. Mas as relações entre variáveis econômicas são, em geral, inexatas. Portanto, se coletarmos
dados sobre despesas de consumo e renda disponível de uma amostragem e traçarmos um
gráfico em que o eixo vertical representa as despesas de consumo e o eixo horizontal, a renda
disponível, não devemos esperar que as observações se situem exatamente na reta dada pela
equação. Isso porque, além do rendimento, outras variáveis afetam as despesas de consumo.
O tamanho da família, a idade de seus integrantes, a religião etc., por exemplo,
provavelmente exercem certa influência sobre o consumo.
Para levar em conta as relações inexatas entre as variáveis econômicas, deve-se modificar a
função consumo determinística da equação do seguinte modo:

y=β0+β1∗x+ϵ

Em que ϵ conhecido como distúrbio, ou termo de erro, é uma variável aleatória (estocástica)
que tem propriedades probabilísticas conhecidas. O termo de erro pode representar bem todos
esses fa- tores que afetam o consumo, mas que não são levados em conta explicitamente.
A equação anterior é um exemplo de modelo estatístico. Mais tecnicamente, é um exemplo de
modelo de regressão linear. A função consumo estatística baseia-se na hipótese de que a
variável dependente Y (o consumo) se relaciona linearmente com a variável explanatória X
(o rendimento disponível) mas que a relação entre ambas não é exata: está sujeita a variações
individuais.

3.4. Obtenção dos dados


Para estimarmos o modelo econométrico da equação apresentada, isto é, para obtermos os
valores numéricos de β0 e β1 precisamos de dados.
3.5. Estimação dos parâmetros do modelo econométrico
Depois de obter os dados, o próximo passo é estimar os parâmetros da função consumo. A
estimativa numérica dos parâmetros fornece conteúdo empírico à função consumo.

β1=∑i=0(xi−x¯)∗yi/∑i=0(xi−x¯)^2

β0=y¯−b1∗x¯

Exemplo: y=34,456+0,793x

Interpretação:

34,456- significa que, em média, uma família sem rendimentos tem uma despesa de consumo
de 34,456 unidades monetárias.

0,793- significa que o aumento do rendimento disponível da família irá ocasionar um


aumento do consumo em 0,793 unidades.
Tendo em conta os dados abaixo, pôde-se estimar os parâmetros do modelo.

i x y x^2 XY xi-média (xi-média)^2 (xi-média)*yi


1 1 80,5 1 80,5 -2,5 6,25 -201,25
2 2 81,6 4 163,2 -1,5 2,25 -122,4
3 3 82,1 9 246,3 -0,5 0,25 -41,05
4 4 83,7 16 334,8 0,5 0,25 41,85
5 5 83,9 25 419,5 1,5 2,25 125,85
6 6 85 36 510 2,5 6,25 212,5
Total 21 496,8 91 1754,3 0 17,5 15,5

β1=15,5/17,5=0,886
Ou
β1=(6*1754,3-21*496,8)/(6*91-21*21)=0,886
β0=(496,8-0,886*21)/6=79,7
Assim, temos a seguinte reta de regressão: y=79,7+0,886x

Deste modo; um aumento do rendimento disponível em uma unidade monetária, vai aumentar
as despesas de consumo em 0,886 unidades.
79,7 representa a parte do consumo que não depende do rendimento disponível.

3.6. Previsão ou projeção

Por exemplo, quanto consome uma família que, tem um rendimento disponível médio de
1000 unidades monetárias?
y=79,7+0,886*1000=965,7 unidades

Hipóteses do modelo linear simples


1. Modelo é linear nos parâmetros;
2. A amostragem é aleatória;
3. Variação amostral da variável independente.
4. Coeficiente de determinação

Este coeficiente mede a qualidade do ajustamento da equação de regressão, isto é, fornece a


proporção ou percentual da variação total da variável dependente Y que é explicada pela
variável explanatória (única) X. É uma medida resumida que diz quanto a linha de regressão
amostral ajusta-se aos dados.
A fórmula para o seu cálculo é:

Onde:
SQR- é a soma dos quadrados dos resíduos
SQT- é a soma dos quadrados totais

O r^2 se situa entre 0 e 1. Se for 1, a linha de regressão ajustada explicará 100% da variação
de Y. Por outro lado, se for 0, o modelo não explicará nada da variação de Y. De modo geral,
R está entre esses valores extremos. Diz-se que a qualidade do ajustamento é “melhor”
quanto mais próximo R^2 situar-se de 1.
Por exemplo de r^2=0,761 significa que cerca de 76,1% das variações da variável explicada
(dependente) dependem das variações da variável explicativa e as restantes 23,9% são
explicadas por outros fatores não incluídos explicitamente no modelo.
Considerando os seguintes dados:
i x y Ŷ (Ŷ-ymédio)^2 (Yi-Ymédio)^2
1 1 80,5 80,586 4,901796 5,29
2 2 81,6 81,472 1,763584 1,44
3 3 82,1 82,358 0,195364 0,49
4 4 83,7 83,244 0,197136 0,81
5 5 83,9 84,13 1,7689 1,21
6 6 85 85,016 4,910656 4,84
Total 21 496,8 496,806 13,737436 14,08

R^2=13,737436/14,08=0,9757
Interpretação: Cerca de 97,57% das variações do consumo dependem do rendimento
disponível, as restantes 2,43% dependem de outros fatores não incluídos explicitamente no
modelo.

5. Pressupostos do modelo linear simples

1. Os erros (ei) são variáveis aleatórias de média igual a zero;

2. Os erros (ei) são variáveis aleatórias de variância constante (σ^2) – hipótese de


homocedasticidade.
3. As variáveis aleatória e1, e2… ek são independentes.

4. Os erros ei seguem uma distribuição normal: ei ~ N(0, σ^2 ).

6. Análise com recurso ao pacote estatístico STATA.


Considerando o seguinte modelo do salário:
wage= β0+ β1female+u

onde wage= salário, female  = variável género.

. reg wage female

Source SS df MS Number of obs = 526


F( 1, 524) = 68.25
Model 832.285637 1 832.285637 Prob > F = 0.0000
Residual 6390.37876 524 12.1953793 R-squared = 0.1152
Adj R-squared = 0.1135
Total 7222.66439 525 13.757456 Root MSE = 3.4922

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

female -2.517987 .3048 -8.26 0.000 -3.116767 -1.919207


_cons 7.115328 .2109708 33.73 0.000 6.700876 7.529781

Com base nos resultados o modelo pode ser colocado na seguinte equação:

wage= 7,115-2,518female+u
Os resultados mostram que, cerca de 11,52% das variações no salário são explicadas pela
variável gênero e as restantes 88,48% são explicadas por outros fatores.
-2,518 mostra a diferença salarial entre homens e mulheres. Deste modo, as mulheres
recebem 2,518 a menos do que os homens.
7. Bibliografia
Luiz Medeiros de Araújo Lima Filho, “correlação e regressão” , Universidade Federal da
Paraíba.
Flávia Chein (2019), “Introdução aos modelos de regressão linear: um passo inicial para
compreensão da econometria como uma ferramenta de avaliação de políticas públicas”
Brasília DF Enap
Dadomar N. Gujarati & Dawn C. Porter (2011), “Econometria básica” 5ª edição, AMGH
Editora Ltda.

Você também pode gostar