Cópia de Bioestatística Job

Instituto Superior de Ciências de Saúde
=ISCISA=
Licenciatura em Nutrição; Pós-Laboral
3º ano; 1º semestre
Disciplina: Bioestatística
Trabalho de pesquisa
Tema: regressão e correlação simples.
Discentes: Docente:
Celestina Simão Marrengula

Jaime da Conceição Muianga
Márcia Fernando Muaile
Sónia Francisco Mahesse
Maputo, Junho de 2023

Índice
1. Diagrama de dispersão
É uma ferramenta simples que permite a visualização gráfica do tipo de relacionamento
existente entre duas variáveis.
O entendimento dessas relações permite maior eficiência dos métodos de controle dos
processos, facilitando a detecção de problemas e o planejamento para ações de melhoria a
serem tomadas.
Exemplos de aplicação:
Como a procura por um bem ou serviço varia em
função do aumento do preço desse bem ou serviço?
Qual é a relação existente entre salário e a experiência profissional?
O diagrama de dispersão é muito útil nesse tipo de estudo.
Tendo em conta os dados a seguir, pôde-se construir um diagrama de dispersão.
x y
5 3
10 6
15 12
20 8
25 15
30 23
35 12
40 25
45 23
50 30
2. Correlação simples
Na análise de correlação, o principal objetivo é medir a força ou o grau de associação linear

entre duas variáveis está estreitamente relacionada à análise de regressão, mas
conceitualmente é muito diferente. O coeficiente de correlação mede a força dessa associação
(linear). Por exemplo, podemos estar interessados em determinar o coeficiente de correlação
entre: consumo e rendimento das famílias; entre as notas obtidas nas provas de estatística e de
matemática; entre as notas obtidas no ensino médio e na faculdade e assim por diante.
A fórmula para o cálculo do coeficiente de correlação é dada por:
O valor de “r” estará sempre no intervalo de -1 a 1.

Se r=-1 então existe uma correlação negativa e perfeita entre x e y.
Se r=1 então existe uma correlação positiva e perfeita entre x e y.
Se r=0 significa que não há relação entre as variáveis x e y
Quando está próximo de -1 ou 1, diz-se que a correlação é negativa ou positiva e forte.
2.1. Tipos de correlação

 Correlação positiva
Este tipo de correlação acontece quando há uma tendência crescente entre os pontos. Quando
uma variável aumenta, a outra variável também aumenta .
 Correlação negativa
Verifica-se quando se concentram em uma linha decrescente. À medida que uma variável
aumenta, a outra diminui.
 Correlação nula,
Quando o coeficiente de correlação é zero, isto é, não há relação ou associação entre duas
variáveis em um conjunto de dados.
Exemplo: Determinar a correlação entre x e y, tendo em conta os seguintes dados:
i x y xy x^2 y^2
1 5 3 15 25 9
2 10 6 60 100 36
3 15 12 180 225 144
4 20 8 160 400 64
5 25 15 375 625 225
6 30 23 690 900 529
7 35 12 420 1225 144
8 40 25 1000 1600 625
9 45 23 1035 2025 529
10 50 30 1500 2500 900
Total 275 157 5435 9625 3205
r=(10*5435-275*157)/ √[(10*9625-275^2)*(10*3205-157^2)]=0,90449
Interpretação: Existe uma correlação pode forte entre x e y, pois 0,90449 está próximo de 1
3. Modelo de regressão
Para melhor compreensão da regressão é necessário compreender como é determinado um
modelo estatístico, para tal é necessário ter em conta os seguintes aspetos:
1. Exposição da teoria ou hipótese.

2. Especificação do modelo matemático da teoria.
3. Especificação do modelo estatístico ou econométrico.
4. Obtenção dos dados.
5. Estimação dos parâmetros do modelo estatístico. .
6. Projeção ou previsão.
3.1. exposição da teoria ou hipótese

Por exemplo, Maynard Keynes afirmou que, média, as pessoas estão dispostas a aumentar seu
consumo conforme seu rendimento disponível aumenta, mas não na mesma proporção que o
aumento no rendimento disponível.
Em resumo, Keynes postulava que a propensão marginal a consumir (PMC), a taxa de
variação o consumo por variação de uma unidade de rendimento, é maior que zero, mas
menor que 1.
3.2. especificação do modelo matemático da teoria
Embora Keynes postulasse uma relação positiva entre consumo e renda, ele não especificou a
forma exata da relação funcional entre as duas variáveis. Para simplificar, um economista
matemático poderia sugerir a seguinte forma para a função de consumo keynesiana:
y=β0+β1∗x 0<β1<1
em que Y representa as despesas de consumo e X o rendimento disponível, β0 e β1 são

conhecidos como os parâmetros do modelo, são, respectivamente, o intercepto e o coeficiente
angular.
O coeficiente angular, β1, mede a propensão marginal a consumir.
Essa equação, que especifica que o consumo se relaciona linearmente à renda, é um exemplo
de modelo matemático da relação entre consumo e renda e é conhecida como função
consumo em economia. O modelo é apenas um conjunto de equações matemáticas.
Na Equação anterior a variável que aparece do lado esquerdo do sinal de igualdade é

chamada de variável dependente e a variável do lado direito é chamada de variável
independente ou explanatória. Assim, na função consumo keynesiana, o consumo (despesa)
é a variável dependente e o rendimento disponível é a variável explanatória.
3.3. especificação do modelo estatístico ou econométrico
O modelo matemático da função consumo apresentado anteriormente ) é de interesse
limitado pois supõe que existe uma relação exata ou determinística entre o consumo e o
rendimento disponível
. Mas as relações entre variáveis econômicas são, em geral, inexatas. Portanto, se coletarmos
dados sobre despesas de consumo e renda disponível de uma amostragem e traçarmos um
gráfico em que o eixo vertical representa as despesas de consumo e o eixo horizontal, a renda
disponível, não devemos esperar que as observações se situem exatamente na reta dada pela
equação. Isso porque, além do rendimento, outras variáveis afetam as despesas de consumo.
O tamanho da família, a idade de seus integrantes, a religião etc., por exemplo,
provavelmente exercem certa influência sobre o consumo.
Para levar em conta as relações inexatas entre as variáveis econômicas, deve-se modificar a
função consumo determinística da equação do seguinte modo:
y=β0+β1∗x+ϵ
Em que ϵ conhecido como distúrbio, ou termo de erro, é uma variável aleatória (estocástica)
que tem propriedades probabilísticas conhecidas. O termo de erro pode representar bem todos
esses fatores que afetam o consumo, mas que não são levados em conta explicitamente.
A equação anterior é um exemplo de modelo estatístico. Mais tecnicamente, é um exemplo de
modelo de regressão linear. A função consumo estatística baseia-se na hipótese de que a
variável dependente Y (o consumo) se relaciona linearmente com a variável explanatória X
(o rendimento disponível) mas que a relação entre ambas não é exata: está sujeita a variações
individuais.
3.4. Obtenção dos dados

Para estimarmos o modelo econométrico da equação apresentada, isto é, para obtermos os
valores numéricos de β0 e β1 precisamos de dados.
3.5. Estimação dos parâmetros do modelo econométrico
Depois de obter os dados, o próximo passo é estimar os parâmetros da função consumo. A
estimativa numérica dos parâmetros fornece conteúdo empírico à função consumo.
β1=∑i=0(xi−x¯)∗yi/∑i=0(xi−x¯)^2
β0=y¯−b1∗x¯
Exemplo: y=34,456+0,793x
Interpretação:
34,456- significa que, em média, uma família sem rendimentos tem uma despesa de consumo
de 34,456 unidades monetárias.
0,793- significa que o aumento do rendimento disponível da família irá ocasionar um

aumento do consumo em 0,793 unidades.
Tendo em conta os dados abaixo, pôde-se estimar os parâmetros do modelo.
i x y x^2 XY xi-média (xi-média)^2 (xi-média)*yi

1 1 80,5 1 80,5 -2,5 6,25 -201,25
2 2 81,6 4 163,2 -1,5 2,25 -122,4
3 3 82,1 9 246,3 -0,5 0,25 -41,05
4 4 83,7 16 334,8 0,5 0,25 41,85
5 5 83,9 25 419,5 1,5 2,25 125,85
6 6 85 36 510 2,5 6,25 212,5
Total 21 496,8 91 1754,3 0 17,5 15,5
β1=15,5/17,5=0,886
Ou
β1=(6*1754,3-21*496,8)/(6*91-21*21)=0,886
β0=(496,8-0,886*21)/6=79,7
Assim, temos a seguinte reta de regressão: y=79,7+0,886x
Deste modo; um aumento do rendimento disponível em uma unidade monetária, vai aumentar
as despesas de consumo em 0,886 unidades.
79,7 representa a parte do consumo que não depende do rendimento disponível.
3.6. Previsão ou projeção
Por exemplo, quanto consome uma família que, tem um rendimento disponível médio de
1000 unidades monetárias?
y=79,7+0,886*1000=965,7 unidades
Hipóteses do modelo linear simples

1. Modelo é linear nos parâmetros;
2. A amostragem é aleatória;
3. Variação amostral da variável independente.
4. Coeficiente de determinação
Este coeficiente mede a qualidade do ajustamento da equação de regressão, isto é, fornece a

proporção ou percentual da variação total da variável dependente Y que é explicada pela
variável explanatória (única) X. É uma medida resumida que diz quanto a linha de regressão
amostral ajusta-se aos dados.
A fórmula para o seu cálculo é:
Onde:
SQR- é a soma dos quadrados dos resíduos
SQT- é a soma dos quadrados totais
O r^2 se situa entre 0 e 1. Se for 1, a linha de regressão ajustada explicará 100% da variação
de Y. Por outro lado, se for 0, o modelo não explicará nada da variação de Y. De modo geral,
R está entre esses valores extremos. Diz-se que a qualidade do ajustamento é “melhor”
quanto mais próximo R^2 situar-se de 1.
Por exemplo de r^2=0,761 significa que cerca de 76,1% das variações da variável explicada
(dependente) dependem das variações da variável explicativa e as restantes 23,9% são
explicadas por outros fatores não incluídos explicitamente no modelo.
Considerando os seguintes dados:
i x y Ŷ (Ŷ-ymédio)^2 (Yi-Ymédio)^2
1 1 80,5 80,586 4,901796 5,29
2 2 81,6 81,472 1,763584 1,44
3 3 82,1 82,358 0,195364 0,49
4 4 83,7 83,244 0,197136 0,81
5 5 83,9 84,13 1,7689 1,21
6 6 85 85,016 4,910656 4,84
Total 21 496,8 496,806 13,737436 14,08
R^2=13,737436/14,08=0,9757
Interpretação: Cerca de 97,57% das variações do consumo dependem do rendimento
disponível, as restantes 2,43% dependem de outros fatores não incluídos explicitamente no
modelo.
5. Pressupostos do modelo linear simples
1. Os erros (ei) são variáveis aleatórias de média igual a zero;
2. Os erros (ei) são variáveis aleatórias de variância constante (σ^2) – hipótese de

homocedasticidade.
3. As variáveis aleatória e1, e2… ek são independentes.
4. Os erros ei seguem uma distribuição normal: ei ~ N(0, σ^2 ).
6. Análise com recurso ao pacote estatístico STATA.

Considerando o seguinte modelo do salário:
wage= β0+ β1female+u
onde wage= salário, female = variável género.
. reg wage female
Source SS df MS Number of obs = 526

F( 1, 524) = 68.25
Model 832.285637 1 832.285637 Prob > F = 0.0000
Residual 6390.37876 524 12.1953793 R-squared = 0.1152
Adj R-squared = 0.1135
Total 7222.66439 525 13.757456 Root MSE = 3.4922
wage Coef. Std. Err. t P>|t| [95% Conf. Interval]
female -2.517987 .3048 -8.26 0.000 -3.116767 -1.919207

_cons 7.115328 .2109708 33.73 0.000 6.700876 7.529781
Com base nos resultados o modelo pode ser colocado na seguinte equação:
wage= 7,115-2,518female+u
Os resultados mostram que, cerca de 11,52% das variações no salário são explicadas pela
variável gênero e as restantes 88,48% são explicadas por outros fatores.
-2,518 mostra a diferença salarial entre homens e mulheres. Deste modo, as mulheres
recebem 2,518 a menos do que os homens.
7. Bibliografia
Luiz Medeiros de Araújo Lima Filho, “correlação e regressão” , Universidade Federal da
Paraíba.
Flávia Chein (2019), “Introdução aos modelos de regressão linear: um passo inicial para
compreensão da econometria como uma ferramenta de avaliação de políticas públicas”
Brasília DF Enap
Dadomar N. Gujarati & Dawn C. Porter (2011), “Econometria básica” 5ª edição, AMGH
Editora Ltda.

Cópia de Bioestatística Job

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Cópia de Bioestatística Job

Enviado por

Direitos autorais:

Formatos disponíveis

Instituto Superior de Ciências de Saúde

Licenciatura em Nutrição; Pós-Laboral

Tema: regressão e correlação simples.

Celestina Simão Marrengula

Maputo, Junho de 2023

Tendo em conta os dados a seguir, pôde-se construir um diagrama de dispersão.

Na análise de correlação, o principal objetivo é medir a força ou o grau de associação linear

O valor de “r” estará sempre no intervalo de -1 a 1.

2.1. Tipos de correlação

1. Exposição da teoria ou hipótese.

3.1. exposição da teoria ou hipótese

3.2. especificação do modelo matemático da teoria

em que Y representa as despesas de consumo e X o rendimento disponível, β0 e β1 são

Na Equação anterior a variável que aparece do lado esquerdo do sinal de igualdade é

3.4. Obtenção dos dados

0,793- significa que o aumento do rendimento disponível da família irá ocasionar um

i x y x^2 XY xi-média (xi-média)^2 (xi-média)*yi

3.6. Previsão ou projeção

Hipóteses do modelo linear simples

Este coeficiente mede a qualidade do ajustamento da equação de regressão, isto é, fornece a

5. Pressupostos do modelo linear simples

1. Os erros (ei) são variáveis aleatórias de média igual a zero;

2. Os erros (ei) são variáveis aleatórias de variância constante (σ^2) – hipótese de

4. Os erros ei seguem uma distribuição normal: ei ~ N(0, σ^2 ).

6. Análise com recurso ao pacote estatístico STATA.

onde wage= salário, female = variável género.

. reg wage female

Source SS df MS Number of obs = 526

wage Coef. Std. Err. t P>|t| [95% Conf. Interval]

female -2.517987 .3048 -8.26 0.000 -3.116767 -1.919207

Você também pode gostar