Você está na página 1de 6

Exemplo: Para 68 empregados de uma empresa foram medidas as variveis salrio Inicial

no emprego, Salrio atual,,Sexo, Idade, nmero de anos de estudo (Anos_escola) , e anos


de experincia no trabalho (Exp)
Indivduo

Sal_inicial

Sal_atual

Idade

Exp

15994,5

8349,9

16

28.50

0.25

28282,5

17326,6

19

41.92

13.00

22697,3

10721,4

15

41.17

12.00

12332,6

10721,4

12

46.25

20.00

20333,0

10938,0

16

35.17

5.75

27173,6

12835,9

19

30.08

2.92

64

7863,6

4064,31

12

44.50

0.25

65

8266,8

5377,61

59.08

6.25

66

17326,6

7785,36

12

51.50

15.08

67

6768,3

4105,16

16

27.58

0.92

68

22247,8

7942,63

56.92

26.58

Relacionando Variveis

O salrio atual varia com sexo?

Sexo Anos_escola

Boxplot of salInicial

Boxplot of salFinal
45000

17500

40000
15000

35000

Mdia

D.Padro

Minimo

Q1

Mediana

Q3

Maximo

12500

30000

salInicial

salFinal

Sexo

25000

36 19.507

8.069

8.955

12.458

17.105

25.022

41.357

20000

32 11.769

4.894

6.311

8.351

9.801

13.632

24.835

10000

10000

7500

15000
5000

5000
F

M
Sexo

Histogram of salFinal -Homens

M
Sexo

Histogram of salFinal - Mulheres

12

10

Frequency

Frequency

5
4
3

2
1
0
10000

15000

20000

25000
salFinal

30000

35000

40000

0
7500

10000

12500

15000
17500
salFinal

20000

22500

25000

Considerando 2 variveis categricas

Distribuio dos trabalhadores segundo sexo e anos de estudo

Exemplo: Vamos categorizar a varivel anos de estudo


At 8 anos categoria 1
De 9 a 12 anos categoria 2
13 ou mais anos categoria 3

Sexo

AnosEstudo
1
2
3

Sexo
Feminino
Masculino

Frequencia Absoluta Porcentagem


11
16,18
23
33,82
34
50,00
Freqncia
Absoluta
32
36

Anos de Estudo

Total

<=8

9 a 12

>12

14

12

22

36

Total

11

23

34

68

Anos de Estudo

Sexo

Porcentagem
47,05
52,95

Como investigar a associao entre duas variveis categricas?

32

Total

<=8

9 a 12

>12

6
(18,75)

14
(43,75)

12
(37,50)

32
(100)

5
(13,89)

9
(25,00)

22
(61,11)

36
(100)

11
(16,18)

23
(33,8
2)

34
(50,0
0)

68
(100)

A distribuio de anos de estudo depende do sexo?


Total

A distribuio de sexos depende da categoria de anos de estudo?


distribuio de sexo por caegoria de anos de estudo

6
(54,55)

14
(60,87)

12
(35,29)

32
(47,06)

5
(45,45)

9
(39,13)

22
(64,71)

36
(52,94)

Total

11
(100)

0.8

0.4
0.2

0.2

0.0

68
(100)

0.0

23 (100) 34 (100)

13ou mais
9 a 12
<=8

0.6

>12

0.4

9 a 12

0.8

Total

<=8

0.6

Sexo

1.0

1.0

distribuio de anos de estudo por caegoria de sexo


M
F

Anos de Estudo

2
anos de estudo

M
sexo

A distribuio do salrio atual depende da distribuio do salrio inicial?

(a)

(b)

Isto existe associao entre as variveis?

Diagrama de disperso de salrio atual versus salario Inicial


45000
40000

Sal_atual

35000
30000

Associao linear positiva

25000

Ausncia de associao linear

20000

r= 0,056

r=0,94

( c)

(d)

Associao linear negativa


r = -0,94

Associao linear positiva


r = 0,49

15000
10000
5000
5000

7500

10000
12500
Sal_inicial

15000

17500

Construir diagramas de disperso


Quantificar a fora da associao

(e)

(f)

O diagrama de disperso construdo a partir das observaes (x,y) das


varveis X e Y de interesse, obtidas para n indivduos.
Indivduo Varivel Y Varivel X

Associao linear negativa


r = -0,61
( g)

Associao lienar positiva perfeita


r=1

Associao no linear
r=0,061
(h)

Associao lienar negativa perfeita


r = -1

y1

x1

y2

x2

y3

x3

y4

x4

yn

xn

Cada ponto no grfico representa um indivduo.


Ao construir o diagrama o comprimento do eixo vertical no deve ser muito
menor que o comprimento do eixo horizontal.
A Associao entre as variveis linear (pontos esto prximos de uma reta)
A associao positiva (Quanto maior o salrio inicial maior o salrio atual)

Como quantificar a associao entre 2 variveis quantitativas?


Diagrama de Dsiperso de Gastos versus Renda

Vamos apresentar duas medidas: covarincia e correlao

2000

1750

Dados de renda e gastos mensais de 10 pessoas


X Renda (reais)

Y Gastos (reais)

1117,25

1166,77

2486,12

1951,00

1933,51

1737,32

1500
Gastos

Indivduo

1250

1000

695,19

744,90

1280,50

1544,75

1842,9

1295,87

629,31

981,88

1137,82

1050,07

757,85

645,03

10

695,05

615,69

750

500
500

1000

1500
Renda

2000

2500

Covarincia amostral entre 2 variveis X e Y


Na tabela abaixo exemplificado o clculo da covarincia

s xy =

1 n
(xi x )( y i y )
n 1 i =1

A covarincia a variao conjunta de 2 variveis. Ela positiva se Y aumenta


com o aumento de X negativa quanto Y decresce com o aumento de X.
O valor da covarincia pode variar de

+.

A unidade de medida da covarincia dada pelo produto das unidades de


medida das variveis em questo.

Para o exemplo acima sxy = 263496 reais x reais

Indivduo
1
2
3
4
5
6
7
8
9
10
Soma

x = 1257,55

x
1117.25
2486.12
1933.51
695.19
1280.50
1842.90
629.31
1137.82
757.85
695.05

(x x)
( y y)
( x x )( y y )
y
1166.77 -140,3, -90,78
12736,43
1951.00 1228,57 693,45 851951,90
1737.32 675,96 479,77 324305,30
744.90 -562,36 -512,65 288293,90
1544.75
22,95 287,20
6591,24
1295.87 585,35
38,32
22430,61
981.88 -628,24 -275,67 173186,90
1050.07 -119,73 -207,48
24841,58
645.03 -499,70 -612,52 306076,20
615.69 -562,50 -641,86 361046,30
0
0
2371460

y = 1173,33

s xy =

2371460
= 233496
10 1

E usual apresentar as covarincias entre vrios pares de variveis na forma de


uma matriz: matriz de varincias e covarincias

Entendendo a covarincia

Exemplo:
Matriz de covarincias
anosestudo
idade
exp
salfinal
salinicial

anosestudo
idade
exp
salfinal salinicial
11.87
-18.04
-9.52
17778.41
8885.53
-18.04
163.13
104.92
-35860.51
-10187.53
-9.52
104.92
109.55
-17600.28
-2167.16
17778.41 -35860.51 -17600.28 60231619.28 20931398.72
8885.53 -10187.53 -2167.16 20931398.72 11180536.00

A matriz simtrica: COV(x1,x2) = COV(x2,x1)


Na diagonal da matriz temos as Varincias: COV(x1,x1) = VAR(x1)

COV(idade, anosestudo) = COV(anosestudo, idade) = -18,04 anos x anos

Qual o sinal das contribuies ( x i x)( y i y) em cada um dos quadrantes


definidos por x e y ?

COV(anosestudo,anoestudo) = VAR(anosestudo) = 11,87 anos2

O salrio final est mais fortemente associado com a idade ou com o salrio
inicial?

O coeficiente de correlao linear rxy mede o grau de associao linear entre


duas variveis.

No podemos responder esta pergunta usando a covarincia. Ela depende da


unidade de medida.

O coeficiente de correlao no possui unidade de medida.


-1 < r < 1

Para responder esta pergunta vamos utilizar o coeficiente de correlao de


linear de Pearson

Correlao linear

1 n xi x yi

rxy =

n 1 i =1 s x s y

y s xy
=
s s
x y

r< 0

associao linear negativa entre as variveis

r= 0

no h associao linear entre as variveis

r> 0

associao linear positiva entre as variveis

r = -1
onde sx e sy so os desvios padro das variveis X e Y.

r=1

correlao linear inversa perfeita


correlao linear direta perfeita

Clculo da correlao entre gasto e renda

Quanto mais prximos os pontos no diagrama de disperso estiverem

Y gastos X renda

de

uma reta, mais prxima a correlao estar de 1 ou 1

s xy = 233496 reais x reais


Observe o grfico (f). Mesmo com uma forte associao entre as variveis a
correlao prxima de zero. Isto acontece porque o coeficiente de Pearson
adequado para medir associaes lineares. Portanto boa pratica construir o
diagrama de disperso antes de interpretar os coeficientes

s x = 634,25 reais

rxy =

s y = 459,62 reais

233496 reais x reais


= 0,9038
634,25 reais x 459,62 reais

Exemplo: Matriz de correlao

anosestudo
idade
exp
salfinal
salinicial

anosestudo
1.00
-0.41
-0.26
0.66
0.77

idade
exp salfinal salinicial
-0.41 -0.26
0.66
0.77
1.00 0.78
-0.36
-0.24
0.78 1.00
-0.22
-0.06
-0.36 -0.22
1.00
0.81
-0.24 -0.06
0.81
1.00

A matriz simtrica

corr(exp, idade) = corr(idade, exp) = 0,78

Os elementos da diagonal so iguais a 1. (grafico de x versus x uma reta)

Você também pode gostar