Você está na página 1de 24

CAPÍTULO II

Estatística Descritiva Bivariada

Estatística Aplicada | Gestão Pública


Existe um grande número de estudos estatísticos que não é dedicado apenas a analisar o valor de
uma única variável mas de várias variáveis em simultâneo.
Neste tipo de estudos, a cada elemento analisado corresponde um conjunto de valores, sendo os
dados resultantes designados por multivariados (podemos para cada indivíduo analisar em simultâneo,
por exemplo a idade, a altura, o peso, o estado civil, o distrito onde reside, etc.).
No caso particular de serem medidas duas variáveis para cada um dos elementos que constituem a
amostra obtém-se um conjunto de dados bivariados.
Na caracterização de uma amostra bivariada, para além de se analisar separadamente os dados
relativos a cada atributo, interessa frequentemente verificar se existe uma relação de associação entre
eles e, em caso afirmativo, caracterizar essa relação.
Será abordado o caso de dados bivariados.

Resumidamente,

Objetivos
Estudo em simultâneo de duas séries de observações, pondo em evidência
“relações” existentes entre elas.
Não são relações determinísticas que interessam à Estatística, mas é o
comportamento em média (relação estatística) das duas características.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 2


Sejam (x1,y1), (x2,y2), …,(xN,yN) observações efetuadas em N unidades
estatísticas.
Para o estudo das características e pesquisa de existência de relação entre as
variáveis existem diversas técnicas:

Elaboração de tabelas
Representação gráfica
Cálculo de Indicadores

1. Elaboração de Tabelas
Para o estudo de duas variáveis simultaneamente, recorre-se inicialmente a
quadros de dupla entrada, também designados de tabelas de contingência ou
quadros estatísticos a duas dimensões.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 3


1. Elaboração de Tabelas

Consideremos o atributo X e as suas p modalidades Xi (i=1,2,…p) e o atributo Y


e as suas q modalidades Y i (i=1,2,…,q). Obtém-se a seguinte tabela:

nij – número de indivíduos para os quais


foi observado o par (xi, yj), isto é, o número de
indivíduos pertencentes simultaneamente às
modalidades Xi e Yj.

q
ni .   nij - número de indivíduos
j 1
pertencentes à modalidade Xi
p
n. j   nij - número de indivíduos
i 1 pertencentes à modalidade Yj
p m

 n
i 1 j 1
ij  n.. - número total de indivíduos.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 4


Exemplo 1: in www.alea.pt
Num inquérito realizado a 150 indivíduos, estes tiveram de assinalar o sexo, M ou
F, e o estado civil - solteiro, casado, viúvo ou divorciado. Para resumir a informação
contida na amostra, construiu-se a seguinte tabela de contingência:

Da análise da tabela podemos tirar algumas conclusões, tais como:


O número de indivíduos do sexo masculino e solteiros é 40
O número de indivíduos do sexo masculino é 68
O número de indivíduos viúvos é 5

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 5


Distribuições Marginais e Condicionais

Exemplo 2: in www.dgidc.min-edu.pt
Suponha que uma universidade decidiu estudar o seu corpo docente quanto
ao estado civil e categoria profissional, tendo obtido os seguintes resultados:

Na coluna do lado direito os totais de linha correspondem à distribuição da


variável “categoria profissional”. Analogamente, na última linha estão
apresentados os totais de coluna, que correspondem à distribuição da variável
“estado civil”. Estas distribuições chamam-se distribuições marginais.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 6


165 – frequência absoluta marginal de indivíduos cuja categoria profissional é Assistente.
189 – frequência absoluta marginal de indivíduos cujo estado civil é Casado.

Na tabela seguinte apresentam-se as distribuições condicionais da variável categoria


profissional, relativamente às classes da outra variável estado civil. Obtém-se a partir da
tabela anterior, dividindo o valor de cada célula pelo total de coluna correspondente
Tem-se assim que, por exemplo, nos solteiros a percentagem de assistentes é de
aproximadamente 72%, enquanto que nos casados é de aproximadamente 23%.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 7


Estas distribuições condicionais podem ser visualizadas graficamente num diagrama
de barras por segmentos, como se apresenta a seguir:

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 8


O diagrama de barras por segmentos abaixo representa a distribuição da
variável categoria profissional, relativamente ao estado civil.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 9


2. Representação Gráfica

As observações podem representar-se graficamente num diagrama de


dispersão (scatterplot) ou nuvem de pontos: marca-se num sistema de eixos
cartesianos cada par observado (xi, yj).

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 10


Exemplo 1:

X Y
A 2 4
B 3 7
C 0.5 3
D 1 2
E 5 8
F 1.5 6
G 2.5 5

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 11


Diagrama de Dispersão
Exemplo 3: correspondente à Variação diária das Bolsas de Valores
20

15
Variação Percentual
Dia
Bovespa BVRJ
1 4,9935 6,9773 10
2 5,5899 6,1085
3 3,852 2,4847

BVRJ
4 0,9984 -0,1044 5
7 2,4872 2,4942
8 0,0142 0,1239
0
9 -1,7535 -0,4221
11 8,1764 9,5148 -6 -4 -2 0 2 4 6 8 10
14 0,6956 -1,7359 -5
15 1,6164 2,2749
16 7,5829 15,4173
17 -4,6706 -6,236 -10
BOVESPA
18 0,6629 2,6259
21 1,1651 0,8728
22 3,2213 4,8243
23 -2,7226 -4,7266 Variação diária das bolsas de valores – Junho de 1993
24 1,2508 -0,4985 Fonte: Folha de São Paulo – índice de Fecho
25 7,1845 6,6798
28 2,5674 1,2299 Ibovespa – índice que mostra a variação das acções mais negociadas na Bolsa de
29 -1,3235 -3,0375 Valores de São Paulo
30 1,6685 1,2303
BVRJ- índice que mostra a variação das acções mais negociadas na Bolsa de
Valores DO Rio de Janeiro.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 12 12


3. Indicadores Numéricos

• Médias Marginais de X e Y respetivamente

é o centro de gravidade da nuvem de pontos.


Não pertence necessariamente à nuvem de pontos.

• Dispersões Marginais

Mas há uma medida que dá informação sobre as duas variáveis em


simultâneo.
GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 13
3. Indicadores Numéricos
Covariância

Dados N pares de pontos (xi,yj), i=1,2,..,n, chama-se covariância de X e Y a

1 n
cov x , y   s xy    xi  x  yi  y 
n i 1

 xy  x y

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 14


Interpretação da Covariância

A covariância está relacionada com a dependência linear das duas variáveis.


O sinal da covariância indica o tipo de associação que existe entre as duas
variáveis.
O seu valor absoluto será tanto maior quanto mais intensa for essa
associação:

cov(x, y) > 0 – há associação linear positiva;


cov(x, y) < 0 – há associação linear negativa.

Se X e Y são duas variáveis aleatórias independentes, então cov(x, y)=0


Mas a recíproca não é verdadeira. O facto de cov(x,y)=0 não implica
necessariamente que X e Y sejam independentes.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 15


3. Indicadores Numéricos
Coeficiente de Correlação

Olhando para o valor absoluto da covariância é difícil julgar o grau de associação, visto ser
uma medida absoluta não padronizada.
O coeficiente de correlação linear é a correspondente medida padronizada:

cov x, y 
Correlação forte Correlação fraca/irrelevante Correlação forte

r 1  r  1
sx s y
-1 -0-.75 - 0. 5 0 0. 5 0.75 1
Inexistente
Correlação moderada Correlação moderada

Interpretação do Coeficiente de Correlação:


O coeficiente de correlação mede a nitidez da ligação existente entre duas variáveis, quando essa
ligação é linear ou aproximadamente linear.
Assim, valores do coeficiente de correlação próximos de 1 indicam uma forte associação linear
crescente entre as variáveis
Valores próximos de -1 indicam uma forte associação linear decrescente.
Valores próximos de zero indicam fraca associação linear (isso não significa que não exista algum
outro tipo de associação!!)

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 16


Diagramas de Dispersão e
Coeficiente de Correlação
O respectivo diagrama de dispersão fornece alguma informação sobre a forma e direcção da
associação existente entre as variáveis X e Y, assim como sobre a intensidade dessa mesma associação.

• r=1 todos os pontos •r = 0 a nuvem apresenta um aspecto arredondado ou


observados se encontram sobre • r=−1 todos os pontos
alongado segundo um dos eixos.. observados se encontram sobre
uma recta de declive positivo.
uma recta de declive negativo.

•r  1 todos os pontos observados • r-1 todos os pontos


se encontram sobre uma recta de observados se encontram
declive positivo. próximos de uma recta de
declive negativo.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 17


Exemplo: Considere os seguintes diagramas de
dispersão correspondentes aos resultados de 2 exames de
6 turmas (A-F):
A visualização dos gráficos permite supor
que entre os dois exames se pode admitir o
seguinte tipo de associação:

Forte Moderada Fraca


Positiva E A B
Negativa C D F
Completa-se a informação com o cálculo
do coeficiente de correlação:
Turma Correlação

A 0.71

B 0.47

C -0.99

D -0.72

E 0.99

F -0,47

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 18


Considere agora as duas representações correspondentes às notas obtidas pelas
turmas H e I:

O valor para o coeficiente de correlação é respetivamente 0.04 e 0.70 para as turmas H e


I.
No entanto, se retirarmos a cada um dos conjuntos de dados anteriores o “outlier”, já o
valor do coeficiente de correlação passa para 0.9997 e 0.13, respetivamente para as
classes H e I.
Este exemplo mostra que o coeficiente de correlação não é uma medida resistente, já que
é muito influenciado pelos ”outliers”.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 19


NOTA:
É bastante importante salientar a interpretação da covariância que mede o grau de
associação linear entre variáveis. Considerando o diagrama de dispersão abaixo , pode-se
verificar que existe uma associação quadrática perfeita entre as variáveis; no entanto, a
covariância entre elas é nula!

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 20


4. Reta de Regressão

Se |r| ≃ 1 e o diagrama de dispersão sugere a existência de uma relação linear


entre os valores observados , ou seja, a relação entre as duas variáveis é
aproximadamente representada por uma linha reta.

Como obter a equação dessa reta? A sua determinação tem interesse porque:
 Permite descrever formalmente a relação entre x e y
 Predizer o valor de y dado um valor conhecido de x

Existem vários métodos para proceder ao ajustamento da reta.


Obviamente que se pretenderia que a linha representativa passasse por todos os pares ordenados.
Segundo o método mais clássico, o método dos mínimos quadrados, a reta define-se de modo que
seja mínima a soma dos quadrados dos desvios dos pontos em relação à reta.

A esta reta chama-se RETA DE REGRESSÃO.


Prova-se que esta reta passa no centro de gravidade da nuvem de pontos.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 21


4. Reta de Regressão

Equação da reta de Regressão


y=0.88x+1.24
Declive =0.88

Coeficiente de Determinação
Reta de Regressão

A reta de regressão e a respectiva equação podem facilmente ser obtidas através do software Microsoft Excel
(ver demonstrações vídeo).
O coeficiente de determinação, r2, pode ser interpretado como a percentagem de variância de Y que advém da
da variabilidade de X e da relação linear entre x e y.
Assim, quando r21 a nuvem de pontos não se afasta muito do padrão linear do modelo, mas à medida que r2
decresce a nuvem de pontos vai perdendo estrutura linear e quando r20 não é possível discernir estrutura linear.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 22


Não confundir Associação estatística com causalidade

“ Ao estudarmos a relação existente entre duas variáveis x e y, um valor elevado para r nem sempre significa que x seja
causa de y ou y seja causa de x. Afirmar, portanto, que há correlação entre duas variáveis não nos permite dizer que
exista relação causal entre elas.

Existência de correlação nada diz sobre a natureza da relação causal que porventura existe entre as variáveis
observadas.
Contudo, na complexidade do mundo que nos rodeia a deteção de associação estatística é muitas vezes um primeiro
sinal que alerta para relações efetivas de grande importância.” (Dinis Pestana,

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA


5. Referências

• A. C. Pedrosa; S.M. Gama: Introdução Computacional à Probabilidade e Estatística, Porto Editora, 2004.
• B. Murteira: Análise Exploratória de Dados, McGraw-Hill, 1999
• B. Murteira; C. Ribeiro et al: Introdução à Estatística, McGraw-Hill, 5ª Ed., 2007.
• D. Levine, T. Krehbiel, M.Berenson: Business Statistics, A First Course, Prentice-Hall, 2006
• D. Pestana, S. Velosa: Introdução à Probabilidade e à Estatística, Vol. I, 4ª Ed., Fundação Calouste Gulbenkian.
• F. Galvão de Mello: Probabilidades e Estatística, Conceitos e Métodos Fundamentais, Vol.1 e 2, Escolar Editora, 1997
• M.A. Neves;S. Bolinhas;L.Faria: Matemática Aplicada às Ciências Sociais 10º ano, Parte 2, Porto Editora, 2010.
• M. M. Neves: Introdução à Estatística e à Probabilidade, Instituto Superior de Agronomia, 2007
• M. Berenson, D. Levine et al: Basic Business Statistics: Concepts and Applications, Prentice Hall, 2004
• P.Newbold; W. L. Carlson; B. Thorne: Statistics for Business and Economics, Pearson Higher Education, 2002
• R. Guimarães, J. Sarsfield Cabral: Estatística, 2º Ed., McGraw-Hill, 2007.

Internet
• ALEA - Acção Local de Estatística Aplicada: alea-estp.ine.pt

Apontamentos IPCA
• Professor Mário Basto, apontamentos leccionados na cadeira de Probabilidades e Estatística.

GESTÃO PÚBLICA | ESTATÍSTICA APLICADA 24

Você também pode gostar