Você está na página 1de 52

Estatística

Aula 06 - Análise Bidimensional


Sistemas de Informação
prof. Rayner Gomes - rayner@ufpi.edu.br/raynergomes@gmail.com
Aviso: As videoaulas gravadas e
disponibilizada aos alunos da UFPI são
estritamente reservados aos alunos da
UFPI, sendo proibido qualquer
divulgação e distribuição. A reprodução
só é permitida aos alunos matriculados
na disciplina.
Tópicos

1. Introdução
2. Tipos
3. Variáveis Qualitativas
4. Variáveis Quantitativas
5. Um variável qualitativa e outra quantitativa

3
Análise Bidimensional

● até o momento vimos como organizar e resumir


informações pertinentes a uma única variável.
● frequentemente estamos interessados em analisar o
comportamento conjunto de duas ou mais variáveis
aleatórias.

4
Exemplo de uma Tabela de Dados

np dados

5
Objetivo da Análise Bidimensional

● explorar relações (similaridades ou não) entre as colunas, ou vezes entre as


linhas.
● a análise pode ser feita com variáveis em tabelas distintas, cabe ao
pesquisador o discernimento da coerência entre entre as variáveis.
○ muitas vezes a falta de coerência leva ao uso de dados estatísticos para pseudo validação de
um caso qualquer.

6
Objetivo da Análise Bidimensional

7
Tome nota

é importante o conhecimento sobre a área onde se realiza uma


análise, “jogar/usar-se”” de fórmulas a fim de achar evidências ou
a falta delas não é um procedimento final, sempre a
contextualização e explicação suportada por provas formais são
necessárias!

8
Exemplo de Questões de Interesse
Estado Região de
N Civil Grau de Instrução N de Filhos Salario (x Sal Min) Anos Meses Procedência

1 solteiro ensino fundamental 4,00 26 3 interior

2 casado ensino fundamental 1 4,56 32 10 capital

3 casado ensino fundamental 2 5,25 36 5 capital

4 solteiro ensino médio 5,73 20 10 outra

5 solteiro ensino fundamental 6,26 40 7 outra

Será que existe relação entre o Estado Civil e o Salário?


9
Três situações que poderão ocorrer

1. as duas variáveis são qualitativas

2. as duas variáveis são quantitativas

3. uma variável é qualitativa e outra é quantitativa

10
Variáveis Qualitativas

Quando as variáveis são qualitativas, os dados são resumidos em


tabelas de dupla entrada (ou de contingência), em que aparecerão
as frequências absolutas o contagens de indivíduos que
pertencem simultaneamente a categorias de uma e outra variável.

11
Variáveis Qualitativas
Exemplo: Analisar o comportamento conjunto das variáveis Y: grau de instrução
e V: região de procedência, cujas observações estão contidas na Tabela 2.1

Estado Região de
N Civil Grau de Instrução N de Filhos Salario (x Sal Min) Anos Meses Procedência

1 solteiro ensino fundamental 4,00 26 3 interior

2 casado ensino fundamental 1 4,56 32 10 capital

3 casado ensino fundamental 2 5,25 36 5 capital

4 solteiro ensino médio 5,73 20 10 outra

5 solteiro ensino fundamental 6,26 40 7 outra

12
Fonte dos Dados: https://www.ime.usp.br/~pam/Dados_EB.xls
tabela de contingência
Variáveis Qualitativas

Existem três possibilidades de expressarmos a proporção de cada casela


(célula):
● em relação ao total geral
● em relação ao total de cada linha
● em relação ao total de cada coluna
13
Variáveis Qualitativas

Total Geral Total de cada Linha

14
Variáveis Qualitativas

15
Variáveis Qualitativas: Análises Preliminares

Há preferência por sexo?

16
Amplie seus horizontes!

17
Medidas de Associação entre Variáveis
Qualitativas
● Para facilitar a compreensão existem medidas que quantificam a
associação entre variáveis qualitativas, usualmente variam entre 0 e
1, ou entre -1 e +1 (onde 0 indica falta de associação).

● Duas mais utilizadas:


○ coeficientes de contingência
○ uma modificação da primeira.

18
Medidas de Associação entre Variáveis
Qualitativas
Exemplo: Queremos verificar se a criação de determinado tipo de
cooperativa está associada com algum fator regional. Coletado os
dados temos:

19
Análise de Dependência ou Independência

expectativa
20
Análise de Dependência ou Independência

Diferença entre a Tabela Original e a Tabela de valores Esperados.

21
Análise de Dependência ou Independência
Observando a última tabela, podemos tirar algumas conclusões:

● a soma total dos resíduos é nula. Isso pode ser verificado facilmente somando-se cada
linha.
● A casela Escola - São Paulo é aquela que apresenta o maior desvio da suposição de
não associação (-65). Nessa casela esperávamos 143 casos. A casela Escola Paraná
também tem um desvio alto (59), mas o valor esperado é bem menor (67). Portanto, se
fôssemos considerar os desvios relativos, àquele correspondente ao segundo caso
seria bem maior. Uma maneira de observar esse fato é construir, para cada casela, a
medida:
(4.1)

22
Qui-quadrado de Pearson
Na tabela temos:

nij = número de elementos pertencentes à i-ésima


categoria de X e j-ésima categoria de Y;

= número de elementos da i-ésima categoria de X;

= número de elementos da j-ésima categoria de Y;

= qui-quadrado de Pearson (4.4)


23
Análise de Dependência ou Independência
Uma medida do afastamento global, pode ser dada pela soma de todas medidas
(4.1). Essa medida X² (qui-quadrado) de Pearson.

Consumidor Produtor Escola Outras


214 237 78 119
Original 51 102 126 22
111 304 139 48
Um valor grande de
157 269 143 79 X² indica associação
Esperado 73 124 67 37 entre as variáveis.
146 250 133 73
Como neste caso!
15.18224299 4.320675105 54.16666667 13.44537815
(4.1) 9.490196078 4.745098039 27.62698413 10.22727273
11.03603604 9.592105263 0.2589928058 13.02083333
X² 173.1124813
24
Qui-quadrado de Pearson
[no slide 23]

Um valor grande de Para fazer comparações, seria útil ter


X² indica associação uma média que varia num intervalo
entre as variáveis. limitado, como (0,1) por exemplo.
Como neste caso!

25
Qui-quadrado de Pearson [variações]
Pearson definiu uma medida de associação, baseada na (4.4) chamada de
coeficiente de contingência, dada por (4.5):

contudo, este coeficiente pode não atingir o valor máximo igual a 1, no caso de
dependência completa e o valor máximo depende r e s
26
Qui-quadrado de Pearson [variações]
r = número de linhas
Tschuprow (4.6): s = número de colunas
n = total
ver slide 23 e 26

Cramér (4.7):

27
Exemplo da aplicação dos X², C, T, e V

Exemplo: Queremos verificar se a criação de determinado tipo de


cooperativa está associada com algum fator regional.

28
Exemplo da aplicação dos X², C, T, e V

VY Consumidor Produtor Escola Outros Total


Capital 214 237 78 119 648
Interior 51 102 126 22 301
Original
Outra 111 304 139 48 602
Total 376 643 343 189 1551
VY Consumidor Produtor Escola Outros Total
Capital 33.02% 36.57% 12.04% 18.36% 100.00%
Interior 16.94% 33.89% 41.86% 7.31% 100.00%
Frequência relativa
Outra 18.44% 50.50% 23.09% 7.97% 100.00%
Total 24.24% 41.46% 22.11% 12.19% 100.00%

29
Exemplo da aplicação dos X², C, T, e V
VY Consumidor Produtor Escola Outros Total
Capital 214 237 78 119 648
Interior 51 102 126 22 301
Original
Outra 111 304 139 48 602
Total 376 643 343 189 1551
VY Consumidor Produtor Escola Outros Total
Capital 33.02% 36.57% 12.04% 18.36% 100.00%
Interior 16.94% 33.89% 41.86% 7.31% 100.00%
Frequência relativa
Outra 18.44% 50.50% 23.09% 7.97% 100.00%
Total 24.24% 41.46% 22.11% 12.19% 100.00%
VY Consumidor Produtor Escola Outros Total
Capital 157.0909091 268.6421663 143.303675 78.96324952 648
Esperado Interior 72.96969697 124.7859446 66.56544165 36.67891683 301
Outra 145.9393939 249.5718891 133.1308833 73.35783366 602
Total 376 643 343 189 1551

30
VY Consumidor Produtor Escola Outros Total
Capital 214 237 78 119 648
Interior 51 102 126 22 301
Original
Outra 111 304 139 48 602
Total 376 643 343 189 1551
VY Consumidor Produtor Escola Outros Total
Capital 33.02% 36.57% 12.04% 18.36% 100.00%
Interior 16.94% 33.89% 41.86% 7.31% 100.00%
Frequência relativa
Outra 18.44% 50.50% 23.09% 7.97% 100.00%
Total 24.24% 41.46% 22.11% 12.19% 100.00%
VY Consumidor Produtor Escola Outros Total
Capital 157.0909091 268.6421663 143.303675 78.96324952 648
Esperado Interior 72.96969697 124.7859446 66.56544165 36.67891683 301
Outra 145.9393939 249.5718891 133.1308833 73.35783366 602
Total 376 643 343 189 1551
VY Consumidor Produtor Escola Outros
Capital 56.90909091 -31.64216634 -65.30367505 40.03675048
-14.6789168
Desvio Interior -21.96969697 -22.78594455 59.43455835 3
-25.3578336
Outra -34.93939394 54.4281109 5.869116699 6

31
Os dados do (4.1) não
estão corretos, pois eu
dividi pelo oij e o correto é
eij.

32
Exemplo da aplicação dos X², C, T, e V

X² 173.37
n 1551
s 4
r 3
C 0.3170821142
T 0.2136206652
V 0.2364101278

33
Variáveis Quantitativas

As observações são provenientes de mensurações e técnicas


como gráfico de dispersão ou de quantis são apropriadas.

34
Variáveis Quantitativas

Em resumo, as mesmas técnicas que usamos para as variáveis


qualitativas podem ser usadas para variáveis quantitativas! O
procedimento é mais rápido, pois não temos que contabilizar as
frequências relativas.

35
Variáveis Quantitativas

● Para evitar um grande número de entradas, agrupamos os


dados marginais em intervalos de classes de modo semelhante
ao resumo feito no caso de unidimensionais.
● As variáveis quantitativas são passíveis de procedimentos
analíticos e gráficos mais refinados.

36
Gráfico de Dispersão
Tabela 4.12: Número de anos de serviço (x) por número de clientes (Y) de agentes de uma
companhia de seguros.

37
Gráfico de Dispersão

Figura 4.3: Gráfico de dispersão para as variáveis X:


população urbana e Y:população rural.

38
Gráfico de Dispersão
Numa pesquisa com 10 famílias com renda bruta mensal entre 10 - 60
salário mínimos mediram-se X: Renda bruta mensal e Y: Renda gasta
em saúde.

39
Gráfico de Dispersão
Oito indivíduos foram submetidos a um teste sobre conhecimento de língua
estrangeira e, em seguida, mediu-se o tempo gasto para cada um aprender a
operar uma determinada máquina. X: Resultado do teste (0-100), Y: Tempo de
operação.

40
Variáveis Quantitativas
● é útil quantificar a associação.
● queremos uma medida que resulte em valores de -1 a +1.
● alguns resultados que podemos encontrar em um gráfico de dispersão.

41
Coeficiente de Covariância

42
Coeficiente de Correlação

A covariância mede a relação linear entre duas variáveis, ela é semelhante à


correlação entre duas variáveis, no entanto, elas diferem das seguintes maneiras:

● Os coeficientes de correlação são padronizados. Assim, um relacionamento linear


perfeito resulta em um coeficiente de correlação 1. A correlação mede tanto a
força como a direção da relação linear entre duas variáveis.

● Os valores de covariância não são padronizados. Portanto, a covariância pode


variar de menos infinito a mais infinito.

43
Coeficiente de Correlação

(4.9)

-1 <= corr(X,Y) <= 1 44


Exemplo de Correlação: passo a passo

X Y x̄ ȳ (xi - x) (yi - y) dp(X) dp(Y) A B A*B


1 10 3 30 -2 -20 1.58 15.81 -1.26 -1.26 1.6
2 20 3 30 -1 -10 1.58 15.81 -0.63 -0.63 0.4
3 30 3 30 0 0 1.58 15.81 0.00 0.00 0
4 40 3 30 1 10 1.58 15.81 0.63 0.63 0.4
5 50 3 30 2 20 1.58 15.81 1.26 1.26 1.6
Sum 4
Corr(X,Y) 1
45
Variáveis Qualitativa e Quantitativa

Em geral, analisamos o que acontece com a variável quantitativa


quando os dados são categorizados de acordo com o diversos
atributos da variável qualitativa.

46
Variáveis Qualitativa e Quantitativa

É comum nessas situações analisar o que acontece com a variável


quantitativa dentro da cada categoria da variável qualitativa. Essa
análise pode ser conduzida por meio de:

● medidas-resumo
● histogramas
● box-plots
● ramo-e-folhas

47
Variáveis Qualitativa e Quantitativa

48
Variáveis Qualitativa e Quantitativa
[fonte não confiável]

a leitura indica uma dependência dos salários em


relação ao grau de instrução. Uma vez que ...
49
Variáveis Qualitativa e Quantitativa
Análise dos salários em função da região de providência (V).

50
Variáveis Qualitativa e Quantitativa

a leitura indica uma inexistência dos salários em


relação ao grau de instrução. Uma vez que ...

51
tempo

progresso

"Podemos não ganhar todas as


batalhas, mas devemos dar sempre
o nosso máximo" - Spider-Man

até a próxima aula.


[be continued]

Image source 52
https://www.tumgir.com/

Você também pode gostar