Escolar Documentos
Profissional Documentos
Cultura Documentos
Anlise Exploratria
de Dados usando o
Enio Jelihovschi
Ilhus Bahia
2014
DIRETORA DA EDITUS
Rita Virginia Alves Santos Argollo
Conselho Editorial:
Rita Virginia Alves Santos Argollo Presidente
Andra de Azevedo Morgula
Andr Luiz Rosa Ribeiro
Adriana dos Santos Reis Lemos
Dorival de Freitas
Evandro Sena Freire
Francisco Mendes Costa
Jos Montival Alencar Jnior
Lurdes Bertol Rocha
Maria Laura de Oliveira Gomes
Marileide dos Santos de Oliveira
Raimunda Alves Moreira de Assis
Roseanne Montargil Rocha
Slvia Maria Santos Carvalho
Jelihovschi, Enio.
Anlise exploratria de dados usando o R/
Enio Jelihovschi Ilhus, BA: EDITUS, 2014.
85 p.: il.
Inclui Referncias.
ISBN: 978-85-7455-370-2
1. Estatstica-Processamento de dados. 2.
R(Linguagem de programao de computador).
Anlise multivariada (Processamento de dados
I. Ttulo.
CDD 519.5
Sumrio
Sumrio
iv
Lista de Tabelas
vi
Lista de Figuras
vi
Prefcio
Introduo Estatstica
I Dados univariados
Variveis
2.1 Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
11
16
Tabelas
3.1 Tabela de variveis categricas . . .
3.2 Tabela de distribuio de frequncias
3.3 Tabela de contingncia . . . . . . .
3.4 Exerccios . . . . . . . . . . . . . .
17
17
20
24
26
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
iv
Sumrio
4.1
4.2
4.3
4.4
5
v
Grfico de colunas
Grfico de setores .
Histograma . . . .
Exerccios . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
29
30
31
33
33
35
37
38
38
42
43
45
50
51
55
56
57
61
64
.
.
.
.
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
partir de uma
. . . . . . . .
. . . . . . . .
.
.
.
.
. . . . . .
. . . . . .
. . . . . .
. . . . . .
tabela de
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
a
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
II Dados multivariados
65
Anlise de correspondncia
8.1 Anlise de correspondncia mltipla, ACM . . . . . . . . . . .
66
72
Biplots
9.1 Doze pases da Europa . . . . . . . . . . . . . . . . . . . . . .
9.2 Fibrose cstica . . . . . . . . . . . . . . . . . . . . . . . . . . .
75
76
79
Referncias Bibliogrficas
83
Lista de Tabelas
3.1
3.2
3.3
19
20
25
5.1
5.2
39
41
8.1
Hbitos de fumo . . . . . . . . . . . . . . . . . . . . . . . . . .
68
9.1
9.2
9.3
12 pases da Europa . . . . . . . . . . . . . . . . . . . . . . . . .
Matriz de correlao . . . . . . . . . . . . . . . . . . . . . . . .
Fibrose cstica . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
78
80
Lista de Figuras
4.1
Grfico de coluna . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
28
Lista de Figuras
vii
4.2
4.3
Grfico de setores . . . . . . . . . . . . . . . . . . . . . . . . . .
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
31
6.1
6.2
Diagramas de caixa . . . . . . . . . . . . . . . . . . . . . . . . .
Diagramas de caixa explicado . . . . . . . . . . . . . . . . . . .
52
53
8.1
8.2
Resultado grfico da AC . . . . . . . . . . . . . . . . . . . . . .
Resultado grfico da ACM . . . . . . . . . . . . . . . . . . . . .
69
74
9.1
9.2
77
81
Prefcio
A importncia da anlise exploratria de dados tem seguido uma
trajetria crescente, medida que o poder de processamento e o tamanho da memria dos computadores foram aumentando, mesmo que
os computadores tivessem seu tamanho diminudo. Muitos mtodos
para Anlise Exploratria de Dados foram sendo criados e melhorados,
e softwares foram sendo escritos medida em que aquele processo foi
tomando fora.
Pode-se afirmar que a maior criao estatstica dos ltimos vinte anos
foi, sem dvida, o Ambiente Computacional Estatstico R, ou somente R
como mais conhecido entre seus usurios; ambiente este que explorou,
da forma mais eficiente possvel, todo aquele poder computacional, na
criao de um software nico para toda a necessidade e possibilidade
computacional de que a estatstica necessitava.
Por esta razo, este livro baseado no uso do R. Optei, porm, por
apresentar somente os cdigos em R, e no acrescentar um captulo introdutrio com um curso bsico de R, isto porque j existem muitos livros
com essa abordagem, principalmente na lngua inglesa. Em portugus,
posso citar com toda a segurana o excelente livro R para cientistas sociais,
de Jackson Alves de Aquino, que pode ser baixado gratuitamente do
site <http://www.uesc.br/editora/livrosdigitais_20140513/r_cientistas.
pdf>, onde um excelente curso bsico de R pode ser encontrado. No
poderia fazer melhor do que o Jackson fez. Agradeo-lhe, tambm, pela
gentileza de me haver enviado o cdigo fonte com o qual formatou seu
2
livro. Ele foi de grande ajuda para a formatao de meu livro, Anlise
Exploratria de Dados usando o R.
Os cdigos em R e seus resultados aparecem completos, assim, qualquer leitor do livro, mesmo que seja iniciante em R, e suponho que a
grande maioria o seja, poder copiar os cdigos, mudar somente os dados, e rod-los em R para reproduzi-los com seus prprios resultados.
Alm disso, os exerccios, e so poucos, so exclusivos para uso do R.
Outros exerccios, puramente estatsticos, podem ser encontrados em
qualquer livro de Estatstica Bsica.
No menos importante so as explicaes dos mtodos estatsticos
na anlise exploratria de dados que seguem o meu modo de pensar
de como devem ser descritos e ensinados. Bastante nfase dedicada
definio de "dados", e s informaes que eles contm. Repetidas vezes,
no livro, os dados no so nmeros misteriosos que, repentinamente,
aparecem nossa frente, como num passe de mgica; mas, sim, resultados
da medio de uma varivel sobre os elementos da amostra, os quais
devem ter sido coletados de forma a refletir as nuances da populao que
queremos estudar. Ou seja, varivel e populao definem completamente
quais informaes devem ser alcanadas. Por outro lado, tenho tambm a
propenso e o gosto pela prolixidade descritiva, isto , gosto das palavras
e gosto de fazer uso delas. Quis fazer este livro o mais prximo possvel
de um livro de estrias.
Captulo 1
Introduo Estatstica
Antes de comearmos a descrever Estatstica como cincia, vamos
relatar alguns dos resultados mais importantes alcanados pela cincia
no sculo XX, resultados estes que somente aconteceram por causa do
suporte total desta rea do conhecimento.
Podemos dizer que o sculo XX foi o sculo da Estatstica, quando os
cientistas se deram conta de que todos os dados medidos nas cincias
experimentais tm um resultado aleatrio e no pr-determinado, como
se pensava anteriormente. Nenhuma outra cincia se desenvolveu tanto
nestes ltimos 100 anos; pois, partindo do zero, e, num nico sculo,
atingiu a importncia que tem para a nossa civilizao.
Hoje, a populao humana no planeta j ultrapassa o nmero de 6
bilhes de pessoas. Como foi possvel produzir comida para alimentar
tanta gente? Jamais teria sido possvel chegar a este feito sem a revoluo
que a Estatstica criou nos mtodos de pesquisa agrcola: como, por
exemplo, a produo de sementes de soja adaptadas ao solo e ao clima
do cerrado brasileiro. Foi, tambm, o que aconteceu no caso das vacinas
que levaram erradicao, ou quase erradicao de doenas, como a
poliomelite, a varola, que aleijavam ou matavam milhes de pessoas em
todo o mundo. Somente com o uso da Estatstica estas vacinas puderam
obter a comprovao da sua eficcia.
3
4
A Biologia, a cincia da vida, que estuda os animais e os vegetais,
e a Ecologia, que estuda sua interao na natureza, nos ensinam como
produzir alimento e riqueza sem destruir o meio ambiente. Estas duas
reas de conhecimento usam tanto a Estatstica que, a partir delas, criouse um novo ramo: a Bioestatstica, metodologia voltada para a aplicao
da Estatstica nas cincias da vida.
O que aconteceu foi que, ao longo do sculo XX, ocorreu uma verdadeira revoluo na cincia, representada pela introduo e adoo
de mtodos estatsticos de pesquisa que iriam aumentar a confiabilidade das pesquisas na cincia aplicada em geral e, portanto, em seus
resultados.
Hoje a Estatstica faz parte do nosso dia a dia. Todas as pesquisas de
opinio e seus resultados, que escutamos constantemente, so baseadas
em seu uso. Quem que no ouviu falar no IBGE (Instituto Brasileiro
de Geografia e Estatstica), cujas pesquisas e estatsticas praticamente
ordenam a poltica de investimento e distribuio de renda do governo
federal?
A Estatstica a cincia que estuda a forma como toda informao que
recebemos por meio de dados pode se tornar inteligvel e ser analisada.
Quando dizemos informao, falamos daquela bsica, usada em pesquisa
e anlise que, de alguma forma, precisa ser entendida para que possamos
utiliz-la. Se escutamos falar que algo novo foi criado, como uma nova
semente, um novo aparelho, para que isto chegasse at ns, e pudssemos
nos utilizar do seu resultado, muitos dados que continham informaes
tiveram de ser classificados, organizados e analisados, tudo muito bem
"mastigado"at que a digesto fosse feita e o novo mostrasse a sua
utilidade.
A Estatstica se dedica coleta, anlise e interpretao dos dados, e
para isto algumas das suas prticas so o planejamento, a classificao, a
sumarizao e a tomada de decises a partir das observaes dos dados.
Com isto queremos dizer que a Estatstica no Matemtica, ela usa
os resultados matemticos para implementar sua metodologia, e, por
isto, no necessrio ser um matemtico ou mesmo conhecer alguns
5
de seus aspectos com profundidade para poder compreender as ideias
centrais da Estatstica. Para isto, basta aceitar que os dados aparecem
de forma totalmente aleatria, sobre os quais no temos quase nenhum
controle; em outras palavras, nunca sabemos, de antemo, qual ser o
resultado final de um experimento, nem quais sero os resultados das
nossas observaes. Neste aspecto, a variabilidade um conceito crucial,
pois somente a partir do seu estudo e do entendimento profundo do
seu conceito, que chegamos a separar o joio do trigo. Se entendermos
isto, entenderemos a Estatstica; que se divide em duas partes principais:
Estatstica Descritiva ou Anlise Exploratria de Dados e Inferncia
Estatstica.
Na Estatstica Descritiva, usamos mtodos como tabelas, grficos e
medidas para tentar entender quais so as estruturas fundamentais dos
dados que queremos analisar; e se analisamos dados vindos de fontes
ou variveis diferentes, tambm tentamos entender as estruturas que
relacionam as fontes entre si.
Na Inferncia Estatstica, fazemos o que se entende por modelagem,
ou, melhor dizendo, postulamos um modelo de populao de onde
provieram os dados e analisamos para concluir se os dados corroboram
este modelo ou no.
Neste livro, vamos estudar somente a parte de anlise exploratria
de dados, isto , vamos aprender como alguns mtodos estatsticos nos
ajudam a retirar a informao que aqueles dados esto guardando, no
segredo da sua desorganizao inicial. Vamos organizar a desorganizao de tal maneira que ela ir nos ajudar no nosso entendimento da
informao nela contida.
Este livro est baseado no Ambiente Computacional Estatstico R,
(RCORETEAM, 2013). Isto quer dizer que todos os exemplos sero escritos na linguagem do R e os resultados sero todos no formato do R.
Este livro foi escrito usando a interface grfica Tinn-R (FARIA; GROSJEAN; JELIHOVSCHI, 2013), feita para facilitar a programao no R,
como tambm permite o uso de outros ambientes computacionais, sendo
o Latex um deles. A formatao do livro foi feita usando o Latex, usando
6
o pacote Knitr do R, (XIE, 2013), que facilita a integrao do R com o
Latex.
Abaixo temos como exemplo um cdigo em R, que gera 20 nmeros
aleatrios, segundo a distribuio normal, a mais importante do clculo
de probabilidades, e calcula a mdia e a varincia desses nmeros. Depois
outro cdigo que gera, a partir dos 20 nmeros, um diagrama de caixa
(boxplot) e histograma, mtodos muito usados na anlise exploratria de
dados.
set.seed (1121)
( x rnorm ( 2 0 ) )
[1]
0.14496
0.43832
0.15319
1.08494
1.99954 -0.81188
[8]
0.58589
0.36009 -0.02531
0.15088
0.11008
[15] -0.71638
1.80977
0.50840 -0.52746
0.16027
1.35968 -0.32699
0.13272 -0.15594
mean ( x )
[1] 0.3217
var ( x )
[1] 0.5715
7
2.0
1.5
1.0
0.5
0.0
0.5
h i s t ( x , main = "" )
8
Frequency
0
1.0
0.5
0.0
0.5
1.0
1.5
2.0
8
no mesmo conjunto de objetos, ou seja, todas variveis so medidas em
cada objeto da amostra selecionada.
As variveis podem ser categricas, quantitativas ou uma mistura das
duas.
No caso multivariado, alm de podermos analisar cada varivel em
separado, usando os mtodos de dados univariados relacionados na
primeira parte do livro, tambm temos de analisar a associao entre
estas variveis, respondendo a perguntas tais como:
Ser que as variveis so todas independentes entre elas? Se isto
acontecer, este seria um caso sem o menor interesse multivariado,
isto porque, sendo independentes, estas variveis podem ser analisadas uma a uma, em separado, e nenhuma informaao estar
perdida.
Caso contrrio, existe uma associao entre as variveis. Que tipo
de relao ser esta? Neste caso, toda informao sobre esta associao de suma importncia porque, se os dados foram coletados
neste formato (multivariado), porque, segundo os pesquisadores
que coletaram estes dados, muitas informaes importantes esto
contidas nas associaes entre estas variveis.
Ser que podemos agrupar as variveis de modo que cada grupo
contenha as que esto associadas, sendo as de outro grupo independentes daquelas?
Ser que algumas variveis explicam uma formulao importante
feita a partir dos dados, enquanto outras explicam muito pouco ou
praticamente nada?
Parte I
Dados univariados
Captulo 2
Variveis
Na linguagem da informao falamos sempre de dados. Para conseguir a informao que queremos ou de que necessitamos, precisamos
destes dados. Porm, o que so, na realidade, estes dados?
Na verdade, os dados so o resultado de uma medida: medimos algo.
Mas o que vem a ser este algo? Este algo que medimos o que chamamos
de varivel. Varivel, ento, um ente abstrato que se torna concreto
no momento em que a medimos num objeto escolhido para isto. Por
exemplo, vou usar a varivel peso, usando a unidade de medida de kg.
Escolho voc que est lendo este livro como objeto de estudo e, ao usar
uma balana para medir o seu peso, estou medindo a varivel peso e
criando um dado. Se em lugar de escolher um leitor, seleciono um grupo
de leitores e meo a varivel peso em todos, crio, assim, um conjunto de
dados. Ento, na realidade, temos os dados como a realizao da varivel
que um ente abstrato e todos os clculos sero feitos com os dados,
entretanto a interpretao dos resultados vai refletir a informao que
queremos e feita voltando s variveis e seu significado. Se estamos
usando a varivel peso, ento todos os resultados estaro relacionados
com o peso dos objetos selecionados.
As variveis podem ser categricas, tambm chamadas de qualitativas, ou quantitativas.
10
2.1. Amostragem
11
Amostragem
Populao e amostra
Como foi dito acima, para que a varivel se realize, temos de escolher
um conjunto de objetos no qual medir a varivel. Este conjunto chamado
de amostra. Para amostrar os objetos temos de selecion-los de algum
conjunto maior de objetos. Este conjunto maior chamado de populao.
Vamos aprofundar um pouco estes conceitos. Suponhamos que voc
seja candidato a prefeito de Ilhus e encomende uma pesquisa eleitoral
com a finalidade de avaliar suas chances de ser eleito. O instituto de
pesquisa precisa, ento, entrar em contato com os eleitores da cidade para
lhes perguntar sobre sua preferncia, ou seja, se votaro em voc ou no.
2.1. Amostragem
12
Porm sairia demasiado caro para o seu bolso se eles fossem entrevistar
todos os eleitores de Ilhus, cerca de cem mil. Todos os eleitores da cidade
constituem a populao na qual o instituto est interessado e j vimos que
no vivel entrevistar toda a populao. Neste caso o instituto vai ter
de selecionar uma amostra desta populao. Este processo chamado de
amostragem. Esta amostragem tem de seguir um critrio estatstico para
que o conjunto de objetos selecionados seja representativo da populao.
Se escolhermos um s bairro da cidade para selecionar a nossa amostra,
com toda a certeza a amostra escolhida no ser representativa e o
resultado obtido no corresponder realidade. Voc poderia achar que
est ganhando, quando, na realidade, no total da cidade voc perderia a
eleio.
A varivel, neste caso, a questo "em quem voc vai votar". Esta
uma varivel categrica nominal com dois nveis de resposta. Os dados
sero obtidos depois de medir esta varivel em cada objeto da amostra.
Neste caso, medir significa perguntar. Ao receber a resposta, temos o
resultado da medio.
Populao pode, ento, ser definida como o conjunto total de objetos
para os quais quero obter informao. Amostra, neste caso, um subconjunto
da populao. Em geral, um subconjunto muito menor do que a populao.
O mais importante de tudo que esta amostra seja escolhida de acordo
com o processo estatstico chamado amostragem.
Amostragem
Existe somente um fenmeno que consegue eximir uma amostra de
qualquer arbitrariedade, fazendo com que a amostra reflita, em si, se no
todos, pelo menos parte dos atributos da populao. Este fenmeno se
chama aleatoriedade. Se nosso intuito fazer um estudo sobre o peso dos
estudantes da UESC (Universidade Estadual de Santa Cruz), claro que
no vamos pesar todos os estudantes, mas queremos que nossa amostra
reflita bem toda a distribuio de peso dos estudantes, e no somente
alguns atletas ou alguns muito gordos. A melhor forma de escolher esta
2.1. Amostragem
13
amostra de, vamos dizer, 100 estudantes, seria sorte-los de forma que
todos os objetos da populao tivessem a mesma chance de estar na
amostra.
Poderamos, por exemplo, sortear de uma urna que contivesse todos
os nomes, ou usar um gerador de nmeros aleatrios de um computador
e sortear os estudantes pelo nmero de matrcula.
Esta forma de amostragem chamada de amostra casual simples.
Este tipo de amostragem o melhor que existe. Todas as vezes em que
ele puder ser realizado, com certeza a amostra vai espelhar a populao.
O difcil, porm, realizar uma amostragem casual simples no mundo
real. Imaginem a dificuldade de um instituto de pesquisa sortear 1000
eleitores de um estado como a Bahia e, depois, encontrar todas estas
pessoas nos mais diferentes recantos do estado. realmente muito difcil
e muito caro de ser realizado. Portanto, outros esquemas de amostragem
so usados.
O primeiro que vamos definir chama-se amostragem sistemtica. Este
tipo de amostragem usado quando os dados possuem uma ordenao
natural como, por exemplo, fichrios, pronturios, casas numa rua. Ela
feita da seguinte forma: suponhamos que temos um fichrio com 10000
fichas e queremos amostrar 100 fichas. Primeiramente, sorteamos um nmero entre 1 e 100. Esta a parte aleatria da amostragem. Suponhamos
agora que o nmero sorteado foi 43, ento escolhemos a ficha que est na
ordem 43; depois 143, 243 e assim por diante. Desta forma escolhemos as
100 fichas. O importante que sempre tem de haver uma parte aleatria
no processo de amostragem.
O segundo o processo de amostragem estratificada. Muitas vezes uma
populao composta de subpopulaes (estratos) bem definidas, de
forma tal que, usando estes estratos, facilitamos o processo de amostragem. Por exemplo, suponhamos que o instituto de pesquisa quer
selecionar 2000 eleitores em todo o estado da Bahia. Como o estado
naturalmente dividido em municpios (estratos), podemos sortear 20
municpios dos mais de 400 em todo o estado. Cada sede de municpio naturalmente dividida em bairros (subestratos) ento, sorteamos
2.1. Amostragem
14
sample ( l e t t e r s , s i z e = 1 0 , r e p l a c e = TRUE)
[1] "f" "m" "o" "w" "s" "h" "q" "y" "m" "h"
2.1. Amostragem
15
munic sample ( 1 : 4 0 0 , s i z e = 2 0 )
selecionado
s o r t ( munic )
[1]
82 111 112 113 127 128 169 186 188 219 223 224 246 267 279 339
municib sample ( 5 0 : 1 5 0 , s i z e = 2 0 )
municp io
s o r t ( municib )
crescen te
[1]
60
61
72
76
77
83
85
86
89
91
73
17
32
17
103
49
62
bairro 2
76
51
23
13
44
13
46
52
bairro 3
64
21
85
48
10
72
19
15
bairro 4
40
81
72
31
47
32
51
bairro 5
72
42
41
20
87
53
79
86 188 111 219 138 223 106 224 96 246 103 267 76 279 77 339
bairro 1
104
44
13
91
40
31
bairro 2
65
58
110
85
73
60
19
22
bairro 3
68
22
100
43
42
bairro 4
25
42
28
85
17
64
bairro 5
13
116
62
60
47
21
52
70
101
49
bairro 2
98
50
55
6
bairro 3
27
37
56
131
bairro 4
75
61
63
80
2.2. Exerccios
bairro 5
16
47
48
86
Exerccios
1. Um auditor precisa selecionar uma amostra de 120 emprstimos
para auditar emprstimos realizados pelo banco onde trabalha. Ele
possui um arquivo com 5000 fichas de emprstimos, organizadas
em ordem alfabtica, no fichrio do banco. Escreva um cdigo, no
R, que simule este processo de amostragem, e colete a amostra.
2. Um instituto de pesquisa foi contratado para fazer uma pesquisa
eleitoral com a finalidade de avaliar a proporo do eleitorado de
um estado que dever votar no candidato contratante na prxima
eleio para governador. O estado citado possui 88 municpios.
Escreva um cdigo no R que simule o sistema de amostragem estratificada, selecionando 10 municpios, 10 bairros por municpio, 10
ruas por bairro e as casas selecionadas, segundo o sistema sistemtico.
Captulo 3
Tabelas
3.1
"ruim"
"bom"
"bom"
17
"regular" "pssimo"
"bom"
"regular"
"ruim"
"pssimo"
"regular" "bom"
18
"regular" "regular"
"timo"
"bom"
"pssimo"
"bom"
"bom"
"timo"
"regular" "timo"
"ruim"
"bom"
"ruim"
"regular"
[49] "bom"
"regular" "timo"
"timo"
[55] "bom"
"regular" "bom"
[61] "timo"
"regular" "timo"
"timo"
"timo"
"ruim"
[67] "timo"
"regular" "bom"
"ruim"
"ruim"
"ruim"
[73] "bom"
"ruim"
"regular" "timo"
"pssimo" "timo"
[85] "timo"
"bom"
[91] "bom"
"ruim"
"pssimo" "timo"
"timo"
"bom"
"bom"
"ruim"
"timo"
19
resposta
timo
bom
regular
ruim
pssimo
freq
19
23
27
15
16
O ttulo da tabela mostra "o que, quando e onde"o estudo, que gerou a
tabela, foi realizado e seu nome. No cabealho, esto os nomes das duas
colunas que mostram o que representa o estudo, "resposta e frequncia".
A coluna indicadora mostra o significado, ou nvel, de cada resultado,
timo, bom, regular, ruim, pssimo". E, finalmente, temos o corpo da
tabela, onde se encontram as frequncias tabuladas para cada nvel da
coluna indicadora.
20
intervalo de classe
[1, 2)
[2, 3)
[3, 4)
[4, 5)
[5, 6)
[6, 7)
Fonte: Dados hipotticos.
f
0
1
3
20
21
5
fr
0
0.02
0.06
0.40
0.42
0.1
fr%
0
2
6
40
42
10
d=fr/int
0
0.02
0.06
0.40
0.42
0.1
Olhe a tabela 3.2. Ser que podemos entender o porqu do nome "tabela de ditribuio de frequncia"? No fundo, ela nos mostra a frequncia
21
com que cada intervalo aparece na nossa amostra de dados, ou seja, quantos valores dos dados esto em cada intervalo. Neste caso, f (frequncia
absoluta) o resultado da contagem de dados em cada intervalo, fr
(frequncia relativa) f/(total de dados), fr% (frequncia relativa em percentual) e, finalmente, d (densidade) igual a fr/(tamanho do respectivo
intervalo de classe). Isto quer dizer que ela mostra qual a distribuio
das frequncias dos intervalos de classe.
Voltando ao nosso exemplo das medidas dos pesos, nosso interesse
saber como os pesos das pessoas pertencentes populao estudada se
distribuem ao longo de um dado intervalo. Quais so os intervalos que
contm a maioria dos pesos? Ser que os pesos poderiam ser modelados
por uma curva de distribuio conhecida? Neste caso, esta tabela poder
fornecer muitas informaes, como: qual intervalo de pesos poder ser
considerado normal"na nossa populao? a partir de qual peso uma
pessoa ser considerada obesa ou muito magra? Ento, queremos uma
tabela que seja o mais informativa possvel sobre esta distribuio de
pesos da populao. Para isto, o mais importante ser encontrar o nmero timo de intervalos de classe e, por consequncia, o seu tamanho.
Se usamos poucos intervalos, as frequncias ficam muito altas em cada
um deles e no obtemos muita informao, como na tabela abaixo. No
obtemos muita informao vendo que o intervalo de 0.5 at 4.5 contm
15 dados, e o intervalo de 4.5 at 8.5 contm 35 dados.
l i b r a r y ( fdth )
set.seed (3051952)
x rnorm ( n = 5 0 , mean = 5 , sd = 2 )
x
[1] 3.0991 3.2133 5.6626 4.3937 5.4752 6.1914 6.5227 3.8266 7.6269
[10] 6.0379 2.8208 6.7012 7.5582 7.7148 0.7556 5.5554 7.3544 4.7410
[19] 9.4985 4.1056 8.1968 3.9699 6.8870 4.9730 4.2042 3.5618 8.5532
[28] 3.9393 5.4301 3.0582 9.2737 8.1115 5.8928 6.4750 3.7498 4.4239
[37] 5.0554 2.4379 3.5870 6.8041 4.6939 1.6521 3.3523 3.9483 5.4860
[46] 5.8611 8.3815 1.1665 7.3435 7.3694
22
d f d t ( x , s t a r t = 0 . 5 , end = 8 . 5 , h = 4 )
p r i n t ( d , format = TRUE, c o l = 1 : 4 , p a t t e r n = "%. 2 f " )
Class limits
rf rf(%)
40
54
Por outro lado, se usamos muitos intervalos, as frequncias dos intervalos ficaro muito baixas e, neste caso, no obtemos quase nenhuma
informao sobre a real distribuio de frequncia dos dados.
d f d t ( x , s t a r t = 0 . 5 , end = 8 . 5 , h = 0 . 5 )
p r i n t ( d , format = TRUE, c o l = 1 : 4 , p a t t e r n = "%. 2 f " )
Class limits f
rf rf(%)
14
23
[0.748,2.01)
3 0.06
rf rf(%) cf cf(%)
6
[2.01,3.28)
5 0.10
10
16
[3.28,4.54) 12 0.24
24 20
40
[4.54,5.8)
9 0.18
18 29
58
[5.8,7.07)
9 0.18
18 38
76
[7.07,8.33)
8 0.16
16 46
92
[8.33,9.59)
4 0.08
8 50
100
Como podemos ver, usando o mtodo de Sturges, o nmero de intervalos foi 7, cada um com tamanho de 1, 1. Ento sabemos que o melhor
nmero de intervalos 7 e podemos ajustar o tamanho para que fique
mais fcil captar a ideia destes intervalos.
d f d t ( x , s t a r t = 0 . 5 , end = 8 . 5 , h = 1 )
p r i n t ( d , format = TRUE, c o l = 1 : 4 , p a t t e r n = "%. 2 f " )
Class limits
[0.50, 1.50)
2 0.04
rf rf(%)
[1.50, 2.50)
2 0.04
[2.50, 3.50)
5 0.10
10
22
7 0.14
14
[5.50, 6.50)
7 0.14
14
[6.50, 7.50)
7 0.14
14
[7.50, 8.50)
6 0.12
12
24
Tabela de contingncia
set.seed (3051952)
sexo sample ( c ( "F" , "M" ) , s i z e = 7 5 , r e p l a c e = TRUE)
sexo
[1] "F" "F" "F" "F" "M" "M" "F" "M" "M" "F" "M" "M" "M" "F" "F" "F"
[17] "M" "F" "M" "F" "F" "M" "M" "F" "M" "F" "M" "F" "F" "F" "M" "M"
[33] "M" "M" "F" "F" "M" "F" "F" "M" "M" "F" "F" "F" "M" "M" "F" "M"
[49] "F" "M" "F" "M" "M" "M" "F" "F" "M" "F" "F" "F" "M" "M" "M" "M"
[65] "M" "M" "M" "M" "F" "M" "F" "F" "M" "M" "F"
25
[1] "B" "A" "B" "D" "C" "B" "D" "A" "B" "A" "D" "B" "C" "C" "B" "C"
[17] "C" "D" "C" "A" "C" "D" "C" "D" "A" "A" "C" "D" "B" "D" "B" "B"
[33] "D" "D" "D" "D" "A" "A" "D" "D" "B" "A" "D" "A" "C" "D" "B" "A"
[49] "D" "D" "C" "D" "B" "B" "D" "A" "B" "C" "C" "B" "D" "C" "C" "A"
[65] "C" "C" "B" "B" "C" "A" "D" "C" "D" "B" "C"
# fazendo a tabela
t a b t a b l e ( sexo , c l s o )
tab
clso
sexo
9 13
6 12 11 10
A B C
D
F 8
6
9
13
M 6 12 11
10
Fonte: Dados hipotticos.
3.4. Exerccios
3.4
26
Exerccios
1. Usando a funo sample, gere dados aleatrios a partir do vetor
4000:7000 (populao), com 50 dados, sem reposio. Use a funo
fdt para fazer uma tabela de distribuio de frequncias dos dados.
2. Repita o mesmo para 100 dados.
3. Repita para 300, 500 e 1000 dados.
4. No pacote do R datasets, chame o conjunto de dados EuStockMarkets e use o pacote fdth para fazer uma tabela de distribuio de
frequncias para cada uma das variveis. Preste ateno que EuStockMarkets um data.frame.
Captulo 4
Grfico de colunas
27
28
10
15
20
25
30
Respostas ao questionrio
timo
bom
regular
ruim
pssimo
Fonte: Simulao
set.seed (1121)
r e s p o s t a sample ( c ( " t i m o " , "bom" , " r e g u l a r " , " ruim " , " p s s i m o
" ) , s i z e = 100 ,
r e p l a c e = TRUE)
frequen t a b l e ( r e s p o s t a ) [ c ( 2 , 1 , 4 , 5 , 3 ) ]
b a r p l o t ( frequen , ylim = c ( 0 , 3 0 ) , main = " R e s p o s t a s a o
questionrio")
mtext ( " F o n t e : S i m u l a o " , s i d e = 1 , l i n e = 2 , a d j = 0 , cex = 0 . 6
)
29
Grfico de setores
4.3. Histograma
30
Inglaterra 24%
EUA 20%
Australia 8%
Frana 16%
Alemanha 32%
4.3
Histograma
4.4. Exerccios
31
8
4
0
Frequency
12
l i b r a r y ( fdth )
set.seed (1)
x rnorm ( n = 5 0 , mean = 5 , sd = 2 )
d f d t ( x , s t a r t = 0 . 5 , end = 8 . 5 , h = 1 )
plot (d)
0.5
2.5
4.5
6.5
8.5
Class limits
Figura 4.3: Histograma
4.4
Exerccios
1. Faa o histograma da tabela do exerccio 1 do captulo anterior.
4.4. Exerccios
32
Captulo 5
Mdia
5.1. Mdia
34
X.
A frmula da mdia pode ento ser indicada por:
x =
x1 + x2 +...+ xn
n
in=1 xi
n
60 127
mean ( x )
[1] 406.6
5.2. Mediana
35
Mediana
5.2. Mediana
36
37
Mdia podada
# 15% de poda
[1] 465.9
mean ( x , t r i m = 0 . 4 )
[1] 441.8
# 40% de poda
5.4. Moda
5.4
38
Moda
Intervalo de classe
[1, 2)
[2, 3)
[3, 4)
[4, 5)
[5, 6)
[6, 7)
pm
1.5
2.5
3.5
4.5
5.5
6.5
f
0
1
3
20
21
5
Olhando a tabela, vemos que o valor 2.5 aparece uma vez, 3.5 aparece
3 vezes, 4.5 aparece 20 vezes e assim por diante. Usando a frmula para
o clculo da mdia, temos:
x =
2.5+3.5+3.5+3.5+4.5+4.5+...+6.5
1+3+20+21+5
2.5x1+3.5x3+...+6.5x5
50
= 5.02
Mdia
Com isso podemos deduzir a frmula para a mdia a partir da tabela
de distribuio de frequncia.
Seja k o nmero de intervalos de classe e n o nmero total de dados.
Seja tambm y j para j = 1 . . . k os pontos mdios dos intervalos de classe
e f j para j = 1 . . . k as frequncias absolutas de cada intervalo. Ento o
usando somente a tabela de distribuio de frequncia, :
valor de X,
kj=1 y j f j
kj=1 f j
kj=1 y j f j
n
d f d t ( x , s t a r t = 0 . 5 , end = 8 . 5 , h = 1 )
d$ t a b l e [ , 1 ] # primeira coluna da tabela ( d $ table um data
frame )
[1] [0.5,1.5) [1.5,2.5) [2.5,3.5) [3.5,4.5) [4.5,5.5) [5.5,6.5)
[7] [6.5,7.5) [7.5,8.5)
8 Levels: [0.5,1.5) [1.5,2.5) [2.5,3.5) [3.5,4.5) ... [7.5,8.5)
b apply ( a s . m a t r i x ( d$ t a b l e [ , 1 ] ) , 2 , f u n c t i o n ( x ) p a s t e ( "mean ( c
( " , substr (x ,
2 , 9) , " ) " ) )
# substr retira o colchete e o paste cola a funo mean ( c (
b
[,1]
[1,] "mean(c( 0.5,1.5) )"
[2,] "mean(c( 1.5,2.5) )"
[3,] "mean(c( 2.5,3.5) )"
[4,] "mean(c( 3.5,4.5) )"
[5,] "mean(c( 4.5,5.5) )"
[6,] "mean(c( 5.5,6.5) )"
[7,] "mean(c( 6.5,7.5) )"
[8,] "mean(c( 7.5,8.5) )"
a apply ( b , 1 , f u n c t i o n ( x ) e v a l ( par se ( t e x t = x ) ) )
a
[1] 1 2 3 4 5 6 7 8
t a b d a t a . f r a m e ( C l a s s l i m i t s = d$ t a b l e [ , 1 ] , pm = a , f = d$
table [ , 2])
1
2
3
4
5
6
7
8
Classlimits
[0.5,1.5)
[1.5,2.5)
[2.5,3.5)
[3.5,4.5)
[4.5,5.5)
[5.5,6.5)
[6.5,7.5)
[7.5,8.5)
pm
1.00
2.00
3.00
4.00
5.00
6.00
7.00
8.00
f
2
2
5
11
7
7
7
6
Mediana
Da mesma forma como fizemos no caso da mdia, vamos considerar
os pontos mdios como se fossem os dados originais. Neste caso usamos
a frmula de mediana e encontramos o valor da mediana. Por exemplo, a tabela 5.1 foi gerada por uma amostra de 50 objetos (soma das
frequncias). Este nmero par, logo a mediana a mdia dos valores
situados nas posies 25 e 26 dos dados ordenados. Os dois pertencem ao
intervalo de classe [5, 6), logo a mediana dada por (5.5 + 5.5)/2 = 5.5.
5.6. Exerccios
42
Moda
Para calcular a moda, primeiro encontramos o intervalo modal, que
o intervalo de maior frequncia. O ponto mdio deste intervalo a
moda. Preste ateno: a moda pode no ser nica, pois uma tabela de
distribuio de frequncias pode ter mais de um intervalo modal. No
caso da tabela 5.1, o intervalo [5, 6) o intervalo modal, com f = 21, logo
a moda igual a 5.5.
5.6
Exerccios
1. Os dados gerados por:
sample ( 4 5 : 8 5 , 1 2 0 , r e p l a c e = TRUE)
[1] 52 75 83 55 80 57 57 84 79 79 77 47 52 81 78 60 52 80 51 73 82
[22] 63 50 82 77 69 83 55 64 85 45 62 68 70 59 83 68 71 47 75 73 64
[43] 59 74 46 85 71 79 60 70 49 80 66 49 62 49 47 72 73 62 62 73 70
[64] 65 65 77 46 62 85 52 52 49 63 77 68 56 66 84 48 81 47 62 83 71
[85] 78 71 63 45 70 52 74 64 54 73 84 55 51 46 63 82 75 56 79 61 84
[106] 59 59 77 75 60 68 84 45 77 49 63 66 52 85 46
representam os resultados da varivel peso medida em uma amostra de 120 mulheres, coletada numa dada regio do Brasil. Faa uma
tabela de distribuio de frequncias, usando o fdth com 7 intervalos de
tamanho 6, comeando a partir de 45. Calcule a mdia e a mediana.
depois faa uma tabela semelhante, porm com 10 intervalos de tamanho
4.
Captulo 6
Medidas de disperso ou
variabilidade
Podemos dizer, sem sombra de dvida, que o conceito de disperso
ou variabilidade o conceito mais importante da Estatstica, a essncia
mesmo do pensamento estatstico.
Estatstica a cincia da organizao da informao, no seu sentido
mais amplo, sob a presena de incerteza, e a incerteza se manifesta, na
prtica, na forma de disperso dos dados obtidos, e usando esta variabilidade que damos credibilidade aos resultados estatsticos. Por exemplo,
quando a variabilidade dos dados alta, a preciso da informao que
queremos alcanar baixa. Em outras palavras, na presena de muita
incerteza, temos um baixo nvel de preciso nos nossos resultados, e
vice-versa.
Com isso vemos que a variabilidade a unidade de medida bsica
da Estatstica. Da mesma forma que duas cidades esto longe uma da
outra, se elas esto a muitos quilmetros uma da outra, dois resultados
de medida de uma varivel estaro longe se esto a muitas medidas de
disperso entre si. Voltaremos a este conceito mais adiante.
Falando com nmeros: suponhamos que queremos fazer um estudo
43
44
sobre o peso e sobre a altura de jovens na idade entre 13 e 15 anos, e
usamos uma classe de alunos de uma dada escola como amostra. Estamos
supondo que esta classe de alunos representativa da populao a qual
queremos estudar. Esta classe tem 30 alunos, quer e medimos o peso e a
altura de cada um deles e estes so os nossos dados.
Qual ser que tem uma maior variabilidade? Em outras palavras, qual
das duas variveis tem os resultados das medidas mais dispersos, mais
heterogneos, a da altura dos alunos ou a do peso?
Se for a do peso, isto quer dizer que os alunos tm alturas com
pouca variao e, neste caso, existem alunos magrinhos, menos
magrinhos, gordinhos e mais gordinhos. Portanto, se olharmos por
cima, veremos uma variao na altura das cabeas menor do que
se olharmos de lado, vendo a largura dos corpos.
Se for a altura, teremos alunos mais altos e magros e mais baixos e
gordos para manter a menor disperso nos pesos.
Por esta razo de suma importncia saber medir esta variabilidade.
Se estudamos distncia, temos de saber medir distncias; se estudamos
presso atmofrica ou presso arterial, temos de saber medir presso; se
estudamos corrente eltrica, temos de saber medir corrente eltrica; da
mesma forma, se estudamos variabilidade ou disperso, temos de saber
medir variabilidade.
Como encontramos estas medidas de disperso? Elas so calculadas
a partir dos dados que coletamos. Aplicamos uma fmula a estes dados
e obtemos o resultado. Para que possam ser medidas de variabilidade, o
resultado destas frmulas tem de satisfazer a duas propriedades:
1. O resultado tem de ser sempre maior ou igual a zero, no importa
quais sejam os nmeros.
2. Se os dados so todos iguais, ento o resultado da frmula vale
zero.
6.1. Medidas
45
Medidas
Desvio padro
O desvio padro calculado da seguinte forma: primeiro, calculam-se
os desvios de cada dado da mdia, ou seja, o resultado da subtrao
do valor do dado menos o valor da mdia. Como os desvios podem ser
positivos ou negativos, eleva-se ao quadrado cada um destes desvios
para termos somente resultados positivos e somamos todos. Se somarmos somente os desvios da mdia, sem elevar ao quadrado, o resultado
ser sempre zero. Faam a conta com nmeros e depois com letras, para
comprovar e provar que o resultado zero sempre vlido. Finalmente,
dividimos o resultado pela quantidade de dados menos um e temos o
que chamamos de varincia. Para encontrar o desvio padro, basta tirar
a raiz quadrada da varincia. fcil verificar que o desvio padro tem a
mesma unidade de medida dos dados: por exemplo, se os dados so em
quilogramas ou em metros ou em dias, o desvio padro ter a mesma
unidade. A razo pela qual dividimos pela quantidade de dados menos
um, e no somente pela quantidade de dados, faz parte da inferncia
estatstica e no ser discutida neste texto.
q n 2
i=1 xi n X 2
S=
n 1
set.seed (31051952)
6.1. Medidas
46
x sample ( 1 : 1 0 0 0 , s i z e = 2 0 , r e p l a c e = TRUE)
# no R a frmula da v ar i n ci a escrita assim :
sum ( ( x mean ( x ) ) 2 ) / ( 2 0 1 )
[1] 69567
# que igual a
( sum ( x 2 ) sum ( x ) 2/ 2 0 ) / ( 2 0
1)
[1] 69567
var ( x )
[1] 69567
s q r t ( var ( x ) )
[1] 263.8
# ou
sd ( x )
[1] 263.8
6.1. Medidas
47
8.5
Median
12.0
Max.
13.8
35.0
18.0
6.1. Medidas
48
6.1. Medidas
CV =
49
S
100%
X
a l t c (180 , 181 , 175 , 183 , 182 , 165 , 175 , 171 , 174 , 180 , 173 ,
180 , 183 ,
187 , 172 , 183 , 185 , 175 , 179 , 190 , 179 , 170 , 173 , 168)
# hdl um vetor de dados a partir da medida da varivel
co l es te r o l
# em pessoas.
hdl c ( 3 7 , 7 5 , 3 5 , 3 0 , 6 2 , 4 2 , 4 3 , 3 6 , 5 1 , 2 4 , 4 1 , 6 5 , 3 1 , 2 5 ,
34 , 30 ,
37 , 37 , 43 , 42 , 33 , 28 , 49 , 33 , 58 , 30 , 40 , 34 , 38)
c v . a l t sd ( a l t ) /mean ( a l t ) * 100
cv.alt
[1] 3.513
50
Distncia estatstica
51
52
30
25
20
15
10
10 15 20 25 30 35
Varivel x
Nmero de cilindros
35
valor atpico
Ls
Q3
10
15
20
25
30
max
53
Q2
Q1
min
54
Captulo 7
Correlao e diagrama de
disperso
Frequentemente temos de analisar dados obtidos de duas variveis
que tm uma certa relao entre si. Um dos casos mais comuns de duas
destas variveis so o peso e a altura de pessoas, e as perguntas que nos
fazemos so:
Ser que realmente existe uma relao, ou melhor dito, uma correlao entre o peso e a altura das pessoas?
Se existe, qual o seu significado estatstico e como isto poder ser
medido?
Vamos estudar somente o que chamamos de correlao linear entre
duas variveis. Duas variveis podem ter outros tipos de correlao
entre elas, como, por exemplo: quadrtica, exponencial, logartmica e
muitas outras. Porm a mais fcil de estudar e conseguir bons resultados
estatsticos a linear, a que mais acontece na natureza, ou, pelo menos,
em relaes que podem ser aproximadas pela linear ou que, por meio de
uma transformao das variveis, podem ser linearizadas.
55
56
57
7.2
Diagrama de disperso
4000
2000
2000
200
400
600
x
p l o t ( x1 , y1 )
800
1000
58
v seq ( 1 , 2 0 , by = 0 . 0 1 )
l i n e s ( v , v 2 )
400
y1
300
200
100
10
15
20
x1
Os dois grficos apresentados so chamados de diagramas de disperso. No eixo das abscissas, eixo horizontal, marcamos os valores da
varivel x e o seu correspondente da varivel y no eixo das ordenadas,
ou eixo vertical. Desta forma, cada objeto corresponde a um ponto do
diagrama bidimensional, cujas coordenadas so os valores das duas
variveis medidas neste objeto.
Outra forma de simular dados originados das medidas de duas variveis com uma relao linear entre elas usando o pacote mvtnorm,
(GENZ et al., 2013), porm, para poder entend-lo com mais profundidade, voc dever ter algum conhecimento da teoria das probabilidades.
l i b r a r y ( mvtnorm )
sigma1 matrix ( c ( 4 , 0 . 5 , 0 . 5 , 3 ) , n c o l = 2 )
sigma2 matrix ( c ( 4 , 2 , 2 , 3 ) , n c o l = 2 )
sigma3 matrix ( c ( 4 , 3 . 4 , 3 . 4 , 3 ) , n c o l = 2 )
xy1 rmvnorm ( n = 5 0 0 , mean = c ( 1 , 2 ) , sigma = sigma1 )
xy2 rmvnorm ( n = 5 0 0 , mean = c ( 1 , 2 ) , sigma = sigma2 )
xy3 rmvnorm ( n = 5 0 0 , mean = c ( 1 , 2 ) , sigma = sigma3 )
par ( mar = c ( 4 , 4 , 0 . 1 , 0 . 1 ) , c e x . l a b = 0 . 9 5 , c e x . a x i s = 0 . 9 , mgp
= c (2 ,
59
0 . 7 , 0 ) , t c l = 0.3 , l a s = 1 )
p l o t ( xy1 )
xy1[,2]
xy1[,1]
p l o t ( xy2 )
xy2[,2]
2
xy2[,1]
p l o t ( xy3 )
6
4
xy3[,2]
60
2
0
2
xy3[,1]
61
xy4[,2]
xy4[,1]
Coeficiente de correlao
62
in=1 ( xi x )(yi y )
n 1
in=1 xi yi n x y
n 1
cov( X,Y )
S x Sy
63
c o r cov/ ( sd ( x ) * sd ( y ) )
cor
[1] 0.6709
cov ( x , y )
[1] 263661
cor ( x , y )
[1] 0.6709
c o r ( xy1 [ , 1 ] , xy1 [ , 2 ] )
[1] 0.1762
7.4. Exerccios
7.4
64
Exerccios
1. Use a equao de uma reta qualquer para simular duas variveis
correlacionadas. Varie o desvio padro na funo rnorm, calcule
os coeficientes de correlao e faa os diagramas de disperso.
Compare os resultados para ver a relao entre o diagrama de
disperso e o coeficiente de correlao.
2. No exemplo em que o pacote mvtnorm usado, a matrix sigma1
a matrix de covarincia, onde o valor da varincia de X vale 4; o
valor da varincia de Y vale 3 e o valor da covarincia entre X e Y
vale 0.5. O vetor mean contm as mdias populacionais de X e Y.
Se voc souber usar a funo rmvnorm, use-a, variando os valores
das mdias e da matriz sigma. Faa os diagramas de disperso e
calcule os coeficientes de correlao.
Uma pergunta parte: por que, se voc calcular a mdia, a varincia e a covariancia das amostras simuladas, o valor nunca ser
exatamente o mesmo dos valores usados na funo rmvnorm? Sero
parecidos mas no os mesmos.
Parte II
Dados multivariados
65
Captulo 8
Anlise de correspondncia
Anlise de correspondncia (AC) uma metodologia estatstica voltada para a anlise exploratria de dados categricos multivariados. Veja,
por exemplo, o livro (GREENACRE, 2007) que descreve o modelo de
uma forma muito didtica.
Existem duas formas de exibir dados categricos multivariados para
serem usados na AC. A primeira usando uma tabela de contingncia
quando utilizamos somente duas variveis, e a segunda, na forma de
uma matriz, ou na linguagem do R um data.frame, na qual cada linha corresponde a um sujeito (ou objeto) da amostra, e cada coluna corresponde
a uma varivel.
No caso da primeira forma, usamos a AC simples e, no caso da segunda, usamos a AC mltipla. Como foi comentado anteriormente, a
AC nos ajuda a compreender as relaes e associaes existentes entre as
variveis. Em resumo, o que a AC faz reduzir a dimensionalidade do
espao destas variveis, projetando-as num grfico de duas dimenses.
Seu resultado uma representao grfica, simples e elegante, que leva
a uma rpida interpretao e ao entendimento da estrutura por trs dos
dados. Em outras palavras, a anlise de correspondncia simplifica a
complexidade de uma alta dimensionalidade, descrevendo toda a informao contida nos dados. Quando usamos dados multivariados, cada
66
67
varivel pode ser representada como uma dimenso, logo, se estamos
tratando de sete variveis, estaremos trabalhando num espao de sete
dimenses, e isto torna a anlise extremamente complexa. A AC usa um
mtodo de lgebra linear, chamado decomposio em valores singulares,
para mudar as coordenadas do espao usual de vrias dimenses para
outras que tm a direo de maior variabilidade, depois a segunda de
maior variabilidade, e assim por diante, em ordem decrescente. Neste
caso, se projetamos os pontos relativos a cada varivel no espao de duas
dimenses, gerado pelas duas primeiras coordenadas descritas, isto , as
duas na direes de maior variabilidade, esta projeo ir conter uma
grande parte de toda a informao contida nos dados. No se preocupe
se voc no conseguiu entender esta descrio. Ao estudar os exemplos,
voc ir entender do que se trata. Para fazer todos os clculos e gerar as
tabelas e os grficos necessrios, e assim obter os resultados necessrios,
vamos usar o pacote do R chamado ca (NENADIC; GREENACRE, 2007).
O conjunto de dados abaixo, chamado smoke, contm frequncias de
hbitos de fumar (nenhum, pouco, moderado e forte) para a equipe de
administrao (gerente snior, gerente jnior, funcionrio snior, funcionrio jnior e secretrias) numa companhia. Os dados so fictcios.
l i b r a r y ( ca )
library ( xtable )
data ( smoke )
# Dando nomes s linhas e colunas do dataframe smoke.
68
Classlimits
[0.5,1.5)
[1.5,2.5)
[2.5,3.5)
[3.5,4.5)
[4.5,5.5)
[5.5,6.5)
[6.5,7.5)
[7.5,8.5)
1
2
3
4
5
6
7
8
pm
1.00
2.00
3.00
4.00
5.00
6.00
7.00
8.00
f
2
2
5
11
7
7
7
6
smoke.ca ca ( smoke )
summary ( smoke.ca )
value
0.074759
87.8
cum%
87.8
scree plot
*************************
0.010017
11.8
99.5
***
0.000414
0.5 100.0
Rows:
name
mass
qlt
57
893
93
991
inr
31 |
1 |
GS |
2 |
GJ |
3 |
FS |
264 1000
4 |
FJ |
456 1000
308 |
5 |
SC |
130
999
mass
qlt
139 |
-66
92
259 526
71 | -201 865
70 |
-11
58
3 |
58 152 |
79 133
81 |
Columns:
name
inr
69
1 | nnhm |
316 1000
2 | pouc |
233
984
3 | mdrd |
321
983
148 |
4 | fort |
130
995
192 |
99 327
31 |
-30
29 |
2 |
0.2
0.1
pouco
SC
FJ
0.0
moderado
FS
nenhum
0.1
0.2
GS
forte
GJ
0.3
0.4
0.3
0.2
0.1
0.0
0.1
0.2
0.3
70
# total , ou seja , os valores de cada linha esto divididos pelo
# r e sp ec ti v o total.
0.36
0.18
0.27
0.18
GJ
0.22
0.17
0.39
0.22
FS
0.49
0.20
0.24
0.08
FJ
0.20
0.27
0.38
0.15
SC
0.40
0.24
0.28
0.08
0.07
0.04
0.05
0.08
GJ
0.07
0.07
0.11
0.16
FS
0.41
0.22
0.19
0.16
FJ
0.30
0.53
0.53
0.52
SC
0.16
0.13
0.11
0.08
71
A segunda parte do "summary" mostra alguns resultados para as
linhas (rows) e os mesmos resultados para as colunas (columns). A massa
(mass) representa a proporo do total de cada linha (coluna) em relao
11
ao total geral multiplicado por mil, ou , 193
1000 = 57, sendo 11 o total da
linha GS, e 193 o total geral. A "qlt"representa a qualidade da representao de cada linha (coluna) de um total de 1000. Isto significa a proporo
da informao total, que est contida em 3 dimenses, explicada por cada
linha (coluna) do grfico de duas dimenses. Estes nmeros so muito
altos, visto que a inrcia total explicada pelas duas dimenses tambm
muito alta. A "inr"representa a inrcia de cada linha (coluna) como
proporo do total geral. A soma das inrcias das linhas (colunas) igual
a 1000. Esta "inr", junto com a massa, d uma ideia da importncia de
cada linha (coluna) na construo da AC.
Em geral, quando linhas (colunas) tm "mass"muito pequena e "inr"
muito grande, estas linhas (colunas) so consideradas valores discrepantes (outliers) e deveriam ser descartadas da AC.
Agora vamos analisar o resultado grfico da AC, na figura 8.1.
A componente principal mais importante, a que explica a maior
parte da inrcia, corresponde ao eixo horizontal e a segunda, ao vertical.
Em relao quantidade de cigarros, vemos que "pouco", "moderado"e
"forte"esto de um lado do eixo horizontal, enquanto "nenhum"se encontra do outro lado, em relao origem. Isto quer dizer que "nenhum"
bem diferente na sua composio dos outros trs. As principais diferenas ocorrem entre "nenhum"e "forte", j que, projetados sobre o eixo
horizontal, esto mais longe da origem. Quanto mais perto da origem
est um ponto, mais ele se parece com as propores mdias. As propores mdias so os valores totais divididos pelo total geral. Usando a
Matemtica, isto quer dizer que o vetor de "pouco"(2 3 10 24 6) dividido
por 45 mais parecido com o vetor dos totais (11 18 51 88 25), dividido
por 193, do que o vetor de "nenhum" (4 4 25 18 10), dividido por 61. Se
todos os pontos estivessem na origem, ento teramos o caso de as duas
variveis serem independentes.
Em relao equipe de administrao, vemos que FS e SC esto
72
73
74
1.0
0.5
conc3
area2
0.0
craa3
craa2
conc2
tapr3
conc1
tapr2
area1
craa1
area3
0.5
conc4
0.5
0.0
0.5
1.0
tapr1
Captulo 9
Biplots
Biplot uma metodologia estatstica voltada para a anlise exploratria de dados quantitativos multivariados.
Da mesma forma que a AC, o biplot tambm reduz a dimensionalidade dos dados para um grfico em duas dimenses. Os dados so
apresentados no formato de uma tabela, no R um data.frame, na qual
qual as colunas representam as variveis e as linhas representam os
objetos da amostra, ou seja, os dados, em cada linha, so as medidas das
variveis no objeto correspondente quela linha, ou seja, as observaes.
Estes data.frames so o material resultante de vrias reas de pesquisa.
As linhas so indivduos, pases, grupos demogrficos, lugares, casos, e
as colunas so as variveis que descrevem as linhas, como respostas de
questionrios, indicadores econmicos, produtos comprados, parmetros
ambientais, marcadores genticos etc. Para uma descrio muito boa do
mtodo, veja o livro (GREENACRE, 2010).
A ideia bsica do biplot simples e, como todas as solues simples de
problemas complexos, ao mesmo tempo poderoso e muito til. O biplot
faz com que a informao de uma tabela de dados se torne transparente,
revelando as principais estruturas dos dados, de uma forma metdica
como, por exemplo, padres de correlao entre variveis e similaridades
entre observaes. O pacote do R usado para obtermos os resultados
75
76
l i b r a r y ( bpca )
library ( xtable )
# Lendo os dados dos 12 pases da Europa para um da ta . fr am e
77
1
2
3
4
5
6
7
8
9
10
11
12
Pa.abrv.
Be
De
Ge
Gr
Sp
Fr
Ir
It
Lu
Ne
Po
UK
Paises
Blgica
Dinamarca
Alemanha
Grcia
Espanha
Frana
Irlanda
Itlia
Luxemburgo
Holanda
Portugal
Inglaterra
X1
19200
20400
19500
18800
17600
19600
20800
18200
28800
20400
15000
22600
X2
115.20
120.10
115.60
94.30
102.60
108.00
135.40
101.80
276.40
134.00
76.00
116.20
X3
4.50
3.60
2.80
4.20
4.10
3.20
3.10
3.50
4.10
2.20
2.70
3.60
X3
Gr
Sp
It
Fr
Ge
Be
De UK
Po
Ir
X1
X2
Ne
PC2 (30.08%)
0
PC1 (67.59%)
Lu
78
A figura 9.1 mostra o biplot da tabela 9.1; foi usado o pacote bpca do
R. Podemos ver que esta representao, somente em duas dimenses,
consegue explicar 97,7% (67,6% + 30,1%) da informao total dos dados.
Nesta tabela, os pases so os objetos, e X1, X2 e X3 as variveis. Os pontos
que representam as variveis esto ligados origem por um segmento
de reta. Isto importante, pois o cosseno do ngulo entre cada par de
retas representa a correlao entre as respectivas variveis. Quando o
ngulo for reto, a correlao ser nula, quando for zero, a correlao ser
1, e quando for 180 graus, a correlao ser -1.
Coeficientes de correlao entre as variveis.
# Usando o pacote xtable para c on struir a tabela de co rr el a o
X1
X2
X3
X1
1.00
0.93
0.24
X2
0.93
1.00
0.21
X3
0.24
0.21
1.00
A matriz da tabela 9.2 mostra o que j vimos no grfico. A correlao entre as variveis X1 e X2 igual a 0.93, uma correlao bem alta,
enquanto a correlao entre X1 e X3 vale 0.24, e entre X2 e X3 vale 0.21.
No grfico 9.1, podemos ver perfeitamente, que o ngulo entre X1 e X2
quase zero, enquanto os ngulos entre X1 e X3 e entre X2 e X3 so
quase retos, ou seja, o poder de compra per capita em euros e o produto
interno bruto(PIB) per capita so altamente relacionados, enquanto a taxa
de inflao no tem muita relao com os dois primeiros indicadores.
79
As posies dos vrios pases na figura 9.1 mostram, pelos agrupamentos, que eles tm medidas parecidas nas variveis. Luxemburgo est
bem separado dos outros pases, direita quase em cima do eixo horizontal, na direo das variveis X1 e X2. Isto mostra que Luxemburgo
tem leituras altas nestas duas variveis, ou seja, este pas tem alto poder
de compra e alto pib per capita. Por outro lado, Portugal est localizado
do lado oposto s 3 variveis, ou seja, este pas tem valores baixos nas 3
variveis o que realmente acontece; na tabela 9.1, vemos que Portugal
tem, em relao aos outros pases, um baixo poder de compra per capita
em euros, um pequeno produto interno bruto (PIB) per capita, uma baixa
taxa de inflao.
Os valores mdios de X1, X2 e X3 so respectivamente, 20075, 0; 124, 6
e 3, 47. A Dinamarca (DE) tem seus valores nas trs variveis bem perto
destas mdias e, medida que os pases vo se distanciando da origem,
seus valores, ou pelo menos um valor, se afasta muito da mdia. A
Blgica (BE) tem uma alta taxa de inflao, porque se aproxima de X3,
enquanto a Holanda (NE) tem uma baixa taxa de inflao, j que est
oposta a X3.
9.2
Fibrose cstica
A tabela 9.3 contm os dados sobre a funo pulmonar em pacientes com fibrose cstica, uma doena hereditria que afeta a capacidade
pulmonar do doente.
# Lendo os dados de fibrose cstica para um da ta . fr am e
As variveis so as seguintes.
id, idade.
80
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
id
7
7
8
8
8
9
11
12
12
13
13
14
14
15
16
17
17
17
17
19
19
20
23
23
23
sex
0
1
0
1
0
0
1
1
0
1
0
1
0
1
1
1
0
1
0
1
0
0
0
0
0
alt
109
112
124
125
127
130
139
150
146
155
156
153
160
158
160
153
174
176
171
156
174
178
180
175
179
pe
13.10
12.90
14.10
16.20
21.50
17.50
30.70
28.40
25.10
31.50
39.90
42.10
45.60
51.20
35.90
34.80
44.70
60.10
42.60
37.20
54.60
64.00
73.80
51.10
71.50
mc
68
65
64
67
93
68
89
69
67
68
89
90
93
93
66
70
70
92
69
72
86
86
97
71
95
vrf
32
19
22
41
52
44
28
18
24
23
39
26
45
45
31
29
49
29
38
21
37
34
57
33
52
vr
258
449
441
234
202
308
305
369
312
413
206
253
174
158
302
204
187
188
172
216
184
225
171
224
225
crf
183
245
268
146
131
155
179
198
194
225
142
191
139
124
133
118
104
129
130
119
118
148
108
131
127
cpt
137
134
147
124
104
118
119
103
128
136
95
121
108
90
101
120
103
130
103
81
101
135
98
113
101
pemax
95
85
100
85
95
80
65
110
70
95
110
90
100
80
134
134
165
120
130
85
85
160
165
95
195
81
vr
crf
sex
cpt
10
PC2 (13.71%)
par ( mar = c ( 4 , 4 , 2 , 1 ) + 0 . 1 )
p l o t ( bpca ( f c ) , o b j . c e x = 0 . 5 , v a r . c e x = 0 . 5 )
12
15
16
20
19 21
17
14
11 13
pemax
id
alt
pe
25
18 22
24
23
mc
6
5
vrf
PC1 (55.42%)
Figura 9.2: Biplot, resultado grfico
82
Referncias Bibliogrficas
DAHL, D. B. xtable: Export tables to LaTeX or HTML. 2013. R package
version 1.7-1. Disponvel em: <http://CRAN.R-project.org/package=
xtable>.
FARIA, J. C.; DEMETRIO, C. G. B. bpca: Biplot of Multivariate
Data Based on Principal Components Analysis. Ilheus, Bahia,
Brasil and Piracicaba, Sao Paulo, Brasil, 2013. Disponvel em:
<http://CRAN.R-project.org/package=bpca>.
FARIA, J. C.; GROSJEAN, P.; JELIHOVSCHI, E. Tinn-R - GUI/Editor for
R language and environment statistical computing. 2013. Disponvel em:
<http://sourceforge.net/projects/tinn-r>.
FARIA, J. C.; JELIHOVSCHI, E. fdth: Frequency Distribution Tables,
Histograms and Poligons. 2012. R package version 1.1-7. Disponvel em:
<http://CRAN.R-project.org/package=fdth>.
GENZ, A. et al. mvtnorm: Multivariate Normal and t Distributions. 2013.
Disponvel em: <http://CRAN.R-project.org/package=mvtnorm>.
GREENACRE, M. Correspondence Analysis in Practice. second. [S.l.]:
chapman & Hall/CRC, 2007.
GREENACRE, M. Biplots in Practice. first. Bilbao, Spain: Fundacion
BBVA, 2010.
83
Referncias Bibliogrficas
84