Escolar Documentos
Profissional Documentos
Cultura Documentos
Departamento de Mtodos Estat e sticos Instituto de Matemtica a Universidade Federal do Rio de Janeiro
2012
(UFRJ)
2012
1 / 34
Exemplo 2.1
Um pesquisador est interessado em fazer um levantamento sobre alguns aspectos a socioeconmicos dos empregados da seo de oramento da Companhia MB. o ca c Usando informaes obtidas no departamento pessoal, ele elaborou uma tabela: co Varivel a Estado civil Grau de instruo ca Nmero de lhos u Salrio a Idade Regio de procedncia a e Representao ca X Y Z S U V
Variveis qualitativas: Apresentam como poss a veis realizaes uma qualidade co - sexo, educao, estado civil; ca Variveis quantitativas: Apresentam como poss a veis realizaes nmeros co u (contagem ou mensurao) - nmero de lhos, salrio, idade; ca u a
(UFRJ) Anlise Exploratria de Dados a o 2012 2 / 34
Tipos de varivel a
Variveis qualitativas: a
Nominal - no existe nenhuma ordenao; a ca Ordinal - existe uma ordem em seus resultados;
Variveis quantitativas: a
Discreta - os poss veis valores formam um conjunto nito e enumervel de a pontos; Cont nua - os poss veis valores pertencem a um intervalo de nmeros reais e u que resultam de uma mensurao; ca
(UFRJ)
2012
3 / 34
Distribuioes de Frequncias c e
Quando se estuda uma varivel, o maior interesse do pesquisador conhecer a e o comportamento da mesma, analisando a ocorrncia de suas poss e veis realizaes; co A distribuio de frequncias uma maneira de dispor os dados de forma a ter ca e e uma idia da sua distribuio e ca Exemplo: Distribuio de frequncias da varivel grau de instruo da seo ca e a ca ca de oramentos da Companhia MB: c grau de instruo ca Fundamental Mdio e Superior Total frequncia (ni ) e 12 18 6 36 proporo (fi ) ca 0,3333 0,5000 0,1667 1,0000 porcentagem (100fi ) 33,33 50,00 16,67 100,00
(UFRJ)
2012
4 / 34
Distribuio de frequncias da varivel grau de instruo da seo de oramentos ca e a ca ca c da Companhia MB grau de instruo ca Fundamental Mdio e Superior Total frequncia (ni ) e 12 18 6 36 porcentagem (100fi ) 33,33 50,00 16,67 100,00
Distribuio de frequncias da varivel grau de instruo de todos os empregados ca e a ca da Companhia MB grau de instruo ca Fundamental Mdio e Superior Total frequncia (ni ) e 650 1020 330 2000 porcentagem (100fi ) 32,50 51,00 16,50 100,00
(UFRJ)
2012
5 / 34
Perde-se informao. Por exemplo, no sabemos mais quais foram os oito salrios ca a a da classe de 12 a 16; A escolha dos intervalos arbitrria. O pesquisador decide quantas e quais classes e a usar:
com poucas classes, perde-se muita informao; ca com muitas classes, o objetivo de resumir os dados ca prejudicado;
(UFRJ) Anlise Exploratria de Dados a o 2012 6 / 34
(UFRJ)
2012
7 / 34
(UFRJ)
2012
7 / 34
Grco em barras a
Cada barra representa a frequncia observada de cada valor. e
(UFRJ)
2012
8 / 34
(UFRJ)
2012
8 / 34
(UFRJ)
2012
9 / 34
Ramo-e-folhas
A escolha do nmero de ramos equivalente a escolher as classes em um u e histograma. Exemplo: -2.1, -1.7, -1.5, -1.1, -0.9, -0.8, -0.8, 0.2, 1.3, 1.6, 1.6, 1.6, 1.7, 1.9, 2.3, 2.3, 2.6, 2.9, 3.2, 3.5, 3.5, 3.9, 3.9, 4.4, 4.5, 4.7, 5.6
(UFRJ)
2012
10 / 34
Registrou-se o tipo sang uneo de 40 doadores voluntrios de sangue em um dia. a Os dados esto no arquivo tiposangue.txt. a Esta base de dados univariada. Podemos, portanto, usar o comando scan: e dados=scan(http://www.dme.ufrj.br/marina/tiposangue.txt,what=character)) O argumento what=character, no comando acima, serve para informar que o tipo de informao que ser lida so caracteres no-numricos. ca a a a e Problema: Descrever estes dados numa tabela de freqncias e represent-los ue a gracamente usando o R.
(UFRJ)
2012
11 / 34
Comando Sort
Use o comando sort para ordenar os dados: sort(dados) No caso de variveis nominais, a ordenao feita pela ordem alfabtica a ca e e Voc ainda pode escolher se deseja ordem crescente (default) ou decrescente, e acrescentando o argumento decreasing=T.
(UFRJ)
2012
12 / 34
Comando Table
Os conjunto de dados que estamos trabalhando de tamanho pequeno, e com o e aux do comando sort poder lio amos perfeitamente contar os casos de cada tipo poss de resposta. vel Porm, esta soluo no razovel se nosso conjunto de dados for de tamanho e ca a e a mdio ou grande. e O comando table resolve este problema para qualquer tamanho de conjunto de dados.
(UFRJ)
2012
13 / 34
Comando Table
(UFRJ)
2012
14 / 34
Anlise Grca a a
Grco de setores: pie(table(dados)) a Vamos vericar as opes desse tipo de grco no R: help(pie) co a Alguns argumentos:
x: um vetor de quantidades positivas. Os valores em x representam a proporo ca das reas dos setores no grco. (OBRIGATORIO.) a a labels: um vetor de caracteres fornecendo nomes para os setores. (No a e obrigatrio.) o edges: um inteiro. A linha do c rculo aproximada por um pol e gono com este nmero de lados. u radius: o grco desenhado centrado num quadrado cujos lados variam de -1 ` 1. a e a Se os rtulos dos setores forem longos pode ser necessrio usar um raio menor. o a (default: radius=0.8). col: um vetor de cores a serem usadas no preenchimento dos setores. Se ausente, ser usado um conjunto de cores pastis. a e main: T tulo para o grco. a
(UFRJ) Anlise Exploratria de Dados a o 2012 15 / 34
Trocando cores
A funo colors() lista o nome das 657 cores poss ca veis. pie(table(dados),col=c(yellow,red,green,blue),main=Distribuio de ca freqncias de tipo sang ue uneo) pie(table(dados),col = gray(seq(0.4,1.0,length=4)), main=Distribuio de ca freqncias de tipo sang ue uneo) pie(table(dados),density = 10, angle = 15 + 40 * 1:4, main=Distribuio de ca freqncias de tipo sang ue uneo)
(UFRJ)
2012
16 / 34
Grco de barras a
Comando barplot Produz um grco de barras da distribuio de frequncias de alguma varivel. a ca e a barplot(table(dados),col=blue,main= Distribuio de freqncias de Tipo ca ue Sang uneo)
(UFRJ)
2012
17 / 34
height um vetor, o grco consiste de uma sequncia de barras retangulares e a e com alturas dadas pelos valores no vetor. height uma matriz e o argumento beside=F, ento cada barra do grco e a a corresponder a uma coluna da matriz height, com os valores na coluna a correspondendo as alturas das sub-barras que compoem a barra. (default) height uma matriz e beside=T, ento os valores em cada coluna caro e a a justapostos em vez de empilhados.
(UFRJ)
2012
18 / 34
Suponha que em vez de uma unica amostra, observamos a varivel tipo sang a uneo em 4 amostras de diferentes regies, obtendo para os sangues tipo O, A, AB e B, o nesta ordem, as seguintes freqncias: ue
amostra 1) 15, 12, 10, 5 amostra 2) 25, 23, 12, 8 amostra 3) 14, 12, 8, 6 amostra 4) 12, 20, 5, 10
(UFRJ)
2012
19 / 34
Exemplo 2: continuao ca
Podemos construir a matriz height onde cada coluna representar uma distribuio: a ca
x=matrix(0,4,4) - constri uma matriz nula 4x4 o x[,1]=c(15,12,10,5) - atribui os valores da coluna 1 de x x[,2]=c(25,23,12,8) - atribui os valores da coluna 2 de x x[,3]=(14,12,8,6) - atribui os valores da coluna 3 de x x[,4]=c(12,20,5,10) - atribui os valores da coluna 4 de x
(UFRJ)
2012
20 / 34
barplot(x,beside=F)
(UFRJ)
2012
21 / 34
Observe que como cada amostra conta com um nmero diferente de observaes, u co este grco ainda precisa ser melhorado se queremos comparar as diferentes a amostras. A sugesto aqui uniformizar a escala, trabalhando com freqncias a e ue relativas.
(UFRJ)
2012
22 / 34
barplot(x,beside=F)
(UFRJ)
2012
23 / 34
barplot(x,beside=T)
(UFRJ)
2012
24 / 34
Argumento main - aqui tambm usado para inserir um t e e tulo: barplot(x,main=T tulo,sub=Sub-t tulo) Argumentos xlab e ylab - rtulos para os eixos do grco. o a barplot(x,main=T tulo,sub=Sub-t tulo,ylab=freq. rel,xlab=rtulo para o o eixo x) Argumento names.arg - vetor que cria rtulos para cada uma das amostras. o barplot(x,main=T tulo,sub=Sub-t tulo,ylab=freq. rel,xlab=rtulo para o o eixo x,names.arg=c(amostra 1,amostra 2,amostra 3,amostra 4))
(UFRJ)
2012
25 / 34
Exemplos
barplot(x,beside=T,names.arg=c(amostra 1,amostra 2,amostra 3,amostra 4),main=Distribuio de freqncias de tipo sang ca ue uneo,ylab=freq. relativa,xlab=rtulo para o eixo horizontal) o
(UFRJ)
2012
26 / 34
(UFRJ)
2012
27 / 34
width - vetor opcional com a largura das barras; space - quantidade de espao a esquerda antes de cada barra. Pode ser fornecido c como um unico nmero ou um nmero por barra. u u Se height uma matriz e beside=T, space pode ser especicado por dois e nmeros, onde o primeiro o espaco entre barras no mesmo grupo, e o segundo u e e o espaco entre os grupos. Se nao fornecido explicitamente, seu default c(0,1) se height uma matriz e e e e beside=T, e 0.2, caso contrrio. a
(UFRJ)
2012
28 / 34
(UFRJ)
2012
29 / 34
horiz: um valor lgico. o Se horiz=F, as barras so desenhadas verticalmente com a primeira barra ` a a esquerda. Se horiz=T, as barras so desenhadas horizontalmente com a primeira barra em a baixo. Default: horiz=F
(UFRJ)
2012
30 / 34
(UFRJ)
2012
31 / 34
(UFRJ)
2012
32 / 34
col = gray(seq(0.4,1.0,length=4))
(UFRJ)
2012
33 / 34
(UFRJ)
2012
34 / 34