Você está na página 1de 37

Aula 2: Tipos de variveis a

Departamento de Mtodos Estat e sticos Instituto de Matemtica a Universidade Federal do Rio de Janeiro

2012

(UFRJ)

Anlise Exploratria de Dados a o

2012

1 / 34

Exemplo 2.1
Um pesquisador est interessado em fazer um levantamento sobre alguns aspectos a socioeconmicos dos empregados da seo de oramento da Companhia MB. o ca c Usando informaes obtidas no departamento pessoal, ele elaborou uma tabela: co Varivel a Estado civil Grau de instruo ca Nmero de lhos u Salrio a Idade Regio de procedncia a e Representao ca X Y Z S U V

Variveis qualitativas: Apresentam como poss a veis realizaes uma qualidade co - sexo, educao, estado civil; ca Variveis quantitativas: Apresentam como poss a veis realizaes nmeros co u (contagem ou mensurao) - nmero de lhos, salrio, idade; ca u a
(UFRJ) Anlise Exploratria de Dados a o 2012 2 / 34

Tipos de varivel a

Variveis qualitativas: a
Nominal - no existe nenhuma ordenao; a ca Ordinal - existe uma ordem em seus resultados;

Variveis quantitativas: a
Discreta - os poss veis valores formam um conjunto nito e enumervel de a pontos; Cont nua - os poss veis valores pertencem a um intervalo de nmeros reais e u que resultam de uma mensurao; ca

(UFRJ)

Anlise Exploratria de Dados a o

2012

3 / 34

Classicao de uma varivel ca a

Figure: Classicao de uma varivel ca a


(UFRJ) Anlise Exploratria de Dados a o 2012 4 / 34

Distribuioes de Frequncias c e
Quando se estuda uma varivel, o maior interesse do pesquisador conhecer a e o comportamento da mesma, analisando a ocorrncia de suas poss e veis realizaes; co A distribuio de frequncias uma maneira de dispor os dados de forma a ter ca e e uma idia da sua distribuio e ca Exemplo: Distribuio de frequncias da varivel grau de instruo da seo ca e a ca ca de oramentos da Companhia MB: c grau de instruo ca Fundamental Mdio e Superior Total frequncia (ni ) e 12 18 6 36 proporo (fi ) ca 0,3333 0,5000 0,1667 1,0000 porcentagem (100fi ) 33,33 50,00 16,67 100,00

(UFRJ)

Anlise Exploratria de Dados a o

2012

4 / 34

Distribuio de frequncias da varivel grau de instruo da seo de oramentos ca e a ca ca c da Companhia MB grau de instruo ca Fundamental Mdio e Superior Total frequncia (ni ) e 12 18 6 36 porcentagem (100fi ) 33,33 50,00 16,67 100,00

Distribuio de frequncias da varivel grau de instruo de todos os empregados ca e a ca da Companhia MB grau de instruo ca Fundamental Mdio e Superior Total frequncia (ni ) e 650 1020 330 2000 porcentagem (100fi ) 32,50 51,00 16,50 100,00

(UFRJ)

Anlise Exploratria de Dados a o

2012

5 / 34

Distribuio de frequncias de variveis cont ca e a nuas


E necessrio agrupar os dados em classes; a Classe 4,00 8,00 12,00 16,00 20,00 Total de salrios a 8, 00 12, 00 16, 00 20, 00 24, 00 frequncia (ni ) e 10 12 8 5 1 36 porcentagem (100fi ) 27,78 33,33 22,22 13,89 2,78 100,00

Perde-se informao. Por exemplo, no sabemos mais quais foram os oito salrios ca a a da classe de 12 a 16; A escolha dos intervalos arbitrria. O pesquisador decide quantas e quais classes e a usar:
com poucas classes, perde-se muita informao; ca com muitas classes, o objetivo de resumir os dados ca prejudicado;
(UFRJ) Anlise Exploratria de Dados a o 2012 6 / 34

Grcos para variveis qualitativas a a


Grco em barras a
A altura (ou largura) das barras proporcional ` magnitude a ser representada (ni e a ou fi ):

(UFRJ)

Anlise Exploratria de Dados a o

2012

7 / 34

Grco de composio em setores (ou pizza) a ca


Cada setor tem a rea proporcional ` magnitude a ser representada (ni ou fi ): a a

(UFRJ)

Anlise Exploratria de Dados a o

2012

7 / 34

Grco em barras a
Cada barra representa a frequncia observada de cada valor. e

(UFRJ)

Anlise Exploratria de Dados a o

2012

8 / 34

Grcos de disperso unidimensionais a a

Valores so representados por pontos ao longo da reta (provida de uma escala), e: a

(a) valores repetidos so acompanhados por um nmero que indica as repetioes; a u c

(b) valores repetidos so empilhados, um em cima do outro; a

(c) apresenta-se apenas o ponto mais alto da pilha.

(UFRJ)

Anlise Exploratria de Dados a o

2012

8 / 34

Grcos para variveis quantitativas cont a a nuas


Histograma
Os dados so divididos em classes. O histograma um grco de barras cont a e a guas, com as bases proporcionais aos intervalos das classes e a rea de cada retngulo a a proporcional ` respectiva frequncia (ni ou fi ). a e

(UFRJ)

Anlise Exploratria de Dados a o

2012

9 / 34

Ramo-e-folhas
A escolha do nmero de ramos equivalente a escolher as classes em um u e histograma. Exemplo: -2.1, -1.7, -1.5, -1.1, -0.9, -0.8, -0.8, 0.2, 1.3, 1.6, 1.6, 1.6, 1.7, 1.9, 2.3, 2.3, 2.6, 2.9, 3.2, 3.5, 3.5, 3.9, 3.9, 4.4, 4.5, 4.7, 5.6

(UFRJ)

Anlise Exploratria de Dados a o

2012

10 / 34

Exemplo 1: Tipo Sanguineo

Registrou-se o tipo sang uneo de 40 doadores voluntrios de sangue em um dia. a Os dados esto no arquivo tiposangue.txt. a Esta base de dados univariada. Podemos, portanto, usar o comando scan: e dados=scan(http://www.dme.ufrj.br/marina/tiposangue.txt,what=character)) O argumento what=character, no comando acima, serve para informar que o tipo de informao que ser lida so caracteres no-numricos. ca a a a e Problema: Descrever estes dados numa tabela de freqncias e represent-los ue a gracamente usando o R.

(UFRJ)

Anlise Exploratria de Dados a o

2012

11 / 34

Comando Sort

Use o comando sort para ordenar os dados: sort(dados) No caso de variveis nominais, a ordenao feita pela ordem alfabtica a ca e e Voc ainda pode escolher se deseja ordem crescente (default) ou decrescente, e acrescentando o argumento decreasing=T.

(UFRJ)

Anlise Exploratria de Dados a o

2012

12 / 34

Comando Table

Os conjunto de dados que estamos trabalhando de tamanho pequeno, e com o e aux do comando sort poder lio amos perfeitamente contar os casos de cada tipo poss de resposta. vel Porm, esta soluo no razovel se nosso conjunto de dados for de tamanho e ca a e a mdio ou grande. e O comando table resolve este problema para qualquer tamanho de conjunto de dados.

(UFRJ)

Anlise Exploratria de Dados a o

2012

13 / 34

Comando Table

Frequncias absolutas: table(dados) e Frequncias relativas: table(dados)/sum(table(dados)) e Porcentagens: table(dados)*100/sum(table(dados))

(UFRJ)

Anlise Exploratria de Dados a o

2012

14 / 34

Anlise Grca a a
Grco de setores: pie(table(dados)) a Vamos vericar as opes desse tipo de grco no R: help(pie) co a Alguns argumentos:
x: um vetor de quantidades positivas. Os valores em x representam a proporo ca das reas dos setores no grco. (OBRIGATORIO.) a a labels: um vetor de caracteres fornecendo nomes para os setores. (No a e obrigatrio.) o edges: um inteiro. A linha do c rculo aproximada por um pol e gono com este nmero de lados. u radius: o grco desenhado centrado num quadrado cujos lados variam de -1 ` 1. a e a Se os rtulos dos setores forem longos pode ser necessrio usar um raio menor. o a (default: radius=0.8). col: um vetor de cores a serem usadas no preenchimento dos setores. Se ausente, ser usado um conjunto de cores pastis. a e main: T tulo para o grco. a
(UFRJ) Anlise Exploratria de Dados a o 2012 15 / 34

Trocando cores

A funo colors() lista o nome das 657 cores poss ca veis. pie(table(dados),col=c(yellow,red,green,blue),main=Distribuio de ca freqncias de tipo sang ue uneo) pie(table(dados),col = gray(seq(0.4,1.0,length=4)), main=Distribuio de ca freqncias de tipo sang ue uneo) pie(table(dados),density = 10, angle = 15 + 40 * 1:4, main=Distribuio de ca freqncias de tipo sang ue uneo)

(UFRJ)

Anlise Exploratria de Dados a o

2012

16 / 34

Grco de barras a
Comando barplot Produz um grco de barras da distribuio de frequncias de alguma varivel. a ca e a barplot(table(dados),col=blue,main= Distribuio de freqncias de Tipo ca ue Sang uneo)

(UFRJ)

Anlise Exploratria de Dados a o

2012

17 / 34

Detalhes do comando barplot

height um vetor, o grco consiste de uma sequncia de barras retangulares e a e com alturas dadas pelos valores no vetor. height uma matriz e o argumento beside=F, ento cada barra do grco e a a corresponder a uma coluna da matriz height, com os valores na coluna a correspondendo as alturas das sub-barras que compoem a barra. (default) height uma matriz e beside=T, ento os valores em cada coluna caro e a a justapostos em vez de empilhados.

(UFRJ)

Anlise Exploratria de Dados a o

2012

18 / 34

Exemplo 2: Tipo sang uneo para 4 amostras

Suponha que em vez de uma unica amostra, observamos a varivel tipo sang a uneo em 4 amostras de diferentes regies, obtendo para os sangues tipo O, A, AB e B, o nesta ordem, as seguintes freqncias: ue

amostra 1) 15, 12, 10, 5 amostra 2) 25, 23, 12, 8 amostra 3) 14, 12, 8, 6 amostra 4) 12, 20, 5, 10

(UFRJ)

Anlise Exploratria de Dados a o

2012

19 / 34

Exemplo 2: continuao ca

Podemos construir a matriz height onde cada coluna representar uma distribuio: a ca

x=matrix(0,4,4) - constri uma matriz nula 4x4 o x[,1]=c(15,12,10,5) - atribui os valores da coluna 1 de x x[,2]=c(25,23,12,8) - atribui os valores da coluna 2 de x x[,3]=(14,12,8,6) - atribui os valores da coluna 3 de x x[,4]=c(12,20,5,10) - atribui os valores da coluna 4 de x

(UFRJ)

Anlise Exploratria de Dados a o

2012

20 / 34

barplot(x,beside=F)

(UFRJ)

Anlise Exploratria de Dados a o

2012

21 / 34

Observe que como cada amostra conta com um nmero diferente de observaes, u co este grco ainda precisa ser melhorado se queremos comparar as diferentes a amostras. A sugesto aqui uniformizar a escala, trabalhando com freqncias a e ue relativas.

x[,1]=x[,1]/sum(x[,1]) x[,2]=x[,2]/sum(x[,2]) x[,3]=x[,3]/sum(x[,3]) x[,4]=x[,4]/sum(x[,4]) ou for (i in 1:4) {x[,i]=x[,i]/sum(x[,i]) }

(UFRJ)

Anlise Exploratria de Dados a o

2012

22 / 34

barplot(x,beside=F)

(UFRJ)

Anlise Exploratria de Dados a o

2012

23 / 34

barplot(x,beside=T)

(UFRJ)

Anlise Exploratria de Dados a o

2012

24 / 34

Barplot: mais detalhes

Argumento main - aqui tambm usado para inserir um t e e tulo: barplot(x,main=T tulo,sub=Sub-t tulo) Argumentos xlab e ylab - rtulos para os eixos do grco. o a barplot(x,main=T tulo,sub=Sub-t tulo,ylab=freq. rel,xlab=rtulo para o o eixo x) Argumento names.arg - vetor que cria rtulos para cada uma das amostras. o barplot(x,main=T tulo,sub=Sub-t tulo,ylab=freq. rel,xlab=rtulo para o o eixo x,names.arg=c(amostra 1,amostra 2,amostra 3,amostra 4))

(UFRJ)

Anlise Exploratria de Dados a o

2012

25 / 34

Exemplos
barplot(x,beside=T,names.arg=c(amostra 1,amostra 2,amostra 3,amostra 4),main=Distribuio de freqncias de tipo sang ca ue uneo,ylab=freq. relativa,xlab=rtulo para o eixo horizontal) o

(UFRJ)

Anlise Exploratria de Dados a o

2012

26 / 34

Argumento: legend.text - vetor contendo a legenda


barplot(x,main=T tulo,sub=sub-t tulo,ylab=freq. rel., xlab=nome,names.arg=c(amostra 1,amostra 2, amostra 3,amostra 4), legend.text=c(O,A, AB,B),beside=T)

(UFRJ)

Anlise Exploratria de Dados a o

2012

27 / 34

Outros argumentos de barplot

width - vetor opcional com a largura das barras; space - quantidade de espao a esquerda antes de cada barra. Pode ser fornecido c como um unico nmero ou um nmero por barra. u u Se height uma matriz e beside=T, space pode ser especicado por dois e nmeros, onde o primeiro o espaco entre barras no mesmo grupo, e o segundo u e e o espaco entre os grupos. Se nao fornecido explicitamente, seu default c(0,1) se height uma matriz e e e e beside=T, e 0.2, caso contrrio. a

(UFRJ)

Anlise Exploratria de Dados a o

2012

28 / 34

Grco usando o argumento space=c(1,3) a


barplot(x,main=T tulo,sub=sub-t tulo,ylab=freq. rel., xlab=nome,names.arg=c(amostra 1,amostra 2, amostra 3,amostra 4), legend.text=c(O,A, AB,B),beside=T,space=c(1,3))

(UFRJ)

Anlise Exploratria de Dados a o

2012

29 / 34

Outros argumentos de barplot

horiz: um valor lgico. o Se horiz=F, as barras so desenhadas verticalmente com a primeira barra ` a a esquerda. Se horiz=T, as barras so desenhadas horizontalmente com a primeira barra em a baixo. Default: horiz=F

(UFRJ)

Anlise Exploratria de Dados a o

2012

30 / 34

Grco usando o argumento horiz=T a

(UFRJ)

Anlise Exploratria de Dados a o

2012

31 / 34

Outros argumentos de barplot


col - vetor informando as cores das barras. border - cor das bordas da barra. Inserindo o argumentos: col=c(blue,violetblue,green,palegreen), border=red e retirando horiz=T e space=c(1,3)

(UFRJ)

Anlise Exploratria de Dados a o

2012

32 / 34

col = gray(seq(0.4,1.0,length=4))

(UFRJ)

Anlise Exploratria de Dados a o

2012

33 / 34

density = 10, angle = 15 + 30 * 1:4

(UFRJ)

Anlise Exploratria de Dados a o

2012

34 / 34

Você também pode gostar