Escolar Documentos
Profissional Documentos
Cultura Documentos
Com isso j vemos um problema: os NAs so de fato observaes faltantes? Verificando a planilha descobrimos que na verdade so pontos em que no houve avistamento. Portanto, o valor correto zero Quais so os registros com este problema? Vamos verificar para os urubus
aves.c[aves.c$urubu==NA,]
Que retorna um vetor lgico que usamos para indexar o data frame ou um de seus vetores:
aves.c[is.na(aves.c$urubu)==T,] aves.c[is.na(aves.c$urubu)==T|is.na(aves.c$carcara)==T| is.na(aves.c$seriema)==T,]
E agora vamos corrigir estes valores, que pode ser feito de trs maneiras:
aves.c$urubu[is.na(aves.c$urubu)==T] <- 0 aves.c[is.na(aves.c$urubu)==T,2] <- 0 aves.c[is.na(aves.c[,2])==T, 2] <- 0
Deu certo? Vamos verificar, comparando linhas que agora so zero com o pedao antigo do objeto que guardamos:
aves.c[aves.c$urubu==0|aves.c$carcara==0|aves.c$seriema==0,] temp1
Convertendo para fator, que ordenamos da fisionomia mais aberta para a menos:
aves.c$fisionomia <- factor(aves.c$fisionomia, levels=c("CL","CC","Ce"))
Este ltimo comando funcionou? Se no, tente calcular as medianas por coluna com a funo apply:
apply(aves.c[,2:4],2,median)
H muita diferena entre essas trs medidas de tendncia central? Como voc as explicaria? Agora calcule os quantis para o nmero de avistamentos de urubus. O padro da funo quantile so quartis, como na funo summary:
quantile(aves.c$urubu) ## O mesmo que o retornado pelo summary summary(aves.c$urubu)
Por fim, obtenha quartis, mdias e medianas de uma vez para todas as variveis, com o comando:
summary(aves.c[,2:4])
Variaes do Histograma
Voltando ao objeto criado no tutorial Conferindo Data Frames, vamos fazer algumas variaes de histogramas do nmero de avistamentos de urubus: Voc pode acrescentar marcas (traos) indicando a posio de cada observao no eixo x.
## Histograma com os valores (funcao rug) hist(aves.c$urubu) rug(jitter(aves.c$urubu))
O que acontece se voc omite a funo jitter neste caso? Por que? Agora vamos fazer um histograma re-escalonado de modo que as reas das barras somem um. Com isto, podemos sobrepor ao histograma um ajuste no paramtrico de densidade probabilstica, que tambm mantm rea um:
hist(aves.c$urubu, prob=T) lines( density(aves.c$urubu),col="blue" )
Tambm sobre este histograma podemos sobrepor a curva normal. Para os parmetros da normal, usamos a mdia e o desvio-padro da amostra.
hist(aves.c$urubu, prob=T) curve(expr = dnorm(x,mean=mean(aves.c$urubu),sd=sd(aves.c$urubu)),add=T, col="red")
Por fim, vamos sobrepor a curva de densidade probabilstica com a curva normal:
plot(density(aves.c$urubu),col="blue", ylim=c(0,0.08)) curve(expr = dnorm(x,mean=mean(aves.c$urubu),sd=sd(aves.c$urubu)),add=T, col="red")
O que estes grficos revelam sobre a distribuio do nmero de avistamentos de urubus neste estudo fictcio?
table e aggregate
Usaremos o objeto caixeta criado no tutorial Explorao de uma Varivel Categrica. A relao entre duas ou mais variveis categricas pode ser explorada com tabelas cruzadas, por exemplo:
table(caixeta$especie,caixeta$local)
Quando temos uma variavel categrica (fator) e uma numrica, as funes aggregate e tapply so muito teis. A funo aggregate o equivalente das tabelas dinmicas das planilhas eletrnicas. Por exemplo, para obter do objeto caixeta um data frame com a altura mdia dos fustes de cada espcie de rvore por local voc executa o comando:
caixeta.alt <- aggregate(caixeta$h, by=list(local=caixeta$local,especie=caixeta$especie), FUN=mean)
Consulte a ajuda da funo aggregate e experimente outras combinaes de fatores e funes, com este conjunto de dados.
xtabs
Crie um objeto com este arquivo e faa as seguintes tabulaes:
xtabs(Freq~Sex+Survived, data=Titanic.df) prop.table(xtabs(Freq~Sex+Survived, data=Titanic.df), margin=1) xtabs(Freq~Class+Survived, data=Titanic.df) prop.table(xtabs(Freq~Class+Survived, data=Titanic.df), margin=1)
Por que usamos a funo xtabs neste caso e no a funo table? P.ex:
table(Titanic.df$Sex,Titanic.df$Survived)
Que tipo de padro ou diferenas estes grficos podem revelar? Esta frmula pode ainda incluir um fator condicionante, que aplica a relao proposta dentro de cada nvel dos condicionais: varivel dependente ~ variveis preditoras | variveis condicionantes
Qual a diferena entre este grfico e os trs ltimos obtidos com os comandos anteriores?