Escolar Documentos
Profissional Documentos
Cultura Documentos
Introdução à análise de
dados
Projeto 3-Resumo Executivo
de
Data:- 21 fevereiro de 2021.
PRINCIPAIS CONCLUSÕES
Visão geral
Neste projeto, fui solicitado a analisar o conjunto de dados inchBio, criar gráficos visuais e
gráficos do conjunto de dados, bem como fornecer o resumo dos resultados. Ele é distribuído
em duas partes, a primeira é a estatística que é explicada. Na primeira parte, analisarei a
estrutura de dados do inchBio e explicarei as estatísticas em detalhes. A próxima parte é onde
explico alguns dos enredos e gráficos.
Estatística Descritiva
Ao imprimir o conjunto de dados, a princípio parecia que havia apenas uma espécie de peixe no
estudo. No entanto, houve, 534 linhas deixadas de fora, Como eu queria tirar Screenshots de outras
áreas. Imprimi áreas aleatórias confirmando que havia pelo menos 4 espécies envolvidas. Depois
disso, corri quando fiz uma contagem completa do conjunto de dados e descobri que havia de fato 8
espécies envolvidas.
3
Introdução à análise de dados
Projeto 3-Resumo Executivo
Ao olhar para a estrutura do conjunto de dados, podemos ver algumas outras informações
estatísticas, como o comprimento do conjunto de dados, bem como a média, mediana, modo do
comprimento e peso de diferentes peixes.
Depois de ver as informações, parece que Largemouth Bass e Bluegill dominam a população
do estudo.
4
Introdução à análise de dados
Projeto 3-Resumo Executivo
Análise de Parcelas
Agora mudamos o gráfico de barras para exibir a frequência relativa. Embora a maioria do
visual seja o mesmo, podemos ver que Bluegill e Largemouth Bass combinados
compreendem a maioria da população de peixes
5
Introdução à análise de dados
Projeto 3-Resumo Executivo
A maneira mais fácil de ver esses dois pontos é por um gráfico de Pareto que mostra tudo de
uma vez. No mapa de Pareto, tenho Contagens Cumulativas no lado esquerdo do Eixo Y e
porcentagens à direita. A linha verde de contagem cumulativa indica meu ponto anterior, que
quando você adiciona os estoques de Largemouth Bass e Bluegill, você tem 448 peixes.
6
Introdução à análise de dados
Projeto 3-Resumo Executivo
Resumo
Neste, mais informações sobre o corpo de água serão úteis. Por exemplo, é apenas um corpo
de água ou vários corpos de água? A localização geográfica também ajudaria.
O comprimento e o peso dos peixes não parecem ser as características distintivas do tamanho
da espécie. Descobrimos que o melhor peixe era o Largemouth Bass, mas Bluegill não era o
segundo maior peixe. A análise de Paret também nos ajuda a entender não apenas os dados
qualitativos, mas também os dados quantitativos.
7
Introdução à análise de dados
Projeto 3-Resumo Executivo
Biblografia
Bluman, A. G. (2018). Estatística elementar: Uma abordagem passo a passo. Nova Iorque,
NY: McGraw-Hill Education.
Apêndice
Q1) Imprima seu nome na parte superior do script e carregue estas bibliotecas: FSA, FSAdata,
magrittr, dplyr, tidyr plyr e tidyverse
Consolar
Q4) Crie um objeto, <counts>, que conte e liste todos os registros de espécies
Consolar
10
Introdução à análise de dados
Projeto 3-Resumo Executivo
Consolar
Q6) Crie um objeto <tmp> que exiba as diferentes espécies e o número de registros de
cada espécie no conjunto de dados. Inclua essas informações em seu relatório.
Consolar
11
Introdução à análise de dados
Projeto 3-Resumo Executivo
Consolar
Consolar
12
Introdução à análise de dados
Projeto 3-Resumo Executivo
Consolar
Consolar
13
Introdução à análise de dados
Projeto 3-Resumo Executivo
Q11) Crie uma tabela chamada <cSpec> a partir do atributo bio species (variável) e
confirme que você criou uma tabela que exibe o número de espécies no dataset<bio>
Consolar
Q12) Crie uma tabela denominada <cSpecPct> que exiba as espécies e a porcentagem
de registros para cada espécie. Confirmar que você criou uma classe de tabela
Consolar
14
Introdução à análise de dados
Projeto 3-Resumo Executivo
Q13)Converter a tabela,<cSpecPct> , em um quadro de dados chamado <u> e
confirmar que <u> é um quadro de dados
Consolar
Consolar
Q17) Renomeie as colunas <d> var 1 para espécies e freq para relfreq
17
Introdução à análise de dados
Projeto 3-Resumo Executivo
Consolar
Consolar
Q21) Adicione uma linha de contagens cumulativas ao gráfico <pc> com o seguinte:
• Tipo de linha de especificação é b
• Dimensionar o texto plotando em 70%
• Os valores de dados são círculos sólidos com cor ciano4
install.packages("plyr")
install.packages("FSA")
install.packages("FSAdata")
install.packages("magrittr")
install.packages("dplyr")
install.packages("arrumador")
install.packages("tidyverse")
install.packages("plotrix")
install.packages("ggplot2")
21
Introdução à análise de dados
Projeto 3-Resumo Executivo
install.packages("momentos")
biblioteca(plyr)
biblioteca (FSA)
biblioteca(FSAdata)
Biblioteca(Magrittr)
biblioteca(dplyr)
biblioteca(arrumador)
biblioteca(tidyverse)
biblioteca(plotrix)
biblioteca(ggplot2)
biblioteca(momentos)
setwd("C:/Arquivos de Programas/R")
Getwd()
#2
bio <- leia.csv("inchBio.csv", header=TRUE)
bio
#3
cauda de cabeça(bio, n=5)
str(bio)
#4
bio[c(1:3, 250:253, 450:453, 670:673),]
#6
bio
tmp.species.records <-count(bio[1:676,], vars = espécie)
tmp.species.registros
#7
temp2.speciesonly <- bio[c(-1,-2,-4,-5,-6,-7)]
temp2.speciesonly
cabeça(temp2.speciesonly,5)
#OR*
resumo(bio)
#8
w <- tabela(bio$species)
w
classe(w)
#9
t <- as.data.frame(w)
23
Introdução à análise de dados
Projeto 3-Resumo Executivo
t
#10
freq <- t[,2]
Freq
#11
cSpec = tabela(bio$species)
cSpec
#12
cSpecPct = tabela(bio$species)/676
cSpecPct
classe(cSpecPct)
#13
u = as.data.frame(cSpecPct)
u
classe(u)
#14
barplot(cSpec, ylab = "Counts", las=2, cex.names = .6, col="lightgreen", main="Contagem de
peixes")
#15
barplot(cSpecPct, ylim=c(0.0,0.4), las=2, ylab="%", col="lightblue", cex.names=.5,
main="Frequência relativa de peixes")
24
Introdução à análise de dados
Projeto 3-Resumo Executivo
#16
d = arranjo(u,desc(Freq))
d
#17
names(d) [names(d)=="Var1"]="Espécie"
names(d) [nomes(d)=="Freq"]="RelFreq"
d
#18
d<- mutar(d, cumfreq=cumsum(RelFreq), counts=RelFreq*676,
cumcounts=cumsum(counts))
d
#19
def_par = par()
par(mar=c(6,5,3,5))
#20
pc <- barplot(d$counts, width=1, space=.15, border=NA, axes=F,
ylim=c(0,3.05*max(d$counts, na.rm=T)),
ylab="Contagens Cumulativas", cex.names=.7, names.arg=d$Species,
main="Species Pareto (por Pratyay Godiawala)", las=2)
#21
linhas(pc,d$cumcounts, type="b", cex=0.7, pch = 19, col="cyan4")
#22
caixa(col="cinza62")
25
Introdução à análise de dados
Projeto 3-Resumo Executivo
#23
axis(side=2, at=c(0, d$cumcounts), las=1, col.axis="grey62", col="grey62", cex.axis=0.8)
#24
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round(d$cumfreq * 100)), "%", sep=""),
las = 1, col.axis = "ciano4", col="ciano4", cex.axis=0,8)
#25
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round (d$cumfreq * 100)), "%",
sep=""),
las = 1, col.axis = "ciano4", col="ciano4", cex.axis=0,8)