Você está na página 1de 25

1

Introdução à análise de dados


Projeto 3-Resumo Executivo

Introdução à análise de
dados
Projeto 3-Resumo Executivo

Por Pratyay Godiawala


2
Introdução à análise de dados
Projeto 3-Resumo Executivo

de
Data:- 21 fevereiro de 2021.
PRINCIPAIS CONCLUSÕES

Visão geral

Neste projeto, fui solicitado a analisar o conjunto de dados inchBio, criar gráficos visuais e
gráficos do conjunto de dados, bem como fornecer o resumo dos resultados. Ele é distribuído
em duas partes, a primeira é a estatística que é explicada. Na primeira parte, analisarei a
estrutura de dados do inchBio e explicarei as estatísticas em detalhes. A próxima parte é onde
explico alguns dos enredos e gráficos.

Estatística Descritiva

Ao imprimir o conjunto de dados, a princípio parecia que havia apenas uma espécie de peixe no
estudo. No entanto, houve, 534 linhas deixadas de fora, Como eu queria tirar Screenshots de outras
áreas. Imprimi áreas aleatórias confirmando que havia pelo menos 4 espécies envolvidas. Depois
disso, corri quando fiz uma contagem completa do conjunto de dados e descobri que havia de fato 8
espécies envolvidas.
3
Introdução à análise de dados
Projeto 3-Resumo Executivo

Ao olhar para a estrutura do conjunto de dados, podemos ver algumas outras informações
estatísticas, como o comprimento do conjunto de dados, bem como a média, mediana, modo do
comprimento e peso de diferentes peixes.

Para determinar a porcentagem de peixes incluídos neste estudo, usamos a análise de


frequência mostrada abaixo.

Depois de ver as informações, parece que Largemouth Bass e Bluegill dominam a população
do estudo.
4
Introdução à análise de dados
Projeto 3-Resumo Executivo

Análise de Parcelas

A primeira parcela, é um barplot mostrando as contagens totais das espécies de peixes no


estudo. Podemos ver que Largemouth Bass e Bluegill são de fato as espécies de peixes mais
populosas.

Agora mudamos o gráfico de barras para exibir a frequência relativa. Embora a maioria do
visual seja o mesmo, podemos ver que Bluegill e Largemouth Bass combinados
compreendem a maioria da população de peixes
5
Introdução à análise de dados
Projeto 3-Resumo Executivo

A maneira mais fácil de ver esses dois pontos é por um gráfico de Pareto que mostra tudo de
uma vez. No mapa de Pareto, tenho Contagens Cumulativas no lado esquerdo do Eixo Y e
porcentagens à direita. A linha verde de contagem cumulativa indica meu ponto anterior, que
quando você adiciona os estoques de Largemouth Bass e Bluegill, você tem 448 peixes.
6
Introdução à análise de dados
Projeto 3-Resumo Executivo

Resumo
Neste, mais informações sobre o corpo de água serão úteis. Por exemplo, é apenas um corpo
de água ou vários corpos de água? A localização geográfica também ajudaria.

O comprimento e o peso dos peixes não parecem ser as características distintivas do tamanho
da espécie. Descobrimos que o melhor peixe era o Largemouth Bass, mas Bluegill não era o
segundo maior peixe. A análise de Paret também nos ajuda a entender não apenas os dados
qualitativos, mas também os dados quantitativos.
7
Introdução à análise de dados
Projeto 3-Resumo Executivo

Biblografia
Bluman, A. G. (2018). Estatística elementar: Uma abordagem passo a passo. Nova Iorque,
NY: McGraw-Hill Education.

Engel, C. (s.d.). Introdução ao r. Consultado em 21 de fevereiro de 2021 de


https://cengel.github.io/R-intro/gettingstarted.html

Robk@statmethods.net, R. (s.d.). Eixos e texto. Consultado em 21 de fevereiro de 2021 de


http://www.statmethods.net/advgraphs/axes.html

Plyr. (s.d.). Consultado em 21 de fevereiro de 2021 de


http://www.rdocumentation.org/packages/plyr/versions/1.8.6/topics/count

O que é um gráfico de pareto? (s.d.). Consultado em 21 de fevereiro de 2021 de


https://asq.org/quality-resources/pareto
8
Introdução à análise de dados
Projeto 3-Resumo Executivo

Apêndice

Q1) Imprima seu nome na parte superior do script e carregue estas bibliotecas: FSA, FSAdata,
magrittr, dplyr, tidyr plyr e tidyverse

Q2) Importe o inchBio.csv e nomeie a tabela


9
Introdução à análise de dados
Projeto 3-Resumo Executivo

Q3) Exibir a cabeça, cauda e estrutura de <bio>

Consolar

Q4) Crie um objeto, <counts>, que conte e liste todos os registros de espécies

Consolar
10
Introdução à análise de dados
Projeto 3-Resumo Executivo

Q5) Exibir apenas os 8 níveis (nomes) das espécies

Consolar

Q6) Crie um objeto <tmp> que exiba as diferentes espécies e o número de registros de
cada espécie no conjunto de dados. Inclua essas informações em seu relatório.

Consolar
11
Introdução à análise de dados
Projeto 3-Resumo Executivo

Q7) Criar um subconjunto,<tmp2> , apenas da variável espécie e exibir os cinco


primeiros registros

Consolar

Q8) Criar uma tabela, , da variável espécie. Exibir a classe de w

Consolar
12
Introdução à análise de dados
Projeto 3-Resumo Executivo

Q9) Converter <w> em um quadro de dados chamado <t> e exibir os resultados

Consolar

Q10) Extraia e exiba os valores de frequência do quadro de dados <t>

Consolar
13
Introdução à análise de dados
Projeto 3-Resumo Executivo
Q11) Crie uma tabela chamada <cSpec> a partir do atributo bio species (variável) e
confirme que você criou uma tabela que exibe o número de espécies no dataset<bio>

Consolar

Q12) Crie uma tabela denominada <cSpecPct> que exiba as espécies e a porcentagem
de registros para cada espécie. Confirmar que você criou uma classe de tabela

Consolar
14
Introdução à análise de dados
Projeto 3-Resumo Executivo
Q13)Converter a tabela,<cSpecPct> , em um quadro de dados chamado <u> e
confirmar que <u> é um quadro de dados

Consolar

Q14)Crie um barplot de <cSpec>com o seguinte: intitulado Contagem de peixes com as


seguintes especificações:
• Título: Contagem de Peixes
• O eixo Y é rotulado como "COUNTS"
• Colorir as barras de verde claro
• Gire o eixo Y para ser horizontal
• Defina a ampliação da fonte do eixo X para 60% do nominal
15
Introdução à análise de dados
Projeto 3-Resumo Executivo

Q15) Crie um gráfico de barras de <cSpecPct>, com as seguintes especificações:


• Limites do eixo Y de 0 a 4
• Cor da etiqueta do eixo Y de azul claro
• Título de "Frequência Relativa de Peixes"
16
Introdução à análise de dados
Projeto 3-Resumo Executivo

Q16) Reorganize o quadro de dados <u>cSpec Pct em ordem decrescente de frequência


relativa. Salve o quadro de dados reorganizado como o objeto <d>

Consolar

Q17) Renomeie as colunas <d> var 1 para espécies e freq para relfreq
17
Introdução à análise de dados
Projeto 3-Resumo Executivo

Consolar

Q18) Adicione novas variáveis ao <d> e chame-as de cumfreq, counts e cumcounts

Consolar

Q19) Criar uma variável de parâmetro <def_par> para armazenar variáveis de


parâmetro

Q20) Crie um barplot, <pc> , com as seguintes especificações:


• d$counts de largura 1, espaçamento de .15
18
Introdução à análise de dados
Projeto 3-Resumo Executivo
• sem pensão
• Eixos: F
• Limite de Yaxis 0,3.05*max
• d$counts na.rm é verdade
• y label é Cummulative Counts
• escala x eixo para 70%
• nomes.arg: d$Species
• Título do barplot é "Espécie Pareto"
• LAS: 2)

Q21) Adicione uma linha de contagens cumulativas ao gráfico <pc> com o seguinte:
• Tipo de linha de especificação é b
• Dimensionar o texto plotando em 70%
• Os valores de dados são círculos sólidos com cor ciano4

Q22)Coloque uma caixa cinza ao redor do gráfico de pareto.

Q23) Adicione um eixo do lado esquerdo com as seguintes especificações:


• Valores horizontais nas marcas de escala em cumcounts no lado 2
19
Introdução à análise de dados
Projeto 3-Resumo Executivo
• Marca de marca de cor de cinza62
• A cor do eixo é cinza62
• Eixo dimensionado para 80% do normal

Q24) Adicione detalhes do eixo no lado direito da caixa com as especificações:


• Especificação: Lado 4
• Tickmarks em cumcounts com rótulos de 0 a cumfreq com %,
• Cor do eixo de ciano5 e cor do rótulo de ciano4
• Fonte Axis dimensionada para 80% do nominal

Q25) Exibir o Gráfico de Pareto de Espécies finalizado (sem as marcas d'água da


estrela). Tenha seu sobrenome no lote
20
Introdução à análise de dados
Projeto 3-Resumo Executivo

Plotagem para Q20-Q25

Roteiro Final Combinado


#1
impressão("Pratyay Godiawala")

install.packages("plyr")
install.packages("FSA")
install.packages("FSAdata")
install.packages("magrittr")
install.packages("dplyr")
install.packages("arrumador")
install.packages("tidyverse")
install.packages("plotrix")
install.packages("ggplot2")
21
Introdução à análise de dados
Projeto 3-Resumo Executivo
install.packages("momentos")
biblioteca(plyr)
biblioteca (FSA)
biblioteca(FSAdata)
Biblioteca(Magrittr)
biblioteca(dplyr)
biblioteca(arrumador)
biblioteca(tidyverse)
biblioteca(plotrix)
biblioteca(ggplot2)
biblioteca(momentos)

setwd("C:/Arquivos de Programas/R")
Getwd()

#2
bio <- leia.csv("inchBio.csv", header=TRUE)
bio

#3
cauda de cabeça(bio, n=5)
str(bio)

#4
bio[c(1:3, 250:253, 450:453, 670:673),]

count(bio[1:676,], vars = espécie)


contagens = contagem(bio[1:676,], vars = espécie)
22
Introdução à análise de dados
Projeto 3-Resumo Executivo
#5
counts$n <- NULL
Conta

#6
bio
tmp.species.records <-count(bio[1:676,], vars = espécie)
tmp.species.registros

#7
temp2.speciesonly <- bio[c(-1,-2,-4,-5,-6,-7)]
temp2.speciesonly
cabeça(temp2.speciesonly,5)

#OR*

TEMP3.speciesonly <- subconjunto (bio, select = c(species))


temp3.speciesonly
cabeça(temp3.speciesonly,5)

resumo(bio)

#8
w <- tabela(bio$species)
w
classe(w)

#9
t <- as.data.frame(w)
23
Introdução à análise de dados
Projeto 3-Resumo Executivo
t

#10
freq <- t[,2]
Freq

#11
cSpec = tabela(bio$species)
cSpec

#12
cSpecPct = tabela(bio$species)/676
cSpecPct

classe(cSpecPct)

#13
u = as.data.frame(cSpecPct)
u

classe(u)

#14
barplot(cSpec, ylab = "Counts", las=2, cex.names = .6, col="lightgreen", main="Contagem de
peixes")

#15
barplot(cSpecPct, ylim=c(0.0,0.4), las=2, ylab="%", col="lightblue", cex.names=.5,
main="Frequência relativa de peixes")
24
Introdução à análise de dados
Projeto 3-Resumo Executivo
#16
d = arranjo(u,desc(Freq))
d

#17
names(d) [names(d)=="Var1"]="Espécie"
names(d) [nomes(d)=="Freq"]="RelFreq"
d

#18
d<- mutar(d, cumfreq=cumsum(RelFreq), counts=RelFreq*676,
cumcounts=cumsum(counts))
d

#19
def_par = par()
par(mar=c(6,5,3,5))

#20
pc <- barplot(d$counts, width=1, space=.15, border=NA, axes=F,
ylim=c(0,3.05*max(d$counts, na.rm=T)),
ylab="Contagens Cumulativas", cex.names=.7, names.arg=d$Species,
main="Species Pareto (por Pratyay Godiawala)", las=2)

#21
linhas(pc,d$cumcounts, type="b", cex=0.7, pch = 19, col="cyan4")

#22
caixa(col="cinza62")
25
Introdução à análise de dados
Projeto 3-Resumo Executivo

#23
axis(side=2, at=c(0, d$cumcounts), las=1, col.axis="grey62", col="grey62", cex.axis=0.8)

#24
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round(d$cumfreq * 100)), "%", sep=""),
las = 1, col.axis = "ciano4", col="ciano4", cex.axis=0,8)

#25
axis(side=4, at=c(0, d$cumcounts), labels=paste(c(0, round (d$cumfreq * 100)), "%",
sep=""),
las = 1, col.axis = "ciano4", col="ciano4", cex.axis=0,8)

Você também pode gostar