Tarefa 1 - Estatística (Anexo) - Grupo 2

UNIVERSIDADE FEDERAL DE SANTA CATARINA
CAMPUS BLUMENAU
Gabriel Thomaz Thabet

José Victor Andrade
Rômulo Luiz Rosa
Prof. Dr. Hugo José Lara Urdaneta
Estatística
Blumenau
Agosto, 2018
Tarefa prática I
Com os dados do arquivo poluição.txt, a equipe deve elaborar um relatório, usando o

software R (ou outro de sua preferência), contendo o seguinte:
1. Um 'data frame', com as variáveis CO, O3, temp e umid.
2. Tabelas de frequências para as variáveis (com o número de classes k
sendo o menor inteiro tal que 2k >= n).
3. Calculo da média, mediana, moda, desvio padrão, e os 5 pontos: x(1); q1; q2; q3 e
x(n).
4. Histogramas e Box-Plots de cada variável.
5. Covariâncias para CO e temp; logo o coeciente de correlação.
6. Interpretações das estatísticas encontradas, com relação ás medidas centrais, de
dispersão, de simetria, de associação e existência de dados atípicos.
7. Anexos contendo os programas elaborados e qualquer outra ferramenta utilizada.
------------------------------------------------------------------------------------------------------------------------
Questão 1
#data frame
table<-read.table("C:\Users\Gabriel\Desktop\UFSC\Estatistica\
poluicao.txt",header=TRUE,sep="\t", dec=".") #data frame
is.data.frame(table) #Verifica se a tabela é um data frame

table #Imprime a tabela
Questão 2
#Tabela de frequência(CO)
CO = sort(CO)
CO
tam = length(CO)
k=7
k
A = CO[tam]-CO[1]
delta = A/(k-1)
li = CO[1]-(delta/2)
limites = numeric(k)
limites[1] = li+delta
for(i in 2:k){
limites[i] = limites[i-1]+delta
}
li
limites
intervalos = c(li,limites)
intervalos
df=matrix(0,8,3)
colnames(df)=c("ni","","fp")
rownames(df)=c('[4,05;5,35)','[5,35;6,65)','[6,65;7,95)',
'[7,95;9,25)','[9,25;10,55)','[10,55;11,85)','[11,85;13,15)','Total')
breaks=c(li,limites)
tab.CO=table(cut(CO,breaks,right=FALSE))
df[1:7,1]=tab.CO
df[8,1]=length(CO)
for(i in 1:8) df[i,2]<-df[i,1]/length(CO)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.CO = df
#Tabela de frequencia (O3)
O3 = sort(O3)
O3
tam = length(O3)
k=7
k
A = O3[tam]-O3[1]
delta = A/(k-1)
li = O3[1]-(delta/2)
for(i in 2:k){
}
li
limites
df=matrix(0,8,3)
colnames(df)=c("ni","fi","fp")
rownames(df)=c('[0;21,91)','[21,91;60,33)','[60,33;98,75)','[98,75;137,17)','[137,17;175,59)','[
175,59;214,01)','[214,01;252,43)','Total')
tab.O3=table(cut(O3,breaks,right=FALSE))
df[1:7,1]=tab.O3
df[8,1]=length(O3)
for(i in 1:8) df[i,2]<-df[i,1]/length(O3)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.O3 = df
#Tabela de frequencia (TEMP)
TEMP = sort(temp)
TEMP
tam = length(TEMP)
k=7
k
A = TEMP[tam]-TEMP[1]
delta = A/(k-1)
li = TEMP[1]-(delta/2)
for(i in 2:k){
}
li
limites
df=matrix(0,8,3)
rownames(df)=c('[11,575;13,025)','[13,025;14,475)','[14,475;15,925)','[15,925;17,375)','[17,3
75;18,825)','[18,825;20,275)','[20,275;21,725)','Total')
tab.TEMP=table(cut(TEMP,breaks,right=FALSE))
df[1:7,1]=tab.TEMP
df[8,1]=length(TEMP)
for(i in 1:8) df[i,2]<-df[i,1]/length(TEMP)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.TEMP = df
#Tabela de frequencia (UMID)
UMID = sort(umid)
UMID
tam = length(UMID)
k=7
k
A = UMID[tam]-UMID[1]
delta = A/(k-1)
li = UMID[1]-(delta/2)
for(i in 2:k){
}
li
limites
df=matrix(0,8,3)
rownames(df)=c('[45,915;54,085)','[54,085;62,255)','[62,255;70,425)','[70,425;78,595)','[78,5
95;86,765)','[86,765;94,935)','[94,935;103,105)','Total')
tab.UMID=table(cut(UMID,breaks,right=FALSE))
df[1:7,1]=tab.UMID
df[8,1]=length(UMID)
for(i in 1:8) df[i,2]<-df[i,1]/length(UMID)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.UMID = df
#Tabelas de frequência
#tabela de frequência(CO)
tab.frequencia.CO
#tabela de frequencia(O3)
tab.frequencia.O3
#tabela de frequencia(TEMP)
tab.frequencia.TEMP
#tabela de frequencia(UMID)
tab.frequencia.UMID
Questão 3
#Função Moda
moda<-function(d)
{
if ((is.vector(d) || is.matrix(d) || is.factor(d)==TRUE) &&
(is.list(d)==FALSE))
{
dd<-table(d)
valores<-which(dd==max(dd))
vmodal<-0
for(i in 1:(length(valores)))
if (i==1) vmodal<-as.numeric(names(valores[i]))
else
vmodal<-c(vmodal,as.numeric(names(valores[i])))
if (length(vmodal)==length(dd))
print("conjunto sem valor modal")
else return(vmodal)
}
else print("o parâmetro deve ser um vetor ou uma matriz")
}
# CO
mean(CO) #média
median(CO) #mediana
moda(CO) #moda
sd(CO) #desvio padrão
quantile(CO) #quantil
# O3
mean(O3) #média
median(O3) #mediana
moda(O3) #moda
sd(O3) #desvio padrão
quantile(O3) #quantil
# TEMP
mean(TEMP) #média
median(TEMP) #mediana
moda(TEMP) #moda
sd(TEMP) #desvio padrão
quantile(TEMP) #quantil
# UMID
mean(UMID) #média
median(UMID) #mediana
moda(UMID) #moda
sd(UMID) #desvio padrão
quantile(UMID) #quantil
Questão 4
# histograma e boxplot (CO)
hist(CO) #histograma
boxplot(CO, main="Boxplot CO",ylab="CO", col=("green")) #boxplot
# histograma e boxplot (O3)
hist(O3) #histograma
boxplot(O3, main="Boxplot O3",ylab="O3", col=("green")) #boxplot
# histograma e boxplot (TEMP)

hist(TEMP) #histograma
boxplot(TEMP, main="Boxplot TEMP",ylab="TEMP", col=("green")) #boxplot
# histograma e boxplot (UMID)
hist(UMID) #histograma
boxplot(UMID, main="Boxplot UMID",ylab="UMID", col=("green")) #boxplot
Questão 5
cor(CO,TEMP) #Covariância
cov(CO,TEMP) #correlação
Questão 6
Tabela de frequência:
A distribuição de frequências é um agrupamento de dados em classes, de tal forma que
contabilizamos o número de ocorrências em cada classe. O número de ocorrências de uma
determinada classe recebe o nome de frequência absoluta. O objetivo é apresentar os
dados de uma maneira mais concisa e que nos permita extrair informação sobre seu
comportamento.
A média de um conjunto de dados numéricos obtém-se somando os valores de todos os

dados e dividindo a soma pelo número de dados.
Moda é o valor mais frequente de um conjunto de dados.
Mediana: Depois de ordenados os valores por ordem crescente ou decrescente, a mediana

é:
– o valor que ocupa a posição central, se a quantidade desses valores for ímpar;
– a média dos dois valores centrais, se a quantidade desses valores for par.
Desvio padrão é a medida de dispersão que indica a regularidade de um conjunto de dados

em função da média aritmética.
Os quantis dividem os dados ordenados em q subconjuntos de dados de dimensão

essencialmente igual. Dessa forma dão origem a q-Quantis; os quantis são estabelecidos a
partir de pontos de corte que determinam as fronteiras entre os subconjuntos consecutivos.
As distribuições podem ser classificada em:

Simétrica: quando média = mediana.
Assimétrica: quando média <> mediana, se divide em duas:
Assimétrica positiva: média > mediana.
Assimétrica negativa: média < mediana.
Abaixo estão os resultados (média, moda, mediana, desvio padrão e quartis) de cada
amostra estudada, tais dados foram obtidos pelo programa R:
CO: assimétrica positiva, pois: Média > mediana
Média: 7.464167
Mediana: 7.2
Moda: 6.2
Desvio padrão: 1.543912
Quantil: 0% 25% 50% 75% 100%
4.700, 6.300, 7.200, 8.025, 12.500
O3: assimétrica positiva, pois: Média > mediana
Média: 76.33417
Mediana: 62.95
Moda: 33.1, 34.7, 35.2, 40.0
Quantil: 0% 25% 50% 75% 100%
2.70, 34.40, 62.95, 114.00, 233.20
Temperatura: assimétrica positiva, pois: Média > mediana
Média: 17.21583
Mediana: 17.7
Moda: 18
Quantil: 0% 25% 50% 75% 100%
12.3, 16.0 ,17.7, 18.6, 21.0
Umidade: assimétrica positiva, pois: Média > mediana
Média: 70.78333
Mediana: 67.5
Moda: 62
Quantil: 0% 25% 50% 75% 100%
50.0 62.0 67.5 78.0 99.0

Tarefa 1 - Estatística (Anexo) - Grupo 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tarefa 1 - Estatística (Anexo) - Grupo 2

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE SANTA CATARINA

Gabriel Thomaz Thabet

Prof. Dr. Hugo José Lara Urdaneta

Com os dados do arquivo poluição.txt, a equipe deve elaborar um relatório, usando o

is.data.frame(table) #Verifica se a tabela é um data frame

#Tabela de frequencia (O3)

#Tabela de frequencia (TEMP)

#Tabela de frequencia (UMID)

# histograma e boxplot (CO)

# histograma e boxplot (O3)

# histograma e boxplot (TEMP)

# histograma e boxplot (UMID)

A média de um conjunto de dados numéricos obtém-se somando os valores de todos os

Moda é o valor mais frequente de um conjunto de dados.

Mediana: Depois de ordenados os valores por ordem crescente ou decrescente, a mediana

Desvio padrão é a medida de dispersão que indica a regularidade de um conjunto de dados

Os quantis dividem os dados ordenados em q subconjuntos de dados de dimensão

As distribuições podem ser classificada em:

CO: assimétrica positiva, pois: Média > mediana

O3: assimétrica positiva, pois: Média > mediana

Temperatura: assimétrica positiva, pois: Média > mediana

Umidade: assimétrica positiva, pois: Média > mediana

Você também pode gostar