Você está na página 1de 8

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CAMPUS BLUMENAU

Gabriel Thomaz Thabet


José Victor Andrade
Rômulo Luiz Rosa

Prof. Dr. Hugo José Lara Urdaneta

Estatística

Blumenau
Agosto, 2018
Tarefa prática I

Com os dados do arquivo poluição.txt, a equipe deve elaborar um relatório, usando o


software R (ou outro de sua preferência), contendo o seguinte:
1. Um 'data frame', com as variáveis CO, O3, temp e umid.
2. Tabelas de frequências para as variáveis (com o número de classes k
sendo o menor inteiro tal que 2k >= n).
3. Calculo da média, mediana, moda, desvio padrão, e os 5 pontos: x(1); q1; q2; q3 e
x(n).
4. Histogramas e Box-Plots de cada variável.
5. Covariâncias para CO e temp; logo o coeciente de correlação.
6. Interpretações das estatísticas encontradas, com relação ás medidas centrais, de
dispersão, de simetria, de associação e existência de dados atípicos.
7. Anexos contendo os programas elaborados e qualquer outra ferramenta utilizada.

------------------------------------------------------------------------------------------------------------------------

Questão 1

#data frame
table<-read.table("C:\Users\Gabriel\Desktop\UFSC\Estatistica\
poluicao.txt",header=TRUE,sep="\t", dec=".") #data frame

is.data.frame(table) #Verifica se a tabela é um data frame


table #Imprime a tabela

Questão 2

#Tabela de frequência(CO)

CO = sort(CO)
CO
tam = length(CO)
k=7
k
A = CO[tam]-CO[1]
delta = A/(k-1)
li = CO[1]-(delta/2)
limites = numeric(k)
limites[1] = li+delta
for(i in 2:k){
limites[i] = limites[i-1]+delta
}
li
limites
intervalos = c(li,limites)
intervalos
df=matrix(0,8,3)
colnames(df)=c("ni","","fp")
rownames(df)=c('[4,05;5,35)','[5,35;6,65)','[6,65;7,95)',
'[7,95;9,25)','[9,25;10,55)','[10,55;11,85)','[11,85;13,15)','Total')
breaks=c(li,limites)
tab.CO=table(cut(CO,breaks,right=FALSE))
df[1:7,1]=tab.CO
df[8,1]=length(CO)
for(i in 1:8) df[i,2]<-df[i,1]/length(CO)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.CO = df

#Tabela de frequencia (O3)

O3 = sort(O3)
O3
tam = length(O3)
k=7
k
A = O3[tam]-O3[1]
delta = A/(k-1)
li = O3[1]-(delta/2)
limites = numeric(k)
limites[1] = li+delta
for(i in 2:k){
limites[i] = limites[i-1]+delta
}
li
limites

df=matrix(0,8,3)
colnames(df)=c("ni","fi","fp")
rownames(df)=c('[0;21,91)','[21,91;60,33)','[60,33;98,75)','[98,75;137,17)','[137,17;175,59)','[
175,59;214,01)','[214,01;252,43)','Total')
breaks=c(li,limites)
tab.O3=table(cut(O3,breaks,right=FALSE))
df[1:7,1]=tab.O3
df[8,1]=length(O3)
for(i in 1:8) df[i,2]<-df[i,1]/length(O3)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.O3 = df

#Tabela de frequencia (TEMP)

TEMP = sort(temp)
TEMP
tam = length(TEMP)
k=7
k
A = TEMP[tam]-TEMP[1]
delta = A/(k-1)
li = TEMP[1]-(delta/2)
limites = numeric(k)
limites[1] = li+delta
for(i in 2:k){
limites[i] = limites[i-1]+delta
}
li
limites

df=matrix(0,8,3)
colnames(df)=c("ni","fi","fp")
rownames(df)=c('[11,575;13,025)','[13,025;14,475)','[14,475;15,925)','[15,925;17,375)','[17,3
75;18,825)','[18,825;20,275)','[20,275;21,725)','Total')
breaks=c(li,limites)
tab.TEMP=table(cut(TEMP,breaks,right=FALSE))
df[1:7,1]=tab.TEMP
df[8,1]=length(TEMP)
for(i in 1:8) df[i,2]<-df[i,1]/length(TEMP)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.TEMP = df

#Tabela de frequencia (UMID)

UMID = sort(umid)
UMID
tam = length(UMID)
k=7
k
A = UMID[tam]-UMID[1]
delta = A/(k-1)
li = UMID[1]-(delta/2)
limites = numeric(k)
limites[1] = li+delta
for(i in 2:k){
limites[i] = limites[i-1]+delta
}
li
limites

df=matrix(0,8,3)
colnames(df)=c("ni","fi","fp")
rownames(df)=c('[45,915;54,085)','[54,085;62,255)','[62,255;70,425)','[70,425;78,595)','[78,5
95;86,765)','[86,765;94,935)','[94,935;103,105)','Total')
breaks=c(li,limites)
tab.UMID=table(cut(UMID,breaks,right=FALSE))
df[1:7,1]=tab.UMID
df[8,1]=length(UMID)
for(i in 1:8) df[i,2]<-df[i,1]/length(UMID)
for(i in 1:8) df[i,3]<-df[i,2]*100
df
tab.frequencia.UMID = df

#Tabelas de frequência

#tabela de frequência(CO)
tab.frequencia.CO

#tabela de frequencia(O3)
tab.frequencia.O3

#tabela de frequencia(TEMP)
tab.frequencia.TEMP

#tabela de frequencia(UMID)
tab.frequencia.UMID

Questão 3

#Função Moda
moda<-function(d)
{
if ((is.vector(d) || is.matrix(d) || is.factor(d)==TRUE) &&
(is.list(d)==FALSE))
{
dd<-table(d)
valores<-which(dd==max(dd))
vmodal<-0
for(i in 1:(length(valores)))
if (i==1) vmodal<-as.numeric(names(valores[i]))
else
vmodal<-c(vmodal,as.numeric(names(valores[i])))
if (length(vmodal)==length(dd))
print("conjunto sem valor modal")
else return(vmodal)
}
else print("o parâmetro deve ser um vetor ou uma matriz")
}

# CO
mean(CO) #média
median(CO) #mediana
moda(CO) #moda
sd(CO) #desvio padrão
quantile(CO) #quantil

# O3
mean(O3) #média
median(O3) #mediana
moda(O3) #moda
sd(O3) #desvio padrão
quantile(O3) #quantil

# TEMP
mean(TEMP) #média
median(TEMP) #mediana
moda(TEMP) #moda
sd(TEMP) #desvio padrão
quantile(TEMP) #quantil

# UMID
mean(UMID) #média
median(UMID) #mediana
moda(UMID) #moda
sd(UMID) #desvio padrão
quantile(UMID) #quantil

Questão 4

# histograma e boxplot (CO)

hist(CO) #histograma
boxplot(CO, main="Boxplot CO",ylab="CO", col=("green")) #boxplot

# histograma e boxplot (O3)

hist(O3) #histograma
boxplot(O3, main="Boxplot O3",ylab="O3", col=("green")) #boxplot

# histograma e boxplot (TEMP)


hist(TEMP) #histograma
boxplot(TEMP, main="Boxplot TEMP",ylab="TEMP", col=("green")) #boxplot

# histograma e boxplot (UMID)

hist(UMID) #histograma
boxplot(UMID, main="Boxplot UMID",ylab="UMID", col=("green")) #boxplot

Questão 5

cor(CO,TEMP) #Covariância
cov(CO,TEMP) #correlação

Questão 6

Tabela de frequência:
A distribuição de frequências é um agrupamento de dados em classes, de tal forma que
contabilizamos o número de ocorrências em cada classe. O número de ocorrências de uma
determinada classe recebe o nome de frequência absoluta. O objetivo é apresentar os
dados de uma maneira mais concisa e que nos permita extrair informação sobre seu
comportamento.

A média de um conjunto de dados numéricos obtém-se somando os valores de todos os


dados e dividindo a soma pelo número de dados.

Moda é o valor mais frequente de um conjunto de dados.

Mediana: Depois de ordenados os valores por ordem crescente ou decrescente, a mediana


é:

– o valor que ocupa a posição central, se a quantidade desses valores for ímpar;

– a média dos dois valores centrais, se a quantidade desses valores for par.

Desvio padrão é a medida de dispersão que indica a regularidade de um conjunto de dados


em função da média aritmética.

Os quantis dividem os dados ordenados em q subconjuntos de dados de dimensão


essencialmente igual. Dessa forma dão origem a q-Quantis; os quantis são estabelecidos a
partir de pontos de corte que determinam as fronteiras entre os subconjuntos consecutivos.

As distribuições podem ser classificada em:


Simétrica: quando média = mediana.
Assimétrica: quando média <> mediana, se divide em duas:
Assimétrica positiva: média > mediana.
Assimétrica negativa: média < mediana.

Abaixo estão os resultados (média, moda, mediana, desvio padrão e quartis) de cada
amostra estudada, tais dados foram obtidos pelo programa R:

CO: assimétrica positiva, pois: Média > mediana

Média: 7.464167
Mediana: 7.2
Moda: 6.2
Desvio padrão: 1.543912
Quantil: 0% 25% 50% 75% 100%
4.700, 6.300, 7.200, 8.025, 12.500

O3: assimétrica positiva, pois: Média > mediana

Média: 76.33417
Mediana: 62.95
Moda: 33.1, 34.7, 35.2, 40.0
Desvio padrão: 50.11773
Quantil: 0% 25% 50% 75% 100%
2.70, 34.40, 62.95, 114.00, 233.20

Temperatura: assimétrica positiva, pois: Média > mediana

Média: 17.21583
Mediana: 17.7
Moda: 18
Desvio padrão: 1.759727
Quantil: 0% 25% 50% 75% 100%
12.3, 16.0 ,17.7, 18.6, 21.0

Umidade: assimétrica positiva, pois: Média > mediana

Média: 70.78333
Mediana: 67.5
Moda: 62
Desvio padrão: 12.39489
Quantil: 0% 25% 50% 75% 100%
50.0 62.0 67.5 78.0 99.0

Você também pode gostar