Você está na página 1de 14

Statistics for Engineers

TI0111

Homework I
Student name: Felipe Alves de Sousa

Student number:

Questão 1
As emissões diárias de um gás poluente de uma planta industrial foram detectadas 80
vezes, em termos duma determinada unidade de medida, obtendo-se os seguintes dados:

15.8 22.7 26.8 19.1 18.5 14.4 8.3 25.9 26.4 9.8 21.9 10.5
17.3 6.2 18.0 22.9 24.6 19.4 12.3 15.9 20.1 17.0 22.3 27.5
23.9 17.5 11.0 20.4 16.2 20.8 20.9 21.4 18.0 24.3 11.8 17.9
18.7 12.8 15.5 19.2 13.9 28.6 19.4 21.6 13.5 24.6 20.0 24.1
9.0 17.6 25.7 20.1 13.2 23.7 10.7 19.0 14.5 18.1 31.8 28.5
22.7 15.2 23.0 29.6 11.2 14.7 20.5 26.6 13.3 18.1 24.8 26.1
7.7 22.5 19.3 9.4 16.7 16.9 23.5 18.4

Tabela 1: Emissões diárias de gas poluente na questão 1.

1. Divida os dados em 7 classes de amplitude 4, começando com o valor 5.0, e construa


a tabela de distribuição de frequência.

2. Trace o histograma relacionado às frequências absolutas e o explique.

3. Calcule a média, moda, mediana, variância e desvio padrão. Explique os resultados.

Solução da questão 1
Questao 1.1

Nesse exercı́cio temos um conjunto de dados númericos, sendo eles dados continuos.
Para o primeito item teremos que criar a tabela de frequência do conjunto de dados.
As tabelas de distribuição frequência são uma forma de organizar dados em uma
tabela, mostrando a frequência de ocorrência de cada valor ou intervalo de valores.
Em cada coluna da tabela é apresentado um tipo de frequência especı́fica, abaixo será
discutido as mais comuns e que foram utilizadas no conjunto de dados.

1
A frequência absoluta é o número de ocorrências de um valor ou intervalo de
valores em um conjunto de dados. Ela é representada pela fórmula:

ni = Número de Ocorrências (1)

Uma frequência relativa (fi ) é a quantidae de vezes que um valor ou intervalo de


valores ocorre em relação ao total de observações. Pode ser calculada pela fórmula:
ni
fi = (2)
N
A frequência absoluta acumulada é a soma das frequências absolutas até deter-
minado intervalo ou categoria, é dada por:
i
X
Ni = nk (3)
k=1

De forma parecida a frequência relativa acumulada (Fi ) é a soma das frequências


relativas até determinado intervalo ou categoria. A frequência relativa acumulada é dada
por:
X i
Fi = fk (4)
k=1

Ainda podemos ter a frequencia relativa e relativa acumulada percentuais, simplemesnte


multiplicando por 100.
Esclarecido os tipos de frequência, abaixo temos a tabela de frequência construida.
Respeitando as regras descritas no item 1, os intervalos foram dividios em 7 classes de
amplitude 4, começando no valor 5:

intervalo ni Ni fi Fi F i 100
1 (5,9] 4 4 0.05 0.05 5.00
2 (9,13] 9 13 0.11 0.16 16.25
3 (13,17] 15 28 0.19 0.35 35.00
4 (17,21] 24 52 0.30 0.65 65.00
5 (21,25] 17 69 0.21 0.86 86.25
6 (25,29] 9 78 0.11 0.97 97.50
7 (29,33] 2 80 0.03 1.00 100.00

Tabela 2: Tabela de distrubuição de frequências

Questao 1.2

Agora para o segundo item, será feito o histograma do nosso conjunto de dados, seguindo
as regras do primeiro item, o cojunto de dados será dividido em 7 classes de amplitude 4,
começando em 5. Todavia é necessário a breve explicação sobre o que é um histograma.

2
Um histograma é um gráfico utilizado para vizualizar a distribuição de frequência de
um conjunto de dados previamente divido em classes, uniformes ou não.
Geralmente representado com retângulos, a base de cada retângulo representa uma
classe, a largura desse retângulo represeta a amplitude da classe, já a altura representa a
frequência absoluta daquela classe, indicado também pelo eixo y(frequência). A imagem
1 ilustra os principais elemento de um histograma

Figura 1: Histograma dos Dados

Agora que já foi discutido o que é um histograma, a imagem abaixo apresenta o
histograma feito a partir do conjunto de dados de emissoes, seguindo os critérios também
já discutidos

Figura 2: Histograma - item 1.3

3
Temos aqui o histograma relacionado a frequência absoluta das nossas 7 classes de
amplitude 4

Questao 1.3

Por fim para o item 3, teremos que calcular as medididas de tendência central e também
medidas de variância. Antes iremos fazer uma breve explicação sobre essas medidas
As medidas de tendência central são estatı́sticas que descrevem o valor tı́pico de um
conjunto de dados. Elas nos ajudam a entender onde a maioria dos dados está localizada.
Já as medidas de varibilidade visam avaliar o quanto os dados estão dispersos de uma
distribuição de frequência.

A média calcula o valor médio de um conjunto de dados, denotada como x̄, é calculada
pela soma de todos os valores em um conjunto de dados dividida pelo número de valores
no conjunto. A fórmula para calcular a média é:
Pn
xi
x̄ = i=1 (5)
n
onde: x̄ = média n = número de valores no conjunto xi = valor individual no
conjunto.

A mediana é o valor que está exatamente no meio de um conjunto de dados ordenado.


Para calcular a mediana, primeiro ordenamos os dados, em seguida, encontramos o valor
do meio. Se houver um número par de valores, a mediana é a média dos dois valores do
meio. A fórmula para calcular pode ser expressa como:
(
x n+1 , se n é ı́mpar
M= 2
x n +x n +1 (6)
2
2
2
, se n é par
onde: M = mediana n = número de valores no conjunto xi = valor individual no
conjunto.

A moda é o valor que ocorre com mais frequência em um conjunto de dados. Pode
haver mais de uma moda em um conjunto de dados. A fórmula para calcular a moda
não é necessária, pois geralmente é encontrada observando os dados diretamente.

A variância é uma medida de dispersão que descreve o grau de variação em um


conjunto de dados, denotada como σ 2 , é uma medida da dispersão dos dados em relação
à média. É calculada pela média dos quadrados das diferenças entre cada valor no
conjunto de dados e a média. A fórmula para calcular a variância é:
Pn
2 (xi − x̄)2
σ = i=1 (7)
n
onde: σ 2 = variância n = número de valores no conjunto xi = valor individual no
conjunto x̄ = média.

4
O desvio padrão, denotado como σ, é a raiz quadrada da variância. Ele representa
a dispersão dos dados em relação à média em unidades de medida originais. A fórmula
para calcular o desvio padrão é:
r Pn
2
i=1 (xi − x̄)
σ= (8)
n
onde: σ = desvio padrão n = número de valores no conjunto xi = valor individual
no conjunto x̄ = média.
Abaixo está representado a tabela com as medidas do nosso conjunto emissoes:

Tabela 3: Tabela de Medidas


emissoes
mean 18.90
median 19.05
mode -
var 32.00
sd 5.66

A média está representando o valor médio do nosso conjunto de dados. A mediana


é o valor central do conjunto onde serpara ele em exatos cinquenta por cento. Nosso
conjunto não apresenta nenhuma moda, ou seja, é um conjunto amodal. Por fim, a
variância e desvio padrão nos diz como nossos dados estão dispersos

Listado 1

Listado 1: Solução da questão 1


rm ( list = ls () ) # clean the working space
graphics . off () # close all the graphic windows
getwd () # verify the current working directory
setwd ( ’ path / TI0111 / my _ folder ’) # set your working directory

emissoes <- c (15.8 , 22.7 , 26.8 , 19.1 , 18.5 , 14.4 , 8.3 , 25.9 , 26.4 , 9.8 ,
21.9 , 10.5 , 17.3 , 6.2 , 18.0 , 22.9 , 24.6 , 19.4 , 12.3 , 15.9 , 20.1 , 17.0 ,
22.3 , 27.5 , 23.9 , 17.5 , 11.0 , 20.4 , 16.2 , 20.8 , 20.9 , 21.4 , 18.0 ,
24.3 , 11.8 , 17.9 , 18.7 , 12.8 , 15.5 , 19.2 , 13.9 , 28.6 , 19.4 , 21.6 ,
13.5 , 24.6 , 20.0 , 24.1 , 9.0 , 17.6 , 25.7 , 20.1 , 13.2 , 23.7 , 10.7 , 19.0 ,
14.5 , 18.1 , 31.8 , 28.5 , 22.7 , 15.2 , 23.0 , 29.6 , 11.2 , 14.7 , 20.5 ,
26.6 , 13.3 , 18.1 , 24.8 , 26.1 , 7.7 , 22.5 , 19.3 , 9.4 , 16.7 , 16.9 , 23.5 ,
18.4)

# calculando a frequencia das classes

frequencia <- table ( cut ( emissoes , breaks = c (5 ,9 ,13 ,17 ,21 ,25 ,29 ,33) ) )
frequencia

# criando a tabela

5
tabela _ freq <- data . frame ( frequencia )
colnames ( tabela _ freq ) <- c ( " intervalo " , " ni " )

tabela _ freq $ Ni <- cumsum ( frequencia )

tabela _ freq $ fi <- frequencia / length ( emissoes )

tabela _ freq $ Fi <- cumsum ( frequencia / length ( emissoes ) )

tabela _ freq $ Fi _ 100 <- cumsum ( frequencia / length ( emissoes ) ) * 100

tabela _ freq

# 2. Trace o histograma relacionado as frequencias absolutas e o explique

hist ( emissoes , c (5 ,9 ,13 ,17 ,21 ,25 ,29 ,33) , main = " Histograma ␣ das ␣ Emissoes " ,
xlab = " Emissoes " , ylab = " Frequencia " )

# 3. Calcule a media , moda , mediana , variancia e desvio padrao . Explique


os resultados

tabela _ central <- data . frame ( mean ( emissoes ) , median ( emissoes ) , var ( emissoes ) ,
sd ( emissoes ) )

tabela _ central _ t <-t ( tabela _ central )

tabela _ central _ t

tabela _ latex _ central <- xtable ( tabela _ central _t , caption = " Tabela ␣ de ␣
Medidas " )
print ( tabela _ latex _ central , caption . placement = " top " )

Questão 2
Uma empresa italiana recebeu 20 currı́culos de candidatos italianos e estrangeiros para
a seleção de pessoal qualificado no cargo de gerente de relações exteriores. A tabela 4 re-
porta algumas informações consideradas relevantes na seleção: a idade, a nacionalidade,
o nı́vel mı́nimo de renda esperada (em milhares de euros) e os anos de experiência no
trabalho.

1. Calcule as frequências relativas e frequências relativas cumulativas. Avalie se mais


de 70% dos candidatos têm menos de 40 anos. Avalie se pelo menos 20% aceitariam
o emprego se lhes fosse oferecido um salário mensal igual a 1525 euros. É possı́vel
afirmar que mais de 30% dos currı́culos recebidos provêm de candidatos ingleses?

2. Represente as variáveis de “Nacionalidade” e de “Renda” usando, respectivamente,


um diagrama de barras e um histograma de frequência (assuma 4 classe de renda).

6
Idade Nacionalidade Renda Experiência
[anos] [Euro] [anos]
1 48 Bélgica 2.10 9
2 55 Italiana 3.70 24
3 29 Irlandesa 1.50 7
4 48 Espanhola 2.90 23
5 52 Alemana 3.30 21
6 26 Bélgica 0.90 4
7 51 Irlandesa 4.70 24
8 46 Irlandesa 1.30 12
9 54 Irlandesa 2.50 25
10 33 Francesa 1.30 13
11 37 Alemana 2.90 27
12 25 Alemana 2.10 3
13 40 Bélgica 3.30 19
14 49 Alemana 2.10 28
15 36 Irlandesa 2.10 22
16 35 Francesa 1.90 5
17 55 Francesa 4.00 29
18 47 Francesa 2.50 19
19 50 Italiana 3.70 26
20 28 Espanhola 0.90 8

Tabela 4: Informações na seleção da empresa na questão 2.

3. Calcule a media das variáveis quantitativas. A idade média das unidades estatı́sticas
é superior a 30 anos? A média dos anos de experiência profissional pelos candidatos
é pelo menos igual a 10?

4. Calcule os quartis da variável “Nı́vel de renda”. Trace e comente o box-plot. Explique


e justifique se há alguma diferença com os resultados obtidos no R.

Solução da questão 2
Nesse questão serei mais breve, pois os conceitos já foram explicados
fi Fi
1 0.20 20.00
2 0.05 25.00
3 0.15 40.00
4 0.05 45.00
5 0.25 70.00
6 0.30 100.00

Tabela 5: Tabela Idades (fi e Fi)

7
Com essa tabela podemos ver que apenas 40% dos cadidatos tem idade MENOR a
40 anos e 60% dos candidatos tem 40 anos ou mais.
Como é pedido os candidatos com idade MENOR a 40 anos o intervalo é fechado
na esquerda. Nessa tabela estarei considerando as classes da seguinte forma: 1-[25,30)
2-[30,35) 3-[35,40) 4-[40,45) 5-[45,50) 6-[50,55].

fi Fi
1 0.25 25.00
2 0.25 50.00
3 0.20 70.00
4 0.10 80.00
5 0.15 95.00
6 0.05 100.00

Tabela 6: Tabela de Renda (fi e Fi)

Supondo que apenas pessoas com renda igual ou menor a 1.5 aceitariam a oferta
concluimos que SIM existem pelo menos 20% dos curriculos que aceitariam uma oferta
de 1.525
Nessa tabela estarei considerando as classes da seguinte forma: 1-(0.8,1.5] 2-(1.5,2.2]
3-(2.2,2.9] 4-(2.9,3.6] 5-(3.6,4.2] 6-(4.2,4.9].

fi Fi
1 0.20 20.00
2 0.15 35.00
3 0.10 45.00
4 0.20 65.00
5 0.25 90.00
6 0.10 100.00

Tabela 7: Tabela de nacionalidade (fi e Fi)

Nosso conjunto não apresenta candidatos Ingleses.


Nessa tabela estarei considerando as classes da seguinte forma: 1-Alemana 2-Bélgica
3-Espanhola 4-Francesa 5-Irlandesa 6-Italiana.

*Tabelas estão reduzidas para economia de espaço no latex, as tabelas completas


estão no código Listado 2

Questao 2.3

De forma parecida com o histograma, um diagrama de barras é um gráfico com barras


retangulares e comprimento proporcional aos valores que ele apresenta. Na figura 3 está
representado o diagrama de barras seguindo a seguinte forma de classes: 1-Alemana
2-Bélgica 3-Espanhola 4-Francesa 5-Irlandesa 6-Italiana.
Podemos ver que a nacionalidade mais frequente é a Irlandesa, e as menos frequentes
são Espanhola e Italiana.
Logo abaixo também teremos o histograma relativo as classes de rendas. Divisao das
classes de renda : (0.8,1.8] (1.8,2.8] (2.8,3.8] (3.8,4.8]. Figura 4.

8
Nesse histograma a divisão das classes foi feita de modo igual, ou seja, todas classes
apresentam a mesma amplitude. Desta maneira alguns valores foram além daqueles que
estão no conjunto, por exemplo os extremos 0.8 e 4.8 não estão no conjunto podendo
gerar algumas inconsistencias no histograma

Figura 3: Barplot - item 2.2

Figura 4: Hist - item 2.2

Questao 2.4

Utilizando as fórmulas já apresentadas podemos responder as questões do item 3


temos os seguintes resultados:

9
idades
x̄ = = 42.2 (9)
20
Então sim, podemos dizer que a média das idades é superior a 30 anos
anos.exp
x̄ = = 17.4 (10)
20
Podemos dizer que a média dos anos de experiência é superior a 10 anos

Questao 2.5

Os quartis são medidas estatı́sticas utilizadas para dividir um conjunto de dados em


quatro partes iguais, cada uma contendo um quarto dos dados. São frequentemente
usados para analisar a dispersão e a distribuição dos dados em uma amostra.

◦ Q1 (primeiro quartil) - divide os dados em 25%, ou seja, 25% dos dados são menores
ou iguais a Q1 .

◦ Q2 (segundo quartil) - também conhecido como mediana, divide os dados em 50%, ou


seja, 50% dos dados são menores ou iguais a Q2 .

◦ Q3 (terceiro quartil) - divide os dados em 75%, ou seja, 75% dos dados são menores
ou iguais a Q3 .

As fórmulas para calcular os quartis são as seguintes:

◦ Q1 (primeiro quartil):
n+1
Q1 =
4
◦ Q2 (segundo quartil, mediana):
Q2 = M

◦ Q3 (terceiro quartil):
3(n + 1)
Q3 =
4
Agora explicando os elementos do boxplot. A caixa no box plot representa o intervalo
interquartil (IQR), que é a diferença entre o terceiro quartil (Q3) e o primeiro quartil
(Q1). A linha dentro da caixa representa a mediana (Q2), que é a medida central do
conjunto de dados. Também temos aquilo que chamamos de bigodes o qual definem o
limite superior e o limite inferior.

10
Figura 5: Boxplot - item 2.5

Listado 2

Listado 2: Solução da questão 2


# 1. Calcule as frequencias relativas e frequencias relativas cumulativas .
Avalie se mais de 70% dos candidatos tem menos de 40 anos . Avalie se
pelo menos 20% aceitariam o emprego se lhes fosse oferecido um salario
mensal igual a 1525 euros . E possivel afirmar que mais de 30% dos
curriculos recebidos provem de candidatos ingleses ?

# Como e pedido os candidatos com idadde MENOR a 40 anos o intervalo e


fechado na direita

idades _ gap <- table ( cut ( idades , breaks = c (25 ,30 ,35 ,40 ,45 ,50 ,55) , right =
FALSE , include . lowest = TRUE ) )
idades _ gap

tabela _ freq _ id <- data . frame ( idades _ gap )


colnames ( tabela _ freq _ id ) <- c ( " classe " , " ni " )

tabela _ freq _ id $ Ni <- cumsum ( idades _ gap )


tabela _ freq _ id $ fi <- idades _ gap / length ( idades )
tabela _ freq _ id $ Fi <- cumsum ( idades _ gap / length ( idades ) * 100)

tabela _ latex <- xtable ( tabela _ freq _ id , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )

# Com essa tabela podemos ver que apenas 40% dos cadidatos tem idade
MENOR a 40 anos e 60% dos candidatos tem 40 anos ou mais

# Para renda tambem sera feita uma divisao em " classes "

rendas _ gap <- table ( cut ( rendas , breaks = c (0.8 ,1.5 ,2.2 ,2.9 ,3.6 ,4.2 ,4.9) ) )

11
rendas _ gap

tabela _ freq _ renda <- data . frame ( rendas _ gap )


colnames ( tabela _ freq _ renda ) <- c ( " classe " , " ni " )

tabela _ freq _ renda $ Ni <- cumsum ( rendas _ gap )


tabela _ freq _ renda $ fi <- rendas _ gap / length ( rendas )
tabela _ freq _ renda $ Fi <- cumsum ( rendas _ gap / length ( rendas ) * 100)

tabela _ latex <- xtable ( tabela _ freq _ renda , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )

# Supondo que apenas pessoas com renda igual ou menor a 1.5 aceitariam a
oferta concluimos que SIM existem pelo menos 20% dos curriculos que
aceitariam uma oferta de 1.525

# Levels : Alemana -20% Belgica -15% Espanhola -10% Francesa -20% Irlandesa -25%
Italiana -10%

nacional _ num <- factor ( nacionalidades )


nacional _ cat <- as . numeric ( nacional _ num )

nacio _ class <- table ( nacional _ cat )


nacio _ class

nacional _ num

tabela _ freq _ naci <- as . data . frame ( nacio _ class )


colnames ( tabela _ freq _ naci ) <- c ( " classe " , " ni " )

tabela _ freq _ naci $ Ni <- cumsum ( nacio _ class )


tabela _ freq _ naci $ fi <- nacio _ class / length ( nacionalidades )
tabela _ freq _ naci $ Fi <- cumsum ( nacio _ class / length ( nacionalidades ) * 100)

tabela _ latex <- xtable ( tabela _ freq _ naci , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )

# 2. Represente as variaveis de Nacionalidade e de Renda usando ,


respectivamente , um diagrama de barras e um histograma de frequencia (
assuma 4 classe de renda )

barplot ( tabela _ freq _ naci $ ni ,


names . arg = tabela _ freq _ naci $ classe ,
xlab = " Nacionalidades " ,
ylab = " Frequencia " ,)

# Divisao das classes de renda


# (0.8 ,1.8] (1.8 ,2.8] (2.8 ,3.8] (3.8 ,4.8]
# 5 7 6 2

hist ( rendas , c (0.8 ,1.8 ,2.8 ,3.8 ,4.8) , main = " " )

12
# 3. Calcule a media das variaveis quantitativas . A idade media das
unidades estatisticas e superior a 30 anos ? A media dos anos de
experiencia profissional pelos candidatos e pelo menos igual a 10?

mean ( idades )
# Sim e supetior a 30 anos

mean ( anos _ exp )


# E maior que 10 anos

# 4. Calcule os quartis da variavel Nivel de renda . Trace e comente o box


- plot . Explique e justifique se ha alguma diferenca com os resultados
obtidos no R

quartis <- quantile ( rendas , probs = c (0.25 , 0.5 , 0.75) )


quartis

boxplot ( rendas ,
main = " Boxplot ␣ dos ␣ Dados " ,
ylab = " Valores " ,
col = " lightblue " ,
border = " blue " ,
horizontal = FALSE )

Questão 3
O conjunto de dados em anexo, HW1 bike sharing.csv, se refere ao processo de com-
partilhamento de bicicletas em uma cidade dos Estados Unidos. O conjunto consta das
colunas na Tabela 8. A variável season inclui as quatro estações: primavera, verão,
outono e inverno; a variável weathersit inclui quatro condições meteorológicas: ‘Céu
limpo’, ‘Nublado’, ‘Chuva fraca’, ‘Chuva forte’, a variável temp é a temperatura em graus
Celsius.
Tag Descrição
instant Indice de registro
dteday Data da observação
season Estação
weathersit Condições do tempo
temp Temperatura em ◦ C
casual Número de usuários casuais
registered Número de usuários com cadastro

Tabela 8: Dados do conjunto HW1 bike sharing na questão 3.

13
1. Carregue o conjunto de dados rating final.txt no R, classifique as variáveis, iden-
tifique o numero das observações e o dia de inı́cio e de término da amostra .

2. Calcule medidas de tendência central e os quartis por cada caraterı́stica relevante.


Apresente essas estatı́sticas em uma tabela contendo inclusive o tı́tulo. Comente os
resultados.

3. Atribua os diferentes nı́veis às variáveis season e weathersit. Construa o gráfico de


barras para ambas as variáveis. Identifique a estação mais popular. A popularidade
do compartilhamento de bicicletas depende da estação? Qual é a condição climática
mais favorável?

4. Calcule o número total de usuários durante o tempo de estudo. Calcule a temperatura


em ◦ C. Desenhe e compare os gráfico das séries temporais correspondentes. Elas tem
a mesma tendências?

Solução da questão 3
Explique brevemente a base teórica, as principais etapas de sua solução e consulte o
código no Listado 3.

Listado 3

Listado 3: Solução da questão 3


rm ( list = ls () ) # clean the working space
graphics . off () # close all the graphic windows
getwd () # verify the current working directory
setwd ( ’ path / TI0111 / my _ folder ’) # set your working directory

14

Você também pode gostar