Escolar Documentos
Profissional Documentos
Cultura Documentos
TI0111
Homework I
Student name: Felipe Alves de Sousa
Student number:
Questão 1
As emissões diárias de um gás poluente de uma planta industrial foram detectadas 80
vezes, em termos duma determinada unidade de medida, obtendo-se os seguintes dados:
15.8 22.7 26.8 19.1 18.5 14.4 8.3 25.9 26.4 9.8 21.9 10.5
17.3 6.2 18.0 22.9 24.6 19.4 12.3 15.9 20.1 17.0 22.3 27.5
23.9 17.5 11.0 20.4 16.2 20.8 20.9 21.4 18.0 24.3 11.8 17.9
18.7 12.8 15.5 19.2 13.9 28.6 19.4 21.6 13.5 24.6 20.0 24.1
9.0 17.6 25.7 20.1 13.2 23.7 10.7 19.0 14.5 18.1 31.8 28.5
22.7 15.2 23.0 29.6 11.2 14.7 20.5 26.6 13.3 18.1 24.8 26.1
7.7 22.5 19.3 9.4 16.7 16.9 23.5 18.4
Solução da questão 1
Questao 1.1
Nesse exercı́cio temos um conjunto de dados númericos, sendo eles dados continuos.
Para o primeito item teremos que criar a tabela de frequência do conjunto de dados.
As tabelas de distribuição frequência são uma forma de organizar dados em uma
tabela, mostrando a frequência de ocorrência de cada valor ou intervalo de valores.
Em cada coluna da tabela é apresentado um tipo de frequência especı́fica, abaixo será
discutido as mais comuns e que foram utilizadas no conjunto de dados.
1
A frequência absoluta é o número de ocorrências de um valor ou intervalo de
valores em um conjunto de dados. Ela é representada pela fórmula:
intervalo ni Ni fi Fi F i 100
1 (5,9] 4 4 0.05 0.05 5.00
2 (9,13] 9 13 0.11 0.16 16.25
3 (13,17] 15 28 0.19 0.35 35.00
4 (17,21] 24 52 0.30 0.65 65.00
5 (21,25] 17 69 0.21 0.86 86.25
6 (25,29] 9 78 0.11 0.97 97.50
7 (29,33] 2 80 0.03 1.00 100.00
Questao 1.2
Agora para o segundo item, será feito o histograma do nosso conjunto de dados, seguindo
as regras do primeiro item, o cojunto de dados será dividido em 7 classes de amplitude 4,
começando em 5. Todavia é necessário a breve explicação sobre o que é um histograma.
2
Um histograma é um gráfico utilizado para vizualizar a distribuição de frequência de
um conjunto de dados previamente divido em classes, uniformes ou não.
Geralmente representado com retângulos, a base de cada retângulo representa uma
classe, a largura desse retângulo represeta a amplitude da classe, já a altura representa a
frequência absoluta daquela classe, indicado também pelo eixo y(frequência). A imagem
1 ilustra os principais elemento de um histograma
Agora que já foi discutido o que é um histograma, a imagem abaixo apresenta o
histograma feito a partir do conjunto de dados de emissoes, seguindo os critérios também
já discutidos
3
Temos aqui o histograma relacionado a frequência absoluta das nossas 7 classes de
amplitude 4
Questao 1.3
Por fim para o item 3, teremos que calcular as medididas de tendência central e também
medidas de variância. Antes iremos fazer uma breve explicação sobre essas medidas
As medidas de tendência central são estatı́sticas que descrevem o valor tı́pico de um
conjunto de dados. Elas nos ajudam a entender onde a maioria dos dados está localizada.
Já as medidas de varibilidade visam avaliar o quanto os dados estão dispersos de uma
distribuição de frequência.
A média calcula o valor médio de um conjunto de dados, denotada como x̄, é calculada
pela soma de todos os valores em um conjunto de dados dividida pelo número de valores
no conjunto. A fórmula para calcular a média é:
Pn
xi
x̄ = i=1 (5)
n
onde: x̄ = média n = número de valores no conjunto xi = valor individual no
conjunto.
A moda é o valor que ocorre com mais frequência em um conjunto de dados. Pode
haver mais de uma moda em um conjunto de dados. A fórmula para calcular a moda
não é necessária, pois geralmente é encontrada observando os dados diretamente.
4
O desvio padrão, denotado como σ, é a raiz quadrada da variância. Ele representa
a dispersão dos dados em relação à média em unidades de medida originais. A fórmula
para calcular o desvio padrão é:
r Pn
2
i=1 (xi − x̄)
σ= (8)
n
onde: σ = desvio padrão n = número de valores no conjunto xi = valor individual
no conjunto x̄ = média.
Abaixo está representado a tabela com as medidas do nosso conjunto emissoes:
Listado 1
emissoes <- c (15.8 , 22.7 , 26.8 , 19.1 , 18.5 , 14.4 , 8.3 , 25.9 , 26.4 , 9.8 ,
21.9 , 10.5 , 17.3 , 6.2 , 18.0 , 22.9 , 24.6 , 19.4 , 12.3 , 15.9 , 20.1 , 17.0 ,
22.3 , 27.5 , 23.9 , 17.5 , 11.0 , 20.4 , 16.2 , 20.8 , 20.9 , 21.4 , 18.0 ,
24.3 , 11.8 , 17.9 , 18.7 , 12.8 , 15.5 , 19.2 , 13.9 , 28.6 , 19.4 , 21.6 ,
13.5 , 24.6 , 20.0 , 24.1 , 9.0 , 17.6 , 25.7 , 20.1 , 13.2 , 23.7 , 10.7 , 19.0 ,
14.5 , 18.1 , 31.8 , 28.5 , 22.7 , 15.2 , 23.0 , 29.6 , 11.2 , 14.7 , 20.5 ,
26.6 , 13.3 , 18.1 , 24.8 , 26.1 , 7.7 , 22.5 , 19.3 , 9.4 , 16.7 , 16.9 , 23.5 ,
18.4)
frequencia <- table ( cut ( emissoes , breaks = c (5 ,9 ,13 ,17 ,21 ,25 ,29 ,33) ) )
frequencia
# criando a tabela
5
tabela _ freq <- data . frame ( frequencia )
colnames ( tabela _ freq ) <- c ( " intervalo " , " ni " )
tabela _ freq
hist ( emissoes , c (5 ,9 ,13 ,17 ,21 ,25 ,29 ,33) , main = " Histograma ␣ das ␣ Emissoes " ,
xlab = " Emissoes " , ylab = " Frequencia " )
tabela _ central <- data . frame ( mean ( emissoes ) , median ( emissoes ) , var ( emissoes ) ,
sd ( emissoes ) )
tabela _ central _ t
tabela _ latex _ central <- xtable ( tabela _ central _t , caption = " Tabela ␣ de ␣
Medidas " )
print ( tabela _ latex _ central , caption . placement = " top " )
Questão 2
Uma empresa italiana recebeu 20 currı́culos de candidatos italianos e estrangeiros para
a seleção de pessoal qualificado no cargo de gerente de relações exteriores. A tabela 4 re-
porta algumas informações consideradas relevantes na seleção: a idade, a nacionalidade,
o nı́vel mı́nimo de renda esperada (em milhares de euros) e os anos de experiência no
trabalho.
6
Idade Nacionalidade Renda Experiência
[anos] [Euro] [anos]
1 48 Bélgica 2.10 9
2 55 Italiana 3.70 24
3 29 Irlandesa 1.50 7
4 48 Espanhola 2.90 23
5 52 Alemana 3.30 21
6 26 Bélgica 0.90 4
7 51 Irlandesa 4.70 24
8 46 Irlandesa 1.30 12
9 54 Irlandesa 2.50 25
10 33 Francesa 1.30 13
11 37 Alemana 2.90 27
12 25 Alemana 2.10 3
13 40 Bélgica 3.30 19
14 49 Alemana 2.10 28
15 36 Irlandesa 2.10 22
16 35 Francesa 1.90 5
17 55 Francesa 4.00 29
18 47 Francesa 2.50 19
19 50 Italiana 3.70 26
20 28 Espanhola 0.90 8
3. Calcule a media das variáveis quantitativas. A idade média das unidades estatı́sticas
é superior a 30 anos? A média dos anos de experiência profissional pelos candidatos
é pelo menos igual a 10?
Solução da questão 2
Nesse questão serei mais breve, pois os conceitos já foram explicados
fi Fi
1 0.20 20.00
2 0.05 25.00
3 0.15 40.00
4 0.05 45.00
5 0.25 70.00
6 0.30 100.00
7
Com essa tabela podemos ver que apenas 40% dos cadidatos tem idade MENOR a
40 anos e 60% dos candidatos tem 40 anos ou mais.
Como é pedido os candidatos com idade MENOR a 40 anos o intervalo é fechado
na esquerda. Nessa tabela estarei considerando as classes da seguinte forma: 1-[25,30)
2-[30,35) 3-[35,40) 4-[40,45) 5-[45,50) 6-[50,55].
fi Fi
1 0.25 25.00
2 0.25 50.00
3 0.20 70.00
4 0.10 80.00
5 0.15 95.00
6 0.05 100.00
Supondo que apenas pessoas com renda igual ou menor a 1.5 aceitariam a oferta
concluimos que SIM existem pelo menos 20% dos curriculos que aceitariam uma oferta
de 1.525
Nessa tabela estarei considerando as classes da seguinte forma: 1-(0.8,1.5] 2-(1.5,2.2]
3-(2.2,2.9] 4-(2.9,3.6] 5-(3.6,4.2] 6-(4.2,4.9].
fi Fi
1 0.20 20.00
2 0.15 35.00
3 0.10 45.00
4 0.20 65.00
5 0.25 90.00
6 0.10 100.00
Questao 2.3
8
Nesse histograma a divisão das classes foi feita de modo igual, ou seja, todas classes
apresentam a mesma amplitude. Desta maneira alguns valores foram além daqueles que
estão no conjunto, por exemplo os extremos 0.8 e 4.8 não estão no conjunto podendo
gerar algumas inconsistencias no histograma
Questao 2.4
9
idades
x̄ = = 42.2 (9)
20
Então sim, podemos dizer que a média das idades é superior a 30 anos
anos.exp
x̄ = = 17.4 (10)
20
Podemos dizer que a média dos anos de experiência é superior a 10 anos
Questao 2.5
◦ Q1 (primeiro quartil) - divide os dados em 25%, ou seja, 25% dos dados são menores
ou iguais a Q1 .
◦ Q3 (terceiro quartil) - divide os dados em 75%, ou seja, 75% dos dados são menores
ou iguais a Q3 .
◦ Q1 (primeiro quartil):
n+1
Q1 =
4
◦ Q2 (segundo quartil, mediana):
Q2 = M
◦ Q3 (terceiro quartil):
3(n + 1)
Q3 =
4
Agora explicando os elementos do boxplot. A caixa no box plot representa o intervalo
interquartil (IQR), que é a diferença entre o terceiro quartil (Q3) e o primeiro quartil
(Q1). A linha dentro da caixa representa a mediana (Q2), que é a medida central do
conjunto de dados. Também temos aquilo que chamamos de bigodes o qual definem o
limite superior e o limite inferior.
10
Figura 5: Boxplot - item 2.5
Listado 2
idades _ gap <- table ( cut ( idades , breaks = c (25 ,30 ,35 ,40 ,45 ,50 ,55) , right =
FALSE , include . lowest = TRUE ) )
idades _ gap
tabela _ latex <- xtable ( tabela _ freq _ id , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )
# Com essa tabela podemos ver que apenas 40% dos cadidatos tem idade
MENOR a 40 anos e 60% dos candidatos tem 40 anos ou mais
# Para renda tambem sera feita uma divisao em " classes "
rendas _ gap <- table ( cut ( rendas , breaks = c (0.8 ,1.5 ,2.2 ,2.9 ,3.6 ,4.2 ,4.9) ) )
11
rendas _ gap
tabela _ latex <- xtable ( tabela _ freq _ renda , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )
# Supondo que apenas pessoas com renda igual ou menor a 1.5 aceitariam a
oferta concluimos que SIM existem pelo menos 20% dos curriculos que
aceitariam uma oferta de 1.525
# Levels : Alemana -20% Belgica -15% Espanhola -10% Francesa -20% Irlandesa -25%
Italiana -10%
nacional _ num
tabela _ latex <- xtable ( tabela _ freq _ naci , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )
hist ( rendas , c (0.8 ,1.8 ,2.8 ,3.8 ,4.8) , main = " " )
12
# 3. Calcule a media das variaveis quantitativas . A idade media das
unidades estatisticas e superior a 30 anos ? A media dos anos de
experiencia profissional pelos candidatos e pelo menos igual a 10?
mean ( idades )
# Sim e supetior a 30 anos
boxplot ( rendas ,
main = " Boxplot ␣ dos ␣ Dados " ,
ylab = " Valores " ,
col = " lightblue " ,
border = " blue " ,
horizontal = FALSE )
Questão 3
O conjunto de dados em anexo, HW1 bike sharing.csv, se refere ao processo de com-
partilhamento de bicicletas em uma cidade dos Estados Unidos. O conjunto consta das
colunas na Tabela 8. A variável season inclui as quatro estações: primavera, verão,
outono e inverno; a variável weathersit inclui quatro condições meteorológicas: ‘Céu
limpo’, ‘Nublado’, ‘Chuva fraca’, ‘Chuva forte’, a variável temp é a temperatura em graus
Celsius.
Tag Descrição
instant Indice de registro
dteday Data da observação
season Estação
weathersit Condições do tempo
temp Temperatura em ◦ C
casual Número de usuários casuais
registered Número de usuários com cadastro
13
1. Carregue o conjunto de dados rating final.txt no R, classifique as variáveis, iden-
tifique o numero das observações e o dia de inı́cio e de término da amostra .
Solução da questão 3
Explique brevemente a base teórica, as principais etapas de sua solução e consulte o
código no Listado 3.
Listado 3
14