TI0111 HW1 Estatistica

Statistics for Engineers
TI0111
Homework I
Student name: Felipe Alves de Sousa
Student number:
Questão 1
As emissões diárias de um gás poluente de uma planta industrial foram detectadas 80
vezes, em termos duma determinada unidade de medida, obtendo-se os seguintes dados:
15.8 22.7 26.8 19.1 18.5 14.4 8.3 25.9 26.4 9.8 21.9 10.5
17.3 6.2 18.0 22.9 24.6 19.4 12.3 15.9 20.1 17.0 22.3 27.5
23.9 17.5 11.0 20.4 16.2 20.8 20.9 21.4 18.0 24.3 11.8 17.9
18.7 12.8 15.5 19.2 13.9 28.6 19.4 21.6 13.5 24.6 20.0 24.1
9.0 17.6 25.7 20.1 13.2 23.7 10.7 19.0 14.5 18.1 31.8 28.5
22.7 15.2 23.0 29.6 11.2 14.7 20.5 26.6 13.3 18.1 24.8 26.1
7.7 22.5 19.3 9.4 16.7 16.9 23.5 18.4
Tabela 1: Emissões diárias de gas poluente na questão 1.
1. Divida os dados em 7 classes de amplitude 4, começando com o valor 5.0, e construa

a tabela de distribuição de frequência.
2. Trace o histograma relacionado às frequências absolutas e o explique.
3. Calcule a média, moda, mediana, variância e desvio padrão. Explique os resultados.
Solução da questão 1
Questao 1.1
Nesse exercı́cio temos um conjunto de dados númericos, sendo eles dados continuos.
Para o primeito item teremos que criar a tabela de frequência do conjunto de dados.
As tabelas de distribuição frequência são uma forma de organizar dados em uma
tabela, mostrando a frequência de ocorrência de cada valor ou intervalo de valores.
Em cada coluna da tabela é apresentado um tipo de frequência especı́fica, abaixo será
discutido as mais comuns e que foram utilizadas no conjunto de dados.
1
A frequência absoluta é o número de ocorrências de um valor ou intervalo de
valores em um conjunto de dados. Ela é representada pela fórmula:
ni = Número de Ocorrências (1)
Uma frequência relativa (fi ) é a quantidae de vezes que um valor ou intervalo de

valores ocorre em relação ao total de observações. Pode ser calculada pela fórmula:
ni
fi = (2)
N
A frequência absoluta acumulada é a soma das frequências absolutas até deter-
minado intervalo ou categoria, é dada por:
i
X
Ni = nk (3)
k=1
De forma parecida a frequência relativa acumulada (Fi ) é a soma das frequências

relativas até determinado intervalo ou categoria. A frequência relativa acumulada é dada
por:
X i
Fi = fk (4)
k=1
Ainda podemos ter a frequencia relativa e relativa acumulada percentuais, simplemesnte

multiplicando por 100.
Esclarecido os tipos de frequência, abaixo temos a tabela de frequência construida.
Respeitando as regras descritas no item 1, os intervalos foram dividios em 7 classes de
amplitude 4, começando no valor 5:
intervalo ni Ni fi Fi F i 100
1 (5,9] 4 4 0.05 0.05 5.00
2 (9,13] 9 13 0.11 0.16 16.25
3 (13,17] 15 28 0.19 0.35 35.00
4 (17,21] 24 52 0.30 0.65 65.00
5 (21,25] 17 69 0.21 0.86 86.25
6 (25,29] 9 78 0.11 0.97 97.50
7 (29,33] 2 80 0.03 1.00 100.00
Tabela 2: Tabela de distrubuição de frequências
Questao 1.2
Agora para o segundo item, será feito o histograma do nosso conjunto de dados, seguindo
as regras do primeiro item, o cojunto de dados será dividido em 7 classes de amplitude 4,
começando em 5. Todavia é necessário a breve explicação sobre o que é um histograma.
2
Um histograma é um gráfico utilizado para vizualizar a distribuição de frequência de
um conjunto de dados previamente divido em classes, uniformes ou não.
Geralmente representado com retângulos, a base de cada retângulo representa uma
classe, a largura desse retângulo represeta a amplitude da classe, já a altura representa a
frequência absoluta daquela classe, indicado também pelo eixo y(frequência). A imagem
1 ilustra os principais elemento de um histograma
Figura 1: Histograma dos Dados
Agora que já foi discutido o que é um histograma, a imagem abaixo apresenta o
histograma feito a partir do conjunto de dados de emissoes, seguindo os critérios também
já discutidos
Figura 2: Histograma - item 1.3
3
Temos aqui o histograma relacionado a frequência absoluta das nossas 7 classes de
amplitude 4
Questao 1.3
Por fim para o item 3, teremos que calcular as medididas de tendência central e também
medidas de variância. Antes iremos fazer uma breve explicação sobre essas medidas
As medidas de tendência central são estatı́sticas que descrevem o valor tı́pico de um
conjunto de dados. Elas nos ajudam a entender onde a maioria dos dados está localizada.
Já as medidas de varibilidade visam avaliar o quanto os dados estão dispersos de uma
distribuição de frequência.
A média calcula o valor médio de um conjunto de dados, denotada como x̄, é calculada
pela soma de todos os valores em um conjunto de dados dividida pelo número de valores
no conjunto. A fórmula para calcular a média é:
Pn
xi
x̄ = i=1 (5)
n
onde: x̄ = média n = número de valores no conjunto xi = valor individual no
conjunto.
A mediana é o valor que está exatamente no meio de um conjunto de dados ordenado.

Para calcular a mediana, primeiro ordenamos os dados, em seguida, encontramos o valor
do meio. Se houver um número par de valores, a mediana é a média dos dois valores do
meio. A fórmula para calcular pode ser expressa como:
(
x n+1 , se n é ı́mpar
M= 2
x n +x n +1 (6)
2
2
2
, se n é par
onde: M = mediana n = número de valores no conjunto xi = valor individual no
conjunto.
A moda é o valor que ocorre com mais frequência em um conjunto de dados. Pode
haver mais de uma moda em um conjunto de dados. A fórmula para calcular a moda
não é necessária, pois geralmente é encontrada observando os dados diretamente.
A variância é uma medida de dispersão que descreve o grau de variação em um

conjunto de dados, denotada como σ 2 , é uma medida da dispersão dos dados em relação
à média. É calculada pela média dos quadrados das diferenças entre cada valor no
conjunto de dados e a média. A fórmula para calcular a variância é:
Pn
2 (xi − x̄)2
σ = i=1 (7)
n
onde: σ 2 = variância n = número de valores no conjunto xi = valor individual no
conjunto x̄ = média.
4
O desvio padrão, denotado como σ, é a raiz quadrada da variância. Ele representa
a dispersão dos dados em relação à média em unidades de medida originais. A fórmula
para calcular o desvio padrão é:
r Pn
2
i=1 (xi − x̄)
σ= (8)
n
onde: σ = desvio padrão n = número de valores no conjunto xi = valor individual
no conjunto x̄ = média.
Abaixo está representado a tabela com as medidas do nosso conjunto emissoes:
Tabela 3: Tabela de Medidas

emissoes
mean 18.90
median 19.05
mode -
var 32.00
sd 5.66
A média está representando o valor médio do nosso conjunto de dados. A mediana

é o valor central do conjunto onde serpara ele em exatos cinquenta por cento. Nosso
conjunto não apresenta nenhuma moda, ou seja, é um conjunto amodal. Por fim, a
variância e desvio padrão nos diz como nossos dados estão dispersos
Listado 1
Listado 1: Solução da questão 1

rm ( list = ls () ) # clean the working space
graphics . off () # close all the graphic windows
getwd () # verify the current working directory
setwd ( ’ path / TI0111 / my _ folder ’) # set your working directory
emissoes <- c (15.8 , 22.7 , 26.8 , 19.1 , 18.5 , 14.4 , 8.3 , 25.9 , 26.4 , 9.8 ,
21.9 , 10.5 , 17.3 , 6.2 , 18.0 , 22.9 , 24.6 , 19.4 , 12.3 , 15.9 , 20.1 , 17.0 ,
22.3 , 27.5 , 23.9 , 17.5 , 11.0 , 20.4 , 16.2 , 20.8 , 20.9 , 21.4 , 18.0 ,
24.3 , 11.8 , 17.9 , 18.7 , 12.8 , 15.5 , 19.2 , 13.9 , 28.6 , 19.4 , 21.6 ,
13.5 , 24.6 , 20.0 , 24.1 , 9.0 , 17.6 , 25.7 , 20.1 , 13.2 , 23.7 , 10.7 , 19.0 ,
14.5 , 18.1 , 31.8 , 28.5 , 22.7 , 15.2 , 23.0 , 29.6 , 11.2 , 14.7 , 20.5 ,
26.6 , 13.3 , 18.1 , 24.8 , 26.1 , 7.7 , 22.5 , 19.3 , 9.4 , 16.7 , 16.9 , 23.5 ,
18.4)
# calculando a frequencia das classes
frequencia <- table ( cut ( emissoes , breaks = c (5 ,9 ,13 ,17 ,21 ,25 ,29 ,33) ) )
frequencia
# criando a tabela
5
tabela _ freq <- data . frame ( frequencia )
colnames ( tabela _ freq ) <- c ( " intervalo " , " ni " )
tabela _ freq $ Ni <- cumsum ( frequencia )
tabela _ freq $ fi <- frequencia / length ( emissoes )
tabela _ freq $ Fi <- cumsum ( frequencia / length ( emissoes ) )
tabela _ freq $ Fi _ 100 <- cumsum ( frequencia / length ( emissoes ) ) * 100
tabela _ freq
# 2. Trace o histograma relacionado as frequencias absolutas e o explique
hist ( emissoes , c (5 ,9 ,13 ,17 ,21 ,25 ,29 ,33) , main = " Histograma ␣ das ␣ Emissoes " ,
xlab = " Emissoes " , ylab = " Frequencia " )
# 3. Calcule a media , moda , mediana , variancia e desvio padrao . Explique

os resultados
tabela _ central <- data . frame ( mean ( emissoes ) , median ( emissoes ) , var ( emissoes ) ,
sd ( emissoes ) )
tabela _ central _ t <-t ( tabela _ central )
tabela _ central _ t
tabela _ latex _ central <- xtable ( tabela _ central _t , caption = " Tabela ␣ de ␣
Medidas " )
print ( tabela _ latex _ central , caption . placement = " top " )
Questão 2
Uma empresa italiana recebeu 20 currı́culos de candidatos italianos e estrangeiros para
a seleção de pessoal qualificado no cargo de gerente de relações exteriores. A tabela 4 re-
porta algumas informações consideradas relevantes na seleção: a idade, a nacionalidade,
o nı́vel mı́nimo de renda esperada (em milhares de euros) e os anos de experiência no
trabalho.
1. Calcule as frequências relativas e frequências relativas cumulativas. Avalie se mais

de 70% dos candidatos têm menos de 40 anos. Avalie se pelo menos 20% aceitariam
o emprego se lhes fosse oferecido um salário mensal igual a 1525 euros. É possı́vel
afirmar que mais de 30% dos currı́culos recebidos provêm de candidatos ingleses?
2. Represente as variáveis de “Nacionalidade” e de “Renda” usando, respectivamente,

um diagrama de barras e um histograma de frequência (assuma 4 classe de renda).
6
Idade Nacionalidade Renda Experiência
[anos] [Euro] [anos]
1 48 Bélgica 2.10 9
2 55 Italiana 3.70 24
3 29 Irlandesa 1.50 7
4 48 Espanhola 2.90 23
5 52 Alemana 3.30 21
6 26 Bélgica 0.90 4
10 33 Francesa 1.30 13
11 37 Alemana 2.90 27
12 25 Alemana 2.10 3
13 40 Bélgica 3.30 19
14 49 Alemana 2.10 28
15 36 Irlandesa 2.10 22
16 35 Francesa 1.90 5
17 55 Francesa 4.00 29
18 47 Francesa 2.50 19
19 50 Italiana 3.70 26
20 28 Espanhola 0.90 8
Tabela 4: Informações na seleção da empresa na questão 2.
3. Calcule a media das variáveis quantitativas. A idade média das unidades estatı́sticas
é superior a 30 anos? A média dos anos de experiência profissional pelos candidatos
é pelo menos igual a 10?
4. Calcule os quartis da variável “Nı́vel de renda”. Trace e comente o box-plot. Explique

e justifique se há alguma diferença com os resultados obtidos no R.
Nesse questão serei mais breve, pois os conceitos já foram explicados
fi Fi
1 0.20 20.00
2 0.05 25.00
3 0.15 40.00
4 0.05 45.00
5 0.25 70.00
6 0.30 100.00
Tabela 5: Tabela Idades (fi e Fi)
7
Com essa tabela podemos ver que apenas 40% dos cadidatos tem idade MENOR a
40 anos e 60% dos candidatos tem 40 anos ou mais.
Como é pedido os candidatos com idade MENOR a 40 anos o intervalo é fechado
na esquerda. Nessa tabela estarei considerando as classes da seguinte forma: 1-[25,30)
2-[30,35) 3-[35,40) 4-[40,45) 5-[45,50) 6-[50,55].
fi Fi
1 0.25 25.00
2 0.25 50.00
3 0.20 70.00
4 0.10 80.00
5 0.15 95.00
6 0.05 100.00
Tabela 6: Tabela de Renda (fi e Fi)
Supondo que apenas pessoas com renda igual ou menor a 1.5 aceitariam a oferta
concluimos que SIM existem pelo menos 20% dos curriculos que aceitariam uma oferta
de 1.525
Nessa tabela estarei considerando as classes da seguinte forma: 1-(0.8,1.5] 2-(1.5,2.2]
3-(2.2,2.9] 4-(2.9,3.6] 5-(3.6,4.2] 6-(4.2,4.9].
fi Fi
1 0.20 20.00
2 0.15 35.00
3 0.10 45.00
4 0.20 65.00
5 0.25 90.00
6 0.10 100.00
Tabela 7: Tabela de nacionalidade (fi e Fi)
Nosso conjunto não apresenta candidatos Ingleses.

Nessa tabela estarei considerando as classes da seguinte forma: 1-Alemana 2-Bélgica
3-Espanhola 4-Francesa 5-Irlandesa 6-Italiana.
*Tabelas estão reduzidas para economia de espaço no latex, as tabelas completas

estão no código Listado 2
Questao 2.3
De forma parecida com o histograma, um diagrama de barras é um gráfico com barras

retangulares e comprimento proporcional aos valores que ele apresenta. Na figura 3 está
representado o diagrama de barras seguindo a seguinte forma de classes: 1-Alemana
2-Bélgica 3-Espanhola 4-Francesa 5-Irlandesa 6-Italiana.
Podemos ver que a nacionalidade mais frequente é a Irlandesa, e as menos frequentes
são Espanhola e Italiana.
Logo abaixo também teremos o histograma relativo as classes de rendas. Divisao das
classes de renda : (0.8,1.8] (1.8,2.8] (2.8,3.8] (3.8,4.8]. Figura 4.
8
Nesse histograma a divisão das classes foi feita de modo igual, ou seja, todas classes
apresentam a mesma amplitude. Desta maneira alguns valores foram além daqueles que
estão no conjunto, por exemplo os extremos 0.8 e 4.8 não estão no conjunto podendo
gerar algumas inconsistencias no histograma
Figura 3: Barplot - item 2.2
Figura 4: Hist - item 2.2
Questao 2.4
Utilizando as fórmulas já apresentadas podemos responder as questões do item 3

temos os seguintes resultados:
9
idades
x̄ = = 42.2 (9)
20
Então sim, podemos dizer que a média das idades é superior a 30 anos
anos.exp
x̄ = = 17.4 (10)
20
Podemos dizer que a média dos anos de experiência é superior a 10 anos
Questao 2.5
Os quartis são medidas estatı́sticas utilizadas para dividir um conjunto de dados em

quatro partes iguais, cada uma contendo um quarto dos dados. São frequentemente
usados para analisar a dispersão e a distribuição dos dados em uma amostra.
◦ Q1 (primeiro quartil) - divide os dados em 25%, ou seja, 25% dos dados são menores
ou iguais a Q1 .
◦ Q2 (segundo quartil) - também conhecido como mediana, divide os dados em 50%, ou

seja, 50% dos dados são menores ou iguais a Q2 .
◦ Q3 (terceiro quartil) - divide os dados em 75%, ou seja, 75% dos dados são menores
ou iguais a Q3 .
As fórmulas para calcular os quartis são as seguintes:
◦ Q1 (primeiro quartil):
n+1
Q1 =
4
◦ Q2 (segundo quartil, mediana):
Q2 = M
◦ Q3 (terceiro quartil):
3(n + 1)
Q3 =
4
Agora explicando os elementos do boxplot. A caixa no box plot representa o intervalo
interquartil (IQR), que é a diferença entre o terceiro quartil (Q3) e o primeiro quartil
(Q1). A linha dentro da caixa representa a mediana (Q2), que é a medida central do
conjunto de dados. Também temos aquilo que chamamos de bigodes o qual definem o
limite superior e o limite inferior.
10
Figura 5: Boxplot - item 2.5
Listado 2

# 1. Calcule as frequencias relativas e frequencias relativas cumulativas .
Avalie se mais de 70% dos candidatos tem menos de 40 anos . Avalie se
pelo menos 20% aceitariam o emprego se lhes fosse oferecido um salario
mensal igual a 1525 euros . E possivel afirmar que mais de 30% dos
curriculos recebidos provem de candidatos ingleses ?
# Como e pedido os candidatos com idadde MENOR a 40 anos o intervalo e

fechado na direita
idades _ gap <- table ( cut ( idades , breaks = c (25 ,30 ,35 ,40 ,45 ,50 ,55) , right =
FALSE , include . lowest = TRUE ) )
idades _ gap
tabela _ freq _ id <- data . frame ( idades _ gap )

colnames ( tabela _ freq _ id ) <- c ( " classe " , " ni " )
tabela _ freq _ id $ Ni <- cumsum ( idades _ gap )

tabela _ freq _ id $ fi <- idades _ gap / length ( idades )
tabela _ freq _ id $ Fi <- cumsum ( idades _ gap / length ( idades ) * 100)
tabela _ latex <- xtable ( tabela _ freq _ id , caption = " Tabela ␣ de ␣ Medidas " )
print ( tabela _ latex , caption . placement = " top " )
# Com essa tabela podemos ver que apenas 40% dos cadidatos tem idade
MENOR a 40 anos e 60% dos candidatos tem 40 anos ou mais
# Para renda tambem sera feita uma divisao em " classes "
rendas _ gap <- table ( cut ( rendas , breaks = c (0.8 ,1.5 ,2.2 ,2.9 ,3.6 ,4.2 ,4.9) ) )
11
rendas _ gap
tabela _ freq _ renda <- data . frame ( rendas _ gap )

colnames ( tabela _ freq _ renda ) <- c ( " classe " , " ni " )
tabela _ freq _ renda $ Ni <- cumsum ( rendas _ gap )

tabela _ freq _ renda $ fi <- rendas _ gap / length ( rendas )
tabela _ freq _ renda $ Fi <- cumsum ( rendas _ gap / length ( rendas ) * 100)
tabela _ latex <- xtable ( tabela _ freq _ renda , caption = " Tabela ␣ de ␣ Medidas " )
# Supondo que apenas pessoas com renda igual ou menor a 1.5 aceitariam a
oferta concluimos que SIM existem pelo menos 20% dos curriculos que
aceitariam uma oferta de 1.525
# Levels : Alemana -20% Belgica -15% Espanhola -10% Francesa -20% Irlandesa -25%
Italiana -10%
nacional _ num <- factor ( nacionalidades )

nacional _ cat <- as . numeric ( nacional _ num )
nacio _ class <- table ( nacional _ cat )

nacio _ class
nacional _ num
tabela _ freq _ naci <- as . data . frame ( nacio _ class )

colnames ( tabela _ freq _ naci ) <- c ( " classe " , " ni " )
tabela _ freq _ naci $ Ni <- cumsum ( nacio _ class )

tabela _ freq _ naci $ fi <- nacio _ class / length ( nacionalidades )
tabela _ freq _ naci $ Fi <- cumsum ( nacio _ class / length ( nacionalidades ) * 100)
tabela _ latex <- xtable ( tabela _ freq _ naci , caption = " Tabela ␣ de ␣ Medidas " )
# 2. Represente as variaveis de Nacionalidade e de Renda usando ,

respectivamente , um diagrama de barras e um histograma de frequencia (
assuma 4 classe de renda )
barplot ( tabela _ freq _ naci $ ni ,

names . arg = tabela _ freq _ naci $ classe ,
xlab = " Nacionalidades " ,
ylab = " Frequencia " ,)
# Divisao das classes de renda

# (0.8 ,1.8] (1.8 ,2.8] (2.8 ,3.8] (3.8 ,4.8]
# 5 7 6 2
hist ( rendas , c (0.8 ,1.8 ,2.8 ,3.8 ,4.8) , main = " " )
12
# 3. Calcule a media das variaveis quantitativas . A idade media das
unidades estatisticas e superior a 30 anos ? A media dos anos de
experiencia profissional pelos candidatos e pelo menos igual a 10?
mean ( idades )
# Sim e supetior a 30 anos
mean ( anos _ exp )

# E maior que 10 anos
# 4. Calcule os quartis da variavel Nivel de renda . Trace e comente o box

- plot . Explique e justifique se ha alguma diferenca com os resultados
obtidos no R
quartis <- quantile ( rendas , probs = c (0.25 , 0.5 , 0.75) )

quartis
boxplot ( rendas ,
main = " Boxplot ␣ dos ␣ Dados " ,
ylab = " Valores " ,
col = " lightblue " ,
border = " blue " ,
horizontal = FALSE )
Questão 3
O conjunto de dados em anexo, HW1 bike sharing.csv, se refere ao processo de com-
partilhamento de bicicletas em uma cidade dos Estados Unidos. O conjunto consta das
colunas na Tabela 8. A variável season inclui as quatro estações: primavera, verão,
outono e inverno; a variável weathersit inclui quatro condições meteorológicas: ‘Céu
limpo’, ‘Nublado’, ‘Chuva fraca’, ‘Chuva forte’, a variável temp é a temperatura em graus
Celsius.
Tag Descrição
instant Indice de registro
dteday Data da observação
season Estação
weathersit Condições do tempo
temp Temperatura em ◦ C
casual Número de usuários casuais
registered Número de usuários com cadastro
Tabela 8: Dados do conjunto HW1 bike sharing na questão 3.
13
1. Carregue o conjunto de dados rating final.txt no R, classifique as variáveis, iden-
tifique o numero das observações e o dia de inı́cio e de término da amostra .
2. Calcule medidas de tendência central e os quartis por cada caraterı́stica relevante.

Apresente essas estatı́sticas em uma tabela contendo inclusive o tı́tulo. Comente os
resultados.
3. Atribua os diferentes nı́veis às variáveis season e weathersit. Construa o gráfico de

barras para ambas as variáveis. Identifique a estação mais popular. A popularidade
do compartilhamento de bicicletas depende da estação? Qual é a condição climática
mais favorável?
4. Calcule o número total de usuários durante o tempo de estudo. Calcule a temperatura

em ◦ C. Desenhe e compare os gráfico das séries temporais correspondentes. Elas tem
a mesma tendências?
Explique brevemente a base teórica, as principais etapas de sua solução e consulte o
código no Listado 3.
Listado 3

rm ( list = ls () ) # clean the working space
graphics . off () # close all the graphic windows
getwd () # verify the current working directory
setwd ( ’ path / TI0111 / my _ folder ’) # set your working directory
14

TI0111 HW1 Estatistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TI0111 HW1 Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

Statistics for Engineers

Tabela 1: Emissões diárias de gas poluente na questão 1.

1. Divida os dados em 7 classes de amplitude 4, começando com o valor 5.0, e construa

2. Trace o histograma relacionado às frequências absolutas e o explique.

3. Calcule a média, moda, mediana, variância e desvio padrão. Explique os resultados.

ni = Número de Ocorrências (1)

Uma frequência relativa (fi ) é a quantidae de vezes que um valor ou intervalo de

De forma parecida a frequência relativa acumulada (Fi ) é a soma das frequências

Ainda podemos ter a frequencia relativa e relativa acumulada percentuais, simplemesnte

Tabela 2: Tabela de distrubuição de frequências

Figura 1: Histograma dos Dados

Figura 2: Histograma - item 1.3

A mediana é o valor que está exatamente no meio de um conjunto de dados ordenado.

A variância é uma medida de dispersão que descreve o grau de variação em um

Tabela 3: Tabela de Medidas

A média está representando o valor médio do nosso conjunto de dados. A mediana

Listado 1: Solução da questão 1

# calculando a frequencia das classes

tabela _ freq $ Ni <- cumsum ( frequencia )

tabela _ freq $ fi <- frequencia / length ( emissoes )

tabela _ freq $ Fi <- cumsum ( frequencia / length ( emissoes ) )

tabela _ freq $ Fi _ 100 <- cumsum ( frequencia / length ( emissoes ) ) * 100

# 2. Trace o histograma relacionado as frequencias absolutas e o explique

# 3. Calcule a media , moda , mediana , variancia e desvio padrao . Explique

tabela _ central _ t <-t ( tabela _ central )

1. Calcule as frequências relativas e frequências relativas cumulativas. Avalie se mais

2. Represente as variáveis de “Nacionalidade” e de “Renda” usando, respectivamente,

Tabela 4: Informações na seleção da empresa na questão 2.

4. Calcule os quartis da variável “Nı́vel de renda”. Trace e comente o box-plot. Explique

Tabela 5: Tabela Idades (fi e Fi)

Tabela 6: Tabela de Renda (fi e Fi)

Tabela 7: Tabela de nacionalidade (fi e Fi)

Nosso conjunto não apresenta candidatos Ingleses.

*Tabelas estão reduzidas para economia de espaço no latex, as tabelas completas

De forma parecida com o histograma, um diagrama de barras é um gráfico com barras

Figura 3: Barplot - item 2.2

Figura 4: Hist - item 2.2

Utilizando as fórmulas já apresentadas podemos responder as questões do item 3

Os quartis são medidas estatı́sticas utilizadas para dividir um conjunto de dados em

◦ Q2 (segundo quartil) - também conhecido como mediana, divide os dados em 50%, ou

As fórmulas para calcular os quartis são as seguintes:

Listado 2: Solução da questão 2

# Como e pedido os candidatos com idadde MENOR a 40 anos o intervalo e

tabela _ freq _ id <- data . frame ( idades _ gap )

tabela _ freq _ id $ Ni <- cumsum ( idades _ gap )

tabela _ freq _ renda <- data . frame ( rendas _ gap )

tabela _ freq _ renda $ Ni <- cumsum ( rendas _ gap )

nacional _ num <- factor ( nacionalidades )

nacio _ class <- table ( nacional _ cat )

tabela _ freq _ naci <- as . data . frame ( nacio _ class )

tabela _ freq _ naci $ Ni <- cumsum ( nacio _ class )

# 2. Represente as variaveis de Nacionalidade e de Renda usando ,

barplot ( tabela _ freq _ naci $ ni ,

# Divisao das classes de renda

mean ( anos _ exp )

# 4. Calcule os quartis da variavel Nivel de renda . Trace e comente o box

quartis <- quantile ( rendas , probs = c (0.25 , 0.5 , 0.75) )

Tabela 8: Dados do conjunto HW1 bike sharing na questão 3.

2. Calcule medidas de tendência central e os quartis por cada caraterı́stica relevante.

3. Atribua os diferentes nı́veis às variáveis season e weathersit. Construa o gráfico de

4. Calcule o número total de usuários durante o tempo de estudo. Calcule a temperatura

Listado 3: Solução da questão 3

Você também pode gostar