Você está na página 1de 5

Disciplina: Ciência de Dados (Simulado – NP2)

Uni-FACEF – Centro Universitário de Franca | Franca


Nome: ____________________________________ Código: ____________

1. (0,5) Qual será o valor retornado pela chamada à função f(3):

2. (0,5) Quais são alguns dos erros presentes no código abaixo? Corrija esses erros com suas respectivas
respostas corretas.

• iris[iris$Sepal.Length = 5, ]
• iris[-1:5, ]
• iris[iris$Sepal.Length <= 5]

3. (0,5) Depois de plotar os dados sobre o número de viagens feitas por passageiros em um dia, quais foram as
conclusões que você deduziu da visualização resultante?

Página 1 de 5
4. (0,5) Existem no total 5 bases. Qual base, de acordo com sua interpretação, recebeu o maior número de
passageiros?

5. (0,5) Suponha que você tenha um vetor de números vetor_a  (1,3,4,7) que precise ser combinado com os
símbolos ("#", "?") consecutivamente, de modo a obter a saída 1- #, 3- ?, 4- #, 7-?. Qual será sua alternativa
para atender esse propósito?

6. (0,5) Suponha que seu projeto de ciência de dados exija a instalação do pacote ggplot2. Como você o
instalaria?

7. (0,5) O que você sabe sobre o RMarkdown? Discorra de forma clara e objetiva.

8. (0,5) Um arquivo csv consiste em valores ausentes representados por hashtags ("#") e "e" comercial ("&").
Como você pode ler esse tipo de arquivo CSV em R?

9. (0,5) Suponha que você tenha um vetor composto por vários objetos. Estes objetos são do tipo string. Dentro
dessa estrutura existe uma string intitulada de "Uni-FACEF". Seu desafio é encontrar o local/posição onde se
encontra a ocorrência dessa string no vetor nomeado de 'vetor_NP2'. Como você vai proceder nessa tarefa?

10. (0,5) Você está resolvendo um problema de ciência de dados que está cheio de muitos valores ausentes.
Você deseja limpar os dados antes de ajustar seu modelo. O que você faria para substituir esses valores
ausentes? Desenvolva sua própria função.

Considere o vetor abaixo:

arr  c(1,2,4,NA,NA,11,NA,10)

Agora, elabore uma função para imputar os valores:

11. (0,5) Você tem duas tabelas "salario_empregado" e "experiencia_empregado". A primeira tabela consiste em
duas colunas "Nome" e "Salario". A segunda tabela consiste em colunas "Nome" e "Experiencia". Como você
mesclará essas duas tabelas para criar uma única tabela que não possui nenhuma coluna redundante?

Página 2 de 5
12. (0,5) A tabela de dados abaixo é gravada em um arquivo CSV chamado 'Datatable.csv'. Suponha que você
queira ler este arquivo CSV com todas as 3 linhas. Como você faria isso?

13. (0,5) Você tem um conjunto de dados do qual deseja extrair um subconjunto. Por exemplo, para dados que
consistem em detalhes de funcionários, você deseja criar um subconjunto de funcionários com mais de 30
anos e que ganham salário inferior a R$ 10.000,00. Como você atenderia esse propósito em R? O dataframe
deve ser indicado pelas variáveis 'idade' e 'salario' e os dados desse mesmo dataframe estão contidos na
variável 'dados_do_empregado'.

14. (0,5) Qual será o resultado final apresentado pelo código abaixo?

> x  rnorm(10)
> summary(x)

A) [1] 0.01874617 -0.18425254 -1.37133055 -0.59916772 0.29454513


[6] 0.38979430 -1.20807618 -0.36367602 -1.62667268 -0.25647839
B) [1] 22.20356 21.51156 19.52353 21.97489 21.48278 20.17869 18.09011
[8] 19.60970 21.85104 20.96596
C) Min. 1st Qu. Median Mean 3rd Qu. Max.
18.09 19.75 21.22 20.74 21.77 22.20
D) [1] 0.09303336 -2.00910277 1.64084037 0.19924063 1.96564950 1.48840346
[7] -2.05548917 1.04515354 -1.40373802 -0.68193843

15. (0,5) Dentre as alternativas abaixo descritas, qual é a responsável por listar as variáveis presente no
workspace.

A) rm(x)
B) rm(list=ls())
C) ls()
D) attach(mat)
E) Todas as alternativas anteriores

Página 3 de 5
16. (0,5) Considere a criação explícita de um vetor, conforme código abaixo:

> vetor  c(30,10,40,20,80,50,70,100,90)

Qual a função utilizada pelo Analista de Dados para que seja apresentado o resultado:

[1] 10 100

A) vetor[1]
B) min(vetor)
C) max(vetor)
D) range(vetor)
E) sort(vetor)

17. (0,5) A package dplyr inclui um conjunto de funções para manipulação de data frame, quer ao nível de
colunas (campos), quer ao nível das linhas. Abaixo são apresentadas algumas das funções deste package:

(1) filter (A) permite selecionar um subconjunto de linhas de um data frame a partir
(2) slice de seus índices numéricos
(3) arrange (B) permite selecionar colunas de um data frame
(C) permite adicionar novos campos a um data frame
(4) select
(D) permite selecionar um subconjunto de linhas de um data frame a partir
(5) rename
de um conjunto de condições definidas sobre os seus campos
(6) mutate (E) permite renomear campos do data frame
(7) sample_n (F) permite reordenar linhas de acordo com determinados campos
(G) permite selecionar linhas do data frame de forma aleatória

Assinale a alternativa que faz a correlação correta:

A) 7G – 2A – 3F – 1D – 5E – 4B – 6C
B) 1G – 3A – 2F – 4D – 5E – 6B – 7C
C) 1A – 2B – 3C – 4D – 5E – 6F – 7G
D) 7A – 6B – 1D – 3F – 5E – 6C – 7G
E) 6G – 7A – 1F – 2D – 3E – 4B – 5C

18. (0,5) Relacione as duas colunas quanto as funções que podem ser aplicadas em um determinado vetor
juntamente com suas respectivas descrições:

(1) length(x) (A) Calcula a variância de x


(2) sum(x) (B) Calcula a média aritmética dos elementos de x
(3) mean(x) (C) Fornece o total de elementos do vetor x
(4) median(x) (D) Calcula a soma de todos os elementos de x
(E) Calcula a mediana de x
(5) var(x)
(F) Gera um vetor contendo o valor mínimo, quartil inferior,
(6) quantile(x) mediana, quartil superior e valor máximo de x

Assinale a alternativa que faz a correlação correta:

A) 3C – 2B –1A – 5E – 4D – 6F
B) 5A – 3B – 1C – 2D – 4E – 6F
C) 1F – 5B – 4C – 3D – 2E – 6A

Página 4 de 5
D) 4E – 3B – 1C – 2D – 6A – 5F
E) 4B – 5A – 2D –1C – 3E – 6F

19. (0,5) A importação de dados de arquivos em R pode ser feita basicamente de duas maneiras: leitura de
arquivo e leitura de bases de dados. O procedimento mais comum é a leitura de arquivos com valores
separados por um identificador (CSV – comma separated values). A leitura de um arquivo CSV em R é
realizada pela função read.table(). Tal função exige pelo menos três parâmetros de entrada. Considerando
os parâmetros da função read.table(), analise as seguintes assertivas:

I. O caminho de entrada (pasta local ou uma URL válida).


II. Uma variável com as informações de rótulo de cada exemplar do conjunto de dados.
III. Um indicador (header) de que a primeira linha é um cabeçalho (TRUE) ou já é conteúdo de dados
(FALSE).
IV. O tipo de separador (sep), que diz respeito ao caractere usado para separar os valores contidos no
arquivo.

Quais assertivas correspondem adequadamente a ordem e descrição correta quanto aos parâmetros
utilizado pela função read.table()?

A) Apenas I, II e III
B) Apenas II e III
C) Apenas III e IV
D) Apenas I e II
E) Apenas I, III e IV

20. (0,5) A tabela abaixo apresenta as primeiras linhas do conjunto de dados contendo a população e as taxas
de homicídios (em unidades de homicídios a cada 100 mil pessoas por ano) em cada estado.

Taxa de
Estado População
Homicídio
1 Alabama 4.779.736 5,7
2 Alasca 710.231 5,6
3 Arizona 6.392.017 4,7
4 Arkansas 2.915.918 5,6
5 Califórnia 37.253.956 4,4
6 Colorado 5.029.196 2,8
7 Connecticut 3.574.097 2,4
8 Delaware 897.934 5,8

Suponha que esse dataset, ora representado pela tabela acima, esteja gravado em um arquivo CSV
intitulado de “state.csv”. Carregue o respectivo arquivo e, calcule a média e mediana para a população,
utilizando a linguagem R.

Página 5 de 5

Você também pode gostar