Completao de Mineração de Dados Ok

1.
Pergunta 1
0/0
Leia o trecho a seguir:
“NumPy possui uma função chamada de genfromtxt para criar dados em Python de forma tabulada, em
NumPy, dados tabulados são avaliados como array. É muito fácil para o sistema baixar dados e processor
os itens.”
Fonte: SUBRAMANIAN, Gopi. Python Data Science Cookbook. Inglaterra: Packt Publisher, 2015. p. 40.
Com base no trecho e no conteúdo estudado, assinale a alternativa correta:
Ocultar opções de resposta
1. Incorreta:
plt.show é utilizada na biblioteca NumPy.
2.
O comando skip header = 1 pulará a primeira linha.
Resposta correta
3.
O comando np.array gera gráficos.
4.
delimiter é o último dado.
5.
O comando gemfrontxt é nativo de Pandas.
2. Pergunta 2
0/0
“A computação numérica começou em 1995 e, depois disso, em 2006, evoluiu para a biblioteca NumPy,
que foi a base para o objeto Series do Pandas. A biblioteca básica de plotagem é a Matplotlib.”
Fonte: CHEN, Daniel y. Análise de dados com Python e Pandas. São Paulo: Pearson, 2018. p. 379.
Agora, analise a sintaxe abaixo:

escolhas = pd.Series(['Versão 1', 'Versão 2', 'Versão 1 e Versão 2', 'Versão 2', 'Versão 4])
escolhas.drop_duplicates()
Com base no trecho e no conteúdo estudado, pode-se dizer que a sintaxe:
1.
mostrará “Versão 1, Versão 2, Versão 1 e Versão 2, Versão 4”.
Resposta correta
2. Incorreta:
duplicará valores para quantidade maior que 1 pelo comando drop_duplicate.
3.
mostrará itens sempre no singular e que começam com letra.
4.
importará o pd.Series juntamente com Pandas.
5.
mostrará dados com o comando drop e duplicará dados com o comando duplicate.
3. Pergunta 3
0/0
“NumPy é um pacote Python fundamental para computação científica, ele inclui capacidade de criar
arrays multidimensionais, contém um poderoso objeto de matriz N-dimensional, funções sofisticadas
(transmissão), ferramentas para integrar C / C ++ e código Fortran.”
Fonte: BRESSERT, Eli apud PARREIRA, Lucas. SciPy and NumPy. California: O Reilly Média, 2012.
p. 5.
Com base nas informações e no conteúdo estudado, analise as afirmativas a seguir:
I. O NumPy executa criação e exibição de gráficos.
II. O NumPy executa importação de arquivos com extensão txt.

III. O NumPy executa importação de arquivos com extensão CSV.
IV. O NumPy executa importação de arquivos com extensão PSD.
V. O NumPy executa importação de arquivos com extensão DATA.
Está correto apenas o que se afirma em:
1.
II e III.
2.
II, IV e V.
3. Incorreta:
I e III.
4.
II, III e V.
Resposta correta
5.
I, II e III.
4. Pergunta 4
0/0
“Você deve documentar as funções que escreve. Na documentação você deve especificar as seguintes
informações:
• Ação – o que a função faz.
• Entrada – descrição dos argumentos passados para a função.
• Saída – descrição do valor retornado pela função.”
Fonte: HARA, Carmem; ZOLA, Wagner. Linguagem C. Paraíba: UFPR, 2008. p. 16.
Com base no trecho e no conteúdo estudado, pode-se afirmar que input em Python:

1.
removem lacunas ao criar tabelas e deletar dados.
2.
são entradas de dados que serão digitados por usuários.
Resposta correta
3.
criam e exibem tabelas de dados com colunas e linhas.
4. Incorreta:
deletam dados que se tornariam saídas de dados.
5.
quando utilizadas junto com a pergunta, mudam a resposta.
5. Pergunta 5
0/0
“Em todos os exemplos que vimos até este momento, sentenças são executadas sequencialmente. A
ordem sequencial de execução de sentenças pode ser alterada se certas condições forem satisfeitas
durante a execução do programa. Isto é chamado “desvio condicional”. Todas as linguagens de
programação oferecem comandos para o desvio condicional. O mais simples é a sentença if.”
I. For é feito mediante aplicação de NumPy e Pandas.
II. If e Else são feitos mediante aplicação de NumPy.
III. For é um laço de repetição que percorre linhas.
IV. If Else significa “se algo for preenchido, então acontecerá algo”.

1.
III e IV.
Resposta correta
2.
II e III.
3.
II e IV.
4.
I e II.
5. Incorreta:
I e III.
6. Pergunta 6
0/0
“Alguns métodos estatísticos de Pandas são referenciados com estatística indireta, onde não retorna o
valor atual, mas sim o relativo. Por exemplo, .idxmin() e o idxmax() retornam a posição do mínimo e do
máximo.”
Fonte: HEYDT, Michael. Learning Pandas. Mumbay: Packt, 2017. p. 162.
Com base no trecho e no conteúdo estudado, sobre o código tabela.groupby('Cidade').aggregate({'Valor':

[np.mean, min, max]}), pode-se afirmar que:
1.
os dados serão exibidos em um gráfico plotado em média.
2.
o filtro analisará média de dados de cidade preenchidos.

3.
o nome da tabela é Cidade e a coluna chama Valor.
4.
será elencado o valor máximo, mínimo e mediano por cidade.
Resposta correta
5. Incorreta:
o valor é um dado de texto e mostrará o resultado valor=mean.
7. Pergunta 7
0/0
“O principal propósito de Pandas é ajudar a descobrir informações rapidamente em dados, com

informação definida como significado implícito no conjunto. O desenvolvimento de Pandas se deu em
2008 por Wes MCKinney.”
Agora, observe a sintaxe a seguir:
dataframe = pd.read_csv('dataframe.csv', delimiter=',')
I. Para manipular um arquivo importado, é necessário colocá-lo na mesma pasta do arquivo Python.
II. A sintaxe descrita pode ser utilizada em Pandas e em NumPy.
III. O arquivo será importado caso esteja separado por ponto-e-vírgula.
IV. O nome do arquivo é dataframe.csv.
1.
I e II.
2.
III e V.
3.
III e IV.
4. Incorreta:
II e V.
5.
I e IV.
Resposta correta
8. Pergunta 8
0/0
“Em todas as opções utiliza-se pd.read_csv() para especificar o que baixar, também aplica-se a função
pd.read_Excel() para importar. Para ler outros tipos de pastas utiliza-se o parâmetro sheetname.”
Com base no trecho e no conteúdo estudado sobre Excel, pode-se afirmar que:
1. para ler arquivos Excel, é necessário antes instalar a biblioteca xlrd.
Resposta correta
9. Pergunta 9
0/0
Leia o trecho abaixo:
“Os métodos aggregate, transform e filter são normalmente utilizados para agrupar objetos em Pandas.
Espera-se investigar alguns trabalhos inerentes à objetos agrupados. O groupby é um excelente
agrupamento de diversos itens.”
Fonte: CHEN, Daniel Y. Pandas for Everyone. São Paulo: Pearson, 2018. p. 202.
Agora, observe a sintaxe abaixo:
plan.groupby('Day').aggregate({'Price': [min]})]
Com base no trecho e no conteúdo estudado, pode-se afirmar que a sintaxe:
1.
irá reunir menores preços por dia.
Resposta correta
2. Incorreta:
calculará o suporte mínimo.
3.
fará uma lista com valores menores.
4.
fará uma tabela com meses e dias menores.
5.
fará uma lista dos dados que menos se repetem.
10. Pergunta 10
0/0
“Matplotlib é uma biblioteca versátil que gera visualizações de dados. Com variados tipos de desenhos e
opções de estilos refinados, é um instrumento de trabalho bom para criar imagens profissionais e
publicações científicas.”
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 8.
Agora, observe abaixo a sintaxe de uma matriz:

plt.plot(matriz1, c='blue', label='êxitos')
plt.title("comparação de vendas semestral em cinco meses")
plt.ylabel(u'Aquisições')
plt.legenda('lower right')
plt.xlabel(u'Tentativas')
plt.show()
I. “Aquisições” será digitado embaixo da tabela.
II. “Tentativas” será digitado embaixo do gráfico.
III. plt.show mostrará a legenda.
IV. A legenda ficará embaixo e à direita.
1. Incorreta:
II e III.
2.
I e IV.
3.
II e IV.
Resposta correta
4.
I e III.
5.
III e IV.
Módulo B - 136806 . 7 - Mineração de Dados - D.20231.B
Completao de mineração de dados

1. Pergunta 1
0/0

“Muitas empresas estão optando pelos pacotes ERP (Enterprise Resource Planning) devido a vários
motivos, tais como: frustrações com sistemas incompatíveis, departamentos de tecnologia de informação
desabilitados a prover integrações entre estes sistemas e outros que influenciam diretamente na obtenção
de maior competitividade.”
Fonte: PADILHA, Thais. R. Sistemas ERP: características, custos e tendências. Rio de Janeiro: Pordução,
2005 P. 102.
Com base no texto acima e com relação ao ERP, pode-se dizer que:
1.
Serve para gerenciar dados SQL.
2.
Utiliza gráficos para fazer filtros.
3.
Substitui o nome workbench.
4.
Foi criado em 1989 para gestão.
5.
É um sistema de gestão integrado.
Resposta correta
2. Pergunta 2
0/0
“Há uma necessidade urgente de uma nova geração de técnicas e ferramentas computacionais para ajudar
os seres humanos a extrair informações úteis (conhecimento) de volumes de dados, essas técnicas e
ferramentas são as tema do emergente campo da descoberta do conhecimento em bancos de dados.”
Fonte: FAYYAD, U.M., PIATETSKY-SHAPIRO, G., SMYTH, P., UTHURUSAMY, R. Advances in
Knowledge Discovery and Data Mining. Califórnia: AAAI/MIT Press, 1996. P. 82.
Considerando o texto e o conteúdo da disciplina, a respeito dos filtros em Excel, pode-se dizer que:

1.
Assim como o SQL, o Excel filtras por valores maiores ou iguais a um determinado
parâmetro na análise de dados.
Resposta correta
2.
Através do comando “reset” é possível limpar filtros de dados em tabelas criadas.
3.
Para criar filtros em tabelas deve-se clicar com o botão direito no dado e em “formato de
célula” e selecionar o tipo de dados.
4.
Ao clicar na guia “inserir-dados”, o Excel irá inserir o filtro de dados, colocando uma
flecha de busca ao lado das tabelas.
5.
Para gerar novos filtros é necessário apagar os antigos, fazendo um de cada vez.
3. Pergunta 3
0/0
“Duas heurísticas podem ser utilizadas para indicar se esta operação deve ser utilizada: Eliminar todos os
atributos que apresentem valores constantes em todos os conjuntos de dados. A justificativa é que
atributos nesta situação não contribuem para distinguir os registros uns dos outros.”
Fonte: GOLDSHIMDIT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emannuel. Data Mining: Conceitos,
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever, 2015. P. 39.
Com base no texto acima e no conteúdo sobre banco de dados, pode-se dizer que:
1. Atributos do tipo inteiro recebem números maiores que 128.Resposta correta

4. Pergunta 4
0/0
“As funcionalidades da mineração de dados são usadas para especificar os tipos de informações a serem
obtidas nas tarefas de mineração. Em geral estas tarefas podem ser classificadas em duas categorias: (1)
descritivas: caracterizam as propriedades gerais dos dados; e (2) preditivas: fazem inferência a partir dos
dados objetivando predições.”
Fonte: CASTRO, Gilberto. Ramos. Discussão conceitual sobre dado, informação e conhecimento. João
Pessoa: UFPB, 2011. P. 23.
Considerando o texto e o conteúdo da disciplina, sobre as funções da mineração, pode-se dizer que:
1. Analisar padrões de causa e efeito identifica de forma quantitativa o poder de

influência de uma variável em outra.Resposta correta
5. Pergunta 5
0/0
“As etapas adicionais em o processo KDD, como preparação de dados, seleção de dados, limpeza de
dados, incorporação de conhecimento e interpretação adequada dos resultados mineração, são essenciais
para garantir que o conhecimento útil seja derivado dos dados.”
Knowledge Discovery and Data Mining. Estados Unidos, Califórnia: AAAI/MIT Press, 1996.
Considerando o texto e o conteúdo da disciplina, sobre o processo KDD, analise as afirmativas a seguir:
I. Objetiva analisar bancos de dados para descobrir tendências.
II. É um outro nome para Data Warehouse em analises de eventos.
III. Inicia-se com seleção de dados de eventos.
IV. Tem como objetivo analisar razões esporádicas para um evento.
Estão corretas as afirmativas:
1. I e III.Resposta correta
6. Pergunta 6
0/0
“A conscientização de segurança aumentou significativamente nos últimos anos em TI, mas muitas vezes
permanece uma reflexão tardia e um fardo indesejável para a maioria das equipes de DW / BI.”
Fonte: FAYYAD, U.M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. Advances in
Com base no texto acima e no conteúdo estudado, pode-se dizer, com relação ao modo de segurança do
workbench, que:
1. É necessário desabilitá-lo para deletar alguns tipos de dados.Resposta correta

7. Pergunta 7
0/0
“Agregação de informações: Esta operação consiste em reunir (agregar) alguns registros de forma a
produzir um conjunto de dados de tamanho menor que o original. Na agregação de informações, dados
com menor detalhe. Por exemplo, é possível somar os valores de todas as compras de cada cliente,
obtendo o total de despesas por ele realizadas durante um determinado período.”
Considerando o texto e o conteúdo da disciplina, sobre agregação e Data Warehouse, pode-se dizer que:
1. A Data Staging Area é o local onde os cluster e grupos são formados.Resposta correta
8. Pergunta 8
0/0
“Um banco de dados é uma coleção integrada de dados, organizada de tal forma a facilitar o
armazenamento eficiente, assim como sua modificação e recuperação. Normalmente, informações a
respeito do nome de cada campo e seu domínio são também armazenadas.”
1. Bancos de dados são criados com a função create database nomedobanco.Resposta

correta
9. Pergunta 9
0/0
“Em particular, a utilização do computador como ferramenta educacional é um tema relevante e atual, e
tem sido objeto de pesquisa multidisciplinar. As primeiras aplicações em EDM se concentravam em
construção de modelos voltados à predição do desempenho dos estudantes com bases nos históricos
anteriores.”
Fonte: GOLDSHIMDIT, Ronaldo. BEZERRA, Eduardo. PASSOS, Emannuel. Data Mining: Conceitos,
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever, 2015. P.235.
Com base no texto acima e com relação ao EDM, pode-se dizer que:
1.
Relatórios de leis políticas subsidiam a criação de EDM.
2.
A mineração de seguros faz parte da EDM, a fim de gerir dados.
3. Incorreta:
EDM serve para a área da saúde, educação e comércio.
4.
Analisar computadores faz parte de mineração em Escolas.
Resposta correta
5.
Tabelas feitas com a função EDM são mais claras e têm menos dados.
10. Pergunta 10
0/0
“Na grande maioria das situações, devido ao grande volume de dados, esse processo manual torna-se
impraticável. Ainda segundo Fayyad, o KDD (Knowledge Discovery in Databases ou Descoberta de
Conhecimento nas Bases de Dados) é uma tentativa de solucionar o problema causado pela chamada "era
da informação": a sobrecarga de dados.”
Fonte: CAMILO, Oliveira; SILVA, João. Mineração de dados: Conceitos, tarefas, métodos e ferramentas.
Goiás: UFG, 2009. P. 4.
Com base no texto acima e no conteúdo da disciplina, sobre as etapas do processo KDD, pode-se dizer
que:
1.
As seleções são feitas na etapa de pós processamento.
2.
A mineração é feita antes da etapa de enriquecimento.
3.
A clusterização é feita na fase de enriquecimento.
4.
O enriquecimento é feito após a limpeza de dados.
Resposta correta
5.
Análises como KNN são feitas na primeira etapa.
Completao de mineração de dados

1. Pergunta 1
0/0
“A limpeza dos dados inclui uma checagem da consistência das informações, correção de possíveis erros
e o preenchimento ou a exclusão de valores nulos e redundantes. Nessa fase são identificados e extraídos
os dados duplicados e/ou corrompidos. A execução dessa fase corrige a base de dados excluindo
consultas que não são necessárias e que seriam executadas pelo algoritmo minerador podendo afetar o seu
desempenho. Os métodos de limpeza são dependentes do domínio da aplicação.”
PROCACI, Alexandre. Geração de regras de associação quantitativas com intervalos não contínuos.
Minas Gerais: IC, 2004. p. 3.
Com base no trecho acima e no conteúdo estudado, analise as afirmativas a seguir sobre limpeza de
dados:
I. Dados com ruídos são valores acima ou abaixo do normal.
II. Valores discrepantes são valores nulos ou vazios.
III. Outliers ajudam a entender melhor o padrão de dados.
IV. Há situações que substituem valores nulos por médias.

1.
I e IV.
Resposta correta
2.
III e IV.
3. Incorreta:
II e IV.
4.
I e II.
5.
II e III.
2. Pergunta 2
0/0
“Um intervalo de confiança está associado ao nível de confiança correspondente a uma medida de certeza
de que o intervalor contém um parâmetro da população. (…) Escolhas comuns para o nível de confiança
são de 90%, 95% e 99%.”
CASTRO, Leandro C.; GOMES, Daniel E. Introdução a mineração de dados: Conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2017. p. 342.
A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para criar o cálculo de
confiança:
( ) Determina-se os itens vencedores.
( ) Cria-se uma tabela com dados a partir de análises.
( ) Cria-se uma rotina de análise de dados.
( ) Calcula-se a confiança.
( ) Calcula-se o suporte mínimo.
Agora, assinale a alternativa que apresenta a sequência correta:
1.
3, 4, 5, 2, 1.
2.
2, 4, 1, 5, 3.
3. Incorreta:
5, 3, 4, 2, 1.
4.
2, 4, 3, 1, 5.
5.
5, 2, 1, 4, 3.
Resposta correta
3. Pergunta 3
0/0
“A integração busca padronizar formatos e convenções de nomes, além da retirada de inconsistências.

Um Armazém de Dados contém dados históricos, que variam com o tempo (geralmente por um período
de vários anos). Tais dados são ordenados, na maioria das vezes, de maneira a facilitar sua análise por um
usuário especializado.”
Com base no trecho acima e no conteúdo estudado, pode-se dizer que, antes de fazer a união de dois
bancos de dados, deve-se:
1.
Unir duas tabelas, usando o select inner join em um dado que se repete nas duas tabelas.
Resposta correta
2.
Priorizar sobrecarga, pois, quanto mais dados, melhor.
3.
Priorizar medidas diferentes a fim de evitar redundância.
4.
Mesclar duas tabelas no MySQL utilizando o comando intersection.
5. Incorreta:
Unir tabelas de épocas diferentes para ter mais certezas acerca de junções de dados.
4. Pergunta 4
0/0
Leia trecho abaixo:
“Também denominada operação linear, consiste em considerar os valores mínimo e máximo de cada
atributo no ajuste da escala. Esta operação mapeia os valores de um atributo no intervalo fechado de 0 até
1.”
GOLDSCHMIDT, Ronaldo; BEZERRA, Eduardo; PASSOS, Emmanuel. Data Mining: Conceitos,
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsevier, 2015. p. 61.
Com base no trecho acima e no conteúdo estudado, pode-se dizer que, em bancos de dados muito
grandes, para realizar a normalização linear, deve-se:
1.
Apagar dados que fujam do critério.
2. Incorreta:
Integrar duas tabelas a fim de eliminar erros.
3.
Criar uma tabela dinâmica para analisar dados mais rapidamente.
4.
Exportar o banco de dados para Excel e reduzir os dados.
5.
Fazer uma sintaxe SQL com select max e min.
Resposta correta
5. Pergunta 5
0/0
“Também é possível criar triggers (gatilhos) com mais de um procedimento. Para isso primeiro precisa
definir um delimiter, ou seja, um sinal para delimitar qual será o fim de uma instrução, e que não seja o
ponto e vírgula.”
SALVADOR, Fabio. Programando em PHP, integração com MYSQL. São Paulo: Viena, 2012. p. 229.
Com base no trecho acima e no conteúdo estudado, a respeito de funções no MySQL, pode-se dizer que:
I. São criadas na mesma query no MySQL.
II. Colocam os intervalos em novos nomes se necessário.
III. Automatizam processos.
IV. Utilizam a sintaxe start e end.
1.
I e IV.
2.
II e IV.
3.
II e III.
Resposta correta
4. Incorreta:
III e IV.
5.
I e II.
6. Pergunta 6
0/0
“O modelo típico para mineração de regras de associação em bases de dados consiste em encontrar todas
as regras que possuam suporte e confiança maiores ou iguais, respectivamente, a um suporte mínimo
(SupM in) e uma confiança mínima (ConfM in), especificados pelo usuário. Por este motivo, o modelo
costuma ser referenciado na literatura como Modelo Suporte/Confiança.”
GONÇALVEZ, Eduardo. Regras de Associação e suas Medidas de Interesse Objetivas e Subjetivas. Boa
Viagem: IC, 2005. p. 2.
Com base no trecho acima e no conteúdo estudado sobre regras de associação, pode-se dizer que:
1. Incorreta:
criam tabelas em formato CSV.
2.
servem para unir duas tabelas.
3.
descobrem conjuntos de compras.
Resposta correta
4.
deletam valores aberrantes.

5.
fazem filtros eliminando dados nulos.
7. Pergunta 7
0/0
“O algoritmo para geração de itemsets freqüentes segue os mesmos passos do Apriori tradicional,
apresentando apenas algumas pequenas modificações. A principal delas está na geração do conjunto itens
freqüentes. Pois, além de encontrar o suporte de cada intervalo dos atributos quantitativos e de cada valor
dos atributos categóricos, para os atributos quantitativos, são contados também, os suportes de todas as
combinações possíveis de intervalos adjacentes, desde que o suporte destas combinações não ultrapasse o
suporte máximo determinado pelo usuário.”
PROCACI, Alexandre Geração de regras de associação quantitativas com intervalos não contínuos.
Com base no trecho acima e no conteúdo estudado, ordene as etapas que são necessárias seguir para
filtrar por Apriori no Weka:
( ) Abrir o arquivo.
( ) Clicar em exportar.
( ) Criar um arquivo .arff.
( ) Clicar em Start.
( ) Clicar em associate.
1.
1, 3, 2, 5, 4.
2.
2, 5, 1, 4, 3.
3. Incorreta:
5, 2, 3, 1, 4.
4.
3, 1, 2, 5, 4.
Resposta correta
5.
5, 2, 1, 4, 5.
8. Pergunta 8
0/0
“Existem dois problemas principais associados à discretização de atributos quantitativos. Primeiro, se o

número de intervalos for muito grande, consequentemente, a freqüência destes intervalos será baixa.”
Com base no trecho acima e no conteúdo estudado, sobre a função delete from vendas where nome=
'blusa' and preco_produto > 2000; pode-se dizer que:
I. vendas é o nome do database, deve-se ser criado e usado no início.
II. preco_produto é o nome da coluna, ou seja, do campo.
III. quando nome for maior que 2000 o campo será removido.
IV. o operador and (e) é mais liberal que o operador or (ou).
1.
I e II.
2.
III e IV.
3.
II e III.
Resposta correta
4.
I e IV.
5. Incorreta:
II e IV.
9. Pergunta 9
0/0
“Suponhamos que o conjunto de dados em análise possua N registros e k atributos, na técnica PCA, cada
um destes registros é interpretado com um vetor de dados, com K dimensões.”
Com base no trecho acima e no conteúdo estudado sobre a contagem de itens com uma condição no
MySQL, pode-se dizer que:
1.
Utiliza-se o count na seleção da função e da coluna.
Resposta correta
2.
A forma mais rápida de contar é exportando para Excel.
3.
Utiliza-se a sintaxe select filter where.
4. Incorreta:
Faz a soma dos resultados dos preços e descontos.
5.
Cria um índice enumerado e pega o último valor.

10. Pergunta 10
0/0
“Critério de parada: O algoritmo termina quando não é mais possível gerar itens frequentes. Note que o
algoritmo de geração de itens frequentes Apriori percorre conjuntos de itens frequentes iterativamente em
ordem crescimento de tamanho, gerando e testando cada um até encontrar frequentes.”
Com base no trecho acima e no conteúdo estudado, pode-se dizer que o algoritmo Apriori:
1. Incorreta:
realiza divisão em partições e faz o cálculo de suporte e de confiança.
2.
compara as frequências globais com as frequências globais dos valores.
3.
é feito de forma rápida no Excel e gera gráficos mostrando a confiança.
4.
faz o filtro de suporte e de confiança de acordo com configuração.
Resposta correta
5.
faz a limpeza de dados vazios, inconsistentes ou aberrantes.
1. Pergunta 1
0/0
“A limpeza dos dados inclui uma checagem da consistência das informações, correção de possíveis erros
e o preenchimento ou a exclusão de valores nulos e redundantes. Nessa fase são identificados e extraídos
os dados duplicados e/ou corrompidos. A execução dessa fase corrige a base de dados excluindo
consultas que não são necessárias e que seriam executadas pelo algoritmo minerador podendo afetar o seu
desempenho. Os métodos de limpeza são dependentes do domínio da aplicação.”
Com base no trecho acima e no conteúdo estudado, analise as afirmativas a seguir sobre limpeza de
dados:
I. Dados com ruídos são valores acima ou abaixo do normal.
II. Valores discrepantes são valores nulos ou vazios.
III. Outliers ajudam a entender melhor o padrão de dados.
IV. Há situações que substituem valores nulos por médias.
1.
I e IV.
Resposta correta
2.
III e IV.
3. Incorreta:
II e IV.
4.
I e II.
5.
II e III.
2. Pergunta 2
0/0

“Um intervalo de confiança está associado ao nível de confiança correspondente a uma medida de certeza
de que o intervalor contém um parâmetro da população. (…) Escolhas comuns para o nível de confiança
são de 90%, 95% e 99%.”
CASTRO, Leandro C.; GOMES, Daniel E. Introdução a mineração de dados: Conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2017. p. 342.
A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para criar o cálculo de
confiança:
( ) Determina-se os itens vencedores.
( ) Cria-se uma tabela com dados a partir de análises.
( ) Cria-se uma rotina de análise de dados.
( ) Calcula-se a confiança.
( ) Calcula-se o suporte mínimo.
1.
3, 4, 5, 2, 1.
2.
2, 4, 1, 5, 3.
3. Incorreta:
5, 3, 4, 2, 1.
4.
2, 4, 3, 1, 5.
5.
5, 2, 1, 4, 3.
Resposta correta
3. Pergunta 3
0/0
“A integração busca padronizar formatos e convenções de nomes, além da retirada de inconsistências.

Um Armazém de Dados contém dados históricos, que variam com o tempo (geralmente por um período
de vários anos). Tais dados são ordenados, na maioria das vezes, de maneira a facilitar sua análise por um
usuário especializado.”
Com base no trecho acima e no conteúdo estudado, pode-se dizer que, antes de fazer a união de dois
bancos de dados, deve-se:
1.
Unir duas tabelas, usando o select inner join em um dado que se repete nas duas tabelas.
Resposta correta
2.
Priorizar sobrecarga, pois, quanto mais dados, melhor.
3.
Priorizar medidas diferentes a fim de evitar redundância.
4.
Mesclar duas tabelas no MySQL utilizando o comando intersection.
5. Incorreta:
Unir tabelas de épocas diferentes para ter mais certezas acerca de junções de dados.
4. Pergunta 4
0/0
Leia trecho abaixo:
“Também denominada operação linear, consiste em considerar os valores mínimo e máximo de cada
atributo no ajuste da escala. Esta operação mapeia os valores de um atributo no intervalo fechado de 0 até
1.”
Com base no trecho acima e no conteúdo estudado, pode-se dizer que, em bancos de dados muito
grandes, para realizar a normalização linear, deve-se:
1.
Apagar dados que fujam do critério.
2. Incorreta:
Integrar duas tabelas a fim de eliminar erros.
3.
Criar uma tabela dinâmica para analisar dados mais rapidamente.
4.
Exportar o banco de dados para Excel e reduzir os dados.
5.
Fazer uma sintaxe SQL com select max e min.
Resposta correta
5. Pergunta 5
0/0
“Também é possível criar triggers (gatilhos) com mais de um procedimento. Para isso primeiro precisa
definir um delimiter, ou seja, um sinal para delimitar qual será o fim de uma instrução, e que não seja o
ponto e vírgula.”
SALVADOR, Fabio. Programando em PHP, integração com MYSQL. São Paulo: Viena, 2012. p. 229.
Com base no trecho acima e no conteúdo estudado, a respeito de funções no MySQL, pode-se dizer que:
I. São criadas na mesma query no MySQL.
II. Colocam os intervalos em novos nomes se necessário.
III. Automatizam processos.
IV. Utilizam a sintaxe start e end.

1.
I e IV.
2.
II e IV.
3.
II e III.
Resposta correta
4. Incorreta:
III e IV.
5.
I e II.
6. Pergunta 6
0/0
“O modelo típico para mineração de regras de associação em bases de dados consiste em encontrar todas
as regras que possuam suporte e confiança maiores ou iguais, respectivamente, a um suporte mínimo
(SupM in) e uma confiança mínima (ConfM in), especificados pelo usuário. Por este motivo, o modelo
costuma ser referenciado na literatura como Modelo Suporte/Confiança.”
GONÇALVEZ, Eduardo. Regras de Associação e suas Medidas de Interesse Objetivas e Subjetivas. Boa
Viagem: IC, 2005. p. 2.
Com base no trecho acima e no conteúdo estudado sobre regras de associação, pode-se dizer que:
1. Incorreta:
criam tabelas em formato CSV.

2.
servem para unir duas tabelas.
3.
descobrem conjuntos de compras.
Resposta correta
4.
deletam valores aberrantes.
5.
fazem filtros eliminando dados nulos.
7. Pergunta 7
0/0
“O algoritmo para geração de itemsets freqüentes segue os mesmos passos do Apriori tradicional,
apresentando apenas algumas pequenas modificações. A principal delas está na geração do conjunto itens
freqüentes. Pois, além de encontrar o suporte de cada intervalo dos atributos quantitativos e de cada valor
dos atributos categóricos, para os atributos quantitativos, são contados também, os suportes de todas as
combinações possíveis de intervalos adjacentes, desde que o suporte destas combinações não ultrapasse o
suporte máximo determinado pelo usuário.”
PROCACI, Alexandre Geração de regras de associação quantitativas com intervalos não contínuos.
Com base no trecho acima e no conteúdo estudado, ordene as etapas que são necessárias seguir para
filtrar por Apriori no Weka:
( ) Abrir o arquivo.
( ) Clicar em exportar.
( ) Criar um arquivo .arff.
( ) Clicar em Start.
( ) Clicar em associate.

1.
1, 3, 2, 5, 4.
2.
2, 5, 1, 4, 3.
3. Incorreta:
5, 2, 3, 1, 4.
4.
3, 1, 2, 5, 4.
Resposta correta
5.
5, 2, 1, 4, 5.
8. Pergunta 8
0/0
“Existem dois problemas principais associados à discretização de atributos quantitativos. Primeiro, se o

número de intervalos for muito grande, consequentemente, a freqüência destes intervalos será baixa.”
Com base no trecho acima e no conteúdo estudado, sobre a função delete from vendas where nome=
'blusa' and preco_produto > 2000; pode-se dizer que:
I. vendas é o nome do database, deve-se ser criado e usado no início.
II. preco_produto é o nome da coluna, ou seja, do campo.
III. quando nome for maior que 2000 o campo será removido.
IV. o operador and (e) é mais liberal que o operador or (ou).

1.
I e II.
2.
III e IV.
3.
II e III.
Resposta correta
4.
I e IV.
5. Incorreta:
II e IV.
9. Pergunta 9
0/0
“Suponhamos que o conjunto de dados em análise possua N registros e k atributos, na técnica PCA, cada
um destes registros é interpretado com um vetor de dados, com K dimensões.”
Com base no trecho acima e no conteúdo estudado sobre a contagem de itens com uma condição no
MySQL, pode-se dizer que:
1.
Utiliza-se o count na seleção da função e da coluna.
Resposta correta
2.
A forma mais rápida de contar é exportando para Excel.
3.
Utiliza-se a sintaxe select filter where.
4. Incorreta:
Faz a soma dos resultados dos preços e descontos.
5.
Cria um índice enumerado e pega o último valor.
10. Pergunta 10
0/0
“Critério de parada: O algoritmo termina quando não é mais possível gerar itens frequentes. Note que o
algoritmo de geração de itens frequentes Apriori percorre conjuntos de itens frequentes iterativamente em
ordem crescimento de tamanho, gerando e testando cada um até encontrar frequentes.”
Com base no trecho acima e no conteúdo estudado, pode-se dizer que o algoritmo Apriori:
1. Incorreta:
realiza divisão em partições e faz o cálculo de suporte e de confiança.
2.
compara as frequências globais com as frequências globais dos valores.
3.
é feito de forma rápida no Excel e gera gráficos mostrando a confiança.
4.
faz o filtro de suporte e de confiança de acordo com configuração.
Resposta correta
5.
faz a limpeza de dados vazios, inconsistentes ou aberrantes.

Conteúdo do exercício
1. Pergunta 1
0/0
“O k-means é simplesmente o número de agrupamentos que gostaríamos de encontrar nos dados. Ao

contrário do agrupamento hierárquico, o k-means com um número desejado de agrupamentos k.”
Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre
mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. 142.
De acordo com o texto e com o conteúdo, pode-se dizer que, em K-means:
1.
o que posiciona o centroide é a média geral de todos grupos da tabela de dados
2.
a escolha da quantidade de grupos dependerá da análise feita pelo excel.
3. Incorreta:
cada cluster contém um conjunto de dados com um tipo de atributo (por exemplo, idade ou
sexo).
4.
cada ponto fica no centro dos registros similares e cada grupo tem um centro.
Resposta correta
5.
quanto mais grupos tiver, mais são os dados do conjunto

2. Pergunta 2
0/0
“Sendo assim, o problema descrito acima consiste em encontrar k centroides, ou médias dos grupos.
Entre os principais algoritmos de agrupamento baseados em distância, podem ser citados K-meansm K-
modes e Kmedoid. Algoritmos baseados em densidade consideram que grupos são regiões do espaço com
concentrações atípicas de pontos.”
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever. 2015. p. 97.
De acordo com o texto e com o conteúdo, analise as afirmativas sobre k-means:
I. É um cálculo baseado em média.
II. Quanto mais grupos, menos variado é o conjunto.
III. O centroide é o valor médio do grupo.
IV. Utiliza-se cálculo de raiz e de multiplicação.
1. Incorreta:
III e IV.
2.
I e IV.
3.
I e III.
Resposta correta
4.
II e IV.
5.
II e III.
3. Pergunta 3
0/0
“Média móvel é um dos mais versáteis e utilizados indicadores, sendo, inclusive, a base da grande
maioria de sistemas mecânicos de trend-following atualmente em uso. Seu cálculo é bastante simples,
sendo feito por meio da escolha de um determinado número de dados e calculando a média dos preços
nestes dias.”
Fonte: SANTANA, Genilson. O poder de previsão da análise técnica. São Paulo: FGV. 1997. p. 20.
De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de análise
bayesiana:
( ) Determine os parâmetros da nova análise.
( ) Calcular o P de todos os dados da tabela.
( ) Calcule os P's para a outra possibilidade.
( ) Identifique quais são as possíveis saídas.
( ) Multiplique os P's da análise para a primeira possível saída.
Assinale a alternativa que apresenta a sequência correta:
1.
1, 4, 2, 5, 3.
2. Incorreta:
3, 1, 2, 4, 5.
3.
3, 2, 1, 5, 4.
4.
4, 2, 1, 5, 3.
Resposta correta
5.
4, 3, 1, 5, 2.
4. Pergunta 4
0/0
“Uma das tarefas de KDD mais importantes e mais populares é a tarefa da classificação. Essa tarefa
tipicamente utiliza aprendizado supervisionado, que é um tipo de aprendizado indutivo. “
De acordo com o texto e com o conteúdo, analise as afirmativas sobre classificação:
I. O valor de K em K-NN deve ser maior.
II. Quanto menor o período, mais confiável é o dado.
III. Análise bayesiana é um cálculo probabilístico.
IV. K-means é um cálculo de distância.
Assinale a alternativa correta:
1.
I e III.
2.
III e IV.
Resposta correta
3.
I e IV.
4. Incorreta:
II e III.
5.
II e IV.
5. Pergunta 5
0/0
“No caso específico da tarefa de classificação, o atributo-alvo é categórico (seu domínio é composto por
categorias/classes). O outro grupo contém os atributos a serem utilizados na predição do valor,
denominados atributos previsores ou atributos de predição.”
técnicas, algoritmos, orientações e aplicações. Rio de Janeiro: Elsiever. 2015. p.89.
De acordo com o texto e com o conteúdo estudado, pode-se dizer que classificar:
1.
faz a média temporal de dados.
2.
cria categorias para produtos.
Resposta correta
3.
cria grupos com similaridades.
4.
utiliza KNN para agrupar.
5. Incorreta:
forma cluster com centroide.
6. Pergunta 6
0/0
“Variável: é a característica que vai ser observada, medida ou contada nos elementos da população ou da
amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Não basta
identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os tipos de variáveis: Variável
qualitativa: é uma variável que assume como possíveis valores atributos ou qualidades. Também são
denominadas variáveis categóricas. Variável quantitativa: é uma variável que assume como possíveis
valores números.”
Fonte: GUEDES Aparecida, et al. Estatística Descritiva: São Paulo: Each Usp. 2019. p. 2.
De acordo com o texto e com o conteúdo estudado, pode-se dizer que, entre as classes de dados:
1.
nominais são como número de filhos.
2.
discretos são como nomes ou cidade.
3.
ordinais são como altura e peso.
4.
contínuos são como tempo de clientela.
Resposta correta
5. Incorreta:
intervalares são como partidos.
7. Pergunta 7
0/0
“A tarefa de Clusterização, também chamada Agrupamentos ou Análises de grupos, é usada para separar
os registros de um conjunto de dados em subconjuntos ou grupos (clusters), de tal forma que elementos
em um cluster compartilhem propriedades comuns.”
De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de clusterização em
weka:
( ) Clicar em cluster.
( ) Ativar todos os dados.

( ) Clicar em canopy.
( ) Clicar em start.
( ) Clicar em choose.
Assinale a alternativa que apresenta a sequência correta.
1.
2, 1, 5, 3, 4.
Resposta correta
2.
3, 2, 1, 5, 4.
3.
4, 2, 1, 5, 3.
4.
1, 4, 2, 5, 3.
5. Incorreta:
4, 3, 2, 1, 5.
8. Pergunta 8
0/0
“Em um modelo de regressão múltipla, a variável dependente (Y) será determinada por mais de uma
variável independente (X). Genericamente, um modelo de regressão linear múltipla com ‘k’ variáveis
independentes e ‘p’ parâmetros.”
Fonte: MAIA, Alexandre Gori. Econometria: conceitos e aplicações. São Paulo: Saint Paul. 2019. E-
book.
De acordo com o texto e com o conteúdo estudado, ordene os passos para a execução de regressão
múltipla em weka:
( ) Clicar em regressão.
( ) Clicar em Análise de Dados.
( ) Ativar ferramentas de análise.
( ) Selecionar saída a ser comparada.
( ) Selecionar dados a serem comparados.
1.
2, 1, 5, 3, 4.
2.
3, 2, 1, 5, 4.
Resposta correta
3.
4, 2, 1, 5, 3.
4. Incorreta:
4, 3, 2, 1, 5.
5.
1, 4, 2, 5, 3.
9. Pergunta 9
0/0
“Uma série temporal é um conjunto de observações de um fenômeno ordenadas no tempo. Podemos citar
como exemplo: o consumo mensal de energia elétrica em casa, registrado durante um ano, ou as vendas
diárias de um produto no decorrer de um mês, dentre muitos outros.”
De acordo com o texto e com o conteúdo estudado, pode-se dizer que, em análises temporais:
1.
a função SOMAMXYZ2 analisa a soma dos valores períodos.
2.
quanto maior o erro quadráditico, mais suave é o conjunto.
3.
a análise de média móvel busca o maior erro quadrático.
4.
antes de fazer os cálculos para comparação, faz-se as médias.
Resposta correta
5. Incorreta:
intervalos confiáveis deve estar 50% acima dos intervalos menores.
10. Pergunta 10
0/0
“A árvore é uma segmentação supervisionada porque cada folha contém um valor para uma variável alvo.
Como estamos falando de classificação, cada folha contém uma classificação para seu segmento.Tal
árvore é chamada como árvore de classificação ou de decisão.”
Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre
mineração de dados e pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. 133.
De acordo com o texto e com o conteúdo, ordene os passos para a execução de árvores de decisão em
weka:
( ) Abrir o arquivo arff.
( ) Selecionar tree.
( ) SelecionarJ48.
( ) Clicar em start.
( ) Selecionar todos os dados.
1.
3, 2, 1, 5, 3.
2.
4, 1, 2, 5, 3.
3.
1, 5, 2, 3, 4.
Resposta correta
4.
4, 2, 1, 5, 3.
5. Incorreta:
2, 4, 3, 1, 5.
Pergunta 1
NumPy, dados tabulados são avaliados como array. É muito fácil para o sistema baixar dados e processor os
itens.”
Incorreta:
Resposta correta
Pergunta 2

Resposta correta
Incorreta:

Pergunta 3
“NumPy é um pacote Python fundamental para computação científica, ele inclui capacidade de criar arrays
multidimensionais, contém um poderoso objeto de matriz N-dimensional, funções sofisticadas
Fonte: BRESSERT, Eli apud PARREIRA, Lucas. SciPy and NumPy. California: O Reilly Média, 2012. p. 5.

II e III.
II, IV e V.
Incorreta:
I e III.
II, III e V.
Resposta correta
I, II e III.
Pergunta 4
informações:
Resposta correta
Pergunta 5
“Em todos os exemplos que vimos até este momento, sentenças são executadas sequencialmente. A ordem
sequencial de execução de sentenças pode ser alterada se certas condições forem satisfeitas durante a
execução do programa. Isto é chamado “desvio condicional”. Todas as linguagens de programação
oferecem comandos para o desvio condicional. O mais simples é a sentença if.”

III e IV.
Resposta correta
II e III.
II e IV.
I e II.
Incorreta:
I e III.
Pergunta 6
máximo.”


Resposta correta
Incorreta:
Pergunta 7
“O principal propósito de Pandas é ajudar a descobrir informações rapidamente em dados, com informação
definida como significado implícito no conjunto. O desenvolvimento de Pandas se deu em 2008 por Wes
MCKinney.”

I e II.
III e V.
III e IV.
Incorreta:
II e V.
I e IV.
Resposta correta
Pergunta 8

pode-se carregar arquivos em Excel na extensão xlsx através do NumPy.
o Python necessita da biblioteca Seaborn para ler arquivos Excel.
Incorreta:
o Excel exporta tabelas dinâmicas para Python e NumPy.
para utilizar arquivos Excel, é necessário convertê-los primeiro em CSV.
para ler arquivos Excel, é necessário antes instalar a biblioteca xlrd.
Resposta correta
Pergunta 9
Resposta correta
Incorreta:
Pergunta 10
/
0
plt.show()

Incorreta:
II e III.
I e IV.
II e IV.
Resposta correta
I e III.
1. III e IV. Pergunta 1
0/0
NumPy, dados tabulados são avaliados como array. É muito fácil para o sistema baixar dados e processor os
itens.”
1. Incorreta:
2.
Resposta correta
3.
4.
5.
2. Pergunta 2
0/0

1.
Resposta correta
2. Incorreta:
3.
4.
5.
3. Pergunta 3
0/0
“NumPy é um pacote Python fundamental para computação científica, ele inclui capacidade de criar arrays
multidimensionais, contém um poderoso objeto de matriz N-dimensional, funções sofisticadas
Fonte: BRESSERT, Eli apud PARREIRA, Lucas. SciPy and NumPy. California: O Reilly Média, 2012. p. 5.
1.
II e III.
2.
II, IV e V.
3. Incorreta:
I e III.
4.
II, III e V.
Resposta correta
5.
I, II e III.
4. Pergunta 4
0/0

informações:
1.
2.
Resposta correta
3.
4. Incorreta:
5.
5. Pergunta 5
0/0
“Em todos os exemplos que vimos até este momento, sentenças são executadas sequencialmente. A ordem
sequencial de execução de sentenças pode ser alterada se certas condições forem satisfeitas durante a
execução do programa. Isto é chamado “desvio condicional”. Todas as linguagens de programação
oferecem comandos para o desvio condicional. O mais simples é a sentença if.”
1.
III e IV.
Resposta correta
2.
II e III.
3.
II e IV.
4.
I e II.
5. Incorreta:
I e III.
6. Pergunta 6
0/0
máximo.”

1.
2.
3.
4.
Resposta correta
5. Incorreta:
7. Pergunta 7
0/0
“O principal propósito de Pandas é ajudar a descobrir informações rapidamente em dados, com informação
definida como significado implícito no conjunto. O desenvolvimento de Pandas se deu em 2008 por Wes
MCKinney.”

1.
I e II.
2.
III e V.
3.
III e IV.
4. Incorreta:
II e V.
5.
I e IV.
Resposta correta
8. Pergunta 8
0/0

1.
2.
3. Incorreta:
4.
5.
Resposta correta
9. Pergunta 9
0/0
1.
Resposta correta
2. Incorreta:
3.
4.
5.
10. Pergunta 10
0/0
plt.show()

1. Incorreta:
II e III.
2.
I e IV.
3.
II e IV.
Resposta correta
4.
I e III.
5.
III e IV.
1. Pergunta 1
0/0
“Em todos os exemplos que vimos até este momento, sentenças são executadas sequencialmente. A
ordem sequencial de execução de sentenças pode ser alterada se certas condições forem satisfeitas
durante a execução do programa. Isto é chamado “desvio condicional”. Todas as linguagens de
programação oferecem comandos para o desvio condicional. O mais simples é a sentença if.”

1.
II e III.
2.
I e II.
3.
II e IV.
4.
III e IV.
Resposta correta
5.
I e III.
2. Pergunta 2
0/0
informações:
1.
2.
3.
Resposta correta
4.
5.
3. Pergunta 3
0/0
“Matplotlib é um pacote de visualização Python. Para ler e plotar os dados nós precisamos configurar
Python, instalando Matplotlib nas suas dependências, preparando a plataforma para executar e manter o
código rodando.”
Com base no trecho e no conteúdo estudado, pode-se afirmar que a biblioteca Matplotlib pode gerar os
gráficos:
1.
de fontes com texto utf de codificação utf-8.
2.
de arquivos do Weka contendo tabelas.
3.
de barra, histograma, pizza e plt.plot.
Resposta correta
4.
baseados em .dat.
5.
e é a mesma linguagem que plt.plot.
4. Pergunta 4
0/0
“NumPy é um pacote Python fundamental para computação científica, ele inclui capacidade de criar
arrays multidimensionais, contém um poderoso objeto de matriz N-dimensional, funções sofisticadas
Fonte: BRESSERT, Eli apud PARREIRA, Lucas. SciPy and NumPy. California: O Reilly Média, 2012.
p. 5.
1.
II, III e V.
Resposta correta
2. Incorreta:
II, IV e V.
3.
I, II e III.
4.
II e III.
5.
I e III.
5. Pergunta 5
0/0

1.
2.
3.
Resposta correta
4.
5.
6. Pergunta 6
0/0
“As funções visam facilitar uma série de operações computacionais.

Note que a linguagem Python opera com o uso de categorias de funções:
• Funções internas existentes diretamente na linguagem;
• Funções modulares dentro das bibliotecas.”
Fonte: MANZANO, José. Introdução à linguagem Python. São Paulo: Novatec, 2018. Ebook.
Com base no trecho e no conteúdo estudado, selecione a alternativa correta sobre dicionário em Python:
1.
Funções armazenam somas e subtração, por exemplo.
Resposta correta
2. Incorreta:
Com a função é possível somar valores não declarados.
3.
Funções com def são importadas em NumPy.
4.
Def representa o início e o fim da função declarada.
5.
Gráficos se valem de funções def para exibir dados.

7. Pergunta 7
0/0
“Para uma rápida plotagem, a Matplotlib usa uma lista de cores. Em Matplotlib 2.0 a lista pode ser
mudada do original red, green, blue, cyan, magenta yellow, e black, para ‘b’, ‘g’, ‘r’, ‘c’, ‘m’, ‘y’, ‘k’
[…].”
Com base no trecho e no conteúdo estudado sobre a plotagem, pode-se dizer que:
1.
As cores mudam linhas, texto e mais itens.
Resposta correta
2.
Existe um padrão na cor vermelha para dados nulos.
3. Incorreta:
A finalidade das cores é representar tabela dinâmicas.
4.
Dados insuficientes aparecem com ponto preto.
5.
Existe um padrão na cor azul para dados ruidosos.
8. Pergunta 8
0/0
1.
Resposta correta
2.
3.
4.
5.
9. Pergunta 9
0/0
“A tupla é um tipo de dado heterogêneo (aceita dados de diversos tipos, inclusive de outras listas)
identificado internamente como tipo de dado tupla, tendo por característica armazenar conjuntos de
valores.”
Com base no trecho e no conteúdo estudado, pode-se afirmar que a diferença entre listas e tuplas é que:
1.
listas utilizam chaves “{}”.

2.
listas são menores.
3.
tuplas são cálculos.
4.
tuplas utilizam colchetes “[]”.
Resposta correta
5. Incorreta:
listas são imutáveis.
10. Pergunta 10
0/0
“[…] é possível separar os dados de um dicionário em três tuplas, uma contendo apenas chaves, outra
contendo apenas os conteúdos ou uma lista com todo o conteúdo separado em pares de valores.”
Com base no trecho e no conteúdo estudado, assinale a alternativa correta sobre dicionário em Python:
1.
Dicionários são dados tornados inalteráveis.
2.
São importados através do genfromtxt em NumPy.
3.
Dicionários e sets são a mesma coisa em Python.

4.
São importados através do pd.read em Pandas.
5.
1. Pergunta 1
0/0
“As etapas adicionais em o processo KDD, como preparação de dados, seleção de dados, limpeza de
dados, incorporação de conhecimento e interpretação adequada dos resultados mineração, são essenciais
para garantir que o conhecimento útil seja derivado dos dados.”
Knowledge Discovery and Data Mining. Estados Unidos, Califórnia: AAAI/MIT Press, 1996.
Considerando o texto e o conteúdo da disciplina, sobre o processo KDD, analise as afirmativas a seguir:
I. Objetiva analisar bancos de dados para descobrir tendências.
II. É um outro nome para Data Warehouse em analises de eventos.
III. Inicia-se com seleção de dados de eventos.
IV. Tem como objetivo analisar razões esporádicas para um evento.
Estão corretas as afirmativas:
1.
II e III.
2.
I e III.
Resposta correta
3.
III e IV.
4.
I e IV.
5.
II e IV.
2. Pergunta 2
0/0
“Um banco de dados é uma coleção integrada de dados, organizada de tal forma a facilitar o
armazenamento eficiente, assim como sua modificação e recuperação. Normalmente, informações a
respeito do nome de cada campo e seu domínio são também armazenadas.”
1.
Para alterar o nome do banco de dados utiliza-se a função refactor.
2.
Bancos de dados são criados com a função create database nomedobanco.
Resposta correta
3.
Databases são tabelas e recebem inserções.
4.
Em, SQL, pode-se fazer filtros em bancos de dados com o select.
5.
Tabelas e bancos de dados são nomes diferentes para a mesma coisa.
3. Pergunta 3
0/0
“É comum obter-se os dados a serem minerados de diversas fontes: banco de dados, arquivos textos,
planilhas, data warehouses, vídeos, imagens, entre outras. Surge então, a necessidade da integração destes
dados de forma a termos um repositório único e consistente. Para isto, é necessária uma análise
aprofundada dos dados observando redundâncias, dependências entre as variáveis e valores conflitantes
(categorias diferentes para os mesmos valores, chaves divergentes, regras diferentes para os mesmos
dados, entre outros).”
Goiás: UFG, 2009. P. 8.
Com base no texto acima e no conteúdo sobre Dashboards, pode-se dizer que:
1. Incorreta:
Gráficos são estáticos e devem ser recriados a cada mudança.
2.
A função procv procura dados verticalmente em uma matriz.
Resposta correta
3.
A função procv junto com a média fazem a remoção de dados.
4.
A função case faz analises condicionais no Excel.
5.
A função SE cria gráficos com base em análises.
4. Pergunta 4
0/0
“As funcionalidades da mineração de dados são usadas para especificar os tipos de informações a serem
obtidas nas tarefas de mineração. Em geral estas tarefas podem ser classificadas em duas categorias: (1)
descritivas: caracterizam as propriedades gerais dos dados; e (2) preditivas: fazem inferência a partir dos
dados objetivando predições.”
Fonte: CASTRO, Gilberto. Ramos. Discussão conceitual sobre dado, informação e conhecimento. João
Pessoa: UFPB, 2011. P. 23.
Considerando o texto e o conteúdo da disciplina, sobre as funções da mineração, pode-se dizer que:
1.
Analisar padrões de causa e efeito identifica de forma quantitativa o poder de influência de

uma variável em outra.
Resposta correta
2.
A mineração para identificar relações tem como objetivo descobrir relacionamentos

analisados em sistemas de chats.
3.
Avaliar padrões de sequência é entender padrões em processos que levam a resultados.
4.
Analisar modos de utilização de computadores, locais de acesso, programas e sites é comum

na área da saúde.
5.
Um exemplo de EDM em padrões é analisar dados para liberar empréstimos ou limites.
5. Pergunta 5
0/0
“Agregação de informações: Esta operação consiste em reunir (agregar) alguns registros de forma a
produzir um conjunto de dados de tamanho menor que o original. Na agregação de informações, dados
com menor detalhe. Por exemplo, é possível somar os valores de todas as compras de cada cliente,
obtendo o total de despesas por ele realizadas durante um determinado período.”
Considerando o texto e o conteúdo da disciplina, sobre agregação e Data Warehouse, pode-se dizer que:
1.
A Data Staging Area é o local onde os cluster e grupos são formados.
Resposta correta
2.
Grupos podem sem feitos na etapa dois ou quatro do Data Warehouse.
3.
Grupos são criados pela similaridade entre datatypes.
4.
A criação de tabela realiza o agrupamento instantâneo.
5.
O SQL realiza consulta em Data Smart para gerar grupos.
6. Pergunta 6
0/0
“Conhecer o tipo dos dados com o qual se irá trabalhar também é fundamental para a escolha do(s)
método(s) mais adequado(s). Pode-se categorizar os dados em dois tipos: quantitativos e qualitativos. Os
dados quantitativos são representados por valores numéricos. Eles ainda podem ser discretos e contínuos.
Já os dados qualitativos contêm os valores nominais e ordinais (categóricos). Em geral, antes de se aplicar
os algoritmos de mineração é necessário explorar, conhecer e preparar os dados.”
Goiás: UFG 2009, p.6.
Considerando o texto e o conteúdo da disciplina, sobre filtros em SQL, pode-se dizer que:

1.
O conceito insert in table insere dados nas tabelas de dados.
2. Incorreta:
Os dados podem ser analisados através da função drop table where idade > 20.
3.
É possível remover dados nulos em tabelas quando necessário.
Resposta correta
4.
A sintaxe delete remove tabelas e bancos que não são importantes.
5.
A sintaxe select * from executa a remoção de dados desnecessários.
7. Pergunta 7
0/0
“Duas heurísticas podem ser utilizadas para indicar se esta operação deve ser utilizada: Eliminar todos os
atributos que apresentem valores constantes em todos os conjuntos de dados. A justificativa é que
atributos nesta situação não contribuem para distinguir os registros uns dos outros.”
1.
Variáveis do tipo char ocupam espaços dinâmicos.
2.
O valor 129 pode ser inserido no tipo Tinyint.

3.
Atributos do tipo enum servem para criar números em índices.
4.
Atributos do tipo varchar são textos de tamanho estático.
5.
Atributos do tipo inteiro recebem números maiores que 128.
Resposta correta
8. Pergunta 8
0/0
“É importante destacar que o processo de KDD não requer que os dados a serem analisados pertençam à
Data Warehouse. No entanto o tratamento e a consolidação dos dados necessários à estruturação e à carga
neste tipo de ambiente são extremamente úteis e desejáveis ao processo de KDD.”
Considerando o texto e o conteúdo da disciplina, a respeito de Data Warehouse, pode-se dizer que:
1.
A camada de Recursos de Sistema Operacional é responsável pela exibição dos dados.
2.
A primeira camada extrai dados do Excel, Access e SQL.
Resposta correta
3. Incorreta:
As visualizações de dados estão na camada Data Staging Area.
4.
A terceira camada é o local onde os dados recebem limpeza.
5.
O processamento é feito na terceira camada.
9. Pergunta 9
0/0
“A mineração de dados é parte integrante de um processo mais amplo, conhecido como KDD. Embora
muitos usem mineração de dados como sinônimo de KDD, na primeira conferência internacional sobre
KDD, realizada na cidade de Montreal, Canadá, em 1995.”
Fonte: CASTRO, Leandro C.; GOMES, Daniel E. Introdução a mineração de dados. Conceitos básicos,
algoritmos e aplicações. São Paulo: Saraiva, 2017. P. 5.
A partir do texto citado e dos conteúdos estudados, ordene os passos necessários para realizar o KDD:
( ) É feita a seleção de dados

( ) Faz-se o processamento de dados
( ) Realiza-se a mineração e os cálculos estatísticos
( ) Os dados são interpretados e avaliados
( ) Obtém-se dados
1.
5, 4, 1, 2, 3.
2.
2, 3, 5, 4, 1.
3.
2, 1, 4, 3, 5.
4. Incorreta:
1, 4, 2, 5, 3.
5.
5, 1, 2, 3, 4.
Resposta correta
10. Pergunta 10
0/0
“A conscientização de segurança aumentou significativamente nos últimos anos em TI, mas muitas vezes
permanece uma reflexão tardia e um fardo indesejável para a maioria das equipes de DW / BI.”
Fonte: FAYYAD, U.M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. Advances in
Com base no texto acima e no conteúdo estudado, pode-se dizer, com relação ao modo de segurança do
workbench, que:
1.
Impede a invasão de pessoas mal-intencionadas em tabelas.
2.
O modo de segurança protege contra a criação de tabelas
3.
Impede a criação de dados através da guia view.
4. É necessário desabilitá-lo para deletar alguns tipos de dados.
Resposta correta

Completao de Mineração de Dados Ok

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Completao de Mineração de Dados Ok

Enviado por

Direitos autorais:

Formatos disponíveis

1.

Leia o trecho a seguir:

Com base no trecho e no conteúdo estudado, assinale a alternativa correta:

Ocultar opções de resposta

plt.show é utilizada na biblioteca NumPy.

O comando skip header = 1 pulará a primeira linha.

O comando np.array gera gráficos.

delimiter é o último dado.

O comando gemfrontxt é nativo de Pandas.

Leia o trecho a seguir:

Agora, analise a sintaxe abaixo:

Com base no trecho e no conteúdo estudado, pode-se dizer que a sintaxe:

Ocultar opções de resposta

mostrará “Versão 1, Versão 2, Versão 1 e Versão 2, Versão 4”.

duplicará valores para quantidade maior que 1 pelo comando drop_duplicate.

mostrará itens sempre no singular e que começam com letra.

importará o pd.Series juntamente com Pandas.

Leia o trecho a seguir:

Com base nas informações e no conteúdo estudado, analise as afirmativas a seguir:

I. O NumPy executa criação e exibição de gráficos.

II. O NumPy executa importação de arquivos com extensão txt.

IV. O NumPy executa importação de arquivos com extensão PSD.

V. O NumPy executa importação de arquivos com extensão DATA.

Está correto apenas o que se afirma em:

Ocultar opções de resposta

Leia o trecho a seguir:

Ocultar opções de resposta

removem lacunas ao criar tabelas e deletar dados.

são entradas de dados que serão digitados por usuários.

criam e exibem tabelas de dados com colunas e linhas.

deletam dados que se tornariam saídas de dados.

quando utilizadas junto com a pergunta, mudam a resposta.

Leia o trecho a seguir:

Com base nas informações e no conteúdo estudado, analise as afirmativas a seguir:

I. For é feito mediante aplicação de NumPy e Pandas.

II. If e Else são feitos mediante aplicação de NumPy.

III. For é um laço de repetição que percorre linhas.

Está correto apenas o que se afirma em:

Ocultar opções de resposta

Leia o trecho a seguir:

Com base no trecho e no conteúdo estudado, sobre o código tabela.groupby('Cidade').aggregate({'Valor':

Ocultar opções de resposta

os dados serão exibidos em um gráfico plotado em média.

o filtro analisará média de dados de cidade preenchidos.

o nome da tabela é Cidade e a coluna chama Valor.

será elencado o valor máximo, mínimo e mediano por cidade.

o valor é um dado de texto e mostrará o resultado valor=mean.

Leia o trecho a seguir:

“O principal propósito de Pandas é ajudar a descobrir informações rapidamente em dados, com

Agora, observe a sintaxe a seguir:

dataframe = pd.read_csv('dataframe.csv', delimiter=',')

Com base nas informações e no conteúdo estudado, analise as afirmativas a seguir:

II. A sintaxe descrita pode ser utilizada em Pandas e em NumPy.

III. O arquivo será importado caso esteja separado por ponto-e-vírgula.

IV. O nome do arquivo é dataframe.csv.

Está correto apenas o que se afirma em:

Ocultar opções de resposta

Leia o trecho a seguir:

Ocultar opções de resposta

1. para ler arquivos Excel, é necessário antes instalar a biblioteca xlrd.

Leia o trecho abaixo:

Com base no trecho e no conteúdo estudado, pode-se afirmar que a sintaxe:

Ocultar opções de resposta