COMPLETÃO DE FUNDAMENTOS DE DATA SCIENCE by Vivian Ok

COMPLETÃO DE DUNDAMENTOS DATA SCIENCE.
– By
Vivian Oliveira
AUTOAPRENDIZAGEM 1
1. Pergunta 1
0/0
Leia o trecho a seguir
“Enquanto você está preenchendo os papéis de admissão, a vice-presidente da Fraternidade chega à sua mesa. Ela quer estimular mais
conexões entre os seus membros, e pede que você desenvolva sugestões de ‘Cientistas de Dados Que Você Talvez Conheça’”.
Fonte: GRUS, Joel. Data Science do zero: Primeiras regras com o Phyton. Brasil: São Paulo: Alta Books, 2018, p. 6.
Práticas empresariais em Data Science, ligadas diretamente com Machine Learn, podem ser:
Ocultar opções de resposta
1. criar apresentações para fornecedores.
2. criar páginas web em html.
3. recomendações com base em análises de dados. Resposta correta
4. gerar valores em CSS.
5. dar treinamentos para funcionários

2. Pergunta 2
0/0
Leia o trecho a seguir:
“Existem várias bibliotecas, módulos, estruturas e kit de ferramentas de Data Science que implementam de modo eficiente os mais comuns (e
também menos comuns) algoritmos e técnicas.”
Fonte: GRUS, Joel. Data Science do zero: Primeiras Regras com o Phyton. Brasil: São Paulo: Alta Books, 2018, p. XIII.
A partir dessas informações e do conteúdo estudado a respeito das bibliotecas utilizadas, pode-se afirmar que:
1. As bibliotecas NumPy e Pandas são utilizadas em Python, e as bibliotecas Caret e Ggplot são utilizadas em R. Resposta
correta
3. Pergunta 3
0/0
Leia o trecho abaixo:

“Aprendizado supervisionado: o usuário dispõe de um comportamento de referência preciso que ele deseja ensinar a rede. Sendo assim, a
rede deve ser capaz de medir a diferença entre seu comportamento atual e o comportamento de referência, e então corrigir os pesos de
maneira a reduzir este erro (desvio de comportamento em relação aos exemplos de referência).
Fonte: OSÓRIO, Fernando. Redes neurais - Aprendizado artificial. Brasil, Porto Alegre: Unisinos, 2005. Disponível em:
<http://osorio.wait4.org/oldsite/IForumIA/fia99.pdf> Acesso em: 20 dez. 2018. p. 91.
Um exemplo de aprendizado supervisionado é:
1. através de cálculos de receitas e despesas do cliente, que o banco libera ou não um empréstimo.Resposta correta
4. Pergunta 4
0/0
“Fico receoso ao dizer que Python é minha linguagem de programação favorita. Há outras linguagens que considero mais agradáveis, mais
bem projetadas, ou apenas mais divertidas de trabalhar. E, ainda assim, toda vez que eu começo um projeto novo de data science, eu acabo
usando Python. Toda vez que preciso fazer um protótipo rápido que funcione, eu acabo usando Python.”
GRUS, Joel. Data Science do zero: primeiras regras com o Phyton. São Paulo: Alta Books, 2018, p. XV.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F para a(s)
falsa(s).
I. ( ) IDLE executa códigos de Python de maneira prática.

II. ( ) Print significa ter o código em papel impresso.
III. ( ) Jupyter-notebook serve para executar códigos de Python no navegador.
IV. ( ) Python pode ser instalado em Linux e Windows, mas em Mac não.
Agora, assinale a alternativa que apresenta a sequência correta:
1. V, F, V, F. Resposta correta
5. Pergunta 5
0/0

“Uma questão que invariavelmente cria um debate é: O computador pode pensar? Adicionalmente, nós devemos discutir o papel da
matemática quando lidamos com estas questões.”
Fonte: BELLMAN, Richard E. An introduction to artificial intelligence - Can computers think? San Francisco: Boyd and Fraser Publishing
Company, 1978.
A diferença entre o pensar automático ou calculado e o pensar humano, em Machine Learn, é:
1. Que o lado humano torna a automatização mais comprovada e dinâmica, já o lado automático torna mais certeiro e
eficaz.Resposta correta
6. Pergunta 6
0/0

“Dados intervalares ou racionais são os dados quantitativos e todas as medidas de tendência central e de dispersão são apropriadas a eles. A
escolha das medidas depende do uso que se pretende da estatística e da distribuição de frequências.”
Fonte: MASSAD, Eduardo et al. Métodos quantitativos em medicina. São Paulo, Barueri: Manole, 2004, p.148.
Ao analisar as quantitativas contínuas e discretas para comparar dois números, pode-se dizer que:
1. as quantitativas contínuas possuem decimais e seus níveis ideais não estão em ser maior ou menor, mas de estarem no
intervalo ideal. Resposta correta
7. Pergunta 7
0/0

“Algumas das áreas de aplicação da Inteligência Artificial e Machine Learn são, por exemplo:
– jogos e brinquedos eletrônicos;
– robótica e automação industrial;
– verificação automática de software;
– otimização e controle de processos;
– processamento de linguagem natural;
– bancos de dados dedutivos e mineração de dados;
– aprendizagem, planejamento e escalonamento de tarefas;
– reconhecimento de faces, de voz, de cheiros e de sabores.”
Fonte: PEREIRA, Silvio L. Introdução à Inteligência Artificial. Brasil, São Paulo: IME. 2014. Disponível em: <https://www.ime.usp.br/~slago/IA-
introducao.pdf>. Acesso em: 20 dez. 2018.
A partir dessas informações e do conteúdo estudado a respeito de inteligência artificial e Machine Learn, pode-se afirmar que:
I. Capacidade de aprendizado, de reconhecimento de voz e corretores são exemplos de Machine Learn.
II. Um sistema de Machine Learn pensa como máquina, pois o raciocínio humano atrapalha a inteligência artificial.
III. Machine Learn é mesma coisa que dataset.
IV. Um sistema de Machine Learn usa lógica racional.
V. Recomendações semelhantes são exemplos de Machine Learn.
Está correto apenas o que se afirma em:
1. I, IV e V. Resposta correta
8. Pergunta 8
0/0
“Pense cuidadosamente sobre quais dados você pode usar e como serão usados. Pense, especificamente, como a MegaTelCo deve escolher
um conjunto de clientes para receber sua oferta a fim de melhor reduzir a rotatividade para uma verba de incentivo em particular? Responder
a essa pergunta é muito mais complicado do que pode parecer inicialmente.”
Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento
analítítico de dados? Rio de Janeiro: Altabooks, 2016, p. 4
Considerando essas informações e o conteúdo referente ao processo de análise de dados, ordene as etapas a seguir:
( ) Avaliação.
( ) Fonte de dados.
( ) Tratamento.
( ) Soluções.
( ) Análise.
1. 4, 1, 3, 5, 2.Resposta correta
9. Pergunta 9
0/0
“Python possui diversos recursos que o tornam mais adequado para o aprendizado (e prática) de Data Science:
• É gratuito.
• É relativamente simples de codificar (e, o principal, de entender).
• Possui muitas bibliotecas úteis relacionadas ao data science.”
Fonte: GRUS, Joel. Data Science do zero: primeiras regras com o Phyton. Brasil: São Paulo: Alta Books, 2018, p. XIII.
Existem diversas linguagens com várias características, porém a linguagem Python é:
1. simples, orientada a objetos, criada com base na linguagem C .Resposta correta
10. Pergunta 10
0/0
“Frequentemente, um armazenamento de dados fica extremamente ocupado, pois várias pessoas estão acessando partes diferentes do
conjunto de dados. Nestas circunstâncias, podemos suportar a escalabilidade horizontal, colando partes diferentes dos dados em servidores
diferentes.”
Fonte: PRAMOD, Sadalage e FOWLER, Martim. NoSQL Essencial: Um guia conciso para o mundo emergente da persistência. São Paulo:
Novatec, 2013, p. 74.
falsa(s):
I. ( ) Escalabilidade é a capacidade de dados mudarem de valor.
II. ( ) Hoje em dia, vemos quantidades de dados exorbitantes, em terabytes. Por isso os sistemas necessitam de maior escalabilidade.
III. ( ) Tecnologias ligadas a mapas diminuíram a necessidade de escalabilidade.
IV. ( ) A velocidade de redes aumentada, devido à tecnologia, trouxe a necessidade de sistemas que suportassem mais dados.
1. F, V, F, V.Resposta correta
11. Pergunta 1
0/0
“Fico receoso ao dizer que Python é minha linguagem de programação favorita. Há outras linguagens que considero mais agradáveis, mais
bem projetadas, ou apenas mais divertidas de trabalhar. E, ainda assim, toda vez que eu começo um projeto novo de data science, eu acabo
usando Python. Toda vez que preciso fazer um protótipo rápido que funcione, eu acabo usando Python.”
falsa(s).

1.
F, F, V, F.
2. Incorreta:
F, V, F, F.
3.
V, F, F, V.
4.
V, F, V, F.
Resposta correta
5.
V, V, F, F.
12. Pergunta 2
0/0
“Enquanto você está preenchendo os papéis de admissão, a vice-presidente da Fraternidade chega à sua mesa. Ela quer estimular mais
conexões entre os seus membros, e pede que você desenvolva sugestões de ‘Cientistas de Dados Que Você Talvez Conheça’”.
1. dar treinamentos para funcionários
2. recomendações com base em análises de dados. Resposta correta
3. criar apresentações para fornecedores.
4. gerar valores em CSS.
criar páginas web em html. Leia o trecho a seguir:

“Conceitos sobre como a ciência de dados (Data Science) se encaixa na organização e no cenário competitivo, incluindo formas de atrair, estruturar e
nutrir equipes de Data Science; maneiras de pensar sobre como Data Science leva uma vantagem competitiva e conceitos táticos para se sair bem
com projetos de Data Science.”
Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento analítico
de dados? Rio de Janeiro: Altabooks, 2016, p. XVI.
A partir dessas informações e do conteúdo estudado a respeito de vantagem competitiva, pode-se afirmar que:
I. Faz parte da análise de vantagem competitiva analisar dados de ameaças de produtos substitutos.
II. Estudar dados é uma ciência técnica e não está relacionada a negócios.
III. Faz parte da análise de vantagem competitiva analisar dados de ameaças de concorrência.
IV. Porter aborda análise de dados em Data Science.
V. Os fornecedores podem representar ameaças, segundo Porter.

1. I, III e V.
5.
13. Pergunta 3
0/0
“Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades descritas pelos dados. Essa capacidade forma a
base de várias tarefas específicas. Ela pode ser usada diretamente para encontrar clientes semelhantes em uma base de dados.”
FOSTER, Provost e FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento
analítico de dados? Rio de Janeiro: Altabooks, 2016, p. XIV.
A partir dessas informações e do conteúdo estudado a respeito das técnicas de correlações para análises de dados, pode-se afirmar que,
além das semelhanças, uma outra correlação utilizada em análise supervisionada é:
1.
sumarização
2. Incorreta:
filtro automático
3.
agrupamento
4.
cluster
5.
regressão
Resposta correta
14. Pergunta 4
0/0

“A tarefa de agrupamento visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de registros
similares entre si, porém diferente dos outros registros nos demais agrupamentos.”
Fonte: SILVA, João; CAMILO, Cassio. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Goiás: Instituto de Informática
Universidade Federal de Goiás, 2009, p. 10.
Analisando o texto e o conteúdo da disciplina referente à diferença entre sumarização e agrupamento, pode-se afirmar que:
1.
O agrupamento analisa o preço de um produto ao longo do tempo e tenta estimar esse preço.
2. Incorreta:
O agrupamento analisa as particularidades de cada indivíduo, criando uma propaganda para cada pessoa.
3.
O agrupamento analisa o histórico de cada cliente e isso é um grupo de fatos.
4.
O agrupamento analisa principalmente as probabilidades, ignorando os fatos.
5.
O agrupamento analisa as decisões e pontos em comum de um público, a fim de criar produtos direcionados para esse micro
público.
Resposta correta
15. Pergunta 5
0/0
1.
R e Python funcionam melhor sem as bibliotecas.
2.
A biblioteca Python foi criada para analisar dados.
3.
As bibliotecas NumPy e Pandas são utilizadas em Python, e as bibliotecas Caret e Ggplot são utilizadas em R.
Resposta correta
4.
Acrescentar bibliotecas torna o trabalho mais lento, mas favorece esteticamente.
5.
As bibliotecas NumPy e Pandas precisam de licença.
16. Pergunta 6
0/0

“Conceitos sobre como a ciência de dados (Data Science) se encaixa na organização e no cenário competitivo, incluindo formas de atrair,
estruturar e nutrir equipes de Data Science; maneiras de pensar sobre como Data Science leva uma vantagem competitiva e conceitos táticos
para se sair bem com projetos de Data Science.”
analítico de dados? Rio de Janeiro: Altabooks, 2016, p. XVI.

1.
I e IV.
2. Incorreta:
I, II e IV.
3.
III e IV.
4.
I, III e V.
Resposta correta
5.
II e IV.
17. Pergunta 7
0/0

“Algumas das áreas de aplicação da Inteligência Artificial e Machine Learn são, por exemplo:
– jogos e brinquedos eletrônicos;
– robótica e automação industrial;
– verificação automática de software;
– otimização e controle de processos;
– processamento de linguagem natural;
– bancos de dados dedutivos e mineração de dados;
– aprendizagem, planejamento e escalonamento de tarefas;
– reconhecimento de faces, de voz, de cheiros e de sabores.”
Fonte: PEREIRA, Silvio L. Introdução à Inteligência Artificial. Brasil, São Paulo: IME. 2014. Disponível em: <https://www.ime.usp.br/~slago/IA-
introducao.pdf>. Acesso em: 20 dez. 2018.
A partir dessas informações e do conteúdo estudado a respeito de inteligência artificial e Machine Learn, pode-se afirmar que:
I. Capacidade de aprendizado, de reconhecimento de voz e corretores são exemplos de Machine Learn.
II. Um sistema de Machine Learn pensa como máquina, pois o raciocínio humano atrapalha a inteligência artificial.
III. Machine Learn é mesma coisa que dataset.
IV. Um sistema de Machine Learn usa lógica racional.
V. Recomendações semelhantes são exemplos de Machine Learn.
1. Incorreta:
II e IV.
2.
III e IV.
3.
I, II e V.
4.
III, IV e V.
5.
I, IV e V.
Resposta correta
18. Pergunta 8
0/0

“Uma questão que invariavelmente cria um debate é: O computador pode pensar? Adicionalmente, nós devemos discutir o papel da
matemática quando lidamos com estas questões.”
Fonte: BELLMAN, Richard E. An introduction to artificial intelligence - Can computers think? San Francisco: Boyd and Fraser Publishing
Company, 1978.
1.
Que o lado humano torna a automatização mais comprovada e dinâmica, já o lado automático torna mais certeiro e eficaz.
Resposta correta
2.
Que o pensamento humano e racional são a mesma coisa, pois ambos executam análise de sentimento e respostas prontas,
segundo os autores.
3. Incorreta:
Que o lado humano está focado nas respostas inteligentes dadas pelo sistema.
4.
Que o lado automático é antiquado, a tecnologia e a programação são mais importantes nos tempos atuais.
5.
Que o lado humano é duvidoso e dispensável em Machine Learn, pois sentimentos atrapalham os negócios virtuais.
19. Pergunta 9
0/0
“Embora seja possível fazer consultas envolvendo junções (join) em SQL, a situação pode, rapidamente, se tornar complicada, tanto com a
escrita SQL, quanto com o desempenho resultante, quando um número de junções aumenta. Isso torna o momento propício para apresnetar
outra categoria de banco de dados.”
Fonte: PRAMOD, Sadalage; FOWLER, Martim. NoSQL Essencial: Um guia conciso para o Mundo Emergente da Persistência. São Paulo:
Novatec, 2013, p. 58.
falsa(s):
I. ( ) Tabelas relacionais podem ser criadas com SQL.
II. ( ) NoSQL é mais escalável.
III. ( ) Enquanto joins são separações, junções são relações.
IV. ( ) NoSQL fazem junções, mas é melhor fazer com SQL.
1.
V, V, F, V.
Resposta correta
2.
F, V, F, V.
3.
F, F, V, V.
4.
V, V, F, F.
5.
V, F, V, F.
20. Pergunta 10
0/0
“Frequentemente, um armazenamento de dados fica extremamente ocupado, pois várias pessoas estão acessando partes diferentes do
conjunto de dados. Nestas circunstâncias, podemos suportar a escalabilidade horizontal, colando partes diferentes dos dados em servidores
diferentes.”
Fonte: PRAMOD, Sadalage e FOWLER, Martim. NoSQL Essencial: Um guia conciso para o mundo emergente da persistência. São Paulo:
Novatec, 2013, p. 74.
falsa(s):
I. ( ) Escalabilidade é a capacidade de dados mudarem de valor.
II. ( ) Hoje em dia, vemos quantidades de dados exorbitantes, em terabytes. Por isso os sistemas necessitam de maior escalabilidade.
III. ( ) Tecnologias ligadas a mapas diminuíram a necessidade de escalabilidade.
IV. ( ) A velocidade de redes aumentada, devido à tecnologia, trouxe a necessidade de sistemas que suportassem mais dados.
1.
V, F, F, V.
2.
F, V, F, V.
Resposta correta
3. Incorreta:
V, F, V, F.
4.
F, F, V, F.
5.
F, F, F, V.
1. Pergunta 1
0/0
“Banco de dados consiste em um conjunto de tabelas que podem ou não se relacionar entre si, e, em geral, são utilizadas por um ou vários
sistemas de computadores que acessam essas tabelas tanto para incluírem novas informações quanto para consultá-las.”.
Fonte: MYAGUSKU, Renata. Curso prático de SQL. São Paulo: Digerati Books, 2008, p. 6.
A partir dessas informações e do conteúdo estudado a respeito de SQL, pode-se afirmar que:
I. Dados SQL funcionam apenas off-line.
II. SQL é uma linguagem usada para guardar dados.
III. Sites de hospedagem possuem bancos de dados.
IV. O acesso ao banco de dados pode ser feito via espaços de usuários web, em servidores como Hostnet, por exemplo.
V. Hadoop e SQL são a mesma coisa.
1.
II, III e IV.
Resposta correta
2.
II e V.
3. Incorreta:
I, II e V.
4.
I, III e IV.
5.
III e V.
2. Pergunta 2
0/0
“O modelo de processamento em lotes do MapReduce não era muito adequado para fluxos de trabalho comuns, incluindo iterativos,
interativos ou por demanda em único conjunto de dados. A principal abstração do MapReduce (especificação do processamento como um
mapeamento e depois uma redução) é paralelizável.”
Fonte: BENGFORT, Benjamin; KIM, Jenny. Analítica de dados com Hadoop: Uma introdução para cientistas de dados. São Paulo: Novatec,
2016, p. 99.
Considerando essas informações e o conteúdo estudado, ordene as etapas a seguir de acordo com o conteúdo de MapReduce:
( ) Dados são analisados paralelamente.
( ) O Programa agrupa palavras iguais, formando clusters.
( ) O programa faz a redução dos dados.
( ) O programa gera um resultado de redução.
( ) O programa faz o cálculo de quantas palavras iguais existem.
1. 1, 2, 5, 3, 4. Resposta correta
3. Pergunta 3
0/0

“Aprendizado supervisionado: o usuário dispõe de um comportamento de referência preciso que ele deseja ensinar a rede. Sendo assim, a
rede deve ser capaz de medir a diferença entre seu comportamento atual e o comportamento de referência, e então corrigir os pesos de
maneira a reduzir este erro (desvio de comportamento em relação aos exemplos de referência).
1.
fazer perguntas aos clientes e, com base nas respostas, tomar decisões.
2.
através de cálculos de receitas e despesas do cliente, que o banco libera ou não um empréstimo.
Resposta correta
3.
jogo ou vídeo que possuam um administrador manipulando as cenas.
4. Incorreta:
criar combinações novas, com base em respostas novas.
5.
analisar os sentimentos de clientes para gerar combinações novas de respostas.
4. Pergunta 4
0/0
1.
Acrescentar bibliotecas torna o trabalho mais lento, mas favorece esteticamente.
2.
As bibliotecas NumPy e Pandas são utilizadas em Python, e as bibliotecas Caret e Ggplot são utilizadas em R.
Resposta correta
3.
R e Python funcionam melhor sem as bibliotecas.
4.
As bibliotecas NumPy e Pandas precisam de licença.
5.
A biblioteca Python foi criada para analisar dados.
5. Pergunta 5
0/0
“Pense cuidadosamente sobre quais dados você pode usar e como serão usados. Pense, especificamente, como a MegaTelCo deve escolher
um conjunto de clientes para receber sua oferta a fim de melhor reduzir a rotatividade para uma verba de incentivo em particular? Responder
a essa pergunta é muito mais complicado do que pode parecer inicialmente.”
analítítico de dados? Rio de Janeiro: Altabooks, 2016, p. 4
( ) Avaliação.
( ) Fonte de dados.
( ) Tratamento.
( ) Soluções.
( ) Análise.
1. Incorreta:
2, 4, 3, 1, 5.
2.
4, 1, 3, 5, 2.
Resposta correta
3.
1, 3, 5, 2, 4.
4.
2, 5, 1, 3, 4.
5.
5, 2, 4, 3, 1.
6. Pergunta 6
0/0

“Conceitos sobre como a ciência de dados (Data Science) se encaixa na organização e no cenário competitivo, incluindo formas
de atrair, estruturar e nutrir equipes de Data Science; maneiras de pensar sobre como Data Science leva uma vantagem
competitiva e conceitos táticos para se sair bem com projetos de Data Science.”
Fonte: FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e
pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. XVI.
1.
III e IV.
2. Incorreta:
I e IV.
3.
I, III e V.
Resposta correta
4.
I, II e IV.
5.
II e IV.
7. Pergunta 7
0/0

“Uma questão que invariavelmente cria um debate é: O computador pode pensar? Adicionalmente, nós devemos discutir o papel
da matemática quando lidamos com estas questões.”
Fonte: BELLMAN, Richard E. An introduction to artificial intelligence - Can computers think? San Francisco: Boyd and Fraser
Publishing Company, 1978.
1.
Que o lado automático é antiquado, a tecnologia e a programação são mais importantes nos tempos atuais.
2.
Que o pensamento humano e racional são a mesma coisa, pois ambos executam análise de sentimento e respostas
prontas, segundo os autores.
3.
Que o lado humano torna a automatização mais comprovada e dinâmica, já o lado automático torna mais
certeiro e eficaz.
Resposta correta
4.
Que o lado humano é duvidoso e dispensável em Machine Learn, pois sentimentos atrapalham os negócios
virtuais.
5. Incorreta:
Que o lado humano está focado nas respostas inteligentes dadas pelo sistema.
8. Pergunta 8
0/0
“Por exemplo, um conceito fundamental é o de determinar a similaridade de duas entidades descritas pelos dados. Essa
capacidade forma a base de várias tarefas específicas. Ela pode ser usada diretamente para encontrar clientes semelhantes em
uma base de dados.”
FOSTER, Provost e FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e
pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. XIV.
A partir dessas informações e do conteúdo estudado a respeito das técnicas de correlações para análises de dados, pode-se afirmar
que, além das semelhanças, uma outra correlação utilizada em análise supervisionada é:
Mostrar opções de resposta
9. Pergunta 9
0/0
“Embora seja possível fazer consultas envolvendo junções (join) em SQL, a situação pode, rapidamente, se tornar complicada,
tanto com a escrita SQL, quanto com o desempenho resultante, quando um número de junções aumenta. Isso torna o momento
propício para apresnetar outra categoria de banco de dados.”
Fonte: PRAMOD, Sadalage; FOWLER, Martim. NoSQL Essencial: Um guia conciso para o Mundo Emergente da Persistência.
São Paulo: Novatec, 2013, p. 58.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F
para a(s) falsa(s):
I. ( ) Tabelas relacionais podem ser criadas com SQL.
II. ( ) NoSQL é mais escalável.
III. ( ) Enquanto joins são separações, junções são relações.
IV. ( ) NoSQL fazem junções, mas é melhor fazer com SQL.
1.
V, V, F, V.
Resposta correta
2. Incorreta:
F, V, F, V.
3.
V, F, V, F.
4.
V, V, F, F.
5.
F, F, V, V.
10. Pergunta 10
0/0

“A tarefa de agrupamento visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de
registros similares entre si, porém diferente dos outros registros nos demais agrupamentos.”
Fonte: SILVA, João; CAMILO, Cassio. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Goiás: Instituto de
Informática Universidade Federal de Goiás, 2009, p. 10.
1. O agrupamento analisa principalmente as probabilidades, ignorando os fatos.
2. O agrupamento analisa as particularidades de cada indivíduo, criando uma propaganda para cada pessoa.
3. O agrupamento analisa o histórico de cada cliente e isso é um grupo de fatos.
4. Incorreta:O agrupamento analisa o preço de um produto ao longo do tempo e tenta estimar esse preço.
5. O agrupamento analisa as decisões e pontos em comum de um público, a fim de criar produtos direcionados
para esse micro público. Resposta correta
1. Pergunta 1
0/0
Leia trecho a seguir:
“Enquanto Matplotlib oferece instrumentos nativos de visualização GUI (gráfica), jupyter-notebook é uma boa opção para
executar e organizar seus dados visando à exibição (output). No jupyer-notebook [...], códigos e caixas podem ser separados
dentro de blocos para melhor organização.”
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt. 2017. p.19.
Com base no texto e no conteúdo estudado, analise as afirmações a seguir:
I. Netbeans é a IDE mais utilizada em Python.
II. Jupyter se mostra uma IDE muito popular em Data Science.
III. Spyder é um programa famoso em Python.

IV. Notepad é um editor de texto muito utilizado em Python.
1.
II e IV.
2.
I e III.
3.
III e IV.
4.
II e III.
Resposta correta
5. Incorreta:
III e V.
2. Pergunta 2
0/0

“Ao obter a matriz de confusão, foi possível calcular as seguintes medidas de desempenho: precisão, sensibilidade,
especificidade e acurácia. A matriz é de extrema relevância ao trabalho, pois com a sensibilidade permitiu avaliar a classificação
correta dos doentes e a especificidade permitiu avaliar a classificação correta dos sadios.”
Fonte: MEDEIROS, Leonardo et.al. Análise no desempenho de algoritmos de aprendizagem supervisionada na classificação da
marcha em Parkinsonianos. Alagoas: UFAL, 2017. p. 5.
Com base no texto e no que foi aprendido em relação à sensibilidade e à especificidade, analise as afirmativas a seguir:
I. Sensibilidade é o nível de proporção dos itens serem positivos, tanto para doenças e cancelamentos, quanto para oportunidades.
II. Especificidade é a divisão dos totais pelos negativos.
III. Especificidade é o nível de proporção dos itens seres negativos, tanto para doenças e cancelamentos, quanto para
oportunidades.
IV. Sensibilidade é a divisão dos totais pelos positivos.
1.
II e IV.
2. Incorreta:
I e III.
3.
II e III.
4.
I e II.
5.
I e IV.
Resposta correta
3. Pergunta 3
0/0
“Uma matriz de confusão separa as decisões tomadas pelo classificador, tornando explícito como uma classe está sendo
confundida com outra. Desta forma, diferentes tipos de erros podem ser tratados separadamente.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e
pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 189.
A matriz de confusão pode ser explicada como:
I. Uma tabela com quatro opções, onde analisa-se quatro itens de um dataset.
II. TF sigifica que True (positivo) era a resposta certa.
III. TP significa um acerto referente a um dado positivo, que pode ter uma doença por exemplo.
IV. FN significa a ausência de erro naquela análise, ou seja, o modelo errou.
Está correto o que se afirma em:
1.
I e III.
2.
II e III.
3.
II e IV.
4. Incorreta:
I e II.
5.
III e IV.
Resposta correta
4. Pergunta 4
0/0

“No cabeçalho, o arquivo deve trazer o nome do conjunto de dados através do atributo relação. Este nome deve ser precedido
pela marca @RELATION, não precisando ser o mesmo nome físico do arquivo. Em seguida o cabeçalho deve conter os atributos
que compõem a relação na marca @ATTRIBUTE. Cada atributo deve ter um nome e um tipo de dado, que pode ser numérico,
texto, data ou categórico. A área data do arquivo tem seu início definido pela marca @DATA, os dados são dispostos em linhas,
separados por vírgula, na mesma ordem que foram estabelecidos os atributos.”
Fonte: AMARAL, Fernando. Aprenda Mineração de Dados: Teoria e prática. Rio de Janeiro: Alta Books, 2016. p.17.
A partir do texto e do conteúdo estudado sobre sensibilidade e especificidade, analise as alternativas a seguir:
I. Cada attribute contém valor interno, que serão chamados de @DATA.
II. O tipo de arquivo usado pelo Weka é arff, o qual contém @RELATION, @ATTRIBUTE e @DATA.
III. O arquivo Weka contém dados que poderiam estar em uma tabela.
IV. O programa Weka é um software pago, mas seu teste é gratuito com as utilidades @ATTRIBUTE e @DATA.
Mostrar opções de resposta
5. Pergunta 5
0/0
“No entanto, todos os procedimentos de mineração de dados têm tendência para sobreajuste, até certo ponto – alguns mais que
outros. A ideia é que se olharmos com atenção suficiente, sempre vamos encontrar padrões em conjuntos de dados.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e
pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 113.
A partir dessas informações e do conteúdo estudado, analise as afirmativas a seguir a respeito de sobreajuste.
I. Sobreajuste é a capacidade positiva de generalizar.
II. Evitar o sobreajuste ajuda a gerar certezas.
III. Generalizar é a capacidade de usar um modelo para outros itens.
IV. Viés é uma solução para evitar sobreajuste.

1. II e III. Resposta correta
6.
7. Pergunta 6
0/0
“Uma variável é algo que você quer que o computador lembre enquanto seu programa estiver executando. Quando o Python se
lembra de algo, é porque ele está armazenando esta informação no computador.”
Fonte: PAINE, Bryson. Ensine seus filhos a formatar: Um guia amigável aos pais para a programação Python. São Paulo:
Novatec, 2015. p. 32.
As variáveis são “apelidos” que receberão algum valor. Ao referenciar esse apelido, o programador chama o valor recebido.
Porém, para criar esses apelidos, é necessário seguir algumas regras. Analise as afirmações abaixo e assinale a alternativa correta.
I. Duas variáveis com os apelidos cliente1 e cliente 4 são válidas.
II. Uma variável com o apelido clienteespaco é válida.
III. Uma variável com o apelido 3casa é válida.
IV. Uma variável com o apelido cliente espaco3espaco é válida.
1. Incorreta:
I, II e IV.
2.
II e IV.
Resposta correta
3.
I e II.
4.
II e III.
5.
I, III e V.
8. Pergunta 7
0/0

“Expressões literais são aquelas cujo resultado da avaliação é um valor literal. Este tipo de expressão é bem menos freqüente que
os anteriores. Os tipos de operadores existentes variam de uma linguagem de programação para outra, não havendo uma
padronização. Para que o assunto não passe em branco, considere-se como exemplo a operação de concatenação de strings: toma-
se duas strings e acrescenta-se (concatena-se) a segunda delas ao final da primeira. Em algumas linguagens esta operação é
representada pelo símbolo (+).”
Fonte: Moura Jonatas. Algoritmo - parte 1. Rio Grande do Norte: Departamento de Computação eAutomação. UFRN 2004, p.
20.
A partir da leitura do texto e do conteúdo estudado a respeito de regressão logística e SPSS, pode-se dizer que:
1.
concatenar é unir palavras com variáveis.
Resposta correta
2. Incorreta:
em python, a concatenação é feita com “;”.
3.
Len representa valor resultante de um cálculo.
4.
a concatenação avalia gráficos.
5.
resultados concatenados são exibidos com uso de System.out.println em pyhton.
9. Pergunta 8
0/0
"Se o segundo trabalho for diferente do trabalho para o qual o teste se mostrou válido, o teste no segundo caso pode ou não ser
válido. A única maneira de saber ao certo seria conduzir outro estudo de validação no segundo trabalho para verificar se o teste
de fato prevê o critério."
Fonte: SPECTOR, Paul. Psicologia nas organizações.São Paulo: Saraiva, 2009. p.165.
A partir dessas informações e do conteúdo estudado a respeito de generalização, pode-se afirmar que:
1.
sobreajuste é a capacidade positiva de usar o modelo em outros dados.
2. Incorreta:
o sobreajuste cresce conforme a generalização aumenta.
3.
regressão e sobreajuste são a mesma coisa.
4.
generalização e matriz de confusão são a mesma coisa.
5.
quanto mais capacidade de generalização, mais confiável é um modelo.
Resposta correta
10. Pergunta 9
0/0
“O diretor da operação de controle de fraudes pode querer que os analistas se concentrem não apenas nos casos com maior
probabilidade de serem defraudados, mas nos casos que a maior quantidade de dinheiro está em jogo, ou seja, contas em que se espera que
a perda monetária da empresa seja mais elevada. Para isso precisamos estimar a probabilidade real de fraude. Felizmente [...], podemos
produzir um modelo projetado para dar estimativas precisas de probabilidade de classe. O procedimento mais comum para fazermos isso é
chamado de regressão logística.”
Fonte: PROVOST, Foster; FAWCETT, Tom. Data Science para negócios: O que você precisa saber sobre mineração de dados e pensamento
analítico de dados? Rio de Janeiro: Altabooks, 2016. p. 97.
A partir do texto e do conteúdo estudado a respeito de regressão logística e SPSS, pode-se dizer que:
1.
ExpB refere-se à matriz de confusão.
2.
O programa SPSS elabora scripts para gerenciar Matplotlib.
3.
o programa SPSS analisa, dentre outros fatores, o nível de influência de cada atributo sobre os resultados.
Resposta correta
4. Incorreta:
11. Pergunta 10
0/0

Matplotlib é uma biblioteca versátil que gera visualizações de dados. Com variados tipos de desenhos e opções de estilos refinados, é um
instrumento de trabalho bom para criar imagens profissionais e publicações científicas.
Fonte: YU, Allen; CHUNG, Claire; YIM, Aldrin. Matplotlib 2.x. Mumbai: Packt, 2017. p. 8.
Observe a seguir a sintaxe de uma matriz:

plt.plot(matriz1, c='blue', label='êxitos')
plt.title("comparação de vendas semestral em cinco meses")
plt.ylabel(u'Aquisições')
plt.legenda('lower right')
plt.xlabel(u'Tentativas')
plt.show()
Com base no texto e no conteúdo estudado, analise as afirmativas abaixo sobre a sintaxe da matriz apresentada:
I. “Aquisições” será digitado embaixo do gráfico.
II. “Tentativas” será digitado ao lado do gráfico.
III. “Plt.title” mostrará o nome do gráfico acima dele.
IV. “Blue” é a cor da linha.
1. III e IV.Resposta correta
1. Pergunta 1
0/0
Leia o trecho a seguir sobre NumPy:
“Em NumPy, o array pode ser redimensionado posteriormente. É muito eficiente (implementado em C). Arrays NumPy podem ser criados a
partir de estruturas de dados do Python (listas, tuplas) ou a partir de funções específicas para criação de arrays.”
Fonte: Campos, Joventino. Introdução à programação com Python. Minas Gerais: Departamento de Computação e Mecânica: 2015. p.113.
Considerando essas informações e o conteúdo estudado, podemos afirmar NumPy é utilizado, em programação, para:
1. realizar ações adicionais em dados, analisando principalmente vetores. Resposta correta
2. Pergunta 2
0/0
“Depois de entender o papel da transmissão, outro conceito importante é o reshape nos arrays do NumPy, especialmente quando
vocês está trabalhanddo com arrays multidimensionas. É comum criar um unidimensional e transformar em multidimensional e
vice e versa.”
Fonte: CHIN, Leo; DUTTA, Tanmay. NumPy Essentials. Mumbay: Packet. 2016. p. 38.
A partir do texto citado e dos conteúdos estudados a respeito da sintaxe
dividir = np.reshape(faixa_criada, (2,4))
pode-se dizer que ela:
1. dividirá em dois pedaços o array a partir do 4º item. Resposta correta

.
3. Pergunta 3
0/0
“O conceito de chatbots não é novo. Mas, com a chegada desta funcionalidade no Facebook, usar o Messenger para fazer vendas
se tornou muito mais fácil.”
Fonte: LAROSSA, Luciano. Facebook para negócios. São Paulo: DVS. 2018. p. 150.
Em Machine Learning, a criação de um chatbot no Messenger do Facebook é útil para enviar respostas automáticas ao cliente,
quando, por exemplo, ele responde um post com uma palavra-chave. Ordene os passos para criação de um chatbot, analisando o
conteúdo:
( ) Criar uma página comercial no Facebook (Facebook Page.
( ) Entrar na conta do Facebook pelo Meet Messenger.
( ) Fazer um post na conta comercial do Facebook.
( ) Ativar, salvar e testar.
( ) Criar uma regra em cima do post no Meet Messenger de acordo com os comentários.
4. Pergunta 4
0/0
“Uma variável é algo que você quer que o computador lembre enquanto seu programa estiver executando. Quando o Python se
lembra de algo, é porque ele está armazenando essa informação no computador.”
Fonte: PAINE, Bryson. Ensine seus filhos a formatar: um guia amigável aos pais para a programação Python. Brasil: São Paulo:
Novatec. 2015. p. 32.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir.
I. Variáveis podem conter um ou vários dados.
II. Uma variável pode conter várias tabelas.
III. Arrays são conjuntos de dados.
IV. Uma variável pode conter um gráfico.
Está correto somente o que se afirma em:
1. II e IV.
2.
III e IV.
3. I e III. Resposta correta
4.
I e II.
5.
II e III.
5. Pergunta 5
0/0
“Vejamos um exemplo de aplicação do teste de Mann-Witney com o SPSS Statistics. O diretor de RH de uma empresa crê que os
operadores de um Call Center com treino de competências sociais deixam uma impressão mais favorável nos clientes do que os
operadores sem este tipo de treino.”
Fonte: MARÔCO, João. Análise e estatística com o SPSS statistic. Portugal: Report Number. 2018. p. 307.
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir sobre o programa SPSS.
I. Para criar curvas ROC deve-se criar na guia analisar.
II. Visualização das variáveis é o local que preenche os dados.
III. Visualização de dados é o local que preenche os atributos.
IV. O relatório final conterá uma tabela chamada "coordenadas da curva".
1. Incorreta:
I e II.
2.
I e IV.
Resposta correta
3.
III e IV.
4. I e III.
5. L ILI e IV.
6. Pergunta 6
0/0
“O tratamento massivo encadeado (workflow) de dados é composto pelas seguintes fases: a descoberta de dados (data discovery),
a integração de dados (data integration) e a exploração de dados (data exploration).”
Fonte: MACHADO, Alexandre. E. Administração do Big Data. Brasil, São Paulo: Senac, 2017. n. p.
Considerando essas informações e o conteúdo estudado, é correto afirmar que, para evitar stop words, é necessário:
1.
manter palavras como artigos, preposições, pois geralmente revelam emoções.
2.
subtrair o IDF (Índice da Frequência no Documento) pelo TF (Termo de Frequência).
3.
observar se o cálculo TF (Frequência do Termo) identifica palavras inúteis no texto.
Resposta correta
4.
quanto maior a TF (Frequência do Termo), mais a palavra se repete, logo, mais importante ela é.
5.
remover palavras que se repetem pouco na coleção e muito no texto, pois são inúteis.
7. Pergunta 7
0/0
“As variáveis compostas homogêneas são capazes de armazenar somente um tipo de dado, por exemplo, só dados do tipo inteiro
ou só dados do tipo real. Os vetores são variáveis compostas unidimensionais, ou seja, possuem uma única dimensão”.
Fonte: HAYASHIDA, Daniel; REIS, Wellington. Lógica de programação: conhecendo algoritmos e criando programas. São
Paulo: Viena, 2015, p. 69.
Considerando essas informações e o conteúdo estudado sobre matrizes, podemos afirmar que, ao criar uma matriz e digitar a
variável mostrar_times.item(4):
1.
serão mostradas cinco linhas.

2. Incorreta:
serão mostrados quatro itens.
3.
serão mostrados valores iguais a 5.
4.
será mostrada a quarta coluna.
5.
será mostrado o quinto item.
Resposta correta
8. Pergunta 8
0/0
“Uma escolha, que nem sempre é a mais correta, é a de escolher como ponto de corte a zona em que a soma da sensibilidade com
a especificidade é maior, isto porque, quando não se pode correr o risco de não diagnosticar, deve privilegiar-se a sensibilidade.”
Fonte: MENEZES, Mariana. Sensibilidade e especificidade na curva Roc: um estudo de caso. Leiria: IPL, 2017, p. VI.
Ao calcular a sensibilidade e a especificidade, podemos afirmar que:
1.
a matriz de confusão é criada analisando entradas.
2.
sensibilidade representa lucro em saídas.
3. Incorreta:
para criar matriz de confusão utiliza sensibilidade.
4.
a prioridade é escolher probabilidade de positivos.
Resposta correta
5.
especificidade representa um item ruim.

9. Pergunta 9
0/0
“As matrizes são variáveis compostas multidimensionais, ou seja, possuem várias linhas e várias colunas, diferentes dos vetores,
que possuem apenas uma linha e várias colunas. Podemos considerar matrizes como multidimensionais.”
Fonte: HAYASHIDA, Daniel; REIS, Wellington. Lógica de programação: conhecendo algoritmos e criando programas São
Paulo: Viena, 2015, p. 71
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir sobre o que acontece ao armazenar,
deletar e mostrar dados em uma matriz.
I. np.delete(mostrar_times,np.s_[::2],0) apagará a primeira e a terceira coluna.
II. mostrar_times[1][0] mostrará o item na segunda linha e primeira coluna .
III. np.delete(mostrar_times, 2, 0) deletará a segunda linha.
IV. np.insert(mostrar_times, 1, 'vazio', axis=0) inserirá, na segunda linha, o valor vazio.
1.
II e IV.
Resposta correta
2.
I e IV.
3.
I e II.
4.
III e IV.
5.
II e III.
10. Pergunta 10
0/0
“As palavras podem ter diferentes extensões e campos de texto podem ter diferentes quantidade de palavras. Às vezes, a ordem
das palavras é importante, às vezes não. Como dados, o texto é relativamente sujo. As pessoas escrevem de forma
gramaticalmente incorreta, soletram errado, juntam palavras, abreviam de forma imprevisível e pontuam aleatoriamente.”
FOSTER, Provost; FAWCETT, Tom. Data Science para negócios: o que você precisa saber sobre mineração de dados e
pensamento analítítico de dados? Rio de Janeiro: Altabooks, 2016. p. 252.
Considerando essas informações e o conteúdo estudado sobre mineração de textos, analise as afirmativas a seguir.
I. Ao escolher palavras, é útil definir um limite máximo de repetições.
II. O IDF (inverso da frequência no documento) divide o número de documentos contendo a token pelo número total de
documentos.
III. Ao escolher palavras, é útil definir um limite mínimo de repetições.
IV. Deve-se tomar cuidado com palavras que representam sentimentos.
1. Incorreta:
II e IV.
2.
I e II.
3.
I e III.
Resposta correta
4.
III e IV.
5.
II e III.
1. Pergunta 1
0/0
“A abordagem introduzida primeiro é chamada de ‘bag of words’ – em português, saco de palavras. Como o nome indica, a
abordagem é tratar cada documento como uma coleção de palavras individuais.”
Fonte: FOSTER, P.; FAWCETT, T. Data science para negócios. Rio de Janeiro: Alta Books, 2016. p. 252.
Evidencia-se, assim, uma abordagem utilizada no âmbito do data science. Analisando o texto-base e o conteúdo, pode-se afirmar
que stopwords:
1.
removem os sufixos e deixam apenas o prefixo, tornando mais fácil a mineração.
2.
são uma função destinada a remover sufixos e acentos, a fim de facilitar a leitura.
3.
são palavras que devem ser removidas por atrapalharem a identificação de palavras importantes.
Resposta correta
4.
refletem sentimentos e podem transformar dados em conhecimentos.
5.
identificam TF e IDF altos, úteis para calcular TD-IDF e minerar os textos.
2. Pergunta 2
0/0
“O PLN geralmente usa conceitos linguísticos como classes de palavras (substantivo, verbo, adjetivo etc.), aqui chamadas de
Part-of-Speech, além de estruturas gramaticais. O PLN também lida com situações mais complexas, como anáforas e
ambiguidades.”
Fonte: NASCIMENTO, L. et al. Introdução ao processamento de linguagem natural usando Python. Teresina: Eripi, 2017. p. 2.
O trecho explica brevemente a função geral do PLN. Analisando o texto e o conteúdo da aula, podemos afirmar que a função de
nltk.chunk.ne_chunk serve para:
1.
determinar um valor mínimo para cada busca.
2.
remover os sufixos de todas as palavras.
3.
remover os acentos de todas as palavras.
4.
definir e exibir a quantidade de linhas.
5.
selecionar o tipo gramatical das palavras.
Resposta correta
3. Pergunta 3
0/0
“O resultado é que, devido à grande variação na habilidade, os melhores cientistas de dados podem escolher as oportunidades de
emprego que melhor se adequem aos seus desejos em relação ao salário, cultura, oportunidades de progresso e assim por diante.”
Evidencia-se, assim, como os profissionais em data science precisam ter em mente escolhas de emprego que terão que fazer para
o futuro. Supondo que uma nova empresa precise criar uma equipe de data science sem sacrificar sua renda, considere as
afirmativas a seguir sobre o que ela deveria fazer:
I. A empresa deve contratar uma equipe inteira com formação completa em data science.
II. A empresa deve contratar uma consultoria para trabalhar o ano inteiro.
III. A empresa deve dar treinamento de programação para funcionários.
IV. A empresa deve contratar um profissional de data science com experiência como líder de equipe.
1.
I e IV.
2. Incorreta:
II e III.
3.
II e IV.
4.
III e IV.
Resposta correta
5.
I e II.
4. Pergunta 4
0/0

“Criado originalmente em 2001 como parte de um curso de linguística computacional do Departamento de Ciência da
Computação e Informação da Universidade da Pensilvânia, o NLTK é uma plataforma usada para construir programas Python
que trabalham com dados de linguagem humana para aplicação em PLN.”
O texto conta um pouco da história do NLTK. Com base no texto e no seu conhecimento, analise as afirmações a seguir:
I. O comando count analisa quantas linhas o documento inteiro tem.
II. O comando lower é vinculado a uma variável com count após contas minúsculas.
III. O comando freq.Dist analisa a distância entre os tokens, vendo qual é mais próximo.
IV. O comando nltk.word_tokenize gera tokens que serão analisados depois.
1. Incorreta:
III e IV.
2.
I e IV.
3.
I e III.
4.
II e III.
5.
II e IV.
Resposta correta
5. Pergunta 5
0/0
“A tensão entre a privacidade e o aprimoramento das decisões de negócios é intensa, porque parece haver uma relação direta
entre o aumento da utilização de dados pessoais e o aumento da eficácia das decisões de negócios.”
O texto evidencia uma questão pertinente ao trabalho de data science. Analisando o texto e o conteúdo estudado, pode-se dizer
que a Regulação Geral de Proteção de Dados:

1.
é uma lei cujo prazo para avisar os usuários do vazamento de dados é 48 horas.
2.
é uma lei que exige a todos os tipos e portes de empresa um supervisor de

proteção de dados.
3.
é uma lei criada na Europa que impõe multas rigorosas a quem a descumpre.
Resposta correta
4.
segundo a lei, todos os adultos têm seus dados pessoais e impessoais restringidos.
5.
é uma lei em vigor desde 2017 que fortalece a privacidade de dados.
6. Pergunta 6
0/0
“As empresas ainda devem trabalhar para entender como atingir consumidores, e agora ainda têm que se esforçar para entender
como atingi-los em seus dispositivos móveis: smartphones, tablets e o crescente número de computadores portáteis, conforme o
wi-fi se torna onipresente.”
O trecho mostra como o avanço da tecnologia é pertinente para os profissionais de data science. Analisando o texto-base e o
conteúdo sobre dispositivos móveis, pode-se afirmar que:
1.
a localização por si só mostra os hobbies preferidos do usuário.
2.
a matriz de confusão avalia a frequência dos usuários num lugar em detrimento de outros lugares.
3.
é necessário criar gráficos de frequência em lugares no past para gerar matriz de confusão.
4.
ao descobrir dados geográficos, pode-se fazer cálculos de distância euclidiana para duas pessoas.
Resposta correta
5. Incorreta:
a especificidade mostra a possibilidade de um usuário frequentar um lugar.
7. Pergunta 7
0/0
“A garantia de privacidade é importante não apenas para preservar a validade da pesquisa, mas também para proteger os
participantes. […] Imagine o dano que a liberação de informações sobre os hábitos de algumas pessoas poderia ter causado.”
Fonte: SCHINDLER, P.; COOPER, D. A. Métodos de pesquisa em administração. New York: Bookman, 2016. p. 34.
O trecho fala sobre a importância de manter a privacidade dos participantes em pesquisas de data science. Analisando o texto e o
conteúdo estudado, considere as afirmativas a seguir a respeito da Lei Geral de Proteção de Dados Pessoais (LGPDP) e do
Regulamento Geral sobre Proteção de Dados (GDRP):
I. O consentimento do usuário deve ser explícito com relação ao tratamento de seus dados pessoais na RGPD.
II. O usuário tem o direito de apagar seus dados tanto na LGPDP quanto na GDRP.
III. Dados pessoais são números de registros de empresa e endereços eletrônicos da empresa.
IV. A LGPDP e o GDRP foram criados para evitar fraudes em sistemas bancários.
1.
I e III.
2.
I e II.
Resposta correta
3.
II e IV.
4. Incorreta:
III e IV.
5.
I e IV.
8. Pergunta 8
0/0
“Essas linguagens nos permitem ‘conversar’ com o nosso computador e dar-lhe comandos. Pense nas ocasiões em que você
ensina um cachorro a fazer truques – ao dar o comando ‘senta’, ele se senta; ao dizer ‘fale’, ele late. O cachorro entenderá esses
comandos simples, mas não compreenderá muito mais do que você disser.”
Fonte: PAINE, B. Ensine seus filhos a programar: um guia amigável aos pais para a programação Python. Brasil: São Paulo:
Novatec, 2015. p. 29.
O trecho revela alguns detalhes sobre o conceito de programação. Com base nos seus conhecimentos e nos conteúdos estudados,
analise as afirmações a seguir:
I. A função de NumPy é analisar mapas e dados em cores.
II. A função de scikit-learn é criar machine learning.
III. Seaborn serve para visualizações de dados.
IV. A função de TPOT é processar a linguagem natural.
Está correto somente o que se afirma em:
1.
I e III.
2.
I e IV.
3. Incorreta:
III e IV.V
4.
II e IV.
5.
II e III.
Resposta correta
9. Pergunta 9
0/0
“A tokenização, também conhecida como segmentação de palavras, quebra a sequência de caracteres em um texto, localizando o
limite de cada palavra, ou seja, os pontos onde uma palavra termina e outra começa. Para fins de linguística computacional, as
palavras assim identificadas são frequentemente chamadas de tokens.”
O texto descreve brevemente a tokenização no trabalho em data science. Com base no seu conhecimento e no conteúdo estudado,
podemos afirmar que uma das funções do nltk.FreqDist é:
1. Incorreta:
mostrar a frequência de cada sufixo das palavras.
2.
eliminar palavras e dados desnecessários.
3.
descobrir a quantidade de repetição de cada token.
Resposta correta
4.
calcular a distância euclidiana entre duas palavras.
5.
listar as palavras com stemização removendo as stopwords.
10. Pergunta 10
0/0
“Cientistas de dados precisam ter profundas ligações uns com os outros na comunidade de data science. A razão é simplesmente
que esse campo é imenso, e existem diversos temas para qualquer indivíduo dominar.”
O trecho ressalta a importância da relação entre membros da comunidade de data science. Com base nos seus conhecimentos,
I. Cientistas de dados devem saber todas as linguagens de programação.
II. Cientistas de dados devem se comunicar bem.
III. Cientistas de dados devem consertar máquinas e hardwares, bem

como ferramentas eletrônicas.
IV. Cientistas de dados devem conhecer técnicas de liderança e gerenciamento.
1.
II e III.
2.
III e IV.
3.
I e II.
4.
I e IV.
5.
II e IV.
1. Pergunta 1
0/0
“A novidade e a conveniência de comunicar-se por computador levaram pesquisadores ao ciberespaço em busca de fontes
abundantes de dados. Não importa se chamamos de ‘sociedade conectada’, ‘vida digital’ ou ‘cibercultura’, o crescimento de
estudos cibernéticos faz-nos questionar como coletamos os dados.”
Fonte: SCHINDLER, P.; COOPER, D. A. Métodos de pesquisa em administração. Nova York: Bookman, 2016. p. 35.
O trecho evidencia novos métodos de pesquisa por causa da crescente presença da internet na sociedade. Com base no seu
conhecimento e no conteúdo estudado, considere as seguintes informações a respeito do Marco Civil da Internet:
I. Foi uma lei sancionada por Temer.
II. Antecedeu a Lei de Proteção Geral de Dados Pessoais, de 2018.
III. Quem descumprir essa lei pode ter multas de 4% da renda total da empresa
onde trabalha.
IV. Possui artigos referentes a direitos humanos e privacidade.
1.
I e II.
2.
II e IV.
Resposta correta
3. Incorreta:
III e IV.
4.
II e III.
5.
I e IV.
2. Pergunta 2
0/0
“Criado originalmente em 2001 como parte de um curso de linguística computacional do Departamento de Ciência da
Computação e Informação da Universidade da Pensilvânia, o NLTK é uma plataforma usada para construir programas Python
que trabalham com dados de linguagem humana para aplicação em PLN.”
O texto conta um pouco da história do NLTK. Com base no texto e no seu conhecimento, analise as afirmações a seguir:
I. O comando count analisa quantas linhas o documento inteiro tem.
II. O comando lower é vinculado a uma variável com count após contas minúsculas.
III. O comando freq.Dist analisa a distância entre os tokens, vendo qual é mais próximo.
IV. O comando nltk.word_tokenize gera tokens que serão analisados depois.
1.
I e III.
2.
III e IV.
3.
II e III.
4.
II e IV.
Resposta correta
5. Incorreta:
I e IV.
3. Pergunta 3
0/0
“O PLN geralmente usa conceitos linguísticos como classes de palavras (substantivo, verbo, adjetivo etc.), aqui chamadas de
Part-of-Speech, além de estruturas gramaticais. O PLN também lida com situações mais complexas, como anáforas e
ambiguidades.”
O trecho explica brevemente a função geral do PLN. Analisando o texto e o conteúdo da aula, podemos afirmar que a função de
nltk.chunk.ne_chunk serve para:
1.
definir e exibir a quantidade de linhas.
2.
remover os acentos de todas as palavras.
3.
selecionar o tipo gramatical das palavras.
Resposta correta
4. Incorreta:
remover os sufixos de todas as palavras.
5.
determinar um valor mínimo para cada busca.
4. Pergunta 4
0/0
“Cientistas de dados precisam ter profundas ligações uns com os outros na comunidade de data science. A razão é simplesmente
que esse campo é imenso, e existem diversos temas para qualquer indivíduo dominar.”
O trecho ressalta a importância da relação entre membros da comunidade de data science. Com base nos seus conhecimentos,
I. Cientistas de dados devem saber todas as linguagens de programação.
II. Cientistas de dados devem se comunicar bem.
III. Cientistas de dados devem consertar máquinas e hardwares, bem

como ferramentas eletrônicas.
IV. Cientistas de dados devem conhecer técnicas de liderança e gerenciamento.
1.
I e IV.
2. Incorreta:
II e III.
3.
III e IV.
4.
I e II.
5.
II e IV.
Resposta correta
5. Pergunta 5
0/0
“A abordagem introduzida primeiro é chamada de ‘bag of words’ – em português, saco de palavras. Como o nome indica, a
abordagem é tratar cada documento como uma coleção de palavras individuais.”
Evidencia-se, assim, uma abordagem utilizada no âmbito do data science. Analisando o texto-base e o conteúdo, pode-se afirmar
que stopwords:
1.
são palavras que devem ser removidas por atrapalharem a identificação de palavras importantes.
Resposta correta
2.
identificam TF e IDF altos, úteis para calcular TD-IDF e minerar os textos.

3. Incorreta:
são uma função destinada a remover sufixos e acentos, a fim de facilitar a leitura.
4.
removem os sufixos e deixam apenas o prefixo, tornando mais fácil a mineração.
5.
refletem sentimentos e podem transformar dados em conhecimentos.
6. Pergunta 6
0/0
“Até o presente momento, trabalhamos com ideias para o pré-processamento de textos utilizando apenas conceitos e estruturas
básicas de Python. Porém, em problemas práticos, é adequado utilizar bibliotecas que ofereçam recursos avançados de
Processamento de Linguagem Natural.”
Em Python, pode-se instalar uma biblioteca destinada à mineração de textos. Ordene os passos para instalar o NLTK:
( ) Clicar em “downloads”.
( ) Fazer o download da biblioteca NLTK.
( ) Escrever no notebook os comandos de NLTK.
( ) Digitar “PIP INSTALL NLTK”.
( ) Abrir o CMD.
1.
2, 4, 3, 1, 5.
2.
5, 2, 4, 3, 1.
3.
3, 1, 2, 4, 5.
4.
1, 2, 4, 5, 3.
5.
4, 3, 5, 2, 1.
Resposta correta
7. Pergunta 7
0/0
“Do ponto de vista digital e lógico, e visando a preservação do capital intelectual, entendo que passará a ser recomendável que
você se prepare para a possibilidade de perda, quebra ou interceptação indevida desses dispositivos. Por isso, visando preservar
seus ativos e sua privacidade, sugiro que comece a pensar em backup. Antes de viajar, faça uma cópia de seu disco num servidor
da empresa.”
Fonte: SCUDERE, L. Como a tecnologia pode agregar valor aos negócios, criar oportunidades e evitar fraudes. São Paulo:
Elsevier, 2006. p. 167.
O autor tece algumas sugestões para prevenir perdas de dados com aparelhos tecnológicos atuais. Com base no seu conhecimento
e no conteúdo estudado, analise as afirmações a seguir sobre a Lei Geral de Proteção de Dados Pessoais (LGPDP):
I. Está em vigor desde 2018.
II. Fala sobre aspectos de discriminação de ideias políticas e religiosas.
III. Segundo a Lei, as empresas devem criar políticas internas de proteção de dados.
IV. Segundo a Lei, deve-se criar um banco de dados para cada informação registrada de usuários.
1.
III e IV.
2.
II e III.
Resposta correta
3.
II e IIV.
4.
I e IV.
5.
I e II.
8. Pergunta 8
0/0

“A amplitude de uma série de valores é determinada rápida e facilmente, oferecendo uma ideia grosseira do grau de dispersão.
Conhecendo-se o valor da média e da amplitude, têm-se dados sobre o centro da distribuição e da dispersão em torno desse
ponto.”
Fonte: LOPEZ, A. M. C. F. A pesquisa e a estatística na psicologia e na educação. Rio de Janeiro: Scielo, 2010. p. 23.
O trecho mostra a importância da amplitude para o ramo do data science. A partir dessas informações e do conteúdo estudado,
pode-se afirmar que amplitude:
1.
é a proporção entre o aumento de dois itens.
2.
é o nível de proximidade entre dois itens, analisando a distância.
3.
é a distância entre o menor e o maior valor de um conjunto de dados.
Resposta correta
4. Incorreta:
é a quantidade de palavras contidas em um conjunto de textos e dados.
5.
é a média de cada item multiplicada pela probabilidade de cada item.
9. Pergunta 9
0/0

“O desvio médio é uma medida de pouco valor, pois não considera os sinais dos desvios. Uma tentativa de superar esta
dificuldade reside na possibilidade de elevá-los ao quadrado, tornando-os, dessa forma, positivos. Denomina-se variância a média
dos quadrados dos desvios tomados a partir do conjunto.”
Fonte: LOPEZ, A. M. C. F. A pesquisa e a estatística na psicologia e na educação. Rio de Janeiro: Scielo, 2010. p. 25.
Evidencia-se, assim, a importância do desvio médio em data science. A partir dessas informações e do conteúdo estudado a
respeito de machine learning, considere as afirmações a seguir:
I. A variância analisa o espaço entre dados extremos.
II. A variância analisa a distância dos valores em relação à média.
III. A variância é uma medida de dispersão.
IV. A variância possui o cálculo de distância euclidiana.

1.
III e IV.
2.
II e III.
Resposta correta
3. Incorreta:
II e IV.
4.
I e III.
5.
I e IV.
10. Pergunta 10
0/0
“A tokenização, também conhecida como segmentação de palavras, quebra a sequência de caracteres em um texto, localizando o
limite de cada palavra, ou seja, os pontos onde uma palavra termina e outra começa. Para fins de linguística computacional, as
palavras assim identificadas são frequentemente chamadas de tokens.”
O texto descreve brevemente a tokenização no trabalho em data science. Com base no seu conhecimento e no conteúdo estudado,
podemos afirmar que uma das funções do nltk.FreqDist é:
1.
eliminar palavras e dados desnecessários.
2.
listar as palavras com stemização removendo as stopwords.
3.
descobrir a quantidade de repetição de cada token.
Resposta correta
4.
mostrar a frequência de cada sufixo das palavras.
5.
calcular a distância euclidiana entre duas palavras.
Conteúdo do exercício
1. Pergunta 1
0/0

“Dados intervalares ou racionais são os dados quantitativos e todas as medidas de tendência central e de dispersão são
apropriadas a eles. A escolha das medidas depende do uso que se pretende da estatística e da distribuição de frequências.”
Fonte: MASSAD, Eduardo et al. Métodos quantitativos em medicina. São Paulo, Barueri: Manole, 2004, p.148.
Ao analisar as quantitativas contínuas e discretas para comparar dois números, pode-se dizer que:
1.
As quantitativas e as qualitativas comparam dimensões com operadores +, -, == e !=.
2.
as quantitativas contínuas possuem decimais e seus níveis ideais não estão em ser maior ou menor, mas de
estarem no intervalo ideal.
Resposta correta
3.
Uma qualitativa ordinal dimensiona os cálculos.
4.
as quantitativas discretas comparam maiores ou menores valores com operadores de ==(igual) e !=(diferente).
5.
as quantitativas discretas comparam com operadores de +, -, * e /.
2. Pergunta 2
0/0
“Pense cuidadosamente sobre quais dados você pode usar e como serão usados. Pense, especificamente, como a MegaTelCo deve
escolher um conjunto de clientes para receber sua oferta a fim de melhor reduzir a rotatividade para uma verba de incentivo em
particular? Responder a essa pergunta é muito mais complicado do que pode parecer inicialmente.”
pensamento analítítico de dados? Rio de Janeiro: Altabooks, 2016, p. 4
( ) Avaliação.
( ) Fonte de dados.
( ) Tratamento.
( ) Soluções.
( ) Análise.
3. Pergunta 3

“Uma questão que invariavelmente cria um debate é: O computador pode pensar? Adicionalmente, nós devemos discutir o papel
da matemática quando lidamos com estas questões.”
Fonte: BELLMAN, Richard E. An introduction to artificial intelligence - Can computers think? San Francisco: Boyd and Fraser
Publishing Company, 1978.
1. Que o pensamento humano e racional são a mesma coisa, pois ambos executam análise de sentimento e
respostas prontas, segundo os autores.
2. Que o lado humano torna a automatização mais comprovada e dinâmica, já o lado automático torna mais
certeiro e eficaz. Resposta correta
4. Pergunta 4
0/0
“Enquanto você está preenchendo os papéis de admissão, a vice-presidente da Fraternidade chega à sua mesa. Ela quer estimular
mais conexões entre os seus membros, e pede que você desenvolva sugestões de ‘Cientistas de Dados Que Você Talvez
Conheça’”.
1. recomendações com base em análises de dados.Resposta correta
5. Pergunta 5
“Conceitos sobre como a ciência de dados (Data Science) se encaixa na organização e no cenário competitivo, incluindo formas
de atrair, estruturar e nutrir equipes de Data Science; maneiras de pensar sobre como Data Science leva uma vantagem
competitiva e conceitos táticos para se sair bem com projetos de Data Science.”
pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. XVI.
1. I, III e V. Resposta correta
6. Pergunta 6

“Aprendizado supervisionado: o usuário dispõe de um comportamento de referência preciso que ele deseja ensinar a rede. Sendo
assim, a rede deve ser capaz de medir a diferença entre seu comportamento atual e o comportamento de referência, e então
corrigir os pesos de maneira a reduzir este erro (desvio de comportamento em relação aos exemplos de referência).
1. através de cálculos de receitas e despesas do cliente, que o banco libera ou não um empréstimo.Resposta
correta
7. Pergunta 7
“O modelo de processamento em lotes do MapReduce não era muito adequado para fluxos de trabalho comuns, incluindo
iterativos, interativos ou por demanda em único conjunto de dados. A principal abstração do MapReduce (especificação do
processamento como um mapeamento e depois uma redução) é paralelizável.”
Fonte: BENGFORT, Benjamin; KIM, Jenny. Analítica de dados com Hadoop: Uma introdução para cientistas de dados. São
Paulo: Novatec, 2016, p. 99.
Considerando essas informações e o conteúdo estudado, ordene as etapas a seguir de acordo com o conteúdo de MapReduce:
( ) Dados são analisados paralelamente.
( ) O Programa agrupa palavras iguais, formando clusters.
( ) O programa faz a redução dos dados.
( ) O programa gera um resultado de redução.
( ) O programa faz o cálculo de quantas palavras iguais existem.
8. Pergunta 8

“A tarefa de agrupamento visa identificar e aproximar os registros similares. Um agrupamento (ou cluster) é uma coleção de
registros similares entre si, porém diferente dos outros registros nos demais agrupamentos.”
Fonte: SILVA, João; CAMILO, Cassio. Mineração de Dados: Conceitos, Tarefas, Métodos e Ferramentas. Goiás: Instituto de
Informática Universidade Federal de Goiás, 2009, p. 10.
1. O agrupamento analisa as decisões e pontos em comum de um público, a fim de criar produtos direcionados
para esse micro público. Resposta correta
9. Pergunta 9
“Fico receoso ao dizer que Python é minha linguagem de programação favorita. Há outras linguagens que considero mais
agradáveis, mais bem projetadas, ou apenas mais divertidas de trabalhar. E, ainda assim, toda vez que eu começo um projeto
novo de data science, eu acabo usando Python. Toda vez que preciso fazer um protótipo rápido que funcione, eu acabo usando
Python.”
Considerando essas informações e o conteúdo estudado, analise as afirmativas a seguir e assinale V para a(s) verdadeira(s) e F
para a(s) falsa(s).

1. V, F, V, F. Resposta correta
10. Pergunta 10
“Agora, com grandes quantidades de dados disponíveis, as empresas em quase todos os setores estão focadas em explorá-los para
obter vantagem competitiva. No passado, as empresas podiam contratar equipes de estatísticos, modeladores e analistas para
explorar manualmente os conjuntos de dados, mas seu volume e variedade superaram muito a capacidade da análise manual. Ao
mesmo tempo, os computadores se tornaram muito mais poderosos, a comunicação em rede é onipresente, e foram desenvolvidos
algoritmos que podem conectar conjuntos de dados para permitir análises muito mais amplas e profundas do que antes.”
pensamento analítico de dados? Rio de Janeiro: Altabooks, 2016, p. 1.
A partir dessas informações e do conteúdo estudado a respeito da evolução da ciência de dados, pode-se afirmar que:
1. Antigamente, os estatísticos faziam a análise de Data Science. Porém, com o avanço tecnológico, a ciência
passou a contar com sistemas eletrônicos.
Resposta correta

COMPLETÃO DE FUNDAMENTOS DE DATA SCIENCE by Vivian Ok

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

COMPLETÃO DE FUNDAMENTOS DE DATA SCIENCE by Vivian Ok

Enviado por

Direitos autorais:

Formatos disponíveis

COMPLETÃO DE DUNDAMENTOS DATA SCIENCE.

Leia o trecho a seguir

Ocultar opções de resposta

1. criar apresentações para fornecedores.

2. criar páginas web em html.

3. recomendações com base em análises de dados. Resposta correta

4. gerar valores em CSS.

5. dar treinamentos para funcionários

Leia o trecho a seguir:

Ocultar opções de resposta

Leia o trecho abaixo:

Leia o trecho a seguir:

I. ( ) IDLE executa códigos de Python de maneira prática.

Ocultar opções de resposta

Leia o trecho abaixo:

Leia o trecho abaixo:

Leia o trecho a seguir:

Leia o trecho a seguir:

Agora, assinale a alternativa que apresenta a sequência correta:

Leia o trecho a seguir:

Existem diversas linguagens com várias características, porém a linguagem Python é:

1. simples, orientada a objetos, criada com base na linguagem C .Resposta correta

Leia o trecho a seguir:

I. ( ) IDLE executa códigos de Python de maneira prática.

Ocultar opções de resposta

Leia o trecho a seguir

Ocultar opções de resposta

1. dar treinamentos para funcionários

2. recomendações com base em análises de dados. Resposta correta

3. criar apresentações para fornecedores.

4. gerar valores em CSS.

criar páginas web em html. Leia o trecho a seguir:

Está correto apenas o que se afirma em:

Leia o trecho a seguir:

Ocultar opções de resposta

Leia o trecho a seguir:

Ocultar opções de resposta

O agrupamento analisa o histórico de cada cliente e isso é um grupo de fatos.

O agrupamento analisa principalmente as probabilidades, ignorando os fatos.

Leia o trecho a seguir:

Ocultar opções de resposta

R e Python funcionam melhor sem as bibliotecas.

A biblioteca Python foi criada para analisar dados.

Acrescentar bibliotecas torna o trabalho mais lento, mas favorece esteticamente.

As bibliotecas NumPy e Pandas precisam de licença.

Leia o trecho a seguir:

Está correto apenas o que se afirma em:

Ocultar opções de resposta

Leia o trecho a seguir:

Ocultar opções de resposta

Leia o trecho abaixo:

Ocultar opções de resposta

Ocultar opções de resposta

Leia o trecho a seguir:

Leia o trecho a seguir:

Ocultar opções de resposta

II, III e IV.

Leia o trecho a seguir:

Ocultar opções de resposta

Leia o trecho abaixo:

Ocultar opções de resposta

jogo ou vídeo que possuam um administrador manipulando as cenas.

criar combinações novas, com base em respostas novas.