Escolar Documentos
Profissional Documentos
Cultura Documentos
2
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
Núcleo de Educação a Distância
O Grupo Educacional Prominas é uma referência no cenário educacional e com ações voltadas para
a formação de profissionais capazes de se destacar no mercado de trabalho.
O Grupo Prominas investe em tecnologia, inovação e conhecimento. Tudo isso é responsável por
fomentar a expansão e consolidar a responsabilidade de promover a aprendizagem.
3
Prezado(a) Pós-Graduando(a),
Um abraço,
4
5
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
Olá, acadêmico(a) do ensino a distância do Grupo Prominas!..
6
O texto abaixo das tags são informações de apoio para você ao
longo dos seus estudos. Cada conteúdo é preprarado focando em téc-
nicas de aprendizagem que contribuem no seu processo de busca pela
conhecimento.
Cada uma dessas tags, é focada especificadamente em partes
importantes dos materiais aqui apresentados. Lembre-se que, cada in-
formação obtida atráves do seu curso, será o ponto de partida rumo ao
seu sucesso profissional.
7
Nesta unidade, você verá os principais conceitos que definem a
Mineração de Dados, Data Mining e seus componentes. Verá do que real-
mente trata a mineração de dados e como utilizá-la em sua área aplicando
esses mesmos conceitos e técnicas na prática, aprendendo a coletar e
analisar os mais diferentes conjuntos de dados utilizando as ferramentas
mais conhecidas do mercado. Será apresentado aqui também como repre-
sentamos o conhecimento, de que forma utilizar as informações que estão,
muitas vezes, dispersas, organizando-as de maneira a ajudar na tomada
de decisões críticas dentro da sua empresa, transformando dados brutos
em informações preciosas.
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
8
Apresentação do Módulo ______________________________________ 11
CAPÍTULO 01
SOLUÇÕES EM MINERAÇÃO DE DADOS
Algoritmos _______________________________________________________ 20
Recapitulando ___________________________________________________ 29
Recapitulando _________________________________________________ 49
9
CAPÍTULO 03
ANÁLISE EXPLORATÓRIA DE DADOS
Recapitulando _________________________________________________ 70
Referências ____________________________________________________ 78
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
10
O campo da Mineração de Dados teve avanços rápidos nas
últimas duas décadas, especialmente da perspectiva da comunidade de
ciência da computação. Embora a análise de dados tenha sido ampla-
mente estudada no campo convencional de probabilidade e estatística,
a mineração de dados é um termo cunhado pela comunidade orientada
para a ciência da computação. Para cientistas da computação, ques-
tões como escalabilidade, usabilidade e implementação computacional
são extremamente importantes.
Neste módulo, você verá os conceitos básicos necessários para
entender o que é e como funciona a Mineração de Dados, aprendendo
como realiza a coleta, seleção e tratamento adequado de diferentes
tipos de dados, podendo, assim, utilizá-los para tomadas de decisões
muito mais acertadas e precisas. Veremos alguns dos bancos de dados
e suas representações, visto que são elementos de suma importância
no processo da Mineração de Dados, pois são eles que vão armazenar
e gerenciar todas as informações coletadas, além de serem utilizados
na organização dessas informações.
Cada um dos tópicos ligados à Mineração de Dados será abor-
dado aqui de maneira clara e didática, levando-se em consideração as
aplicações mais atuais nessa área. Veremos quais os métodos e ferra-
mentas adequados ao trabalho de coleta de dados, como e quais dados
são importantes para uma análise concisa, quais os bancos de dados
e gerenciadores de banco dados são mais indicados para o trabalho
de armazenamento de dados, e como se dá a filtragem e classificação
11
SOLUÇÕES EM
MINERAÇÃO DE DADOS
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
14
processo de mineração. A fase de extração de recursos, geralmente, é
realizada em paralelo com a limpeza de dados, onde partes ausentes e
incorretas dos dados são estimadas ou corrigidas. Em muitos casos, os
dados podem ser extraídos de várias fontes e precisam ser integrados
em um formato unificado para processamento. O resultado final desse
procedimento é um conjunto de dados bem estruturado, que pode ser
efetivamente usado por um programa de computador. Após a fase de
extração do recurso, os dados podem ser armazenados novamente em
um banco de dados para processamento.
• Processamento analítico e algoritmos: A parte final do pro-
cesso de mineração é projetar métodos analíticos eficazes a partir dos
dados processados.
Em muitos casos, pode não ser possível usar diretamente um
problema padrão de mineração de dados, como os quatro “superproble-
mas” para o aplicativo em questão. No entanto, esses quatro problemas
têm uma cobertura tão ampla que muitos aplicativos podem ser dividi-
dos em componentes que usam esses diferentes blocos de construção.
O pré-processamento de dados
O pré-processamento de dados é, provavelmente, a parte mais
importante no processo de mineração de dados. Contudo, quase nunca
é explorado na profundidade que merece, porque muitos dão impor-
tância maior nos aspectos analíticos da mineração de dados. Inicia-se
após a coleta dos dados e segue as seguintes etapas:
REPRESENTAÇÃO DO CONHECIMENTO
ALGORITMOS
de mineração.
Onde
1 𝛽𝛽0
𝑥𝑥
𝑥𝑥𝑖𝑖 = � …𝑖𝑖,1 � 𝛽𝛽 = � 𝛽𝛽1 �
…
𝑥𝑥𝑖𝑖,𝑝𝑝 𝛽𝛽𝑝𝑝
𝐺𝐺(𝑣𝑣𝑖𝑖 ) = 1 − � 𝑝𝑝𝑗𝑗2 .
27
Alguns softwares que valem a pena ser estudados quando
se trata de trabalhar com Big Data e Data Mining:
- Weka
Disponível em: <https://www.cs.waikato.ac.nz/ml/weka/>.
28
QUESTÕES DE CONCURSOS
QUESTÃO 1
Ano: 2020 Banca: IBADE Órgão: Pref Vila Velha Prova: Analista
O processo de explorar grandes quantidades de dados à procura
de padrões consistentes, para detectar relacionamentos sistemáti-
cos entre variáveis, detectando assim novos subconjuntos de da-
dos é chamado de:
a) Data Lake.
b) Big Data.
c) Data Query.
d) Data Warehouse.
e) Data Mining.
QUESTÃO 2
Ano: 2019 Banca: NC-UFPR Órgão: ITAIPU Prova: Profissional Ní-
vel Universitário Jr
Castro e Ferrari (2016) ilustram na figura abaixo o processo de des-
coberta de conhecimento em base de dados, conforme segue:
29
QUESTÃO 3
Ano: 2019 Banca: NC-UFPR Órgão: ITAIPU Prova: Profissional Ní-
vel Universitário Jr
Castro e Ferrari (2016) mencionam que as funcionalidades da mi-
neração de dados são utilizadas para especificar os tipos de in-
formação a serem obtidos nas tarefas de mineração. Sobre esse
tema, considere as seguintes funcionalidades:
1. Análise de grupos: tarefa supervisionada que separa um conjun-
to de objetos em grupos.
2. Classificação: tarefa supervisionada para predição de valores
discretos.
3. Regressão (ou estimação): tarefa supervisionada para predição
de valores contínuos.
4. Associação: tarefa que descobre relações entre atributos por
meio da detecção de anomalias nos conjuntos de dados.
É/São funcionalidade(s) da etapa de mineração:
a) 1 apenas.
b) 2 apenas.
c) 1 e 4 apenas.
d) 2 e 3 apenas.
e) 3 e 4 apenas.
QUESTÃO 4
Ano: 2019 Banca: NC-UFPR Órgão: ITAIPU Prova: Profissional Ní-
vel Universitário Jr
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
30
QUESTÃO 5
Ano: 2019 Banca: NC-UFPR Órgão: ITAIPU Prova: Profissional Ní-
vel Universitário Jr
Em sistemas de Recuperação de Informação, quando a busca in-
clui documentos irrelevantes e exclui documentos relevantes, res-
pectivamente, esses fenômenos são chamados de:
a) Falso-positivo e verdadeiro-positivo.
b) Falso-positivo e falso-negativo.
c) Falso-negativo e falso-positivo.
d) Verdadeiro-negativo e falso-positivo.
e) Falso-negativo e verdadeiro-negativo.
TREINO INÉDITO
NA MÍDIA
NA PRÁTICA
33
BANCO DE DADOS
NÃO CONVENCIONAIS
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
existe uma grande área de replicação parcial dos dados, onde algumas
porções do banco de dados podem ser replicadas e outras não.
Encapsulamento de Operações
No SQL, um tipo definido pelo usuário pode ter sua própria
especificação comportamental, especificando métodos (ou operações)
além dos atributos. A forma geral de uma especificação UDT com mé-
todos é a seguinte:
Modelos de armazenamento
Um modelo de armazenamento é o núcleo de qualquer siste-
ma relacionado a big data. Isso afeta a escalabilidade, as estruturas de
dados, a programação e os modelos computacionais dos sistemas que
são construídos sobre qualquer sistema relacionado a big data. São três
modelos principais de armazenamento desenvolvidos: armazenamento
baseado em bloco, armazenamento baseado em arquivo e armazena-
mento baseado em objeto.
48
QUESTÕES DE CONCURSOS
QUESTÃO 1
Ano: 2019 Banca: ACEP Órgão: Pref. Aracati Prova: Analista
Sobre bancos de dados distribuídos, é correto afirmar que:
a) Só é possível criar um banco de dados distribuído quando todos os
servidores rodam o mesmo SGBD.
b) Há a necessidade de um controle centralizado para coordenar a
formação de um banco de dados distribuído.
c) Em bancos de dados distribuídos, os problemas de deadlock são
mais facilmente tratáveis.
d) Um sistema de replicação síncrona ajuda a manter os dados replica-
dos consistentes.
QUESTÃO 2
Ano: 2019 Banca: VUNESP Órgão: CM Piracicaba Prova: Adminis-
trador de Rede
Considerando os bancos de dados distribuídos, é correto afirmar
que:
a) Seus nós devem ser interligados por meio de uma rede de comunicação.
b) Seus nós devem se localizar em um mesmo edifício.
c) O hardware de todos os nós deve ser idêntico entre si.
d) Não há a operação simultânea de dois ou mais de seus nós.
e) O sistema gerenciador de bancos de dados de cada nó deve ser
idêntico em todos os seus nós.
49
QUESTÃO 4
Ano: 2018 Banca: CEBRASPE (CESPE) Órgão: EBSERH Prova:
Técnico
Julgue o item seguinte, a respeito de banco de dados distribuído e
orientado a objetos.
Em um banco de dados distribuído, os servidores de banco envol-
vidos não precisam, necessariamente, possuir a mesma configu-
ração de hardware.
( ) Certo
( ) Errado
QUESTÃO 5
Ano: 2018 Banca: CEBRASPE (CESPE) Órgão: EBSERH Prova:
Técnico
Julgue o item seguinte, a respeito de banco de dados distribuído e
orientado a objetos.
Em um ambiente distribuído, as diferentes topologias de redes
utilizadas para a comunicação entre os bancos de dados não in-
terferem no desempenho dos bancos de dados quanto ao proces-
samento de consultas, uma vez que as consultas são executadas
diretamente nos servidores.
( ) Certo
( ) Errado
TREINO INÉDITO
NA MÍDIA
NA PRÁTICA
Fonte: http://cesta2.cinted.ufrgs.br/xmlui/handle/123456789/603?show
=full
51
ANÁLISE EXPLORATÓRIA
DE DADOS
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
ANÁLISE BIDIMENSIONAL
Escala multidimensional
O escalonamento multidimensional (MDS) visa representar da-
dos de alta dimensão em um espaço de baixa dimensão para que os
dados possam ser visualizados, analisados e interpretados no espaço
de baixa dimensão para descobrir padrões de dados úteis.
Algoritmo de MDS
Recebemos n itens de dados no espaço p-dimensional, xi = (xi1,
..., xip), i = 1, ..., n, junto com a dissimilaridade δij de cada par de n itens
de dados, xi e xj, e o ordem de classificação dessas dissimilaridades do
par menos semelhante para o par mais semelhante:
52
𝛿𝛿𝑖𝑖1𝑗𝑗 1 ≤ 𝛿𝛿𝑖𝑖2𝑗𝑗 2 ≤ ⋯ ≤ 𝛿𝛿𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖
𝑞𝑞
2
𝑑𝑑𝑖𝑖𝑖𝑖 = � ��𝑑𝑑𝑖𝑖𝑖𝑖 − 𝑑𝑑𝑗𝑗𝑗𝑗 �
𝑘𝑘=1
1
𝑞𝑞 𝑟𝑟
𝑟𝑟
𝑑𝑑𝑖𝑖𝑖𝑖 = ���𝑑𝑑𝑖𝑖𝑖𝑖 − 𝑑𝑑𝑗𝑗 𝑘𝑘 � � .
𝑘𝑘=1
SÉRIES TEMPORAIS
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
54
Autocorrelação
A equação abaixo dá o coeficiente de correlação de duas va-
riáveis xi e xj:
𝜎𝜎𝑖𝑖𝑖𝑖
𝜌𝜌𝑖𝑖𝑖𝑖 =
�𝜎𝜎𝑖𝑖𝑖𝑖 �𝜎𝜎𝑗𝑗𝑗𝑗
𝜌𝜌2 − 𝜌𝜌12
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(2) = .
1 − 𝜌𝜌12
55
Estacionariedade e não estacionariedade
A estacionariedade geralmente se refere à estacionariedade
fraca que requer que a média e a variância dos dados da série temporal
não mudem ao longo do tempo. Uma série temporal é estritamente es-
tacionária se a autocovariância σt, t − k não muda ao longo do tempo t,
mas depende apenas do número de defasagens k além da média fixa e
da variância constante. Por exemplo, uma série temporal gaussiana que
tem uma distribuição normal multivariada é uma série estacionária es-
trita, porque a média, a variância e a autocovariância da série não mu-
dam com o tempo. Os modelos ARMA são usados para modelar séries
temporais estacionárias.
Fatores que podem causar estacionariedade:
• Outliers (dados fora da curva).
• Caminhada aleatória em que cada observação desvia aleato-
riamente da observação anterior sem reversão para a média.
• Tendência determinística (por exemplo, uma tendência linear
que tem valores que mudam ao longo do tempo a uma taxa constante).
• Mudança de variância.
• Ciclos com um padrão de dados que se repete periodicamen-
te, incluindo ciclos sazonais com periodicidade anual.
• Outros que fazem a média ou variação de uma série temporal
mudar ao longo do tempo.
Uma série não estacionária deve ser transformada em uma sé-
rie estacionária para construir um modelo ARMA.
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
ACF(k) é zero para k>1. Da mesma forma, para uma série tem-
poral MA (2), ACF(1) e ACF(2) são negativos, e ACF(q) é zero para q>2.
Para um MA(q), temos:
𝐴𝐴𝐴𝐴𝐴𝐴(𝑘𝑘) ≠ 0 𝑠𝑠𝑠𝑠 𝑘𝑘 ≤ 𝑞𝑞
NÚMEROS ÍNDICES
Tipos:
• Índice simples: apenas um objeto é verificado.
• Índice composto: um grupo de objetos é avaliado num de-
terminado período.
Onde:
• P ou p = preço
• Q ou q = quantidade
• V ou v = (p x q) = valor
Como os números de índices compostos são utilizados para
variações em grupos de itens, eles são divididos em dois métodos de
cálculo:
• Agregados e Ponderados: utilizado para determinar varia-
59
ções de preço para um grupo de elementos, focando apenas preços,
eliminando-se as quantidades.
• Média dos Relativos de Preço: funciona como uma alter-
nativa ao método dos agregados ponderados, obtendo exatamente os
mesmos resultados.
𝑃𝑃𝑃𝑃 =
∑�𝑝𝑝𝑐𝑐,𝑡𝑡 0 . 𝑞𝑞𝑐𝑐,𝑡𝑡 𝑛𝑛 �
2 - Programação funcional
Paradigma emergente para a próxima geração de sistemas de
processamento em Big Data, já utilizada em frameworks como Spark e
Flink, que se utilizam de interfaces funcionais, facilitando a construção
de aplicativos de dados. Nesse modelo de programação, as interfaces
são especificadas em forma de funções aplicadas às fontes de dados
de entrada, sendo os cálculos tratados como cálculos de funções. Por
si só a programação funcional é declarativa, evitando, assim, o compar-
tilhamento de estados mutáveis. Se comparado a programação orienta-
da a objetos, esse modelo é mais compacto e intuitivo na representação
das transformações orientadas a dados e aplicativos.
61
Recursos
Como a Programação Funcional é um dos paradigmas de pro-
gramação mais reconhecidos, ela possui um conjunto de funcionalida-
des que facilitam o desenvolvimento em diferentes aspectos:
• Declarativo: Na programação funcional, os desenvolvedores
constroem os programas especificando a lógica semântica da computa-
ção em vez do fluxo de controle dos procedimentos.
• Funções são os elementos de primeiro nível em Programa-
ção Funcional. As primitivas de programação são fornecidas de maneira
funcional e a maioria delas pode assumir funções definidas pelo usuário
como parâmetros.
• Em princípio, a programação funcional não permite o compar-
tilhamento de estados, o que significa que as variáveis na programação
funcional são imutáveis. Portanto, não há efeitos colaterais para chama-
da de funções. Isso torna mais fácil escrever programas funcionalmente
corretos que também são fáceis de serem verificados formalmente.
• Recursivo: Na programação funcional, muitos loops são
normalmente representados como chamadas recursivas de funções.
Isso facilita a otimização do desempenho aplicando cauda recursiva
para reduzir a criação de dados intermediários e variáveis compartilha-
das em diferentes loops.
• Paralelização: Como geralmente não há compartilhamento
de estado na programação funcional, é fácil e adequado para aplicar a
paralelização a infraestruturas de computação distribuída e multicore.
• Referencial transparente: Na programação funcional, as fun-
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
Exemplos de frameworks
Spark
O Spark fornece aos programadores um paradigma de progra-
mação funcional com interfaces de programação centradas em dados
com base em seu modelo de dados embutido - conjunto de dados distri-
buído resiliente (RDD). O Spark foi desenvolvido em resposta às limita-
ções do paradigma MapReduce, que força os programas distribuídos a
serem escritos em um fluxo de dados linear e grosseiramente definidos
como cadeias de tarefas Mapper e Redutor conectadas. No Spark, os
programas são representados como RDDtransformationDAGs. Os pro-
gramadores têm seu trabalho facilitado pelo uso de um rico conjunto
62
de funções primitivas de alto nível, ações e transformações para im-
plementar algoritmos complicados de uma maneira muito mais fácil e
compacta.
Além disso, o Spark fornece operações centradas em dados,
como amostragem e armazenamento em cache, para facilitar a progra-
mação centrada em dados em diferentes aspectos.
O Spark é bem conhecido por seu suporte a ricas transforma-
ções e ações funcionais. Basicamente, as primitivas de programação
no Spark parecem apenas interfaces de programação funcionais gerais,
ocultando operações complexas como particionamento de dados, dis-
tribuição e paralelização para os programadores e deixando-as do lado
do cluster.
Flink
Flink é um concorrente emergente do Spark, que fornece inter-
faces de programação funcionais bastante semelhantes às do Spark.
Os programas Filnk são programas regulares que são escritos com
um rico conjunto de operações de transformação (como mapeamento,
filtragem, agrupamento, agregação e junção) para os conjuntos de
dados de entrada. O conjunto de dados no Flink é baseado em um
modelo baseado em tabela, portanto os programadores podem usar
números de índice para especificar um determinado campo de um con-
junto de dados. O Flink compartilha muitas primitivas e transformações
funcionais da mesma maneira que o Spark faz para o processamento
em lote.
3 - SQL-Like
SQL (Structured Query Language) é a linguagem de consulta
63
de dados mais clássica, originalmente projetada para bancos de dados
relacionais baseados na álgebra relacional. Ele contém quatro primiti-
vas básicas: criar, inserir, atualizar, excluir para modificar os conjuntos
de dados considerados como tabelas com esquemas. SQL é uma lin-
guagem declarativa e inclui alguns elementos procedimentais.
Os programas SQL contêm alguns elementos básicos, incluindo:
1. Cláusulas que são elementos constituintes de instruções e
consultas.
2. Expressões que podem ser avaliadas para produzir um con-
junto de dados resultantes.
3. Predicados que especificam condições que podem ser usa-
das para limitar os efeitos de declarações e consultas.
4. Consultas que recuperam os dados com base em alguns
critérios específicos.
5. Declarações que têm um efeito persistente nos dados, es-
quema ou mesmo no banco de dados.
Recursos
• Declarativa e auto-interpretável: SQL é uma linguagem de-
clarativa típica, ela especifica claramente quais transformações e ope-
rações estão sendo feitas para quais partes dos dados. Ao ler as con-
sultas SQL, os usuários podem entender facilmente a semântica das
consultas da mesma forma que entendem as descrições literais.
• Orientado por dados: O SQL é orientado por dados, todas as
operações e primitivas representam a transformação e manipulação do
conjunto de dados de destino (tabelas de dados em SQL). Isso torna o
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
5 - Estatística e analítica
Nos últimos anos, um esforço significativo foi despendido para
oferecer ambientes semanticamente amigáveis para computação esta-
tística e analítica, o que leva ao desenvolvimento e revolução de modelos
de programação estatística e analítica. Por exemplo, muitas bibliotecas
ou estruturas analíticas atuais fornecem um modelo de programação
baseado em álgebra linear que trabalha com vetores, matrizes e es-
truturas de dados de tensores para lidar com problemas matemáticos
definidos algebricamente em aprendizado de máquina, estatística e mi-
neração de dados, etc.
Recursos
Devido à natureza matemática da programação estatística e
analítica, é essencialmente funcional com manipulações em matrizes e
67
estruturas de dados baseadas em vetores.
• Funcional: Operações matemáticas são essencialmente fun-
ções que consomem um conjunto de parâmetros de entrada para gerar
uma saída. Além disso, muitas funções ou modelos complicados são agru-
pados em bibliotecas funcionais para que os usuários possam usá-los di-
retamente, sem conhecer os detalhes de implementação das funções.
• Estrutura de dados baseada em matriz: A matriz é uma das
estruturas de dados mais amplamente utilizadas para representar pro-
blemas e soluções analíticas e estatísticas modernas. Portanto, a maio-
ria das estruturas de programação analítica existentes são baseadas
em matrizes, vetores e estruturas de dados para manipular os dados.
• Declarativo: Na programação estatística e analítica, os pro-
gramas especificam explicitamente as funções e operações que foram
aplicadas aos dados (matriz, vetor e quadro de dados).
Exemplos
1. R: combina a linguagem de programação S e o Lexical Sco-
ping inspirado no Scheme. É bem conhecido pela programação estatís-
tica e desenho gráfico. Em R, os dados são essencialmente representa-
dos como matrizes que são muito convenientes para a implementação
de fórmulas matemáticas e estatísticas. R e suas bibliotecas implemen-
tam uma grande variedade de técnicas estatísticas e gráficas e são fá-
ceis de serem estendidas pelos desenvolvedores. R foi recentemente
introduzido no contexto de processamento de big data para facilitar a
desenvolvimento de programas e aplicativos estatísticos e analíticos
2. Mahout: Apache Mahout é uma implementação de código
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
69
QUESTÕES DE CONCURSOS
QUESTÃO 1
Ano: 2018 Banca: CESPE/CEBRASPE Órgão: STM Prova: Analista
Judiciário - Estatística
A respeito da autocorrelação dos erros de um modelo de regressão
linear, julgue o item subsequente.
A autocorrelação dos erros, desde que não seja unitária em termos
absolutos, insere um viés nas estimativas da variável dependente.
( ) Certo
( ) Errado
QUESTÃO 2
Ano: 2018 Banca: CESPE/CEBRASPE Órgão: STM Prova: Analista
Judiciário - Estatística
A respeito da autocorrelação dos erros de um modelo de regressão
linear, julgue o item subsequente.
Ocorre autocorrelação dos erros caso os erros da regressão sigam
um processo autorregressivo de ordem 1, ou seja, um AR(1).
( ) Certo
( ) Errado
QUESTÃO 3
Ano: 2019 Banca: FGV Órgão: DPE-RJ Prova: Superior Especiali-
zado - Estatística
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
70
QUESTÃO 4
Ano: 2018 Banca: CESGRANRIO Órgão: Banco do Brasil Prova: Es-
criturário
Um modelo teórico do MapReduce pode ser resumido em duas
funções, map e reduce. Essas funções são representadas na litera-
tura, genericamente, com uma notação na forma:
QUESTÃO 5
Ano: 2018 Banca: CESPE/CEBRASPE Órgão: Polícia Federal Pro-
71
TREINO INÉDITO
NA MÍDIA
Fonte: Inteligov
Data: 23 de junho de 2020
Leia a notícia na íntegra: https://blog.inteligov.com.br/data-mining/
NA PRÁTICA
73
Então é isso, vimos aqui o conteúdo básico para os estudos em
mineração de dados abordando os seus três conceitos que são: coleta,
armazenamento e análise de dados. Na primeira unidade, podemos co-
nhecer o que é a mineração de dados e qual a sua importância para o
conhecimento e tomada de decisões nos dias atuais, onde a produção
de informações é cada vez maior e heterogênea. Tratamos dos algorit-
mos principais para a manipulação desses dados, cada tipo específico
existente, ferramentas poderosas que aliam disciplinas como matemáti-
ca estatística e computação. Apresentamos os conceitos de bancos de
dados, os tipos existentes e como são importantes para a mineração de
dados, armazenando e ajudando na seleção e tratamento das informa-
ções. Através dos conceitos aqui apresentados, você poderá compreen-
der como é importante e até vital que se tenha o controle dos dados
produzidos pelos mais diferentes canais, e que dominar esses dados,
transformando-os em informações precisas faz toda a diferença dentro
de uma organização.
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
74
GABARITOS
CAPÍTULO 01
QUESTÕES DE CONCURSOS
01 02 03 04 05
E B D A B
QUESTÕES DE CONCURSOS
01 02 03 04 05
D A CERTO CERTO ERRADO
TREINO INÉDITO
Gabarito: A
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS
76
CAPÍTULO 03
QUESTÕES DE CONCURSOS
01 02 03 04 05
ERRADO CERTO C E ERRADO
TREINO INÉDITO
Gabarito: D
77
AGGARWAL R. S. A Modern Approach to Logical Reasoning. S.
Chand Publishing. 2012.
78
79
COLETA, ARMAZENAMENTO E ANÁLISE APLICADA - GRUPO PROMINAS