Escolar Documentos
Profissional Documentos
Cultura Documentos
br
MINERAÇÃO DE DADOS
MINERAÇÃO DE DADOS, SUAS
ABORDAGENS E FASES
Autor: Esp. Wesley Soares de Souza
Revisor: Bruno Roberto Nepomuceno Matheus
INICIAR
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 1/33
01/04/24, 23:08 Ead.br
introdução
Introdução
Nos dias de hoje, dificilmente uma empresa não possui seus dados
armazenados digitalmente. A tecnologia tem-se mostrado cada vez ais
presente e com um custo muito baixo, comparado a anos anteriores. Isso faz
com que um amontoado de informações, que antes ficavam restritas a salas
de arquivos, hoje se restrinjam a servidores. Esse volume desmedido de
dados desconexos tem ganhado notoriedade na mídia e organizações, por
vezes, trazendo fascínio e desconfiança (DAVENPORT, 2012) em pessoas que
se envolvem diretamente com a gestão de informação.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 2/33
01/04/24, 23:08 Ead.br
Apresentação da
Disciplina, Definição de
Mineração de Dados
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 3/33
01/04/24, 23:08 Ead.br
saiba mais
Saiba mais
O Big Data é uma referência ao grande
volume de dados que temos nos dias de hoje
para os mais diversos assuntos distribuídos
pela internet. Diante dessa grande
oportunidade e desafio na mineração de
dados, sugerimos o artigo para se
aprofundar no assunto.
Fonte: Elaborado pelo autor.
ACESSAR
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 4/33
01/04/24, 23:08 Ead.br
Para atender a este novo contexto, surgiu uma nova área denominada
Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in
Databases – KDD), que vem despertando grande interesse junto às
comunidades científica e industrial (GOLDSCHMIDT; PASSOS, 2005). Para
termos uma compreensão ampla do assunto, precisamos separar
hierarquicamente conhecimento, informação e dados, conforme Figura 1.1.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 5/33
01/04/24, 23:08 Ead.br
Reflita
reflita
O Big Data vem com a ideia de um grande volume de dados
descoordenados e sem uma estrutura predefinida. Nesse
sentido, poucas empresas utilizam esses dados na tomada de
decisão a nível comercial, como você acha que poderia ser o
comportamento das empresas, caso houvesse uma
ferramenta que classificasse os itens da web de forma que
pudéssemos inseri-los na mineração de dados, como seria a
tomada de decisão? Faria alguma diferença?
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 6/33
01/04/24, 23:08 Ead.br
O KDD é composto por várias etapas que são definidas como não triviais,
interativas e iterativas. A etapa definida como não trivial consiste em um
alerta ao nível de complexidade presente no processo, determinando o grau
de relevância do contexto em que os dados se encontram. No iterativo
sugere a possibilidade de repetições integrais ou parciais do processo,
buscando dados satisfatórios pelo refinamento ocasionado na repetição da
ação. O interativo considera a atuação do homem como necessária e
responsável por controlar o processo durante a execução. Essas etapas
permitem a identificação de alguns padrões que são compreensíveis, válidos,
novos e potencialmente úteis, vindas de uma base de dados de grande
volume.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 7/33
01/04/24, 23:08 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 8/33
01/04/24, 23:08 Ead.br
atividade
Atividade
Um fenômeno de destaque é o crescente aumento de fontes de informações
exógenas às empresas, captadas por redes sociais, sensores em diversos produtos
ou registros de tráfego de internet, entre outros, muitas vezes, caracterizado pela
expressão Big Data (SILVEIRA et al., 2015). Considerando as etapas operacionais de
KDD, assinale a alternativa correta.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 9/33
01/04/24, 23:08 Ead.br
Exemplos de Aplicações
de Mineração de Dados
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 10/33
01/04/24, 23:08 Ead.br
A intenção é organizar as despesas para o próximo ano com base nos dados
apresentados em períodos anteriores e, com isso, podemos gerar uma regra
referente ao tempo. Podemos observar que as receitas são maiores no
segundo semestre, portanto, podemos definir que:
SENÃO
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 11/33
01/04/24, 23:08 Ead.br
Para que possamos avaliar a regra adotada, precisamos verificar o seu nível de
confiança ou precisão na apuração dos dados. Com isso, é possível notar a
existência de casos que satisfazem a regra assim como sua negativa apurada
na parte principal, não existem outros fatores que fujam dessas duas
hipóteses. Então, podemos ressaltar que a nossa regra é linear obedecendo
duas situações distintas, porém o problema em si não é linearmente
separável em nosso diagrama, conforme demonstrado na Figura 1.4, ou seja,
não podem ser separados por uma reta em duas regiões distintas e
homogêneas.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 12/33
01/04/24, 23:08 Ead.br
Estatística financeira.
Inteligência computacional.
Reconhecimento de padrões uniformes de dados.
Banco de dados.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 13/33
01/04/24, 23:08 Ead.br
Desenvolvimento
Tecnológico
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 14/33
01/04/24, 23:08 Ead.br
atividade
Atividade
O nível de precisão ou confiança dos dados é de extrema importância para que
possamos compreender a melhor forma possível de criarmos conhecimento. Por
exemplo, em nosso restaurante vemos que os dados estão linearmente
organizados, de forma que a movimentação gera uma receita ou uma despesa,
porém, não é linearmente distribuída em nosso plano, sendo que no primeiro
semestre é evidente a existência despesas bem acima das receitas. Assinale a
alternativa correta.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 15/33
01/04/24, 23:08 Ead.br
Fases da Mineração de
Dados e Desenvolvimento
de Produtos de Mineração
Pré-processamento
Essa é a etapa mais importante a ser abordada, pois em todas as fases
posteriores, o resultado final estão totalmente dependentes no tratamento
dos dados realizado inicialmente. A descoberta do conhecimento por meio
das bases de dados é o processo que precisa identificar aquilo que não é
trivial, que são padrões válidos a serem considerados e, potencialmente,
úteis. Nessa etapa são definidas as perguntas e decisões que irão servir de
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 16/33
01/04/24, 23:08 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 17/33
01/04/24, 23:08 Ead.br
Data de execução da
Data_lancto Date
movimentação
Tipo de conta
D - Despesa
Origem da movimentação
V - Venda à Vista
Origem Char(1)
P - Venda a prazo
D - Despesa
Nome da pessoa ou
Pessoa_empresa Varchar(100) empresa envolvido na
movimentação
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 18/33
01/04/24, 23:08 Ead.br
F - Gasto fornecedor
D - Despesas diversas
U - custo funcionários
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 19/33
01/04/24, 23:08 Ead.br
saiba mais
Saiba mais
O que é Data Warehouse?
Data Warehouse é a referência que fazemos
a um depósito de dados orientado por
assunto, integrado e relacionado ao tempo
de forma não volátil. Sua principal função
está em auxiliar o apoio à decisão gerencial.
Fonte: Elaborado pelo autor.
ACESSAR
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 20/33
01/04/24, 23:08 Ead.br
Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação. Na Figura
1.6, podemos observar a gestão financeira do restaurante, contendo no plano
cartesiano os eixos que consistem no tempo e no saldo, cada ponto
representa uma movimentação financeira.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 21/33
01/04/24, 23:08 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 22/33
01/04/24, 23:08 Ead.br
atividade
Atividade
Os dados coletados precisam ser distribuídos em uma estrutura de dados tabular e
organizados de forma finita, para que possa facilitar a geração de informações na
base de conhecimento. Levando em consideração essa informação, assinale a
alternativa correta.
a) Todo grupo de dados no KDD está interligado a uma base de fatos, a qual
é determinada pelo conjunto de dados utilizados para a avaliação.
b) Para a geração do modelo de conhecimento, inicialmente, não é
necessária a utilização de algoritmos de mineração de dados.
c) O especialista em KDD é necessário desde a fase de preparação dos dados
até a mineração de dados, acompanhando o especialista na área.
d) O especialista da área é desnecessário a partir da fase de mineração de
dados, sendo importante somente após a mineração de dados ter ocorrido
para avaliação dos resultados.
e) O KDD exige que os dados estejam reunidos em um Data Warehouse.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 23/33
01/04/24, 23:08 Ead.br
Abordagens de Mineração
de Dados - Definição de
Regras ou Aprendizagem
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 24/33
01/04/24, 23:08 Ead.br
Regras de Associação
É a junção de objetos que tenham características e tendências semelhantes,
gerando redes interconectadas de conhecimento adquirido. Segundo Côrtez
et al. (2002), o banco de dados é visto como uma coleção de transação, cada
uma envolvendo um conjunto de itens. Utilizando esse modelo simplificamos
a geração de conhecimento para o auxílio na tomada de decisão.
Redes Neurais
Consiste na aplicação digital das redes biológicas de neurônios, ou seja,
utilizam a mesma regra. Denominados como RN (redes neurais),
implementam detecções sofisticadas de padrões e algoritmos de aprendizado
de máquina, para auxiliar a compreensão de grandes bases de dados.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 25/33
01/04/24, 23:08 Ead.br
Algoritmos Genéticos
Algoritmos genéticos são formados por algoritmos baseados na seleção
natural e genética para otimização na busca por resultados que auxiliem a
tomada de decisão de uma organização. Geralmente, considerando que uma
busca ocorre de forma sequencial até conseguir alcançar o resultado
esperado. Os algoritmos genéticos realizam a busca de possíveis soluções de
forma simultânea em N bases de informação. Segundo Côrtez, Porcaro e
Lifschitz (2002), algoritmos genéticos são aplicados com sucesso em campos
diversificados como análise de imagens, escalonamento e projetos de
engenharia.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 26/33
01/04/24, 23:08 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 27/33
01/04/24, 23:08 Ead.br
atividade
Atividade
Para que a mineração de dados seja mais efetiva com o passar do tempo, seu
funcionamento é de extrema importância, o sistema utiliza o aprendizado por
experiência, baseado no modelo de experiência gerado. Considerando essa
afirmação, assinale a alternativa correta.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 28/33
01/04/24, 23:08 Ead.br
indicações
Material
Complementar
LIVRO
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 29/33
01/04/24, 23:08 Ead.br
FILME
TRAILER
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 30/33
01/04/24, 23:08 Ead.br
conclusão
Conclusão
Nesta unidade, vimos que não existe uma forma específica de aplicação do
conhecimento adquirido ao longo da unidade, não possui uma definição
exata, muito menos qual seria a melhor técnica de mineração de dados ou
descoberta de conhecimento a ser utilizada. Nesse sentido, podemos utilizar
de árvores, regras, tabelas estruturadas ou semiestruturadas, cubos de
dados, entre outros elementos possíveis. O que precisamos entender é qual o
resultado esperado? Quais dados temos em mão e qual a maneira que eles se
encontram distribuídos? Dessa maneira, conseguimos identificar a técnica
utilizada e quais algoritmos melhor se aplicam para alcançarmos os
resultados esperados.
referências
Referências
Bibliográficas
CÔRTEZ, S. C.; PORCARO, R. M.; LIFSCHITZ, S. Mineração de dados:
funcionalidades, técnicas e abordagens. PUC Rio Inf. , 2002.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 31/33
01/04/24, 23:08 Ead.br
DAVENPORT, T. H.; BARTH, P.; BEAN, R. How “big data” is different. MIT: Sloan
Management Review. MIT Sloan Management Review , v. 54, n. 1, 2012.
GOLDMAN, A.; KON, F.; JUNIOR, F. P.; POLATO, I.; DE FÁTIMA PEREIRA, R.
Apache Hadoop: Conceitos teóricos e práticos, evolução e novas
possibilidades. In: JORNADAS DE ATUALIZAÇÕES E INFORMÁTICA, 31., 2012.
Anais… Maceió: SBC, 2012. Disponível em: https://bit.ly/39aMzW3 . Acesso
em: 1 dez. 2019.
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 32/33
01/04/24, 23:08 Ead.br
https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 33/33