Você está na página 1de 33

01/04/24, 23:08 Ead.

br

MINERAÇÃO DE DADOS
MINERAÇÃO DE DADOS, SUAS
ABORDAGENS E FASES
Autor: Esp. Wesley Soares de Souza
Revisor: Bruno Roberto Nepomuceno Matheus

INICIAR

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 1/33
01/04/24, 23:08 Ead.br

introdução
Introdução
Nos dias de hoje, dificilmente uma empresa não possui seus dados
armazenados digitalmente. A tecnologia tem-se mostrado cada vez ais
presente e com um custo muito baixo, comparado a anos anteriores. Isso faz
com que um amontoado de informações, que antes ficavam restritas a salas
de arquivos, hoje se restrinjam a servidores. Esse volume desmedido de
dados desconexos tem ganhado notoriedade na mídia e organizações, por
vezes, trazendo fascínio e desconfiança (DAVENPORT, 2012) em pessoas que
se envolvem diretamente com a gestão de informação.

O homem não consegue chegar a resultados satisfatórios, em tempo hábil,


sem a ajuda de ferramentas computacionais adequadas. Dessa forma,
técnicas como a Mineração de Dados (Data Mining) fazem parte de uma das
etapas da descoberta do conhecimento em Base de Dados (KDD). Nesta
unidade, vamos compreender a mineração de dados e como podemos utilizar
nos negócios. Segundo Thuraisingham (1999), a mineração de dados é o
processo de proposição de várias consultas e extração de informações úteis,
padrões e tendências, frequentemente, desconhecidas. Bons estudos!

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 2/33
01/04/24, 23:08 Ead.br

Apresentação da
Disciplina, Definição de
Mineração de Dados

O que é a mineração de dados? Em um primeiro momento, em nossa mente


vem a ideia de um minerador de pedras preciosas em busca de ouro,
diamante ou outros minérios raros. Na verdade, essa analogia não foge muito
do conceito que iremos trabalhar. Quando falamos sobre o extenso volume
de dados, por meio de determinadas ferramentas e técnicas, buscamos
revelar estruturas que possam guiar nossas decisões dentro de uma
organização. Nesse sentido, objetivou-se essa disciplina, agilizar o processo de
decisão dentro da organização.

Dados em grande escala não são sinônimos de tomada de decisão correta.


Segundo Silveira, Marcolin e Freitas (2015), um fenômeno de destaque é o
crescente aumento de fontes de informações exógenas às empresas,
captadas por redes sociais, sensores em diversos produtos ou registros de
tráfego de internet, entre outros, muitas vezes, caracterizado pela expressão
Big Data. O termo surgiu em meados de 2010, segundo Chen e Zhang (2014),
para designar a tendência tecnológica de gerar grandes quantidades de
dados, de diferentes origens e formatos.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 3/33
01/04/24, 23:08 Ead.br

Podemos classificar os dados em três categorias, considerando sua origem.


Segundo Galdino (2016, p. 3), “dados estruturados são pertencentes a um
SGBD relacional bem organizado [...], dados semiestruturados, que são
irregulares ou incompletos não necessariamente de acordo com um esquema
padronizado.” O desafio está nos dados não estruturados ou
semiestruturados, pois eles são de difícil entendimento pelas pessoas, ou
seja, só podem ser interpretados de forma eficiente por máquinas. A intenção
é conseguir analisar os dados independente da classificação e transformá-los
em informações compreensíveis que tragam valor para a organização. Em
meio a esse dinamismo tecnológico em que nos deparamos nos dias de hoje,
o problema não é mais o armazenamento desses dados, mas a manipulação
de algoritmos inteligentes que nada mais são do que sequências de
instruções que nos levam a uma conclusão sobre qual ação devemos realizar.

saiba mais
Saiba mais
O Big Data é uma referência ao grande
volume de dados que temos nos dias de hoje
para os mais diversos assuntos distribuídos
pela internet. Diante dessa grande
oportunidade e desafio na mineração de
dados, sugerimos o artigo para se
aprofundar no assunto.
Fonte: Elaborado pelo autor.

ACESSAR

A cada dia surgem novas ferramentas, trazendo um ganho significativo no


desempenho do tratamento de dados, especialmente, se tratando do volume
e tempo de processamento das informações (GOLDMAN et al ., 2012).

Esse volume de informações mostra a necessidade de fazê-las útil para que


possa auxiliar as empresas e organizações na tomada de decisão, gerando
resultados positivos ao negócio. Para que isso ocorra, é necessário que esses

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 4/33
01/04/24, 23:08 Ead.br

dados sejam catalogados e organizados de forma que possamos transformar


os dados gerados em conteúdos gerem valor. Segundo Laudon e Laudon
(2011), um dos motivos para as empresas investirem em sistemas e
tecnologias da informação está no fato de que eles se tornaram
imprescindíveis à prática dos negócios. Observando o ambiente atual,
chegamos a alguns empasses, como: “É possível trabalhar com todos esses
dados?” e “Como estudar e compreender de maneira eficiente todo esse
volume de informações disponíveis em benefício das instituições?”

Para atender a este novo contexto, surgiu uma nova área denominada
Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in
Databases – KDD), que vem despertando grande interesse junto às
comunidades científica e industrial (GOLDSCHMIDT; PASSOS, 2005). Para
termos uma compreensão ampla do assunto, precisamos separar
hierarquicamente conhecimento, informação e dados, conforme Figura 1.1.

Figura 1.1 - Hierarquia do conhecimento


Fonte: Elaborada pelo autor.
Segundo Rezende (2015), dados são registros soltos, aleatórios, sem qualquer
análise. Conforme a Figura 1.1, podemos ver que os dados constituem a base

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 5/33
01/04/24, 23:08 Ead.br

para a formação do conhecimento. A informação é gerada a partir da


organização desses dados, assim, disponíveis à assimilação crítica para a
produção do conhecimento. Por fim, o conhecimento é a informação
organizada e transformada em experiência, ou seja, resultados positivos ou
negativos que irão facilitar a tomada de decisão. Nesse contexto,
compreendemos que os dados em conjunto formam informações coerentes
de fatos, situações e movimentações, gerando o conhecimento a partir da
junção dessas informações, daquilo que foi positivo ou negativa para a
organização.

Reflita
reflita
O Big Data vem com a ideia de um grande volume de dados
descoordenados e sem uma estrutura predefinida. Nesse
sentido, poucas empresas utilizam esses dados na tomada de
decisão a nível comercial, como você acha que poderia ser o
comportamento das empresas, caso houvesse uma
ferramenta que classificasse os itens da web de forma que
pudéssemos inseri-los na mineração de dados, como seria a
tomada de decisão? Faria alguma diferença?

Fonte: Elaborado pelo autor.

A descoberta de conhecimento em Base de Dados (KDD) foi formalizado em


1989, e em 1996 um grupo de pesquisadores a definiu de forma popular
(FAYYAD et al., 1996). Essa base consiste em algumas etapas operacionais que
são representadas pela Figura 1.2.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 6/33
01/04/24, 23:08 Ead.br

Figura 1.2 - Etapas operacionais


Fonte: Goldschmidt e Passos (2005, p. 3).
O pré-processamento é a captação dos dados que serão utilizados no
processo, captados, tratados e organizados para serem utilizados nos
algoritmos de mineração de dados. Durante a mineração de dados, as
informações são efetivamente transformadas em conhecimento que serão
utilizados no contexto abordado. Já no pós-processamento é realizado o
tratamento do conhecimento. Essa etapa nem sempre é utilizada, seu
objetivo principal consiste em organizar a utilidade de todo o conhecimento
adquirido na mineração de dados.

O KDD é composto por várias etapas que são definidas como não triviais,
interativas e iterativas. A etapa definida como não trivial consiste em um
alerta ao nível de complexidade presente no processo, determinando o grau
de relevância do contexto em que os dados se encontram. No iterativo
sugere a possibilidade de repetições integrais ou parciais do processo,
buscando dados satisfatórios pelo refinamento ocasionado na repetição da
ação. O interativo considera a atuação do homem como necessária e
responsável por controlar o processo durante a execução. Essas etapas
permitem a identificação de alguns padrões que são compreensíveis, válidos,
novos e potencialmente úteis, vindas de uma base de dados de grande
volume.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 7/33
01/04/24, 23:08 Ead.br

O conhecimento é gerado por meio de modelos que devem ser considerados


a organização como compreensível e de possível interpretação pelo homem.
A expressão pode ser válida quando o conhecimento é considerado
adequado ao contexto da aplicação de KDD, o padrão é considerado novo
quando apresenta novos conhecimentos que podem ser adicionados ao
contexto da aplicação. E, por fim, o conhecimento é útil quando pode ser
aplicado, proporcionando benefícios ao a descoberta de conhecimento na
base de dados. Na próxima seção, colocaremos esse conhecimento em
prática por um modelo que podemos utilizar a mineração de dados.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 8/33
01/04/24, 23:08 Ead.br

atividade
Atividade
Um fenômeno de destaque é o crescente aumento de fontes de informações
exógenas às empresas, captadas por redes sociais, sensores em diversos produtos
ou registros de tráfego de internet, entre outros, muitas vezes, caracterizado pela
expressão Big Data (SILVEIRA et al., 2015). Considerando as etapas operacionais de
KDD, assinale a alternativa correta.

a) O KDD consiste em 3 etapas, pré-processamento, mineração de dados e


pós-processamento.
b) O pós-processamento é a etapa responsável pelo tratamento do
conhecimento adquirido no processo.
c) A mineração de dados é a etapa responsável pela catalogação dos dados,
realizando a preparação deles.
d) O pré-processamento é responsável por preparar a informação que se
tornará conhecimento.
e) O conhecimento é gerado pelos algoritmos, que possibilitará a tomada de
decisão final.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 9/33
01/04/24, 23:08 Ead.br

Exemplos de Aplicações
de Mineração de Dados

Para fins ilustrativos, vamos considerar um restaurante, conforme


demonstrado na Figura 1.3, em que cada ponto no plano cartesiano
representa uma movimentação financeira durante o primeiro e segundo
semestre do ano. O conjunto de pontos forma uma base de dados hipotética
da movimentação referente ao ano anterior do ano de exercício atual. Para
compreensão do problema e entendimento da importância da mineração de
dados em uma empresa, foram utilizados apenas três fatores de referência:
período, saldo financeiro e movimentações realizadas. O período foi dividido
em 1º e 2º semestre, assim como o saldo formam os eixos do plano
cartesiano. A movimentação da empresa está dividido em duas classes: X =
gastos (despesas) e O = vendas (receitas).

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 10/33
01/04/24, 23:08 Ead.br

Figura 1.3 - Base de dados de um restaurante


Fonte: Elaborada pelo autor.
De forma geral nosso problema envolve n elementos que estão sendo
representados em um espaço n-dimensional . Neste modelo, é importante
para a empresa distribuir suas receitas e despesas de forma uniforme para
que o saldo se mantenha positivo durante o ano. Há várias formas de separar
as despesas durante o ano, considerando que é possível planejar seus
vencimentos de forma oposta as receitas que são aleatórias ao período,
sendo necessário a criação de ações que possam estimular seu crescimento.

A intenção é organizar as despesas para o próximo ano com base nos dados
apresentados em períodos anteriores e, com isso, podemos gerar uma regra
referente ao tempo. Podemos observar que as receitas são maiores no
segundo semestre, portanto, podemos definir que:

SE (receita > despesa) ENTÃO

PERÍODO = distribuir despesa

SENÃO

PERÍODO = criar métodos para gerar receita

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 11/33
01/04/24, 23:08 Ead.br

A intenção é de se definir uma regra que seja compreensível pelo homem e


possa ser trabalhada de forma inteligível. Embora o ideal seja uma
uniformidade entre receitas e despesas no período, e sempre que possível
uma sobreposição de receitas, percebemos que na prática não foi o que
aconteceu com o ano tomado como base para nosso estudo. Podemos
observar que no 1º semestre do ano tivemos despesas acima das receitas
geradas, e no 2º semestre ocorre o inverso, sendo as receitas muito acima das
despesas.

Para que possamos avaliar a regra adotada, precisamos verificar o seu nível de
confiança ou precisão na apuração dos dados. Com isso, é possível notar a
existência de casos que satisfazem a regra assim como sua negativa apurada
na parte principal, não existem outros fatores que fujam dessas duas
hipóteses. Então, podemos ressaltar que a nossa regra é linear obedecendo
duas situações distintas, porém o problema em si não é linearmente
separável em nosso diagrama, conforme demonstrado na Figura 1.4, ou seja,
não podem ser separados por uma reta em duas regiões distintas e
homogêneas.

Figura 1.4 - Divisão em regiões da base de dados


Fonte: Elaborada pelo autor.
A descoberta de conhecimento efetuado nessa base de dados é
multidisciplinar, nesse sentido, precisamos abordar conceitos que envolvem:

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 12/33
01/04/24, 23:08 Ead.br

Estatística financeira.
Inteligência computacional.
Reconhecimento de padrões uniformes de dados.
Banco de dados.

Com o propósito de melhor situar a área de KDD, a Figura 1.5 apresenta a


taxonomia das atividades na área da Descoberta de Conhecimento em Base
de Dados (GOLDSCHIMIDT; PASSOS, 2005). O qual aborda, principalmente, a
diversidade de ações utilizadas pelo KDD.

Figura 1.5 - Taxonomia de atividades de área KDD


Fonte: Goldschmidt e Passos (2005, p. 6).
A estrutura das ações tomadas pelo KDD é dividida em três áreas, conforme
demonstrado na Figura 1.5, que são o desenvolvimento tecnológico,
execução, aplicação dos resultados, segundo Goldshmidt e Passos (2005). Veja
no infográfico a seguir as definições.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 13/33
01/04/24, 23:08 Ead.br

Execução Aplicação dos


resultados

Desenvolvimento
Tecnológico

De forma geral, podemos analisar que a fase de Descoberta Conhecimento


em uma Base de Dados pode ser aplicada em qualquer ramo de atividade e
que a única necessidade existente são dados históricos que podem se tornar
a base para formação de uma estrutura que permita a mineração dos dados,
permitindo uma tomada de decisão consciente. A seguir, analisaremos cada
vez de forma mais técnica a abordagem realizada nesses dados.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 14/33
01/04/24, 23:08 Ead.br

atividade
Atividade
O nível de precisão ou confiança dos dados é de extrema importância para que
possamos compreender a melhor forma possível de criarmos conhecimento. Por
exemplo, em nosso restaurante vemos que os dados estão linearmente
organizados, de forma que a movimentação gera uma receita ou uma despesa,
porém, não é linearmente distribuída em nosso plano, sendo que no primeiro
semestre é evidente a existência despesas bem acima das receitas. Assinale a
alternativa correta.

a) Para que a geração de conhecimento seja adequada é preciso que os


dados estejam linearmente organizados e distribuídos.
b) Os dados precisam ser de origem estruturada tabularmente, para que
possam ser preparados para a mineração dos dados.
c) A mineração de dados pode ocorrer independente do ramo de atividade
da empresa, desde que seja possível um levantamento de dados coerente
para análise.
d) Não é necessário se preocupar se houver desequilíbrio nos dados, pois
eles serão equilibrados na fase de mineração de dados.
e) Obrigatoriamente, os dados precisam estar linearmente estruturados,
tendo os valores como verdadeiro ou falso para que a mineração dos dados
possa seja possível.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 15/33
01/04/24, 23:08 Ead.br

Fases da Mineração de
Dados e Desenvolvimento
de Produtos de Mineração

Conforme a primeira parte da unidade, o KDD se divide em três etapas que


precisam se desenvolver para formação do conhecimento que, por sua vez,
será importante na geração de um resultado consistente para a organização.
Definimos a fases de pré-processamento, mineração dos dados e pós-
processamento que será tratado nos próximos tópicos, sendo que ele nem
sempre é aplicado e envolve a análise do conhecimento gerado. Para uma
melhor compreensão utilizaremos como exemplo o restaurante abordado no
início da unidade.

Pré-processamento
Essa é a etapa mais importante a ser abordada, pois em todas as fases
posteriores, o resultado final estão totalmente dependentes no tratamento
dos dados realizado inicialmente. A descoberta do conhecimento por meio
das bases de dados é o processo que precisa identificar aquilo que não é
trivial, que são padrões válidos a serem considerados e, potencialmente,
úteis. Nessa etapa são definidas as perguntas e decisões que irão servir de

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 16/33
01/04/24, 23:08 Ead.br

guia. Nesse sentido, é importante manter o foco na estratégia utilizada, na


busca de determinado tipo de informação, assim como adaptação à realidade
aplicada em cada grupo de usuários que analisará os resultados.

Esta etapa também é conhecida como Preparação de Dados, e por


envolver uma série de atividades até a sua finalização, que envolve
inclusive o estudo de processos, acaba se tornando a etapa que
exige maior esforço dentro de um projeto de extração de
conhecimento. (SHIBA, 2008, p. 36)

Segundo Goldschmidt e Passos (2005), o problema encontrado no pré-


processamento é caracterizado por três elementos: o conjunto de dados, o
especialista do domínio da aplicação e objetivos da aplicação.

O conjunto de dados, geralmente, não são originados de uma mesma base de


dados, eles podem ser relacionados a diferentes áreas da empresa e até a
filiais. Esses dados precisam ser reunidos e integrados para uma análise
detalhada em uma estrutura tabular bidimensional. Nesse sentido, é
importante destacar que o KDD não exige que os dados estejam reunidos em
um Data Warehouse (veja essa expressão no item Saiba Mais). Porém, é
essencial que os dados sejam reunidos em um ambiente desse tipo para
facilitarem a catalogação. Utilizando os dados do restaurante, realizamos a
estruturação em uma tabela modelo, conforme o Quadro 1.1 a seguir, que
apresenta os dados relevantes captados no pré-processamento.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 17/33
01/04/24, 23:08 Ead.br

Atributo Tipo de Dado Descrição do domínio

Data de execução da
Data_lancto Date
movimentação

Tipo de conta

Tipo Char(1) R - Receita

D - Despesa

Origem da movimentação

V - Venda à Vista
Origem Char(1)
P - Venda a prazo

D - Despesa

Valor Real Valor da movimentação

Data vencimento da conta


Data_final Date
DD/MM/AAAA

Nome da pessoa ou
Pessoa_empresa Varchar(100) empresa envolvido na
movimentação

Plano_contas Char(1) Plano de contas envolvendo


movimentação

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 18/33
01/04/24, 23:08 Ead.br

C - Venda consumidor final

F - Gasto fornecedor

D - Despesas diversas

U - custo funcionários

Quadro 1.1 - Dados pré-processados estruturalmente


Fonte: Elaborado pelo autor.

Em conjunto com as informações geradas na estrutura do Quadro 1.1, a


função gerada através dos dados selecionados em uma única estrutura
tabular, recebem dois enfoques distintos: a seleção dos atributos, ou redução
de dados verticais; e a seleção de registros, ou redução de dados horizontais.

A redução de dados verticais consiste em uma análise mais ampla dos


campos selecionados. Segundo Goldschmidt e Passos (2005), a redução de
dados vertical, também denominada redução de dimensão, é implementada
pela eliminação ou pela substituição dos atributos de um conjunto de dados.
Dessa forma, a intenção é diminuir ao máximo os atributos sem perder a
informação original.

A redução de dados horizontais abrange o conjunto de dados coletados para


geração da informação. Para isso, podemos fazer uma abordagem em um
conjunto de dados aleatórios de um determinado período de amostragem,
segmentação e agregação de informações no banco de dados. A eliminação
de determinados casos para enxugar e permanecer mais focado na
informação que precisa ser gerada.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 19/33
01/04/24, 23:08 Ead.br

saiba mais
Saiba mais
O que é Data Warehouse?
Data Warehouse é a referência que fazemos
a um depósito de dados orientado por
assunto, integrado e relacionado ao tempo
de forma não volátil. Sua principal função
está em auxiliar o apoio à decisão gerencial.
Fonte: Elaborado pelo autor.

ACESSAR

Os especialistas no domínio da aplicação são formados por pessoas ou


grupos que dominam o assunto e conhecem o ambiente em que o KDD fará a
transformação dos dados em conhecimento. As informações geradas por
essas pessoas são fundamentais no processo de avaliação dos resultados
obtidos e na informação formada pela estruturação dos dados.

Os objetivos da aplicação são as características esperadas no modelo de


conhecimento gerado no final do processo. De forma geral, é um espelho do
lugar que esperamos chegar ao final do KDD, a precisão mínima que a base
de conhecimento gerada precisa ter. No exemplo do restaurante, podemos
definir que as despesas não podem comprometer mais de 30% do saldo
existente em caixa, isso é a previsão mínima adotada na hora de distribuir as
despesas da empresa de forma aceitável. Para traçar esse tipo de objetivo,
esperamos a posição dos especialistas no assunto abordado, porém eles não
são absolutos do início ao fim do processo. Os objetivos podem ser refinados
ao longo do processo, podem ser um ou N objetivos.

Mineração dos Dados

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 20/33
01/04/24, 23:08 Ead.br

Devemos analisar os recursos envolvidos no processo de mineração dos


dados. Temos o especialista em KDD, ou seja, técnico no assunto e não
especialista na área do problema. Sua obrigação no processo consiste em
identificar os problemas apontados e o conhecimento prévio para sua análise,
validando quais ações devem ser tomadas e quais ferramentas serão
melhores empregadas no processo, assim como validar os resultados obtidos.
Nessa etapa, devem ser aplicados os algoritmos da mineração dos dados, que
tem como função gerar modelos de conhecimento que dependem
diretamente dos algoritmos de mineração que serão utilizados.

Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação. Na Figura
1.6, podemos observar a gestão financeira do restaurante, contendo no plano
cartesiano os eixos que consistem no tempo e no saldo, cada ponto
representa uma movimentação financeira.

Figura 1.6 - Exemplo de aplicação do espaço


Fonte: Elaborada pelo autor.
Entretanto, é necessário que os processos guiados pelo KDD gerem tarefas
que levarão os especialistas do domínio da aplicação a criarem o modelo de
conhecimento que podem trazer diferentes tipos de padrões a serem
analisados. Considere que o restaurante deseja fazer uma expansão e, para
isso, terá um aumento de 10% nos gastos. Ele quer aplicar uma melhor

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 21/33
01/04/24, 23:08 Ead.br

estratégia para que os lucros acompanhem esse aumento e o saldo ainda


consiga se manter positivo. Essa intenção nos leva a classificação das
movimentações financeiras que veremos nas unidades posteriores.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 22/33
01/04/24, 23:08 Ead.br

atividade
Atividade
Os dados coletados precisam ser distribuídos em uma estrutura de dados tabular e
organizados de forma finita, para que possa facilitar a geração de informações na
base de conhecimento. Levando em consideração essa informação, assinale a
alternativa correta.

a) Todo grupo de dados no KDD está interligado a uma base de fatos, a qual
é determinada pelo conjunto de dados utilizados para a avaliação.
b) Para a geração do modelo de conhecimento, inicialmente, não é
necessária a utilização de algoritmos de mineração de dados.
c) O especialista em KDD é necessário desde a fase de preparação dos dados
até a mineração de dados, acompanhando o especialista na área.
d) O especialista da área é desnecessário a partir da fase de mineração de
dados, sendo importante somente após a mineração de dados ter ocorrido
para avaliação dos resultados.
e) O KDD exige que os dados estejam reunidos em um Data Warehouse.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 23/33
01/04/24, 23:08 Ead.br

Abordagens de Mineração
de Dados - Definição de
Regras ou Aprendizagem

Essa é a fase do pós-processamento, em que o modelo de conhecimento é


analisado e interpretado pelo especialista em KDD e o especialista do
problema. Vamos analisar algumas operações importantes para a definição
de regras e aprendizado por meio de redes neurais e algoritmos genéticos.

Modelo de Conhecimento Simplificado


Muitas vezes, o modelo de conhecimento gerado na mineração de dados,
devido ao volume de informações que acarreta, pode se tornar complexo
para um direcionamento pelos especialistas. Com isso, é necessária uma
simplificação do conhecimento para uma melhor análise.

Para melhor compreendermos, vamos analisar a seguinte regra X -> Y, onde


as condições são lógicas. Para isso, temos como regras:

Precisão da regra: é definida pelo percentual de registros que


satisfazem ao antecedente e posteriormente ao consequente à regra.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 24/33
01/04/24, 23:08 Ead.br

Abrangência da regra: é definida pelo percentual que satisfaz ao


consequente e posteriormente ao antecedente à regra.

O especialista de KDD deve estabelecer limites de precisão e abrangência, de


forma que ao enxugar do modelo de conhecimento gerado, eliminando todas
as regras que não satisfaçam os limites estabelecidos.

Regras de Associação
É a junção de objetos que tenham características e tendências semelhantes,
gerando redes interconectadas de conhecimento adquirido. Segundo Côrtez
et al. (2002), o banco de dados é visto como uma coleção de transação, cada
uma envolvendo um conjunto de itens. Utilizando esse modelo simplificamos
a geração de conhecimento para o auxílio na tomada de decisão.

Redes Neurais
Consiste na aplicação digital das redes biológicas de neurônios, ou seja,
utilizam a mesma regra. Denominados como RN (redes neurais),
implementam detecções sofisticadas de padrões e algoritmos de aprendizado
de máquina, para auxiliar a compreensão de grandes bases de dados.

Uma rede neural é um processador maciçamente paralelamente


distribuído constituído de unidades de processamento simples, que
têm a propensão natural para armazenar conhecimento
experimental e torná-lo disponível para uso. Assemelhando-se ao
cérebro humano. (HAYKIN, 2001, p. 28)

O conhecimento é assimilado pela rede a partir da formação do


conhecimento, de forma a compreender esse conteúdo como aprendizado. E
as conexões geradas por meio dos pesos sinápticos adquiridos, armazena o
conhecimento. A Figura 1.7 mostra o modelo hipotético de uma rede neural e
suas camadas intermediárias, que demonstram o nível de conhecimento
adquirido.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 25/33
01/04/24, 23:08 Ead.br

Figura 1.7 - Representação gráfica de uma rede neural


Autor: Adaptado de Côrtez, Porcaro e Lifschitz (2002).

Algoritmos Genéticos
Algoritmos genéticos são formados por algoritmos baseados na seleção
natural e genética para otimização na busca por resultados que auxiliem a
tomada de decisão de uma organização. Geralmente, considerando que uma
busca ocorre de forma sequencial até conseguir alcançar o resultado
esperado. Os algoritmos genéticos realizam a busca de possíveis soluções de
forma simultânea em N bases de informação. Segundo Côrtez, Porcaro e
Lifschitz (2002), algoritmos genéticos são aplicados com sucesso em campos
diversificados como análise de imagens, escalonamento e projetos de
engenharia.

Sua principal função é resolver os problemas, assim como agrupá-los. Sua


capacidade de trabalhar de forma paralela tem sido uma arma fantástica na
mineração de dados, entretanto, isso exige uma demanda computacional
considerável em sua utilização.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 26/33
01/04/24, 23:08 Ead.br

Atualmente, várias outras técnicas estão à disposição da mineração de dados,


como a lógica fuzzy, classificação bayesiana, entre outras que tem seu
emprego conforme a necessidade da organização. Portanto, cabe a análise da
situação de forma específica para compreender qual melhor técnica para a
ocasião.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 27/33
01/04/24, 23:08 Ead.br

atividade
Atividade
Para que a mineração de dados seja mais efetiva com o passar do tempo, seu
funcionamento é de extrema importância, o sistema utiliza o aprendizado por
experiência, baseado no modelo de experiência gerado. Considerando essa
afirmação, assinale a alternativa correta.

a) O aprendizado de máquina pode ser gerado utilizando algoritmos


envolvidos em redes neurais ou algoritmos genéticos.
b) Redes neurais se baseiam na linha evolutiva para formação dos algoritmos
de aprendizado de máquina.
c) Algoritmos genéticos se baseiam na estrutura de evolução da rede
biológica neurológica.
d) Algoritmos genéticos trabalham para facilitar o aprendizado de máquina,
porém diferente das redes neurais não conseguem realizar buscas de forma
paralela.
e) A principal função dos algoritmos genéticos é resolver os problemas
paralelamente de forma ágil, independente do volume de informações.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 28/33
01/04/24, 23:08 Ead.br

indicações
Material
Complementar

LIVRO

Big Data: O futuro dos dados e aplicações


Editora: Saraiva
Autor: Felipe Nery Rodrigues Machado
ISBN: 978-8536527000
Comentário: Este livro apresenta os principais
fundamentos de Big Data, seu histórico e sua utilização.
Explica as diferenças existentes entre ele e Business
Intelligence (BI), e ainda, o que é Big Data Analytics e
Análise Preditiva.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 29/33
01/04/24, 23:08 Ead.br

FILME

The beauty of data visualization - David


McCandless
Ano: 2012
Comentário: David McCandless transforma conjuntos
de dados complexos, como gastos militares em todo o
mundo, novidades da mídia e atualizações de status do
Facebook, em belos e simples diagramas que provocam
padrões e conexões invisíveis. Ele sugere que um bom
design é a melhor maneira de navegar pelo excesso de
informações, e pode mudar a maneira como vemos o
mundo.

TRAILER

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 30/33
01/04/24, 23:08 Ead.br

conclusão
Conclusão
Nesta unidade, vimos que não existe uma forma específica de aplicação do
conhecimento adquirido ao longo da unidade, não possui uma definição
exata, muito menos qual seria a melhor técnica de mineração de dados ou
descoberta de conhecimento a ser utilizada. Nesse sentido, podemos utilizar
de árvores, regras, tabelas estruturadas ou semiestruturadas, cubos de
dados, entre outros elementos possíveis. O que precisamos entender é qual o
resultado esperado? Quais dados temos em mão e qual a maneira que eles se
encontram distribuídos? Dessa maneira, conseguimos identificar a técnica
utilizada e quais algoritmos melhor se aplicam para alcançarmos os
resultados esperados.

referências
Referências
Bibliográficas
CÔRTEZ, S. C.; PORCARO, R. M.; LIFSCHITZ, S. Mineração de dados:
funcionalidades, técnicas e abordagens. PUC Rio Inf. , 2002.

COMSTOR, C. Fatos interessantes sobre o Big Data. Canal do Comstor , 2019.


Disponível em: https://blogbrasil.comstor.com/fatos-interessantes-sobre-o-

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 31/33
01/04/24, 23:08 Ead.br

big-data . Acesso em: 6 dez. 2019.

CHEN, C. P.; ZHANG, C. Y. Data-intensive applications, challenges, techniques


and technologies: A survey on Big Data. Information Sciences , v. 275, p. 314-
347, 10 ago. 2014.

DAVENPORT, T. H.; BARTH, P.; BEAN, R. How “big data” is different. MIT: Sloan
Management Review. MIT Sloan Management Review , v. 54, n. 1, 2012.

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to


knowledge discovery: an overview. Menlo Park: AAAI Press, 1996.

GALDINO, N. Big Data: Ferramentas e Aplicabilidade. In: SIMPÓSIO DE


EXCELÊNCIA EM GESTÃO E TECNOLOGIA. 2016. Disponível em:
https://www.aedb.br/seget/arquivos/artigos16/472427.pdf . Acesso em: 10
dez. 2019.

GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo:


Elsevier Editora Ltda., 2005.

GOLDMAN, A.; KON, F.; JUNIOR, F. P.; POLATO, I.; DE FÁTIMA PEREIRA, R.
Apache Hadoop: Conceitos teóricos e práticos, evolução e novas
possibilidades. In: JORNADAS DE ATUALIZAÇÕES E INFORMÁTICA, 31., 2012.
Anais… Maceió: SBC, 2012. Disponível em: https://bit.ly/39aMzW3 . Acesso
em: 1 dez. 2019.

HAYKIN, S. Redes Neurais: princípios e prática. 2. ed. Porto Alegre: Editora


Bookman, 2001.

REZENDE, E. Dados, informação e conhecimento. O que são? ER Consultoria ,


2015. Disponível em: http://eliana-rezende.com.br/dados-informacao-e-
conhecimento-o-que-sao/ . Acesso em: 6 dez. 2019.

SHIBA, S. K.; Modelagem de processo de extração de conhecimento em


banco de dados para sistemas de suporte à decisão . Dissertação
(Mestrado) - Escola Politécnica da Universidade de São Paulo. São Paulo. 2008.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 32/33
01/04/24, 23:08 Ead.br

Disponível em: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-


02102008-173336/pt-br.php . Acesso em: 21 jan. 2020.

SILVEIRA, M.; MARCOLIN, C. B.; FREITAS, H. M. R. Big Data e seu uso


corporativo: Uma revisão literária. In: SIMPÓSIO INTERNACIONAL DE GESTÃO
DE PROJETOS, INOVAÇÃO E SUSTENTABILIDADE, 4., 2015. Anais… São Paulo:
SIGEP, 2015. Disponível em: https://singep.org.br/4singep/resultado/245.pdf .
Acesso em: 25 nov. 2019.

LAUDON, K.; LAUDON, J. Sistemas de informações gerenciais . 9. ed. São


Paulo: Pearson Education do Brasil, 2011.

THURAISINGHAM, B. Data Mining: technologies, techniques, tools and trends.


Washington: CRCPress, 1999.

https://codely-fmu-content.s3.amazonaws.com/Moodle/EAD/Conteudo/CTI_MIDADO_20/unidade_1/ebook/index.html 33/33

Você também pode gostar