Você está na página 1de 34

23/02/2020 Ead.

br

MINERAÇÃO DE DADOS
MINERAÇÃO DE DADOS, SUAS
ABORDAGENS E FASES
Autor: Esp. Wesley Soares de Souza
Revisor: Bruno Roberto Nepomuceno Matheus

INICIAR

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 1/34
23/02/2020 Ead.br

introdução
Introdução

Nos dias de hoje, di cilmente uma empresa não possui seus dados armazenados
digitalmente. A tecnologia tem-se mostrado cada vez ais presente e com um custo
muito baixo, comparado a anos anteriores. Isso faz com que um amontoado de
informações, que antes cavam restritas a salas de arquivos, hoje se restrinjam a
servidores. Esse volume desmedido de dados desconexos tem ganhado
notoriedade na mídia e organizações, por vezes, trazendo fascínio e descon ança
(DAVENPORT, 2012) em pessoas que se envolvem diretamente com a gestão de
informação.

O homem não consegue chegar a resultados satisfatórios, em tempo hábil, sem a


ajuda de ferramentas computacionais adequadas. Dessa forma, técnicas como a
Mineração de Dados (Data Mining) fazem parte de uma das etapas da descoberta
do conhecimento em Base de Dados (KDD). Nesta unidade, vamos compreender a
mineração de dados e como podemos utilizar nos negócios. Segundo
Thuraisingham (1999), a mineração de dados é o processo de proposição de várias
consultas e extração de informações úteis, padrões e tendências, frequentemente,
desconhecidas. Bons estudos!

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 2/34
23/02/2020 Ead.br

Apresentação da
Disciplina, De nição de
Mineração de Dados

O que é a mineração de dados? Em um primeiro momento, em nossa mente vem a


ideia de um minerador de pedras preciosas em busca de ouro, diamante ou outros
minérios raros. Na verdade, essa analogia não foge muito do conceito que iremos
trabalhar. Quando falamos sobre o extenso volume de dados, por meio de
determinadas ferramentas e técnicas, buscamos revelar estruturas que possam
guiar nossas decisões dentro de uma organização. Nesse sentido, objetivou-se
essa disciplina, agilizar o processo de decisão dentro da organização.

Dados em grande escala não são sinônimos de tomada de decisão correta.


Segundo Silveira, Marcolin e Freitas (2015), um fenômeno de destaque é o
crescente aumento de fontes de informações exógenas às empresas, captadas por
redes sociais, sensores em diversos produtos ou registros de tráfego de internet,
entre outros, muitas vezes, caracterizado pela expressão Big Data. O termo surgiu
em meados de 2010, segundo Chen e Zhang (2014), para designar a tendência
tecnológica de gerar grandes quantidades de dados, de diferentes origens e
formatos.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 3/34
23/02/2020 Ead.br

Podemos classi car os dados em três categorias, considerando sua origem.


Segundo Galdino (2016, p. 3), “dados estruturados são pertencentes a um SGBD
relacional bem organizado [...], dados semiestruturados, que são irregulares ou
incompletos não necessariamente de acordo com um esquema padronizado.” O
desa o está nos dados não estruturados ou semiestruturados, pois eles são de
difícil entendimento pelas pessoas, ou seja, só podem ser interpretados de forma
e ciente por máquinas. A intenção é conseguir analisar os dados independente da
classi cação e transformá-los em informações compreensíveis que tragam valor
para a organização. Em meio a esse dinamismo tecnológico em que nos deparamos
nos dias de hoje, o problema não é mais o armazenamento desses dados, mas a
manipulação de algoritmos inteligentes que nada mais são do que sequências de
instruções que nos levam a uma conclusão sobre qual ação devemos realizar.

saiba mais
Saiba mais
O Big Data é uma referência ao grande volume
de dados que temos nos dias de hoje para os
mais diversos assuntos distribuídos pela
internet. Diante dessa grande oportunidade e
desa o na mineração de dados, sugerimos o
artigo para se aprofundar no assunto.

Fonte: Elaborado pelo autor.

ACESSAR

A cada dia surgem novas ferramentas, trazendo um ganho signi cativo no


desempenho do tratamento de dados, especialmente, se tratando do volume e
tempo de processamento das informações (GOLDMAN et al., 2012).

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 4/34
23/02/2020 Ead.br

Esse volume de informações mostra a necessidade de fazê-las útil para que possa
auxiliar as empresas e organizações na tomada de decisão, gerando resultados
positivos ao negócio. Para que isso ocorra, é necessário que esses dados sejam
catalogados e organizados de forma que possamos transformar os dados gerados
em conteúdos gerem valor. Segundo Laudon e Laudon (2011), um dos motivos
para as empresas investirem em sistemas e tecnologias da informação está no fato
de que eles se tornaram imprescindíveis à prática dos negócios. Observando o
ambiente atual, chegamos a alguns empasses, como: “É possível trabalhar com
todos esses dados?” e “Como estudar e compreender de maneira e ciente todo
esse volume de informações disponíveis em benefício das instituições?”

Para atender a este novo contexto, surgiu uma nova área denominada Descoberta
de Conhecimento em Bases de Dados (Knowledge Discovery in Databases –
KDD), que vem despertando grande interesse junto às comunidades cientí ca e
industrial (GOLDSCHMIDT; PASSOS, 2005). Para termos uma compreensão
ampla do assunto, precisamos separar hierarquicamente conhecimento,
informação e dados, conforme Figura 1.1.

Figura 1.1 - Hierarquia do conhecimento


Fonte: Elaborada pelo autor.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 5/34
23/02/2020 Ead.br

Segundo Rezende (2015), dados são registros soltos, aleatórios, sem qualquer
análise. Conforme a Figura 1.1, podemos ver que os dados constituem a base para
a formação do conhecimento. A informação é gerada a partir da organização
desses dados, assim, disponíveis à assimilação crítica para a produção do
conhecimento. Por m, o conhecimento é a informação organizada e
transformada em experiência, ou seja, resultados positivos ou negativos que irão
facilitar a tomada de decisão. Nesse contexto, compreendemos que os dados em
conjunto formam informações coerentes de fatos, situações e movimentações,
gerando o conhecimento a partir da junção dessas informações, daquilo que foi
positivo ou negativa para a organização.

Re ita
reflita
O Big Data vem com a ideia de um grande volume de dados
descoordenados e sem uma estrutura prede nida. Nesse
sentido, poucas empresas utilizam esses dados na tomada de
decisão a nível comercial, como você acha que poderia ser o
comportamento das empresas, caso houvesse uma ferramenta
que classi casse os itens da web de forma que pudéssemos
inseri-los na mineração de dados, como seria a tomada de
decisão? Faria alguma diferença?

Fonte: Elaborado pelo autor.

A descoberta de conhecimento em Base de Dados (KDD) foi formalizado em


1989, e em 1996 um grupo de pesquisadores a de niu de forma popular (FAYYAD
et al., 1996). Essa base consiste em algumas etapas operacionais que são
representadas pela Figura 1.2.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 6/34
23/02/2020 Ead.br

Figura 1.2 - Etapas operacionais


Fonte: Goldschmidt e Passos (2005, p. 3).

O pré-processamento é a captação dos dados que serão utilizados no processo,


captados, tratados e organizados para serem utilizados nos algoritmos de
mineração de dados. Durante a mineração de dados, as informações são
efetivamente transformadas em conhecimento que serão utilizados no contexto
abordado. Já no pós-processamento é realizado o tratamento do conhecimento.
Essa etapa nem sempre é utilizada, seu objetivo principal consiste em organizar a
utilidade de todo o conhecimento adquirido na mineração de dados.

O KDD é composto por várias etapas que são de nidas como não triviais,
interativas e iterativas. A etapa de nida como não trivial consiste em um alerta ao
nível de complexidade presente no processo, determinando o grau de relevância
do contexto em que os dados se encontram. No iterativo sugere a possibilidade de
repetições integrais ou parciais do processo, buscando dados satisfatórios pelo
re namento ocasionado na repetição da ação. O interativo considera a atuação
do homem como necessária e responsável por controlar o processo durante a
execução. Essas etapas permitem a identi cação de alguns padrões que são
compreensíveis, válidos, novos e potencialmente úteis, vindas de uma base de
dados de grande volume.

O conhecimento é gerado por meio de modelos que devem ser considerados a


organização como compreensível e de possível interpretação pelo homem. A

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 7/34
23/02/2020 Ead.br

expressão pode ser válida quando o conhecimento é considerado adequado ao


contexto da aplicação de KDD, o padrão é considerado novo quando apresenta
novos conhecimentos que podem ser adicionados ao contexto da aplicação. E, por
m, o conhecimento é útil quando pode ser aplicado, proporcionando benefícios
ao a descoberta de conhecimento na base de dados. Na próxima seção,
colocaremos esse conhecimento em prática por um modelo que podemos utilizar
a mineração de dados.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 8/34
23/02/2020 Ead.br

atividade
Atividade
Um fenômeno de destaque é o crescente aumento de fontes de informações exógenas às
empresas, captadas por redes sociais, sensores em diversos produtos ou registros de
tráfego de internet, entre outros, muitas vezes, caracterizado pela expressão Big Data
(SILVEIRA et al., 2015). Considerando as etapas operacionais de KDD, assinale a
alternativa correta.

a) O KDD consiste em 3 etapas, pré-processamento, mineração de dados e pós-


processamento.
b) O pós-processamento é a etapa responsável pelo tratamento do conhecimento
adquirido no processo.
c) A mineração de dados é a etapa responsável pela catalogação dos dados,
realizando a preparação deles.
d) O pré-processamento é responsável por preparar a informação que se tornará
conhecimento.
e) O  conhecimento é gerado pelos algoritmos, que possibilitará a tomada de
decisão nal.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 9/34
23/02/2020 Ead.br

Exemplos de Aplicações
de Mineração de Dados

Para ns ilustrativos, vamos considerar um restaurante, conforme demonstrado


na Figura 1.3, em que cada ponto no plano cartesiano representa uma
movimentação nanceira durante o primeiro e segundo semestre do ano. O
conjunto de pontos forma uma base de dados hipotética da movimentação
referente ao ano anterior do ano de exercício atual. Para compreensão do
problema e entendimento da importância da mineração de dados em uma
empresa, foram utilizados apenas três fatores de referência: período, saldo
nanceiro e movimentações realizadas. O período foi dividido em 1º e 2º
semestre, assim como o saldo formam os eixos do plano cartesiano. A
movimentação da empresa está dividido em duas classes: X = gastos (despesas) e
O = vendas (receitas).

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 10/34
23/02/2020 Ead.br

Figura 1.3 - Base de dados de um restaurante


Fonte: Elaborada pelo autor.
De forma geral nosso problema envolve n elementos que estão sendo
representados em um espaço n-dimensional. Neste modelo, é importante para a
empresa distribuir suas receitas e despesas de forma uniforme para que o saldo se
mantenha positivo durante o ano. Há várias formas de separar as despesas
durante o ano, considerando que é possível planejar seus vencimentos de forma
oposta as receitas que são aleatórias ao período, sendo necessário a criação de
ações que possam estimular seu crescimento.

A intenção é organizar as despesas para o próximo ano com base nos dados
apresentados em períodos anteriores e, com isso, podemos gerar uma regra
referente ao tempo. Podemos observar que as receitas são maiores no segundo
semestre, portanto, podemos de nir que:

SE (receita > despesa) ENTÃO

PERÍODO = distribuir despesa

SENÃO

PERÍODO = criar métodos para gerar receita

A intenção é de se de nir uma regra que seja compreensível pelo homem e possa
ser trabalhada de forma inteligível. Embora o ideal seja uma uniformidade entre

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 11/34
23/02/2020 Ead.br

receitas e despesas no período, e sempre que possível uma sobreposição de


receitas, percebemos que na prática não foi o que aconteceu com o ano tomado
como base para nosso estudo. Podemos observar que no 1º semestre do ano
tivemos despesas acima das receitas geradas, e no 2º semestre ocorre o inverso,
sendo as receitas muito acima das despesas.

Para que possamos avaliar a regra adotada, precisamos veri car o seu nível de
con ança ou precisão na apuração dos dados. Com isso, é possível notar a
existência de casos que satisfazem a regra assim como sua negativa apurada na
parte principal, não existem outros fatores que fujam dessas duas hipóteses.
Então, podemos ressaltar que a nossa regra é linear obedecendo duas situações
distintas, porém o problema em si não é linearmente separável em nosso
diagrama, conforme demonstrado na Figura 1.4, ou seja, não podem ser separados
por uma reta em duas regiões distintas e homogêneas.

Figura 1.4 - Divisão em regiões da base de dados


Fonte: Elaborada pelo autor.

A descoberta de conhecimento efetuado nessa base de dados é multidisciplinar,


nesse sentido, precisamos abordar conceitos que envolvem:

Estatística nanceira.
Inteligência computacional.
Reconhecimento de padrões uniformes de dados.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 12/34
23/02/2020 Ead.br

Banco de dados.

Com o propósito de melhor situar a área de KDD, a Figura 1.5 apresenta a


taxonomia das atividades na área da Descoberta de Conhecimento em Base de
Dados (GOLDSCHIMIDT; PASSOS, 2005). O qual aborda, principalmente, a
diversidade de ações utilizadas pelo KDD.

A estrutura das ações tomadas pelo KDD é dividida em três áreas, conforme
demonstrado na Figura 1.5, que são o desenvolvimento tecnológico, execução,
aplicação dos resultados, segundo Goldshmidt e Passos (2005). Veja no infográ co
a seguir as de nições.

Execução Aplicação dos


resultados

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 13/34
23/02/2020 Ead.br

Desenvolvimento
Tecnológico

De forma geral, podemos analisar que a fase de Descoberta Conhecimento em


uma Base de Dados pode ser aplicada em qualquer ramo de atividade e que a
única necessidade existente são dados históricos que podem se tornar a base para
formação de uma estrutura que permita a mineração dos dados, permitindo uma
tomada de decisão consciente. A seguir, analisaremos cada vez de forma mais
técnica a abordagem realizada nesses dados.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 14/34
23/02/2020 Ead.br

atividade
Atividade
O nível de precisão ou con ança dos dados é de extrema importância para que possamos
compreender a melhor forma possível de criarmos conhecimento. Por exemplo, em
nosso restaurante vemos que os dados estão linearmente organizados, de forma que a
movimentação gera uma receita ou uma despesa, porém, não é linearmente distribuída
em nosso plano, sendo que no primeiro semestre é evidente a existência despesas bem
acima das receitas. Assinale a alternativa correta.

a) Para que a geração de conhecimento seja adequada é preciso que os dados


estejam linearmente organizados e distribuídos.
b) Os dados precisam ser de origem estruturada tabularmente, para que possam
ser preparados para a mineração dos dados.
c) A mineração de dados pode ocorrer independente do ramo de atividade da
empresa, desde que seja possível um levantamento de dados coerente para
análise.
d) Não é necessário se preocupar se houver desequilíbrio nos dados, pois eles
serão equilibrados na fase de mineração de dados.
e) Obrigatoriamente, os dados precisam estar linearmente estruturados, tendo
os valores como verdadeiro ou falso para que a mineração dos dados possa seja
possível.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 15/34
23/02/2020 Ead.br

Fases da Mineração de
Dados e Desenvolvimento
de Produtos de
Mineração

Conforme a primeira parte da unidade, o KDD se divide em três etapas que


precisam se desenvolver para formação do conhecimento que, por sua vez, será
importante na geração de um resultado consistente para a organização. De nimos
a fases de pré-processamento, mineração dos dados e pós-processamento que
será tratado nos próximos tópicos, sendo que ele nem sempre é aplicado e envolve
a análise do conhecimento gerado. Para uma melhor compreensão utilizaremos
como exemplo o restaurante abordado no início da unidade.

Pré-processamento
Essa é a etapa mais importante a ser abordada, pois em todas as fases posteriores,
o resultado nal estão totalmente dependentes no tratamento dos dados
realizado inicialmente. A descoberta do conhecimento por meio das bases de
dados é o processo que precisa identi car aquilo que não é trivial, que são padrões
válidos a serem considerados e, potencialmente, úteis. Nessa etapa são de nidas
as perguntas e decisões que irão servir de guia. Nesse sentido, é importante

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 16/34
23/02/2020 Ead.br

manter o foco na estratégia utilizada, na busca de determinado tipo de


informação, assim como adaptação à realidade aplicada em cada grupo de
usuários que analisará os resultados.

Esta etapa também é conhecida como Preparação de Dados, e por


envolver uma série de atividades até a sua nalização, que envolve
inclusive o estudo de processos, acaba se tornando a etapa que exige
maior esforço dentro de um projeto de extração de conhecimento.
(SHIBA, 2008, p. 36)

Segundo Goldschmidt e Passos (2005), o problema encontrado no pré-


processamento é caracterizado por três elementos: o conjunto de dados, o
especialista do domínio da aplicação e objetivos da aplicação.

O conjunto de dados, geralmente, não são originados de uma mesma base de


dados, eles podem ser relacionados a diferentes áreas da empresa e até a liais.
Esses dados precisam ser reunidos e integrados para uma análise detalhada em
uma estrutura tabular bidimensional. Nesse sentido, é importante destacar que o
KDD não exige que os dados estejam reunidos em um Data Warehouse (veja essa
expressão no item Saiba Mais). Porém, é essencial que os dados sejam reunidos
em um ambiente desse tipo para facilitarem a catalogação. Utilizando os dados do
restaurante, realizamos a estruturação em uma tabela modelo, conforme o
Quadro 1.1 a seguir, que apresenta os dados relevantes captados no pré-
processamento.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 17/34
23/02/2020 Ead.br

Atributo Tipo de Dado Descrição do domínio

Data de execução da
Data_lancto Date
movimentação

Tipo de conta

Tipo Char(1) R - Receita

D - Despesa

Origem da movimentação

V - Venda à Vista
Origem Char(1)
P - Venda a prazo

D - Despesa

Valor Real Valor da movimentação

Data vencimento da conta


Data_ nal Date
DD/MM/AAAA

Nome da pessoa ou empresa


Pessoa_empresa Varchar(100)
envolvido na movimentação

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 18/34
23/02/2020 Ead.br

Plano_contas Char(1) Plano de contas envolvendo


movimentação
C - Venda consumidor nal

F - Gasto fornecedor

D - Despesas diversas

Quadro 1.1 - Dados pré-processados estruturalmente U - custo funcionários


Fonte: Elaborado pelo autor.

Em conjunto com as informações geradas na estrutura do Quadro 1.1, a função


gerada através dos dados selecionados em uma única estrutura tabular, recebem
dois enfoques distintos: a seleção dos atributos, ou redução de dados verticais; e a
seleção de registros, ou redução de dados horizontais.

A redução de dados verticais consiste em uma análise mais ampla dos campos
selecionados. Segundo Goldschmidt e Passos (2005), a redução de dados vertical,
também denominada redução de dimensão, é implementada pela eliminação ou
pela substituição dos atributos de um conjunto de dados. Dessa forma, a intenção
é diminuir ao máximo os atributos sem perder a informação original.

A redução de dados horizontais abrange o conjunto de dados coletados para


geração da informação. Para isso, podemos fazer uma abordagem em um conjunto
de dados aleatórios de um determinado período de amostragem, segmentação e
agregação de informações no banco de dados. A eliminação de determinados
casos para enxugar e permanecer mais focado na informação que precisa ser
gerada.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 19/34
23/02/2020 Ead.br

saiba mais
Saiba mais
O que é Data Warehouse?

Data Warehouse é a referência que fazemos a


um depósito de dados orientado por assunto,
integrado e relacionado ao tempo de forma não
volátil. Sua principal função está em auxiliar o
apoio à decisão gerencial.

Fonte: Elaborado pelo autor.

ACESSAR

Os especialistas no domínio da aplicação são formados por pessoas ou grupos que


dominam o assunto e conhecem o ambiente em que o KDD fará a transformação
dos dados em conhecimento. As informações geradas por essas pessoas são
fundamentais no processo de avaliação dos resultados obtidos e na informação
formada pela estruturação dos dados.

Os objetivos da aplicação são as características esperadas no modelo de


conhecimento gerado no nal do processo. De forma geral, é um espelho do lugar
que esperamos chegar ao nal do KDD, a precisão mínima que a base de
conhecimento gerada precisa ter. No exemplo do restaurante, podemos de nir
que as despesas não podem comprometer mais de 30% do saldo existente em
caixa, isso é a previsão mínima adotada na hora de distribuir as despesas da
empresa de forma aceitável. Para traçar esse tipo de objetivo, esperamos a
posição dos especialistas no assunto abordado, porém eles não são absolutos do
início ao m do processo. Os objetivos podem ser re nados ao longo do processo,
podem ser um ou N objetivos.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 20/34
23/02/2020 Ead.br

Mineração dos Dados


Devemos analisar os recursos envolvidos no processo de mineração dos dados.
Temos o especialista em KDD, ou seja, técnico no assunto e não especialista na
área do problema. Sua obrigação no processo consiste em identi car os
problemas apontados e o conhecimento prévio para sua análise, validando quais
ações devem ser tomadas e quais ferramentas serão melhores empregadas no
processo, assim como validar os resultados obtidos. Nessa etapa, devem ser
aplicados os algoritmos da mineração dos dados, que tem como função gerar
modelos de conhecimento que dependem diretamente dos algoritmos de
mineração que serão utilizados.

Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação. Na Figura 1.6,
podemos observar a gestão nanceira do restaurante, contendo no plano
cartesiano os eixos que consistem no tempo e no saldo, cada ponto representa
uma movimentação nanceira.

Figura 1.6 - Exemplo de aplicação do espaço


Fonte: Elaborada pelo autor.

Entretanto, é necessário que os processos guiados pelo KDD gerem tarefas que
levarão os especialistas do domínio da aplicação a criarem o modelo de
conhecimento que podem trazer diferentes tipos de padrões a serem analisados.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 21/34
23/02/2020 Ead.br

Considere que o restaurante deseja fazer uma expansão e, para isso, terá um
aumento de 10% nos gastos. Ele quer aplicar uma melhor estratégia para que os
lucros acompanhem esse aumento e o saldo ainda consiga se manter positivo.
Essa intenção nos leva a classi cação das movimentações nanceiras que
veremos nas unidades posteriores.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 22/34
23/02/2020 Ead.br

atividade
Atividade
Os dados coletados precisam ser distribuídos em uma estrutura de dados tabular e
organizados de forma nita, para que possa facilitar a geração de informações na base de
conhecimento. Levando em consideração essa informação, assinale a alternativa correta.

a) Todo grupo de dados no KDD está interligado a uma base de fatos, a qual é
determinada pelo conjunto de dados utilizados para a avaliação.
b) Para a geração do modelo de conhecimento, inicialmente, não é necessária a
utilização de algoritmos de mineração de dados.
c) O especialista em KDD é necessário desde a fase de preparação dos dados até
a mineração de dados, acompanhando o especialista na área.
d) O especialista da área é desnecessário a partir da fase de mineração de dados,
sendo importante somente após a mineração de dados ter ocorrido para
avaliação dos resultados.
e) O KDD exige que os dados estejam reunidos em um Data Warehouse.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 23/34
23/02/2020 Ead.br

Abordagens de
Mineração de Dados -
De nição de Regras ou
Aprendizagem

Essa é a fase do pós-processamento, em que o modelo de conhecimento é


analisado e interpretado pelo especialista em KDD e o especialista do problema.
Vamos analisar algumas operações importantes para a de nição de regras e
aprendizado por meio de redes neurais e algoritmos genéticos.

Modelo de Conhecimento Simplificado


Muitas vezes, o modelo de conhecimento gerado na mineração de dados, devido
ao volume de informações que acarreta, pode se tornar complexo para um
direcionamento pelos especialistas. Com isso, é necessária uma simpli cação do
conhecimento para uma melhor análise.

Para melhor compreendermos, vamos analisar a seguinte regra X -> Y, onde as


condições são lógicas. Para isso, temos como regras:

Precisão da regra: é de nida pelo percentual de registros que satisfazem


ao antecedente e posteriormente ao consequente à regra.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 24/34
23/02/2020 Ead.br

Abrangência da regra: é de nida pelo percentual que satisfaz ao


consequente e posteriormente ao antecedente à regra.

O especialista de KDD deve estabelecer limites de precisão e abrangência, de


forma que ao enxugar do modelo de conhecimento gerado, eliminando todas as
regras que não satisfaçam os limites estabelecidos.

Regras de Associação
É a junção de objetos que tenham características e tendências semelhantes,
gerando redes interconectadas de conhecimento adquirido. Segundo Côrtez et al.
(2002), o banco de dados é visto como uma coleção de transação, cada uma
envolvendo um conjunto de itens.  Utilizando esse modelo simpli camos a geração
de conhecimento para o auxílio na tomada de decisão.

Redes Neurais
Consiste na aplicação digital das redes biológicas de neurônios, ou seja, utilizam a
mesma regra. Denominados como RN (redes neurais), implementam detecções
so sticadas de padrões e algoritmos de aprendizado de máquina, para auxiliar a
compreensão de grandes bases de dados.

Uma rede neural é um processador maciçamente paralelamente


distribuído constituído de unidades de processamento simples, que têm
a propensão natural para armazenar conhecimento experimental e
torná-lo disponível para uso. Assemelhando-se ao cérebro humano.
(HAYKIN, 2001, p. 28)

O conhecimento é assimilado pela rede a partir da formação do conhecimento, de


forma a compreender esse conteúdo como aprendizado. E as conexões geradas
por meio dos pesos sinápticos adquiridos, armazena o conhecimento.  A Figura 1.7
mostra o modelo hipotético de uma rede neural e suas camadas intermediárias,
que demonstram o nível de conhecimento adquirido.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 25/34
23/02/2020 Ead.br

Figura 1.7 - Representação grá ca de uma rede neural


Autor: Adaptado de Côrtez, Porcaro e Lifschitz (2002).

Algoritmos Genéticos
Algoritmos genéticos são formados por algoritmos baseados na seleção natural e
genética para otimização na busca por resultados que auxiliem a tomada de
decisão de uma organização. Geralmente, considerando que uma busca ocorre de
forma sequencial até conseguir alcançar o resultado esperado. Os algoritmos
genéticos realizam a busca de possíveis soluções de forma simultânea em N bases
de informação. Segundo Côrtez, Porcaro e Lifschitz (2002), algoritmos genéticos
são aplicados com sucesso em campos diversi cados como análise de imagens,
escalonamento e projetos de engenharia.

Sua principal função é resolver os problemas, assim como agrupá-los. Sua


capacidade de trabalhar de forma paralela tem sido uma arma fantástica na
mineração de dados, entretanto, isso exige uma demanda computacional
considerável em sua utilização.

Atualmente, várias outras técnicas estão à disposição da mineração de dados,


como a lógica fuzzy, classi cação bayesiana, entre outras que tem seu emprego

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 26/34
23/02/2020 Ead.br

conforme a necessidade da organização. Portanto, cabe a análise da situação de


forma especí ca para compreender qual melhor técnica para a ocasião.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 27/34
23/02/2020 Ead.br

atividade
Atividade
Para que a mineração de dados seja mais efetiva com o passar do tempo, seu
funcionamento é de extrema importância, o sistema utiliza o aprendizado por
experiência, baseado no modelo de experiência gerado. Considerando essa a rmação,
assinale a alternativa correta.

a) O aprendizado de máquina pode ser gerado utilizando algoritmos envolvidos


em redes neurais ou algoritmos genéticos.
b) Redes neurais se baseiam na linha evolutiva para formação dos algoritmos de
aprendizado de máquina.
c) Algoritmos genéticos se baseiam na estrutura de evolução da rede biológica
neurológica.
d) Algoritmos genéticos trabalham para facilitar o aprendizado de máquina,
porém diferente das redes neurais não conseguem realizar buscas de forma
paralela.
e) A principal função dos algoritmos genéticos é resolver os problemas
paralelamente de forma ágil, independente do volume de informações.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 28/34
23/02/2020 Ead.br

indicações
Material
Complementar

LIVRO

Big Data: O futuro dos dados e


aplicações
Editora: Saraiva

Autor: Felipe Nery Rodrigues Machado

ISBN: 978-8536527000

Comentário: Este livro apresenta os principais


fundamentos de Big Data, seu histórico e sua utilização.
Explica as diferenças existentes entre ele e Business
Intelligence (BI), e ainda, o que é Big Data Analytics e
Análise Preditiva.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 29/34
23/02/2020 Ead.br

FILME

The beauty of data visualization - David


McCandless
Ano: 2012

Comentário: David McCandless transforma conjuntos de


dados complexos, como gastos militares em todo o mundo,
novidades da mídia e atualizações de status do Facebook,
em belos e simples diagramas que provocam padrões e
conexões invisíveis. Ele sugere que um bom design é a
melhor maneira de navegar pelo excesso de informações, e
pode mudar a maneira como vemos o mundo.

TRAILER

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 30/34
23/02/2020 Ead.br

conclusão
Conclusão

Nesta unidade, vimos que não existe uma forma especí ca de aplicação do
conhecimento adquirido ao longo da unidade, não possui uma de nição exata,
muito menos qual seria a melhor técnica de mineração de dados ou descoberta de
conhecimento a ser utilizada. Nesse sentido, podemos utilizar de árvores, regras,
tabelas estruturadas ou semiestruturadas, cubos de dados, entre outros
elementos possíveis. O que precisamos entender é qual o resultado esperado?
Quais dados temos em mão e qual a maneira que eles se encontram distribuídos?
Dessa maneira, conseguimos identi car a técnica utilizada e quais algoritmos
melhor se aplicam para alcançarmos os resultados esperados.

referências
Referências
Bibliográ cas

CÔRTEZ, S. C.; PORCARO, R. M.; LIFSCHITZ, S. Mineração de dados:


funcionalidades, técnicas e abordagens. PUC Rio Inf., 2002.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 31/34
23/02/2020 Ead.br

COMSTOR, C. Fatos interessantes sobre o Big Data. Canal do Comstor, 2019.


Disponível em: https://blogbrasil.comstor.com/fatos-interessantes-sobre-o-big-
data. Acesso em: 6 dez. 2019.

CHEN, C. P.; ZHANG, C. Y. Data-intensive applications, challenges, techniques and


technologies: A survey on Big Data. Information Sciences, v. 275, p. 314-347, 10
ago. 2014.

DAVENPORT, T. H.; BARTH, P.; BEAN, R. How “big data” is different. MIT: Sloan
Management Review. MIT Sloan Management Review, v. 54, n. 1, 2012.

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to


knowledge discovery: an overview. Menlo Park: AAAI Press, 1996.

GALDINO, N. Big Data: Ferramentas e Aplicabilidade. In: SIMPÓSIO DE


EXCELÊNCIA EM GESTÃO E TECNOLOGIA. 2016. Disponível em:
https://www.aedb.br/seget/arquivos/artigos16/472427.pdf. Acesso em: 10 dez.
2019.

GOLDSCHMIDT, R.; PASSOS, E. Data Mining: um guia prático. São Paulo: Elsevier
Editora Ltda., 2005.

GOLDMAN, A.; KON, F.; JUNIOR, F. P.; POLATO, I.; DE FÁTIMA PEREIRA, R.
Apache Hadoop: Conceitos teóricos e práticos, evolução e novas possibilidades.
In: JORNADAS DE ATUALIZAÇÕES E INFORMÁTICA, 31., 2012. Anais… Maceió:
SBC, 2012. Disponível em: https://bit.ly/39aMzW3. Acesso em: 1 dez. 2019.

HAYKIN, S. Redes Neurais: princípios e prática. 2. ed. Porto Alegre: Editora


Bookman, 2001.

REZENDE, E. Dados, informação e conhecimento. O que são? ER Consultoria,


2015. Disponível em: http://eliana-rezende.com.br/dados-informacao-e-
conhecimento-o-que-sao/. Acesso em: 6 dez. 2019.

SHIBA, S. K.; Modelagem de processo de extração de conhecimento em banco de


dados para sistemas de suporte à decisão. Dissertação (Mestrado) - Escola

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 32/34
23/02/2020 Ead.br

Politécnica da Universidade de São Paulo. São Paulo. 2008. Disponível em:


https://www.teses.usp.br/teses/disponiveis/3/3142/tde-02102008-173336/pt-
br.php. Acesso em: 21 jan. 2020.

SILVEIRA, M.; MARCOLIN, C. B.; FREITAS, H. M. R. Big Data e seu uso corporativo:
Uma revisão literária. In: SIMPÓSIO INTERNACIONAL DE GESTÃO DE
PROJETOS, INOVAÇÃO E SUSTENTABILIDADE, 4., 2015. Anais… São Paulo:
SIGEP, 2015. Disponível em: https://singep.org.br/4singep/resultado/245.pdf.
Acesso em: 25 nov. 2019.

LAUDON, K.; LAUDON, J. Sistemas de informações gerenciais. 9. ed. São Paulo:


Pearson Education do Brasil, 2011.

THURAISINGHAM, B. Data Mining: technologies, techniques, tools and trends.


Washington: CRCPress, 1999.

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 33/34
23/02/2020 Ead.br

https://fmu.blackboard.com/webapps/late-Course_Landing_Page_Course_100-BBLEARN/Controller 34/34

Você também pode gostar